3 limites de salutations, où est passé votre limite de Claude Code ? Un bug de cache de 28 jours, et une réponse officielle qui vous encourage à "l'utiliser avec parcimonie."
4-17 %. C'est le taux de réussite du cache de prompt pour Claude Code au cours du mois dernier. Le niveau normal est de 97-99 %.
Cela signifie que lorsque vous reprenez une session précédente, Claude Code ne réutilise pas le contexte précédemment traité, mais traite tout depuis le début à chaque fois, consommant des crédits à un rythme 10 à 20 fois plus élevé que la normale. Vous pourriez penser que vous poursuivez une conversation, mais en réalité, vous commencez une toute nouvelle conversation à prix plein à chaque fois.

Ces données proviennent de la surveillance proxy de l'indépendant ArkNill. En mettant en place un proxy transparent, il a enregistré chaque requête entre Claude Code et l'API Anthropic, découvrant au moins deux bugs de cache côté client qui ont empêché le serveur API de faire correspondre les préfixes de conversation mis en cache, forçant une reconstruction complète des tokens à chaque tour.

Le graphique ci-dessus montre une comparaison des taux de réussite du cache à travers trois étapes. Pendant les versions v2.1.69 à v2.1.89 (la période du bug), le taux de réussite du cache de la version autonome n'était que de 4 à 17 %. Après avoir corrigé un bug critique dans la version v2.1.90, le taux de réussite du cache de démarrage à froid est revenu à 47-99,7 %. Avec la version v2.1.91, le taux de réussite du cache stable a récupéré à 97-99 %.
Un détail notable du graphique : la plage dans v2.1.90 est assez large (47 % à 99,7 %) car le cache doit encore "se réchauffer" lorsque la session vient d'être reprise, ce qui entraîne des taux de réussite faibles lors des premiers tours, mais revient rapidement à la normale. Dans la version bugée, ce réchauffement ne se produit jamais — le taux de réussite du cache reste toujours à 14 500 tokens de prompt système, avec l'historique complet de la conversation entièrement facturé à chaque fois.
28 Jours, 20 Versions
Ce bug n'est pas du type introduit dans une mise à jour et corrigé dans la suivante. Selon les enregistrements de publication du registre npm, la version v2.1.69 qui a introduit le bug a été publiée le 4 mars, et la version v2.1.90 qui a corrigé le bug a été publiée le 1er avril. Il y avait 28 jours entre les deux, couvrant 20 versions.

La chronologie a révélé un détail fascinant. Après l'introduction du bug le 4 mars, les utilisateurs ne se sont pas immédiatement plaints à grande échelle. Ce n'est que le 23 mars que les plaintes ont éclaté en masse, presque trois semaines plus tard. La raison est que, selon l'analyse du problème GitHub #41930, du 13 au 28 mars, Anthropic avait une promotion de quota 2x en cours (doublant pendant les heures creuses), ce qui a objectivement masqué l'impact du bug. Après la fin de la promotion, la consommation du bug de cache est revenue aux niveaux de facturation normaux, et les quotas des utilisateurs ont instantanément "s'évaporé".
La réponse d'Anthropic n'a pas été rapide. Le 26 mars, trois jours après l'éruption des plaintes des utilisateurs, l'ingénieur Thariq Shihipar a annoncé sur son compte personnel X que la limite des heures de pointe (jours de semaine de 5h à 11h PT) avait été resserrée. Le 30 mars, Anthropic a admis sur Reddit que le "taux auquel les utilisateurs atteignaient leur quota dépassait largement les attentes," le classant comme la priorité absolue de l'équipe. Ce n'est que le 1er avril que la membre de l'équipe Lydia Hallie a publié les résultats de l'enquête officielle.
Tout au long du processus, Anthropic n'a publié aucun article de blog, n'a pas envoyé de notifications par e-mail, ni mis à jour la page de statut. Toute communication officielle a été faite uniquement par le biais des publications personnelles des ingénieurs sur les réseaux sociaux et de quelques commentaires sur Reddit.
Combien avez-vous payé, et combien de temps pouvez-vous l'utiliser ?
Le problème GitHub #41930 a recueilli des centaines de rapports d'utilisateurs. Le cas le plus extrême était celui d'un utilisateur d'abonnement Max 20x (200 $/mois), dont la fenêtre de 5 heures a été entièrement consommée en 19 minutes. Les utilisateurs Max 5x (100 $/mois) ont signalé que leur fenêtre de 5 heures était épuisée en 90 minutes. Selon The Letter Two, certains utilisateurs ont affirmé qu'un simple "bonjour" consommait 13 % de leur quota de session. Un utilisateur Pro (20 $/mois) sur Discord a mentionné que son quota "s'épuisait chaque lundi et ne se réinitialisait que le samedi," avec seulement 12 jours d'utilisation normale en 30 jours.

D'après les tests de référence d'ArkNill, dans la version bug v2.1.89, le quota de 100 % du plan Max 20x serait épuisé en environ 70 minutes. Il a également calculé le coût d'une seule opération --resume pour une session de contexte de 500K tokens, qui est d'environ 0,15 $, car le système rejoue entièrement tout le contexte.
« Vous le tenez mal »
L'enquête de Lydia Hallie a confirmé deux points : d'abord, il y a effectivement eu un durcissement des limites de consommation aux heures de pointe, et ensuite, il y a eu une augmentation de la consommation de jetons dans le contexte d'un million de jetons. Elle a mentionné que l'équipe avait corrigé certains bugs mais a souligné que « aucun des bugs n'a conduit à une surfacturation ».
Elle a ensuite fourni quatre recommandations de frugalité :
1. Utilisez Sonnet 4.6 au lieu d'Opus (Opus consomme environ deux fois plus) ;
2. Réduisez la profondeur de raisonnement ou désactivez la pensée prolongée lorsque le raisonnement approfondi n'est pas nécessaire ;
3. Ne reprenez pas de longues sessions inactives de plus d'une heure ; commencez plutôt une nouvelle session ;
4. Définissez la variable d'environnement CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 pour limiter la taille de la fenêtre de contexte.
Aucune mention n'a été faite d'une forme de réinitialisation de quota ou de compensation.
L'animateur de podcast AI, Alex Volkov, a résumé cette réponse par « Vous le tenez mal », soulignant qu'Anthropic lui-même avait défini le contexte d'un million de jetons comme par défaut, promu Opus comme modèle phare, et mis en avant la pensée prolongée comme un argument de vente, mais conseille maintenant aux utilisateurs payants de ne pas utiliser ces fonctionnalités.
L'affirmation de « pas de surfacturation » crée également des tensions avec l'historique des mises à jour de Claude Code. Juste la veille de la réponse de Lydia, la version 2.1.90 a corrigé un bug de régression de cache qui était présent depuis la version 2.1.69 : lors de l'utilisation de --resume pour reprendre une session, les requêtes qui auraient dû toucher le cache déclencheraient un échec complet du cache de prompt, entraînant une facturation complète. La réponse de Lydia n'a pas mentionné cette anomalie de facturation confirmée.

Pour comparaison, le Codex d'OpenAI avait précédemment rencontré des problèmes similaires de consommation anormale de quota. L'approche d'OpenAI était de réinitialiser les quotas des utilisateurs, d'émettre des remboursements de crédit et d'annoncer la suppression du plafond d'utilisation sur Codex en mars. L'approche d'Anthropic est de conseiller aux utilisateurs de rétrograder les modèles, de désactiver les fonctionnalités, de limiter le contexte et d'attribuer la responsabilité à l'utilisation par les utilisateurs.
Anthropic propose un abonnement pour le "modèle le plus puissant + le maximum de contexte + les capacités de raisonnement les plus élevées," facturant des frais de 20 à 200 dollars par mois. Un bug de mise en cache de 28 jours a entraîné une déplétion des quotas des utilisateurs payants à un rythme 10 à 20 fois plus rapide, la réponse officielle étant de l'utiliser avec parcimonie.
Vous pourriez aussi aimer

Comment équilibrer le risque et le rendement dans les investissements DeFi ?

La thèse de Tom Lee sur l'Ethereum : Pourquoi celui qui avait prédit le dernier cycle mise encore plus gros sur Bitmine
Tom Lee s'impose comme l'un des plus fervents défenseurs d'Ethereum. De Fundstrat à Bitmine, son analyse sur l'Ethereum associe rendement du staking, accumulation de trésorerie et valeur à long terme du réseau. Voici pourquoi « Tom Lee Ethereum » est devenu l'un des sujets les plus suivis dans le monde des cryptomonnaies.

Succession complexe chez Apple : John Turner prend les rênes
Apple change de PDG après 15 ans, signalant un “retour au matériel”. John Turner, ancien responsable du matériel,…

Naval prend personnellement la scène : La collision historique entre les gens ordinaires et le capital-risque

a16z Crypto : 9 graphiques pour comprendre les tendances de l'évolution des stablecoins

Réfutation de « La fin de la cryptomonnaie » de Yang Haipo

Un sèche-cheveux peut-il rapporter 34 000 $ ? Interprétation du paradoxe de réflexivité des marchés de prédiction

Fondateur de 6MV : En 2026, le « point de bascule historique » pour l’investissement en cryptomonnaies est arrivé

Abraxas Capital émet 2,89 milliards de USDT : Un coup de pouce à la liquidité ou simplement plus d'arbitrage de stablecoins ?
Abraxas Capital vient de recevoir 2,89 milliards de dollars en USDT fraîchement émis de Tether. S'agit-il d'une injection de liquidité haussière pour les marchés de la crypto, ou est-ce le train-train habituel pour un géant de l'arbitrage de stablecoins ? Nous analysons les données et l'impact probable sur le Bitcoin, les altcoins et la DeFi.

Un VC du monde de la Crypto a déclaré que l'IA est trop folle, et qu'ils sont très conservateurs

L'histoire évolutive des algorithmes de contrats : Une décennie de contrats perpétuels, le rideau n'est pas encore tombé

Actualités sur les ETF Bitcoin aujourd'hui : des entrées de 2,1 milliards de dollars signalent une forte demande institutionnelle pour le BTC
Les actualités sur les ETF Bitcoin ont enregistré des entrées de <g id='1'>2,1 milliards de dollars sur 8 jours consécutifs</g>, marquant l'une des plus fortes séquences d'accumulation récentes. Voici ce que signifient les dernières actualités sur les ETF Bitcoin pour le prix du BTC et si le niveau de rupture de 80 000 $ est le prochain.

Mis à la porte par PayPal, Musk veut faire son retour sur le marché des cryptomonnaies

Michael Saylor : L'hiver est terminé – a-t-il raison ? 5 points de données clés (2026)
Michael Saylor a tweeté hier « L'hiver est terminé. » C'est court. C'est audacieux. Et cela fait parler le monde de la crypto.
Mais a-t-il raison ? Ou est-ce juste un autre PDG qui fait monter ses actions ?
Examinons les données. Soyons neutres. Voyons si la glace a vraiment fondu.

Application WEEX Bubbles maintenant en direct visualise le marché des cryptomonnaies d'un coup d'œil
WEEX Bubbles est une application autonome conçue pour aider les utilisateurs à comprendre rapidement les mouvements complexes du marché des cryptomonnaies grâce à une visualisation intuitive en bulles.

Polygon co-fondateur Sandeep: Rédaction après l'explosion de la chaîne de pont de chaîne

Mise à jour majeure sur le Web : Plus de 10 styles de graphiques avancés pour une meilleure compréhension du marché
Afin de proposer des outils d'analyse plus performants et plus professionnels, WEEX a procédé à une mise à jour majeure de ses graphiques de trading en ligne, qui prennent désormais en charge jusqu'à 14 types de graphiques avancés.

Rapport du matin | Aethir sécurise un contrat d'entreprise de 260 millions de dollars avec Axe Compute ; New Fire Technology acquiert l'équipe de trading d'Avenir Group ; le volume de trading de Polymarket est dépassé par Kalshi
Comment équilibrer le risque et le rendement dans les investissements DeFi ?
La thèse de Tom Lee sur l'Ethereum : Pourquoi celui qui avait prédit le dernier cycle mise encore plus gros sur Bitmine
Tom Lee s'impose comme l'un des plus fervents défenseurs d'Ethereum. De Fundstrat à Bitmine, son analyse sur l'Ethereum associe rendement du staking, accumulation de trésorerie et valeur à long terme du réseau. Voici pourquoi « Tom Lee Ethereum » est devenu l'un des sujets les plus suivis dans le monde des cryptomonnaies.
Succession complexe chez Apple : John Turner prend les rênes
Apple change de PDG après 15 ans, signalant un “retour au matériel”. John Turner, ancien responsable du matériel,…





