Giới hạn 3 lời chào, giới hạn mã Claude của bạn đâu rồi? Lỗi bộ nhớ đệm 28 ngày, và phản hồi chính thức khuyến khích bạn "sử dụng nó một cách tiết kiệm".

By: blockbeats|2026/04/03 13:18:46

Chia sẻ

4-17%. Đây là tỷ lệ truy cập bộ nhớ cache nhanh cho Claude Code trong tháng vừa qua. Mức bình thường là 97-99%.

Điều này có nghĩa là khi bạn tiếp tục một phiên làm việc trước đó, Claude Code không sử dụng lại ngữ cảnh đã được xử lý trước đó, mà thay vào đó sẽ xử lý mọi thứ từ đầu mỗi lần, tiêu tốn tín dụng với tốc độ cao hơn từ 10 đến 20 lần so với bình thường. Bạn có thể nghĩ rằng mình đang tiếp tục một cuộc trò chuyện, nhưng trên thực tế, mỗi lần như vậy bạn lại bắt đầu một cuộc trò chuyện hoàn toàn mới, với chi phí không giới hạn.

Giới hạn 3 lời chào, giới hạn mã Claude của bạn đâu rồi? Lỗi bộ nhớ đệm 28 ngày, và phản hồi chính thức khuyến khích bạn

Dữ liệu này đến từ hệ thống giám sát proxy của nhà phát triển độc lập ArkNill. Bằng cách thiết lập một máy chủ proxy trong suốt, anh ấy đã ghi lại mọi yêu cầu giữa Claude Code và API Anthropic, phát hiện ra ít nhất hai lỗi bộ nhớ đệm phía máy khách khiến máy chủ API không thể khớp các tiền tố hội thoại được lưu trong bộ nhớ đệm, buộc phải xây dựng lại toàn bộ mã thông báo mỗi vòng.

Biểu đồ trên cho thấy sự so sánh tỷ lệ truy cập bộ nhớ cache thành công qua ba giai đoạn. Trong các phiên bản từ v2.1.69 đến v2.1.89 (thời điểm xảy ra lỗi), tỷ lệ truy cập bộ nhớ cache của phiên bản độc lập chỉ đạt 4-17%. Sau khi khắc phục một lỗi nghiêm trọng trong phiên bản v2.1.90, tỷ lệ truy cập bộ nhớ cache khi khởi động nguội đã trở lại mức 47-99,7%. Đến phiên bản v2.1.91, tỷ lệ truy cập bộ nhớ cache ổn định đã phục hồi lên mức 97-99%.

Một chi tiết đáng chú ý từ biểu đồ: phạm vi trong phiên bản v2.1.90 khá rộng (từ 47% đến 99,7%) vì bộ nhớ đệm vẫn cần "khởi động" khi phiên làm việc được tiếp tục, dẫn đến tỷ lệ truy cập thấp trong vài vòng đầu tiên, nhưng nhanh chóng trở lại bình thường. Trong phiên bản bị lỗi, quá trình khởi động này không bao giờ diễn ra — tỷ lệ truy cập bộ nhớ cache luôn duy trì ở mức 14.500 token nhắc nhở hệ thống, và toàn bộ lịch sử hội thoại đều bị tính phí đầy đủ mỗi lần.

28 ngày, 20 phiên bản

Lỗi này không phải là loại lỗi được đưa vào trong một bản cập nhật và được sửa trong bản cập nhật tiếp theo. Theo hồ sơ phát hành trên npm registry, phiên bản v2.1.69 gây ra lỗi được phát hành vào ngày 4 tháng 3, và phiên bản v2.1.90 đã sửa lỗi được phát hành vào ngày 1 tháng 4. Khoảng thời gian giữa hai lần phát hành là 28 ngày, trải dài qua 20 phiên bản.

Dòng thời gian đã hé lộ một chi tiết hấp dẫn. Sau khi lỗi này xuất hiện vào ngày 4 tháng 3, người dùng không ngay lập tức phản ánh rộng rãi về vấn đề này. Mãi đến ngày 23 tháng 3, các khiếu nại mới bùng phát hàng loạt, gần ba tuần sau đó. Lý do là, theo phân tích sự cố #41930 trên GitHub, từ ngày 13 đến 28 tháng 3, Anthropic đã triển khai chương trình khuyến mãi gấp đôi hạn mức (gấp đôi trong giờ thấp điểm), điều này đã che giấu một cách khách quan tác động của lỗi. Sau khi chương trình khuyến mãi kết thúc, mức tiêu thụ bộ nhớ cache trở lại mức tính phí thông thường và hạn mức sử dụng của người dùng ngay lập tức "biến mất".

Phản hồi của Anthropic không nhanh chóng. Vào ngày 26 tháng 3, ba ngày sau khi người dùng bắt đầu phàn nàn, kỹ sư Thariq Shihipar đã thông báo trên tài khoản X cá nhân của mình rằng giới hạn giờ cao điểm (các ngày trong tuần từ 5 giờ sáng đến 11 giờ sáng theo giờ Thái Bình Dương) đã được thắt chặt. Vào ngày 30 tháng 3, Anthropic thừa nhận trên Reddit rằng "tỷ lệ người dùng đạt chỉ tiêu vượt xa mong đợi", đồng thời coi đây là ưu tiên hàng đầu của nhóm. Mãi đến ngày 1 tháng 4, thành viên nhóm Lydia Hallie mới công bố kết quả điều tra chính thức.

Trong suốt quá trình này, Anthropic không đăng bất kỳ bài viết nào trên blog, không gửi thông báo qua email, cũng không cập nhật trang trạng thái. Mọi thông tin chính thức đều được truyền đạt hoàn toàn thông qua các bài đăng trên mạng xã hội cá nhân của các kỹ sư và một vài bình luận trên Reddit.

Bạn đã trả bao nhiêu tiền và bạn có thể sử dụng nó trong bao lâu?

Vấn đề số #41930 trên GitHub đã thu thập hàng trăm báo cáo từ người dùng. Trường hợp cực đoan nhất là người dùng gói Max 20x (200 đô la/tháng), toàn bộ thời gian sử dụng 5 giờ của họ đã bị tiêu thụ hết chỉ trong 19 phút. Người dùng Max 5x (100 đô la/tháng) cho biết thời gian sử dụng 5 tiếng của họ đã hết chỉ trong 90 phút. Theo The Letter Two, một số người dùng cho rằng một lời chào đơn giản như "hello" đã tiêu tốn 13% dung lượng phiên của họ. Một người dùng Pro (20 đô la/tháng) trên Discord cho biết dung lượng sử dụng của anh ấy "hết vào mỗi thứ Hai và chỉ được thiết lập lại vào thứ Bảy", trong khi chỉ sử dụng bình thường được 12 ngày trong 30 ngày.

Dựa trên kết quả kiểm tra hiệu năng của ArkNill, ở phiên bản lỗi v2.1.89, dung lượng 100% của gói Max 20x sẽ bị cạn kiệt trong khoảng 70 phút. Ông cũng tính toán chi phí cho một thao tác --resume duy nhất đối với phiên ngữ cảnh 500K token, ước tính khoảng 0,15 đô la, vì hệ thống phát lại toàn bộ ngữ cảnh.

"Bạn đang cầm sai cách rồi"

Cuộc điều tra của Lydia Hallie đã xác nhận hai điểm: thứ nhất, quả thực đã có sự thắt chặt các giới hạn giờ cao điểm, và thứ hai, đã có sự gia tăng lượng tiêu thụ token trong bối cảnh 1 triệu token. Cô ấy đề cập rằng nhóm đã sửa một số lỗi nhưng nhấn mạnh rằng "không có lỗi nào dẫn đến việc tính phí quá cao."

Sau đó, bà đưa ra bốn lời khuyên về tiết kiệm:
1. Hãy sử dụng Sonnet 4.6 thay vì Opus (Opus tiêu tốn tài nguyên với tốc độ gấp đôi);

2. Giảm độ sâu của lập luận hoặc tắt chế độ suy luận mở rộng khi không cần thiết;

3. Không nên tiếp tục các phiên làm việc không hoạt động quá một giờ; thay vào đó hãy bắt đầu một phiên mới;

4. Đặt biến môi trường CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 để giới hạn kích thước cửa sổ ngữ cảnh.

Không hề đề cập đến bất kỳ hình thức thiết lập lại hạn ngạch hoặc bồi thường nào.

Người dẫn chương trình podcast về AI, Alex Volkov, đã tóm tắt phản hồi này là "Bạn đang hiểu sai vấn đề", chỉ ra rằng chính Anthropic đã đặt bối cảnh 1 triệu token làm mặc định, quảng bá Opus là mô hình chủ lực và nhấn mạnh khả năng tư duy mở rộng như một điểm bán hàng, nhưng hiện đang khuyên người dùng trả phí không nên sử dụng các tính năng này.

Việc khẳng định "không tính phí quá cao" cũng tạo ra mâu thuẫn với chính lịch sử cập nhật của Claude Code. Chỉ một ngày trước khi Lydia trả lời, phiên bản v2.1.90 đã sửa một lỗi hồi quy bộ nhớ cache tồn tại từ phiên bản v2.1.69: khi sử dụng --resume để tiếp tục phiên làm việc, các yêu cầu đáng lẽ phải được lưu vào bộ nhớ cache lại gây ra lỗi truy cập bộ nhớ cache hoàn toàn, dẫn đến việc tính phí đầy đủ. Phản hồi của Lydia không đề cập đến sự bất thường trong việc lập hóa đơn đã được xác nhận này.

Để so sánh, Codex của OpenAI trước đây cũng đã gặp phải các vấn đề tương tự về tiêu thụ hạn mức bất thường. Cách tiếp cận của OpenAI là đặt lại hạn mức người dùng, hoàn tiền tín dụng và thông báo về việc loại bỏ giới hạn sử dụng trên Codex vào tháng 3. Cách tiếp cận của Anthropic là khuyên người dùng hạ cấp mô hình, vô hiệu hóa các tính năng, hạn chế ngữ cảnh và quy trách nhiệm cho việc sử dụng của người dùng.

Anthropic bán gói đăng ký "mô hình mạnh nhất + ngữ cảnh tối đa + khả năng suy luận cao nhất", với mức phí từ 20 đến 200 đô la mỗi tháng. Lỗi bộ nhớ đệm 28 ngày đã khiến dung lượng sử dụng của người dùng trả phí bị hao hụt nhanh hơn từ 10 đến 20 lần, và phản hồi chính thức là nên sử dụng tiết kiệm.