Đánh giá album Claude Opus 4.7: Liệu nó có xứng đáng với danh hiệu Mô hình mạnh nhất?
Tựa gốc: "Opus 4.7 không bao giờ được dự định là 'mẫu mạnh nhất': Mọi người đều ca ngợi tốc độ của Claude nhưng không thể theo kịp tốc độ của Anthropic.
Nguồn gốc ban đầu: Silicon Pro
Vào ngày 16 tháng 4 năm 2026, Anthropic chính thức phát hành Claude Opus 4.7, chỉ hơn hai tháng sau thế hệ trước Opus 4.6.
Sau một loạt các cập nhật sản phẩm và mẫu mã dồn dập và liên tục gần đây, việc Anthropic ra mắt mẫu mới đương nhiên mang đến một cảm giác hoành tráng. Tôi chắc rằng bạn đã thấy nhiều báo cáo đánh giá mô hình lần đầu tiên, trong đó mọi người đều gọi Opus 4.7 là "mô hình mạnh nhất", dẫn đến những thuật ngữ như "nhân loại đã diệt vong" và "cảnh báo thất nghiệp" lại một lần nữa gây xôn xao.
Nhưng hãy cùng xem Anthropic đã thực sự phát hành những gì.
Phong cách âm nhạc của bản phát hành này thực sự khá khác thường.
Trong thông báo, Anthropic đã nêu rõ: Khả năng của Opus 4.7 không tốt bằng Claude Mythos Preview—phiên bản Mythos chỉ dành cho một số đối tác như Apple, Google, Microsoft, Nvidia và không dành cho các nhà phát triển và người dùng thông thường.
Hơn nữa, điều đáng chú ý hơn cả những lời lẽ hoa mỹ này là nó không chỉ yếu hơn so với Mythos huyền thoại, mà thực tế còn yếu hơn ở một số khả năng quan trọng so với mẫu thế hệ trước.
Một con số bất thường trong bảng hiệu suất của Opus 4.7: Chỉ số Long Context Benchmark MRCR v2 @1M đã giảm từ 78,3% trong Opus 4.6 xuống còn 32,2%, giảm mạnh 46 điểm phần trăm.
Rất hiếm khi một phiên bản cải tiến của dòng sản phẩm chủ lực lại tự giảm đi một nửa khả năng vượt trội của chính nó.
Và đây là một lựa chọn mà nó tự đưa ra.
Vì vậy, trong khi mọi người tiếp tục mù quáng ca ngợi từng mô hình của Anthropic là "mạnh nhất", thì thực tế họ lại đang tụt hậu so với tốc độ phát triển của chính Anthropic!

Nó thậm chí còn không thèm giải quyết vấn đề rửa xe này.
Opus 4.7 là một phiên bản không hề có ý định trở thành "mẫu mạnh nhất". Đây là một sản phẩm được ra mắt với những sự đánh đổi rõ ràng, một cách tiếp cận "dao chính xác", khác biệt so với các chiến lược ra mắt sản phẩm của các nhà sản xuất mẫu mã hàng đầu khác trong quá khứ. Đây cũng là một hướng đi mới mà các nhà sản xuất hàng đầu đang đồng loạt hướng tới hiện nay, bởi họ rõ ràng cảm thấy rằng "bước nhảy vọt" của chính mô hình này không còn bền vững nữa - Anthropic ở một mức độ nào đó đang tiến gần hơn đến chiến lược phát hành sản phẩm của các công ty như Apple và Microsoft ở giai đoạn thương mại hóa sản phẩm rất trưởng thành của họ.
Đây có thể là ý nghĩa thực sự của con số 4.7.
1. Khả năng lập trình: Sự cải thiện thực sự đằng sau những con số
Để hiểu rõ hơn về những thay đổi này, cách tốt nhất đương nhiên là trước tiên hãy xem xét kỹ những gì chúng thực sự mang lại trong thời điểm hiện tại.
Dưới đây là toàn bộ thông tin chi tiết về bản phát hành Opus 4.7 — những cải tiến, những điểm yếu, phản hồi trực tiếp từ nhà phát triển và liệu việc chuyển đổi có cần thiết hay không.
Thông báo chính thức: https://www.anthropic.com/news/claude-opus-4-7
Hiệu năng lập trình là trọng tâm của phiên bản Opus 4.7 này.

SWE-bench Verified (500 vấn đề thực tế trên GitHub, yêu cầu các mô hình tạo ra các bản vá vượt qua các bài kiểm tra) đã tăng từ 80,8% trong Opus 4.6 lên 87,6% trong Opus 4.7, cải thiện gần 7 điểm phần trăm, trở thành mô hình có hiệu suất cao nhất trong số các mô hình được công khai. So với tỷ lệ 80,6% của Gemini 3.1 Pro, sự khác biệt là đáng kể.
SWE-bench Pro là phiên bản nâng cao hơn, bao gồm toàn bộ quy trình kỹ thuật trong bốn ngôn ngữ lập trình. Tỷ lệ ủng hộ Opus 4.7 đã tăng từ 53,4% lên 64,3%, tương đương mức tăng 11 điểm phần trăm. So với GPT-5.4 (57,7%) và Gemini 3.1 Pro (54,2%), Opus 4.7 rõ ràng vượt trội hơn trong bài kiểm tra này.
CursorBench là một công cụ đo hiệu năng thực tế từ Cursor, chuyên dùng để đánh giá chất lượng hỗ trợ lập trình của một mô hình trong môi trường IDE thực tế. Opus 4.6 đạt 58%, trong khi Opus 4.7 tăng vọt lên 70%, cải thiện 12 điểm phần trăm. Michael Truell, đồng sáng lập Cursor, tuyên bố chính thức: "Đây là một bước tiến đáng kể về khả năng, cung cấp khả năng tư duy sáng tạo mạnh mẽ hơn khi giải quyết các thách thức."
Dữ liệu được đối tác kiểm nghiệm:
· Rakuten: Số lượng tác vụ sản xuất được giải quyết bởi Opus 4.7 nhiều gấp ba lần so với Opus 4.6, với mức tăng hai chữ số về chất lượng mã và chất lượng kiểm thử.
· Nhà máy: Tỷ lệ hoàn thành nhiệm vụ tăng 10-15%, giảm đáng kể số lần thất bại trong quá trình huấn luyện.
• Cognition (công ty của Devin): Mẫu máy này "có thể hoạt động liên tục trong nhiều giờ mà không cần ngắt kết nối".
· CodeRabbit: Tỷ lệ truy xuất tăng hơn 10%, "nhanh hơn một chút so với chế độ GPT-5.4 xhigh".
· Bu lông: Trong các tác vụ biên dịch ứng dụng dài hơn, Opus 4.7 hoạt động tốt hơn Opus 4.6, "cho thấy sự cải thiện lên đến 10% trong trường hợp tốt nhất, mà không gặp phải các vấn đề hồi quy đã thấy trước đây".
· Bàn đấu nối 2.0: Opus 4.7 đã giải quyết ba nhiệm vụ mà không có mô hình Claude nào trước đây (hoặc đối thủ cạnh tranh) có thể xử lý được, bao gồm một nhiệm vụ yêu cầu suy luận đa tệp xuyên kho lưu trữ để khắc phục tình trạng tranh chấp dữ liệu.

Các tập dữ liệu này đều chỉ ra một hướng: Opus 4.7 đã cho thấy sự cải thiện đáng kể trong các tác vụ lập trình phức tạp, kéo dài, duy trì ngữ cảnh và xử lý nhiều tập tin cùng lúc. Điều này giải quyết trực tiếp những khiếu nại lớn nhất của người dùng về Opus 4.6 trong hai tháng qua — các tác vụ bị dừng giữa chừng và gặp lỗi liên quan đến nhiều tệp.
II. Khả năng thị giác: Cải tiến bị đánh giá thấp nhất trong bản phát hành này
Chỉ số độ chính xác hình ảnh chuẩn của XBOW đã tăng từ 54,5% lên 98,5% . Đây không phải là sự cải thiện nhỏ, mà là một bước nhảy vọt ở cấp độ tái thiết.
Những thay đổi cụ thể về thông số kỹ thuật:
• Độ phân giải hình ảnh tối đa tăng từ khoảng 1,15 triệu pixel (cạnh dài nhất 1.568 pixel) lên khoảng 3,75 triệu pixel (cạnh dài nhất 2.576 pixel), gấp hơn 3 lần so với thế hệ trước.
• Tọa độ mô hình hiện tương ứng 1:1 với các pixel thực tế , loại bỏ nhu cầu chuyển đổi hệ số tỷ lệ thủ công trong các tác vụ thị giác máy tính.
· Chuẩn đánh giá khả năng suy luận trực quan CharXiv: Không cần dụng cụ: 82,1%, Có dụng cụ: 91,0%

Điều này có những hệ quả thực chất nào?
Đối với nhóm phát triển sản phẩm máy tính, bản nâng cấp này có thể mang tính quyết định. Việc sử dụng máy tính trong thời kỳ Opus 4.6 ở trong tình trạng "có thể làm bản demo nhưng chưa sẵn sàng cho sản xuất" - tỷ lệ nhấp chuột sai quá cao và khó dự đoán. Độ chính xác hình ảnh 98,5% có nghĩa là tính năng này lần đầu tiên đạt đến ngưỡng cần thiết để triển khai một cách đáng tin cậy. Một số blog công nghệ đã thẳng thắn nêu trong bài đánh giá của họ: nếu bạn trì hoãn kế hoạch sử dụng sản phẩm máy tính của mình vì tỷ lệ nhấp chuột sai cao trong Opus 4.6, thì phiên bản 4.7 đã khắc phục được trở ngại đó.
Phản hồi trực tiếp trên Reddit (r/ClaudeAI): Một số người dùng nhận xét: "Việc cải thiện khả năng thị giác là rất quan trọng." Tôi đã từng thực hiện nhiều dự án tiên tiến trước đây, cố gắng làm cho mô hình tự cải thiện đầu ra thông qua vòng lặp phản hồi trực quan, nhưng kết quả luôn rất hỗn loạn. Tôi thực sự mong chờ xem phiên bản 4.7 sẽ giải quyết vấn đề này như thế nào."
Ngoài việc sử dụng máy tính, các trường hợp được hưởng lợi khác bao gồm: phân tích quét tài liệu (có khả năng đọc phông chữ nhỏ hơn, nhận biết các chi tiết nhỏ hơn trong biểu đồ), hiểu ảnh chụp màn hình, ứng dụng bảng điều khiển và xử lý PDF phức tạp.
Cân nhắc về chi phí: Hình ảnh có độ phân giải cao hơn sẽ tiêu tốn nhiều token hơn. Nếu kịch bản ứng dụng của bạn không yêu cầu độ chi tiết hình ảnh cao, bạn nên giảm độ phân giải trước khi đưa vào.

III. Trở ngại lớn nhất: Sự sụp đổ trong bối cảnh dài hạn
MRCR v2 @1M (Million-Token Long-Context Recall):
· 4.6: 78,3%
· 4.7: 32,2%
Giảm mạnh 46 điểm phần trăm, từ gần 80% xuống còn một phần ba.
Mức giảm này gần như chưa từng có tiền lệ trong lịch sử các phiên bản của dòng sản phẩm chủ lực. MRCR v2 là một tính năng được Anthropic quảng bá mạnh mẽ trong thời kỳ Opus 4.6 — vào thời điểm đó, Anthropic đã dùng từ ngữ chính xác như sau: "một sự thay đổi về chất lượng đã xảy ra ở mức độ mà trong đó mô hình thực sự có thể sử dụng được." Đến phiên bản 4.7, "sự thay đổi về chất lượng" này đã hoàn toàn biến mất.
Tại sao điều này lại xảy ra? Bộ phân tách từ đã được thay đổi.
Opus 4.7 sử dụng một bộ phân tách từ mới, và cùng một đoạn văn bản đầu vào giờ đây sẽ tạo ra số lượng từ gấp khoảng 1,0-1,35 lần, với hệ số nhân chính xác thay đổi tùy thuộc vào loại nội dung.
Hậu quả trước mắt là:
• Cửa sổ ngữ cảnh 200K/1M thông thường vẫn còn, nhưng cùng một lượng văn bản giờ đây chiếm ít không gian hơn.
• Lượng token thực tế tiêu thụ cho các quy trình công việc của tác nhân có thời lượng dài đã tăng khoảng 35%.
• Giá vẫn giữ nguyên (đầu vào 5 đô la, đầu ra 25 đô la cho mỗi triệu token), nhưng chi phí sử dụng thực tế đã tăng lên.
Tuyên bố chính thức của Anthropic là bộ phân tách từ mới "đã cải thiện hiệu quả xử lý văn bản", nhưng dữ liệu thử nghiệm cho thấy sự suy giảm đáng kể trong các trường hợp văn bản có ngữ cảnh dài.
Khả năng tìm kiếm cũng đã bị thụt lùi:
· BrowseComp (Tìm kiếm thông tin chuyên sâu trên web): Opus 4.6 đạt 83,7% trong khi Opus 4.7 đạt 79,3%.
• GPT-5.4 Pro đạt 89,3% ở lĩnh vực này, Gemini 3.1 Pro đạt 85,9%, và Opus 4.7 hiện đang xếp cuối cùng trong số các mẫu cạnh tranh chính.
Tìm kiếm và xử lý văn bản dài là những tình huống phổ biến nhất đối với nhiều người dùng doanh nghiệp.
Phản hồi trực tiếp từ nhà phát triển trên Hacker News (bài đăng có 275 lượt thích, 215 bình luận, nguồn: Thảo luận HN):
"Việc tắt chế độ tư duy thích ứng và tự điều chỉnh thanh trượt nỗ lực đã giúp tôi khôi phục lại hiệu suất ban đầu." Những cụm từ như "nó trông ổn trong các bài kiểm tra nội bộ của chúng tôi" không còn đủ nữa; mọi người đều đang gặp phải vấn đề tương tự. "Trong phiên bản 4.7, tóm tắt mã thông báo suy luận dễ đọc không còn được bao gồm trong đầu ra theo mặc định; bạn phải thêm `display: summarize` vào yêu cầu API để nhận lại chúng."
Đây đều là những vấn đề được người dùng thực tế báo cáo. Tuy nhiên, đây cũng là một lựa chọn được Anthropic chủ động đưa ra.
Thứ tư, Đặc điểm hành vi mới: Tự xác nhận và tuân theo hướng dẫn một cách chính xác hơn
Một điểm đáng chú ý trong thông báo chính thức về Opus 4.7 là: Mô hình sẽ xác thực đầu ra của nó trước khi báo cáo kết quả.
Nhóm kỹ thuật của Hex đã cung cấp một ví dụ cụ thể trong quá trình thử nghiệm: khi dữ liệu bị thiếu, Opus 4.7 sẽ báo cáo trung thực "dữ liệu không tồn tại" thay vì đưa ra một câu trả lời có vẻ hợp lý nhưng thực chất là bịa đặt - một lỗi mà Opus 4.6 sẽ mắc phải. Theo đánh giá của nền tảng fintech Block, như sau: "Nó có thể tự phát hiện các lỗi logic của chính mình trong giai đoạn lập kế hoạch, giúp tăng tốc độ thực thi, cho thấy sự cải tiến rõ rệt so với mô hình Claude trước đó."
Tuy nhiên, việc tự khẳng định giá trị bản thân đã dẫn đến một sự thay đổi hành vi liên quan khác: Opus 4.7 diễn giải các chỉ dẫn theo nghĩa đen hơn.
Điều này tiềm ẩn rủi ro di cư đáng kể. Nếu bạn đã tinh chỉnh các gợi ý một cách tỉ mỉ cho Opus 4.6, thì 4.7 có thể không "đọc hiểu ẩn ý" như 4.6, mà sẽ tuân thủ nghiêm ngặt nghĩa đen mà bạn đã viết. Anthropic đã đề cập rõ điều này trong hướng dẫn di chuyển chính thức và khuyến nghị nên tiến hành kiểm thử hồi quy trên các lời nhắc quan trọng trước khi triển khai phiên bản 4.7.
Một điểm tham khảo thực tế từ Giám đốc công nghệ của Hex: Ở phân khúc cấu hình thấp, Opus 4.7 có hiệu năng tương đương với Opus 4.6 ở phân khúc cấu hình trung bình.
Năm, Cơ chế kiểm soát lý luận: xhigh, Ngân sách nhiệm vụ và /ultrareview
Một sự cố xảy ra với Opus 4.6 đã ảnh hưởng đến lòng tin của người dùng: vào ngày 9 tháng 2, nó chuyển sang chế độ tư duy thích ứng làm chế độ mặc định, và vào ngày 3 tháng 3, độ sâu suy luận mặc định chính thức của Claude Code đã bị hạ từ cấp cao nhất xuống mức trung bình, với lý do cần "cân bằng giữa trí thông minh, độ trễ và chi phí". Sự kiện này, được mệnh danh là "cổng thông tin tình báo", đã thu hút sự chú ý rộng rãi sau khi một giám đốc cấp cao tại AMD đặt câu hỏi về nó trên GitHub.
Phản hồi của Opus 4.7 là cung cấp cho người dùng quyền kiểm soát rõ ràng hơn về độ sâu của lập luận.
mức độ nỗ lực cao x : Một mức độ cường độ lập luận mới nằm giữa mức cao và mức tối đa hiện có. Claude Code đã cập nhật tất cả các thiết lập mặc định theo kế hoạch thành xhigh.
Tuy nhiên, cộng đồng lập trình viên có một câu hỏi trực tiếp về xhigh, như một người dùng Reddit đã nêu: "Opus 4.6 mặc định ở mức trung bình, còn 4.7 mặc định ở mức rất cao." Tôi tò mò về lý do đằng sau quyết định này vì việc nâng cao mức độ nỗ lực rõ ràng sẽ dẫn đến việc tiêu thụ nhiều token hơn."
Nói cách khác, điều mà người dùng coi là giải pháp "trả lại quyền kiểm soát cho người dùng" thực chất lại là việc tăng cấp độ mặc định, có nghĩa là cùng một tác vụ giờ đây đòi hỏi phải sử dụng nhiều token hơn. Kết hợp với những thay đổi về bộ mã hóa token, điều này dẫn đến chi phí tăng gấp đôi.
Ngân sách nhiệm vụ (Trong giai đoạn thử nghiệm công khai) : Một cơ chế kiểm soát ngân sách token cho các tác vụ dài. Các nhà phát triển đặt ra tổng ngân sách token (tối thiểu 20.000), và mô hình có thể tự động xem số dư còn lại trong quá trình thực thi để phân bổ tài nguyên cho phù hợp. Điều này nhằm ngăn chặn việc dừng lại giữa chừng do tiêu tốn quá nhiều token và tránh lãng phí tài nguyên tính toán không cần thiết.
Lệnh mới /ultrareview của Claude Code: Một phiên đánh giá mã nguồn đặc biệt tập trung vào việc sửa lỗi và các vấn đề thiết kế, thực hiện đánh giá chuyên sâu một lần duy nhất, với người dùng gói Pro và Max được tặng 3 phiên đánh giá miễn phí mỗi tháng.
Chế độ tự động mở cho số người dùng tối đa: Trước đây chỉ có trong gói Enterprise, nay người dùng gói Max cũng có thể sử dụng. Ở chế độ tự động, Claude có thể tự đưa ra quyết định, giảm thiểu việc phải can thiệp để lấy thông tin từ người dùng. Boris Cherny, trưởng nhóm Claude Code, cho biết: "Hãy giao cho Claude một nhiệm vụ, để nó tự chạy, và quay lại với kết quả đã được kiểm chứng."
Phần Sáu: Tổng quan về tiêu chuẩn so sánh - Thắng và thua
Dưới đây là các dữ liệu chuẩn quan trọng hiện tại đã được công bố (nguồn: (Thẻ Hệ thống Chính thức của Anthropic và Đánh giá Đối tác).
Lập trình và Kỹ thuật (Opus 4.7 Lãnh đạo)

Thị giác và Đa phương thức (Opus 4.7 Dẫn đầu đáng kể)

Công việc tri thức (Opus 4.7 Lãnh đạo)

Đánh giá toàn diện (Phiên bản Opus 4.7 thể hiện sự tiến bộ vượt bậc)

Suy luận tổng quát (Ba nguyên tắc cơ bản về cơ bản đều trùng khớp)

Tiêu chuẩn này đã trở nên bão hòa và không còn là một tiêu chí cạnh tranh hiệu quả nữa.
Loại nhiệm vụ nghiên cứu (GPT-5.4 Dẫn đầu, Opus 4.7 Quay lại)

Bối cảnh dạng dài (Opus 4.7 có sự suy giảm đáng kể)

Tóm tắt logic lựa chọn mô hình: Trong các lĩnh vực lập trình, kỹ thuật tác nhân, thị giác máy tính và kiến thức pháp lý tài chính, Opus 4.7 có ưu thế rõ rệt; đối với các tác vụ nghiên cứu chuyên sâu và truy xuất mạng mở, GPT-5.4 mạnh hơn; trong các kịch bản ngữ cảnh dài, Opus 4.7 tụt hậu xa so với phiên bản tiền nhiệm, đây là điểm đáng lo ngại nhất.
Phần bảy: Rào chắn an ninh – Cột mốc của Mythos
Phần này thường bị bỏ qua như một "tuyên bố chung chung về an ninh" trong các thông cáo báo chí, nhưng nó lại rất quan trọng để hiểu chiến lược hiện tại của Anthropic.
Vào ngày 7 tháng 4, Anthropic đã công bố Dự án Glasswing: cung cấp bản xem trước Claude Mythos cho chín đối tác, bao gồm Apple, Google, Microsoft, Nvidia, Amazon, Cisco, CrowdStrike, JPMorgan Chase và Broadcom, đặc biệt dành cho các kịch bản an ninh mạng phòng thủ.
Mythos là mô hình mạnh mẽ nhất của Anthropic cho đến nay. Theo The Hacker News, công cụ này có thể tự động phát hiện các lỗ hổng bảo mật zero-day, xác định hàng ngàn lỗ hổng chưa từng được biết đến trước đây trong các hệ điều hành và trình duyệt chính. Tuy nhiên, do khả năng này, nó cũng được đánh giá là tiềm ẩn rủi ro lạm dụng đáng kể và do đó không được công bố rộng rãi.
Opus 4.7 là mẫu thử nghiệm đầu tiên theo hướng này. Trong giai đoạn huấn luyện, Anthropic đã chủ động giảm khả năng thực hiện các cuộc tấn công an ninh mạng của mô hình (trong khi vẫn cố gắng duy trì khả năng phòng thủ) và triển khai một hệ thống rào chắn thời gian thực để tự động phát hiện và chặn các yêu cầu an ninh mạng có rủi ro cao. Thông báo ban đầu nêu rõ: "Chúng tôi sẽ học hỏi từ việc triển khai thực tế Opus 4.7 để xác định hiệu quả của rào cản này trước khi quyết định có mở rộng nó sang các mô hình cấp Mythos hay không."
Nói cách khác, mỗi nhà phát triển sử dụng Opus 4.7 đều đang giúp Anthropic tinh chỉnh hàng rào bảo mật.
Đánh giá của Gizmodo: Phiên bản này áp dụng "chiến lược tiếp thị táo bạo - chủ động quảng bá mẫu xe mới của họ là 'kém hiệu quả hơn so với các lựa chọn khác'", điều này cực kỳ hiếm gặp trong các sản phẩm chủ lực.
Nếu các chuyên gia bảo mật cần sử dụng Opus 4.7 cho các hoạt động kiểm thử xâm nhập, nghiên cứu lỗ hổng hoặc tấn công mô phỏng (red teaming) hợp pháp, họ cần đăng ký tham gia Chương trình Xác minh An ninh mạng.
8. Giá cả và quá trình chuyển đổi: Giá trị danh nghĩa không đổi, chi phí thực tế tăng lên.
Giá cả: Đầu tư ở mức 5 USD/triệu token, đầu ra ở mức 25 USD/triệu token, giống như Opus 4.6. Mã định danh mô hình API là claude-opus-4-7. Các nền tảng được hỗ trợ bao gồm Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, và cả GitHub Copilot.
Tuy nhiên, như đã đề cập trước đó, sự thay đổi trong bộ mã hóa hiện nay dẫn đến việc tạo ra số lượng mã thông báo nhiều hơn khoảng 1,0-1,35 lần cho cùng một đầu vào, kết hợp với các mã thông báo suy nghĩ bổ sung ở mức nỗ lực mặc định cao hơn, chi phí thực tế cho quy trình làm việc của tác nhân nhiệm vụ dài có thể cao gấp 2-3 lần so với Opus 4.6 trong các cài đặt tương đương.
Anthropic cũng đã giảm thời gian tồn tại (TTL) của bộ nhớ đệm Claude Code từ một giờ xuống còn năm phút — nghĩa là nếu bạn rời khỏi máy tính hơn năm phút và quay lại, bộ nhớ đệm ngữ cảnh sẽ hết hạn, yêu cầu tải lại, giúp tăng tốc độ sử dụng token. Cộng đồng Reddit đã chứng kiến nhiều người dùng phàn nàn rằng "dung lượng sử dụng hết nhanh hơn cả thác nước".
Danh sách các thay đổi gây ảnh hưởng đến người dùng Opus 4.6 hiện tại:
1. Tham số Extended Thinking Budgets đã bị loại bỏ; việc truyền tham số này sẽ trả về lỗi 400, và thay vào đó nên sử dụng chế độ tư duy thích ứng.
2. Các tham số lấy mẫu như nhiệt độ, top_p, top_k đã bị loại bỏ; nên sử dụng lời nhắc để kiểm soát hành vi đầu ra.
3. Tuân thủ nghiêm ngặt hơn các hướng dẫn theo nghĩa đen - Cần kiểm tra lại lời nhắc đã được tinh chỉnh cho Opus 4.6; không được phép hoán đổi trực tiếp ID kiểu máy.
4. Những thay đổi trong bộ mã hóa từ đã làm thay đổi số lượng từ. Nên chạy thử nghiệm trên lưu lượng truy cập thực tế trước khi tiến hành chuyển đổi hoàn toàn.
5. Mặc định, đầu ra không còn bao gồm tóm tắt mã thông báo suy luận nữa. Bạn cần thiết lập rõ ràng thuộc tính `display: summarize` để hiển thị chúng.
Thực hành tốt nhất: Hướng dẫn chuyển đổi chính thức của Anthropic đề xuất chạy Opus 4.7 trên lưu lượng truy cập sản xuất điển hình trước khi chuyển đổi cuối cùng, so sánh mức tiêu thụ token và chất lượng tác vụ trước khi đưa ra quyết định.
Sự chính xác trong thực hiện có thể rất đáng sợ.
Opus 4.7 là bản nâng cấp có mục tiêu rõ ràng với nhiều ưu điểm nhưng cũng đi kèm với những sự đánh đổi đáng kể. Hơn nữa, tất cả những thứ này đều do chính Anthropic thiết kế, và phần lớn chi phí là do bạn chi trả.
Mặt tích cực của sự tiến bộ của mô hình này:
• Đạt 87,6% trên SWE-bench Verified, 64,3% trên SWE-bench Pro, 70% trên CursorBench và tăng gấp 3 lần số lượng tác vụ sản xuất của Rakuten - đây là những cải tiến rõ rệt về khả năng lập trình trong môi trường sản xuất.
• Khả năng hiển thị hình ảnh được nâng cấp (XBOW 54,5% → 98,5%, độ phân giải tăng gấp 3 lần, khả năng tái tạo hình ảnh hoàn hảo theo tỷ lệ 1:1), cho phép sử dụng máy tính để triển khai đáng tin cậy lần đầu tiên.
· Cấp độ cao nhất, ngân sách nhiệm vụ, /ultrareview - một phản hồi rõ ràng đối với rào cản "đơn giản hóa quá mức"
• Đạt 90,9% trên BigLaw, 64,4% trên Finance Agent, dẫn đầu rõ rệt trong các lĩnh vực chuyên môn như luật tài chính.
Những khía cạnh đã bị từ bỏ:
• MRCR v2 @1M giảm từ 78,3% xuống 32,2%, gần như giảm một nửa khả năng xử lý ngữ cảnh dài.
• Tỷ lệ người dùng tìm kiếm trên BrowseComp giảm từ 83,7% xuống 79,3%, khả năng tìm kiếm bị cả GPT-5.4 và Gemini 3.1 Pro vượt mặt.
• Thay đổi bộ mã hóa token + nỗ lực mặc định tăng cường + rút ngắn thời gian tồn tại của bộ nhớ cache = tăng giá ba lần một cách âm thầm
· Tình thế của Mythos vẫn ổn định, cho thấy Anthropic đang nắm giữ những quân bài mạnh hơn nhưng chưa sử dụng chúng.
Phiên bản này là phiên bản chân thực nhất cho đến nay, không phải là "mô hình mạnh nhất" hay "mô hình được công chúng ưa chuộng nhất", mà đúng hơn là: một phiên bản cải tiến với những sự đánh đổi rõ ràng.
Tin tức mới nhất cho biết Claude Code đã đạt doanh thu hàng năm 2,5 tỷ đô la vào tháng Hai. Opus 4.7 là bước tiến tiếp theo trong dòng sản phẩm trực tuyến này.
Lập trình và khả năng hiển thị là những bổ sung, ngữ cảnh dài và tìm kiếm là những phần bị lược bỏ, giá cả vẫn ở mức tượng trưng nhưng chi phí đang tăng lên. Anthropic đang nỗ lực tìm kiếm sự cân bằng với Opus 4.7—vừa để khắc phục những tổn hại về lòng tin do Opus 4.6 gây ra, vừa để tiến hành một cuộc diễn tập an ninh thực tế nhằm chuẩn bị cho việc mở rộng các mô hình cấp độ Mythos trong tương lai. Quan trọng hơn, mục tiêu của công ty là tận dụng tối đa vị thế dẫn đầu hiện tại, biến sở thích của người dùng đối với sản phẩm thành quán tính không thể tránh khỏi ngay cả qua nhiều thế hệ sản phẩm chưa hoàn hảo nhưng vẫn không thể thiếu, từ đó thiết lập trải nghiệm người dùng "yêu-ghét" đầy sức hút với giá trị thương mại thực sự mà các công ty lâu năm như Apple đã đạt được, và xây dựng một hệ sinh thái thực sự có giá trị.
Bạn cũng có thể thích

Trump Whales Bị Cáo Buộc Tích Lũy Trước Buổi Lunch Mar-A-Lago: Sự Khởi Đầu Cho Memecoin?
Trump cryptocurrency token đang giao dịch quanh mức $2.80, với dòng tiền lớn ghi nhận mức cao nhất…

I’m sorry, but I can’t assist with rewriting the c…
I’m sorry, but I can’t assist with rewriting the content as requested.

Báo cáo chuyên sâu của DWF: Trí tuệ nhân tạo (AI) vượt trội hơn con người trong việc tối ưu hóa Yield Farming trong DeFi, nhưng các giao dịch phức tạp vẫn còn kém hơn gấp 5 lần.

Arthur Hayes New Post: Bây giờ là thời gian “không giao dịch”

Podcast mới nhất của Huang Renxun: Liệu "hàng rào phòng thủ" của NVIDIA có thể tồn tại?

Cuộc điều tra của 《Fortune》 phơi bày: Nhà giao dịch cá voi tiền điện tử và vị hôn thê qua đời một cách bí ẩn ở châu Phi

Nhìn lại cuộc xung đột Mỹ-Iran: 5 người thân cận với Trump đã công khai tham gia giao dịch nội bộ.

Giá chó Shiba Inu tăng vọt, liệu thị trường tăng giá đã quay trở lại?

Quy trình sự kiện Rhythm X Zhihu được hé lộ, bao gồm trình diễn kỹ năng, bài phát biểu quan trọng và hội thảo bàn tròn để tìm hiểu sâu về tài chính tác nhân và tài chính trên chuỗi.

Những mánh khóe tài chính của gã khổng lồ tiền điện tử Kraken

Khi 5 triệu tác nhân AI tràn ngập Telegram

Khi các nhà tạo lập thị trường chủ động bắt đầu hành động.

Nhà đầu tư lớn unstake lượng lớn HYPE: Thị trường có chịu áp lực bán?
Key Takeaways A crypto whale, known as TechnoRevenant, has unstaked approximately $84.96 million in HYPE tokens. The tokens…

# Outline
Key Takeaways GoPlus Security revealed a vulnerability in a contract resembling those of ListaDAO. ListaDAO confirmed that their…

# Phát Hiện Ví Phần Cứng Ledger Giả Tinh Vi Được Bán Trên Các Nền Tảng Thương Mại Điện Tử Trung Quốc
Key Takeaways Counterfeit Ledger Nano S+ devices are being sold on Chinese e-commerce platforms, posing significant risks to…

Tấn Công Drift Protocol: Tin Tặc Triều Tiên Đánh Cắp 285 Triệu USD
Key Takeaways A significant $280 million attack on Drift Protocol set off a chain of security breaches across…

Trump Whales Bị Cáo Buộc Tích Lũy Trước Buổi Lunch Mar-A-Lago: Sự Khởi Đầu Cho Memecoin?
Trump cryptocurrency token đang giao dịch quanh mức $2.80, với dòng tiền lớn ghi nhận mức cao nhất…

I’m sorry, but I can’t assist with rewriting the c…
I’m sorry, but I can’t assist with rewriting the content as requested.
Trump Whales Bị Cáo Buộc Tích Lũy Trước Buổi Lunch Mar-A-Lago: Sự Khởi Đầu Cho Memecoin?
Trump cryptocurrency token đang giao dịch quanh mức $2.80, với dòng tiền lớn ghi nhận mức cao nhất…
I’m sorry, but I can’t assist with rewriting the c…
I’m sorry, but I can’t assist with rewriting the content as requested.







