logo

مراجعة كلود أوبوس 4.7: هل يستحق لقب أقوى نموذج؟

By: blockbeats|2026/04/17 23:00:07
0
مشاركة
copy
العنوان الأصلي: "لم يكن أوبوس 4.7 ينوي أن يكون 'أقوى نموذج': الجميع متحمسون لسرعة كلود التي لا تستطيع مواكبة وتيرة أنثروبيك"
المصدر الأصلي: سيليكون برو

في 16 أبريل 2026، أصدرت أنثروبيك رسميًا كلود أوبوس 4.7، بعد أكثر من شهرين بقليل من الجيل السابق أوبوس 4.6.

بعد سلسلة مكثفة ومجنونة من تحديثات المنتجات والنماذج، أعطى الكشف عن نموذج جديد من أنثروبيك شعورًا عظيمًا بشكل طبيعي. أنا متأكد أنك رأيت العديد من تقارير مراجعة النماذج للمرة الأولى، حيث يطلق الجميع على أوبوس 4.7 لقب "أقوى نموذج"، مما أدى إلى ظهور مصطلحات مثل "انتهت الإنسانية" و"تنبيه البطالة" مرة أخرى.

لكن دعنا نلقي نظرة على ما أطلقته أنثروبيك بالفعل.

نبرة هذا الإصدار غير عادية في الواقع.

في الإعلان، ذكرت أنثروبيك مباشرة: قدرات أوبوس 4.7 ليست جيدة مثل تلك الخاصة بمعاينة كلود ميثوس - حيث أن ميثوس متاحة فقط لعدد قليل من الشركاء مثل آبل، جوجل، مايكروسوفت، إنفيديا، وليست متاحة للمطورين والمستخدمين العاديين.

علاوة على ذلك، ما هو أكثر جدارة بالملاحظة من هذه البلاغة هو أنه ليس فقط أضعف من ميثوس الأسطوري، بل هو في الواقع أضعف في بعض القدرات الرئيسية مقارنة بالنموذج من الجيل السابق.

رقم غير طبيعي في جدول أداء أوبوس 4.7: انخفض معيار السياق الطويل MRCR v2 @1M من 78.3% في أوبوس 4.6 إلى 32.2% ، انخفاض بمقدار 46 نقطة مئوية.

نادراً ما يقوم نموذج رائد بتقليص قدرته الأساسية إلى النصف.

وكان هذا خيارًا اتخذته من تلقاء نفسها.

لذا، بينما يواصل الجميع مدح كل نموذج من نماذجها بشكل أعمى باعتباره "الأقوى"، فإنهم في الواقع يتخلفون عن وتيرة أنثروبيك الخاصة!

مراجعة كلود أوبوس 4.7: هل يستحق لقب أقوى نموذج؟

إنها لا تهتم حتى بمعالجة هذه المشكلة المتعلقة بغسيل السيارات

كان الإصدار 4.7 إصدارًا لم يكن ينوي أن يكون "النموذج الأقوى." كان إصدارًا مع تنازلات واضحة، نهج "سكين دقيقة"، مختلف عن استراتيجيات الإصدار المتنوعة لمصنعي النماذج الرائدين في الماضي. إنها أيضًا اتجاه جديد يتجه إليه كبار المصنعين اليوم، حيث يشعرون بوضوح أن "القفزة الكبرى" للنموذج نفسه لم تعد مستدامة - لقد اقتربت أنثروبيك إلى حد ما من استراتيجيات إصدار شركات مثل آبل ومايكروسوفت في مرحلة تجارية ناضجة جدًا لمنتجاتهم.

قد تكون هذه هي الأهمية الحقيقية للإصدار 4.7.

1. قدرة البرمجة: تحسين حقيقي وراء الأرقام

لفهم هذه التغييرات بشكل أفضل، فإن أفضل طريقة هي بالطبع أن نلقي نظرة فاحصة على ما قدمته هذه المرة.

إليك ملخص كامل لإصدار أوبوس 4.7 - ما الذي تحسن، وما الذي تدهور، ملاحظات المطورين من المصدر، وما إذا كانت الهجرة ضرورية.

الإعلان الرسمي: https://www.anthropic.com/news/claude-opus-4-7

أداء البرمجة هو محور هذا الإصدار من أوبوس 4.7.

تم التحقق من SWE-bench (500 مشكلة حقيقية على GitHub، تتطلب من النماذج إنتاج تصحيحات تجتاز الاختبارات) قد زادت من 80.8% في أوبوس 4.6 إلى 87.6% في أوبوس 4.7، وهو تحسن يقارب 7 نقاط مئوية، مما يجعله الأفضل أداءً بين النماذج المتاحة للجمهور. مقارنةً بـ 80.6% من Gemini 3.1 Pro، فإن الفرق كبير.

SWE-bench Pro هو إصدار أكثر تحديًا، يغطي خط أنابيب هندسي كامل بأربع لغات برمجة. قفز أوبوس 4.7 من 53.4% إلى 64.3%، بزيادة قدرها 11 نقطة مئوية. مقارنةً بـ 57.7% من GPT-5.4 و54.2% من Gemini 3.1 Pro، فإن أوبوس 4.7 يتفوق بوضوح في هذا المعيار.

CursorBench هو معيار عملي من Cursor، يقيس بشكل خاص جودة مساعدة البرمجة للنموذج في بيئة IDE حقيقية. أوبوس 4.6 حصل على 58%، بينما قفز أوبوس 4.7 إلى 70%، مما يمثل تحسنًا بمقدار 12 نقطة مئوية. قال مايكل ترول، المؤسس المشارك لشركة كيرسور، في الإعلان الرسمي: "هذه قفزة كبيرة في القدرات، مما يوفر تفكيرًا إبداعيًا أقوى عند مواجهة التحديات."

بيانات تم اختبارها من قبل الشريك:

· راكوتن: عدد مهام الإنتاج التي تم حلها بواسطة أوبوس 4.7 هو ثلاثة أضعاف عدد أوبوس 4.6، مع زيادات من رقمين في جودة الكود وتقييمات جودة الاختبار.

· المصنع: ارتفعت نسبة نجاح المهام بنسبة 10-15%، مما قلل بشكل كبير من الفشل أثناء التدريب.

· الإدراك (شركة ديفين): يمكن للنموذج "العمل بشكل مستمر لساعات دون انقطاع".

· كود رابيت: ارتفعت نسبة الاسترجاع بأكثر من 10%، "أسرع قليلاً من وضع GPT-5.4 xhigh".

· بولت: في مهام بناء التطبيقات الأطول، تفوق أوبوس 4.7 على أوبوس 4.6، "مظهرًا تحسنًا يصل إلى 10% في أفضل سيناريو، دون مشاكل التراجع التي لوحظت في الماضي."

· ترمينال-بينش 2.0: عالج أوبوس 4.7 ثلاث مهام لم يتمكن أي نموذج كلاود سابق (أو منافس) من التعامل معها، بما في ذلك واحدة تتطلب تفكيرًا متعدد الملفات عبر المستودعات لإصلاح حالة سباق.

تشير هذه المجموعات البيانية في اتجاه واحد: أظهر أوبوس 4.7 تحسنًا كبيرًا في مهام البرمجة المعقدة التي تتطلب الحفاظ على السياق عبر الملفات لفترات طويلة. هذا يعالج مباشرة أكبر شكاوى المستخدمين حول أوبوس 4.6 خلال الشهرين الماضيين - المهام التي تتوقف في منتصف التنفيذ وتضيع مع الأخطاء متعددة الملفات.

II. القدرة البصرية: أكثر التحسينات التي تم التقليل من تقديرها في هذا الإصدار

معيار دقة الصورة XBOW قفزت من 54.5% إلى 98.5%. هذا ليس تحسناً تدريجياً، بل قفزة على مستوى إعادة البناء.

تغييرات محددة في المواصفات:

· تم زيادة الحد الأقصى لدقة الصورة من حوالي 1.15 مليون بكسل (أطول حافة 1,568 بكسل) إلى حوالي 3.75 مليون بكسل (أطول حافة 2,576 بكسل)، أكثر من 3 مرات من الجيل السابق

· الآن تتوافق إحداثيات النموذج 1:1 مع البكسلات الفعلية، مما يلغي الحاجة إلى تحويل عامل المقياس اليدوي في مهام رؤية الكمبيوتر

· معيار CharXiv للتفكير البصري: بدون أدوات 82.1%، مع أدوات 91.0%

ما هي الآثار الكبيرة لذلك؟

بالنسبة لفريق منتج استخدام الكمبيوتر، قد يكون هذا التحديث حاسماً. كان استخدام الكمبيوتر في عصر Opus 4.6 في حالة "قادر على القيام بالعروض التوضيحية ولكن غير جاهز للإنتاج" - كانت نسبة النقر الخاطئ مرتفعة جداً وغير متوقعة. تعني دقة بصرية بنسبة 98.5% أن هذه الميزة قد وصلت، للمرة الأولى، إلى العتبة اللازمة للنشر الموثوق. ذكرت عدة مدونات تقنية مباشرة في مراجعاتها: إذا كنت قد أجلت خطة منتج استخدام الكمبيوتر بسبب ارتفاع نسبة النقر الخاطئ في Opus 4.6، فإن 4.7 قد أزال تلك العقبة.

تعليقات مباشرة على Reddit (r/ClaudeAI): ذكر بعض المستخدمين، "إن التحسين في القدرة البصرية أمر حاسم. لقد قمت بالعديد من المشاريع الحدودية من قبل، محاولاً جعل النموذج يحسن مخرجاته بشكل تدريجي في حلقة تغذية بصرية، وكان التأثير دائماً فوضوياً. أنا حقاً أتطلع إلى كيفية معالجة 4.7 لهذه المشكلة."

بالإضافة إلى استخدام الكمبيوتر، تشمل السيناريوهات المستفيدة الأخرى: تحليل مسح الوثائق (قادر على قراءة الخطوط الصغيرة، والتعرف على التفاصيل الدقيقة في الرسوم البيانية)، فهم لقطات الشاشة، تطبيقات لوحات المعلومات، ومعالجة PDF المعقدة.

اعتبار التكلفة: ستستهلك الصور عالية الدقة المزيد من الرموز. إذا لم يتطلب سيناريو تطبيقك تفاصيل صورة عالية، يُوصى بتقليل الدقة قبل الإدخال.

الثالثة. أكبر عائق: انهيار السياق الطويل

MRCR v2 @1M (استرجاع السياق الطويل بمليون توكن):

· 4.6: 78.3%

· 4.7: 32.2%

انخفاض بمقدار 46 نقطة مئوية، من حوالي 80% إلى ثلث.

هذا الانخفاض يكاد يكون غير مسبوق في تاريخ تكرار النموذج الرائد. كان MRCR v2 قدرة تم الترويج لها بشدة من قبل Anthropic في عصر Opus 4.6 - في ذلك الوقت، كانت كلمات Anthropic الدقيقة هي "حدث تغيير نوعي بمقدار سياق يمكن أن يكون فيه النموذج قابلاً للاستخدام فعليًا." بحلول 4.7، اختفى هذا "التغيير النوعي" مباشرة.

لماذا يحدث هذا؟ تم تغيير المرمز.

يستخدم Opus 4.7 مرمزًا جديدًا، وسيؤدي نفس نص الإدخال الآن إلى حوالي 1.0-1.35 مرة من عدد الرموز، مع اختلاف المضاعف الدقيق حسب نوع المحتوى.

الآثار الفورية هي:

· لا يزال نافذ السياق الاسمي 200K/1M موجودًا، لكن نفس كمية النص الآن تأخذ مساحة أقل.

· استهلاك الرموز الفعلي لعمليات وكيل المهام الطويلة قد زاد بحوالي 35%.

· تظل الأسعار كما هي (الإدخال 5 دولارات، الإخراج 25 دولارًا لكل مليون توكن)، لكن تكلفة الاستخدام الفعلية قد ارتفعت.

البيان الرسمي لشركة أنثروبيك هو أن المرمز الجديد "قد حسّن كفاءة معالجة النصوص"، لكن بيانات المعايير تظهر تراجعًا كبيرًا في سيناريوهات السياق الطويل.

قد تراجعت قدرات البحث أيضًا:

· BrowseComp (استرجاع المعلومات العميقة على الويب): كان أوبس 4.6 عند 83.7% بينما أوبس 4.7 عند 79.3%.

· سجل GPT-5.4 Pro 89.3% في هذا المجال، وسجل Gemini 3.1 Pro 85.9%، ويحتل أوبس 4.7 حاليًا المرتبة الأخيرة بين النماذج المنافسة الرئيسية.

تعتبر عمليات البحث والنصوص الطويلة من أكثر السيناريوهات شيوعًا للعديد من مستخدمي المؤسسات.

تعليقات المطورين المباشرة من Hacker News (منشور حصل على 275 تصويتًا إيجابيًا، 215 تعليقًا، المصدر: مناقشة HN):

"إيقاف التفكير التكيفي وزيادة شريط الجهد يدويًا هو ما أعادني إلى أداء القاعدة. عبارات مثل 'يبدو جيدًا في اختباراتنا الداخلية' لم تعد كافية؛ الجميع يرى نفس المشكلة.""في 4.7، لم تعد ملخصات الرموز القابلة للقراءة البشرية مضمنة في المخرجات بشكل افتراضي؛ يجب عليك إضافة display: summarized إلى طلب API لاستعادتها."

هذه كلها مشكلات أبلغ عنها مستخدمون حقيقيون. ومع ذلك، فإن هذا أيضًا خيار تم اتخاذه بشكل استباقي من قبل أنثروبيك.

سعر --

--

أربعة، سمة سلوكية جديدة: التحقق الذاتي واتباع التعليمات بشكل أكثر حرفية

بيان ملحوظ في الإعلان الرسمي عن أوبس 4.7 هو: يحقق النموذج في مخرجاته قبل الإبلاغ عن النتائج.

قدمت الفريق الفني لشركة Hex مثالًا محددًا خلال الاختبار: عندما تكون البيانات مفقودة، سيبلغ أوبس 4.7 بصدق "البيانات غير موجودة" بدلاً من تقديم إجابة تبدو معقولة ولكنها في الواقع مختلقة - وهو فخ كان يقع فيه أوبس 4.6. تقييم منصة التكنولوجيا المالية Block لهذا كان: "يمكنه اكتشاف أخطاء المنطق الخاصة به خلال مرحلة التخطيط، مما يسرع التنفيذ، ويظهر تحسنًا واضحًا مقارنةً بالنموذج السابق Claude."

ومع ذلك، فإن التحقق الذاتي قد أدى إلى تغيير سلوكي آخر مرتبط: أوبوس 4.7 يفسر التعليمات بشكل أكثر حرفية.

هذا يشكل خطر هجرة كبير. إذا قمت بضبط المطالبات بدقة لأوبوس 4.6، فقد لا "يقرأ" أوبوس 4.7 "بين السطور" كما كان يفعل 4.6، بل سيتبع المعنى الحرفي الذي كتبته. ذكرت أنثروبيك هذا بوضوح في دليل الهجرة الرسمي وأوصت بإجراء اختبارات تراجع على المطالبات الرئيسية قبل نشر 4.7.

نقطة مرجعية عملية من المدير التنفيذي للتكنولوجيا في هيكس: بالنسبة لفئة الجهد المنخفض، فإن أوبوس 4.7 يعمل تقريبًا بمستوى مكافئ لفئة الجهد المتوسط من أوبوس 4.6.

خمسة، آلية التحكم في التفكير: جهد مرتفع، ميزانيات المهام، و/مراجعة فائقة

حدثت واقعة مع أوبوس 4.6 أثرت على ثقة المستخدمين: في 9 فبراير، انتقل إلى التفكير التكيفي كالوضع الافتراضي، وفي 3 مارس، تم خفض عمق التفكير الافتراضي الرسمي لرمز كلود من أعلى فئة إلى متوسطة، مشيرًا إلى الحاجة إلى "توازن الذكاء، والكمون، والتكلفة." هذه الواقعة، التي أطلق عليها "بوابة الذكاء"، جذبت انتباهًا واسعًا بعد أن تساءل مدير كبير في AMD عنها على GitHub.

كانت استجابة أوبوس 4.7 هي منح المستخدمين مزيدًا من التحكم الصريح في عمق التفكير.

فئة جهد مرتفع: مستوى جديد من كثافة التفكير يقع بين المستويات العالية والقصوى الحالية. لقد قامت كلود كود الآن بتحديث جميع الافتراضات المخطط لها إلى جهد مرتفع.

ومع ذلك، لدى مجتمع المطورين سؤال مباشر حول الجهد المرتفع، كما ذكر مستخدم على ريديت: "أوبوس 4.6 افتراضي على المتوسط، و4.7 افتراضي على الجهد المرتفع." أنا فضولي بشأن السبب وراء هذا القرار لأن رفع فئة الجهد يؤدي بوضوح إلى استهلاك المزيد من الرموز."

بعبارة أخرى، ما يراه المستخدمون كإصلاح "إعادة التحكم إلى المستخدم" هو في الواقع زيادة في الفئة الافتراضية، مما يعني أن نفس المهمة تتطلب الآن حرق المزيد من الرموز. بالإضافة إلى تغييرات المحلل، فإن هذا يمثل زيادة مزدوجة في التكلفة.

ميزانيات المهام (في النسخة التجريبية العامة): آلية التحكم في ميزانية الرموز للمهام الطويلة. حدد المطورون ميزانية إجمالية للتوكنات (حد أدنى 20 ألف)، ويمكن للنموذج رؤية الرصيد المتبقي ديناميكيًا أثناء التنفيذ لتخصيص الموارد وفقًا لذلك. هذا لمنع التوقف في منتصف الطريق بسبب تجاوز التوكنات وتجنب إهدار الحسابات غير الضرورية.

كود كلود الجديد /أمر المراجعة الفائقة: جلسة مراجعة كود خاصة تركز على إصلاح الأخطاء وقضايا التصميم، مع إجراء مراجعة عميقة مرة واحدة، حيث يحصل مستخدمو Pro و Max على 3 جلسات مجانية شهريًا.

وضع التشغيل التلقائي مفتوح لمستخدمي Max: كان متاحًا سابقًا فقط في خطة المؤسسة، والآن يمكن الوصول إليه أيضًا لمستخدمي Max. في وضع التشغيل التلقائي، يمكن لكلود اتخاذ قرارات بشكل مستقل، مما يقلل من الحاجة إلى مقاطعة المستخدمين للحصول على مدخلات. قال بوريس تشيرني، رئيس فريق كود كلود: "أعط كلود مهمة، دعها تعمل، وعد إلى النتائج الموثوقة."

القسم السادس: نظرة عامة على المعايير - الانتصارات والهزائم

فيما يلي بيانات المعايير الرئيسية الحالية التي تم إصدارها (المصدر: بطاقة النظام الرسمية من أنثروبيك وتقييمات الشركاء).

البرمجة والهندسة (أوبوس 4.7 رائد)

الرؤية ومتعددة الوسائط (أوبوس 4.7 رائد بشكل ملحوظ)

العمل المعرفي (أوبوس 4.7 رائد)

التقييم الشامل (أوبوس 4.7 يتقدم بوضوح)

التفكير العام (الأساسيات الثلاثة تتماشى بشكل أساسي)

لقد أصبحت هذه المعايير مشبعة ولم تعد نقطة تفتيش تنافسية فعالة.

نوع مهمة البحث (GPT-5.4 يتقدم، أوبوس 4.7 يتراجع)

سياق طويل الأمد (أوبوس 4.7 يتراجع بشكل ملحوظ)

ملخص منطق اختيار النموذج: في مجالات البرمجة، وهندسة الوكلاء، والرؤية، والمعرفة القانونية المالية، يتمتع أوبوس 4.7 بميزة واضحة؛ بالنسبة للمهام التي تتطلب بحثًا مكثفًا واسترجاعًا عبر الشبكة المفتوحة، فإن GPT-5.4 أقوى؛ في سيناريوهات السياق الطويل، يتخلف أوبوس 4.7 كثيرًا عن سلفه، وهو الأمر الأكثر إثارة للقلق.

القسم السابع: حاجز الأمان - معلم ميثوس

غالبًا ما يتم تجاهل هذا القسم باعتباره "بيان نمطي للأمان" في البيانات الصحفية، لكنه مفتاح لفهم استراتيجية أنثروبيك الحالية.

في 7 أبريل، أعلنت أنثروبيك عن مشروع جلاسوينغ: جعل معاينة ميثوس كلود متاحة لتسعة شركاء، بما في ذلك أبل، جوجل، مايكروسوفت، إنفيديا، أمازون، سيسكو، كراودسترايك، جي بي مورغان تشيس، وبروادكوم، خصيصًا لسيناريوهات الأمن السيبراني الدفاعية.

ميثوس هو أقوى نموذج لدى أنثروبيك حتى الآن. وفقًا لموقع هاكر نيوز، يمكنه اكتشاف ثغرات يوم الصفر بشكل مستقل، مع تحديد آلاف الثغرات غير المعروفة سابقًا في أنظمة التشغيل والمتصفحات الرئيسية. ومع ذلك، بسبب هذه القدرة، تم اعتبار أن لديها مخاطر إساءة استخدام كبيرة وبالتالي لم يتم إصدارها للجمهور.

أوبوس 4.7 هو أول عينة اختبار على هذا الخط. خلال مرحلة التدريب، قامت أنثروبيك بتقليل قدرة النموذج على إطلاق هجمات الأمن السيبراني (مع محاولة الاحتفاظ بالقدرات الدفاعية) ونفذت نظام حاجز في الوقت الحقيقي للكشف التلقائي عن الطلبات عالية المخاطر في الأمن السيبراني وحظرها. ذكرت الإعلان الأصلي: "سنتعلم من النشر الفعلي لأوبوس 4.7 لتحديد فعالية هذا الحاجز قبل اتخاذ قرار بشأن ما إذا كان سيتم تمديده إلى نماذج بمستوى ميثوس."

بعبارة أخرى، كل مطور يستخدم أوبوس 4.7 يساعد أنثروبيك في معايرة سياج الأمان.

مراجعة غيزمودو: تتبع هذه الإصدار "استراتيجية تسويقية جريئة - ترويجًا نشطًا لنموذجهم الجديد على أنه 'أقل قدرة بشكل عام من الخيارات الأخرى'"، وهو أمر نادر جدًا في الإصدارات الرائدة.

إذا كان المحترفون في مجال الأمن بحاجة إلى استخدام أوبوس 4.7 لاختبار الاختراق الشرعي، أو بحث الثغرات، أو فرق الاختراق، فإنهم بحاجة إلى التقدم للانضمام إلى برنامج التحقق السيبراني.

8. التسعير والهجرة: تظل الأسعار الاسمية ثابتة، بينما ترتفع التكلفة الحقيقية

التسعير: الإدخال عند 5 دولارات لكل مليون رمز، والإخراج عند 25 دولارًا لكل مليون رمز، كما هو الحال مع أوبوس 4.6. معرف نموذج API هو claude-opus-4-7. تشمل المنصات المدعومة واجهة برمجة تطبيقات كلود، أمازون بدروك، جوجل كلاود فيرتكس AI، مايكروسوفت فاوندرى، مع وجود GitHub Copilot أيضًا.

ومع ذلك، كما ذُكر سابقًا، فإن تغيير المحلل اللغوي يؤدي الآن إلى توليد حوالي 1.0-1.35 مرة المزيد من الرموز لنفس الإدخال، بالإضافة إلى الرموز الإضافية للتفكير تحت مستويات الجهد الافتراضية الأعلى، قد تكون التكلفة الفعلية لعملية وكيل مهمة طويلة 2-3 مرات من أوبوس 4.6 تحت إعدادات مكافئة.

كما قامت أنثروبيك بتقليل مدة صلاحية ذاكرة التخزين المؤقت لرمز كلود من ساعة واحدة إلى خمس دقائق - مما يعني أنه إذا ابتعدت عن جهاز الكمبيوتر الخاص بك لأكثر من خمس دقائق وعُدت، ستنتهي صلاحية ذاكرة التخزين المؤقت للسياق، مما يتطلب إعادة تحميل، مما يسرع من استهلاك الرموز. شهدت مجتمع ريديت العديد من المستخدمين يشكون من أن "الحصة تحترق أسرع من الشلال."

قائمة التغييرات المدمرة لمستخدمي أوبوس 4.6 الحاليين:

1. تمت إزالة معلمة ميزانيات التفكير الممتدة؛ تمريرها سيعيد خطأ 400، ويجب استخدام وضع التفكير التكيفي بدلاً من ذلك

2. تمت إزالة معلمات العينة مثل درجة الحرارة، top_p، top_k؛ يجب استخدام التحفيز للتحكم في سلوك الإخراج

3. اتباع التعليمات الحرفية بشكل أكثر صرامة - يجب إعادة اختبار التحفيز المعدل لأوبوس 4.6؛ لا يُسمح بتبديل معرف النموذج مباشرة.

4. تغييرات المحلل اللغوي قد غيرت عدد الرموز. يوصى بتشغيل عينات على حركة المرور الحقيقية أولاً قبل المضي قدمًا في الهجرة الكاملة.

5. لم يعد الإخراج الافتراضي يتضمن ملخصات رموز الاستدلال. تحتاج إلى تعيين العرض: ملخص بوضوح لاسترجاعها.

أفضل ممارسة: توصي الدليل الرسمي لترحيل أنثروبيك بتشغيل أوبوس 4.7 على حركة مرور الإنتاج التمثيلية قبل التبديل النهائي، مع مقارنة استهلاك الرموز وجودة المهام قبل اتخاذ القرار.

الدقة في التنفيذ يمكن أن تكون مخيفة.

أوبوس 4.7 هو ترقية مستهدفة مع مزايا واضحة ولكن أيضًا تنازلات كبيرة. علاوة على ذلك، تم تصميم كل هذه من قبل أنثروبيك نفسها، وإلى حد كبير، عليك تحمل التكاليف لذلك.

الجانب المشرق من تقدم هذا النموذج:

· 87.6% على SWE-bench Verified، 64.3% على SWE-bench Pro، 70% على CursorBench، وزيادة بمقدار 3 مرات في مهام إنتاج راكوتن - هذه هي التحسينات الملحوظة في القدرة البرمجية ضمن بيئة الإنتاج

· إعادة بناء القدرات البصرية (XBOW 54.5% → 98.5%، زيادة بمقدار 3 مرات في الدقة، خريطة مثالية بكسل إلى بكسل 1:1)، مما يتيح استخدام الكمبيوتر للنشر الموثوق به للمرة الأولى

· مستوى عالٍ، ميزانيات المهام، /ultrareview - استجابة صريحة لحاجز "تخفيض المستوى"

· 90.9% على BigLaw، 64.4% على Finance Agent، تتصدر بوضوح في العمل المعرفي المتخصص مثل الأمور القانونية المالية

الجوانب التي تم التخلي عنها:

· MRCR v2 @1M انخفض من 78.3% إلى 32.2%، مما يقرب من تقليل قدرات السياق الطويلة إلى النصف

· تنخفض BrowseComp من 83.7% إلى 79.3%، وقد تم تجاوز قدرة البحث من قبل كل من GPT-5.4 و Gemini 3.1 Pro

· تغييرات في المحلل + زيادة الجهد الافتراضي + تقصير مدة التخزين المؤقت = زيادة خفية في الأسعار بمقدار ثلاثة أضعاف

· Mythos ثابت، مما يشير إلى أن أنثروبيك لديها أوراق أقوى في اليد لكنها لا تلعبها

هذا الإصدار هو الأكثر أصالة حتى الآن، ليس "النموذج الأقوى" ولا "النموذج العام الأقوى"، بل: تكرار مع تنازلات واضحة.

آخر الأخبار هي أن كود كلود قد حقق بالفعل 2.5 مليار دولار في الإيرادات السنوية في فبراير. أوبوس 4.7 هو الخطوة التالية في هذا النسب عبر الإنترنت.

البرمجة والرؤية هما إضافتان، والسياق الطويل والبحث هما تنازلات، والسعر يبقى اسميًا لكن الفاتورة ترتفع. تعمل أنثروبيك على تحقيق توازن مع أوبوس 4.7 - لمعالجة الأضرار التي لحقت بالثقة التي تركها أوبوس 4.6 ولإجراء تمرين أمني في العالم الحقيقي استعدادًا لفتح نماذج بمستوى Mythos في المستقبل. الأهم من ذلك، تهدف إلى الاستفادة الكاملة من موقعها القيادي الحالي، من خلال تحويل تفضيل المستخدم لمنتجاتها إلى حالة من الجمود التي لا يمكن الهروب منها حتى عبر أجيال من المنتجات غير المثالية ولكن الضرورية، ثم إنشاء نوع من تجربة المستخدم المعقدة التي تحمل قيمة تجارية حقيقية والتي حققتها شركات ناضجة مثل آبل، وبناء نظام بيئي ذو قيمة حقيقية.

رابط المقال الأصلي

قد يعجبك أيضاً

آرثر هايز منشور جديد: حان وقت "عدم التداول" الآن

عندما تخرج التقلبات عن السيطرة حقًا ويتم إطلاق السيولة بشكل قسري، ستدخل السوق مرحلة قابلة للتداول مرة أخرى.

احتمالية تراجع سعر البيتكوين إلى 55 ألف دولار: تحذيرات وتحليلات

Key Takeaways يتوقع المحللون احتمالية هبوط سعر البيتكوين إلى حدود 55 ألف دولار إذا كسرت مستويات الدعم الحالية.…

تقرير DWF المتعمق: يتفوق الذكاء الاصطناعي على البشر في تحسين عائدات الاستثمار في التمويل اللامركزي، لكن المعاملات المعقدة لا تزال متأخرة بمقدار 5 أضعاف

على مستوى الوكلاء، يُعد اختيار النموذج وإدارة المخاطر من أهم العوامل المؤثرة على أداء المعاملات.

تحقيق مجلة "فورتشن" يكشف: وفاة غامضة في أفريقيا لتاجر عملات رقمية وخطيبته

صعود وسقوط تاجر العملات المشفرة جو ماكان

نظرة إلى الوراء على الصراع بين الولايات المتحدة وإيران: 5 من المقربين من ترامب تورطوا بشكل صريح في تداول الأسهم بناءً على معلومات داخلية

عرض متعدد الأبعاد لملفات تعريف المطلعين على المعلومات الداخلية

تم الكشف عن آلية فعالية Rhythm X Zhihu، والتي تضمنت عرضًا توضيحيًا للمهارات، وكلمة رئيسية، وجلسة نقاش معمقة حول الوكلاء والتمويل عبر سلسلة الكتل.

اجتماع هونغ كونغ، 21 أبريل

العملات الرائجة

أحدث أخبار العملات المشفرة

قراءة المزيد
iconiconiconiconiconiconiconiconicon

برنامج خدمة العملاء@WEEX_support_smart_Bot

خدمات (VIP)[email protected]