شرکت Ramp Labs راهحل اشتراکگذاری حافظه چندعاملی را معرفی کرد که مصرف توکن را تا 65% کاهش میدهد.<1>
خبرهای BlockBeats، 11 آوریل، شرکت زیرساخت هوش مصنوعی Ramp Labs نتایج تحقیقاتی را در مورد "بررسی نهفته" منتشر کرد که به اشتراکگذاری مؤثر حافظه در میان سیستمهای چندعاملی از طریق فشردهسازی مستقیم کش KV مدلهای بزرگ مقیاس دست یافته و مصرف توکن را بهطور قابل توجهی کاهش داده است بدون اینکه دقت قربانی شود.
در معماریهای چندعاملی اصلی، هماهنگکننده وظایف را تجزیه کرده و بهطور مکرر مدلهای کارگر را فراخوانی میکند. با گسترش زنجیره استنتاج، استفاده از توکن بهطور نمایی افزایش مییابد. ایده اصلی بررسی نهفته این است که از مکانیزم توجه برای شناسایی بخشهای واقعاً حیاتی در زمینه استفاده کند، اطلاعات اضافی را در لایه نمایش بهطور مستقیم حذف کند، نه اینکه به خلاصهسازی با سرعت پایین LLM یا بازیابی ناپایدار RAG تکیه کند.
در آزمون معیار LongBench v2، این روش بهطور قابل توجهی عمل کرد: مصرف توکن مدل کارگر 65% کاهش یافت، صرفهجویی در توکن برای اسناد با طول متوسط (32k تا 100k) به 49% رسید، دقت کلی حدود 3 درصد نسبت به خط پایه بهبود یافت و زمان اضافی برای هر فشردهسازی تنها حدود 1.7 ثانیه بود که سرعتی حدود 20 برابر نسبت به الگوریتم اصلی را بهدست آورد.
این آزمایش از Claude Sonnet 4 بهعنوان هماهنگکننده و Qwen3-14B بهعنوان مدل کارگر استفاده کرد و شامل سناریوهای مختلف اسنادی مانند مقالات علمی، اسناد قانونی، رمانها و گزارشهای دولتی بود. تحقیق همچنین نشان داد که آستانه فشردهسازی بهینه بسته به دشواری وظیفه و طول سند متفاوت است—وظایف دشوار برای فشردهسازی تهاجمی مناسب هستند تا نویز استدلال حدسی را فیلتر کنند، در حالی که اسناد طولانیتر برای فشردهسازی ملایم مناسبتر هستند تا اطلاعات کلیدی پراکنده را حفظ کنند.
