Ramp Labs présente une solution de partage de mémoire multi-agents permettant de réduire la consommation de jetons jusqu'à 65 %

By: theblockbeats.news|2026/04/11 14:22:31
0
Partager
copy

BlockBeats News, 11 avril : Ramp Labs, une entreprise spécialisée dans les infrastructures d'IA, a publié les résultats d'une étude intitulée « Latent Briefing », qui permet un partage efficace de la mémoire entre des systèmes multi-agents grâce à la compression directe du cache KV de modèles à grande échelle, réduisant ainsi considérablement la consommation de tokens sans compromettre la précision.


Dans les architectures multi-agents classiques, l'Orchestrator décompose les tâches et fait appel à plusieurs reprises aux modèles Worker. À mesure que la chaîne d'inférence s'allonge, l'utilisation des jetons augmente de manière exponentielle. L'idée centrale de Latent Briefing consiste à exploiter le mécanisme d'attention pour identifier les éléments véritablement essentiels du contexte et éliminer directement les informations redondantes au niveau de la représentation, plutôt que de s'appuyer sur un résumé généré par un modèle de langage de grande capacité (LLM), souvent lent, ou sur une recherche RAG, souvent instable.


Lors du test de performance LongBench v2, cette méthode a obtenu des résultats remarquables : La consommation de jetons du modèle « Worker » a diminué de 65 % ; l'économie médiane de jetons pour les documents de longueur moyenne (32 000 à 100 000 caractères) a atteint 49 % ; la précision globale s'est améliorée d'environ 3 points de pourcentage par rapport à la référence ; et le temps supplémentaire nécessaire pour chaque compression n'était que d'environ 1,7 seconde, ce qui représente un gain de vitesse d'environ 20 fois par rapport à l'algorithme d'origine.


L'expérience a utilisé Claude Sonnet 4 comme orchestrateur et Qwen3-14B comme modèle de traitement, couvrant divers types de documents tels que des articles universitaires, des documents juridiques, des romans et des rapports gouvernementaux. L'étude a également révélé que le seuil de compression optimal varie en fonction de la difficulté de la tâche et de la longueur du document : les tâches difficiles se prêtent à une compression intensive afin d'éliminer le bruit lié au raisonnement spéculatif, tandis que les documents longs se prêtent davantage à une compression modérée afin de conserver les informations clés dispersées.

Prix de --

--

Vous pourriez aussi aimer

Heures de trading de contrats à terme : tradez des cryptomonnaies 24/7 et récupérez jusqu'à 45 % de frais de trading

Découvrez les heures de trading des contrats à terme et les meilleurs moments pour trader les futures crypto. Accédez à des analyses de marché 24/7, aux sessions de forte activité et apprenez comment récupérer jusqu'à 45 % de frais.

Pourquoi a16z Crypto lève-t-il 2,2 milliards de dollars supplémentaires pour investir massivement dans le Web3 ?

Ce cycle de financement mise sur la transition des cryptomonnaies, passant de la phase de développement des infrastructures à celle de l'adoption réelle par les utilisateurs. Qu'il s'agisse de se concentrer sur les cryptomonnaies ou de s'orienter vers l'IA, ces capitaux ne seront investis que dans les projets capables de transformer la technologie en produits concrets.

Explication de l'algorithme sous-jacent de Polymarket

C'est peut-être le seul article sur Twitter qui explique clairement, en langage simple, toute la conception sous-jacente de Polymarket.

Que font les projets nés pendant le marché baissier crypto ?

De janvier à avril, RootData a enregistré plus de 1 070 nouveaux projets, soit une baisse d'environ 32 % par rapport à la même période l'an dernier.

Conférence du fondateur d'a16z à Stanford : Lorsque Wall Street et la Silicon Valley ont des idées divergentes, c'est Wall Street qui finit par avoir tort

Ben Horowitz, cofondateur d'a16z, a donné une conférence marquante : les deux remparts traditionnels du logiciel à l'ère de l'IA ont disparu, et les entrepreneurs doivent chercher de « nouvelles barrières » au-delà du code et de l'interface utilisateur.

Michael Saylor: After three consecutive quarters of losses, Strategy will sell Bitcoin to pay dividends

After MSTR's financial report showed continued net losses, Saylor changed his stance: Bitcoin is no longer "never to be sold" and can be used as a payment tool.

Contenu

Cryptos populaires

Dernières actus crypto

Lire plus
iconiconiconiconiconicon
Assistance client:@weikecs
Collaborations commerciales:@weikecs
Trading quantitatif/Market makers:[email protected]
Programme VIP:[email protected]