Ramp Labs présente une solution de partage de mémoire multi-agents permettant de réduire la consommation de jetons jusqu'à 65 %
BlockBeats News, 11 avril : Ramp Labs, une entreprise spécialisée dans les infrastructures d'IA, a publié les résultats d'une étude intitulée « Latent Briefing », qui permet un partage efficace de la mémoire entre des systèmes multi-agents grâce à la compression directe du cache KV de modèles à grande échelle, réduisant ainsi considérablement la consommation de tokens sans compromettre la précision.
Dans les architectures multi-agents classiques, l'Orchestrator décompose les tâches et fait appel à plusieurs reprises aux modèles Worker. À mesure que la chaîne d'inférence s'allonge, l'utilisation des jetons augmente de manière exponentielle. L'idée centrale de Latent Briefing consiste à exploiter le mécanisme d'attention pour identifier les éléments véritablement essentiels du contexte et éliminer directement les informations redondantes au niveau de la représentation, plutôt que de s'appuyer sur un résumé généré par un modèle de langage de grande capacité (LLM), souvent lent, ou sur une recherche RAG, souvent instable.
Lors du test de performance LongBench v2, cette méthode a obtenu des résultats remarquables : La consommation de jetons du modèle « Worker » a diminué de 65 % ; l'économie médiane de jetons pour les documents de longueur moyenne (32 000 à 100 000 caractères) a atteint 49 % ; la précision globale s'est améliorée d'environ 3 points de pourcentage par rapport à la référence ; et le temps supplémentaire nécessaire pour chaque compression n'était que d'environ 1,7 seconde, ce qui représente un gain de vitesse d'environ 20 fois par rapport à l'algorithme d'origine.
L'expérience a utilisé Claude Sonnet 4 comme orchestrateur et Qwen3-14B comme modèle de traitement, couvrant divers types de documents tels que des articles universitaires, des documents juridiques, des romans et des rapports gouvernementaux. L'étude a également révélé que le seuil de compression optimal varie en fonction de la difficulté de la tâche et de la longueur du document : les tâches difficiles se prêtent à une compression intensive afin d'éliminer le bruit lié au raisonnement spéculatif, tandis que les documents longs se prêtent davantage à une compression modérée afin de conserver les informations clés dispersées.
Vous pourriez aussi aimer

Heures de trading de contrats à terme : tradez des cryptomonnaies 24/7 et récupérez jusqu'à 45 % de frais de trading
Découvrez les heures de trading des contrats à terme et les meilleurs moments pour trader les futures crypto. Accédez à des analyses de marché 24/7, aux sessions de forte activité et apprenez comment récupérer jusqu'à 45 % de frais.

Pourquoi a16z Crypto lève-t-il 2,2 milliards de dollars supplémentaires pour investir massivement dans le Web3 ?

Explication de l'algorithme sous-jacent de Polymarket

Que font les projets nés pendant le marché baissier crypto ?

Conférence du fondateur d'a16z à Stanford : Lorsque Wall Street et la Silicon Valley ont des idées divergentes, c'est Wall Street qui finit par avoir tort

Michael Saylor: After three consecutive quarters of losses, Strategy will sell Bitcoin to pay dividends

La station de péage d'Ormuz et le RMB qu'on ne peut acheter

Entretien avec le responsable de la stratégie de Coinbase Institutional : L'institutionnalisation de la crypto atteint un point critique

Dialogue avec Nick, PDG d'Agora : La bataille pour les licences de stablecoins ne fait que commencer

Arbitrum se fait passer pour un hacker pour reprendre l’argent volé de KelpDAO
L’incident KelpDAO est le plus grand piratage DeFi de l’année, avec une perte de près de 300 millions…

ZachXBT l’a qualifié de Pump and Dump : Alors, pourquoi la crypto RaveDAO vient-elle de rebondir de 138 % à nouveau ?
RAVE crypto résiste, malgré les accusations de manipulation par ZachXBT, avec un rebond de 138 %. Après une…

Tether Frappe 1 Milliard USDT : L’Activité On-Chain Prend de l’Ampleur
Tether a récemment frappé 1 milliard de USDT sur Ethereum, augmentant son offre totale à 193 milliards. Cette…

Grayscale Modifie le Dossier Hyperliquid ETF, Remplace Coinbase par Anchorage comme Custodien
Grayscale a remplacé Coinbase par Anchorage Digital Bank pour son Hyperliquid ETF, signalant un mouvement stratégique plutôt qu’une…

Bitmine Achète 101,627 Ethereum pour plus de 230M$ : Plus Grande Accumulation Hebdomadaire de 2026
Bitmine Immersion Technologies a acquis 101,627 Ethereum en une semaine pour environ 230 millions de dollars. Cette opération…

Ripple transfère 100 millions de dollars en XRP : tension croissante sur les réserves d’échanges
Ripple a transféré 100 millions de dollars en XRP, un mouvement qui suggère une pression de vente imminente.…

L’Or Tokenisé Arrive sur Solana : Un Bitcoin Layer 2 Sera-t-il le Prochain pour le Boom RWA?
OCBC a introduit un token GOLDX sur Ethereum et Solana, soutenu par des lingots LBMA. Solana affiche une…

Prédiction du Prix du Bitcoin : Le Gros Pari de BlackRock
BlackRock a placé son plus gros pari hebdomadaire sur le Bitcoin récemment, avec des entrées nettes de 871…

Cardano Crypto Maintient $0.24 Alors Que Le Volume D’ADA Bondit de 48% : Récupération en Vue?
Cardano crypto se débat à $0.24 après une hausse avortée à $0.26 avec une augmentation du volume de…
Heures de trading de contrats à terme : tradez des cryptomonnaies 24/7 et récupérez jusqu'à 45 % de frais de trading
Découvrez les heures de trading des contrats à terme et les meilleurs moments pour trader les futures crypto. Accédez à des analyses de marché 24/7, aux sessions de forte activité et apprenez comment récupérer jusqu'à 45 % de frais.




