Le prix de Polymarket est-il précis ? J'ai simulé une crise avec 200 agents pour le découvrir
Titre original : comment je fais fonctionner 200 agents IA sur la crise de Hormuz avec Mirofish, et le compare à Polymarket
Auteur original : Le Singe Intelligent
Traduction : Peggy, BlockBeats
Note de l'éditeur : Lorsque l'IA commence à simuler un champ d'opinion publique, la prédiction de l'événement lui-même est en train de changer discrètement.
Cet article documente une expérience sur la situation autour du détroit d'Hormuz : l'auteur a utilisé MiroFish pour construire un système de simulation composé de 200 agents, permettant aux gouvernements, aux médias, aux entreprises énergétiques, aux traders et aux gens ordinaires de coexister dans un réseau social simulé, formant des jugements par une interaction continue, un débat et une diffusion d'informations, et comparant les résultats de ce groupe avec la tarification du marché de Polymarket.
Les résultats n'étaient pas cohérents. La discussion de groupe était globalement plus optimiste, tandis que le marché était significativement plus pessimiste ; dans la libre expression, les quelques pessimistes étaient plus proches du vrai prix ; et une fois dans un scénario d'interview, presque tous les agents convergeraient vers une expression plus modérée et coopérative.
Ce genre de division n'est pas étranger. Dans le monde réel, les déclarations publiques tendent souvent à être stables et optimistes, tandis que la véritable évaluation des risques est cachée dans les actions et les expressions informelles. En d'autres termes, ce que les gens disent, ce qu'ils pensent et comment ils parient de l'argent sont souvent trois systèmes différents.
Dans une telle structure, le signal le plus précieux vient souvent non pas du consensus, mais de ces voix qui semblent être non conventionnelles dans le bruit.
Ce qui suit est le texte original :
J'ai utilisé MiroFish pour simuler la situation dans le détroit d'Hormuz pour les prochaines semaines. Cet outil est excellent pour traiter de telles questions car il peut réaliser des analyses de scénarios très complexes : introduire plusieurs participants, différents rôles avec leurs incitations dans le même système, et permettre à ces agents de jouer continuellement, de débattre et de former progressivement un résultat semblable à un consensus.

Voici les étapes spécifiques que j'ai suivies pour réaliser cette simulation et les résultats que j'ai finalement obtenus. Tout le monde peut le reproduire ; la clé est simplement de savoir quelles étapes suivre.
Tout d'abord, MiroFish est un projet open-source d'une équipe de recherche chinoise. Après avoir saisi un lot de documents, il construira d'abord un graphe de connaissances, puis générera différentes personnalités d'agents basées sur ce graphe, et ensuite mettra ces agents dans un environnement Twitter simulé. Dans cet environnement, ils publieront, retweeteront, commenteront, aimeront et se disputeront entre eux. Après la fin de la simulation, vous pouvez également interviewer chaque agent un par un pour voir leurs positions respectives et leurs processus de raisonnement.

Lorsque vous lui fournissez un scénario de crise, il génère un débat autour de cet événement ; à partir de ce débat, vous pouvez ensuite distiller une prédiction.
Je l'ai dirigé vers une question de marché Polymarket en cours : D'ici la fin avril 2026, le transport maritime dans le détroit d'Hormuz reviendra-t-il à la normale ?

Ainsi, j'ai fourni toutes ces informations à MiroFish et généré 200 rôles d'agents — y compris des gouvernements, des médias, des militaires, des entreprises énergétiques, des traders et des citoyens ordinaires — et les ai fait débattre pendant 7 jours simulés. Enfin, j'ai comparé leur production avec les prix du marché.
La configuration générale était la suivante :
· Modèle : GPT-4o mini, équilibre optimal entre coût et efficacité dans un scénario de 200 agents
· Système de mémoire : Zep Cloud, utilisé pour stocker les mémoires des agents et les graphes de connaissances
· Moteur de simulation : OASIS (un environnement clone de Twitter fourni par Camel-AI)
· Matériel : Mac mini M4 Pro, 24 Go de RAM
· Durée d'exécution : Environ 49 minutes pour compléter 100 tours de simulation
· Coût : Appels API autour de 3 à 5 $
· Matériel de base : Un briefing de 5800 caractères provenant de Wikipedia, CNBC, Al Jazeera, Forbes, Reuters, incluant une chronologie militaire, l'état du blocus, les prix du pétrole, les pertes économiques, les efforts diplomatiques et des facteurs liés à un investissement de 3,2 trillions de dollars du CCG. En d'autres termes, toutes les informations essentielles nécessaires aux agents pour formuler des jugements étaient incluses.
Comment reproduire ce flux de travail (guide étape par étape)
Si vous souhaitez exécuter ce processus vous-même, voici les étapes complètes que j'ai suivies. L'ensemble du processus prend environ 2 heures à mettre en place, avec des coûts API autour de 3 à 5 $ ; augmenter le nombre de tours ou d'agents augmentera encore le coût.
Ce dont vous aurez besoin
· Python 3.12 (ne pas utiliser 3.14, car tiktoken générera une erreur sur cette version)
· Node.js 22 et supérieur
· Une clé API OpenAI (GPT-4o Mini est suffisamment bon marché et adapté à ce scénario)
· Un compte Zep Cloud (la version gratuite est suffisante pour des simulations à petite échelle)
· Une machine avec une mémoire décente. J'utilise un Mac mini M1 Pro avec 24 Go de mémoire, mais 16 Go devraient également suffire
Étape 1 : Installez MiroFish

Configurez ensuite votre fichier .env
OPENAI_API_KEY=sk-votre-clé
OPENAI_BASE_URL=lien
OPENAI_MODEL=gpt-4o-mini
ZEP_API_KEY=votre-clé-zep
Étape 2 : Créez un projet et téléchargez votre document de référence
Le document de référence est la partie la plus importante de tout le processus car il détermine quelles informations l'agent connaît sur la situation actuelle. J'ai préparé un résumé d'environ 5800 caractères couvrant une chronologie militaire, l'état du blocus, les prix du pétrole, les pertes économiques, les efforts diplomatiques et l'aspect des investissements du CCG, avec des sources provenant de Wikipédia, CNBC, Al Jazeera, Forbes et Reuters.
Étape 3 : Générez l'ontologie
Cette étape indique à MiroFish quels types d'entités il doit reconnaître et quelles relations peuvent exister entre ces entités.
J'ai fini par générer 10 types d'entités : pays, militaires, diplomates, entités commerciales, organisations médiatiques, entités économiques, organisations, individus, infrastructures, marchés de prévision ; et 6 types de relations. Si les résultats générés automatiquement ne sont pas tout à fait adaptés à votre scénario, vous pouvez également les ajuster manuellement.
Étape 4 : Construisez le graphe de connaissances
Cette étape implique l'utilisation de Zep Cloud. MiroFish enverra le document de référence et l'ontologie à Zep, qui sera responsable de l'extraction des entités et de la construction du graphe.
Ce processus prendra environ une à deux minutes. À la fin, j'ai obtenu un graphe contenant 65 nœuds et 85 arêtes, reliant des éléments tels que des pays, des personnalités, des organisations et des marchandises.
Étape cinq : Générer des agents
MiroFish utilisera le graphe de connaissances pour créer un persona complet pour chaque entité, y compris le type de personnalité MBTI, l'âge, le pays d'origine, le style de publication, les déclencheurs émotionnels, les sujets tabous et la mémoire institutionnelle.
Au départ, j'ai généré 43 agents principaux à partir du graphe de connaissances. Par la suite, le système peut étendre ces rôles principaux au nombre total souhaité. J'ai fini par fixer le nombre total d'agents à 200, et j'ai inclus des rôles civils diversifiés supplémentaires tels que des traders en crypto, des pilotes de ligne, des professeurs, des étudiants, des activistes sociaux, et plus encore.
Étape six : Préparer l'environnement de simulation

Cette étape mettra en place la configuration complète de la simulation, y compris les horaires d'action des agents, les publications initiales et les paramètres temporels. MiroFish choisira automatiquement un ensemble de paramètres par défaut raisonnables, tels que les heures d'activité de pointe, les temps d'arrêt et les fréquences de publication pour différents types d'agents.
Ma configuration à l'époque était : simuler un total de 168 heures (7 jours), 100 tours (chaque tour représentant 1 heure), en utilisant exclusivement le scénario Twitter, et en mettant en place des horaires d'activité individuels pour différents agents.
Étape sept : Commencer à exécuter la simulation

Ensuite, il est temps d'attendre. De mon côté, faire fonctionner 200 agents et 100 tours de simulation avec GPT-4o mini a pris environ 49 minutes. Vous pouvez suivre les progrès via une API ou consulter directement les journaux.
Tout au long du processus, les agents fonctionneront de manière autonome : ils observeront la chronologie et décideront de publier, de retweeter des commentaires, de partager, d'aimer ou simplement de faire défiler le fil, le tout sans intervention humaine.
Étape huit (optionnelle) : Interroger les agents
Après la simulation, le système entrera en mode commande. À ce stade, vous pouvez mener des entretiens individuels avec des agents spécifiques ou interviewer tous les agents en même temps :

Analyse
MiroFish lira d'abord le document de référence et générera automatiquement la structure ontologique (comprenant 10 types d'entités et 6 types de relations) ; il extraira ensuite un graphe de connaissances basé sur ces définitions (contenant 65 nœuds et 85 arêtes). En s'appuyant sur cette base, il créera un persona complet pour chaque entité, y compris le type de personnalité MBTI, l'âge, le pays d'origine, le style de publication, les déclencheurs émotionnels et les éléments de mémoire institutionnelle.
Au final, 43 agents principaux ont été générés à partir du graphe de connaissances, qui a ensuite été élargi à un total de 200 agents. Cela a introduit un ensemble de rôles de communs plus diversifiés pour améliorer la diversité et le réalisme de la simulation dans son ensemble.

La répartition spécifique est la suivante :
· 140 agents communs : traders en crypto, pilotes de ligne, gestionnaires de chaîne d'approvisionnement, étudiants, activistes sociaux, professeurs, etc.
· 16 rôles diplomatiques/gouvernementaux : Ministre des Affaires étrangères iranien, Ministre des Affaires étrangères saoudien, Ministre des Affaires étrangères omanais, Premier ministre bahreïnien, Ministre des Affaires étrangères chinois, UE, ONU, etc.
· 15 organisations médiatiques : Reuters, CNN, Bloomberg, Al Jazeera, BBC, Fox, Wall Street Journal, etc.
· 10 liés à l'énergie/au transport maritime : OPEP, Platts, QatarEnergy, Aramco, Maersk, etc.
· 7 institutions financières : Polymarket, Kalshi, Goldman Sachs, JPMorgan, Citadel, ADIA, etc.
· 2 figures militaires/politiques : Trump, Commandant des Gardiens de la Révolution
Au cours du processus de simulation de 7 jours (100 tours), les éléments suivants ont été générés :
1 888 publications
6 661 traces de comportement (capturant toutes les actions)
1 611 retweets de citation (agents répondant les uns aux autres)
4 051 actualisations (simplement en consultant le fil)
311 inactivités (choisissant d'observer)
208 likes, 207 retweets
70 points de vue originaux (nouvelles positions ou jugements indépendants)
Dans l'ensemble, ce système ne présente pas seulement une simple génération d'informations, mais plutôt quelque chose de plus proche d'une simulation comportementale sociale. La plupart du temps, les agents sont observés en train de digérer des informations et d'interagir plutôt que de produire constamment du contenu. Cette structure est plus semblable à la distribution des comportements dans un véritable environnement d'opinion publique : un contenu original limité superposé à une vaste réitération, des jeux et des retours émotionnels.

Les agents passent la plupart de leur temps à lire et à citer les points de vue des autres plutôt qu'à créer activement du nouveau contenu.
L'ensemble du groupe présente un biais clair dans la propagation émotionnelle : les points de vue optimistes sont plus facilement amplifiés et partagés, tandis que les jugements pessimistes, même s'ils sont logiquement plus proches de la réalité, ont tendance à se répandre moins et à avoir des voix plus faibles.
Ce qui est encore plus intéressant, c'est que 19 agents ont spontanément fourni des évaluations de probabilité spécifiques lors de leur publication, non pas parce qu'on leur a demandé, mais comme une évolution naturelle de la discussion.

La probabilité moyenne du groupe formé spontanément est de 47,9 %, tandis que le marché Polymarket donne une probabilité de 31 %, ce qui entraîne une différence de 16,9 points de pourcentage entre les deux.
Au cours du processus de simulation, certains agents ont même changé de position au cours de plus de 100 tours d'interaction.
À la suite de la simulation, j'ai utilisé la fonction d'interview de MiroFish pour poser la même question à 43 agents principaux : Quelle est la probabilité, d'ici la fin avril 2026, que le trafic maritime dans le détroit d'Ormuz revienne à la normale (0–100 %) ?
Les résultats étaient les suivants : 31 des 43 agents ont fourni des valeurs spécifiques, tandis que les 12 autres ont choisi de ne pas répondre. Il convient de noter que les voix les plus prudentes choisissent souvent l'autocensure plutôt que de faire des prédictions explicites, un comportement qui ressemble de près à celui de ces institutions dans la vie réelle.

La valeur moyenne pour chaque catégorie est supérieure à 60 % : Militaire à 75 %, Médias à 69 %, Énergie à 66 %, Finance à 65 %, Diplomatie à 61 %. Le chiffre du marché est de 31,5 %.
Le résultat organique du développement naturel par rapport au résultat de l'entretien présente deux images très différentes.
C'est la découverte la plus critique.

Les résultats des entretiens tendent à être plus optimistes. Lorsque les agents sont libres de publier, les opinions des baissiers (pessimistes) sont souvent plus fortes et plus spécifiques ; cependant, lors d'entretiens individuels, en raison d'une préférence pour la coopération, presque tout le monde fournit des jugements dans la fourchette de 60 % à 70 %.
Les résultats organiques sont plus fiables. Un conseiller financier a déclaré lors d'une discussion animée qu'il l'estimait à 65 %, un jugement formé pendant l'interaction ; tandis qu'un agent répondant à des questions lors d'un entretien s'engage essentiellement dans un appariement de modèles.
Ironiquement, les pessimistes dans les expressions naturelles s'avèrent être les meilleurs prédicteurs. Parmi les 7 agents de la simulation qui ont fourni une probabilité ≤30 % (ministre iranien des Affaires étrangères, ministre chinois des Affaires étrangères, Kalshi, Platts, un professeur d'économie, un étudiant iranien, un activiste anti-guerre), la moyenne était de 22 %, ce qui représente moins de 10 points de pourcentage de différence par rapport au résultat de Polymarket. Expertise + Expression naturelle = Plus proche du marché.
Plus critique encore, ce n'est pas seulement un phénomène d'IA ; les acteurs du monde réel se comportent de la même manière.
Lorsque vous interrogez un leader national sur une crise, il parlera toujours de notre engagement envers la paix, de notre optimisme quant aux solutions. C'est un script standard, une phrase à dire devant la caméra. Mais si vous regardez ce qu'ils font réellement : déploiements militaires, sanctions, gel d'actifs, désinvestissements—leurs actions racontent souvent une histoire complètement différente.
Le prince héritier saoudien dirait à Reuters qu'il croit aux moyens diplomatiques, tandis que son fonds souverain envisage jusqu'à 3,2 trillions de dollars en allocations d'actifs américains. Le président iranien dirait que la paix est notre objectif commun, pourtant le Corps des gardiens de la révolution iranienne pose des mines dans le détroit. Trump dirait que nous verrons, tout en rejetant chaque proposition de cessez-le-feu.
Cette simulation a involontairement reproduit la même fracture structurelle : alors que les affichages libres de proxy argumentent, débattent, répondent et diffusent des informations, le groupe d'experts converge progressivement dans la fourchette de 20 % à 30 %—plus pessimiste, et plus proche de la réalité ; mais une fois que vous les amenez dans une salle de réunion et que vous demandez formellement quelle est votre prédiction ?, ils passent immédiatement en mode diplomate : 65 %–70 %, visiblement plus optimiste.
Publication naturelle, plus proche de la conduite privée et des dialogues informels ; résultats d'entretiens, plus proches des conférences de presse. Si vous voulez vraiment savoir ce que quelqu'un pense, ne le lui demandez pas directement : regardez son comportement quand personne ne note.
Quelle est la suite ?
C'était juste un test initial. L'objectif n'est pas de fournir une prédiction définitive, mais de voir dans ce type de simulation de groupe, quels signaux sont utiles, où il y a distorsion, quelles parties valent la peine d'être optimisées.
Il y a déjà des réponses : les discussions naturellement évoluées peuvent produire des signaux efficaces, les entretiens ne le peuvent pas ; les pessimistes sont la source du signal ; et la préférence de coopération du mini GPT-4o est en effet un problème.
Le prochain expérience aura plusieurs améliorations.
La première est un ensemble de données de départ plus important. Ce n'est plus juste un résumé de 5800 mots, mais l'introduction de plus de 20 ans de contexte historique : événements pertinents dans le Hormuz, conflits croissants entre l'Iran et les États-Unis, crises pétrolières passées, changements diplomatiques du CCG, etc. - en gros, ce qu'un véritable analyste géopolitique aurait en tête avant de faire des évaluations.
La deuxième est un modèle plus puissant. Le mini GPT-4o a suffi pour la validation à un coût de 3 $, mais un modèle plus puissant devrait rapprocher l'agent de la manière de penser propre au rôle, plutôt que de se contenter de dire que j'adopte une vue optimiste du dialogue à des moments critiques.
Enfin, plus de mandataires. 200, c'est déjà bien, mais il y a de la place pour aller plus loin : plus de rôles humains réguliers diversifiés, plus de voix régionales, plus de cas limites. Plus il y a de participants, plus la structure de la discussion est riche, et plus le signal résultant est précieux.
Vous pourriez aussi aimer

Rapport du matin | Coinbase Ventures réalise son premier investissement dans ENA ; SpaceX prévoit de fixer le prix de son introduction en bourse à 135 $ par action

Texte intégral et analyse du discours du PDG de SanDisk lors de la 42e conférence annuelle sur les décisions stratégiques de Bernstein

Prévision du prix du Bitcoin pour 2030 : Ark Invest anticipe 710 000 $

Prix du SOL aujourd'hui : cours en direct de Solana, graphiques et données de marché

Qu'est-ce qu'un ETF Bitcoin : Spot vs Futures expliqués

Pourquoi le Bitcoin chute de 15 % alors que le Nasdaq atteint des records ?
Qu'est-ce que la TradFi et pourquoi tout le monde en parle en 2026 ?

Rapport du matin | Strategy a vendu 32 BTC et plus de 800 000 actions MSTR la semaine dernière ; Binance a officiellement annoncé son portail de trading d'actions américaines ; Polymarket a conclu un partenariat exclusif avec OneFootball

Bootcamp de trading WEEXPERIENCE en Pologne : comment WEEX et FireCrew rendent le trading crypto accessible à tous

Le sacre de Paris : comment le PSG a brisé le rêve d'Arsenal lors d'une finale de Ligue des champions historique

TaiJi finalise un financement stratégique de 3,5 millions de dollars, avec la participation de Castrum Capital, Becker Ventures et Coinvestor Ventures

Bitcoin stagne près de 73 000 $ ? Comment les traders trouvent des opportunités dans un marché latéral en juin

Comment staker Solana : un guide étape par étape pour 2026

Le prix garanti est désormais disponible sur WEEX : exécutez vos ordres avec une plus grande précision

Dernières recherches de la BRI : L'avenir des stablecoins et le paysage monétaire mondial

Entretien avec l'expert macro Raoul Pal : La course à l'IA mène à une « singularité économique », ne lâchez pas vos jetons trop facilement au cours des quatre prochaines années

Pourquoi Peter Thiel, l'homme derrière Palantir, prépare-t-il une sortie en Argentine ?

