Sind die Preisangaben von Polymarket korrekt? Ich habe eine Krise mit 200 Agenten simuliert, um herauszufinden
Originaltitel: Wie ich mit Mirofish 200 KI-Agenten in der Hormuz-Krise eingesetzt habe und das mit Polymarket vergleiche.
Originalautor: Der intelligente Affe
Übersetzung: Peggy, BlockBeats
Anmerkung der Redaktion: Wenn KI beginnt, ein Feld der öffentlichen Meinung zu simulieren, verändert sich die Vorhersage des Ereignisses selbst im Stillen.
Dieser Artikel dokumentiert ein Experiment zur Situation rund um die Straße von Hormuz: Der Autor nutzte MiroFish, um ein Simulationssystem mit 200 Agenten zu erstellen, das es Regierungen, Medien, Energieunternehmen, Händlern und normalen Bürgern ermöglicht, in einem simulierten sozialen Netzwerk zusammenzuleben, durch kontinuierliche Interaktion, Debatten und Informationsverbreitung Urteile zu fällen und die Ergebnisse dieser Gruppe mit der Marktpreisbildung von Polymarket zu vergleichen.
Die Ergebnisse waren nicht einheitlich. Die Gruppendiskussion war insgesamt optimistischer, während der Markt deutlich pessimistischer war; in der freien Meinungsäußerung lagen die wenigen Pessimisten näher an der wahren Preisgestaltung; und sobald man sich in einem Interview-Szenario befand, näherten sich fast alle Akteure einer gemäßigteren, kooperativeren Ausdrucksweise an.
Diese Art der Aufteilung ist nicht ungewöhnlich. In der Realität neigen öffentliche Äußerungen oft zu Stabilität und Optimismus, während die wahre Risikobewertung in Handlungen und informellen Äußerungen verborgen bleibt. Mit anderen Worten: Was die Leute sagen, was sie denken und wie sie Geld verwetten, sind oft drei verschiedene Systeme.
In einer solchen Struktur stammt das wertvollste Signal oft nicht vom Konsens, sondern von jenen Stimmen, die im Lärm unkonventionell erscheinen.
Es folgt der Originaltext:
Ich habe MiroFish verwendet, um die Situation in der Straße von Hormuz für die nächsten Wochen zu simulieren. Dieses Tool eignet sich hervorragend für die Bewältigung solcher Probleme, da es hochkomplexe Szenarioanalysen durchführen kann: Es führt mehrere Teilnehmer mit unterschiedlichen Rollen und Anreizen in dasselbe System ein und ermöglicht es diesen Akteuren, kontinuierlich Spiele zu spielen, zu debattieren und nach und nach ein konsensähnliches Ergebnis zu erzielen.

Hier sind die konkreten Schritte, die ich zur Durchführung dieser Simulation unternommen habe, und die Ergebnisse, die ich letztendlich erzielt habe. Jeder kann es nachmachen; der Schlüssel liegt nur darin, die richtigen Schritte zu kennen.
MiroFish ist in erster Linie ein Open-Source-Projekt eines chinesischen Forschungsteams. Nachdem Sie eine Reihe von Dokumenten eingegeben haben, erstellt das System zunächst einen Wissensgraphen, generiert dann auf Basis dieses Graphen verschiedene Agentenpersönlichkeiten und setzt diese Agenten anschließend in eine simulierte Twitter-Umgebung ein. In diesem Umfeld werden sie posten, retweeten, kommentieren, liken und miteinander streiten. Nach Ende der Simulation können Sie auch jeden Agenten einzeln befragen, um seine jeweilige Position und seine Denkprozesse zu verstehen.

Wenn man es mit einem Krisenszenario füttert, erzeugt es eine Debatte über dieses Ereignis; aus dieser Debatte kann man dann eine Vorhersage ableiten.
Ich habe damit auf eine aktuelle Marktfrage bei Polymarket hingewiesen: Wird der Schiffsverkehr in der Straße von Hormuz bis Ende April 2026 wieder normal sein?

Also habe ich all diese Informationen in MiroFish eingespeist und 200 Agentenrollen generiert – darunter Regierungsvertreter, Medienvertreter, Militärangehörige, Vertreter von Energieunternehmen, Händler und normale Bürger – und diese 7 simulierte Tage lang debattieren lassen. Abschließend verglich ich ihre Leistung mit den Marktpreisen.
Der Gesamtaufbau war wie folgt:
· Modell: GPT-4o mini, optimales Kosten-Nutzen-Verhältnis in einem Szenario mit 200 Wirkstoffen
• Speichersystem: Zep Cloud wird zur Speicherung von Agentenspeichern und Wissensgraphen verwendet.
• Simulations-Engine: OASIS (eine von Camel-AI bereitgestellte Twitter-Klonumgebung)
• Hardware: Mac mini M4 Pro, 24 GB RAM
• Laufzeit: Ungefähr 49 Minuten für 100 Simulationsrunden
· Kosten: API-Aufrufe kosten etwa 3 bis 5 US-Dollar.
• Saatgut: Ein 5800 Zeichen umfassendes Briefing, zusammengestellt aus Informationen von Wikipedia, CNBC, Al Jazeera, Forbes und Reuters, einschließlich einer militärischen Zeitleiste, des Blockadestatus, der Ölpreise, der wirtschaftlichen Verluste, der diplomatischen Bemühungen und der Faktoren im Zusammenhang mit einer 3,2 Billionen Dollar schweren Investition des Golf-Kooperationsrats. Mit anderen Worten: Alle Kerninformationen, die die Agenten für ihre Urteilsbildung benötigten, waren enthalten.
So replizieren Sie diesen Arbeitsablauf (Schritt-für-Schritt-Anleitung)
Falls Sie diesen Prozess selbst durchführen möchten, finden Sie hier die vollständigen Schritte, die ich unternommen habe. Der gesamte Einrichtungsprozess dauert etwa 2 Stunden, die API-Kosten liegen bei etwa 3 bis 5 US-Dollar; eine Erhöhung der Anzahl der Runden oder Agenten führt zu weiteren Kostensteigerungen.
Was Sie benötigen
• Python 3.12 (Version 3.14 wird nicht verwendet, da tiktoken bei dieser Version einen Fehler ausgibt)
•Node.js 22 und höher
•Ein OpenAI-API-Schlüssel (GPT-4o Mini ist günstig genug und für dieses Szenario geeignet)
•Ein Zep Cloud-Konto (für Simulationen im kleinen Maßstab reicht die kostenlose Version aus)
•Ein Rechner mit ausreichendem Speicher. Ich nutze einen Mac mini M1 Pro mit 24 GB Arbeitsspeicher, aber 16 GB sollten auch ausreichen.
Schritt 1: Installieren Sie MiroFish

Konfigurieren Sie anschließend Ihre .env-Datei.
OPENAI_API_KEY=sk-your-key
OPENAI_BASE_URL=Link
OPENAI_MODEL=gpt-4o-mini
ZEP_API_KEY=Ihr-ZEP-Schlüssel
Schritt 2: Erstelle ein Projekt und lade dein Seed-Dokument hoch.
Das Ausgangsdokument ist der wichtigste Teil des gesamten Prozesses, da es festlegt, welche Informationen der Agent über die aktuelle Situation besitzt. Ich erstellte ein Kurzpapier von etwa 5800 Zeichen, das eine militärische Zeitleiste, den Status der Blockade, die Ölpreise, die wirtschaftlichen Verluste, die diplomatischen Bemühungen und den Investitionsaspekt des Golf-Kooperationsrats (GCC) umfasste. Als Quellen dienten Wikipedia, CNBC, Al Jazeera, Forbes und Reuters.
Schritt 3: Generieren Sie die Ontologie
Dieser Schritt teilt MiroFish mit, welche Arten von Entitäten es erkennen soll und welche Beziehungen zwischen diesen Entitäten bestehen können.
Am Ende habe ich 10 Arten von Entitäten generiert: Länder, Militär, Diplomaten, kommerzielle Unternehmen, Medienorganisationen, Wirtschaftsunternehmen, Organisationen, Einzelpersonen, Infrastruktur, Prognosemärkte; und 6 Arten von Beziehungen. Falls die automatisch generierten Ergebnisse nicht optimal auf Ihr Szenario zugeschnitten sind, können Sie sie auch manuell anpassen.
Schritt 4: Erstelle den Wissensgraphen
Dieser Schritt beinhaltet die Verwendung von Zep Cloud. MiroFish sendet das Ausgangsdokument und die Ontologie an Zep, das für die Entitätsextraktion und den Aufbau des Graphen zuständig sein wird.
Dieser Vorgang dauert etwa ein bis zwei Minuten. Am Ende erhielt ich einen Graphen mit 65 Knoten und 85 Kanten, der Elemente wie Länder, Persönlichkeiten, Organisationen und Waren miteinander verbindet.
Schritt Fünf: Agenten generieren
MiroFish wird den Wissensgraphen nutzen, um für jede Entität eine umfassende Persona zu erstellen, einschließlich MBTI-Persönlichkeitstyp, Alter, Herkunftsland, Posting-Stil, emotionale Auslöser, Tabuthemen und institutionelles Gedächtnis.
Zunächst habe ich 43 Kernagenten aus dem Wissensgraphen generiert. Anschließend kann das System diese Kernrollen auf die von Ihnen gewünschte Gesamtanzahl erweitern. Letztendlich habe ich die Gesamtzahl der Agenten auf 200 festgelegt und zusätzlich diverse zivile Berufe wie Krypto-Händler, Airline-Piloten, Professoren, Studenten, Sozialaktivisten und mehr einbezogen.
Schritt Sechs: Simulationsumgebung vorbereiten

Dieser Schritt dient der Einrichtung der kompletten Simulationskonfiguration, einschließlich der Aktionspläne der Agenten, der anfänglichen Startwerte und der Zeitparameter. MiroFish wählt automatisch eine Reihe sinnvoller Standardeinstellungen, wie z. B. Spitzenaktivitätszeiten, Ausfallzeiten und Veröffentlichungsfrequenzen für verschiedene Agententypen.
Meine damalige Konfiguration war: Simulation von insgesamt 168 Stunden (7 Tagen), 100 Runden (wobei jede Runde 1 Stunde entspricht), ausschließlich unter Verwendung des Twitter-Szenarios und Einrichtung individueller Aktivitätspläne für verschiedene Agenten.
Schritt Sieben: Starten Sie die Simulation.

Dann heißt es warten. Bei mir dauerte das Ausführen von 200 Agenten und 100 Simulationsrunden mit GPT-4o mini ungefähr 49 Minuten. Sie können den Fortschritt über eine API überwachen oder die Protokolle direkt einsehen.
Während des gesamten Prozesses arbeiten die Agenten autonom: Sie beobachten die Zeitleiste und entscheiden, ob sie posten, Kommentare retweeten, teilen, liken oder einfach nur durch den Feed scrollen, alles ohne dass ein menschliches Eingreifen erforderlich ist.
Achter Schritt (optional): Interviewagenten
Nach Abschluss der Simulation wechselt das System in den Befehlsmodus. An diesem Punkt können Sie entweder Einzelgespräche mit einzelnen Agenten führen oder alle Agenten gleichzeitig befragen:

Analyse
MiroFish liest zunächst das Ausgangsdokument und generiert automatisch die Ontologiestruktur (bestehend aus 10 Entitätstypen und 6 Beziehungstypen); anschließend extrahiert es einen Wissensgraphen auf Basis dieser Definitionen (mit 65 Knoten und 85 Kanten). Auf dieser Grundlage wird für jede Entität eine vollständige Persona erstellt, einschließlich MBTI-Persönlichkeitstyp, Alter, Herkunftsland, Posting-Stil, emotionale Auslöser und Elemente des institutionellen Gedächtnisses.
Letztendlich wurden aus dem Wissensgraphen 43 Kernagenten generiert, die dann auf insgesamt 200 Agenten erweitert wurden. Dadurch wurde ein vielfältigeres Spektrum an Rollen für die einfachen Bürger eingeführt, um die Diversität und den Realismus der gesamten Simulation zu erhöhen.

Die genaue Aufschlüsselung sieht wie folgt aus:
• 140 Agenten aus dem Alltag: Kryptohändler, Airline-Piloten, Supply-Chain-Manager, Studenten, Sozialaktivisten, Professoren usw.
• 16 diplomatische/staatliche Funktionen: Iranischer Außenminister, Saudi-Arabischer Außenminister, Omanischer Außenminister, Bahrainischer Premierminister, Chinesischer Außenminister, EU, UN usw.
• 15 Medienorganisationen: Reuters, CNN, Bloomberg, Al Jazeera, BBC, Fox, Wall Street Journal usw.
• 10 Energie-/Schifffahrtsbezogene Bereiche: OPEC, Platts, Qatar Energy, Aramco, Maersk usw.
• 7 Finanzinstitute: Polymarket, Kalshi, Goldman Sachs, JPMorgan, Citadel, ADIA usw.
• 2 Militär-/Politikerfiguren: Trump, Kommandeur der Revolutionsgarde
Im Verlauf des 7-tägigen (100 Runden umfassenden) Simulationsprozesses wurden folgende Ergebnisse generiert:
1.888 Beiträge
6.661 Verhaltensspuren (Erfassung aller Aktionen)
1.611 Zitat-Retweets (Agenten antworten aufeinander)
4.051 Aktualisierungen (nur das Ansehen des Feeds)
311 Leerlauf (Beobachtungsmodus)
208 Likes, 207 Retweets
70 originelle Standpunkte (neue, unabhängige Positionen oder Urteile)
Insgesamt stellt dieses System nicht nur eine einfache Informationsgenerierung dar, sondern eher etwas, das einer sozialen Verhaltenssimulation ähnelt. Meistens werden Agenten dabei beobachtet, wie sie Informationen verarbeiten und interagieren, anstatt kontinuierlich Ergebnisse zu produzieren. Diese Struktur ähnelt eher der Verhaltensverteilung in einem realen Umfeld der öffentlichen Meinung – begrenzter Originalinhalt, der mit umfangreicher Wiederholung, Manipulation und emotionalem Feedback überlagert wird.

Agenten verbringen den größten Teil ihrer Zeit damit, die Ansichten anderer zu lesen und zu zitieren, anstatt aktiv neue Inhalte zu erstellen.
Die gesamte Gruppe weist eine klare Tendenz zur Verbreitung von Emotionen auf: Optimistische Ansichten werden leichter verstärkt und geteilt, während pessimistische Urteile, selbst wenn sie logisch näher an der Realität liegen, sich tendenziell weniger verbreiten und weniger Gehör finden.
Noch interessanter ist, dass 19 Agenten während ihrer Beiträge spontan konkrete Wahrscheinlichkeitseinschätzungen abgaben, nicht weil sie dazu aufgefordert wurden, sondern als natürliche Weiterentwicklung der Diskussion.

Die durchschnittliche Wahrscheinlichkeit für eine spontan gebildete Gruppe beträgt 47,9 %, während der Polymarket-Markt eine Wahrscheinlichkeit von 31 % angibt, was zu einem Unterschied von 16,9 Prozentpunkten zwischen den beiden führt.
Während des Simulationsprozesses änderten einige Agenten sogar im Laufe von über 100 Interaktionsrunden ihre Haltung.
Im Anschluss an die Simulation nutzte ich die Interviewfunktion von MiroFish, um 43 Kernagenten dieselbe Frage zu stellen: Wie hoch ist die Wahrscheinlichkeit (0–100 %), dass der Schiffsverkehr in der Straße von Hormuz von jetzt bis Ende April 2026 wieder zum Normalzustand zurückkehrt?
Die Ergebnisse waren wie folgt: 31 der 43 Agenten gaben konkrete Werte an, die übrigen 12 verweigerten die Antwort. Es ist bemerkenswert, dass die vorsichtigsten Stimmen oft eher zur Selbstzensur greifen, anstatt explizite Vorhersagen zu treffen – ein Verhalten, das dem dieser Institutionen im wirklichen Leben sehr ähnelt.

Der Durchschnittswert liegt in jeder Kategorie über 60 %: Militär 75 %, Medien 69 %, Energie 66 %, Finanzen 65 %, Diplomatie 61 %. Der Wert des Marktes liegt bei 31,5 %.
Das Ergebnis der organischen Gruppenanalyse im Vergleich zum Ergebnis der Befragung zeichnet zwei völlig unterschiedliche Bilder.
Dies ist die wichtigste Erkenntnis.

Die Ergebnisse von Vorstellungsgesprächen fallen tendenziell optimistischer aus. Wenn Agenten die Möglichkeit haben, Beiträge zu veröffentlichen, sind die Ansichten der Bären (Pessimisten) oft lauter und konkreter; während Einzelgesprächen hingegen, aufgrund der Präferenz für Kooperation, geben fast alle ihre Einschätzungen im Bereich von 60% bis 70% ab.
Bio-Ergebnisse sind zuverlässiger. Ein Finanzberater postete während einer hitzigen Diskussion, dass er den Wert auf 65 % schätze – eine Einschätzung, die er sich während der Interaktion gebildet hatte; ein Agent hingegen, der Fragen in einem Interview beantwortet, betreibt im Wesentlichen Mustererkennung.
Ironischerweise erweisen sich die Pessimisten in natürlichen Äußerungen als die besten Prognostiker. Unter den 7 Agenten in der Simulation, die eine Wahrscheinlichkeit von ≤30 % angaben (iranischer Außenminister, chinesischer Außenminister, Kalshi, Platts, ein Wirtschaftsprofessor, ein iranischer Student, ein Antikriegsaktivist), lag der Durchschnitt bei 22 %, was weniger als 10 Prozentpunkte Unterschied zum Ergebnis von Polymarket ausmacht. Fachkompetenz + Natürlicher Ausdruck = Am nächsten am Markt.
Noch wichtiger ist jedoch, dass es sich hierbei nicht nur um ein Phänomen der KI handelt; auch Akteure in der realen Welt verhalten sich auf die gleiche Weise.
Wenn man einen Staatschef zu einer Krise befragt, wird er immer von unserem Bekenntnis zum Frieden und unserem Optimismus hinsichtlich der Lösungen sprechen. Dies ist ein Standardtext, den man unbedingt vor der Kamera sagen muss. Doch wenn man sich anschaut, was sie tatsächlich tun: Militäreinsätze, Sanktionen, Einfrieren von Vermögenswerten, Desinvestitionen – dann erzählen ihre Handlungen oft eine ganz andere Geschichte.
Der saudische Kronprinz erklärte gegenüber Reuters, man glaube an diplomatische Mittel, während sein Staatsfonds Investitionen in US-Vermögenswerte von bis zu 3,2 Billionen Dollar anstrebt. Der iranische Präsident würde sagen, Frieden sei unser gemeinsames Ziel, doch die iranischen Revolutionsgarden verlegen Minen in der Meerenge. Trump würde sagen: „Wir werden sehen“, und gleichzeitig jeden Waffenstillstandsvorschlag ablehnen.
Diese Simulation reproduzierte unbeabsichtigt denselben strukturellen Riss: Während die Teilnehmer ohne Stellvertretermeinungen argumentieren, debattieren, antworten und Informationen verbreiten, nähert sich die Expertengruppe allmählich dem Bereich von 20–30 % an – pessimistischer und näher an der Realität; aber sobald man sie in einen Sitzungssaal bittet und formell fragt: „Was ist Ihre Prognose?“, schalten sie sofort in den Diplomatenmodus: 65–70 %, merklich optimistischer.
Natürliche Veröffentlichungen, die eher privatem Verhalten und vertraulichen Gesprächen ähneln; Interviewergebnisse, die eher Pressekonferenzen ähneln. Wenn du wirklich wissen willst, was jemand denkt, frag ihn nicht direkt – beobachte sein Verhalten, wenn niemand punktet.
Was kommt als Nächstes?
Dies war nur ein erster Test. Ziel ist es nicht, eine definitive Vorhersage zu treffen, sondern in dieser Art von Gruppensimulation zu sehen, welche Signale nützlich sind, wo Verzerrungen auftreten und welche Teile einer Optimierung wert sind.
Es gibt bereits Antworten: Natürlich entstandene Diskussionen können effektive Signale liefern, Interviews nicht; die Pessimisten sind die Signalquelle; und die Kooperationspräferenz von GPT-4o mini ist in der Tat ein Problem.
Das nächste Experiment wird einige Verbesserungen beinhalten.
Erstens: größere Ausgangsdaten. Nicht länger nur ein 5800 Wörter umfassender Bericht, sondern eine Einführung in einen über 20 Jahre umfassenden historischen Kontext: relevante Ereignisse in der Hormuz-Region, eskalierende Konflikte zwischen dem Iran und den USA, vergangene Ölkrisen, diplomatische Veränderungen im Golf-Kooperationsrat usw. – im Grunde all das, was ein echter Geopolitikanalyst im Kopf haben würde, bevor er Einschätzungen abgibt.
Das zweite Modell ist aussagekräftiger. GPT-4o mini hat für die Validierung zu Kosten von 3 Dollar ausgereicht, aber ein stärkeres Modell sollte den Agenten näher an die Denkweise der Rolle heranführen, anstatt in kritischen Momenten standardmäßig eine optimistische Sichtweise des Dialogs einzunehmen.
Und schließlich noch mehr Proxys. 200 ist schon gut, aber es gibt noch Raum für Erweiterungen: vielfältigere reguläre menschliche Rollen, mehr regionale Stimmen, mehr Grenzfälle. Je mehr Teilnehmer, desto reichhaltiger die Diskussionsstruktur und desto wertvoller das daraus resultierende Signal.
Das könnte Ihnen auch gefallen

Von OKX bis Bybit: Die Börsen wechseln ihre Reifen auf der Autobahn bei hoher Geschwindigkeit

Eine kurze Geschichte und Zukunft der unbefristeten Verträge

AI-Agent erhält ID und Wallet am selben Tag | Rewire News Morgenbrief

IOSG: Paradigmenwechsel bei der Leistungsflexibilität: Von Makro-Assets zu einer verteilten Intelligenzschicht

Erklärung zur 35%igen Preiserhöhung bei Murata: Ein Kondensator, der AI Empire einen kalten

MiniMax: Ein Jugendlicher aus dem Henan County und seine 300 Milliarden

Von einem aufgegebenen Projekt zu einem hochgesteckten Ziel, Mastercorp erwirbt BVNK für 1,8 Milliarden Dollar

Ein Jahrzehnt der Regulierung endlich geklärt, Sieg für die krypto-native Logik

Morgenbericht | Mastercard plant, BVNK für bis zu 1,8 Milliarden Dollar zu erwerben; Solana Foundation bringt Aggregator-Token auf Solana auf den Markt; Bitcoin verzeichnet seine ersten 8 aufeinanderfolgenden Steigerungen seit vier Jahren

Aster Chain startet offiziell: Ein neues Zeitalter der On-Chain-Privatsphäre und -Transparenz beginnt.

RootData: Forschungsbericht zur Transparenz von Kryptowährungsbörsen im Februar 2026

„One and Done SEA“, daher entscheidet sich OpenSea, etwas länger zu warten

Ray Dalio: Die Lösung des US-Iran-Konflikts liegt in der Straße von Hormus

In nur 70 Tagen nahm Polymarket problemlos zweistellige Millionenbeträge an Gebühren ein.

Matrixdock bringt den Silver Token XAGm auf den Markt, der auf dem FRS-Standard basiert und als On-Chain-Silber-gedeckter Vermögenswert fungiert.

a16z: Die härteste Unternehmenssoftware und die größte Chance in der KI

Polymarkt Markt-Making Bibel: Preisgestaltung Spread Formula
