Czy ceny na Polymarket są dokładne? Symulowałem kryzys z 200 agentami, aby to sprawdzić

By: blockbeats|2026/03/18 05:13:19

Udostępnij

Oryginalny tytuł: jak uruchamiam 200 agentów AI w kryzysie Hormuz z Mirofish i porównuję go z Polymarket
Autor oryginału: The Smart Ape
Tłumaczenie: Peggy, BlockBeats

Uwaga redakcyjna: Gdy sztuczna inteligencja zaczyna symulować pole opinii publicznej, samo przewidywanie wydarzeń zaczyna się cicho zmieniać.

W tym artykule opisano eksperyment dotyczący sytuacji w Cieśninie Ormuzkiej: autor wykorzystał MiroFish do zbudowania systemu symulacji składającego się z 200 agentów, umożliwiając rządom, mediom, firmom energetycznym, handlowcom i zwykłym ludziom współistnienie w symulowanej sieci społecznościowej, formułowanie sądów poprzez ciągłą interakcję, debatę i rozpowszechnianie informacji oraz porównanie wyników tej grupy z cenami rynkowymi Polymarketu.

Wyniki nie były spójne. Dyskusja grupowa była ogólnie bardziej optymistyczna, podczas gdy rynek był znacznie bardziej pesymistyczny; w wolnej mowie nieliczni pesymiści byli bliżej prawdziwych cen; a w scenariuszu wywiadu niemal wszyscy agenci zbiegliby się do bardziej umiarkowanego, kooperatywnego wyrażenia.

Ten rodzaj podziału nie jest niczym nowym. W rzeczywistym świecie oświadczenia publiczne często mają tendencję do bycia stabilnymi i optymistycznymi, podczas gdy prawdziwa ocena ryzyka jest ukryta w działaniach i nieformalnych wypowiedziach. Innymi słowy, to, co ludzie mówią, co myślą i jak obstawiają pieniądze, często stanowią trzy różne systemy.

W takiej strukturze najcenniejszy sygnał często pochodzi nie od konsensusu, ale od tych głosów, które wydają się niekonwencjonalne w tym zgiełku.

Poniżej znajduje się oryginalny tekst:

Użyłem MiroFish do symulacji sytuacji w Cieśninie Ormuz na najbliższe kilka tygodni. To narzędzie doskonale sprawdza się w rozwiązywaniu takich problemów, ponieważ może przeprowadzać bardzo złożone analizy scenariuszy: wprowadzając do tego samego systemu wielu uczestników, różne role z ich motywacjami i pozwalając tym agendom na ciągłe granie w gry, debatowanie i stopniowe kształtowanie wyniku podobnego do konsensusu.

Czy ceny na Polymarket są dokładne? Symulowałem kryzys z 200 agentami, aby to sprawdzić

Oto konkretne kroki, które podjąłem, aby uruchomić tę symulację, oraz wyniki, które ostatecznie uzyskałem. Każdy może ją odtworzyć; kluczem jest tylko wiedza, jakie kroki podjąć.

Po pierwsze, MiroFish to projekt open-source chińskiego zespołu badawczego. Po wprowadzeniu do niego zestawu dokumentów najpierw buduje wykres wiedzy, a następnie generuje różne osobowości agentów na podstawie tego wykresu, a następnie umieszcza tych agentów w symulowanym środowisku Twitter. W tym środowisku będą publikować, retweetować, komentować, lajkować i kłócić się ze sobą. Po zakończeniu symulacji możesz również przesłuchać każdego agenta z osobna, aby zobaczyć ich odpowiednie stanowiska i procesy rozumowania.

Gdy wprowadzisz scenariusz kryzysowy, generuje on debatę na temat tego zdarzenia; z tej debaty możesz następnie wyciągnąć prognozę.

Wskazałem na bieżące pytanie rynkowe Polymarket: Czy do końca kwietnia 2026 r. żegluga morska w Cieśninie Ormuz wróci do normy?

Więc wprowadziłem wszystkie te informacje do MiroFish i wygenerowałem 200 ról agentów — w tym rządu, mediów, wojska, firm energetycznych, handlowców i zwykłych obywateli — i kazałem im debatować przez 7 dni symulacji. Na koniec porównałem ich wyniki z cenami rynkowymi.

Ogólna konfiguracja wyglądała następująco:

· Model: GPT-4o mini, optymalna równowaga kosztów i skuteczności w scenariuszu z 200 agentami

· System pamięci: Zep Cloud, używany do przechowywania wspomnień agentów i grafów wiedzy

· Silnik symulacji: OASIS (środowisko klonu Twittera dostarczone przez Camel-AI)

· Sprzęt: Mac mini M4 Pro, 24 GB RAM

· Czas działania: około 49 minut na wykonanie 100 rund symulacji

· Koszt: wywołania API w cenie od 3 do 5 USD

· Materiał siewny: 5800-znakowy raport pochodzący z Wikipedii, CNBC, Al Jazeera, Forbes, Reuters, zawierający harmonogram działań wojskowych, stan blokady, ceny ropy naftowej, straty gospodarcze, wysiłki dyplomatyczne i czynniki związane z inwestycją GCC o wartości 3,2 bln USD. Innymi słowy, uwzględniono wszystkie kluczowe informacje potrzebne agentowi do formułowania osądów.

Jak powtórzyć ten proces (przewodnik krok po kroku)

Jeśli chcesz samodzielnie przeprowadzić ten proces, oto kompletne kroki, które wykonałem. Cały proces zajmuje około 2 godzin, a koszty API wynoszą około 3 do 5 USD; zwiększenie liczby rund lub agentów dodatkowo zwiększy koszt.

Co będzie potrzebne

· Python 3.12 (nie używaj 3.14, ponieważ tiktoken wyrzuci błąd w tej wersji)

· Node.js 22 i nowszy

· Klucz API OpenAI (GPT-4o Mini jest wystarczająco tani i odpowiedni dla tego scenariusza)

· Konto Zep Cloud (bezpłatna wersja wystarczy do małych symulacji)

·Maszyna z przyzwoitą pamięcią. Używam Mac mini M1 Pro z 24 GB pamięci, ale 16 GB powinno wystarczyć

Krok 1: Zainstaluj MiroFish

Następnie skonfiguruj plik .env

OPENAI_API_KEY=sk-your-key

OPENAI_BASE_URL=link

OPENAI_MODEL=gpt-4o-mini

ZEP_API_KEY=your-zep-key

Krok 2: Utwórz projekt i prześlij dokument wyjściowy

Dokument wyjściowy jest najważniejszą częścią całego procesu, ponieważ określa, jakie informacje agent zna na temat bieżącej sytuacji. Przygotowałem streszczenie zawierające około 5800 znaków, obejmujące chronologię wydarzeń wojskowych, stan blokady, ceny ropy naftowej, straty gospodarcze, wysiłki dyplomatyczne i aspekt inwestycji GCC, ze źródłami z Wikipedii, CNBC, Al Jazeera, Forbesa i Reutersa.

Krok 3: Generowanie ontologii

Ten krok informuje MiroFish, jakie rodzaje podmiotów powinien rozpoznawać i jakie relacje mogą istnieć między tymi podmiotami.

Ostatecznie wygenerowałem 10 typów podmiotów: kraj, wojsko, dyplomaci, podmioty handlowe, organizacje medialne, podmioty gospodarcze, organizacje, osoby indywidualne, infrastruktura, rynki prognoz; oraz 6 typów relacji. Jeśli automatycznie wygenerowane wyniki nie są do końca dostosowane do Twojego scenariusza, możesz je również dostosować ręcznie.

Krok 4: Tworzenie grafów wiedzy

Ten krok wymaga użycia Zep Cloud. MiroFish wyśle dokument źródłowy i ontologię do Zep, który będzie odpowiedzialny za wyodrębnianie podmiotów i budowanie grafów.

Proces ten zajmie około jednej do dwóch minut. W rezultacie uzyskałem wykres zawierający 65 węzłów i 85 krawędzi, łączących takie elementy jak kraje, osobowości, organizacje i towary.

Krok piąty: Generowanie agentów

MiroFish wykorzysta wykres wiedzy do stworzenia kompleksowej postaci dla każdej jednostki, w tym typu osobowości MBTI, wieku, kraju pochodzenia, stylu publikowania, emocjonalnych czynników wyzwalających, tematów tabu i pamięci instytucjonalnej.

Początkowo wygenerowałem 43 podstawowe agenty z wykresu wiedzy. Następnie system może rozszerzyć te podstawowe role do pożądanej całkowitej ilości. Ostatecznie ustawiłem całkowitą liczbę agentów na 200 i dodałem dodatkowe zróżnicowane role cywilne, takie jak kryptotraderzy, piloci linii lotniczych, profesorowie, studenci, działacze społeczni i inni.

Krok szósty: Przygotowanie środowiska symulacji

Na tym etapie skonfigurujemy pełną konfigurację symulacji, w tym harmonogramy działań agentów, początkowe posty nasienne i parametry czasowe. MiroFish automatycznie wybierze zestaw rozsądnych ustawień domyślnych, takich jak godziny szczytu aktywności, przestoje i częstotliwość publikowania postów dla różnych typów agentów.

Moja konfiguracja w tamtym czasie była następująca: symulowanie w sumie 168 godzin (7 dni), 100 rund (każda runda reprezentuje 1 godzinę), wyłącznie przy użyciu scenariusza Twitter, oraz ustawienie indywidualnych harmonogramów aktywności dla różnych agentów.

Krok siódmy: Rozpocznij symulację

Następnie nadszedł czas na oczekiwanie. Z mojego punktu widzenia uruchomienie 200 agentów i 100 rund symulacji z GPT-4o mini zajęło około 49 minut. Można monitorować postępy za pośrednictwem interfejsu API lub bezpośrednio przeglądać dzienniki.

W trakcie całego procesu agenci będą działać autonomicznie: będą obserwować harmonogram i decydować, czy opublikować, retweetować komentarze, udostępniać, polubić lub po prostu przewijać kanał, wszystko bez konieczności interwencji człowieka.

Krok ósmy (opcjonalny): Wywiad z agentami

Po zakończeniu symulacji system przejdzie w tryb komend. W tym momencie możesz przeprowadzić indywidualne wywiady z określonymi agentami lub przeprowadzić wywiady ze wszystkimi agentami jednocześnie:

Analiza

MiroFish najpierw odczyta dokument źródłowy i automatycznie wygeneruje strukturę ontologii (składającą się z 10 typów podmiotów i 6 typów relacji); następnie wyodrębni wykres wiedzy oparty na tych definicjach (zawierający 65 węzłów i 85 krawędzi). Bazując na tej podstawie, utworzy pełną osobowość dla każdego podmiotu, w tym typ osobowości MBTI, wiek, kraj pochodzenia, styl publikowania, emocjonalne wyzwalacze i elementy pamięci instytucjonalnej.

Ostatecznie z wykresu wiedzy wygenerowano 43 podstawowych agentów, które następnie rozszerzono do łącznej liczby 200 agentów. Wprowadzono bardziej zróżnicowany zestaw ról pospólstwa, aby zwiększyć różnorodność i realizm symulacji.

Szczegółowy podział jest następujący:

· 140 agentów pospólstwa: kryptotraderzy, piloci linii lotniczych, menedżerowie łańcucha dostaw, studenci, działacze społeczni, profesorowie itp.

· 16 ról dyplomatyczno-rządowych: Minister spraw zagranicznych Iranu, Minister spraw zagranicznych Arabii Saudyjskiej, Minister spraw zagranicznych Omanu, Premier Bahrajnu, Minister spraw zagranicznych Chin, UE, ONZ itp.

· 15 organizacji medialnych: Reuters, CNN, Bloomberg, Al Jazeera, BBC, Fox, Wall Street Journal itp.

· 10 związanych z energetyką/spedycją: OPEC, Platts, QatarEnergy, Aramco, Maersk itp.

· 7 instytucji finansowych: Polymarket, Kalshi, Goldman Sachs, JPMorgan, Citadel, ADIA itp.

· 2 postacie wojskowe/polityczne: Trump, dowódca IRGC

Podczas 7-dniowego procesu symulacji (100 rund) wygenerowano:

1 888 postów

6 661 śladów zachowań (rejestrujących wszystkie działania)

1 611 retweetów z cytatami (agenci odpowiadający sobie nawzajem)

4 051 odświeżeń (po prostu przeglądanie kanału)

311 bezczynności (decyzja o obserwowaniu)

208 polubień, 207 retweetów

70 oryginalnych punktów widzenia (nowe niezależne stanowiska lub sądy)

Ogólnie rzecz biorąc, system ten przedstawia nie tylko prostą generację informacji, ale raczej coś bliższego symulacji zachowań społecznych. Większość czasu agenci obserwują przetwarzanie informacji i interakcje, zamiast konsekwentnie generować wyniki. Struktura ta jest bardziej podobna do dystrybucji zachowań w prawdziwym środowisku opinii publicznej — ograniczona oryginalna treść nakładana na szeroko zakrojone powtarzanie, gry i emocjonalne opinie zwrotne.

Agenci spędzają większość czasu na czytaniu i cytowanie cudzych punktów widzenia, zamiast aktywnie tworzyć nową treść.

Cała grupa wykazuje wyraźne tendencje w propagowaniu emocji: optymistyczne punkty widzenia są łatwiej wzmacniane i udostępniane, podczas gdy pesymistyczne oceny, nawet jeśli logicznie bliższe rzeczywistości, mają tendencję do mniejszego rozpowszechniania się i słabszego oddziaływania.

Co jeszcze ciekawsze, 19 agentów spontanicznie dostarczyło konkretnych ocen prawdopodobieństwa podczas publikowania swoich postów, nie dlatego, że zostali o to poproszeni, ale jako naturalną ewolucję dyskusji.

Średnie prawdopodobieństwo spontanicznie utworzonej grupy wynosi 47,9%, podczas gdy rynek Polymarket daje prawdopodobieństwo 31%, co daje różnicę 16,9 punktu procentowego między nimi.

Podczas procesu symulacji niektórzy agenci nawet zmienili swoje stanowisko w ponad 100 rundach interakcji.

Po zakończeniu symulacji skorzystałem z funkcji wywiadu MiroFish, aby zadać to samo pytanie 43 głównym agendom: Jaka jest prawdopodobieństwo (0–100%), że do końca kwietnia 2026 r. ruch morski w Cieśninie Ormuz wróci do normy?

Wyniki są następujące: 31 z 43 ankietowanych podało konkretne wartości, podczas gdy pozostałe 12 nie odpowiedziało na pytanie. Warto zauważyć, że najbardziej ostrożne głosy często decydują się na autocenzurę zamiast dokonywania jednoznacznych prognoz — zachowanie to przypomina zachowanie tych instytucji w prawdziwym życiu.

Średnia wartość dla każdej kategorii przekracza 60%: Wojsko 75%, Media 69%, Energetyka 66%, Finanse 65%, Dyplomacja 61%. Wskaźnik rynkowy wynosi 31,5%.

Wyniki grupowania organicznego wynikające z naturalnej ewolucji w porównaniu z wynikami wywiadów przedstawiają dwa zupełnie różne obrazy.

To najważniejsze odkrycie.

Wyniki wywiadów wydają się bardziej optymistyczne. Gdy agenci mogą swobodnie publikować swoje opinie, poglądy pesymistów są często głośniejsze i bardziej szczegółowe; jednak podczas wywiadów indywidualnych, ze względu na preferencję współpracy, niemal każdy podaje oceny w zakresie 60–70%.

Wyniki organiczne są bardziej wiarygodne. Doradca finansowy opublikował podczas gorącej dyskusji, że szacuje ją na 65%, ocenę sformułowaną w trakcie interakcji; podczas gdy agent odpowiadający na pytania w wywiadzie zasadniczo dopasowuje się do wzorców.

Jak na ironię, pesymiści w naturalnych wypowiedziach okazują się najlepszymi predyktorami. Spośród 7 agentów w symulacji, którzy podali prawdopodobieństwo ≤30% (irański minister finansów, chiński minister finansów, Kalshi, Platts, profesor ekonomii, irański student, działacz antywowowy), średnia wynosiła 22%, co stanowi różnicę o mniej niż 10 punktów procentowych w stosunku do wyniku Polymarket. Doświadczenie + naturalna ekspresja = najbliżej rynku.

Co ważniejsze, nie jest to tylko zjawisko związane z AI; aktorzy w świecie rzeczywistym zachowują się w ten sam sposób.

Kiedy przeprowadzasz wywiad z jakimkolwiek przywódcą narodowym na temat kryzysu, zawsze będzie mówił o naszym zaangażowaniu na rzecz pokoju, naszym optymizmie co do rozwiązań. To jest standardowy scenariusz, coś, co muszą powiedzieć przed kamerą. Ale jeśli przyjrzymy się, co tak naprawdę robią: rozmieszczanie wojsk, sankcje, zamrażanie aktywów, wyprzedaże — ich działania często opowiadają zupełnie inną historię.

Saudyjski książę koronny powiedziałby agencji Reuters, że wierzymy w środki dyplomatyczne, podczas gdy jego suwerenny fundusz majątkowy rozważa alokację 3,2 bln USD w aktywach amerykańskich. Prezydent Iranu powiedziałby, że pokój jest naszym wspólnym celem, ale irańska Gwardia Rewolucyjna zakłada miny w cieśninie. Trump powiedziałby: „Zobaczymy”, odrzucając każdą propozycję zawieszenia broni.

Ta symulacja nieumyślnie odtworzyła tę samą strukturalną przepaść: gdy wolni od ograniczeń posterzy argumentują, debatują, odpowiadają i rozpowszechniają informacje, grupa ekspertów stopniowo zbliża się do zakresu 20–30% — bardziej pesymistycznego i bliższego rzeczywistości; ale gdy wprowadzi się ich do sali konferencyjnej i formalnie zapyta, jaka jest ich prognoza?, natychmiast przechodzą w tryb dyplomatyczny: 65–70%, zauważalnie bardziej optymistycznie.

Naturalne publikowanie, bardziej przypominające prywatne zachowanie i nieoficjalne dialogi; wyniki wywiadów, bardziej przypominające konferencje prasowe. Jeśli naprawdę chcesz wiedzieć, co ktoś myśli, nie pytaj go bezpośrednio — obserwuj jego zachowanie, gdy nikt nie patrzy.

Co dalej

To był tylko wstępny test. Celem nie jest dostarczenie ostatecznej prognozy, ale sprawdzenie, które sygnały są przydatne w tego typu grupowej symulacji, gdzie występują zniekształcenia, które części warto zoptymalizować.

Istnieją już odpowiedzi: naturalnie rozwijające się dyskusje mogą dostarczać skutecznych sygnałów, wywiady nie; źródłem sygnału są pesymiści; preferencje współpracy GPT-4o mini są rzeczywiście problemem.

Następny eksperyment będzie miał kilka ulepszeń.

Po pierwsze, większe dane wyjściowe. Nie tylko 5800-słowny brief, ale wprowadzenie ponad 20 lat kontekstu historycznego: istotne wydarzenia w Hormuz, eskalacja konfliktów między Iranem a USA, przeszłe kryzysy naftowe, zmiany dyplomatyczne w GCC itp. — w zasadzie to, co prawdziwy analityk geopolityczny miałby w głowie przed dokonaniem ocen.

Po drugie, silniejszy model. GPT-4o mini wystarczył do walidacji za cenę 3 USD, ale mocniejszy model powinien przybliżyć agenta do sposobu myślenia danej roli, zamiast domyślnie przyjmować, że jestem optymistą w dialogu w krytycznych momentach.

I wreszcie więcej serwerów pośredniczących. 200 to już dobry wynik, ale jest miejsce na dalszą ekspansję: bardziej zróżnicowane regularne role ludzkie, więcej regionalnych głosów, więcej skrajnych przypadków. Im więcej uczestników, tym bogatsza struktura dyskusji i tym cenniejszy sygnał.

[Link do oryginalnego artykułu]

Możesz również polubić

Poranny raport | Coinbase Ventures dokonuje pierwszej inwestycji w ENA; SpaceX planuje ustalić cenę IPO na 135 USD za akcję

Przegląd ważnych wydarzeń rynkowych z 3 czerwca

Pełny tekst i analiza przemówienia CEO SanDisk na 42. Dorocznej Konferencji Decyzji Strategicznych Bernstein

Kluczowa wartość przemówienia Goeckelera polega na dostarczeniu wysoce przejrzystych i logicznie jasnych ram narracyjnych dla transformacji korporacyjnej.

Poranny raport | Strategy sprzedało w zeszłym tygodniu 32 BTC oraz ponad 800 000 akcji MSTR; Binance oficjalnie ogłosiło uruchomienie portalu do handlu amerykańskimi akcjami; Polymarket nawiązało wyłączne partnerstwo z OneFootball

Przegląd najważniejszych wydarzeń rynkowych z 1 czerwca

Bootcamp tradingowy WEEXPERIENCE w Polsce: Jak WEEX i FireCrew sprawiają, że handel kryptowalutami staje się dostępny dla każdego

29 maja WEEX nawiązał współpracę z Firecrew w Polsce, organizując bootcamp tradingowy WEEXPERIENCE. Przeczytaj podsumowanie sesji eksperckich dotyczących analizy technicznej, psychologii tradingu oraz narzędzi AI, które potwierdzają misję WEEX, by uczynić handel kryptowalutami dostępnym dla każdego.

Paryż rządzi: Jak PSG pogrzebało marzenia Arsenalu w historycznym finale Ligi Mistrzów

PSG kontra Arsenal, dramat, przeznaczenie i przełamana 20-letnia klątwa. Przeżyj ponownie finał Ligi Mistrzów 2026, w którym PSG obroniło tytuł w pełnej napięcia serii rzutów karnych, a złoty moment Ousmane’a Dembélé i jeden bolesny pudło zapisały się w historii Budapesztu.

TaiJi zamyka strategiczną rundę finansowania na kwotę 3,5 mln USD przy udziale Castrum Capital, Becker Ventures oraz Coinvestor Ventures

TaiJi, platforma analityczna rynku Web3 oparta na sztucznej inteligencji, ogłosiła zakończenie strategicznej rundy finansowania o wartości 3,5 mln USD, co przyspieszy budowę nowego silnika symulacji rynku AI.

Bitcoin utknął w okolicach 73 tys. USD? Jak traderzy znajdują zyski na czerwcowym rynku w trendzie bocznym

Bitcoin utknął w okolicach 73 tys. USD, ponieważ napływy do funduszy ETF słabną, a niepewność makroekonomiczna zmusza traderów do ostrożności. Oto jak kampanie z nagrodami, takie jak WEEX Joker Party, pomagają traderom zachować aktywność podczas czerwcowej konsolidacji.

Jak stakować Solana: Przewodnik krok po kroku na 2026 rok

Znajdź najlepsze kryptowaluty AI w 2026 roku dzięki danym: Bittensor, Render i wschodzące projekty. W zestawie wskaźniki on-chain, ryzyka i przewodnik handlowy WEEX.

Gwarantowana cena już dostępna na WEEX: Realizuj zlecenia z większą precyzją

Aby zapewnić płynniejszy handel kontraktami terminowymi, WEEX wprowadził funkcję „Gwarantowanej ceny”.

Najnowsze badania BIS: Przyszłość stablecoinów a globalny krajobraz monetarny

Raport wskazuje, że stablecoiny w krótkim terminie wzmocnią dominację dolara amerykańskiego, stanowiąc zagrożenie dla suwerenności monetarnej rynków wschodzących i gospodarek rozwijających się, podczas gdy ich długoterminowa trajektoria będzie zależeć od modeli adopcji, reakcji regulacyjnych oraz synergii...

Wywiad z mistrzem makroekonomii Raulem Palem: Konkurencja w dziedzinie AI prowadzi do „osobliwości gospodarczej”, nie oddawaj łatwo swoich udziałów w ciągu najbliższych czterech lat

W porównaniu z indeksem Nasdaq, Bitcoin znajduje się obecnie w pozycji głębokiego wyprzedania w ramach swojego długoterminowego trendu.

Dlaczego Peter Thiel, stojący za Palantir, przygotowuje się do wyjścia z Argentyny?

Palantir, ryzyko polityczne i instynkt samozachowawczy technologicznych oligarchów.

Kryzys wieku średniego Crypto GP: Bez PMF nie będzie kolejnego czeku od LP

Po utracie wizji sięgania gwiazd i morza, większość Crypto GP, którym nie udało się wypracować nadmiarowych zysków w tym cyklu, musi pragmatycznie wprowadzić produkt z PMF. Mogą to zrobić, udowadniając swoją zdolność do generowania zysków dla LP w niszowych segmentach rynku lub rozwiązując konkretne problemy LP/partnerów...

Poranny raport | Coinbase Ventures dokonuje pierwszej inwestycji w ENA; SpaceX planuje ustalić cenę IPO na 135 USD za akcję

Przegląd ważnych wydarzeń rynkowych z 3 czerwca