Czy ceny na Polymarket są dokładne? Symulowałem kryzys z 200 agentami, aby to sprawdzić

By: blockbeats|2026/03/18 13:17:38
0
Udostępnij
copy
Oryginalny tytuł: jak uruchamiam 200 agentów AI w kryzysie Hormuz z Mirofish i porównuję go z Polymarket
Autor oryginału: The Smart Ape
Tłumaczenie: Peggy, BlockBeats

Uwaga redakcyjna: Gdy sztuczna inteligencja zaczyna symulować pole opinii publicznej, samo przewidywanie wydarzeń zaczyna się cicho zmieniać.

W tym artykule opisano eksperyment dotyczący sytuacji w Cieśninie Ormuzkiej: autor wykorzystał MiroFish do zbudowania systemu symulacji składającego się z 200 agentów, umożliwiając rządom, mediom, firmom energetycznym, handlowcom i zwykłym ludziom współistnienie w symulowanej sieci społecznościowej, formułowanie sądów poprzez ciągłą interakcję, debatę i rozpowszechnianie informacji oraz porównanie wyników tej grupy z cenami rynkowymi Polymarketu.

Wyniki nie były spójne. Dyskusja grupowa była ogólnie bardziej optymistyczna, podczas gdy rynek był znacznie bardziej pesymistyczny; w wolnej mowie nieliczni pesymiści byli bliżej prawdziwych cen; a w scenariuszu wywiadu niemal wszyscy agenci zbiegliby się do bardziej umiarkowanego, kooperatywnego wyrażenia.

Ten rodzaj podziału nie jest niczym nowym. W rzeczywistym świecie oświadczenia publiczne często mają tendencję do bycia stabilnymi i optymistycznymi, podczas gdy prawdziwa ocena ryzyka jest ukryta w działaniach i nieformalnych wypowiedziach. Innymi słowy, to, co ludzie mówią, co myślą i jak obstawiają pieniądze, często stanowią trzy różne systemy.

W takiej strukturze najcenniejszy sygnał często pochodzi nie od konsensusu, ale od tych głosów, które wydają się niekonwencjonalne w tym zgiełku.

Poniżej znajduje się oryginalny tekst:

Użyłem MiroFish do symulacji sytuacji w Cieśninie Ormuz na najbliższe kilka tygodni. To narzędzie doskonale sprawdza się w rozwiązywaniu takich problemów, ponieważ może przeprowadzać bardzo złożone analizy scenariuszy: wprowadzając do tego samego systemu wielu uczestników, różne role z ich motywacjami i pozwalając tym agendom na ciągłe granie w gry, debatowanie i stopniowe kształtowanie wyniku podobnego do konsensusu.

Czy ceny na Polymarket są dokładne? Symulowałem kryzys z 200 agentami, aby to sprawdzić

Oto konkretne kroki, które podjąłem, aby uruchomić tę symulację, oraz wyniki, które ostatecznie uzyskałem. Każdy może ją odtworzyć; kluczem jest tylko wiedza, jakie kroki podjąć.

Po pierwsze, MiroFish to projekt open-source chińskiego zespołu badawczego. Po wprowadzeniu do niego zestawu dokumentów najpierw buduje wykres wiedzy, a następnie generuje różne osobowości agentów na podstawie tego wykresu, a następnie umieszcza tych agentów w symulowanym środowisku Twitter. W tym środowisku będą publikować, retweetować, komentować, lajkować i kłócić się ze sobą. Po zakończeniu symulacji możesz również przesłuchać każdego agenta z osobna, aby zobaczyć ich odpowiednie stanowiska i procesy rozumowania.

Gdy wprowadzisz scenariusz kryzysowy, generuje on debatę na temat tego zdarzenia; z tej debaty możesz następnie wyciągnąć prognozę.

Wskazałem na bieżące pytanie rynkowe Polymarket: Czy do końca kwietnia 2026 r. żegluga morska w Cieśninie Ormuz wróci do normy?

Więc wprowadziłem wszystkie te informacje do MiroFish i wygenerowałem 200 ról agentów — w tym rządu, mediów, wojska, firm energetycznych, handlowców i zwykłych obywateli — i kazałem im debatować przez 7 dni symulacji. Na koniec porównałem ich wyniki z cenami rynkowymi.

Ogólna konfiguracja wyglądała następująco:

· Model: GPT-4o mini, optymalna równowaga kosztów i skuteczności w scenariuszu z 200 agentami

· System pamięci: Zep Cloud, używany do przechowywania wspomnień agentów i grafów wiedzy

· Silnik symulacji: OASIS (środowisko klonu Twittera dostarczone przez Camel-AI)

· Sprzęt: Mac mini M4 Pro, 24 GB RAM

· Czas działania: około 49 minut na wykonanie 100 rund symulacji

· Koszt: wywołania API w cenie od 3 do 5 USD

· Materiał siewny: 5800-znakowy raport pochodzący z Wikipedii, CNBC, Al Jazeera, Forbes, Reuters, zawierający harmonogram działań wojskowych, stan blokady, ceny ropy naftowej, straty gospodarcze, wysiłki dyplomatyczne i czynniki związane z inwestycją GCC o wartości 3,2 bln USD. Innymi słowy, uwzględniono wszystkie kluczowe informacje potrzebne agentowi do formułowania osądów.

Jak powtórzyć ten proces (przewodnik krok po kroku)

Jeśli chcesz samodzielnie przeprowadzić ten proces, oto kompletne kroki, które wykonałem. Cały proces zajmuje około 2 godzin, a koszty API wynoszą około 3 do 5 USD; zwiększenie liczby rund lub agentów dodatkowo zwiększy koszt.

Co będzie potrzebne

· Python 3.12 (nie używaj 3.14, ponieważ tiktoken wyrzuci błąd w tej wersji)

· Node.js 22 i nowszy

· Klucz API OpenAI (GPT-4o Mini jest wystarczająco tani i odpowiedni dla tego scenariusza)

· Konto Zep Cloud (bezpłatna wersja wystarczy do małych symulacji)

·Maszyna z przyzwoitą pamięcią. Używam Mac mini M1 Pro z 24 GB pamięci, ale 16 GB powinno wystarczyć

Krok 1: Zainstaluj MiroFish

Następnie skonfiguruj plik .env

OPENAI_API_KEY=sk-your-key

OPENAI_BASE_URL=link

OPENAI_MODEL=gpt-4o-mini

ZEP_API_KEY=your-zep-key

Krok 2: Utwórz projekt i prześlij dokument wyjściowy

Dokument wyjściowy jest najważniejszą częścią całego procesu, ponieważ określa, jakie informacje agent zna na temat bieżącej sytuacji. Przygotowałem streszczenie zawierające około 5800 znaków, obejmujące chronologię wydarzeń wojskowych, stan blokady, ceny ropy naftowej, straty gospodarcze, wysiłki dyplomatyczne i aspekt inwestycji GCC, ze źródłami z Wikipedii, CNBC, Al Jazeera, Forbesa i Reutersa.

Krok 3: Generowanie ontologii

Ten krok informuje MiroFish, jakie rodzaje podmiotów powinien rozpoznawać i jakie relacje mogą istnieć między tymi podmiotami.

Ostatecznie wygenerowałem 10 typów podmiotów: kraj, wojsko, dyplomaci, podmioty handlowe, organizacje medialne, podmioty gospodarcze, organizacje, osoby indywidualne, infrastruktura, rynki prognoz; oraz 6 typów relacji. Jeśli automatycznie wygenerowane wyniki nie są do końca dostosowane do Twojego scenariusza, możesz je również dostosować ręcznie.

Krok 4: Tworzenie grafów wiedzy

Ten krok wymaga użycia Zep Cloud. MiroFish wyśle dokument źródłowy i ontologię do Zep, który będzie odpowiedzialny za wyodrębnianie podmiotów i budowanie grafów.

Proces ten zajmie około jednej do dwóch minut. W rezultacie uzyskałem wykres zawierający 65 węzłów i 85 krawędzi, łączących takie elementy jak kraje, osobowości, organizacje i towary.

Krok piąty: Generowanie agentów

MiroFish wykorzysta wykres wiedzy do stworzenia kompleksowej postaci dla każdej jednostki, w tym typu osobowości MBTI, wieku, kraju pochodzenia, stylu publikowania, emocjonalnych czynników wyzwalających, tematów tabu i pamięci instytucjonalnej.

Początkowo wygenerowałem 43 podstawowe agenty z wykresu wiedzy. Następnie system może rozszerzyć te podstawowe role do pożądanej całkowitej ilości. Ostatecznie ustawiłem całkowitą liczbę agentów na 200 i dodałem dodatkowe zróżnicowane role cywilne, takie jak kryptotraderzy, piloci linii lotniczych, profesorowie, studenci, działacze społeczni i inni.

Krok szósty: Przygotowanie środowiska symulacji

Na tym etapie skonfigurujemy pełną konfigurację symulacji, w tym harmonogramy działań agentów, początkowe posty nasienne i parametry czasowe. MiroFish automatycznie wybierze zestaw rozsądnych ustawień domyślnych, takich jak godziny szczytu aktywności, przestoje i częstotliwość publikowania postów dla różnych typów agentów.

Moja konfiguracja w tamtym czasie była następująca: symulowanie w sumie 168 godzin (7 dni), 100 rund (każda runda reprezentuje 1 godzinę), wyłącznie przy użyciu scenariusza Twitter, oraz ustawienie indywidualnych harmonogramów aktywności dla różnych agentów.

Krok siódmy: Rozpocznij symulację

Następnie nadszedł czas na oczekiwanie. Z mojego punktu widzenia uruchomienie 200 agentów i 100 rund symulacji z GPT-4o mini zajęło około 49 minut. Można monitorować postępy za pośrednictwem interfejsu API lub bezpośrednio przeglądać dzienniki.

W trakcie całego procesu agenci będą działać autonomicznie: będą obserwować harmonogram i decydować, czy opublikować, retweetować komentarze, udostępniać, polubić lub po prostu przewijać kanał, wszystko bez konieczności interwencji człowieka.

Krok ósmy (opcjonalny): Wywiad z agentami

Po zakończeniu symulacji system przejdzie w tryb komend. W tym momencie możesz przeprowadzić indywidualne wywiady z określonymi agentami lub przeprowadzić wywiady ze wszystkimi agentami jednocześnie:

Analiza

MiroFish najpierw odczyta dokument źródłowy i automatycznie wygeneruje strukturę ontologii (składającą się z 10 typów podmiotów i 6 typów relacji); następnie wyodrębni wykres wiedzy oparty na tych definicjach (zawierający 65 węzłów i 85 krawędzi). Bazując na tej podstawie, utworzy pełną osobowość dla każdego podmiotu, w tym typ osobowości MBTI, wiek, kraj pochodzenia, styl publikowania, emocjonalne wyzwalacze i elementy pamięci instytucjonalnej.

Ostatecznie z wykresu wiedzy wygenerowano 43 podstawowych agentów, które następnie rozszerzono do łącznej liczby 200 agentów. Wprowadzono bardziej zróżnicowany zestaw ról pospólstwa, aby zwiększyć różnorodność i realizm symulacji.

Szczegółowy podział jest następujący:

· 140 agentów pospólstwa: kryptotraderzy, piloci linii lotniczych, menedżerowie łańcucha dostaw, studenci, działacze społeczni, profesorowie itp.

· 16 ról dyplomatyczno-rządowych: Minister spraw zagranicznych Iranu, Minister spraw zagranicznych Arabii Saudyjskiej, Minister spraw zagranicznych Omanu, Premier Bahrajnu, Minister spraw zagranicznych Chin, UE, ONZ itp.

· 15 organizacji medialnych: Reuters, CNN, Bloomberg, Al Jazeera, BBC, Fox, Wall Street Journal itp.

· 10 związanych z energetyką/spedycją: OPEC, Platts, QatarEnergy, Aramco, Maersk itp.

· 7 instytucji finansowych: Polymarket, Kalshi, Goldman Sachs, JPMorgan, Citadel, ADIA itp.

· 2 postacie wojskowe/polityczne: Trump, dowódca IRGC

Podczas 7-dniowego procesu symulacji (100 rund) wygenerowano:

1 888 postów

6 661 śladów zachowań (rejestrujących wszystkie działania)

1 611 retweetów z cytatami (agenci odpowiadający sobie nawzajem)

4 051 odświeżeń (po prostu przeglądanie kanału)

311 bezczynności (decyzja o obserwowaniu)

208 polubień, 207 retweetów

70 oryginalnych punktów widzenia (nowe niezależne stanowiska lub sądy)

Ogólnie rzecz biorąc, system ten przedstawia nie tylko prostą generację informacji, ale raczej coś bliższego symulacji zachowań społecznych. Większość czasu agenci obserwują przetwarzanie informacji i interakcje, zamiast konsekwentnie generować wyniki. Struktura ta jest bardziej podobna do dystrybucji zachowań w prawdziwym środowisku opinii publicznej — ograniczona oryginalna treść nakładana na szeroko zakrojone powtarzanie, gry i emocjonalne opinie zwrotne.

Agenci spędzają większość czasu na czytaniu i cytowanie cudzych punktów widzenia, zamiast aktywnie tworzyć nową treść.

Cała grupa wykazuje wyraźne tendencje w propagowaniu emocji: optymistyczne punkty widzenia są łatwiej wzmacniane i udostępniane, podczas gdy pesymistyczne oceny, nawet jeśli logicznie bliższe rzeczywistości, mają tendencję do mniejszego rozpowszechniania się i słabszego oddziaływania.

Co jeszcze ciekawsze, 19 agentów spontanicznie dostarczyło konkretnych ocen prawdopodobieństwa podczas publikowania swoich postów, nie dlatego, że zostali o to poproszeni, ale jako naturalną ewolucję dyskusji.

Średnie prawdopodobieństwo spontanicznie utworzonej grupy wynosi 47,9%, podczas gdy rynek Polymarket daje prawdopodobieństwo 31%, co daje różnicę 16,9 punktu procentowego między nimi.

Podczas procesu symulacji niektórzy agenci nawet zmienili swoje stanowisko w ponad 100 rundach interakcji.

Po zakończeniu symulacji skorzystałem z funkcji wywiadu MiroFish, aby zadać to samo pytanie 43 głównym agendom: Jaka jest prawdopodobieństwo (0–100%), że do końca kwietnia 2026 r. ruch morski w Cieśninie Ormuz wróci do normy?

Wyniki są następujące: 31 z 43 ankietowanych podało konkretne wartości, podczas gdy pozostałe 12 nie odpowiedziało na pytanie. Warto zauważyć, że najbardziej ostrożne głosy często decydują się na autocenzurę zamiast dokonywania jednoznacznych prognoz — zachowanie to przypomina zachowanie tych instytucji w prawdziwym życiu.

Średnia wartość dla każdej kategorii przekracza 60%: Wojsko 75%, Media 69%, Energetyka 66%, Finanse 65%, Dyplomacja 61%. Wskaźnik rynkowy wynosi 31,5%.

Wyniki grupowania organicznego wynikające z naturalnej ewolucji w porównaniu z wynikami wywiadów przedstawiają dwa zupełnie różne obrazy.

To najważniejsze odkrycie.

Wyniki wywiadów wydają się bardziej optymistyczne. Gdy agenci mogą swobodnie publikować swoje opinie, poglądy pesymistów są często głośniejsze i bardziej szczegółowe; jednak podczas wywiadów indywidualnych, ze względu na preferencję współpracy, niemal każdy podaje oceny w zakresie 60–70%.

Wyniki organiczne są bardziej wiarygodne. Doradca finansowy opublikował podczas gorącej dyskusji, że szacuje ją na 65%, ocenę sformułowaną w trakcie interakcji; podczas gdy agent odpowiadający na pytania w wywiadzie zasadniczo dopasowuje się do wzorców.

Jak na ironię, pesymiści w naturalnych wypowiedziach okazują się najlepszymi predyktorami. Spośród 7 agentów w symulacji, którzy podali prawdopodobieństwo ≤30% (irański minister finansów, chiński minister finansów, Kalshi, Platts, profesor ekonomii, irański student, działacz antywowowy), średnia wynosiła 22%, co stanowi różnicę o mniej niż 10 punktów procentowych w stosunku do wyniku Polymarket. Doświadczenie + naturalna ekspresja = najbliżej rynku.

Co ważniejsze, nie jest to tylko zjawisko związane z AI; aktorzy w świecie rzeczywistym zachowują się w ten sam sposób.

Kiedy przeprowadzasz wywiad z jakimkolwiek przywódcą narodowym na temat kryzysu, zawsze będzie mówił o naszym zaangażowaniu na rzecz pokoju, naszym optymizmie co do rozwiązań. To jest standardowy scenariusz, coś, co muszą powiedzieć przed kamerą. Ale jeśli przyjrzymy się, co tak naprawdę robią: rozmieszczanie wojsk, sankcje, zamrażanie aktywów, wyprzedaże — ich działania często opowiadają zupełnie inną historię.

Saudyjski książę koronny powiedziałby agencji Reuters, że wierzymy w środki dyplomatyczne, podczas gdy jego suwerenny fundusz majątkowy rozważa alokację 3,2 bln USD w aktywach amerykańskich. Prezydent Iranu powiedziałby, że pokój jest naszym wspólnym celem, ale irańska Gwardia Rewolucyjna zakłada miny w cieśninie. Trump powiedziałby: „Zobaczymy”, odrzucając każdą propozycję zawieszenia broni.

Ta symulacja nieumyślnie odtworzyła tę samą strukturalną przepaść: gdy wolni od ograniczeń posterzy argumentują, debatują, odpowiadają i rozpowszechniają informacje, grupa ekspertów stopniowo zbliża się do zakresu 20–30% — bardziej pesymistycznego i bliższego rzeczywistości; ale gdy wprowadzi się ich do sali konferencyjnej i formalnie zapyta, jaka jest ich prognoza?, natychmiast przechodzą w tryb dyplomatyczny: 65–70%, zauważalnie bardziej optymistycznie.

Naturalne publikowanie, bardziej przypominające prywatne zachowanie i nieoficjalne dialogi; wyniki wywiadów, bardziej przypominające konferencje prasowe. Jeśli naprawdę chcesz wiedzieć, co ktoś myśli, nie pytaj go bezpośrednio — obserwuj jego zachowanie, gdy nikt nie patrzy.

Cena --

--

Co dalej

To był tylko wstępny test. Celem nie jest dostarczenie ostatecznej prognozy, ale sprawdzenie, które sygnały są przydatne w tego typu grupowej symulacji, gdzie występują zniekształcenia, które części warto zoptymalizować.

Istnieją już odpowiedzi: naturalnie rozwijające się dyskusje mogą dostarczać skutecznych sygnałów, wywiady nie; źródłem sygnału są pesymiści; preferencje współpracy GPT-4o mini są rzeczywiście problemem.

Następny eksperyment będzie miał kilka ulepszeń.

Po pierwsze, większe dane wyjściowe. Nie tylko 5800-słowny brief, ale wprowadzenie ponad 20 lat kontekstu historycznego: istotne wydarzenia w Hormuz, eskalacja konfliktów między Iranem a USA, przeszłe kryzysy naftowe, zmiany dyplomatyczne w GCC itp. — w zasadzie to, co prawdziwy analityk geopolityczny miałby w głowie przed dokonaniem ocen.

Po drugie, silniejszy model. GPT-4o mini wystarczył do walidacji za cenę 3 USD, ale mocniejszy model powinien przybliżyć agenta do sposobu myślenia danej roli, zamiast domyślnie przyjmować, że jestem optymistą w dialogu w krytycznych momentach.

I wreszcie więcej serwerów pośredniczących. 200 to już dobry wynik, ale jest miejsce na dalszą ekspansję: bardziej zróżnicowane regularne role ludzkie, więcej regionalnych głosów, więcej skrajnych przypadków. Im więcej uczestników, tym bogatsza struktura dyskusji i tym cenniejszy sygnał.

[Link do oryginalnego artykułu]

Możesz również polubić

Jak handlować kryptowalutami bez App Store: Natychmiastowy handel kryptowalutami w przeglądarce na WEEX

Handluj kryptowalutami natychmiast bez pobierania aplikacji. Korzystaj z WEEX H5, aby uzyskać dostęp do handlu na rynku kasowym i terminowym bezpośrednio w przeglądarce z szybką realizacją, kontrolą ryzyka w czasie rzeczywistym i bezproblemowym doświadczeniem na urządzeniach mobilnych, tabletach i komputerach stacjonarnych. Obsługuje Bitcoin, Ethereum i więcej.

Od OKX po Bybit, giełdy zmieniają opony na autostradzie z dużą prędkością

W obecnej sytuacji zaostrzania globalnych regulacji, jeśli można bezpośrednio wejść na rynek z partnerem, który już ustanowił system zgodności, uzyskał federalne zatwierdzenie licencji, wiarygodność spółki giełdowej i dostęp do kanałów współpracy bankowej, koszt jest zaledwie gi...

Krótka historia i przyszłość kontraktów bezterminowych

Zdecentralizowane giełdy kontraktów bezterminowych, takie jak Hyperliquid, zastępują tradycyjne instrumenty pochodne dzięki swoim zaletom strukturalnym, stając się platformami finansowymi o wartości bilionów dolarów, które przyciągają aktywa z całego świata.

Jeffrey Epstein’s Bizarre Bitcoin Connections

Departament Sprawiedliwości USA opublikował nowe pliki Epsteina, ujawniając bliskie powiązania Jeffreya Epsteina z Brockiem Pierce’em z branży kryptowalut.…

Agent AI otrzymuje dowód tożsamości i portfel tego samego dnia | Poranny przegląd wiadomości Rewire News

Infrastruktura agentów w gospodarce rozwija się szybciej, niż ktokolwiek się spodziewał

IOSG: Zmiana paradygmatu w zakresie elastyczności zasilania: Od zasobów makro do warstwy inteligencji rozproszonej

Od sieci energetycznej wymaga się wykonania zadania, do którego nie została zaprojektowana.

Popularne monety

Najnowsze wiadomości kryptowalutowe

Czytaj więcej