Чи точна ціна на Polymarket? Я моделював кризу за участю 200 агентів, щоб дізнатися
Оригінальний заголовок: як я запустив 200 агентів штучного інтелекту в кризу в Ормузі за допомогою Mirofish і порівняв її з Polymarket
Оригінальний автор: The Smart Ape
Українська: Пеггі, BlockBeats
Примітка редактора: Коли штучний інтелект починає моделювати поле громадської думки, саме передбачення події тихо змінюється.
У цій статті описано експеримент щодо ситуації навколо Ормузької протоки: автор використав MiroFish для створення системи моделювання, що складається з 200 агентів, що дозволяє урядам, ЗМІ, енергетичним компаніям, трейдерам і звичайним людям співіснувати в моделюваній соціальній мережі, формуючи судження через безперервну взаємодію, дебати та поширення інформації, і порівнювати результати цієї групи з ринковими цінами Polymarket.
Результати не були послідовними. Обговорення в групі було загалом більш оптимістичним, тоді як ринок був значно більш песимістичним; у вільній промові кілька песимістів були ближче до справжніх цін; і одного разу в інтерв'ю майже всі агенти сходилися на більш помірному, кооперативному вираженні.
Цей вид поділу не є невідомим. У реальному світі публічні заяви часто мають тенденцію бути стабільними та оптимістичними, тоді як реальна оцінка ризиків прихована в діях і неформальних виразах. Іншими словами, те, що люди говорять, те, що вони думають, і те, як вони вкладають гроші, часто є трьома різними системами.
У такій структурі найцінніший сигнал часто надходить не від консенсусу, а від тих голосів, які здаються нетрадиційними в цьому шумі.
Ось оригінальний текст:
Я використав MiroFish для моделювання ситуації в Ормузькій протоці на найближчі кілька тижнів. Цей інструмент чудово підходить для вирішення таких питань, оскільки він може проводити дуже складний аналіз сценаріїв: вводячи в одну систему декілька учасників, різні ролі з їхніми стимулами та дозволяючи цим агентам постійно грати, обговорювати та поступово формувати результат, подібний до консенсусу.

Ось конкретні кроки, які я вжив, щоб запустити це моделювання, і результати, які я врешті-решт отримав. Кожен може відтворити це; головне - знати, які кроки вживати.
По-перше, MiroFish - це проект з відкритим вихідним кодом від китайської дослідницької групи. Після того, як ви введете в нього пакет документів, він спочатку створить графік знань, потім на основі цього графу згенерує різні особистості агентів, а потім помістить цих агентів у моделюване середовище Twitter. У цьому середовищі вони будуть публікувати, ретвітити, коментувати, ставити лайки та сперечатися один з одним. Після завершення моделювання ви також можете опитати кожного агента окремо, щоб побачити їхні відповідні позиції та процеси міркування.

Коли ви вводите сценарій кризи, він генерує дебати навколо цієї події; з цих дебатів ви можете зробити прогноз.
Я вказав на нього на поточне ринкове питання Polymarket: До кінця квітня 2026 року морські перевезення в Ормузькій протоці повернуться до норми?

Тому я ввів всю цю інформацію в MiroFish і згенерував 200 ролей агентів, включаючи уряд, ЗМІ, військові, енергетичні компанії, трейдерів і звичайних громадян, і дав їм дебатувати протягом 7 імітованих днів. Зрештою, я порівняв їхні результати з ринковими цінами.
Загальна конфігурація була такою:
· Модель: GPT-4o mini, оптимальний баланс вартості та ефективності в сценарії з 200 агентами
· Система пам'яті: Zep Cloud, що використовується для зберігання спогадів агента та графіків знань
· Движок моделювання: OASIS (середовище клону Twitter, що надається Camel-AI)
· Апаратне забезпечення: Mac mini M4 Pro, 24 ГБ ОЗП
· Час виконання: Приблизно 49 хвилин для завершення 100 раундів моделювання
· Вартість: Виклики API близько 3 до 5 доларів
· Насіннєвий матеріал: Брифінг обсягом 5800 символів, отриманий з джерел Wikipedia, CNBC, Al Jazeera, Forbes, Reuters, включаючи військовий часовий графік, статус блокади, ціни на нафту, економічні збитки, дипломатичні зусилля та фактори, пов'язані з інвестиціями GCC у розмірі 3,2 трильйона доларів. Іншими словами, була включена вся основна інформація, необхідна агентам для формування суджень.
Як відтворити цей робочий процес (поетапний посібник)
Якщо ви хочете самостійно виконати цей процес, ось повні кроки, які я зробив. Весь процес займає близько 2 годин на налаштування, вартість API становить приблизно від 3 до 5 доларів; збільшення кількості раундів або агентів додатково збільшить вартість.
Що вам знадобиться
· Python 3.12 (не використовуйте 3.14, оскільки tiktoken видасть помилку на цій версії)
·Node.js 22 і вище
·API-ключ OpenAI (GPT-4o Mini досить дешевий і підходить для цього сценарію)
·Обліковий запис Zep Cloud (безкоштовної версії достатньо для моделювання в невеликому масштабі)
· Машина з пристойною пам'яттю. Я використовую Mac mini M1 Pro з 24 ГБ пам'яті, але 16 ГБ також має бути достатньо
Крок 1: Встановіть MiroFish

Потім налаштуйте свій файл .env
OPENAI_API_KEY=sk-your-key
OPENAI_BASE_URL=link
OPENAI_MODEL=gpt-4o-mini
ZEP_API_KEY=your-zep-key
Крок 2: Створіть проект і завантажте свій вихідний документ
Вихідний документ є найважливішою частиною всього процесу, оскільки він визначає, яку інформацію агент знає про поточну ситуацію. Я підготував короткий огляд обсягом близько 5800 символів, що охоплює військові події, статус блокади, ціни на нафту, економічні втрати, дипломатичні зусилля та аспект інвестицій РСС, з джерелами з Вікіпедії, CNBC, Аль-Джазіри, Форбс та Рейтер.
Крок 3: Створення онтології
Цей крок повідомляє MiroFish, які типи об'єктів він повинен розпізнавати та які відносини можуть існувати між цими об'єктами.
У підсумку я створив 10 типів об'єктів: країна, військові, дипломати, комерційні організації, медіа-організації, економічні організації, організації, особи, інфраструктура, ринки прогнозів; та 6 типів відносин. Якщо автоматично згенеровані результати не зовсім відповідають вашому сценарію, ви також можете відредагувати їх вручну.
Крок 4: Створення графа знань
Цей крок передбачає використання Zep Cloud. MiroFish надішле початковий документ і онтологію до Zep, який буде відповідати за вилучення сутностей і побудову графа.
Цей процес займе приблизно від однієї до двох хвилин. У підсумку я отримав граф, що містить 65 вузлів і 85 ребер, які з'єднують такі елементи, як країни, особистості, організації та товари.
Крок п'ять: Створення агентів
MiroFish використовуватиме граф знань для створення всебічного образу для кожного об'єкта, включаючи тип особистості MBTI, вік, країну походження, стиль публікацій, емоційні тригери, заборонені теми та інституційну пам'ять.
Спочатку я створив 43 основних агентів з графу знань. Згодом система може розширити ці основні ролі до бажаної вами загальної кількості. Я встановив загальну кількість агентів на 200 і додав додаткові різноманітні ролі цивільних осіб, такі як криптотрейдери, пілоти авіакомпаній, професори, студенти, громадські активісти тощо.
Крок шість: Підготовка середовища моделювання

На цьому кроці буде налаштовано повну конфігурацію моделювання, включаючи графіки дій агентів, початкові публікації та часові параметри. MiroFish автоматично вибере набір розумних типових параметрів, таких як години пік активності, простої та частоти публікацій для різних типів агентів.
Моя конфігурація на той час була такою: моделювання загалом 168 годин (7 днів), 100 раундів (кожен раунд представляє 1 годину), виключно за сценарієм Twitter і налаштування індивідуальних графіків активності для різних агентів.
Сьомий крок: Почати моделювання

Потім настав час чекати. На моєму комп'ютері запуск 200 агентів і 100 раундів моделювання з GPT-4o mini зайняв приблизно 49 хвилин. Ви можете відстежувати хід роботи через API або безпосередньо переглядати журнали.
Протягом усього процесу агенти працюватимуть автономно: вони спостерігатимуть за часовою шкалою та вирішуватимуть, чи публікувати, ретвітнути коментарі, ділитися, ставити лайки або просто гортати стрічку, і все це без необхідності втручання людини.
Крок восьмий (необов'язково): Провести співбесіду з агентами
Після завершення моделювання система перейде в режим команд. На цьому етапі ви можете провести індивідуальні інтерв'ю з окремими агентами або інтерв'ю з усіма агентами одночасно:

Аналіз
MiroFish спочатку прочитає вихідний документ і автоматично створить структуру онтології (що складається з 10 типів сутностей і 6 типів відносин); потім він створить графік знань на основі цих визначень (що містить 65 вузлів і 85 ребер). На основі цього він створить повну персону для кожної сутності, включаючи тип особистості MBTI, вік, країну походження, стиль публікацій, емоційні тригери та елементи інституційної пам'яті.
Зрештою, з графіка знань було створено 43 основних агента, які потім були розширені до загальної кількості в 200 агентів. Це дозволило ввести різноманітніші ролі звичайних громадян, щоб підвищити різноманітність і реалізм моделювання в цілому.

Конкретний розподіл такий:
· 140 агентів звичайних громадян: криптотрейдери, пілоти авіакомпаній, менеджери ланцюга постачання, студенти, громадські активісти, професори тощо.
· 16 дипломатичних/урядових ролей: Міністр закордонних справ Ірану, міністр закордонних справ Саудівської Аравії, міністр закордонних справ Оману, прем'єр-міністр Бахрейну, міністр закордонних справ Китаю, ЄС, ООН тощо.
· 15 медіа-організацій: Reuters, CNN, Bloomberg, Al Jazeera, BBC, Fox, Wall Street Journal тощо.
· 10 енергетичних/судноплавних: OPEC, Platts, QatarEnergy, Aramco, Maersk тощо.
· 7 фінансових установ: Polymarket, Kalshi, Goldman Sachs, JPMorgan, Citadel, ADIA тощо.
· 2 військові/політичні фігури: Трамп, командувач КСІР
Під час 7-денного (100 раундів) процесу моделювання було створено:
1 888 публікацій
6 661 слід поведінки (захоплення всіх дій)
1 611 репостів цитат (агенти, що відповідають один одному)
4 051 оновлення (просто перегляд стрічки)
311 простоїв (вибір спостереження)
208 лайків, 207 репостів
70 оригінальних точок зору (нові незалежні позиції або судження)
Загалом, ця система представляє не просто генерацію простої інформації, а скоріше щось, що ближче до моделювання соціальної поведінки. Більшу частину часу агенти спостерігають за обробкою інформації та взаємодією, а не за постійним виробництвом вихідних даних. Ця структура більше схожа на розподіл поведінки в реальному середовищі громадської думки — обмежений оригінальний контент, доповнений великою кількістю повторень, ігор та емоційного зворотного зв'язку.

Агенти проводять більшу частину свого часу, читаючи та цитуючи чужі точки зору, а не активно створюючи новий контент.
Уся група демонструє чітку тенденцію до емоційного поширення: оптимістичні точки зору легше підсилюються та поширюються, тоді як песимістичні судження, навіть якщо вони логічно ближчі до реальності, як правило, поширюються менше і мають слабкіші голоси.
Ще цікавіше те, що 19 агентів спонтанно надали конкретні оцінки ймовірності під час публікації, не тому, що їх просили, а як природну еволюцію обговорення.

Середня ймовірність спонтанно утвореної групи становить 47,9%, тоді як ринок Polymarket дає ймовірність 31%, що становить різницю в 16,9 процентних пунктів між двома.
Під час процесу моделювання деякі агенти навіть змінили свою позицію протягом 100 раундів взаємодії.
Після моделювання я використав функцію інтерв'ю MiroFish, щоб задати одне й те саме питання 43 основним агентам: Яка ймовірність того, що до кінця квітня 2026 року морський трафік у Ормузькій протоці повернеться до норми (0–100%)?
Результати були такі: 31 із 43 агентів надали конкретні значення, тоді як інші 12 обрали не відповідати. Варто зазначити, що найобережніші голоси часто обирають самоцензуру, а не дають чітких прогнозів, що дуже нагадує поведінку цих установ у реальному житті.

Середнє значення для кожної категорії перевищує 60%: Військова сфера – 75%, ЗМІ – 69%, Енергетика – 66%, Фінанси – 65%, Дипломатія – 61%. Показник ринку становить 31,5%.
Результати органічної групи, що виникли внаслідок природної еволюції, порівняно з результатами інтерв'ю, дають дві різні картини.
Це найважливіший висновок.

Результати інтерв'ю, як правило, є більш оптимістичними. Коли агенти можуть вільно публікувати свої прогнози, думки песимістів (ведмедів) часто звучать голосніше та є більш конкретними; однак під час індивідуальних інтерв'ю, через схильність до співпраці, майже всі надають оцінки в діапазоні 60–70%.
Результати органічного пошуку є більш надійними. Фінансовий консультант опублікував під час запеклої дискусії, що, на його думку, ймовірність становить 65%, оцінка, сформована під час взаємодії; тоді як агент, який відповідає на запитання в інтерв'ю, по суті, займається пошуком шаблонів.
За іронією долі, песимісти в природних виразах виявляються найкращими прогнозистами. Серед 7 агентів у симуляції, які надали ймовірність ≤30% (Міністр закордонних справ Ірану, Міністр закордонних справ Китаю, Калші, Платтс, професор економіки, іранський студент, антивоєнний активіст), середнє значення становило 22%, що менше ніж на 10 процентних пунктів відрізняється від результату Polymarket. Експертиза + природний вираз = найближче до ринку.
Більш критично, це не просто феномен штучного інтелекту; реальні учасники подій поводяться так само.
Коли ви берете інтерв'ю у будь-якого національного лідера щодо кризи, вони завжди говорять про нашу відданість миру, наш оптимізм щодо рішень. Це стандартний сценарій, що потрібно сказати на камеру. Але якщо ви подивитеся на те, що вони насправді роблять: розгортання військових, санкції, заморожування активів, виведення капіталу — їхні дії часто розповідають зовсім іншу історію.
Кронпринц Саудівської Аравії заявив агентству Reuters, що ми віримо в дипломатичні засоби, тоді як його суверенний фонд розглядає можливість розміщення до 3,2 трильйонів доларів у США. Президент Ірану заявив, що мир – це наша спільна мета, але іранська Революційна гвардія розміщує міни в протоці. Трамп сказав: "Побачимо", відхиляючи кожну пропозицію про припинення вогню.
Це моделювання ненавмисно відтворило той самий структурний розрив: оскільки безкоштовні плакати-посланці сперечаються, обговорюють, відповідають і поширюють інформацію, група експертів поступово наближається до діапазону 20–30% – більш песимістичного і ближчого до реальності; але як тільки ви запрошуєте їх до переговорної кімнати і офіційно питаєте, яким є ваш прогноз?, вони негайно перемикаються на режим дипломата: 65–70%, помітно більш оптимістичний.
Природний пост, більше схожий на приватну поведінку та неофіційні діалоги; результати інтерв'ю, більше схожі на прес-конференції. Якщо ви дійсно хочете знати, що хтось думає, не питайте їх напряму — подивіться на їхню поведінку, коли ніхто не оцінює.
Що далі
Це був лише початковий тест. Мета не в тому, щоб дати точний прогноз, а щоб побачити в такому роді групової симуляції, які сигнали корисні, де є спотворення, які частини варто оптимізувати.
Вже є відповіді: природно розвинуті обговорення можуть дати ефективні сигнали, а інтерв'ю — ні; джерелом сигналу є песимісти; і вподобання GPT-4o mini щодо співпраці дійсно є проблемою.
Наступний експеримент матиме кілька оновлень.
По-перше, більший обсяг вихідних даних. Більше не просто 5800 слів, а введення історичного контексту за 20 років: відповідні події в Ормузі, загострення конфліктів між Іраном і США, минулі нафтові кризи, дипломатичні зміни в РСС та ін. — в основному те, що реальний геополітичний аналітик мав би в голові перед тим, як робити оцінки.
По-друге, сильніша модель. GPT-4o mini виявився достатнім для валідації за ціною 3 долари, але потужніша модель повинна наблизити агента до власного способу мислення ролі, а не за замовчуванням я оптимістично налаштований щодо діалогу в критичні моменти.
І, нарешті, більше проксі. 200 вже добре, але є можливість для подальшого розширення: більше різноманітних звичайних людських ролей, більше регіональних голосів, більше пограничних випадків. Чим більше учасників, тим багатша структура обговорення і тим цінніший результат.
Вам також може сподобатися

Від OKX до Bybit: біржі швидко змінюють шини на шосе

Коротка історія та майбутнє безстрокових контрактів

Агент ІІ отримує ID і гаманець в той самий день | Rewire News Morning Brief

IOSG: Парадигма гнучкості енергії: Від макроактивів до шару розподіленого інтелекту

Пояснення підвищення цін Murata на 35%: Конденсатор, який дає AI Empire холод

MiniMax: Юнак із повіту Хенань і його 300 мільярдів

Від занедбаного проекту до цілі, що сягає неба, Mastercorp купує BVNK за 1,8 мільярда доларів

Десятиріччя регулювання нарешті прояснилося, перемога для крипто-оригінальної логіки

Ранковий звіт | Mastercard планує придбати BVNK за 1,8 мільярда доларів; Фонд Solana запускає агрегатор токенів на Solana; Біткоїн демонструє перше за чотири роки зростання протягом 8 днів поспіль

Офіційний запуск Aster Chain: визначення нової ери конфіденційності та прозорості в ланцюжку блоків

RootData: Звіт про дослідження прозорості криптовалютних бірж за лютий 2026 року

«One and Done SEA», тому OpenSea вирішує зачекати трохи довше

Рей Даліо: Вирішення конфлікту між США та Іраном знаходиться в Ормузькій протоці

Всього за 70 днів Polymarket легко заробив десятки мільйонів у вигляді комісій

Matrixdock запускає срібний токен XAGm, побудований на стандарті FRS як ланцюговий актив, забезпечений сріблом.

a16z: Найскладніше програмне забезпечення для підприємств і найбільша можливість у сфері штучного інтелекту

Біблія ринкового створення Polymarket: Формула цінового спреду
