Os preços da Polymarket são precisos? Simulei uma crise com 200 agentes para descobrir

By: blockbeats|2026/03/18 13:18:16
0
Compartilhar
copy
Título original: Como eu executo 200 agentes de IA sobre a crise do Estreito de Ormuz com o Mirofish e comparo com o Polymarket
Autor original: O Macaco Inteligente
Tradução: Peggy, BlockBeats

Nota do editor: Quando a IA começa a simular o panorama da opinião pública, a própria previsão do evento está mudando discretamente.

Este artigo documenta um experimento sobre a situação em torno do Estreito de Ormuz: o autor utilizou o MiroFish para criar um sistema de simulação composto por 200 agentes, permitindo que governos, mídia, empresas de energia, comerciantes e cidadãos comuns convivessem em uma rede social simulada, formando opiniões por meio de interação contínua, debate e disseminação de informações, e comparando os resultados desse grupo com os preços de mercado da Polymarket.

Os resultados não foram consistentes. A discussão em grupo foi, em geral, mais otimista, enquanto o mercado se mostrou significativamente mais pessimista; na liberdade de expressão, os poucos pessimistas estavam mais próximos do preço real; e, uma vez em um cenário de entrevista, quase todos os agentes convergiram para uma postura mais moderada e cooperativa.

Esse tipo de divisão não é nada incomum. No mundo real, as declarações públicas costumam ser estáveis e otimistas, enquanto a verdadeira avaliação de riscos se esconde nas ações e nas expressões informais. Em outras palavras, o que as pessoas dizem, o que pensam e como apostam dinheiro costumam ser três coisas diferentes.

Numa estrutura como essa, o sinal mais valioso muitas vezes não vem do consenso, mas das vozes que parecem não se encaixar no ruído.

O seguinte é o texto original:

Utilizei o MiroFish para simular a situação no Estreito de Ormuz nas próximas semanas. Essa ferramenta é excelente para lidar com essas questões, pois é capaz de realizar análises de cenários altamente complexas: introduzindo múltiplos participantes e diferentes papéis, com seus respectivos incentivos, no mesmo sistema, e permitindo que esses agentes participem continuamente de jogos, debatam e, gradualmente, cheguem a um resultado semelhante a um consenso.

Os preços da Polymarket são precisos? Simulei uma crise com 200 agentes para descobrir

Aqui estão os passos específicos que segui para executar essa simulação e os resultados que obtive no final. Qualquer pessoa pode reproduzir isso; o segredo é apenas saber quais passos seguir.

Em primeiro lugar, o MiroFish é um projeto de código aberto desenvolvido por uma equipe de pesquisa chinesa. Depois de inserir um conjunto de documentos no sistema, ele primeiro criará um gráfico de conhecimento, em seguida gerará diferentes personalidades de agentes com base nesse gráfico e, por fim, colocará esses agentes em um ambiente simulado do Twitter. Nesse ambiente, eles vão publicar, retuitar, comentar, curtir e discutir uns com os outros. Após o término da simulação, você também pode entrevistar cada agente individualmente para conhecer suas respectivas posições e seus processos de raciocínio.

Quando se insere um cenário de crise, ele gera um debate em torno desse evento; a partir desse debate, é possível extrair uma previsão.

Eu mencionei isso em relação a uma pergunta em aberto no Polymarket: Até o final de abril de 2026, o tráfego marítimo no Estreito de Ormuz voltará ao normal?

Então, inseri todas essas informações no MiroFish e gerei 200 papéis de agentes — incluindo representantes do governo, da mídia, das forças armadas, de empresas de energia, de comerciantes e de cidadãos comuns — e os fiz debater durante 7 dias simulados. Por fim, comparei os preços praticados por eles com os preços de mercado.

A configuração geral era a seguinte:

· Modelo: GPT-4o mini: equilíbrio ideal entre custo e eficácia em um cenário com 200 agentes

· Sistema de memória: Zep Cloud, utilizado para armazenar memórias de agentes e grafos de conhecimento

· Motor de simulação: OASIS (um ambiente semelhante ao Twitter fornecido pela Camel-AI)

· Hardware: Mac mini M4 Pro, 24 GB de RAM

· Duração: Aproximadamente 49 minutos para concluir 100 rodadas de simulação

· Custo: Chamadas de API custam entre US$ 3 e US$ 5

· Material de semente: Um resumo de 5.800 caracteres extraído da Wikipédia, CNBC, Al Jazeera, Forbes e Reuters, incluindo uma cronologia militar, a situação do bloqueio, os preços do petróleo, as perdas econômicas, os esforços diplomáticos e fatores relacionados a um investimento de US$ 3,2 trilhões do CCG. Em outras palavras, todas as informações essenciais necessárias para que os agentes formassem seus julgamentos foram incluídas.

Como replicar este fluxo de trabalho (guia passo a passo)

Se você quiser executar esse processo por conta própria, aqui estão todos os passos que segui. A configuração de todo o processo leva cerca de duas horas, com custos de API entre US$ 3 e US$ 5; aumentar o número de rodadas ou agentes aumentará ainda mais o custo.

O que você vai precisar

· Python 3.12 (não use a versão 3.14, pois o tiktoken apresentará um erro nessa versão)

·Node.js 22 e versões posteriores

·Uma chave de API da OpenAI (a GPT-4o Mini é bastante acessível e adequada para este cenário)

·Uma conta no Zep Cloud (a versão gratuita é suficiente para simulações em pequena escala)

·Um computador com memória suficiente. Eu uso um Mac mini M1 Pro com 24 GB de memória, mas 16 GB também devem ser suficientes

Passo 1: Instalar o MiroFish

Em seguida, configure seu arquivo .env

OPENAI_API_KEY=sk-sua-chave

OPENAI_BASE_URL=link

OPENAI_MODEL=gpt-4o-mini

ZEP_API_KEY=sua-chave-zep

Passo 2: Crie um projeto e envie seu documento inicial

O documento inicial é a parte mais importante de todo o processo, pois determina quais informações o agente possui sobre a situação atual. Elaborei um resumo de cerca de 5.800 caracteres abordando a cronologia militar, a situação do bloqueio, os preços do petróleo, as perdas econômicas, os esforços diplomáticos e o aspecto dos investimentos do CCG, com fontes da Wikipedia, CNBC, Al Jazeera, Forbes e Reuters.

Passo 3: Gerar a ontologia

Esta etapa indica ao MiroFish quais tipos de entidades ele deve reconhecer e quais relações podem existir entre essas entidades.

Acabei criando 10 tipos de entidades: países, forças armadas, diplomatas, entidades comerciais, organizações de mídia, entidades econômicas, organizações, indivíduos, infraestrutura e mercados de previsão; e 6 tipos de relações. Se os resultados gerados automaticamente não se adequarem totalmente ao seu caso, você também pode ajustá-los manualmente.

Passo 4: Construir o gráfico de conhecimento

Esta etapa envolve o uso do Zep Cloud. O MiroFish enviará o documento inicial e a ontologia ao Zep, que será responsável pela extração de entidades e pela construção do gráfico.

Esse processo levará aproximadamente um a dois minutos. No final, obtive um gráfico com 65 s e 85 arestas, conectando elementos como países, personalidades, organizações e commodities.

Passo cinco: Gerar agentes

O MiroFish utilizará o gráfico de conhecimento para criar um perfil completo para cada entidade, incluindo o tipo de personalidade MBTI, idade, país de origem, estilo de postagem, gatilhos emocionais, temas tabu e memória institucional.

Inicialmente, gerei 43 agentes principais a partir do gráfico de conhecimento. Posteriormente, o sistema pode expandir essas funções principais até o número total desejado. Acabei definindo o número total de agentes para 200 e incluí funções civis diversificadas adicionais, como operadores de criptomoedas, pilotos de avião, professores, estudantes, ativistas sociais e muito mais.

Passo seis: Preparar o ambiente de simulação

Esta etapa definirá toda a configuração da simulação, incluindo os cronogramas de ação dos agentes, as publicações iniciais e os parâmetros temporais. O MiroFish selecionará automaticamente um conjunto de configurações padrão adequadas, como horários de pico, períodos de inatividade e frequência de publicação para diferentes tipos de agentes.

Minha configuração na época era a seguinte: simulação de um total de 168 horas (7 dias), 100 rodadas (cada rodada representando 1 hora), utilizando exclusivamente o cenário do Twitter e definindo horários de atividade individuais para os diferentes agentes.

Passo sete: Inicie a simulação

Então, é hora de esperar. No meu caso, executar 200 agentes e 100 rodadas de simulação com o GPT-4o mini levou aproximadamente 49 minutos. Você pode acompanhar o andamento por meio de uma API ou visualizar diretamente os registros.

Durante todo o processo, os agentes agirão de forma autônoma: eles seguirão o cronograma e decidirão se devem publicar, retuitar comentários, compartilhar, curtir ou simplesmente percorrer o feed, tudo isso sem a necessidade de intervenção humana.

Oitavo passo (opcional): Agentes de entrevistas

Após a conclusão da simulação, o sistema entrará no modo de comando. Nesta fase, você pode realizar entrevistas individuais com agentes específicos ou entrevistar todos os agentes de uma só vez:

Análise

O MiroFish irá primeiro ler o documento inicial e gerar automaticamente a estrutura da ontologia (composta por 10 tipos de entidade e 6 tipos de relação); em seguida, extrairá um gráfico de conhecimento com base nessas definições (contendo 65 nós e 85 arestas). Com base nisso, será criada uma perfil completo para cada entidade, incluindo o tipo de personalidade MBTI, idade, país de origem, estilo de postagem, gatilhos emocionais e elementos da memória institucional.

No final, foram gerados 43 agentes principais a partir do gráfico de conhecimento, que foi posteriormente ampliado para um total de 200 agentes. Isso introduziu um conjunto mais diversificado de funções para os plebeus, a fim de aumentar a diversidade e o realismo da simulação como um todo.

A repartição específica é a seguinte:

· 140 pessoas comuns: negociantes de criptomoedas, pilotos de avião, gerentes de cadeia de suprimentos, estudantes, ativistas sociais, professores, etc.

· 16 cargos diplomáticos/governamentais: Ministro das Relações Exteriores do Irã, Ministro das Relações Exteriores da Arábia Saudita, Ministro das Relações Exteriores de Omã, Primeiro-Ministro do Bahrein, Ministro das Relações Exteriores da China, UE, ONU, etc.

· 15 organizações de mídia: Reuters, CNN, Bloomberg, Al Jazeera, BBC, Fox, Wall Street Journal, etc.

· 10 relacionados à energia/transporte: OPEP, Platts, QatarEnergy, Aramco, Maersk, etc.

· 7 instituições financeiras: Polymarket, Kalshi, Goldman Sachs, JPMorgan, Citadel, ADIA, etc.

· 2 figuras militares/políticas: Trump, comandante do IRGC

Durante o processo de simulação de 7 dias (100 rodadas), foram gerados os seguintes resultados:

1.888 publicações

6.661 registros de comportamento (capturando todas as ações)

1.611 retuítes de citação (agentes respondendo uns aos outros)

4.051 atualizações (apenas visualização do feed)

311 ficam de fora (optando por observar)

208 curtidas, 207 retuítes

70 pontos de vista originais (novas posições ou julgamentos independentes)

De modo geral, esse sistema não se limita à simples geração de informações, mas se aproxima mais de uma simulação de comportamento social. Na maioria das vezes, observa-se que os agentes estão assimilando informações e interagindo, em vez de produzir resultados de forma consistente. Essa estrutura se assemelha mais à distribuição de comportamentos em um ambiente real de opinião pública — conteúdo original limitado, sobreposto por repetições extensas, manipulação e reações emocionais.

Os agentes passam a maior parte do tempo lendo e citando as opiniões alheias, em vez de criarem ativamente novos conteúdos.

Todo o grupo demonstra um claro viés na propagação emocional: pontos de vista otimistas são mais facilmente amplificados e compartilhados, enquanto julgamentos pessimistas, mesmo que logicamente mais próximos da realidade, tendem a se espalhar menos e a ter menos repercussão.

O que é ainda mais interessante é que 19 agentes apresentaram espontaneamente avaliações específicas de probabilidade durante suas postagens, não porque lhes foi pedido, mas como uma evolução natural da discussão.

A probabilidade média do grupo formado espontaneamente é de 47,9%, enquanto o mercado Polymarket aponta uma probabilidade de 31%, resultando em uma diferença de 16,9 pontos percentuais entre os dois.

Durante o processo de simulação, alguns agentes chegaram a mudar de postura ao longo de mais de 100 rodadas de interação.

Após a simulação, utilizei o recurso de entrevista do MiroFish para fazer a mesma pergunta a 43 agentes principais: Qual é a probabilidade, daqui até o final de abril de 2026, de o tráfego marítimo no Estreito de Ormuz voltar ao normal (0–100%)?

Os resultados foram os seguintes: 31 dos 43 agentes forneceram valores específicos, enquanto os outros 12 optaram por não responder. Vale ressaltar que as vozes mais cautelosas costumam optar pela autocensura em vez de fazer previsões explícitas — um comportamento que se assemelha muito ao dessas instituições na vida real.

O valor médio para cada categoria está acima de 60%: Forças Armadas: 75%, Mídia: 69%, Energia: 66%, Finanças: 65%, Diplomacia: 61%. A participação de mercado é de 31,5%.

O resultado do grupo orgânico, fruto de uma evolução natural, em comparação com o resultado da entrevista, apresenta dois quadros totalmente distintos.

Esta é a conclusão mais importante.

Os resultados das entrevistas tendem a ser mais otimistas. Quando os agentes têm liberdade para publicar suas opiniões, as visões dos pessimistas costumam ser mais enfáticas e específicas; no entanto, durante entrevistas individuais, devido a uma tendência à cooperação, quase todos apresentam avaliações na faixa de 60% a 70%.

Os resultados orgânicos são mais confiáveis. Um consultor financeiro postou, durante uma discussão acalorada, que estimava esse valor em 65%, uma conclusão formada durante a interação; já um agente que responde a perguntas em uma entrevista está, essencialmente, fazendo uma comparação de padrões.

Ironicamente, os pessimistas, em termos naturais, acabam sendo os que melhor prevêem o futuro. Entre os 7 agentes da simulação que indicaram uma probabilidade ≤30% (o ministro das Relações Exteriores do Irã, o ministro das Relações Exteriores da China, Kalshi, a Platts, um professor de economia, um estudante iraniano e um ativista antigerra), a média foi de 22%, o que representa uma diferença inferior a 10 pontos percentuais em relação ao resultado da Polymarket. Experiência + Expressão natural = O mais próximo do mercado.

Mais importante ainda, isso não é apenas um fenômeno da IA; os atores do mundo real se comportam da mesma maneira.

Quando se entrevista qualquer líder nacional sobre uma crise, ele sempre fala sobre o nosso compromisso com a paz e o nosso otimismo em relação às soluções. Este é um roteiro padrão, algo que não pode faltar na frente das câmeras. Mas se analisarmos o que eles estão realmente fazendo — mobilizações militares, sanções, congelamento de bens, desinvestimentos —, suas ações muitas vezes revelam uma realidade completamente diferente.

O príncipe herdeiro da Arábia Saudita declarou à Reuters que acredita nos meios diplomáticos, enquanto seu fundo soberano está de olho em alocações de ativos nos Estados Unidos no valor de até US$ 3,2 trilhões. O presidente iraniano diria que a paz é nosso objetivo comum, mas a Guarda Revolucionária Iraniana está colocando minas no estreito. Trump diria que vamos ver, ao mesmo tempo em que rejeitaria todas as propostas de cessar-fogo.

Essa simulação reproduziu inadvertidamente a mesma divisão estrutural: à medida que os participantes anônimos argumentam, debatem, respondem e divulgam informações, o grupo de especialistas converge gradualmente para a faixa de 20% a 30% — mais pessimista e mais próxima da realidade; mas, assim que você os reúne em uma sala de reuniões e pergunta formalmente qual é a previsão deles, eles imediatamente passam para o modo diplomático: 65%–70%, visivelmente mais otimista.

Postagens espontâneas, mais semelhantes a comportamentos pessoais e conversas informais; resultados de entrevistas, mais semelhantes a coletivas de imprensa. Se você realmente quer saber o que alguém pensa, não pergunte diretamente — observe o comportamento dessa pessoa quando ninguém está olhando.

Preço de --

--

O que vem a seguir

Isso foi apenas um teste inicial. O objetivo não é fornecer uma previsão definitiva, mas sim verificar, nesse tipo de simulação em grupo, quais sinais são úteis, onde há distorção e quais partes vale a pena otimizar.

Já existem respostas: discussões que surgem naturalmente podem gerar sinais eficazes, ao passo que entrevistas não; os pessimistas são a fonte desses sinais; e a preferência do GPT-4o mini pela cooperação é, de fato, um problema.

A próxima experiência contará com várias melhorias.

Em primeiro lugar, temos um conjunto de dados mais extenso. Não se trata mais apenas de um resumo de 5.800 palavras, mas de uma apresentação de mais de 20 anos de contexto histórico: eventos relevantes no Estreito de Ormuz, a escalada dos conflitos entre o Irã e os EUA, crises petrolíferas passadas, mudanças diplomáticas no CCG, etc. — basicamente o que um verdadeiro analista geopolítico teria em mente antes de fazer suas avaliações.

O segundo é um modelo mais robusto. O GPT-4o mini foi suficiente para a validação, com um custo de US$ 3, mas um modelo mais avançado deve aproximar o agente da maneira de pensar própria da função, em vez de recorrer por padrão à abordagem de “tenho uma visão otimista do diálogo em momentos críticos”.

Por fim, mais proxies. 200 já é um bom número, mas ainda há espaço para expandir ainda mais: papéis humanos regulares mais diversificados, mais vozes regionais, mais casos extremos. Quanto mais participantes, mais rica é a estrutura da discussão e mais valioso é o resultado obtido.

[Link do artigo original]

Você também pode gostar

5 minutos para transformar a IA no seu segundo cérebro

É hora de delegar a tarefa de memorização à IA

O mistério de 17 anos será desvendado: quem é Satoshi Nakamoto?

O New York Times investiga o mistério de Satoshi Nakamoto, com pistas que apontam para Adam Back

A Uniswap está presa em um dilema de inovação

As diversas versões do Uniswap são uma das fontes de vitalidade do mercado DeFi, mas, desde 2023, o Uniswap não propôs nenhuma inovação substancial, limitando-se a explorar áreas tradicionais de negócios, como cadeias de aplicativos, Launchpads etc., o que levou a uma queda nos preços dos tokens e no mercado...

Qual é o segredo da competitividade no setor bancário de criptomoedas?

Os bancos digitais, cartões de criptomoedas, carteiras digitais, superapps e protocolos DeFi estão todos convergindo para o mesmo objetivo: tornar-se o principal ponto de acesso para suas economias, gastos, rendimentos e transferências nesta nova era.

O fluxo de stablecoins e os efeitos colaterais no mercado de câmbio

A pesquisa descobriu que um aumento exógeno nas entradas líquidas de stablecoins amplia significativamente a divergência de preços entre stablecoins e câmbio tradicional, leva à depreciação da moeda local e piora as condições de financiamento para dólares sintéticos (ou seja, aumenta o prêmio do dólar)

Após dois anos, o primeiro lote de licenças de stablecoin de Hong Kong finalmente emitido: HSBC, Standard Chartered são aprovados

A entidade regulamentada está pronta para lançar uma stablecoin na primeira metade deste ano.

Populares

Últimas notícias sobre cripto

Leia mais