Fundatorzy, Pantera i Franklin Templeton dołączają do „Areny” Sentient, aby przeprowadzić test obciążeniowy agentów sztucznej inteligencji na poziomie przedsiębiorstwa
W ciągu ostatnich dwóch lat firmy przyspieszyły integrację agentów sztucznej inteligencji z rzeczywistymi procesami roboczymi: od obsługi klienta i operacji backendoвых po procesy finansowe i zgodności, które wymagają podejmowania decyzji o wysokim ryzyku. Ponieważ systemy te są coraz bardziej osadzane w rzeczywistych operacjach biznesowych, pojawia się nowy problem: chociaż agenci mogą wyszukiwać informacje, często mają trudności z zapewnieniem stabilnych, możliwych do interpretacji i odtworzenia procesów rozumowania, gdy praca staje się „nieporządna”, wieloetapowa lub wysokiego ryzyka.
Dziś laboratorium sztucznej inteligencji open-source Sentient oficjalnie uruchomiło Arenę — środowisko w czasie rzeczywistym, gotowe do produkcji, dla tysięcy deweloperów sztucznej inteligencji na całym świecie, aby testować pod obciążeniem i iteracyjnie konkurować w najtrudniejszych problemach rozumowania, z jakimi borykają się przedsiębiorstwa. Początkowy skład uczestników pierwszej fazy Areny obejmuje Founders Fund, Pantera i Franklin Templeton, który zarządza aktywami o wartości ponad 15 bilionów dolarów — wysyłając sygnał, że instytucje wykazują wczesne, wyraźne zainteresowanie „ustrukturyzowanymi ocenami agentów sztucznej inteligencji przed ich wdrożeniem”.
„Kiedy firmy stosują agenty sztucznej inteligencji do badań, operacji i procesów obsługi klienta, pytanie nie brzmi już, czy te systemy są wystarczająco potężne... ale czy są niezawodne w rzeczywistych procesach roboczych” — powiedział Julian Love, Partner Zarządzający w Franklin Templeton Digital Assets. Love dodał, że ustrukturyzowane środowiska takie jak Arena pomogą branży odróżnić „obiecujące pomysły” od „możliwości, które rzeczywiście mogą być wykorzystane w produkcji”.
Współzałożyciel Sentient, Himanshu Tyagi, powiedział: „Agenci AI nie są już tylko eksperymentami w firmach; wchodzą w kluczowe procesy, które dotyczą klientów, finansowania i wyników operacyjnych. Ta zmiana zmienia kryteria oceny. Nie wystarczy, aby systemy wyglądały imponująco w prezentacjach. Firmy muszą wiedzieć: czy agenci nadal mogą niezawodnie działać w środowiskach produkcyjnych, gdzie koszt błędu jest wysoki, a zaufanie kruche? Firmy potrzebują porównywalności, powtarzalności i metody śledzenia długoterminowych usprawnień niezawodności, która nie zależy od modelu ani stosu narzędzi.
Arena symuluje prawdziwy chaos przepływów pracy w przedsiębiorstwach: niekompletne informacje, długie konteksty, niejasne instrukcje i sprzeczne źródła. Arena nie ocenia tylko, czy agenci dostarczają „właściwych odpowiedzi”, ale rejestruje pełne ślady rozumowania, aby zespoły inżynieryjne mogły wskazać przyczyny awarii i zweryfikować ulepszenia w czasie.
Zapewnia to neutralny, niezależny od dostawcy punkt odniesienia do oceny rozumowania w różnych modelach i stosach technologicznych. Arena kładzie nacisk na wydajność na poziomie produkcji, a nie na wydajność demonstracyjną, tworząc w ten sposób weryfikowalne możliwości agentów, które można zastosować w scenariuszach wysokiego ryzyka, a które firmy mogą również przenieść na swoje prywatne dane i narzędzia wewnętrzne.
W pierwszym wyzwaniu deweloperzy dołączający do Areny skupią się na podstawowym problemie na poziomie przedsiębiorstwa: rozumowaniu na podstawie dokumentów. Agenci AI muszą rozumować i przetwarzać złożone, nieustrukturyzowane dane — tego typu praca leży u podstaw scenariuszy takich jak analiza finansowa, dochodzenie w sprawie przyczyny podstawowej, pisanie notatek inwestycyjnych i obsługa klienta.
Inni uczestnicy fazy początkowej to alphaXiv, Fireworks, OpenHands i OpenRouter; w miarę jak Arena rozszerza się na zadania, branże i integracje modeli, oczekuje się, że dołączy więcej uczestników.
Najnowsze badania podkreślają również lukę, którą Arena ma zamiar wypełnić: 85% firm wyraża chęć stania się „przedsiębiorstwami agentycznymi”, przy czym prawie trzy czwarte planuje wdrożyć autonomicznych agentów, ale mniej niż jedna czwarta ma dojrzałe systemy zarządzania; wiele firm ma trudności ze skalowaniem projektów pilotażowych do wdrożeń produkcyjnych na dużą skalę. Średnio firmy uruchamiają około tuzina agentów, często rozproszonych w izolacji; wielu uważa, że bez lepszej orkiestracji i możliwości współpracy dodanie większej liczby agentów zwiększy tylko złożoność i zmniejszy wartość.
„W OpenHands zawsze chętnie wspieraliśmy deweloperów w wykorzystywaniu agentów do rozwiązywania rzeczywistych, praktycznych problemów” — powiedział Graham Neubig, główny naukowiec i współzałożyciel OpenHands. „Z radością wspieramy również uczestników w wykorzystywaniu pakietu SDK OpenHands Software Agent do podejmowania tych złożonych wyzwań”.
Alex Atallah, współzałożyciel i dyrektor generalny OpenRouter, powiedział: „Arena to dokładnie tego typu inicjatywa, która może pchnąć do przodu sztuczną inteligencję typu open-source — pozwala badaczom konkurować, iterować i wprowadzać innowacje w otwartym środowisku. Z niecierpliwością czekamy na pogłębienie współpracy z Sentient i zapewnienie infrastruktury, która pozwoli na szybsze i łatwiejsze skalowanie eksperymentów.
Arena zostanie uruchomiona na całym świecie, a tysiące programistów AI zostaną zaproszeni do ubiegania się o udział w pierwszej ograniczonej grupie, a wydarzenia offline zaplanowane są w San Francisco od marca 2026 roku.
Informacje o Sentient Labs
Sentient Labs to wiodąca organizacja zajmująca się badaniami technologicznymi i produktami, poświęcona rozwojowi otwartych źródeł AI. Jako motor innowacji w ramach Sentient Foundation, Sentient Labs prowadzi pionierskie badania w zakresie rozumowania AI, dostosowywania i współpracy agentów. Sentient jest głównym twórcą wysokiej jakości frameworków, takich jak ROMA, oraz modeli open-source, takich jak Dobby. Misją Sentient jest przejście od AI open-source z fazy „eksperymentu” do „konieczności”. Dzięki zapewnieniu infrastruktury do budowania potężnych, konfigurowalnych systemów agentów, Sentient umożliwia programistom komercjalizację narzędzi open-source i osiągnięcie użyteczności na poziomie przedsiębiorstwa. Sentient zobowiązuje się do uczynienia open-source domyślnym standardem dla globalnych, kluczowych operacji AI.
Możesz również polubić

Transfer bogactwa o wartości 70 bilionów dolarów, finansowa brama jest przepisana | Wywiad z dyrektorem generalnym Robinhood, Vladimirem Tenevem

Gdy wszyscy sprzedają akcje oprogramowania, HSBC mówi, że się mylisz

Kurs AAVE oscyluje w pobliżu kluczowego poziomu wsparcia i ma szansę na krótkoterminowy wzrost w kierunku 150 dolarów
Najważniejsze wnioski: Kurs Aave znajduje się na kluczowym poziomie wsparcia wynoszącym około 114 dolarów, co odzwierciedla obecną niepewność na rynku. Jeśli to się sprawdzi…

BlackRock Wycofuje Dużą Ilość BTC i ETH z Coinbase
Key Takeaways BlackRock wycofał 2 267 BTC i 5 041 ETH z Coinbase w ciągu ostatnich 9 godzin.…

# Starożytna Wieloryb Sprzedaje 1,000 BTC za 71,57 Milionów Dolarów
Key Takeaways Starożytny wieloryb sprzedał 1,000 BTC, co odpowiada 71,57 milionom dolarów. Wieloryb zebrał 5,000 BTC w 2013…

# Outline
H1: Ethereum’s Price Dips Below $2200 Amid Market Fluctuations H2: Current State of Ethereum Market H3: Recent Price…

# Wieloryb Dokonuje Zakupu 10,811.34 ETH na Rynku
Key Takeaways Adres 0x65B…5Ce93 zakupił 10,811.34 ETH w ciągu dwóch tygodni. Całkowita wartość zakupu osiągnęła 22,58 milionów dolarów.…

# Outline
Introduction Overview of Pudgy Penguins’ new game launch and associated phishing scams. The significance of the phishing campaign…

# Atak na Front-End Protokółu DeFi Neutrl: Co Musisz Wiedzieć
Key Takeaways Protokół DeFi Neutrl doświadczył podejrzanego ataku na front-end. Oficjalny zespół zaleca użytkownikom wstrzymanie interakcji z witryną…

Bitcoin Traci Below $71,000 – Co dzieje się na rynku kryptowalut?
Key Takeaways Rynek kryptowalut spada drugi dzień z rzędu, z wyraźnym spadkiem ceny Bitcoin poniżej $71,000. Znaczne spadki…

# SkyLink Używa Dźwigni do Shortowania S&P 500 i Eksponując się na Rynku Ropnym
Key Takeaways SkyLink wykorzystuje 20-krotną dźwignię do shortowania indeksu S&P 500. Rune Christensen równocześnie zwiększa swoją pozycję długą…

# Outline
H1: Strategia “10 Wielkich Celów” Prowadzi Do Sukcesu H2: Wprowadzenie do Strategii Wieloryba H3: Kim jest @Jason60704294? H3:…

Cena Bitcoina Spada – Bitcoin Traci Wartość Poniżej 71,000 USD
Key Takeaways Bitcoin spadł poniżej 71,000 USD, notując dzienny spadek o 0.91%. W ciągu ostatnich 24 godzin volumen…

# Outline
H1: Michael Saylor Promotes Bitcoin as the Ultimate Hedge H2: Introduction to Michael Saylor’s Bitcoin Stance H3: Michael…

Wieloryby otwierają długie pozycje w Bitcoinie: Co to oznacza dla rynku
Key Takeaways Znany wieloryb na rynku kryptowalut używa strategii “10 wielkich celów”, aby inwestować w Bitcoin. Na dzień…

# Outline
Wprowadzenie – Wprowadzenie do tematu strat kryptowalutowych – Krótkie wyjaśnienie ataku phishingowego Szczegóły incydentu – Opis incydentu z…

Bitcoin Traci Impuls do Przodu Pomimo Spadku Cen
Key Takeaways Cena Bitcoina spadła poniżej 71,000 dolarów, ale nadal utrzymuje się silna tendencja wzrostowa. Zwiększone ceny ropy…

# Outline
H1: Atak phishingowy na deweloperów OpenClaw – zagrożenie dla portfeli kryptowalutowych H2: Czym jest OpenClaw i dlaczego przyciąga…
Transfer bogactwa o wartości 70 bilionów dolarów, finansowa brama jest przepisana | Wywiad z dyrektorem generalnym Robinhood, Vladimirem Tenevem
Gdy wszyscy sprzedają akcje oprogramowania, HSBC mówi, że się mylisz
Kurs AAVE oscyluje w pobliżu kluczowego poziomu wsparcia i ma szansę na krótkoterminowy wzrost w kierunku 150 dolarów
Najważniejsze wnioski: Kurs Aave znajduje się na kluczowym poziomie wsparcia wynoszącym około 114 dolarów, co odzwierciedla obecną niepewność na rynku. Jeśli to się sprawdzi…
BlackRock Wycofuje Dużą Ilość BTC i ETH z Coinbase
Key Takeaways BlackRock wycofał 2 267 BTC i 5 041 ETH z Coinbase w ciągu ostatnich 9 godzin.…
# Starożytna Wieloryb Sprzedaje 1,000 BTC za 71,57 Milionów Dolarów
Key Takeaways Starożytny wieloryb sprzedał 1,000 BTC, co odpowiada 71,57 milionom dolarów. Wieloryb zebrał 5,000 BTC w 2013…
# Outline
H1: Ethereum’s Price Dips Below $2200 Amid Market Fluctuations H2: Current State of Ethereum Market H3: Recent Price…