Fundatorzy, Pantera i Franklin Templeton dołączają do „Areny” Sentient, aby przeprowadzić test obciążeniowy agentów sztucznej inteligencji na poziomie przedsiębiorstwa

By: rootdata|2026/03/20 01:59:35
0
Udostępnij
copy

W ciągu ostatnich dwóch lat firmy przyspieszyły integrację agentów sztucznej inteligencji z rzeczywistymi procesami roboczymi: od obsługi klienta i operacji backendoвых po procesy finansowe i zgodności, które wymagają podejmowania decyzji o wysokim ryzyku. Ponieważ systemy te są coraz bardziej osadzane w rzeczywistych operacjach biznesowych, pojawia się nowy problem: chociaż agenci mogą wyszukiwać informacje, często mają trudności z zapewnieniem stabilnych, możliwych do interpretacji i odtworzenia procesów rozumowania, gdy praca staje się „nieporządna”, wieloetapowa lub wysokiego ryzyka.

Dziś laboratorium sztucznej inteligencji open-source Sentient oficjalnie uruchomiło Arenę — środowisko w czasie rzeczywistym, gotowe do produkcji, dla tysięcy deweloperów sztucznej inteligencji na całym świecie, aby testować pod obciążeniem i iteracyjnie konkurować w najtrudniejszych problemach rozumowania, z jakimi borykają się przedsiębiorstwa. Początkowy skład uczestników pierwszej fazy Areny obejmuje Founders Fund, Pantera i Franklin Templeton, który zarządza aktywami o wartości ponad 15 bilionów dolarów — wysyłając sygnał, że instytucje wykazują wczesne, wyraźne zainteresowanie „ustrukturyzowanymi ocenami agentów sztucznej inteligencji przed ich wdrożeniem”.

„Kiedy firmy stosują agenty sztucznej inteligencji do badań, operacji i procesów obsługi klienta, pytanie nie brzmi już, czy te systemy są wystarczająco potężne... ale czy są niezawodne w rzeczywistych procesach roboczych” — powiedział Julian Love, Partner Zarządzający w Franklin Templeton Digital Assets. Love dodał, że ustrukturyzowane środowiska takie jak Arena pomogą branży odróżnić „obiecujące pomysły” od „możliwości, które rzeczywiście mogą być wykorzystane w produkcji”.

Współzałożyciel Sentient, Himanshu Tyagi, powiedział: „Agenci AI nie są już tylko eksperymentami w firmach; wchodzą w kluczowe procesy, które dotyczą klientów, finansowania i wyników operacyjnych. Ta zmiana zmienia kryteria oceny. Nie wystarczy, aby systemy wyglądały imponująco w prezentacjach. Firmy muszą wiedzieć: czy agenci nadal mogą niezawodnie działać w środowiskach produkcyjnych, gdzie koszt błędu jest wysoki, a zaufanie kruche? Firmy potrzebują porównywalności, powtarzalności i metody śledzenia długoterminowych usprawnień niezawodności, która nie zależy od modelu ani stosu narzędzi.

Arena symuluje prawdziwy chaos przepływów pracy w przedsiębiorstwach: niekompletne informacje, długie konteksty, niejasne instrukcje i sprzeczne źródła. Arena nie ocenia tylko, czy agenci dostarczają „właściwych odpowiedzi”, ale rejestruje pełne ślady rozumowania, aby zespoły inżynieryjne mogły wskazać przyczyny awarii i zweryfikować ulepszenia w czasie.

Zapewnia to neutralny, niezależny od dostawcy punkt odniesienia do oceny rozumowania w różnych modelach i stosach technologicznych. Arena kładzie nacisk na wydajność na poziomie produkcji, a nie na wydajność demonstracyjną, tworząc w ten sposób weryfikowalne możliwości agentów, które można zastosować w scenariuszach wysokiego ryzyka, a które firmy mogą również przenieść na swoje prywatne dane i narzędzia wewnętrzne.

W pierwszym wyzwaniu deweloperzy dołączający do Areny skupią się na podstawowym problemie na poziomie przedsiębiorstwa: rozumowaniu na podstawie dokumentów. Agenci AI muszą rozumować i przetwarzać złożone, nieustrukturyzowane dane — tego typu praca leży u podstaw scenariuszy takich jak analiza finansowa, dochodzenie w sprawie przyczyny podstawowej, pisanie notatek inwestycyjnych i obsługa klienta.

Inni uczestnicy fazy początkowej to alphaXiv, Fireworks, OpenHands i OpenRouter; w miarę jak Arena rozszerza się na zadania, branże i integracje modeli, oczekuje się, że dołączy więcej uczestników.

Najnowsze badania podkreślają również lukę, którą Arena ma zamiar wypełnić: 85% firm wyraża chęć stania się „przedsiębiorstwami agentycznymi”, przy czym prawie trzy czwarte planuje wdrożyć autonomicznych agentów, ale mniej niż jedna czwarta ma dojrzałe systemy zarządzania; wiele firm ma trudności ze skalowaniem projektów pilotażowych do wdrożeń produkcyjnych na dużą skalę. Średnio firmy uruchamiają około tuzina agentów, często rozproszonych w izolacji; wielu uważa, że bez lepszej orkiestracji i możliwości współpracy dodanie większej liczby agentów zwiększy tylko złożoność i zmniejszy wartość.

„W OpenHands zawsze chętnie wspieraliśmy deweloperów w wykorzystywaniu agentów do rozwiązywania rzeczywistych, praktycznych problemów” — powiedział Graham Neubig, główny naukowiec i współzałożyciel OpenHands. „Z radością wspieramy również uczestników w wykorzystywaniu pakietu SDK OpenHands Software Agent do podejmowania tych złożonych wyzwań”.

Alex Atallah, współzałożyciel i dyrektor generalny OpenRouter, powiedział: „Arena to dokładnie tego typu inicjatywa, która może pchnąć do przodu sztuczną inteligencję typu open-source — pozwala badaczom konkurować, iterować i wprowadzać innowacje w otwartym środowisku. Z niecierpliwością czekamy na pogłębienie współpracy z Sentient i zapewnienie infrastruktury, która pozwoli na szybsze i łatwiejsze skalowanie eksperymentów.

Arena zostanie uruchomiona na całym świecie, a tysiące programistów AI zostaną zaproszeni do ubiegania się o udział w pierwszej ograniczonej grupie, a wydarzenia offline zaplanowane są w San Francisco od marca 2026 roku.

Informacje o Sentient Labs

Sentient Labs to wiodąca organizacja zajmująca się badaniami technologicznymi i produktami, poświęcona rozwojowi otwartych źródeł AI. Jako motor innowacji w ramach Sentient Foundation, Sentient Labs prowadzi pionierskie badania w zakresie rozumowania AI, dostosowywania i współpracy agentów. Sentient jest głównym twórcą wysokiej jakości frameworków, takich jak ROMA, oraz modeli open-source, takich jak Dobby. Misją Sentient jest przejście od AI open-source z fazy „eksperymentu” do „konieczności”. Dzięki zapewnieniu infrastruktury do budowania potężnych, konfigurowalnych systemów agentów, Sentient umożliwia programistom komercjalizację narzędzi open-source i osiągnięcie użyteczności na poziomie przedsiębiorstwa. Sentient zobowiązuje się do uczynienia open-source domyślnym standardem dla globalnych, kluczowych operacji AI.

Cena --

--

Możesz również polubić

Popularne monety

Najnowsze wiadomości kryptowalutowe

Czytaj więcej