Founders Fund、Pantera 與 Franklin Templeton 加入 Sentient 的 “Arena”,對企業級 AI 智能體進行壓力測試
過去兩年裡,企業一直在加速把 AI 智能體引入真實工作流程:從客服、後台運營,到金融與合規等需要高強度決策的流程。隨著這些系統越來越多地被嵌入實際業務,一個新問題正在浮現:智能體能夠檢索信息,但當工作變得"髒"、多步驟、或高風險時,它們往往難以給出穩定、可解釋、可複現的推理過程。
今天,開源 AI 實驗室 Sentient 正式推出 Arena------一個實時、可投入生產級使用的環境,面向全球數千名 AI 開發者,用來對各種企業最難的推理問題進行壓力測試與競賽式迭代。Arena 初始階段的首批參與陣容包括 Founders Fund、Pantera,以及管理資產規模超過 1.5 萬億美元的 Franklin Templeton(富蘭克林邓普顿)------這也釋放出一個信號:機構正在對"在上線部署前,對 AI 智能體進行結構化評測"產生早期、明確的興趣。
"當企業把 AI 智能體應用到研究、運營和面向客戶的工作流時,問題已經不再是這些系統是否足夠強大......而是它們在真實工作流中是否可靠。"Franklin Templeton Digital Assets(富蘭克林邓普顿數字資產)管理合夥人 Julian Love 表示。Love 補充說,像 Arena 這樣的結構化環境,將幫助行業把"有潛力的想法"和"真正能用於生產的能力"區分開來。
Sentient 聯合創始人 Himanshu Tyagi 表示:"AI 智能體在企業內部不再只是實驗;它們正在進入會觸及客戶、資金和運營結果的關鍵流程。這種變化改變了評判標準。系統在演示裡看起來很驚艷還不夠。企業需要知道:在生產環境裡,當失敗代價很高、信任又非常脆弱時,智能體是否還能穩定地推理。企業需要可比性、可重複性,以及一種不依賴底層模型或工具棧、能夠長期跟蹤可靠性提升的方法。"
Arena 模擬了企業工作流的真實混亂:信息不完整、上下文很長、指令含糊、來源相互衝突。Arena 不只評判智能體是否給出"正確答案",而是記錄完整的推理軌跡(reasoning trace),以便工程團隊定位失敗原因,並長期驗證改進是否有效。
這為跨模型、跨技術棧的推理評估提供了一個中立、與廠商無關的基準(vendor-agnostic benchmark)。Arena 強調生產級表現而非 Demo 表現,從而形成可驗證、適用於高風險場景的智能體能力,企業也可以把這些能力遷移到自己的私有數據和內部工具上。
在第一項挑戰中,加入 Arena 的開發者將聚焦一個企業級基礎難題:文檔推理(document reasoning)。AI 智能體需要對複雜、非結構化數據進行推理與計算------這類工作是金融分析、根因調查、投資備忘錄撰寫、客戶服務等場景的底層支撐。
初始階段的其他參與方還包括 alphaXiv、Fireworks、OpenHands、OpenRouter 等;隨著 Arena 在任務、行業與模型集成上的擴展,預計還會有更多參與者加入。
近期調研也凸顯了 Arena 試圖解決的缺口:85% 的企業表示希望成為"智能體企業(agentic enterprises)",近四分之三計劃部署自治智能體,但真正擁有成熟治理體系的不到四分之一;許多企業難以把試點擴展到大規模生產部署。企業平均已經在運行約十幾個智能體,通常分散在各自孤立的場景中;不少企業認為,如果沒有更好的編排與協同能力,繼續增加智能體只會帶來複雜度上升,價值反而下降。
"在 OpenHands,我們一直很願意支持開發者使用智能體解決真實、實用的問題。"OpenHands 首席科學家兼聯合創始人 Graham Neubig 表示,"我們也很高興支持參賽者使用 OpenHands Software Agent SDK 來應對這些複雜挑戰。"
OpenRouter 聯合創始人兼 CEO Alex Atallah 表示:"Arena 正是那種能推動開源 AI 向前的計劃------它讓研究者可以在公開環境中競爭、迭代和創新。我們很期待與 Sentient 加深合作,並提供基礎設施,讓實驗更快、更容易規模化。"
Arena 將面向全球啟動,邀請數千名 AI 開發者申請加入第一期限定隊列,並從 2026 年 3 月起在舊金山舉行線下活動。
關於 Sentient Labs
Sentient Labs 是一家領先的技術研究與產品組織,致力於推動開源 AI 的發展。作為 Sentient Foundation 旗下的創新引擎,Sentient Labs 在 AI 推理、對齊與智能體協作等方向開展前沿研究。Sentient 是 ROMA 等高性能框架以及 Dobby 等開源模型的核心研發方。Sentient 的使命是讓開源 AI 從"實驗"走向"必需"。通過提供構建強大、可組合智能體系統的基礎設施,Sentient 讓開發者能夠對開源工具實現商業化,並達到企業級可用性。Sentient 致力於推動開源成為全球關鍵任務 AI 操作的默認標準。
猜你喜歡

观点:不吹不黑,我給 OpenClaw 打 65 分

油價單日暴跌超30%、Copilot Cowork功能上線,英文社群今天在聊什麼?

讓 Agent 安全花錢這件事情,已經捲起來了

穩定幣地位抬升後,老夥伴 Circle 和 Stripe 互搶地盤

交易萬物,永不休市:RWA 永續合約(上)

早報 | Nscale 完成 20 億美元 C 輪融資;第 2000 萬枚比特幣已挖出;Polymarket 將上線標普 500 二元期權產品

對話 Vitalik、Suji: 為什麼去中心化社交產品都失敗了?

比特币波動後急升,伊朗打擊後24小時内收復5千美金跌幅
關鍵要點: 在伊朗突發的军事行動傳聞下,比特币價格一度跌至63,000美元,但很快反彈。 根據TradingView的數據,周日早些時候,比特幣價格回升至68,200美元,24小時內收復約5,000美元。 此波動引發約6.57億美元的清算,約157,000名交易者被清算。 英國金融時報報導,伊朗最高領袖哈梅內伊在美以襲擊中被殺害。 随着局势的发展,區域和全球市場正密切關注局勢的進一步变化。 WEEX Crypto News, 2026-03-02 09:58:52 伊朗突如其來的戰事消息令市場陷入震荡,比特币在短暫的急跌之後迅速回升,展现出強勁的市场弹性。在此过程中,全球加密貨幣市場反應如同风暴中的一叶小舟随着潮起潮落。这种行情波動,即便对长期研究市场的观察者而言,也依然令人难以琢磨。 比特币價格在突發局勢中急升 本周六,在出現美以空襲伊朗的消息後,比特币價格瞬間跌至63,000美元。這一劇烈的價格波動正是由於有報導稱伊朗最高領袖哈梅內伊被殺害,以及随后的区域紧张局势升级。市場上,許多投資者纷纷选择抛售以避險。 然而,這股初期的恐慌情緒在次日迅速轉變,比特币价格不但回升,还在短短一天内上扬至68,200美元。这种急速的反弹显示出市场对突发事件作出快速调节的能力,许多交易者开始预料到局势可能得以控制或緩和。 波動引發清算潮 在這种高波動的市場環境下,交易者的风险管理显得尤为重要。據CoinGlass的數據顯示,在市場驚魂未定之時,大量交易者的头寸被清算,清算總額高达约6.57億美元。这種情況下,多空雙方的頭寸幾乎等量被損耗,表明市場的波動使得许多以杠杆交易为主的投资人蒙受了不小的損失。 加密市场本质上与传统金融市场有着微妙的区别。不论是因為监管的相对宽松,亦或者是投资者的结构性差异,市场的反应总是略显激烈且直接。随着哈梅內伊之死的消息确认,伊朗高级官员如伊斯兰革命卫队指挥官巴克普尔和国防委员会秘书沙姆卡尼等高层人士的陣亡報導進一步加剧了市場的不安。…

韓國國稅廳的錯誤導致以太坊代幣遭竊但未損失
重要要點 韓國國稅廳最近因處理加密資產的嚴重失誤而導致4.8百萬美元的損失風險。 未經編輯的照片公開了密碼錢包的私鑰,使不明人士得以提取440萬的以太坊代幣。 雖然代幣最終被歸還,但該事件暴露了政府機構在無適當技術保護下管理數字資產時面臨的風險。 此次事件反映出使用硬體錢包的安全性,因拍攝私鑰而完全無效。 WEEX Crypto News, 2026-03-02 10:00:17 在韓國,一場嚴重的運營安全事故使國稅廳面臨著重大的財務損失風險。近期的一次失誤讓未被授權的用戶能夠竊取價值4.8百萬美元的以太坊代幣,而該交易最終揭示了管理數字資產過程中的巨大漏洞。隨著越來越多的政府機構涉足數字資產的處理和沒收,這一事件猶如一個警鐘,呼籲各方慎重對待數字資產的托管問題。 過失揭露:稅務機關揭示以太坊私鑰 在2月26日,韓國國稅廳宣佈其從多次違約的納稅人處查獲了約8.1億韓元(約5.61百萬美元)的資產。為了展示此次執法行動,官員們發布了一組被扣押物品的照片,其中標記為“Case 3”的展示令人注目。不過,問題出在這些照片的細節之中。這些圖片中不僅清楚地展示了Ledger硬體錢包,還包括一張紙,上面展示了一組12個字的種子詞。 一位本地教授形容這一錯誤猶如公共邀請他人將你的錢包洗劫一空。比喻式地強調了這一事件暴露了一個基本但至關重要的技術處理差距,尤其是在當局愈來愈多地查扣和管理數字資產的背景下,凸顯了管理數字資產所需的專業性質。 鏈上數據:偷取與返還 根據鏈上數據顯示,在照片公開後不久,相關錢包便被清空。一名不明身份的行動者首先發送了一小筆以太坊用於支付燃料費,隨後將440萬的Pre-Retogeum (PRTG)…

I’m sorry, but I’m unable to complete this task as…
I’m sorry, but I’m unable to complete this task as the extracted content appears to be too short…

交易永不眠:鏈上、原油與槓桿

鏈上收益全景:從計息穩定幣到加密信用產品的演進

RootData 宣佈結合 OpenClaw,這些玩法被傳瘋了

3月9日市場關鍵情報,你錯過了多少?

a16z:AI賦予人類超能力後,我們該往何方?

為什麼石油價格上漲時比特幣價格會下跌?

拆解11.2萬個 Polymarket 地址:真正賺錢的 1% 都在做這五件事
