123,123,123

從大模型到Agent的跨越難度，正被整個(gè)行業(yè)嚴(yán)重低估

2026-04-10 12:04

過(guò)去兩年，AI 敘事的坐標(biāo)系近乎失準(zhǔn)。

MMLU、HumanEval 這類靜態(tài)指標(biāo)像高考榜單一樣被反復(fù)張貼，不斷刷新的數(shù)字仿佛宣告通用人工智能已抵近終點(diǎn)線。

然而，一種名為APEXAgents的新基準(zhǔn)戳破了這層幻象。

它揭示的并非模型智商的線性進(jìn)步，而是一個(gè)殘酷的悖論：當(dāng) AI 試圖從“回答問(wèn)題”跨越到“完成工作”時(shí)，能力的提升正陷入嚴(yán)重的數(shù)據(jù)饑渴。

從LLM（語(yǔ)言大模型）到Agent的轉(zhuǎn)向，不是版本的升級(jí)，而是一次從靜態(tài)智力到動(dòng)態(tài)生產(chǎn)力的范式轉(zhuǎn)移。其跨越難度，被整個(gè)行業(yè)嚴(yán)重低估。

評(píng)測(cè)權(quán)杖的交接

在過(guò)去的三年中，LLM一直是AI的主要形態(tài)。

那時(shí)，人們?cè)u(píng)測(cè)模型的重心在于“智商”，也就是模型能夠掌握多少靜態(tài)知識(shí)、能否正確進(jìn)行邏輯推導(dǎo)。

但隨著AI的形態(tài)在不到半年間從LLM全面過(guò)渡到Agent，評(píng)測(cè)的權(quán)杖也必須發(fā)生交接。

Agent的核心本質(zhì)就在于它必須與數(shù)字環(huán)境甚至真實(shí)物理環(huán)境進(jìn)行高頻的感知和交互。

APEX-Agents基準(zhǔn)測(cè)試選擇徹底摒棄了以往“一問(wèn)一答”式的數(shù)學(xué)和編程考卷，取而代之的則是33個(gè)數(shù)據(jù)豐富的模擬世界（Worlds）。

每個(gè)世界都代表一個(gè)獨(dú)特的項(xiàng)目場(chǎng)景，其中平均包含166個(gè)文件并涉及9個(gè)以上的應(yīng)用程序工具。

對(duì)于模型來(lái)說(shuō)，這與大語(yǔ)言模型“紙上談兵”的交互方式截然不同。

它被投放在一個(gè)數(shù)字沙盒之中，但這次要面對(duì)的不是各種復(fù)雜的數(shù)學(xué)題和編程題，而是要像人類員工一樣在長(zhǎng)達(dá)數(shù)小時(shí)的任務(wù)鏈條中觀察環(huán)境變化、拆解復(fù)雜指令、調(diào)用各種工具并交付最終成果。

智能體時(shí)代初期的代碼執(zhí)行、PDF解析、電子表格標(biāo)簽操作等目標(biāo)，也變成了微小但容錯(cuò)率極低的中間環(huán)節(jié)。

這種評(píng)價(jià)標(biāo)準(zhǔn)的轉(zhuǎn)變，反映出了AGI門檻的實(shí)質(zhì)性變化：

它關(guān)心的不是模型知道什么，而是在復(fù)雜的環(huán)境下能做成什么。

為了模擬真實(shí)職場(chǎng)給人類帶來(lái)的“重力感”，APEX還下血本邀請(qǐng)了來(lái)自麥肯錫、高盛、思科等企業(yè)共256位擁有平均12.9年行業(yè)經(jīng)驗(yàn)的頂級(jí)專家。

這些專家不僅要基于專業(yè)知識(shí)給模型提出任務(wù)，還要給出明確的“過(guò)程準(zhǔn)則（Rubrics）”，讓評(píng)測(cè)從一場(chǎng)智力游戲徹底蛻變成生產(chǎn)力的挑戰(zhàn)。

被無(wú)情揭開(kāi)的性能“遮羞布”

面對(duì)APEX-Agents的Pass@1（一次通過(guò)率）排行榜結(jié)果，任何出于商業(yè)化目的鼓吹“AGI即將實(shí)現(xiàn)”的說(shuō)法都不攻自破。

數(shù)據(jù)展現(xiàn)出了令人冷靜的低迷，而這種低準(zhǔn)確率和高跑分結(jié)果形成了鮮明的對(duì)比，直接戳破了AGI的泡沫。

這項(xiàng)基準(zhǔn)測(cè)試的場(chǎng)景主要用于評(píng)估三個(gè)職位：企業(yè)律師、管理顧問(wèn)和投資銀行分析師。

報(bào)告顯示，全球AI三巨頭之一的Google旗下的Gemini 3 Flash在開(kāi)啟高度思考模式下，也只得到了24%的分?jǐn)?shù)。

同為三巨頭之一的GPT-5.2（High）也沒(méi)好到哪里去，以23%的分?jǐn)?shù)位居第二。

具體到細(xì)分的職業(yè)場(chǎng)景中，分?jǐn)?shù)也都不太理想，再先進(jìn)的模型也難以突破30%的門檻。

在這個(gè)情況下，討論哪個(gè)模型能力更強(qiáng)已經(jīng)意義不大。

關(guān)鍵的問(wèn)題在于，為什么以前使用體驗(yàn)很好的LLM在實(shí)際任務(wù)中表現(xiàn)得如此差勁？

APEX報(bào)告指出了幾個(gè)關(guān)鍵的失敗模式，而這正是大模型無(wú)法轉(zhuǎn)變?yōu)樯a(chǎn)力工具的最大限制：

死循環(huán)（Doom Looping）：模型在遇到工具調(diào)用失敗時(shí)，無(wú)法進(jìn)行有效的反思，而是反復(fù)嘗試同樣的錯(cuò)誤指令，直到消耗完預(yù)設(shè)的步數(shù)限制。因此，現(xiàn)階段的Agent仍然缺乏認(rèn)知能力。

流氓行為（Rogue Behavior）：GPT-5.2在測(cè)試中曾經(jīng)犯下大錯(cuò)，意外刪除了21個(gè)關(guān)鍵的生產(chǎn)文件。對(duì)于嚴(yán)謹(jǐn)?shù)慕鹑诤头深I(lǐng)域，這種誤操作必然招致災(zāi)難性的后果

長(zhǎng)時(shí)程規(guī)劃迷失：當(dāng)任務(wù)步驟超過(guò)了限制，模型的“意圖漂移（Intent Drift）”現(xiàn)象極為嚴(yán)重這也是Vibe Coding中最常見(jiàn)的情況，模型在任務(wù)執(zhí)行到一半時(shí)早已忘記了初始目標(biāo)。

若將嘗試次數(shù)放寬至8次（Pass@8），頂尖模型的得分能夠接近40%，但衡量穩(wěn)定性的指標(biāo)卻降到了最低6.5%，這就是當(dāng)前智能體的典型特征：具備潛力，但極不穩(wěn)定。

換句話說(shuō)，智能體能夠產(chǎn)出碎片化的有效信息，但難以完成閉環(huán)交付。

這些數(shù)據(jù)也揭示了一個(gè)被刻意掩蓋的真相：

現(xiàn)階段的智能體最多只能算是AGI的最初級(jí)形態(tài)。

那些鼓吹A(chǔ)GI進(jìn)度已經(jīng)完成大半的說(shuō)法，完全是基于靜態(tài)智商測(cè)試的商業(yè)包裝。

傳統(tǒng)LLM的性能瓶頸主要在于算力和參數(shù)量，而Agent時(shí)代的門檻已經(jīng)轉(zhuǎn)移到任務(wù)編排、狀態(tài)管理、錯(cuò)誤恢復(fù)和長(zhǎng)程規(guī)劃。

智能體連“可用”和“可靠”之間的鴻溝都無(wú)法跨越，更不要提“好用”，在復(fù)雜的工作流面前，AI依然顯得十分稚嫩。

成本的陷阱

在現(xiàn)有的Agent測(cè)評(píng)中，準(zhǔn)確率順理成章地成為了唯一的主角，但對(duì)商業(yè)落地具有決定性影響的token消耗成本往往無(wú)人提及。

眾所周知，Agent相比于LLM，消耗的token成本完全不在一個(gè)量級(jí)。

APEX報(bào)告提供的數(shù)據(jù)讓這種差距更加具象化：

以24%的Pass@1分?jǐn)?shù)領(lǐng)跑的Google最新模型Gemini 3 Flash單次任務(wù)平均消耗的token達(dá)到了531.5萬(wàn)，大約是GPT-5.2的5倍、Gemini 3 Pro的8倍。

然而，性能優(yōu)勢(shì)的差距只有1%。

這個(gè)數(shù)字已經(jīng)足以讓所有開(kāi)發(fā)者在做出決策前冷靜下來(lái)。

如果按照目前閉源模型的價(jià)格核算，完成一個(gè)復(fù)雜的投行任務(wù)，算力成本必然高達(dá)幾十美金。

即便不考慮模型部署的固定成本，AI的運(yùn)行成本也已經(jīng)逼近甚至超過(guò)了初級(jí)人類分析師的時(shí)薪。

目前智能體展現(xiàn)出來(lái)的較低水平的準(zhǔn)確率，本質(zhì)上也是建立在不計(jì)成本的暴力推理之上而實(shí)現(xiàn)的。

模型可以通過(guò)海量的思維鏈（CoT）和反復(fù)重試來(lái)?yè)Q取成功率，但在商業(yè)情境下，這兩種方式都不可能無(wú)限制使用。

因此，這種“高消耗+低增益”的邊際遞減效應(yīng)直接指向了一個(gè)產(chǎn)業(yè)級(jí)的命題：

在智能體時(shí)代，性價(jià)比必須與準(zhǔn)確率同等重要，甚至更具決定性。

未來(lái)的Agent基準(zhǔn)測(cè)試，必須引入基于token的投資回報(bào)率。

如果Agent無(wú)法實(shí)現(xiàn)低功耗、高精度的閉環(huán)，它就永遠(yuǎn)無(wú)法成為社會(huì)期待的通用基礎(chǔ)設(shè)施。

生態(tài)分化與商業(yè)格局

APEX報(bào)告中另一個(gè)值得關(guān)注的現(xiàn)象在于開(kāi)源模型在這場(chǎng)基準(zhǔn)測(cè)試中的全面潰敗。

在LLM時(shí)代，開(kāi)源模型憑借著參數(shù)量的擴(kuò)張和高質(zhì)量語(yǔ)料庫(kù)的預(yù)訓(xùn)練，在多項(xiàng)靜態(tài)基準(zhǔn)中已經(jīng)屢屢逼近甚至反超AI巨頭的上一代旗艦?zāi)Ｐ汀?/p>

但進(jìn)入Agent時(shí)代以后，“開(kāi)源平權(quán)”的敘事已經(jīng)接近失效。

盡管全球范圍內(nèi)的頂尖模型也做不到“可靠”，但閉源模型還是對(duì)開(kāi)源模型形成了降維打擊，像GPT-OSS-120B和Kimi K2的得分甚至低于5%。

但事實(shí)證明，面對(duì)長(zhǎng)時(shí)程規(guī)劃、嚴(yán)格指令遵循和工具調(diào)用的實(shí)戰(zhàn)任務(wù)時(shí)，這些開(kāi)源模型仍然處于不可用的狀態(tài)。

當(dāng)然，把這種落差單純歸因于基礎(chǔ)模型推理能力不足并不客觀，智能體能力的系統(tǒng)復(fù)合性也極為重要。

一個(gè)能穩(wěn)定執(zhí)行長(zhǎng)周期任務(wù)的Agent不僅需要底層模型具備強(qiáng)大的語(yǔ)言理解能力，還需要把軌跡優(yōu)化、狀態(tài)一致性等LLM時(shí)代容易被忽視的細(xì)節(jié)做得更完美。

閉環(huán)數(shù)據(jù)、大規(guī)模算力調(diào)度、端到端的技術(shù)棧，這些都是閉源廠商在智能體時(shí)代的商業(yè)命脈。

但開(kāi)源模型目前仍然停留在初期階段，缺少高質(zhì)量的行為對(duì)齊數(shù)據(jù)。

掌控了智能體的“辦事邏輯”和執(zhí)行軌跡，就等同于建立起一道堅(jiān)固的數(shù)據(jù)壁壘。

因此，LLM時(shí)代AI邏輯被顛覆的同時(shí)，我們也可以清晰地看到眼前的事實(shí)和未來(lái)的趨勢(shì)：

那些真正能放在智能體中“辦事”的模型，幾乎都不是免費(fèi)的。

存量數(shù)據(jù)正成為重大挑戰(zhàn)

無(wú)論是LLM的時(shí)代，還是Agent的時(shí)代，AI的三要素始終沒(méi)有變化：算法、算力和數(shù)據(jù)。

在上一篇文章中算力經(jīng)濟(jì)學(xué)的邏輯，在Agent時(shí)代徹底改寫(xiě)了，我們已經(jīng)說(shuō)過(guò)算力緊缺是客觀存在且短期內(nèi)不可改變的事實(shí)。

但智能體取代LLM成為新時(shí)代的AI形態(tài)的同時(shí)，一個(gè)根本性的挑戰(zhàn)也已經(jīng)擺在所有人的面前：

Agent能力的提升已經(jīng)陷入嚴(yán)重的數(shù)據(jù)饑渴。

字節(jié)跳動(dòng)震驚全球的Seedance 2.0成功案例已經(jīng)證明，在TikTok的加持下，憑借海量真實(shí)的視覺(jué)數(shù)據(jù)，即便算力相比Google和OpenAI處于劣勢(shì)，但仍然能超越Veo和Sora實(shí)現(xiàn)多模態(tài)領(lǐng)域的突破。

但這一套成功的邏輯并不能直接套用到智能體上，因?yàn)槲谋尽D像、音頻和視頻都是現(xiàn)實(shí)世界中在AI出現(xiàn)之前就已經(jīng)存在的“非結(jié)構(gòu)化”存量。

Agent執(zhí)行任務(wù)的邏輯與多模態(tài)模型不同，它是一套“人如何使用工具完成任務(wù)”的隱形邏輯。

顯然，這種邏輯在AI出現(xiàn)之前不可能被大規(guī)模數(shù)字化記錄。

人類如何打開(kāi)Excel、如何根據(jù)報(bào)錯(cuò)修改公式、如何在郵件中確認(rèn)需求，這些日常生活中最常見(jiàn)的情景，對(duì)于AI來(lái)說(shuō)極其復(fù)雜而且難以抽象。

互聯(lián)網(wǎng)上存在海量的高質(zhì)量文本數(shù)據(jù)，卻幾乎沒(méi)有高質(zhì)量的“任務(wù)執(zhí)行軌跡”。

事實(shí)上，黃仁勛在2024年的預(yù)言就精確命中了這個(gè)痛點(diǎn)：?jiǎn)渭円蕾嚞F(xiàn)有的數(shù)據(jù)堆砌無(wú)法支撐下一代AI的演進(jìn)。

和具身智能一樣，想要解決現(xiàn)階段智能體的瓶頸，必須構(gòu)建高保真的虛擬世界環(huán)境，并通過(guò)合成數(shù)據(jù)（Synthetic Data）技術(shù)生成高質(zhì)量的訓(xùn)練樣本。

APEX基準(zhǔn)測(cè)試中構(gòu)建的Archipelago基礎(chǔ)設(shè)施，實(shí)際上就是為了智能體專門提供的加速迭代試驗(yàn)場(chǎng)。

在這些虛擬環(huán)境中，Agent可以經(jīng)歷數(shù)百萬(wàn)次失敗和修正，模擬真實(shí)職場(chǎng)中難以復(fù)現(xiàn)的極端場(chǎng)景。

未來(lái)的AGI門檻，將不再是誰(shuí)閱讀過(guò)的互聯(lián)網(wǎng)文本更多，而是誰(shuí)在仿真環(huán)境里見(jiàn)過(guò)的行動(dòng)軌跡更豐富。

智能體訓(xùn)練的本質(zhì)仍是強(qiáng)化學(xué)習(xí)，而在沒(méi)有充足的“學(xué)習(xí)資料”的當(dāng)下，結(jié)果只能是嚴(yán)重的欠擬合。

APEX基準(zhǔn)測(cè)試不僅是一個(gè)技術(shù)指標(biāo)，還是一次對(duì)行業(yè)認(rèn)知的重塑。

人們應(yīng)該看清，我們距離真正的AI生產(chǎn)力革命還有多遠(yuǎn)。

原文標(biāo)題 : 從大模型到Agent的跨越難度，正被整個(gè)行業(yè)嚴(yán)重低估

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

圖片新聞