訂閱
糾錯(cuò)
加入自媒體

從大模型到Agent的跨越難度,正被整個(gè)行業(yè)嚴(yán)重低估

過(guò)去兩年,AI 敘事的坐標(biāo)系近乎失準(zhǔn)。

MMLU、HumanEval 這類靜態(tài)指標(biāo)像高考榜單一樣被反復(fù)張貼,不斷刷新的數(shù)字仿佛宣告通用人工智能已抵近終點(diǎn)線。

然而,一種名為APEXAgents的新基準(zhǔn)戳破了這層幻象。

它揭示的并非模型智商的線性進(jìn)步,而是一個(gè)殘酷的悖論:當(dāng) AI 試圖從“回答問(wèn)題”跨越到“完成工作”時(shí),能力的提升正陷入嚴(yán)重的數(shù)據(jù)饑渴。

從LLM(語(yǔ)言大模型)到Agent的轉(zhuǎn)向,不是版本的升級(jí),而是一次從靜態(tài)智力到動(dòng)態(tài)生產(chǎn)力的范式轉(zhuǎn)移。其跨越難度,被整個(gè)行業(yè)嚴(yán)重低估。

01 

評(píng)測(cè)權(quán)杖的交接

在過(guò)去的三年中,LLM一直是AI的主要形態(tài)。

那時(shí),人們?cè)u(píng)測(cè)模型的重心在于“智商”,也就是模型能夠掌握多少靜態(tài)知識(shí)、能否正確進(jìn)行邏輯推導(dǎo)。

但隨著AI的形態(tài)在不到半年間從LLM全面過(guò)渡到Agent,評(píng)測(cè)的權(quán)杖也必須發(fā)生交接。

Agent的核心本質(zhì)就在于它必須與數(shù)字環(huán)境甚至真實(shí)物理環(huán)境進(jìn)行高頻的感知和交互。

APEX-Agents基準(zhǔn)測(cè)試選擇徹底摒棄了以往“一問(wèn)一答”式的數(shù)學(xué)和編程考卷,取而代之的則是33個(gè)數(shù)據(jù)豐富的模擬世界(Worlds)。

每個(gè)世界都代表一個(gè)獨(dú)特的項(xiàng)目場(chǎng)景,其中平均包含166個(gè)文件并涉及9個(gè)以上的應(yīng)用程序工具。

對(duì)于模型來(lái)說(shuō),這與大語(yǔ)言模型“紙上談兵”的交互方式截然不同。

它被投放在一個(gè)數(shù)字沙盒之中,但這次要面對(duì)的不是各種復(fù)雜的數(shù)學(xué)題和編程題,而是要像人類員工一樣在長(zhǎng)達(dá)數(shù)小時(shí)的任務(wù)鏈條中觀察環(huán)境變化、拆解復(fù)雜指令、調(diào)用各種工具并交付最終成果。

智能體時(shí)代初期的代碼執(zhí)行、PDF解析、電子表格標(biāo)簽操作等目標(biāo),也變成了微小但容錯(cuò)率極低的中間環(huán)節(jié)。

這種評(píng)價(jià)標(biāo)準(zhǔn)的轉(zhuǎn)變,反映出了AGI門檻的實(shí)質(zhì)性變化:

它關(guān)心的不是模型知道什么,而是在復(fù)雜的環(huán)境下能做成什么。

為了模擬真實(shí)職場(chǎng)給人類帶來(lái)的“重力感”,APEX還下血本邀請(qǐng)了來(lái)自麥肯錫、高盛、思科等企業(yè)共256位擁有平均12.9年行業(yè)經(jīng)驗(yàn)的頂級(jí)專家。

這些專家不僅要基于專業(yè)知識(shí)給模型提出任務(wù),還要給出明確的“過(guò)程準(zhǔn)則(Rubrics)”,讓評(píng)測(cè)從一場(chǎng)智力游戲徹底蛻變成生產(chǎn)力的挑戰(zhàn)。

02 

被無(wú)情揭開(kāi)的性能“遮羞布”

面對(duì)APEX-Agents的Pass@1(一次通過(guò)率)排行榜結(jié)果,任何出于商業(yè)化目的鼓吹“AGI即將實(shí)現(xiàn)”的說(shuō)法都不攻自破。

數(shù)據(jù)展現(xiàn)出了令人冷靜的低迷,而這種低準(zhǔn)確率和高跑分結(jié)果形成了鮮明的對(duì)比,直接戳破了AGI的泡沫。

這項(xiàng)基準(zhǔn)測(cè)試的場(chǎng)景主要用于評(píng)估三個(gè)職位:企業(yè)律師、管理顧問(wèn)和投資銀行分析師。

報(bào)告顯示,全球AI三巨頭之一的Google旗下的Gemini 3 Flash在開(kāi)啟高度思考模式下,也只得到了24%的分?jǐn)?shù)。

同為三巨頭之一的GPT-5.2(High)也沒(méi)好到哪里去,以23%的分?jǐn)?shù)位居第二。

具體到細(xì)分的職業(yè)場(chǎng)景中,分?jǐn)?shù)也都不太理想,再先進(jìn)的模型也難以突破30%的門檻。

在這個(gè)情況下,討論哪個(gè)模型能力更強(qiáng)已經(jīng)意義不大。

關(guān)鍵的問(wèn)題在于,為什么以前使用體驗(yàn)很好的LLM在實(shí)際任務(wù)中表現(xiàn)得如此差勁?

APEX報(bào)告指出了幾個(gè)關(guān)鍵的失敗模式,而這正是大模型無(wú)法轉(zhuǎn)變?yōu)樯a(chǎn)力工具的最大限制:

死循環(huán)(Doom Looping):模型在遇到工具調(diào)用失敗時(shí),無(wú)法進(jìn)行有效的反思,而是反復(fù)嘗試同樣的錯(cuò)誤指令,直到消耗完預(yù)設(shè)的步數(shù)限制。因此,現(xiàn)階段的Agent仍然缺乏認(rèn)知能力。

流氓行為(Rogue Behavior):GPT-5.2在測(cè)試中曾經(jīng)犯下大錯(cuò),意外刪除了21個(gè)關(guān)鍵的生產(chǎn)文件。對(duì)于嚴(yán)謹(jǐn)?shù)慕鹑诤头深I(lǐng)域,這種誤操作必然招致災(zāi)難性的后果

長(zhǎng)時(shí)程規(guī)劃迷失:當(dāng)任務(wù)步驟超過(guò)了限制,模型的“意圖漂移(Intent Drift)”現(xiàn)象極為嚴(yán)重這也是Vibe Coding中最常見(jiàn)的情況,模型在任務(wù)執(zhí)行到一半時(shí)早已忘記了初始目標(biāo)。

若將嘗試次數(shù)放寬至8次(Pass@8),頂尖模型的得分能夠接近40%,但衡量穩(wěn)定性的指標(biāo)卻降到了最低6.5%,這就是當(dāng)前智能體的典型特征:具備潛力,但極不穩(wěn)定。

換句話說(shuō),智能體能夠產(chǎn)出碎片化的有效信息,但難以完成閉環(huán)交付。

這些數(shù)據(jù)也揭示了一個(gè)被刻意掩蓋的真相:

現(xiàn)階段的智能體最多只能算是AGI的最初級(jí)形態(tài)。

那些鼓吹A(chǔ)GI進(jìn)度已經(jīng)完成大半的說(shuō)法,完全是基于靜態(tài)智商測(cè)試的商業(yè)包裝。

傳統(tǒng)LLM的性能瓶頸主要在于算力和參數(shù)量,而Agent時(shí)代的門檻已經(jīng)轉(zhuǎn)移到任務(wù)編排、狀態(tài)管理、錯(cuò)誤恢復(fù)和長(zhǎng)程規(guī)劃。

智能體連“可用”和“可靠”之間的鴻溝都無(wú)法跨越,更不要提“好用”,在復(fù)雜的工作流面前,AI依然顯得十分稚嫩。

03 

成本的陷阱

在現(xiàn)有的Agent測(cè)評(píng)中,準(zhǔn)確率順理成章地成為了唯一的主角,但對(duì)商業(yè)落地具有決定性影響的token消耗成本往往無(wú)人提及。

眾所周知,Agent相比于LLM,消耗的token成本完全不在一個(gè)量級(jí)。

APEX報(bào)告提供的數(shù)據(jù)讓這種差距更加具象化:

以24%的Pass@1分?jǐn)?shù)領(lǐng)跑的Google最新模型Gemini 3 Flash單次任務(wù)平均消耗的token達(dá)到了531.5萬(wàn),大約是GPT-5.2的5倍、Gemini 3 Pro的8倍。

然而,性能優(yōu)勢(shì)的差距只有1%。

這個(gè)數(shù)字已經(jīng)足以讓所有開(kāi)發(fā)者在做出決策前冷靜下來(lái)。

如果按照目前閉源模型的價(jià)格核算,完成一個(gè)復(fù)雜的投行任務(wù),算力成本必然高達(dá)幾十美金。

即便不考慮模型部署的固定成本,AI的運(yùn)行成本也已經(jīng)逼近甚至超過(guò)了初級(jí)人類分析師的時(shí)薪。

目前智能體展現(xiàn)出來(lái)的較低水平的準(zhǔn)確率,本質(zhì)上也是建立在不計(jì)成本的暴力推理之上而實(shí)現(xiàn)的。

模型可以通過(guò)海量的思維鏈(CoT)和反復(fù)重試來(lái)?yè)Q取成功率,但在商業(yè)情境下,這兩種方式都不可能無(wú)限制使用。

因此,這種“高消耗+低增益”的邊際遞減效應(yīng)直接指向了一個(gè)產(chǎn)業(yè)級(jí)的命題:

在智能體時(shí)代,性價(jià)比必須與準(zhǔn)確率同等重要,甚至更具決定性。

未來(lái)的Agent基準(zhǔn)測(cè)試,必須引入基于token的投資回報(bào)率。

如果Agent無(wú)法實(shí)現(xiàn)低功耗、高精度的閉環(huán),它就永遠(yuǎn)無(wú)法成為社會(huì)期待的通用基礎(chǔ)設(shè)施。

04 

生態(tài)分化與商業(yè)格局

APEX報(bào)告中另一個(gè)值得關(guān)注的現(xiàn)象在于開(kāi)源模型在這場(chǎng)基準(zhǔn)測(cè)試中的全面潰敗。

在LLM時(shí)代,開(kāi)源模型憑借著參數(shù)量的擴(kuò)張和高質(zhì)量語(yǔ)料庫(kù)的預(yù)訓(xùn)練,在多項(xiàng)靜態(tài)基準(zhǔn)中已經(jīng)屢屢逼近甚至反超AI巨頭的上一代旗艦?zāi)P汀?/p>

但進(jìn)入Agent時(shí)代以后,“開(kāi)源平權(quán)”的敘事已經(jīng)接近失效。

盡管全球范圍內(nèi)的頂尖模型也做不到“可靠”,但閉源模型還是對(duì)開(kāi)源模型形成了降維打擊,像GPT-OSS-120B和Kimi K2的得分甚至低于5%。

但事實(shí)證明,面對(duì)長(zhǎng)時(shí)程規(guī)劃、嚴(yán)格指令遵循和工具調(diào)用的實(shí)戰(zhàn)任務(wù)時(shí),這些開(kāi)源模型仍然處于不可用的狀態(tài)。

當(dāng)然,把這種落差單純歸因于基礎(chǔ)模型推理能力不足并不客觀,智能體能力的系統(tǒng)復(fù)合性也極為重要。

一個(gè)能穩(wěn)定執(zhí)行長(zhǎng)周期任務(wù)的Agent不僅需要底層模型具備強(qiáng)大的語(yǔ)言理解能力,還需要把軌跡優(yōu)化、狀態(tài)一致性等LLM時(shí)代容易被忽視的細(xì)節(jié)做得更完美。

閉環(huán)數(shù)據(jù)、大規(guī)模算力調(diào)度、端到端的技術(shù)棧,這些都是閉源廠商在智能體時(shí)代的商業(yè)命脈。

但開(kāi)源模型目前仍然停留在初期階段,缺少高質(zhì)量的行為對(duì)齊數(shù)據(jù)。

掌控了智能體的“辦事邏輯”和執(zhí)行軌跡,就等同于建立起一道堅(jiān)固的數(shù)據(jù)壁壘。

因此,LLM時(shí)代AI邏輯被顛覆的同時(shí),我們也可以清晰地看到眼前的事實(shí)和未來(lái)的趨勢(shì):

那些真正能放在智能體中“辦事”的模型,幾乎都不是免費(fèi)的。

05 

存量數(shù)據(jù)正成為重大挑戰(zhàn)

無(wú)論是LLM的時(shí)代,還是Agent的時(shí)代,AI的三要素始終沒(méi)有變化:算法、算力和數(shù)據(jù)。

在上一篇文章中算力經(jīng)濟(jì)學(xué)的邏輯,在Agent時(shí)代徹底改寫(xiě)了,我們已經(jīng)說(shuō)過(guò)算力緊缺是客觀存在且短期內(nèi)不可改變的事實(shí)。

但智能體取代LLM成為新時(shí)代的AI形態(tài)的同時(shí),一個(gè)根本性的挑戰(zhàn)也已經(jīng)擺在所有人的面前:

Agent能力的提升已經(jīng)陷入嚴(yán)重的數(shù)據(jù)饑渴。

字節(jié)跳動(dòng)震驚全球的Seedance 2.0成功案例已經(jīng)證明,在TikTok的加持下,憑借海量真實(shí)的視覺(jué)數(shù)據(jù),即便算力相比Google和OpenAI處于劣勢(shì),但仍然能超越Veo和Sora實(shí)現(xiàn)多模態(tài)領(lǐng)域的突破。

但這一套成功的邏輯并不能直接套用到智能體上,因?yàn)槲谋尽D像、音頻和視頻都是現(xiàn)實(shí)世界中在AI出現(xiàn)之前就已經(jīng)存在的“非結(jié)構(gòu)化”存量。

Agent執(zhí)行任務(wù)的邏輯與多模態(tài)模型不同,它是一套“人如何使用工具完成任務(wù)”的隱形邏輯。

顯然,這種邏輯在AI出現(xiàn)之前不可能被大規(guī)模數(shù)字化記錄。

人類如何打開(kāi)Excel、如何根據(jù)報(bào)錯(cuò)修改公式、如何在郵件中確認(rèn)需求,這些日常生活中最常見(jiàn)的情景,對(duì)于AI來(lái)說(shuō)極其復(fù)雜而且難以抽象。

互聯(lián)網(wǎng)上存在海量的高質(zhì)量文本數(shù)據(jù),卻幾乎沒(méi)有高質(zhì)量的“任務(wù)執(zhí)行軌跡”。

事實(shí)上,黃仁勛在2024年的預(yù)言就精確命中了這個(gè)痛點(diǎn):?jiǎn)渭円蕾嚞F(xiàn)有的數(shù)據(jù)堆砌無(wú)法支撐下一代AI的演進(jìn)。

和具身智能一樣,想要解決現(xiàn)階段智能體的瓶頸,必須構(gòu)建高保真的虛擬世界環(huán)境,并通過(guò)合成數(shù)據(jù)(Synthetic Data)技術(shù)生成高質(zhì)量的訓(xùn)練樣本。

APEX基準(zhǔn)測(cè)試中構(gòu)建的Archipelago基礎(chǔ)設(shè)施,實(shí)際上就是為了智能體專門提供的加速迭代試驗(yàn)場(chǎng)。

在這些虛擬環(huán)境中,Agent可以經(jīng)歷數(shù)百萬(wàn)次失敗和修正,模擬真實(shí)職場(chǎng)中難以復(fù)現(xiàn)的極端場(chǎng)景。

未來(lái)的AGI門檻,將不再是誰(shuí)閱讀過(guò)的互聯(lián)網(wǎng)文本更多,而是誰(shuí)在仿真環(huán)境里見(jiàn)過(guò)的行動(dòng)軌跡更豐富。

智能體訓(xùn)練的本質(zhì)仍是強(qiáng)化學(xué)習(xí),而在沒(méi)有充足的“學(xué)習(xí)資料”的當(dāng)下,結(jié)果只能是嚴(yán)重的欠擬合。

APEX基準(zhǔn)測(cè)試不僅是一個(gè)技術(shù)指標(biāo),還是一次對(duì)行業(yè)認(rèn)知的重塑。

人們應(yīng)該看清,我們距離真正的AI生產(chǎn)力革命還有多遠(yuǎn)。

       原文標(biāo)題 : 從大模型到Agent的跨越難度,正被整個(gè)行業(yè)嚴(yán)重低估

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)