訂閱
糾錯(cuò)
加入自媒體

長(zhǎng)任務(wù)是檢驗(yàn)Agent水平的唯一標(biāo)準(zhǔn)

圖片

檢驗(yàn)Agent水平的唯一標(biāo)準(zhǔn)是長(zhǎng)任務(wù)。

這個(gè)判斷,建立在一個(gè)簡(jiǎn)單的事實(shí)上:短任務(wù)可以靠記憶完成,長(zhǎng)任務(wù)必須靠理解完成。短任務(wù)中,模型只需處理當(dāng)前輸入;長(zhǎng)任務(wù)中,模型需要保持上下文的連貫性,需要在數(shù)百步后還記得最初的意圖,需要在遇到異常時(shí)自主調(diào)整策略。

學(xué)術(shù)基準(zhǔn)的殘酷數(shù)據(jù)告訴我們,當(dāng)前最頂尖的Agent在長(zhǎng)任務(wù)中的通過(guò)率不足20%,而且隨著任務(wù)迭代,代碼質(zhì)量持續(xù)惡化。這不是一個(gè)可以通過(guò)增加參數(shù)量來(lái)解決的問(wèn)題,而是需要重新思考Agent架構(gòu),一個(gè)從上下文管理到工作流編排、從多智能體協(xié)作到縱深防御的系統(tǒng)性工程。

Claude與Codex的競(jìng)爭(zhēng),揭示了兩種不同的進(jìn)化路徑。Claude強(qiáng)化上下文容量與協(xié)作能力,Codex強(qiáng)化超人類(lèi)調(diào)試與自我進(jìn)化。這兩條路徑并不互斥。真正能夠攻克長(zhǎng)任務(wù)的Agent,可能同時(shí)需要兩者的優(yōu)勢(shì)。

而Token經(jīng)濟(jì)學(xué)的興起,則為長(zhǎng)任務(wù)提供了商業(yè)價(jià)值的錨點(diǎn)。當(dāng)Agent能夠完成人類(lèi)需要數(shù)小時(shí)甚至數(shù)天的復(fù)雜任務(wù),消耗百萬(wàn)級(jí)Token的成本就變得微不足道。問(wèn)題在于,如何讓Agent的完成率從20%提升到80%,如何讓代碼質(zhì)量在迭代中不退化,如何在不確定性中保持穩(wěn)定。

這些問(wèn)題沒(méi)有簡(jiǎn)單的答案。但有一點(diǎn)是確定的:在這個(gè)Agent元年的春天,長(zhǎng)任務(wù)能力不再是一個(gè)技術(shù)指標(biāo),而是區(qū)分“玩具”與“工具”的唯一標(biāo)準(zhǔn)。能完成長(zhǎng)任務(wù)的Agent,其Token才有價(jià)值,其商業(yè)模型才有意義,其存在才能重構(gòu)人類(lèi)的工作流與生活流。

01 

從短任務(wù)到長(zhǎng)任務(wù),Agent的成人禮

2026年被多方確認(rèn)為“智能體元年”。這個(gè)判斷背后的真實(shí)含義是:AI正在從“回答問(wèn)題的人”變成“完成任務(wù)的人”。第三波AI浪潮的核心是自主執(zhí)行,而不再是輔助性質(zhì)的Copilot。

這個(gè)轉(zhuǎn)變聽(tīng)起來(lái)簡(jiǎn)單,但它在工程層面的含義是顛覆性的。

過(guò)去兩年,大模型競(jìng)爭(zhēng)的核心敘事一直是模型能力本身:參數(shù)規(guī)模有多大,推理深度有多強(qiáng),復(fù)雜任務(wù)的單步完成率有多高。這些指標(biāo)在Chatbot時(shí)代是有效的,因?yàn)槟菚r(shí)候AI的角色是“回答者”,你問(wèn)一句,它答一句,任務(wù)在單輪交互中結(jié)束。

但當(dāng)AI開(kāi)始扮演“執(zhí)行者”,規(guī)則徹底改變了。一個(gè)稍微復(fù)雜的任務(wù),比如從零開(kāi)發(fā)一個(gè)網(wǎng)頁(yè)應(yīng)用,或者跨系統(tǒng)完成一份數(shù)據(jù)分析報(bào)告,需要幾十甚至上百個(gè)步驟:理解需求、拆解任務(wù)、調(diào)用工具、處理異常、驗(yàn)證結(jié)果、自我修正。每一步都可能出錯(cuò),每一步的錯(cuò)誤都會(huì)累積。

這意味著,短任務(wù)能力是各家模型都能做到的,它本質(zhì)上只是披著Agent外衣的編程自動(dòng)化。而長(zhǎng)任務(wù)能力,才是Agent真正的入門(mén)門(mén)檻,它考驗(yàn)的不僅僅是模型的推理能力,更是上下文管理的精度、工作流編排的韌性、以及對(duì)不確定性的處理能力。

2026年2月發(fā)布的LongCLI-Bench,專(zhuān)門(mén)測(cè)試Agent在真實(shí)開(kāi)發(fā)場(chǎng)景中的長(zhǎng)任務(wù)能力。評(píng)測(cè)集涵蓋了從零開(kāi)發(fā)、功能添加、錯(cuò)誤修復(fù)到代碼重構(gòu)四大工程類(lèi)別,每個(gè)任務(wù)都需要數(shù)十步的連續(xù)操作。

結(jié)果令人警醒:即使是最先進(jìn)的Agent,通過(guò)率也低于20%。更值得玩味的是失敗模式:大部分任務(wù)在完成度不到30%的階段就已停滯,關(guān)鍵失敗往往發(fā)生在早期階段。

這意味著當(dāng)前最頂尖的Agent,在面對(duì)真正的長(zhǎng)任務(wù)時(shí),連“開(kāi)個(gè)好頭”都做不到。

它們可以在單步任務(wù)中表現(xiàn)出驚人的能力,但當(dāng)任務(wù)的鏈條拉長(zhǎng)、依賴(lài)關(guān)系變得復(fù)雜、需要持續(xù)的上下文記憶和策略調(diào)整時(shí),它們就會(huì)迷失。

圖表:長(zhǎng)任務(wù)通過(guò)率對(duì)比;數(shù)據(jù)來(lái)源:LongCLI-Bench,2026年2月。即便最先進(jìn)的Agent,在長(zhǎng)任務(wù)基準(zhǔn)上的通過(guò)率仍不足20%。

另一項(xiàng)名為SlopCodeBench的研究揭示了更深層的問(wèn)題。該研究追蹤了Agent在迭代式任務(wù)中的表現(xiàn),發(fā)現(xiàn)了一個(gè)系統(tǒng)性的退化模式:隨著任務(wù)迭代次數(shù)的增加,Agent生成的代碼質(zhì)量持續(xù)下降。80%的軌跡中出現(xiàn)了結(jié)構(gòu)侵蝕,近90%的軌跡中冗余代碼比例上升。

研究團(tuán)隊(duì)對(duì)比了Agent代碼與48個(gè)開(kāi)源Python倉(cāng)庫(kù)中的代碼,發(fā)現(xiàn)Agent代碼的冗余度是人工代碼的2.2倍,結(jié)構(gòu)侵蝕程度也明顯更嚴(yán)重。當(dāng)追蹤20個(gè)代碼倉(cāng)庫(kù)隨時(shí)間的演變時(shí),人類(lèi)代碼的質(zhì)量保持穩(wěn)定,而Agent代碼隨著每次迭代都在惡化。

圖表:Agent代碼冗余度隨迭代次數(shù)持續(xù)上升,而人類(lèi)代碼保持穩(wěn)定。數(shù)據(jù)來(lái)源:SlopCodeBench,2026年3月。

這一發(fā)現(xiàn)揭示了一個(gè)根本性的問(wèn)題:當(dāng)前的Agent缺乏那種在復(fù)雜任務(wù)中保持結(jié)構(gòu)一致性、不被短期需求帶偏的能力。而這種能力,恰恰是長(zhǎng)任務(wù)成功的核心。

02

Claude與Codex,兩條通往長(zhǎng)任務(wù)的路

在AI編程工具的競(jìng)技場(chǎng)上,Claude和Codex的競(jìng)爭(zhēng)是觀察Agent能力演進(jìn)的最佳窗口。

2026年2月5日,Anthropic與OpenAI同日發(fā)布了各自的王牌模型:Claude Opus 4.6與GPT-5.3-Codex。這場(chǎng)正面交鋒,表面上是一場(chǎng)性能競(jìng)賽,實(shí)質(zhì)上是對(duì)Agent核心能力的兩種不同理解。

Claude的路線(xiàn):長(zhǎng)上下文與團(tuán)隊(duì)協(xié)作

Claude Opus 4.6最關(guān)鍵的升級(jí)是上下文窗口從20萬(wàn)token直接躍升至100萬(wàn)token。這意味著你可以把整個(gè)項(xiàng)目的代碼庫(kù)一次性喂給它,它能同時(shí)看到項(xiàng)目里所有文件,理解整體架構(gòu)。

但真正的殺手锏并非單純的長(zhǎng)上下文,而是Anthropic在“上下文拆分”上的精細(xì)設(shè)計(jì)。前OpenAI Codex核心研發(fā)者Calvin French-Owen在一檔播客中直言,Claude Code最厲害的地方,就是其上下文拆分能力。

當(dāng)面對(duì)復(fù)雜任務(wù)時(shí),Claude Code會(huì)自動(dòng)生成多個(gè)探索型子智能體,這些子智能體會(huì)通過(guò)工具掃描整個(gè)文件系統(tǒng)、檢索相關(guān)內(nèi)容,而且每個(gè)子智能體都有獨(dú)立的上下文窗口。完成任務(wù)后,它們會(huì)將關(guān)鍵信息匯總反饋給主智能體。

這種設(shè)計(jì)的意義在于顯著降低了“上下文噪音”。

在代碼倉(cāng)庫(kù)這樣信息密度極高的環(huán)境中,不是所有信息都同等重要。Claude的策略是讓專(zhuān)門(mén)的子智能體去探索、篩選、總結(jié),然后只將最關(guān)鍵的信息傳遞給主智能體。這種分工協(xié)作的模式,使主智能體能夠?qū)W⒂诟邔記Q策,而不會(huì)被底層細(xì)節(jié)淹沒(méi)。

圖表:上下文容量提升5倍,關(guān)鍵信息檢索能力提升4倍。(Claude Opus 4.6 vs 前代);數(shù)據(jù)來(lái)源:Anthropic官方技術(shù)報(bào)告。

Codex的路線(xiàn):超人類(lèi)調(diào)試與自我進(jìn)化

相比之下,OpenAI的GPT-5.3-Codex選擇了另一條路。Calvin French-Owen的評(píng)價(jià)是:Codex很有“個(gè)性”,像AlphaGo,在調(diào)試復(fù)雜問(wèn)題時(shí)的表現(xiàn)堪稱(chēng)超人類(lèi),很多Opus模型解決不了的問(wèn)題,Codex都能搞定。

Codex的核心優(yōu)勢(shì)在于其“自我構(gòu)建”能力。它是OpenAI第一個(gè)幫助構(gòu)建自己的模型。Codex團(tuán)隊(duì)用Codex來(lái)調(diào)試自己的訓(xùn)練過(guò)程、管理自己的部署、診斷測(cè)試結(jié)果和評(píng)估。這種“AI自己造AI”的反饋循環(huán),意味著進(jìn)化速度會(huì)越來(lái)越快。

在產(chǎn)品理念上,OpenAI更關(guān)注做出最強(qiáng)的大模型(即AGI)。這體現(xiàn)在Codex的設(shè)計(jì)中:它不追求最優(yōu)雅的交互,不追求最透明的決策過(guò)程,它追求的是在最困難的調(diào)試場(chǎng)景中,找到人類(lèi)找不到的解決方案。

兩種路線(xiàn)的本質(zhì)

Claude和Codex的競(jìng)爭(zhēng),揭示了Agent核心能力的兩個(gè)維度。

第一個(gè)維度是上下文容量。Claude Opus 4.6在MRCR v2測(cè)試(專(zhuān)門(mén)測(cè)試AI在海量文本中找信息的能力)中得分76%,而Sonnet 4.5只有18.5%。這76%對(duì)18.5%的差距,不是量變,是質(zhì)變。它意味著Agent能否在長(zhǎng)任務(wù)中記住早期階段的關(guān)鍵信息,能否在任務(wù)推進(jìn)數(shù)百步后仍然不丟失最初的目標(biāo)。

第二個(gè)維度是上下文質(zhì)量。Calvin French-Owen分享了一個(gè)非常實(shí)用的經(jīng)驗(yàn):當(dāng)上下文token占用超過(guò)50%時(shí),他會(huì)主動(dòng)清理。他用一種“金絲雀檢測(cè)”方法——在上下文里埋入一些無(wú)關(guān)但可驗(yàn)證的小信息,一旦模型開(kāi)始遺忘,說(shuō)明上下文已經(jīng)被污染。

這兩個(gè)維度的結(jié)合,構(gòu)成了Agent長(zhǎng)任務(wù)能力的核心公式:

長(zhǎng)任務(wù)能力 = 上下文容量 × 上下文質(zhì)量

僅有容量,沒(méi)有質(zhì)量,Agent會(huì)在信息的汪洋中迷失;僅有質(zhì)量,沒(méi)有容量,Agent無(wú)法處理真正的復(fù)雜任務(wù)。

03

能完成長(zhǎng)任務(wù)的Agent,其Token才有價(jià)值

當(dāng)Agent開(kāi)始執(zhí)行長(zhǎng)任務(wù),Token的角色從技術(shù)副產(chǎn)品轉(zhuǎn)變?yōu)閼?zhàn)略資產(chǎn)。

Token正在成為AI時(shí)代的“新大宗商品”,標(biāo)準(zhǔn)化、可計(jì)量、可交易。無(wú)問(wèn)芯穹聯(lián)合創(chuàng)始人夏立雪的體驗(yàn)很有代表性:從2026年1月開(kāi)始,公司Token消耗每?jī)芍芊环,至今已?jīng)翻了10倍。

這種增長(zhǎng)速度,上一次出現(xiàn)還是在3G手機(jī)流量時(shí)代。但兩者的含義完全不同:3G流量的增長(zhǎng)代表用戶(hù)行為的遷移,Token消耗的增長(zhǎng)代表經(jīng)濟(jì)活動(dòng)本身的AI化。

錦緞研究院早在 2025 年就敏銳地捕捉到了這一趨勢(shì),在其文章《Token 將成為未來(lái)世界最重要資源》中率先提出了“Token 經(jīng)濟(jì)學(xué)”的概念框架,指出 Token 將作為衡量智能時(shí)代價(jià)值的基本單位,重塑資源配置的邏輯。

2026年GTC大會(huì)上,黃仁勛正式提出“Token經(jīng)濟(jì)學(xué)”概念,讓這一概念被更廣泛地認(rèn)知。Agent當(dāng)下已經(jīng)成為大模型最核心的工作負(fù)載,Token則是驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)的核心生產(chǎn)要素。國(guó)家數(shù)據(jù)局在2026年3月將Token的官方翻譯定為“詞元”,并指出其是“智能時(shí)代的價(jià)值錨點(diǎn)”。

Token消耗與任務(wù)長(zhǎng)度之間存在正相關(guān)關(guān)系。但更重要的是,Token的價(jià)值密度隨著任務(wù)長(zhǎng)度而增加。

圖表4:長(zhǎng)任務(wù)Token消耗量級(jí)對(duì)比,長(zhǎng)任務(wù)Token消耗可達(dá)百萬(wàn)級(jí),是短任務(wù)的數(shù)十甚至數(shù)百倍。

在短任務(wù)場(chǎng)景中,Token的價(jià)值是線(xiàn)性的:1000個(gè)Token完成一個(gè)問(wèn)答,價(jià)值有限。但在長(zhǎng)任務(wù)場(chǎng)景中,Token的價(jià)值是指數(shù)級(jí)的:百萬(wàn)級(jí)Token完成一個(gè)完整的軟件開(kāi)發(fā)任務(wù),其產(chǎn)出可能是數(shù)萬(wàn)美元的商業(yè)價(jià)值。

這解釋了為什么商業(yè)模式正在從訂閱制向Token制遷移。

但這同時(shí)也帶來(lái)了新的挑戰(zhàn)。一旦Agent高頻自動(dòng)運(yùn)轉(zhuǎn),不可控的龐大算力消耗讓企業(yè)客戶(hù)難以承受成本壓力。

這意味著,長(zhǎng)任務(wù)的商業(yè)價(jià)值不僅體現(xiàn)在它能完成什么,還體現(xiàn)在它消耗多少Token——以及這些Token的定價(jià)權(quán)掌握在誰(shuí)手中。

AI對(duì)SaaS賽道最深遠(yuǎn)的沖擊,是對(duì)其底層按坐席收費(fèi)模式的結(jié)構(gòu)性瓦解。AI作為數(shù)字勞動(dòng)力,客觀具備消減人類(lèi)工作量的屬性,這直接威脅了傳統(tǒng)SaaS賴(lài)以生存的年度經(jīng)常性收入增長(zhǎng)邏輯。

圖表:Agent商業(yè)模式遷移:License → Token → 結(jié)果付費(fèi)。長(zhǎng)任務(wù)的價(jià)值錨定是這一遷移的關(guān)鍵。來(lái)源:錦緞研究院

行業(yè)的終局愿景,是邁向按業(yè)務(wù)價(jià)值或最終結(jié)果付費(fèi)的模式。但這一模式面臨一個(gè)根本性的度量難題:當(dāng)任務(wù)足夠長(zhǎng)、足夠復(fù)雜,AI的貢獻(xiàn)與人類(lèi)的貢獻(xiàn)便深度交織、難以分割。這種價(jià)值歸因的困境,并非某個(gè)特定場(chǎng)景下的技術(shù)問(wèn)題,而是智能體商業(yè)模式必須面對(duì)的核心命題。

這些問(wèn)題沒(méi)有現(xiàn)成的答案。

但可以肯定的是,在智能體元年的春天,對(duì)長(zhǎng)任務(wù)能力的探索,不再僅僅是技術(shù)指標(biāo)的角逐,而是決定AI能否從“玩具”蛻變?yōu)?ldquo;工具”的關(guān)鍵一躍。

圍繞上下文容量與質(zhì)量、多智能體協(xié)作、縱深防御的編排系統(tǒng)以及Token經(jīng)濟(jì)學(xué)的持續(xù)創(chuàng)新,正共同描繪著這幅從“回答問(wèn)題”到“完成任務(wù)”的宏大圖景。這場(chǎng)變革的終局,將深刻地重塑我們與數(shù)字世界互動(dòng)的方式,以及商業(yè)價(jià)值創(chuàng)造的底層邏輯。

       原文標(biāo)題 : 長(zhǎng)任務(wù)是檢驗(yàn)Agent水平的唯一標(biāo)準(zhǔn)

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)