訂閱
糾錯(cuò)
加入自媒體

豆包深入手機(jī),千問(wèn)押注眼鏡,誰(shuí)能爭(zhēng)奪 Agent 的“開機(jī)鍵”?

Agent時(shí)代的入口之爭(zhēng),豆包和千問(wèn)各入一門

“工具在使用者手中時(shí)才成為工具。”海德格爾的這段話,今天用來(lái)理解AI硬件同樣貼切。

問(wèn)題在于,大模型這只“手”伸出來(lái)的時(shí)候,用戶究竟愿意把它握在掌心里(手機(jī)),還是架在鼻梁上(眼鏡),亦或是讓它一直貼耳傾聽(耳機(jī))?

據(jù)《Z Finance》獨(dú)家報(bào)道,字節(jié)跳動(dòng)內(nèi)部決定暫停豆包AI眼鏡項(xiàng)目。想要理解這場(chǎng)選擇,需要先回答一個(gè)更基礎(chǔ)的問(wèn)題:大模型公司為什么要做硬件?

據(jù)《晚點(diǎn)LatePost》的報(bào)道,火山引擎豆包大模型日均調(diào)用量已超過(guò)120萬(wàn)億Token,半年增長(zhǎng)4倍。國(guó)家數(shù)據(jù)局的數(shù)據(jù)顯示,中國(guó)日均Token消耗量在一年半內(nèi)增長(zhǎng)約300倍。黃仁勛在GTC 2026的舞臺(tái)上說(shuō),Token將是未來(lái)數(shù)字世界最核心的大宗商品。

但Token消耗的暴漲,反而掩蓋了一個(gè)更根本的問(wèn)題,即這些Token從哪里被觸發(fā),通過(guò)什么界面進(jìn)入用戶的生活?

過(guò)去兩年,這個(gè)問(wèn)題的答案是手機(jī)屏幕和對(duì)話框。OpenClaw的爆火將Agent從開發(fā)者工具推向大眾用戶,直接推高了對(duì)“隨時(shí)隨地觸發(fā)AI執(zhí)行”這一能力的需求密度。當(dāng)大模型的競(jìng)爭(zhēng)從生成式問(wèn)答轉(zhuǎn)向執(zhí)行任務(wù),執(zhí)行鏈路就需要一個(gè)更靠近用戶身體的物理錨點(diǎn)。

豆包選擇的落點(diǎn)是操作系統(tǒng),以“操作系統(tǒng)級(jí)合作”模式切入AI手機(jī)賽道,通過(guò)與手機(jī)廠商在系統(tǒng)層面合作,獲得識(shí)別屏幕UI元素、模擬人工操作的核心權(quán)限;千問(wèn)選擇的是眼鏡,千問(wèn)AI眼鏡上線首批“AI辦事”能力后,支持話費(fèi)充值、掃碼騎車、停車?yán)U費(fèi)、語(yǔ)音點(diǎn)外賣。這些功能的共同特征是,AI開始在真實(shí)世界里把事情做完。

兩條路徑的本質(zhì),是兩家公司對(duì)同一個(gè)問(wèn)題給出的不同工程答案:究竟改由誰(shuí)來(lái)做Agent執(zhí)行鏈路的物理接口。

兩種優(yōu)勢(shì)的兩種延伸

大模型公司做硬件,實(shí)際上是在回答一個(gè)從Token經(jīng)濟(jì)學(xué)中衍生出來(lái)的問(wèn)題。

過(guò)去兩年的AI競(jìng)爭(zhēng),核心戰(zhàn)場(chǎng)在模型能力和價(jià)格。價(jià)格戰(zhàn)把Token單價(jià)從三年前的高點(diǎn)壓低了約300倍。但單價(jià)的崩塌沒(méi)有讓AI支出變得可預(yù)測(cè),原因很簡(jiǎn)單:Agent類應(yīng)用讓單次任務(wù)的Token消耗從普通對(duì)話的幾十倍起跳。據(jù)騰訊科技報(bào)道,亞太區(qū)電商技術(shù)公司Branch8的6人團(tuán)隊(duì),啟用Claude Code第一個(gè)月花了2400美元,經(jīng)過(guò)八周密集優(yōu)化才勉強(qiáng)降到680美元。Token支出管理本身已經(jīng)變成了一項(xiàng)需要專門技能的工作。

這個(gè)成本結(jié)構(gòu),在源頭上改寫了很多AI產(chǎn)品的競(jìng)爭(zhēng)邏輯。誰(shuí)掌握了Agent的觸發(fā)入口,誰(shuí)就掌握了Token消耗的源頭。而觸發(fā)入口的密度,取決于設(shè)備離用戶有多近、啟動(dòng)摩擦力有多低。這是豆包和千問(wèn)同時(shí)轉(zhuǎn)向硬件的真實(shí)驅(qū)動(dòng)力:在Token消耗鏈路的最前端建立一個(gè)物理節(jié)點(diǎn)。

千問(wèn)AI眼鏡的團(tuán)隊(duì)跟蹤了一個(gè)指標(biāo)——用戶交互輪次,即AI幫助用戶完成事項(xiàng)的頻率?淇搜坨RS1上線后,用戶交互數(shù)對(duì)比第三方手機(jī)AI助手應(yīng)用提升了約6倍。戴在臉上的AI之所以被調(diào)用得更頻繁,原因在于感知始終在線、啟動(dòng)摩擦力趨近于零。

對(duì)于Agent而言,這種持續(xù)在場(chǎng)的交互密度,意味著更豐富的上下文積累,也意味著更多執(zhí)行任務(wù)的觸發(fā)機(jī)會(huì)。

2026年4月,千問(wèn)AI眼鏡首次OTA升級(jí)后上線了“AI辦事”能力,通過(guò)接入淘寶閃購(gòu)、支付寶,支持話費(fèi)充值、掃碼騎車、停車?yán)U費(fèi)、語(yǔ)音點(diǎn)外賣。產(chǎn)品定義由此發(fā)生轉(zhuǎn)移:AI從回答問(wèn)題,變成了把事情辦完。

豆包確定的路徑同樣深入,只是方向不同。去年12月,豆包AI手機(jī)助手以“操作系統(tǒng)級(jí)合作”模式進(jìn)入AI手機(jī)賽道,通過(guò)與手機(jī)廠商在系統(tǒng)層面合作,獲得識(shí)別屏幕UI元素、模擬人工操作的核心權(quán)限。

實(shí)測(cè)顯示,“比價(jià)肯德基套餐并下單發(fā)送截圖”這一涉及三個(gè)應(yīng)用、十二步手動(dòng)操作的任務(wù),豆包可在后臺(tái)自動(dòng)完成,僅支付環(huán)節(jié)需人工介入,全程耗時(shí)較人工操作縮短72%。

目前,Agent在大眾用戶中真正形成使用習(xí)慣還需要一段時(shí)間。豆包和千問(wèn)現(xiàn)在的硬件投入,是在為一個(gè)尚未到來(lái)的需求峰值提前卡位。這是典型的平臺(tái)邏輯:先占住感知節(jié)點(diǎn),等Agent成熟之后,數(shù)據(jù)流和調(diào)用量自然會(huì)從這個(gè)節(jié)點(diǎn)涌入。

但平臺(tái)邏輯有一個(gè)前提,設(shè)備必須在需求到來(lái)之前就已經(jīng)在用戶身上。這也解釋了為什么千問(wèn)要在眼鏡之外再布局指環(huán)和耳機(jī),畢竟單一形態(tài)覆蓋不了全天候的感知需求,矩陣才能。

豆包與千問(wèn)的硬件路徑,都是從自身核心優(yōu)勢(shì)出發(fā)延伸的結(jié)果,只是各自優(yōu)勢(shì)所對(duì)應(yīng)的最優(yōu)形態(tài)不同。

豆包AI眼鏡的項(xiàng)目暫停,內(nèi)部給出的核心判斷也很合理,大框、拍攝、語(yǔ)音、翻譯,主流范式已被Ray-Ban Meta統(tǒng)一。2025年,Meta智能眼鏡全年銷量超過(guò)700萬(wàn)副,全球市場(chǎng)份額達(dá)85.2%。在這個(gè)格局下,“能不能做”早已不是問(wèn)題。

千問(wèn)的選擇,出發(fā)點(diǎn)同樣清晰。阿里的應(yīng)用生態(tài)中,話費(fèi)充值、外賣點(diǎn)單、停車?yán)U費(fèi),這些淘寶、支付寶的既有能力可以直接接入Agent執(zhí)行鏈路,通過(guò)眼鏡重新封裝成AI原生交互形態(tài)。對(duì)于沒(méi)有這套生態(tài)底座的公司,眼鏡只是一個(gè)戴在臉上的語(yǔ)音助手;對(duì)阿里來(lái)說(shuō),眼鏡是打通已有應(yīng)用、建立新型觸點(diǎn)的現(xiàn)實(shí)節(jié)點(diǎn)。

豆包深入手機(jī)操作系統(tǒng),是在自己的流量分發(fā)能力地帶建立Agent入口。千問(wèn)押注可穿戴設(shè)備矩陣,是在把阿里的應(yīng)用生態(tài)重新封裝成AI原生交互形態(tài)。

把時(shí)間線拉長(zhǎng)來(lái)看,今天產(chǎn)品發(fā)得多驚艷、銷量跑得多猛,其實(shí)都決定不了終局。兩年后,當(dāng)Agent像網(wǎng)絡(luò)一樣融進(jìn)工作流,唯一的護(hù)城河只有一條:用戶習(xí)慣了從哪個(gè)入口觸發(fā)它。

端側(cè)推理如何改變成本結(jié)構(gòu)

硬件入口的競(jìng)爭(zhēng),最終會(huì)回到一個(gè)更基礎(chǔ)的問(wèn)題上:Token從哪里來(lái),到哪里去,誰(shuí)來(lái)付賬。

Token的價(jià)格是透明的,但Token里裝了多少“智力”,用戶無(wú)從得知。4月,AMD AI戰(zhàn)略總監(jiān)Stella Laurenzo基于6852個(gè)Claude Code會(huì)話的分析顯示,從今年2月下旬開始,Claude Opus 4.6的推理深度大幅下降,騰訊科技也報(bào)道,“每次代碼編輯前的文件閱讀次數(shù)”從6.6驟降至2.0,降幅約70%。

這些改變沒(méi)有在任何顯著位置通知用戶,大量開發(fā)者是在代碼質(zhì)量明顯下降之后才開始懷疑“模型是不是變笨了”。

更隱蔽的是緩存命中率對(duì)實(shí)際成本的影響。一位開發(fā)者對(duì)Claude Code一周數(shù)據(jù)的追蹤顯示,正常情況下91%的Token來(lái)自緩存命中,緩存命中價(jià)格只有標(biāo)準(zhǔn)輸入價(jià)格的十分之一。如果緩存全部失效,Input成本會(huì)暴漲到原來(lái)的5.7倍。

這個(gè)成本結(jié)構(gòu),是端側(cè)模型價(jià)值主張的核心依據(jù)之一。端側(cè)推理一次性部署后,邊際成本趨近于零,沒(méi)有緩存命中率的不確定性,也沒(méi)有云端峰值定價(jià)的波動(dòng)。對(duì)于頻繁觸發(fā)Agent任務(wù)的硬件設(shè)備,這個(gè)優(yōu)勢(shì)會(huì)隨使用密度的增加而持續(xù)放大。

谷歌DeepMind 4月發(fā)布的Gemma 4,重新劃定了端側(cè)模型的能力邊界。其E2B和E4B模型推理時(shí)激活的有效參數(shù)量分別僅為20億和40億,在LiteRT-LM框架下,可在3秒內(nèi)處理跨越兩個(gè)獨(dú)立技能的4000個(gè)輸入Token;E2B與E4B原生支持函數(shù)調(diào)用,覆蓋Agent工作流所需的核心推理路徑。上下文窗口達(dá)128K Token,在不足1.5GB的內(nèi)存占用下可以完成運(yùn)行。

這意味著一個(gè)可以調(diào)用外部工具、執(zhí)行多步驟規(guī)劃的端側(cè)Agent,其硬件門檻已降至現(xiàn)代中端手機(jī)的內(nèi)存余量之內(nèi)。

千問(wèn)目前采用的云端大模型加本地輕量智能體的混合架構(gòu),是在當(dāng)前端側(cè)算力約束下的一個(gè)不錯(cuò)的解。據(jù)36氪報(bào)道,千問(wèn)在2026年規(guī)劃的硬件形態(tài)除AI眼鏡還包括AI指環(huán)、AI耳機(jī),三種形態(tài)覆蓋視覺(jué)交互、無(wú)感佩戴和音頻交互三個(gè)不同維度,形成全天候的感知矩陣。

這個(gè)矩陣的核心價(jià)值在于眼鏡捕獲第一視角的行為數(shù)據(jù)流,這些數(shù)據(jù)反哺千問(wèn)大模型迭代,模型能力提升后又優(yōu)化硬件體驗(yàn),形成閉環(huán)。但Gemma 4這類模型的出現(xiàn),正在縮短這個(gè)“當(dāng)前”的有效期。當(dāng)端側(cè)模型可以在本地獨(dú)立完成越來(lái)越多的Agent任務(wù),云端兜底的必要性在高頻輕量場(chǎng)景中會(huì)持續(xù)下降,Token的消耗路徑也會(huì)隨之改變。

這會(huì)對(duì)當(dāng)前AI硬件的主流云端模式,其一,端側(cè)能力的提升會(huì)降低硬件設(shè)備對(duì)云端的依賴,讓設(shè)備端AI從成本結(jié)構(gòu)上更具競(jìng)爭(zhēng)力;其二,當(dāng)用戶的Agent任務(wù)越來(lái)越多地在本地完成,依賴數(shù)據(jù)回流云端來(lái)驅(qū)動(dòng)模型迭代的商業(yè)閉環(huán),也需要重新設(shè)計(jì)數(shù)據(jù)獲取路徑。

有多少增量留在云端、有多少轉(zhuǎn)移至本地,將成為整個(gè)MaaS商業(yè)模式需要提前應(yīng)對(duì)的結(jié)構(gòu)性問(wèn)題。

寫在最后

當(dāng)Token消耗從對(duì)話層遷移到執(zhí)行層,Agent開始代替人操作應(yīng)用,這些任務(wù)是在云端計(jì)費(fèi)還是在端側(cè)本地完成?這個(gè)問(wèn)題的答案,會(huì)決定Token的消耗結(jié)構(gòu),進(jìn)而影響MaaS業(yè)務(wù)的收入模型。

火山引擎超百億元的MaaS業(yè)務(wù)收入目標(biāo)已隨著Seed 2.0、Seedance 2.0等模型發(fā)布、OpenClaw爆火上調(diào)被提高。阿里成立了ATH事業(yè)群,兩家公司在云端的Token戰(zhàn)爭(zhēng)和在硬件端的入口爭(zhēng)奪,是同一場(chǎng)競(jìng)爭(zhēng)的兩個(gè)戰(zhàn)場(chǎng)。誰(shuí)能在硬件側(cè)建立足夠高頻的Agent使用習(xí)慣,誰(shuí)就在云端MaaS的下一輪增長(zhǎng)中占據(jù)了需求端的主動(dòng)權(quán)。

2026年的AI硬件競(jìng)爭(zhēng),表面上看是眼鏡和手機(jī)的形態(tài)之爭(zhēng),實(shí)質(zhì)上是對(duì)Agent時(shí)代Token消耗入口的提前卡位。這場(chǎng)競(jìng)爭(zhēng)沒(méi)有快速的結(jié)論,因?yàn)锳gent在大眾用戶中的真實(shí)使用習(xí)慣還在形成,端側(cè)模型的能力邊界還在被Gemma 4這類模型持續(xù)推進(jìn),云端Token的成本結(jié)構(gòu)還在被緩存命中率、推理深度和定價(jià)策略悄悄改變。

《新立場(chǎng)》認(rèn)為,決定勝負(fù)的是誰(shuí)擁有足夠密度和足夠高頻的應(yīng)用場(chǎng)景,能讓Agent在真實(shí)使用中持續(xù)積累上下文、優(yōu)化執(zhí)行能力,形成對(duì)用戶的理解深度。

這個(gè)變量,更多由生態(tài)底座決定。千問(wèn)和豆包的硬件分歧,是兩個(gè)不同生態(tài)底座在同一個(gè)技術(shù)拐點(diǎn)上做出的不同押注,各自都在最擅長(zhǎng)的地方尋找答案。

*題圖及文中配圖來(lái)源于網(wǎng)絡(luò)。

       原文標(biāo)題 : 豆包深入手機(jī),千問(wèn)押注眼鏡,誰(shuí)能爭(zhēng)奪 Agent 的“開機(jī)鍵”?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)