123,123

豆包深入手機(jī)，千問(wèn)押注眼鏡，誰(shuí)能爭(zhēng)奪 Agent 的“開機(jī)鍵”？

2026-04-22 10:07

Agent時(shí)代的入口之爭(zhēng)，豆包和千問(wèn)各入一門

“工具在使用者手中時(shí)才成為工具。”海德格爾的這段話，今天用來(lái)理解AI硬件同樣貼切。

問(wèn)題在于，大模型這只“手”伸出來(lái)的時(shí)候，用戶究竟愿意把它握在掌心里（手機(jī)），還是架在鼻梁上（眼鏡），亦或是讓它一直貼耳傾聽（耳機(jī)）？

據(jù)《Z Finance》獨(dú)家報(bào)道，字節(jié)跳動(dòng)內(nèi)部決定暫停豆包AI眼鏡項(xiàng)目。想要理解這場(chǎng)選擇，需要先回答一個(gè)更基礎(chǔ)的問(wèn)題：大模型公司為什么要做硬件？

據(jù)《晚點(diǎn)LatePost》的報(bào)道，火山引擎豆包大模型日均調(diào)用量已超過(guò)120萬(wàn)億Token，半年增長(zhǎng)4倍。國(guó)家數(shù)據(jù)局的數(shù)據(jù)顯示，中國(guó)日均Token消耗量在一年半內(nèi)增長(zhǎng)約300倍。黃仁勛在GTC 2026的舞臺(tái)上說(shuō)，Token將是未來(lái)數(shù)字世界最核心的大宗商品。

但Token消耗的暴漲，反而掩蓋了一個(gè)更根本的問(wèn)題，即這些Token從哪里被觸發(fā)，通過(guò)什么界面進(jìn)入用戶的生活？

過(guò)去兩年，這個(gè)問(wèn)題的答案是手機(jī)屏幕和對(duì)話框。OpenClaw的爆火將Agent從開發(fā)者工具推向大眾用戶，直接推高了對(duì)“隨時(shí)隨地觸發(fā)AI執(zhí)行”這一能力的需求密度。當(dāng)大模型的競(jìng)爭(zhēng)從生成式問(wèn)答轉(zhuǎn)向執(zhí)行任務(wù)，執(zhí)行鏈路就需要一個(gè)更靠近用戶身體的物理錨點(diǎn)。

豆包選擇的落點(diǎn)是操作系統(tǒng)，以“操作系統(tǒng)級(jí)合作”模式切入AI手機(jī)賽道，通過(guò)與手機(jī)廠商在系統(tǒng)層面合作，獲得識(shí)別屏幕UI元素、模擬人工操作的核心權(quán)限；千問(wèn)選擇的是眼鏡，千問(wèn)AI眼鏡上線首批“AI辦事”能力后，支持話費(fèi)充值、掃碼騎車、停車?yán)U費(fèi)、語(yǔ)音點(diǎn)外賣。這些功能的共同特征是，AI開始在真實(shí)世界里把事情做完。

兩條路徑的本質(zhì)，是兩家公司對(duì)同一個(gè)問(wèn)題給出的不同工程答案：究竟改由誰(shuí)來(lái)做Agent執(zhí)行鏈路的物理接口。

兩種優(yōu)勢(shì)的兩種延伸

大模型公司做硬件，實(shí)際上是在回答一個(gè)從Token經(jīng)濟(jì)學(xué)中衍生出來(lái)的問(wèn)題。

過(guò)去兩年的AI競(jìng)爭(zhēng)，核心戰(zhàn)場(chǎng)在模型能力和價(jià)格。價(jià)格戰(zhàn)把Token單價(jià)從三年前的高點(diǎn)壓低了約300倍。但單價(jià)的崩塌沒(méi)有讓AI支出變得可預(yù)測(cè)，原因很簡(jiǎn)單：Agent類應(yīng)用讓單次任務(wù)的Token消耗從普通對(duì)話的幾十倍起跳。據(jù)騰訊科技報(bào)道，亞太區(qū)電商技術(shù)公司Branch8的6人團(tuán)隊(duì)，啟用Claude Code第一個(gè)月花了2400美元，經(jīng)過(guò)八周密集優(yōu)化才勉強(qiáng)降到680美元。Token支出管理本身已經(jīng)變成了一項(xiàng)需要專門技能的工作。

這個(gè)成本結(jié)構(gòu)，在源頭上改寫了很多AI產(chǎn)品的競(jìng)爭(zhēng)邏輯。誰(shuí)掌握了Agent的觸發(fā)入口，誰(shuí)就掌握了Token消耗的源頭。而觸發(fā)入口的密度，取決于設(shè)備離用戶有多近、啟動(dòng)摩擦力有多低。這是豆包和千問(wèn)同時(shí)轉(zhuǎn)向硬件的真實(shí)驅(qū)動(dòng)力：在Token消耗鏈路的最前端建立一個(gè)物理節(jié)點(diǎn)。

千問(wèn)AI眼鏡的團(tuán)隊(duì)跟蹤了一個(gè)指標(biāo)——用戶交互輪次，即AI幫助用戶完成事項(xiàng)的頻率�？淇搜坨RS1上線后，用戶交互數(shù)對(duì)比第三方手機(jī)AI助手應(yīng)用提升了約6倍。戴在臉上的AI之所以被調(diào)用得更頻繁，原因在于感知始終在線、啟動(dòng)摩擦力趨近于零。

對(duì)于Agent而言，這種持續(xù)在場(chǎng)的交互密度，意味著更豐富的上下文積累，也意味著更多執(zhí)行任務(wù)的觸發(fā)機(jī)會(huì)。

2026年4月，千問(wèn)AI眼鏡首次OTA升級(jí)后上線了“AI辦事”能力，通過(guò)接入淘寶閃購(gòu)、支付寶，支持話費(fèi)充值、掃碼騎車、停車?yán)U費(fèi)、語(yǔ)音點(diǎn)外賣。產(chǎn)品定義由此發(fā)生轉(zhuǎn)移：AI從回答問(wèn)題，變成了把事情辦完。

豆包確定的路徑同樣深入，只是方向不同。去年12月，豆包AI手機(jī)助手以“操作系統(tǒng)級(jí)合作”模式進(jìn)入AI手機(jī)賽道，通過(guò)與手機(jī)廠商在系統(tǒng)層面合作，獲得識(shí)別屏幕UI元素、模擬人工操作的核心權(quán)限。

實(shí)測(cè)顯示，“比價(jià)肯德基套餐并下單發(fā)送截圖”這一涉及三個(gè)應(yīng)用、十二步手動(dòng)操作的任務(wù)，豆包可在后臺(tái)自動(dòng)完成，僅支付環(huán)節(jié)需人工介入，全程耗時(shí)較人工操作縮短72%。

目前，Agent在大眾用戶中真正形成使用習(xí)慣還需要一段時(shí)間。豆包和千問(wèn)現(xiàn)在的硬件投入，是在為一個(gè)尚未到來(lái)的需求峰值提前卡位。這是典型的平臺(tái)邏輯：先占住感知節(jié)點(diǎn)，等Agent成熟之后，數(shù)據(jù)流和調(diào)用量自然會(huì)從這個(gè)節(jié)點(diǎn)涌入。

但平臺(tái)邏輯有一個(gè)前提，設(shè)備必須在需求到來(lái)之前就已經(jīng)在用戶身上。這也解釋了為什么千問(wèn)要在眼鏡之外再布局指環(huán)和耳機(jī)，畢竟單一形態(tài)覆蓋不了全天候的感知需求，矩陣才能。

豆包與千問(wèn)的硬件路徑，都是從自身核心優(yōu)勢(shì)出發(fā)延伸的結(jié)果，只是各自優(yōu)勢(shì)所對(duì)應(yīng)的最優(yōu)形態(tài)不同。

豆包AI眼鏡的項(xiàng)目暫停，內(nèi)部給出的核心判斷也很合理，大框、拍攝、語(yǔ)音、翻譯，主流范式已被Ray-Ban Meta統(tǒng)一。2025年，Meta智能眼鏡全年銷量超過(guò)700萬(wàn)副，全球市場(chǎng)份額達(dá)85.2%。在這個(gè)格局下，“能不能做”早已不是問(wèn)題。

千問(wèn)的選擇，出發(fā)點(diǎn)同樣清晰。阿里的應(yīng)用生態(tài)中，話費(fèi)充值、外賣點(diǎn)單、停車?yán)U費(fèi)，這些淘寶、支付寶的既有能力可以直接接入Agent執(zhí)行鏈路，通過(guò)眼鏡重新封裝成AI原生交互形態(tài)。對(duì)于沒(méi)有這套生態(tài)底座的公司，眼鏡只是一個(gè)戴在臉上的語(yǔ)音助手；對(duì)阿里來(lái)說(shuō)，眼鏡是打通已有應(yīng)用、建立新型觸點(diǎn)的現(xiàn)實(shí)節(jié)點(diǎn)。

豆包深入手機(jī)操作系統(tǒng)，是在自己的流量分發(fā)能力地帶建立Agent入口。千問(wèn)押注可穿戴設(shè)備矩陣，是在把阿里的應(yīng)用生態(tài)重新封裝成AI原生交互形態(tài)。

把時(shí)間線拉長(zhǎng)來(lái)看，今天產(chǎn)品發(fā)得多驚艷、銷量跑得多猛，其實(shí)都決定不了終局。兩年后，當(dāng)Agent像網(wǎng)絡(luò)一樣融進(jìn)工作流，唯一的護(hù)城河只有一條：用戶習(xí)慣了從哪個(gè)入口觸發(fā)它。

端側(cè)推理如何改變成本結(jié)構(gòu)

硬件入口的競(jìng)爭(zhēng)，最終會(huì)回到一個(gè)更基礎(chǔ)的問(wèn)題上：Token從哪里來(lái)，到哪里去，誰(shuí)來(lái)付賬。

Token的價(jià)格是透明的，但Token里裝了多少“智力”，用戶無(wú)從得知。4月，AMD AI戰(zhàn)略總監(jiān)Stella Laurenzo基于6852個(gè)Claude Code會(huì)話的分析顯示，從今年2月下旬開始，Claude Opus 4.6的推理深度大幅下降，騰訊科技也報(bào)道，“每次代碼編輯前的文件閱讀次數(shù)”從6.6驟降至2.0，降幅約70%。

這些改變沒(méi)有在任何顯著位置通知用戶，大量開發(fā)者是在代碼質(zhì)量明顯下降之后才開始懷疑“模型是不是變笨了”。

更隱蔽的是緩存命中率對(duì)實(shí)際成本的影響。一位開發(fā)者對(duì)Claude Code一周數(shù)據(jù)的追蹤顯示，正常情況下91%的Token來(lái)自緩存命中，緩存命中價(jià)格只有標(biāo)準(zhǔn)輸入價(jià)格的十分之一。如果緩存全部失效，Input成本會(huì)暴漲到原來(lái)的5.7倍。

這個(gè)成本結(jié)構(gòu)，是端側(cè)模型價(jià)值主張的核心依據(jù)之一。端側(cè)推理一次性部署后，邊際成本趨近于零，沒(méi)有緩存命中率的不確定性，也沒(méi)有云端峰值定價(jià)的波動(dòng)。對(duì)于頻繁觸發(fā)Agent任務(wù)的硬件設(shè)備，這個(gè)優(yōu)勢(shì)會(huì)隨使用密度的增加而持續(xù)放大。

谷歌DeepMind 4月發(fā)布的Gemma 4，重新劃定了端側(cè)模型的能力邊界。其E2B和E4B模型推理時(shí)激活的有效參數(shù)量分別僅為20億和40億，在LiteRT-LM框架下，可在3秒內(nèi)處理跨越兩個(gè)獨(dú)立技能的4000個(gè)輸入Token；E2B與E4B原生支持函數(shù)調(diào)用，覆蓋Agent工作流所需的核心推理路徑。上下文窗口達(dá)128K Token，在不足1.5GB的內(nèi)存占用下可以完成運(yùn)行。

這意味著一個(gè)可以調(diào)用外部工具、執(zhí)行多步驟規(guī)劃的端側(cè)Agent，其硬件門檻已降至現(xiàn)代中端手機(jī)的內(nèi)存余量之內(nèi)。

千問(wèn)目前采用的云端大模型加本地輕量智能體的混合架構(gòu)，是在當(dāng)前端側(cè)算力約束下的一個(gè)不錯(cuò)的解。據(jù)36氪報(bào)道，千問(wèn)在2026年規(guī)劃的硬件形態(tài)除AI眼鏡還包括AI指環(huán)、AI耳機(jī)，三種形態(tài)覆蓋視覺(jué)交互、無(wú)感佩戴和音頻交互三個(gè)不同維度，形成全天候的感知矩陣。

這個(gè)矩陣的核心價(jià)值在于眼鏡捕獲第一視角的行為數(shù)據(jù)流，這些數(shù)據(jù)反哺千問(wèn)大模型迭代，模型能力提升后又優(yōu)化硬件體驗(yàn)，形成閉環(huán)。但Gemma 4這類模型的出現(xiàn)，正在縮短這個(gè)“當(dāng)前”的有效期。當(dāng)端側(cè)模型可以在本地獨(dú)立完成越來(lái)越多的Agent任務(wù)，云端兜底的必要性在高頻輕量場(chǎng)景中會(huì)持續(xù)下降，Token的消耗路徑也會(huì)隨之改變。

這會(huì)對(duì)當(dāng)前AI硬件的主流云端模式，其一，端側(cè)能力的提升會(huì)降低硬件設(shè)備對(duì)云端的依賴，讓設(shè)備端AI從成本結(jié)構(gòu)上更具競(jìng)爭(zhēng)力；其二，當(dāng)用戶的Agent任務(wù)越來(lái)越多地在本地完成，依賴數(shù)據(jù)回流云端來(lái)驅(qū)動(dòng)模型迭代的商業(yè)閉環(huán)，也需要重新設(shè)計(jì)數(shù)據(jù)獲取路徑。

有多少增量留在云端、有多少轉(zhuǎn)移至本地，將成為整個(gè)MaaS商業(yè)模式需要提前應(yīng)對(duì)的結(jié)構(gòu)性問(wèn)題。

寫在最后

當(dāng)Token消耗從對(duì)話層遷移到執(zhí)行層，Agent開始代替人操作應(yīng)用，這些任務(wù)是在云端計(jì)費(fèi)還是在端側(cè)本地完成？這個(gè)問(wèn)題的答案，會(huì)決定Token的消耗結(jié)構(gòu)，進(jìn)而影響MaaS業(yè)務(wù)的收入模型。

火山引擎超百億元的MaaS業(yè)務(wù)收入目標(biāo)已隨著Seed 2.0、Seedance 2.0等模型發(fā)布、OpenClaw爆火上調(diào)被提高。阿里成立了ATH事業(yè)群，兩家公司在云端的Token戰(zhàn)爭(zhēng)和在硬件端的入口爭(zhēng)奪，是同一場(chǎng)競(jìng)爭(zhēng)的兩個(gè)戰(zhàn)場(chǎng)。誰(shuí)能在硬件側(cè)建立足夠高頻的Agent使用習(xí)慣，誰(shuí)就在云端MaaS的下一輪增長(zhǎng)中占據(jù)了需求端的主動(dòng)權(quán)。

2026年的AI硬件競(jìng)爭(zhēng)，表面上看是眼鏡和手機(jī)的形態(tài)之爭(zhēng)，實(shí)質(zhì)上是對(duì)Agent時(shí)代Token消耗入口的提前卡位。這場(chǎng)競(jìng)爭(zhēng)沒(méi)有快速的結(jié)論，因?yàn)锳gent在大眾用戶中的真實(shí)使用習(xí)慣還在形成，端側(cè)模型的能力邊界還在被Gemma 4這類模型持續(xù)推進(jìn)，云端Token的成本結(jié)構(gòu)還在被緩存命中率、推理深度和定價(jià)策略悄悄改變。

《新立場(chǎng)》認(rèn)為，決定勝負(fù)的是誰(shuí)擁有足夠密度和足夠高頻的應(yīng)用場(chǎng)景，能讓Agent在真實(shí)使用中持續(xù)積累上下文、優(yōu)化執(zhí)行能力，形成對(duì)用戶的理解深度。

這個(gè)變量，更多由生態(tài)底座決定。千問(wèn)和豆包的硬件分歧，是兩個(gè)不同生態(tài)底座在同一個(gè)技術(shù)拐點(diǎn)上做出的不同押注，各自都在最擅長(zhǎng)的地方尋找答案。

*題圖及文中配圖來(lái)源于網(wǎng)絡(luò)。

原文標(biāo)題 : 豆包深入手機(jī)，千問(wèn)押注眼鏡，誰(shuí)能爭(zhēng)奪 Agent 的“開機(jī)鍵”？