訂閱
糾錯
加入自媒體

龍蝦養(yǎng)得起,Token燒不起

Token狂飆的算力稅:誰在為AI的“工業(yè)革命”買單?

今年春天,如果你還在糾結(jié)龍蝦怎么養(yǎng)、Token中文名叫什么,大概已經(jīng)跟不上科技圈的熱鬧了。

3月23日,國家數(shù)據(jù)局局長劉烈宏給Token定了中文名——詞元。同時披露了一個數(shù)字:中國日均Token調(diào)用量突破140萬億,兩年增長超千倍。

圖源:新華社

差不多同一時間,阿里云和百度智能云先后宣布AI算力產(chǎn)品漲價,最高漲幅34%。英偉達的黃仁勛在GTC大會上把Token叫做“AI時代的石油”,還公布了一套分層定價:每百萬Token從3美元到150美元不等。

他還說了另一句話,讓不少創(chuàng)業(yè)者后背發(fā)涼:一個年薪50萬美元的工程師,如果一年用不掉25萬美元的Token,他會“極度恐慌”。

圖源:網(wǎng)絡(luò)

一邊是Token消耗量瘋漲,一邊是供給端的成本在攀升、定價權(quán)在集中。熱潮退去,賬單浮出水面,人們開始意識到一個問題:我們正以近乎傾銷的價格享受著AI的便利,但支撐這場技術(shù)革命的底層燃料,其真實成本才剛剛開始顯現(xiàn)。

為什么單價越便宜,總賬單越貴?

要理解這件事,得先明白Token是什么。

它是AI理解和生成信息的最小單元,也是眼下智能時代唯一可計量、可定價、可交易的通用貨幣。但它的使用費由兩個東西決定:單價乘以消耗量。

圖源:網(wǎng)絡(luò)

你問一個問題,它回答一段話,背后都是Token在燃燒。

過去兩年,行業(yè)的主線是訓練模型。各大廠商砸了數(shù)千億美元,把單位Token的牌面價格一降再降。國內(nèi)廠商的Token單價,已經(jīng)做到海外巨頭的十分之一。

但到了2026年,事情變了。

AI的核心價值,從“能聊”變成了“能干”。標志就是龍蝦的爆發(fā)。

圖源:網(wǎng)絡(luò)

一個龍蝦智能體執(zhí)行一次任務(wù),比如“幫我找最低價”,消耗的Token是傳統(tǒng)對話的幾十倍甚至上百倍。因為它不是一次問答,而是一個完整的工作流:拆解任務(wù)、多步推理、調(diào)用工具、自我修正、錯了重來。每一步都在燒Token。

這就是問題的核心:完成同一個任務(wù)需要的Token數(shù)量,增長得比單價下降更快。AI從副駕駛變成了代駕司機,油耗自然不是一個量級。

更關(guān)鍵的是,用戶永遠只想要最新的模型。老模型再便宜也沒人要,99%的需求會瞬間轉(zhuǎn)移到新發(fā)布的SOTA模型上。而前沿模型的單位Token價格,從來沒真正降下來過。GPT-4剛出來時輸出價格60美元每百萬Token,今天Claude Opus 4.5還是這個價位。用戶要的是當下最好的大腦,愿意為它買單。

圖源:網(wǎng)絡(luò)

于是,需求端智能體爆發(fā),Token消耗量兩年增長超千倍。供給端,HBM內(nèi)存價格飛漲,2026年一季度DRAM價格環(huán)比漲超50%,NAND最高漲了150%,巨頭們的戰(zhàn)略長約直接簽到5年后。而掌握核心硬件和軟件生態(tài)的英偉達,靠著CUDA和從芯片到云的全棧布局,牢牢捏著Token的出廠價。

誰在制造Token的通脹?

Token的狂飆不是自然生長的。從產(chǎn)業(yè)鏈看,有四層玩家,每一層都在向上傳遞成本,最終壓到最末端的普通用戶身上。

先看最底層:英偉達。

第一層是英偉達。以前它賣芯片,一次買賣。現(xiàn)在不一樣了。CUDA生態(tài)綁住了全球絕大多數(shù)AI開發(fā)者,二十年來積累的工程師、開源項目、代碼庫都長在這個生態(tài)里,切換成本極高。它自己又開了云服務(wù)DGX Cloud,用戶直接在它平臺上按Token付費,不用自己買芯片。

圖源:網(wǎng)絡(luò)

黃仁勛在GTC 2026上提出了“Token工廠經(jīng)濟學”,核心就一句話:以后AI的衡量單位不再是芯片,而是Token。他的野心也不止于賣云服務(wù)——英偉達正在試圖把商業(yè)模式延伸到按Token抽成。

這套打法讓英偉達掌握了定價權(quán)。2026年一季度,HBM內(nèi)存供不應(yīng)求,內(nèi)存價格在幾個月內(nèi)上漲了數(shù)百個百分點。英偉達的GPU也跟著漲價——AI芯片H200所用的HBM3E供應(yīng)價格上漲約20%。

英偉達芯片漲價,直接推高了云廠商的采購成本。

阿里云、騰訊云、百度智能云,它們從英偉達買芯片,搭好服務(wù)器,再把算力租給下游,F(xiàn)在英偉達芯片漲價,HBM內(nèi)存漲價,它們自己的成本在漲。同時需求又爆發(fā)——龍蝦這類智能體火了,所有人都想跑Agent。需求太大,服務(wù)器、電力都跟不上。于是它們只能漲價。阿里云AI算力產(chǎn)品最高漲了34%,百度漲了5%到30%。

圖源:網(wǎng)絡(luò)

第三層是大模型廠商。DeepSeek、MiniMax、智譜這些公司,處境最微妙。它們從英偉達買芯片,從云廠商租算力,訓練出模型,再把Token賣給用戶。

圖源:網(wǎng)絡(luò)

上游,芯片漲價、內(nèi)存漲價、云廠商漲價,成本在漲。下游,2024年DeepSeek帶頭打價格戰(zhàn),把Token價格打到了地板上。想漲價怕用戶跑,不漲價自己的算力賬單在飛漲。所以這一輪云廠商漲價,它們反而最沉默。

第四層是AI應(yīng)用公司。Cursor、Claude Code這些直接面向用戶的工具,面臨一個無解的難題:按固定月費收,比如20美元隨便用,重度用戶能把成本干穿。

Anthropic的Claude Code就吃過這個虧,推出每月200美元的無限套餐,結(jié)果一個月被一個用戶干掉了100億Token,最后不得不取消。

Claude Code is growing crazy fast, and it's not just for writing code

圖源:網(wǎng)絡(luò)

按量付費呢?用戶會被不確定的賬單嚇跑。大多數(shù)人喜歡固定月費,哪怕貴一點,至少心里有數(shù)。

怎么辦?只能硬著頭皮選固定月費,但在這個模式下做各種限制來保命。

最常見的是用量封頂。每月給你一定額度的Token,用完了要么等重置,要么補差價,要么升級。比如Claude Code取消無限套餐后,改成了按實際用量付費加基礎(chǔ)月費的混合模式。

另一種是分級套餐。輕度用戶20美元,重度用戶40或60美元,把高消耗用戶篩到更高的付費檔位。還有些公司在技術(shù)層面做優(yōu)化——緩存常用請求、限制上下文長度、在用戶無感知的情況下把復(fù)雜任務(wù)切給便宜模型跑。這些做法用戶看不到,但每一招都在省Token。

可以看到,越往下游,利潤越薄,處境越難。最上游的英偉達穩(wěn)賺,最下游的應(yīng)用公司在生死線上掙扎。而用戶的直觀感受就是,Token越來越貴了。

誰在焦慮,誰在狂歡?

焦慮,在普通用戶和開發(fā)者中蔓延。“月薪2萬,我養(yǎng)不起自己的AI員工”——這句調(diào)侃正在變成越來越多人的真實處境。

程序員艾瑞克是較早開始養(yǎng)龍蝦的一批人。他用龍蝦來自動化處理代碼審查和簡單的bug修復(fù),最初一個月只花了幾十塊錢。

但隨著他給龍蝦配置了更多技能包——自動讀取GitHub issue、調(diào)用測試環(huán)境、發(fā)送報告——Token消耗量直線上升。現(xiàn)在他每個月要花近千元。錢不算少,但讓他不舒服的是,這個數(shù)字在沒有任何預(yù)警地緩慢爬升,像一筆看不見的固定支出。

圖源:網(wǎng)絡(luò)

95后運營小可(化名)的賬單則呈現(xiàn)出另一種焦慮。

他養(yǎng)了兩只龍蝦,一只負責監(jiān)控競品動態(tài),每天抓取信息后自動整理成簡報;另一只負責整理知識庫并批量生成自媒體賬號內(nèi)容。兩個數(shù)字員工24小時運轉(zhuǎn),一個月下來Token費用超過200元。

但比賬單更讓他頭疼的,是龍蝦的不可控。偷懶是常事——在某個環(huán)節(jié)卡住后反復(fù)重試同一個步驟,Token在燃燒,產(chǎn)出卻為零。

更離譜的是欺騙:龍蝦有時會過度夸大自己的能力,只要不被發(fā)現(xiàn)就默認自己能完成。小可不得不在Soul.md里反復(fù)調(diào)整指令,定期檢查執(zhí)行記錄,像管理一個不太靠譜的實習生。

小可的技術(shù)路徑幾經(jīng)調(diào)整。最早他用的是一個國內(nèi)某云端Agent工具,但響應(yīng)慢、功能弱,很快就棄用了。

后來他轉(zhuǎn)向openclaw本地化部署,通過火山引擎的coding plank服務(wù)調(diào)用Kimi 2.5模型。這套方案相當克制,基礎(chǔ)賬單僅需每月40元。但任務(wù)一多,coding plan就自動升級到200元每月——賬單永遠追著需求跑。

圖源:網(wǎng)絡(luò)

他也動過換用GPT或Claude的念頭,但試用之后發(fā)現(xiàn),在自己需求下國內(nèi)和國外模型交付差異不大,但是國外模型Token費用翻了好幾倍,用起來實在心疼。最后還是用回了國內(nèi)模型,畢竟國內(nèi)模型還是要便宜很多。

如果說這些還算可控,那智能體的心跳機制和自動循環(huán),才是真正的暗坑。用戶不知情時,一個配置失誤就能讓Token一夜之間燒光。當AI幾分鐘就能完成你一周的工作,當你的數(shù)字員工比你本人還燒錢,認知焦慮與經(jīng)濟壓力便同時襲來。

面對這個問題,有人想出了土辦法:設(shè)置電腦定時關(guān)閉,或者把openclaw部署在U盤上,通過插拔U盤來物理斷電。用最原始的方式,給這個不知疲倦的數(shù)字員工裝上了一個看得見的開關(guān)。

狂歡,屬于產(chǎn)業(yè)鏈上游的收租人。英偉達的市值和毛利率,云廠商的漲價底氣,都源于它們在Token價值鏈上的不可替代性。無論AI應(yīng)用層如何洗牌,它們都是穩(wěn)坐釣魚臺的贏家。

結(jié)語

這場Token狂飆,最后會走向哪里?

我覺得,它會倒逼整個產(chǎn)業(yè)回歸兩個常識。

第一,算力成本終究會回歸商品屬性。短期內(nèi)存漲價、供需失衡,但技術(shù)進步不會停。更高效的模型架構(gòu)、更好的推理優(yōu)化、把模型焊在芯片上的專用芯片創(chuàng)新,都會持續(xù)壓低Token的生產(chǎn)成本。長期看,Token的單價一定是往下走的。

圖片

圖源:網(wǎng)絡(luò)

第二,投入產(chǎn)出比會成為唯一的衡量標準。燒Token不是目的,用Token創(chuàng)造價值才是。市場從狂熱回歸理性之后,企業(yè)不會再看“Tokenmaxxing”,而是會問:這100萬Token,到底幫我干了多少活?掙了多少錢?

智能體本身也需要進化,需要在有限的嘗試中,找到使用Token最具效率的方法。

那些只靠補貼用戶燒Token、自己沒有核心價值創(chuàng)造的應(yīng)用,會最先倒下。能精確衡量任務(wù)成本、優(yōu)化Token效率、建起高轉(zhuǎn)換成本壁壘的公司,才能活下來。

Token越來越貴的今天,我們需要的不是制造焦慮,也不是鼓勵無度消耗。

畢竟,商業(yè)的終極理性,從來不是燒掉多少燃料,而是走了多遠的路。

參考資料:

1、《「燒Token」成KPI,有程序員一個月花掉15w》騰訊科技

2、《為什么所有人都覺得 MiniMax、智譜「太貴了」?》極客公園

3、《月薪2萬,我養(yǎng)不起自己的“AI員工”》鳳凰WEEKLY

       原文標題 : 龍蝦養(yǎng)得起,Token燒不起

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號