123,123

<u id="thve5"><object id="thve5"></object></u>

<pre id="thve5"></pre>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 云計(jì)算 > 正文

AI 的「精算時(shí)代」正式開啟，英偉達(dá)打響第一槍

2025-08-19 14:12

在 AI 領(lǐng)域，小型模型正迎來(lái)屬于它們的高光時(shí)刻。從 MIT 子公司 Liquid AI 發(fā)布的可裝入智能手表的新 AI 視覺(jué)模型，到能在谷歌智能手機(jī)上運(yùn)行的模型，小型化、高效化已成為顯著趨勢(shì)。而如今，英偉達(dá)也強(qiáng)勢(shì)加入這一浪潮，帶來(lái)了全新的小語(yǔ)言模型（SLM）——Nemotron - Nano - 9B - v2。這款模型不僅在選定基準(zhǔn)測(cè)試中達(dá)到同類最高性能，更具備讓用戶自由開啟和關(guān)閉 AI “推理” 的獨(dú)特能力，為 AI 應(yīng)用開辟了新的想象空間。

“小” 模型從邊緣玩具到生產(chǎn)主力

過(guò)去三個(gè)月，AI 圈的 “迷你軍團(tuán)” 接連亮劍，掀起了一場(chǎng)無(wú)聲的革命。MIT 子公司 Liquid AI 推出的視覺(jué)模型，小巧到能輕松裝入智能手表，讓可穿戴設(shè)備的智能體驗(yàn)邁入新臺(tái)階；谷歌則將 Gemini-Nano 成功塞進(jìn) Pixel 8 手機(jī)，讓移動(dòng)端 AI 能力實(shí)現(xiàn)質(zhì)的飛躍；而今，英偉達(dá)帶著 90 億參數(shù)的 Nemotron-Nano-9B-v2 登場(chǎng)，將其部署在單張 A10 GPU 上，再次刷新了人們對(duì)小型模型的認(rèn)知。

這絕非一場(chǎng) “小而美” 的技術(shù)炫技，而是一次對(duì)成本、效率與可控性的精準(zhǔn)平衡實(shí)驗(yàn)。正如英偉達(dá) AI 模型后訓(xùn)練主管 Oleksii Kuchiaev 在 X 上直言：“120 億參數(shù)精簡(jiǎn)到 90 億，就是專門為了適配 A10—— 那可是企業(yè)部署中最常見(jiàn)的顯卡。”

一句話：參數(shù)大小不再是衡量模型優(yōu)劣的 KPI，投資回報(bào)率（ROI）才是硬道理。

把思維鏈條做成可計(jì)費(fèi)功能

傳統(tǒng)大模型的 “黑盒思維” 一直是企業(yè)使用的痛點(diǎn) —— 一旦觸發(fā)長(zhǎng)時(shí)間推理，token 賬單就如同脫韁野馬般失控。而 Nemotron-Nano-9B-v2 給出的解法簡(jiǎn)單直接且高效：

在 prompt 中加入 /think，模型便會(huì)啟用內(nèi)部思維鏈，像人類思考一樣逐步推導(dǎo)；加入 /no_think，則會(huì)直接輸出答案，省去中間環(huán)節(jié)；系統(tǒng)級(jí)的 max_think_tokens 功能，如同 AWS 的 CPU credit 機(jī)制，能為思維鏈設(shè)定預(yù)算，精準(zhǔn)控制成本。

現(xiàn)場(chǎng)實(shí)測(cè)（官方報(bào)告）數(shù)據(jù)更能說(shuō)明問(wèn)題：

一句話：把「推理」從默認(rèn)能力變成 可選項(xiàng)，企業(yè)第一次可以像買云硬盤一樣，按思考深度付費(fèi)。

Transformer 的「省油」補(bǔ)丁

為何 9B 模型能在長(zhǎng)上下文里打平 70B？答案藏在 Mamba-Transformer 混合架構(gòu)里：

用 Mamba 狀態(tài)空間層替換 70% 的注意力層，顯存占用 ↓ 40%；

序列長(zhǎng)度與顯存呈線性關(guān)系，而非平方爆炸；

128k token 實(shí)測(cè)吞吐量比同尺寸純 Transformer 高 2.3×。

一句話：Mamba 不是取代 Transformer，而是把它 改造成省油的混動(dòng)引擎。

商業(yè)核彈：寬松許可證 + 零門檻商用

英偉達(dá)此次在許可協(xié)議上的舉措堪稱 “商業(yè)核彈”，做到了 “三不要”：

不要錢：無(wú)版稅、無(wú)收入分成，企業(yè)無(wú)需為使用模型支付額外費(fèi)用；不要談判：直接下載即可商用，省去了繁瑣的合作洽談流程；不要法務(wù)焦慮：僅要求遵守可信 AI 護(hù)欄和出口合規(guī)，降低了企業(yè)的法律風(fēng)險(xiǎn)。

對(duì)比 OpenAI 的分級(jí)許可、Anthropic 的使用上限，Nemotron-Nano-9B-v2 幾乎成了 “開源界的 AWS EC2”—— 拿來(lái)就能上線賺錢，極大地降低了企業(yè)的使用門檻。

場(chǎng)景切片：誰(shuí)最先受益？

一句話：任何邊緣/私有化場(chǎng)景，都多了一張「足夠聰明又付得起」的牌。

AI 的「精算時(shí)代」正式開幕

過(guò)去四年，我們見(jiàn)證了 scaling law 的魔法：參數(shù) × 算力 = 性能。而今天，Nemotron-Nano-9B-v2 用 90 億參數(shù)告訴我們：架構(gòu) × 控制 × 許可證 = 可持續(xù)的 AI 經(jīng)濟(jì)。

當(dāng) Liquid AI 把模型塞進(jìn)手表，當(dāng)英偉達(dá)把推理做成開關(guān)，“小” 不再是技術(shù)上的妥協(xié)，而是經(jīng)過(guò)精打細(xì)算后的最優(yōu)解。

下一次融資路演，創(chuàng)業(yè)者們或許不會(huì)再說(shuō) “我們比 GPT-4 更強(qiáng)”，而是會(huì)自信地宣稱：“我們用 1/10 的算力，做出了 90% 的效果，并且還能賺錢。” 這標(biāo)志著，AI 的 “精算時(shí)代” 已正式拉開帷幕。

原文標(biāo)題 : AI 的「精算時(shí)代」正式開啟，英偉達(dá)打響第一槍

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

【深圳專場(chǎng)】
立即報(bào)名 >> 12月16-17日 AMD 嵌入式峰會(huì)
12月19日
立即報(bào)名>> 【線下會(huì)議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術(shù)峰會(huì)
精彩回顧
立即查看>> 【評(píng)選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評(píng)選
精彩回顧
立即查看>> 【白皮書】精準(zhǔn)洞察無(wú)線掌控——283FC智能自檢萬(wàn)用表
精彩回顧
立即查看>> 【工程師系列】汽車電子技術(shù)在線大會(huì)

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

<table id="kf1ju"></table>

<table id="kf1ju"></table>

<u id="kf1ju"></u>