123,123,123

改寫(xiě)語(yǔ)音交互行規(guī)，豆包大模型更穩(wěn)了

2026-04-14 17:43

鋅刻度

關(guān)注

全雙工模式才是王道

撰文/ 陳鄧新

編輯/ 李季

排版/ Annalee

豆包大模型，又上新了。

2026年4月9日，原生全雙工語(yǔ)音大模型Seeduplex正式發(fā)布，相比上一代半雙工豆包端到端語(yǔ)音模型，新模型基于“邊聽(tīng)邊說(shuō)”的全新框架設(shè)計(jì)，交互體驗(yàn)的自然感、順暢度大幅提升，目前已在豆包App全量上線。

這意味著，前沿的全雙工語(yǔ)音技術(shù)，第一次實(shí)現(xiàn)商業(yè)規(guī)�；涞�。

而依托全雙工語(yǔ)音技術(shù)，豆包的語(yǔ)音交互不再是機(jī)械式的一問(wèn)一答，而是收放自如的聊天搭子，活人感躍然紙上。

顯而易見(jiàn)，AI應(yīng)用“一哥”如虎添翼了。

活人感才是語(yǔ)音交互的核心競(jìng)爭(zhēng)力

語(yǔ)音交互，成為互聯(lián)網(wǎng)競(jìng)爭(zhēng)的主戰(zhàn)場(chǎng)。

起初，人類(lèi)觸達(dá)數(shù)字世界交互方式為命令行；之后，圖形界面接棒，造就了PC的輝煌；等到觸控起勢(shì)，移動(dòng)互聯(lián)網(wǎng)的序幕也隨之拉開(kāi)。

如今，交互方式又有了新范式。

AI時(shí)代，語(yǔ)音交互走到了C位，不再是一個(gè)可有可無(wú)的輔助功能，而是提升交互效率、改變交互形態(tài)的核心載體。

皆因，語(yǔ)言才是人類(lèi)表達(dá)意圖的最短路徑。

如此一來(lái)，基于AI技術(shù)的語(yǔ)音交互正在打破現(xiàn)實(shí)世界與數(shù)字世界的交流壁壘，通過(guò)顛覆使用習(xí)慣的方式完成交互躍遷。

問(wèn)題在于，傳統(tǒng)的語(yǔ)音交互是半雙工模式。

半雙工模式之下，同一個(gè)時(shí)間段內(nèi)只有一個(gè)動(dòng)作發(fā)生，用戶(hù)說(shuō)話了則AI只能聽(tīng)著，反之亦然，這個(gè)過(guò)程一板一眼，不容絲毫偏差。

通俗易懂地說(shuō)，AI在語(yǔ)音交互的過(guò)程中缺乏活人感。

此背景下，哪怕語(yǔ)音識(shí)別與自然語(yǔ)言理解兩大技術(shù)成熟，語(yǔ)音識(shí)別準(zhǔn)確率接近人類(lèi)水平，也沒(méi)有讓傳統(tǒng)的語(yǔ)音交互出圈。

一名互聯(lián)網(wǎng)觀察人士告訴鋅刻度：“半雙工模式無(wú)法打斷正在進(jìn)行的說(shuō)話、難以過(guò)濾復(fù)雜環(huán)境的雜音、沒(méi)法感知用戶(hù)的正常停頓等，容易出現(xiàn)搶話、跑題等令人尷尬的問(wèn)題，嚴(yán)重影響了用戶(hù)的交互體驗(yàn)，直白地說(shuō)就是AI彬彬有禮卻無(wú)法與用戶(hù)共情。”

Seeduplex的全雙工模式，則有效解決了上述問(wèn)題。

全雙工之下，同一個(gè)時(shí)間段內(nèi)用戶(hù)與AI可以雙向交流，即用戶(hù)可以隨時(shí)插話與打斷，AI也可以持續(xù)傾聽(tīng)與及時(shí)響應(yīng)。

在此過(guò)程中，Seeduplex進(jìn)行全局聲學(xué)環(huán)境感知，精準(zhǔn)篩選出用戶(hù)與模型交互的真正聲音，過(guò)濾背景帶來(lái)的各種干擾聲，從而將誤回復(fù)率與誤打斷率降低了一半，用戶(hù)無(wú)需提高音量或?qū)ふ野察o角落，即可進(jìn)行高質(zhì)量的對(duì)話。

精準(zhǔn)抗干擾之外，Seeduplex還具備動(dòng)態(tài)判停能力。

通過(guò)聯(lián)合語(yǔ)音和語(yǔ)義特征，綜合判斷用戶(hù)意圖，面對(duì)用戶(hù)的思考猶豫，模型可以耐心傾聽(tīng)；在用戶(hù)說(shuō)完后，又可以快速響應(yīng)，從而搶話的概率相對(duì)降低了40%。

對(duì)此，一名專(zhuān)業(yè)人士表示：“通過(guò)語(yǔ)速、語(yǔ)調(diào)、語(yǔ)義的綜合考慮，動(dòng)態(tài)判�？梢怨睬槭絻A聽(tīng)用戶(hù)，理解用戶(hù)的停頓到底是在思考，還是真正把話說(shuō)完了，這才是Seeduplex最大的競(jìng)爭(zhēng)優(yōu)勢(shì)。”

一言以蔽之，Seeduplex成為一個(gè)有溫度、有深度、有人格、有靈魂的交互主體，依托活人感走了一條差異化競(jìng)爭(zhēng)的道路。

畢竟，活人感才是語(yǔ)音交互的核心競(jìng)爭(zhēng)力。

率先突破的為何是豆包

全雙工模式堪稱(chēng)降維打擊，自然成為行業(yè)追逐的焦點(diǎn)，可唯獨(dú)豆包大模型成為行業(yè)“吃螃蟹”的第一人，并非偶然。

一方面，語(yǔ)音交互一直是豆包的底色。

自推出以來(lái)，語(yǔ)音交互就成為豆包用戶(hù)體驗(yàn)的核心支柱，其即時(shí)互動(dòng)感頗受年輕人的青睞，進(jìn)而營(yíng)造了高粘性、正循環(huán)的社交氛圍。

由此一來(lái)，豆包成為AI應(yīng)用賽道的“一哥”。

QuestMobile的數(shù)據(jù)顯示，截至2025年9月，AI應(yīng)用市場(chǎng)移動(dòng)端、PC端月活躍用戶(hù)數(shù)分別達(dá)到7.29億、2.00億；其中，排名第一的豆包的月活躍用戶(hù)規(guī)模為1.72億。

華熙生物董事長(zhǎng)趙燕表示：“豆包這些AI，是生活的一部分，工作的一部分。重復(fù)、需要耗時(shí)耗力的一些事兒，我會(huì)讓豆包來(lái)做。AI給我們帶來(lái)的是業(yè)務(wù)的重塑，原來(lái)可能幾十個(gè)人的團(tuán)隊(duì)要干兩年，現(xiàn)在可能（只需要）五個(gè)小時(shí)。”

正因?yàn)槿绱�，豆包的語(yǔ)音交互生態(tài)每天都在源源不斷產(chǎn)出海量的真實(shí)數(shù)據(jù)，為孵化Seeduplex提供了肥沃的土壤，其訓(xùn)練語(yǔ)料的優(yōu)勢(shì)無(wú)法比擬。

另外一方面，豆包大模型的底蘊(yùn)深厚。

豆包大模型2024年5月的日均Token使用量為1200億，到了2026年3月日均Token使用量已突破120萬(wàn)億，足足增長(zhǎng)了1000倍。

須知，Token使用量是衡量AI發(fā)展速度的核心指標(biāo)。

這意味著，豆包大模型不斷技術(shù)迭代，從可用走向好用，為半雙工豆包端到端語(yǔ)音模型迭代為原生全雙工語(yǔ)音大模型Seeduplex創(chuàng)造了良好的條件。

火山引擎總裁譚待表示：“只有大的調(diào)用量，才能打磨出好模型。只有在真實(shí)場(chǎng)景中落地，用的人越多，調(diào)用量越大，模型才會(huì)越來(lái)越好。”

具體來(lái)看，為了讓全雙工成功落地，Seeduplex在模型框架設(shè)計(jì)、算法優(yōu)化、工程性能與穩(wěn)定性上下了一番功夫。

譬如，在模型框架設(shè)計(jì)上，放棄了經(jīng)典的“ASR（語(yǔ)音轉(zhuǎn)文本）→LLM（大腦思考生成回復(fù)）→TTS（語(yǔ)音合成）”模型架構(gòu)，設(shè)計(jì)了更貼合語(yǔ)音實(shí)時(shí)對(duì)話原生特性的模型架構(gòu)，使模型能夠直接從數(shù)據(jù)中學(xué)習(xí)語(yǔ)音與語(yǔ)義的一體化表達(dá)和節(jié)奏控制，顯著提升了交互自然度。

再譬如，活人感與對(duì)話智能、超低延遲、對(duì)話節(jié)奏控制、強(qiáng)抗干擾能力與指向性理解等指標(biāo)息息相關(guān)，因而需要依托海量語(yǔ)音數(shù)據(jù)進(jìn)行大規(guī)模預(yù)訓(xùn)練，并通過(guò)多能力、多任務(wù)的后訓(xùn)練體系，才可以達(dá)到多維能力協(xié)同進(jìn)化的目的。

合力之下，Seeduplex攻克了全雙工語(yǔ)音的數(shù)據(jù)構(gòu)建、超低時(shí)延與模型效果協(xié)同優(yōu)化等核心技術(shù)難題，打開(kāi)語(yǔ)音交互的新邊界。

測(cè)試數(shù)據(jù)顯示，相比上一代半雙工豆包端到端語(yǔ)音模型，Seeduplex的判停MOS分提高了8%，對(duì)話流暢度MOS分提升了12%。

智能座艙邁入語(yǔ)音交互時(shí)代

隨著語(yǔ)音交互從半雙工走向全雙工，可以進(jìn)一步賦能教育、直播、營(yíng)銷(xiāo)、客服等行業(yè)，釋放更大的生產(chǎn)力。

上述行業(yè)有一個(gè)共同的特征，即在語(yǔ)音交互的過(guò)程中需要避免機(jī)械感，從而增加用戶(hù)的沉浸感與參與感，最終提高用戶(hù)的信任度與滿意度。

不難看出，Seeduplex的出現(xiàn)不啻一場(chǎng)及時(shí)雨。

尤為值得一提的是，隨著汽車(chē)全面擁抱智能座艙，汽車(chē)正在撕下代步的標(biāo)簽，成為真正意義上的“第三空間”，也成為語(yǔ)音交互落地的最佳場(chǎng)景。

事實(shí)上，無(wú)需觸控、按鍵、旋轉(zhuǎn)，通過(guò)口頭指令即可控制打開(kāi)音樂(lè)、降低車(chē)窗、調(diào)整溫度、設(shè)置導(dǎo)航等日常操作，因而語(yǔ)音交互逐漸取代了傳統(tǒng)的人機(jī)界面。

不難看出，語(yǔ)音大模型成為智能座艙比拼的關(guān)鍵所在。

佐思汽研的數(shù)據(jù)顯示，車(chē)載大模型2025年1月的滲透率為10.8%，到了2025年12月已攀升至38.6%，走高的勢(shì)頭肉眼可見(jiàn)。

其中，豆包大模型拔得頭籌。

公開(kāi)資料顯示，豆包大模型覆蓋賽力斯、吉利汽車(chē)、長(zhǎng)城汽車(chē)、捷途汽車(chē)、智己汽車(chē)等20余家車(chē)企，2025 年新上市車(chē)型搭載量位居行業(yè)第一。

以別克至境E7為例，其與豆包大模型進(jìn)行了全鏈路共創(chuàng)模式，在高速噪聲、多音區(qū)等復(fù)雜環(huán)境下，將語(yǔ)音識(shí)別準(zhǔn)確率提升至98%，復(fù)雜指令理解超過(guò)95%。

火山引擎汽車(chē)總經(jīng)理?xiàng)盍ケ硎荆?ldquo;我們的合作，不是‘大模型上車(chē)’，而是‘大模型為車(chē)定制’。”

眼下，Seeduplex助陣，豆包可以更好地適配智能座艙場(chǎng)景，既能在低延遲條件下實(shí)現(xiàn)對(duì)話，克服聽(tīng)不準(zhǔn)、聽(tīng)不清、反應(yīng)遲鈍等傳統(tǒng)痛點(diǎn)，也能通過(guò)用戶(hù)的語(yǔ)調(diào)、語(yǔ)速、語(yǔ)義，判斷用戶(hù)的情緒，并給出積極的回應(yīng)，成為一個(gè)可以提供情緒價(jià)值的開(kāi)車(chē)搭子。

簡(jiǎn)而言之，豆包從助手化身為助理。

與此同時(shí)，在Seeduplex賦能之下，智能座艙可以“像人一樣思考、像人一樣交流、像人一樣成長(zhǎng)”，有了更大的想象空間與商業(yè)價(jià)值。

總而言之，全雙工語(yǔ)音技術(shù)走出了實(shí)驗(yàn)室，全面領(lǐng)先當(dāng)下主流的半雙工語(yǔ)音技術(shù)，未來(lái)不但會(huì)重新定義AI應(yīng)用的用戶(hù)體驗(yàn)，還可能孕育全新的語(yǔ)音交互商業(yè)模式。

那么，豆包有了更大的勢(shì)能。

原文標(biāo)題 : 改寫(xiě)語(yǔ)音交互行規(guī)，豆包大模型更穩(wěn)了