智能語(yǔ)音簡(jiǎn)史:這場(chǎng)技術(shù)革命從哪開始?
同年,清華大學(xué)和中科院聲學(xué)所在大詞庫(kù)漢語(yǔ)聽寫機(jī)的研制上取得了突破性進(jìn)展。
1990年,聲龍發(fā)布了第一款消費(fèi)級(jí)語(yǔ)音識(shí)別產(chǎn)品Dragon Dictate,價(jià)格高達(dá)9000美元。
1992年,IBM引入了它的第一個(gè)聽寫系統(tǒng),稱為“IBM Speech Server Series (ISSS)”。
1992年研發(fā)的Sphinx-II在同年美國(guó)國(guó)防部先進(jìn)技術(shù)研究計(jì)劃署(DARPA)資助的語(yǔ)音基準(zhǔn)評(píng)測(cè)中獲得了最高的識(shí)別準(zhǔn)確度,這主要得益于其在高斯混合和馬爾可夫狀態(tài)層次上用栓連參數(shù)平衡了可訓(xùn)練性和高效性。
1995年,Windows 95上首次搭載微軟SAPI,它使應(yīng)用程序開發(fā)者能夠在Windows上創(chuàng)建語(yǔ)音程序。
1995年,AT&T研究院的 Dave Ladd, Chris Ramming, Ken Rehor 以及 Curt Tuckey 在頭腦風(fēng)暴關(guān)于互聯(lián)網(wǎng)會(huì)如何改變電話應(yīng)用的時(shí)候,產(chǎn)生了一些新的想法:為什么不設(shè)計(jì)這樣一個(gè)系統(tǒng)來(lái)運(yùn)行一種可以解析某種語(yǔ)音標(biāo)記語(yǔ)言的語(yǔ)音瀏覽器,用來(lái)把互聯(lián)網(wǎng)的內(nèi)容和服務(wù)提供到千家萬(wàn)戶的電話上。于是,AT&T就開始“電話網(wǎng)絡(luò)項(xiàng)目”(Phone Web Project)。之后,Chris繼續(xù)留在AT&T,Ken去了朗訊,Dave和Curt去了摩托羅拉。(1999年初的時(shí)候,他們分別在各自的公司邁出了語(yǔ)音標(biāo)記語(yǔ)言規(guī)范實(shí)質(zhì)性的第一步。因?yàn)樗麄兊拿苡殃P(guān)系,這幾家公司合作成立了一個(gè)VoiceXML論壇組織,IBM也作為一個(gè)創(chuàng)始公司加入了進(jìn)來(lái)。)
1997年IBM ViaVoice首個(gè)語(yǔ)音聽寫產(chǎn)品問(wèn)世,你只要對(duì)著話筒喊出要輸入的字符,它就會(huì)自動(dòng)判斷并且?guī)湍爿斎胛淖。次年又開發(fā)出可以識(shí)別上海話、廣東話和四川話等地方口音的語(yǔ)音識(shí)別系統(tǒng)ViaVoice’ 98。
1998年,微軟在北京成立亞洲研究院,將漢語(yǔ)語(yǔ)音識(shí)別納入重點(diǎn)研究方向之一。
2001年,比爾蓋茨在美國(guó)消費(fèi)電子展上展示了一臺(tái)代號(hào)為MiPad的原型機(jī)。Mipad展現(xiàn)了語(yǔ)音多模態(tài)移動(dòng)設(shè)備的愿景。
2002年,中科院自動(dòng)化所及其所屬模式科技公司推出了“天語(yǔ)”中文語(yǔ)音系列產(chǎn)品——Pattek ASR,結(jié)束了該領(lǐng)域一直被國(guó)外公司壟斷的局面。
2002年,美國(guó)國(guó)防部先進(jìn)技術(shù)研究計(jì)劃署(DARPA)首先啟動(dòng)了EARS項(xiàng)目和TIDES 項(xiàng)目; 由于EARS項(xiàng)目過(guò)于敏感,EARS和TIDES兩個(gè)項(xiàng)目合并為“全球自主語(yǔ)言開發(fā)”(Global Autonomous Language Exploitation,GALE)。GALE目標(biāo)是應(yīng)用計(jì)算機(jī)軟件技術(shù)對(duì)海量規(guī)模的多語(yǔ)言語(yǔ)音和文本進(jìn)行獲取、轉(zhuǎn)化、分析和翻譯。
2006年,辛頓(Hinton)提出深度置信網(wǎng)絡(luò)(DBN),促使了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)研究的復(fù)蘇,掀起了深度學(xué)習(xí)的熱潮。
2009年,辛頓以及他的學(xué)生默罕默德(D. Mohamed)將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音的聲學(xué)建模,在小詞匯量連續(xù)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)TIMIT上獲得成功。
2009年微軟Win7集成語(yǔ)音功能。
2010年Google Vioce Action支持語(yǔ)音操作與搜索。
2011年初,微軟的DNN模型在語(yǔ)音搜索任務(wù)上獲得成功。
同年科大訊飛將DNN 首次成功應(yīng)用到中文語(yǔ)音識(shí)別領(lǐng)域,并通過(guò)語(yǔ)音云平臺(tái)提供給廣大開發(fā)者使用。
2011年10月,蘋果iPhone 4S發(fā)布,個(gè)人手機(jī)助理Siri誕生,人機(jī)交互翻開新篇章。
2012年,科大訊飛在語(yǔ)音合成領(lǐng)域首創(chuàng)RBM技術(shù)。
2012年,谷歌的智能語(yǔ)音助手Google Now 的形式出現(xiàn)在眾人面前,用在安卓 4.1 和 Nexus 手機(jī)上。
2013年,Google發(fā)布Google Glass,蘋果也加大了對(duì)iWatch的研發(fā)投入,穿戴式語(yǔ)音交互設(shè)備成為新熱點(diǎn)。
同年,科大訊飛在語(yǔ)種識(shí)別領(lǐng)域首創(chuàng)BN-ivec技術(shù)。
2014 年,思必馳推出首個(gè)可實(shí)時(shí)轉(zhuǎn)錄的語(yǔ)音輸入板。
2014年11月,亞馬遜智能音箱Echo發(fā)布。
2015 年,思必馳推出首個(gè)可智能打斷糾正的語(yǔ)音技術(shù)。
2016年,Google Assistant伴隨Google Home 正式亮相,搶奪亞馬遜智能音箱市場(chǎng)。(亞馬遜Echo在2016年的智能音箱市場(chǎng)占有率達(dá)到了巔峰的88%)
同年,科大訊飛上線DFCNN(深度全序列卷積神經(jīng)網(wǎng)絡(luò),Deep Fully Convolutional Neural Network)語(yǔ)音識(shí)別系統(tǒng)。
同年11月,科大訊飛、搜狗、百度先后召開發(fā)布會(huì),對(duì)外公布語(yǔ)音識(shí)別準(zhǔn)確率均達(dá)到“97%”。
2017年3月,IBM結(jié)合了 LSTM 模型和帶有 3 個(gè)強(qiáng)聲學(xué)模型的 WaveNet 語(yǔ)言模型!凹袛U(kuò)展深度學(xué)習(xí)應(yīng)用技術(shù)終于取得了 5.5% 詞錯(cuò)率的突破”。相對(duì)應(yīng)的是去年5月的6.9%。
2017年8月,微軟發(fā)布新的里程碑,通過(guò)改進(jìn)微軟語(yǔ)音識(shí)別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽覺和語(yǔ)言模型,在去年基礎(chǔ)上降低了大約12%的出錯(cuò)率,詞錯(cuò)率為5.1%,聲稱超過(guò)專業(yè)速記員。相對(duì)應(yīng)的是去年10月的5.9%,聲稱超過(guò)人類。
2017年12月,谷歌發(fā)布全新端到端語(yǔ)音識(shí)別系統(tǒng)(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),詞錯(cuò)率降低至5.6%。相對(duì)于強(qiáng)大的傳統(tǒng)系統(tǒng)有 16% 的性能提升。
市場(chǎng)分析公司Canalys在2018年1月分布一份報(bào)告,其預(yù)測(cè)2018年將是普及智能音箱的“決定性一年”,相比全年出貨量剛過(guò)3000萬(wàn)臺(tái)的2017年,2018年智能音箱全球出貨量預(yù)計(jì)將達(dá)到5630萬(wàn)臺(tái)。
中投顧問(wèn)發(fā)布的《2018-2022年中國(guó)智能語(yǔ)音行業(yè)深度調(diào)研及投資前景預(yù)測(cè)報(bào)告》顯示我國(guó)智能語(yǔ)音市場(chǎng)整體處于啟動(dòng)期,智能車載,智能家居,智能可穿戴等垂直領(lǐng)域處于爆發(fā)前夜。
文章引用
[1] 李曉雪. 基于麥克風(fēng)陣列的語(yǔ)音增強(qiáng)與識(shí)別研究[D]. 浙江大學(xué), 2010.
[2] 倪崇嘉, 劉文舉, 徐波. 漢語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)研究進(jìn)展[J]. 中文信息學(xué)報(bào), 2009, 23(1):112-123.
[3] 高朝煌. 非特定人漢語(yǔ)連續(xù)數(shù)字語(yǔ)音識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D]. 西安電子科技大學(xué), 2011.
[4] 《2017年的語(yǔ)音識(shí)別,路只走了一半》
[5] 《2018-2022年國(guó)內(nèi)外智能語(yǔ)音發(fā)展的分析》
[6] 《四十年的難題與榮耀—從歷史視角看語(yǔ)音識(shí)別發(fā)展》
[7] 《幾個(gè)常見的語(yǔ)音交互平臺(tái)的簡(jiǎn)介和比較》
[8] 《VoiceXML簡(jiǎn)介》
[9] 《思必馳官方介紹資料》

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車研發(fā)中心重磅落地,寶馬家門口“搶人”
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
推薦專題
- 1 人形機(jī)器人,正狂奔在批量交付的曠野
- 2 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 3 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 4 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 5 2025年8月人工智能投融資觀察
- 6 7 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 8 Manus跑路,大廠掉線,只能靠DeepSeek了
- 9 一家被嚴(yán)重低估的國(guó)產(chǎn)AI巨頭
- 10 地平線的野心:1000萬(wàn)套HSD上車