[No.S024]
10月27-28日,一年一度的中國聲學(xué)領(lǐng)域技術(shù)交流盛會 “聲學(xué)樓13周年年會暨中國音響行業(yè)白皮書發(fā)布會”在深圳市南山區(qū)金百合大酒店隆重召開。本次大會以“砥礪奮進(jìn),行穩(wěn)致遠(yuǎn)”為主題,邀請了中科院聲學(xué)所、萬魔聲學(xué)、科大訊飛、小米科技、貓王收音機(jī)、樓氏電子等院所和企業(yè)的60余位行業(yè)大咖,與來自全國各地的知名專家學(xué)者、行業(yè)著名企業(yè)家、資深工程技術(shù)人員、年輕一線工程師等1500余人分享了31場深度技術(shù)垂直的議題報告。
來自全國各地的技術(shù)人員前來參會
座無虛席的大會現(xiàn)場
其中,在27日下午的特邀專題報告里,北京聲加科技CEO邱鋒海受邀以《聲加萬物、聆聽未來:智能語音交互應(yīng)用和技術(shù)》為題,分享了目前正在爆發(fā)的智能語音交互市場中的各項明星產(chǎn)品和其技術(shù)鏈條。并在演講中詳細(xì)分析了聲學(xué)前端技術(shù)所面臨的挑戰(zhàn)與機(jī)遇:如在百花齊放的新生市場里,智能音箱的“去插電化”、減少麥克風(fēng)組成的陣列、更靈活的喚醒詞訓(xùn)練及生成和智能耳機(jī)的尺寸更小、各類型傳感器數(shù)據(jù)融合以及更低功耗的喚醒等。
聲加科技CEO邱鋒海主題分享《聲加萬物、聆聽未來:智能語音交互應(yīng)用和技術(shù)》
邱鋒海表示,10萬年前,語言的出現(xiàn)大大加速了人類社會進(jìn)化和發(fā)展的進(jìn)程。時至今日,聽和說依然是人類最基本、最常用和最靈活的交流方式,同時也是最好的人機(jī)交互方式。在經(jīng)歷了計算機(jī)命令式交互到圖形界面觸摸交互,再到信息時代/高級信息時代的自然交互、和情感交互……毫無疑問,語音交互將會成為泛在的人機(jī)交互方式。
事實上,語音識別技術(shù)的研究可追溯到上世紀(jì)50年代,從單一模式匹配到70年代的模式和特征分析,再到90年的統(tǒng)計方法(HMM+GMM),直到2010年后,深度神經(jīng)網(wǎng)絡(luò)(DNN)取得了巨大的成功,基于DNN技術(shù)的應(yīng)用也呈爆炸式增長。同時,語音識別、自然語言理解、語音合成性能等技術(shù)大幅提升,互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的高速發(fā)展也為算法引擎提供了大量的數(shù)據(jù)“糧食”。在海量的數(shù)據(jù)紅利下,云端計算軟硬件系統(tǒng)的算力增長使其能夠快速處理海量數(shù)據(jù),再加上邊緣計算的能力增強(qiáng)、功耗降低等因素,語音交互的“基礎(chǔ)設(shè)施”已逐漸成熟。因此,智能語音交互應(yīng)用的興起也就順理成章。
然而,盡管語音識別在這幾年里得到迅速發(fā)展,但是目前業(yè)界聲稱的“語音識別準(zhǔn)確度達(dá)到了90%以上”(Google在2017年6月聲稱已達(dá)到95%的準(zhǔn)確率)其實是實驗室數(shù)據(jù)。“非純凈條件下”的現(xiàn)實生活里,這個準(zhǔn)確率則降至50-70%,甚至更低。
智能語音產(chǎn)品從人到機(jī)器完成一次語音交互,需要經(jīng)過四個主要的技術(shù)環(huán)節(jié):語音前端處理、語音識別(ASR)、自然語言理解(NLP)以及語音合成(TTS),即從聲音的拾取到轉(zhuǎn)換成文字,到理解其含義并作出反饋,再到將反饋說出。其中語音前端處理屬于客戶端,后三者則為云端。經(jīng)過多年的技術(shù)積累,語音識別和語音合成已經(jīng)獲得突破,基本可以滿足商用。而語音前端處理和自然語言理解依然是語音交互的核心瓶頸。
語音交互的技術(shù)鏈條
作為人機(jī)交互的最底層環(huán)節(jié),語音前端處理包括回聲消除、聲源定向、語音降噪、語音打斷、語音喚醒的麥克風(fēng)陣列,再通過麥克風(fēng)陣列實現(xiàn)復(fù)雜噪聲環(huán)境下的拾音。目前仍然處于商業(yè) 初級應(yīng)用階段,距離比較理想的體驗還有相當(dāng)大的距離。比如以Siri為代表的近場語音識別要求必須是低噪聲、無混響、距離聲源很近的場景,用戶一定要對著手機(jī) 講話才能獲得符合近場語音識別要求的聲音信號,環(huán)境稍微嘈雜一點(diǎn)語音識別引擎就失靈了;而以智能音箱為代表的遠(yuǎn)場語音識別場景下,依然存在誤喚醒,方言、童音識別不準(zhǔn)以及聲源移動中的識別率低下等問題。
邱鋒海認(rèn)為,目前智能音箱、智能耳機(jī)等產(chǎn)品的技術(shù)攻關(guān)主要還是在回聲消除、立體回聲消除、去混響、自適應(yīng)波束形成(抗干擾)、前端信號處理+KWS等;而語音前端信號處理的算法同樣面臨許多挑戰(zhàn),如單通道DNN語音增強(qiáng)、自噪聲抑制、多通道DNN語音增強(qiáng)等。同時,他也在演講最后留下了幾個開放性的問題:關(guān)于智能音箱的更少的麥克風(fēng)組成的陣列(2個或者3個),更低的計算功耗,更長的不插電待機(jī)時間,更靈活的喚醒詞訓(xùn)練、生成等,藍(lán)牙音箱的智能化(需要本地命令識別),人機(jī)交互是以智能音箱為核心的星型網(wǎng)絡(luò)結(jié)構(gòu)還是各設(shè)備的分布式交互;關(guān)于智能耳機(jī)的尺寸更小,引入其他傳感器后各類型傳感器數(shù)據(jù)融合,更低功耗的喚醒、體驗更好的語音交互功能等。
據(jù)悉,目前在智能語音交互市場中,國內(nèi)玩家主要分為傳統(tǒng)語音技術(shù)廠商、互聯(lián)網(wǎng)廠商,和新興的創(chuàng)業(yè)公司。其中大部分集中在語音識別(ASR)、自然語言理解(NLP)以及語音合成(TTS)等云端業(yè)務(wù),這也是歸結(jié)于語音前端處理技術(shù)的人才稀缺與實戰(zhàn)項目較少、缺乏經(jīng)驗累積等。與這些玩家相比,聲加科技更多著力于解決全場景下的語音前端處理,其強(qiáng)大的研發(fā)實力依托于中科院聲學(xué)所雄厚的人才和科研資源,研發(fā)人員均來自于中科院聲學(xué)所、清華大學(xué)、南京大學(xué)和中國科學(xué)技術(shù)大學(xué)等國內(nèi)一流科研院所,核心團(tuán)隊成員亦大多師出于中科院聲學(xué)所,平均在業(yè)界擁有超過十五年工作經(jīng)驗。團(tuán)隊此前已為國內(nèi)多個巨頭企業(yè)的智能音箱、智能耳機(jī)等明星產(chǎn)品提供遠(yuǎn)場麥陣模組設(shè)計方案、智能耳機(jī)麥陣算法、智能耳機(jī)模組等技術(shù)支持。
適用于多場景的多元化智能設(shè)備
“聲學(xué)樓”作為國內(nèi)最為專業(yè)和盛大的電聲技術(shù)研討會之一,本次大會不僅再一次掀起了中國音頻技術(shù)交流的高潮,還在開幕當(dāng)天上午由中國電子音響行業(yè)協(xié)會秘書長陳立新發(fā)布了《2018中國電子音響行業(yè)發(fā)展情況》(白皮書),并邀請中科院聲學(xué)所李曉東教授、魅族聲學(xué)總監(jiān)陳愛民、哈曼汽車電子全球研發(fā)中心揚(yáng)聲器系統(tǒng)工程總監(jiān)楊春洪、四川湖山電子高級工程師張康等業(yè)內(nèi)專家分別對智能音箱行業(yè)、耳機(jī)行業(yè)、汽車車載音響行業(yè)、專業(yè)音響行業(yè)的白皮書進(jìn)行介紹。值得一提的是,參與《中國智能音箱行業(yè)發(fā)展情況》主筆的李曉東教授不僅是邱鋒海和聲加科技數(shù)位成員在聲學(xué)所深造的導(dǎo)師,也是鼓勵其創(chuàng)業(yè)的前輩。
中科院聲學(xué)所李曉東教授、博導(dǎo)主題介紹《中國智能音箱行業(yè)發(fā)展情況》(2018版)編寫情況
成立于2005年的聲學(xué)樓是一個為聲學(xué)專業(yè)和電聲技術(shù)人員提供的專業(yè)技術(shù)和信息交流的開放性論壇。創(chuàng)辦以來已有超過十萬人來自世界各地的聲學(xué)工程師注冊會員,包括JBL、飛利浦、諾基亞、索尼、三星、松下、先鋒、恩智浦半導(dǎo)體、TYMPHANY、CELESTION等世界知名企業(yè)的工程師,都有會員加入。國內(nèi)會員則來自各個單位及科研院所。會員中不乏頂尖高校的碩博士、博導(dǎo)教授和高層管理者�?梢哉f,其論壇影響力在國內(nèi)聲學(xué)領(lǐng)域絕無僅有。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...