聲加科技助力小米首款支持本地命令詞語音喚醒TWS耳機上市

2019/09/26 13:54 IT產業(yè)網

　　9 月 24 日，小米新一代真無線藍牙耳機 Air 2正式亮相，在外形和功能上都較一代有了非常大的變化。小米官方海報廣告詞宣稱“智能真無線，輕松舒適戴”，并且將“智能語音喚醒，雙麥克風降噪”作為其首條宣傳賣點。目前該產品已在小米商城開放預約，9月27日正式上市。

　　小米Air2宣傳海報，圖片來源于小米官網

　　Air2的語音喚醒到底有多智能呢?據本次算法技術支持方案商——聲加科技CEO邱鋒海介紹，此次小米Air2采用了聲加科技提供的耳機本地語音識別方案，與市面同類產品最大的不同是能直接在Air2耳機端完成多命令詞語音識別，急速響應命令——用戶在播放音樂時無需喚醒語音助手“小愛同學”，可直接向耳機發(fā)出語音指令“上一首/上一曲”，“下一首/下一曲”，迅速實現(xiàn)自由切歌，無需再等待語音助手喚醒手機進行響應，大大提高了用戶使用體驗。

　　小米Air2宣傳海報，圖片來源于小米官網

　　邱鋒海表示，耳機搭載語音助手已經成為目前TWS耳機的主流趨勢，但目前市面上絕大部分產品使用的還是以基于手機的語音識別方案，用戶每一次的語音指令都要首先喚醒手機語音助手，造成響應速度較慢(切換歌曲需要等待5~6秒)，不少用戶因此放棄了語音喚醒功能，寧可使用手勢或按鍵，甚至只能拿出手機進行操作，體驗欠佳。其原因主要受限于耳機運算能力較弱以及電池續(xù)航時間短，給耳機端進行精確的語音識別造成了極高難度。而聲加科技的小資源關鍵詞喚醒(KWS)有限語音命令方案攻克了技術難點，可實現(xiàn)喚醒低功耗計算方案，KWS啟動和手機語音交互，有限語音命令實現(xiàn)切歌、調音量等基本操作。在算法所需資源消耗上，低至30Mips, 50KBytes memory的喚醒詞模型(m4f平臺)，模型規(guī)模可變，能根據產品計算資源快速調整模型，還能整合聲加自有前端語音增強，優(yōu)化整體性能。

　　除此之外，耳機使用場景復雜且運算資源受限，如果只依靠基于深度學習的小資源語音識別模型，在嘈雜環(huán)境下會存在誤識率高、識別率低的問題。而Air2同時還搭載了聲加科技的雙麥SVE降噪技術，如定向拾音、環(huán)境降噪(尤其是風噪抑制)等，能有效降低通話時的環(huán)境噪聲，即使身處嘈雜環(huán)境，也能保障高清晰的語音識別以及通話質量。

　　對小米Air2直接說“下一首”，迅速切換歌曲

　　據了解，聲加科技成立于2018年1月，專注于通信聲學核心技術，依托于中科院聲學所雄厚的人才和科研資源，打造產學研一體化。其SVE(Soundplus Voice Enhancement)降噪技術可以廣泛應用于耳塞式耳機、半入耳式耳機、入耳式耳機、頭戴式耳機、掛耳式耳機等，是通過雙麥克風陣列，精準計算通話者說話的方位，在保護主方向目標語音的同時，去除環(huán)境中的各種干擾噪聲，例如其他人的講話聲、交通工具產生的噪音、風噪聲等等，有效抑制90%的反向環(huán)境噪聲，由此降低環(huán)境噪聲最高可達30dB，保證高品質通話效果。讓使用者無論身處何種嘈雜環(huán)境，都可細語輕聊，無懼干擾。其核心技術包括：

　　回聲消除AEC：

　　支持單通道回聲抵消、雙通道立體聲回聲抵消，可在設備自身播放大音量時輕松喚醒，ERLE>30dB。

　　聲源定位Direction of arrival estimation：

　　支持多源定位;可在強混響及噪聲干擾情況下準確定位目標聲源;工作信噪比可低至0db以下;DOA分辨率<10°。

　　波束形成Beamforming：

　　保護目標語音的同時，去除噪聲干擾與散射噪聲，大幅提高語音識別率;穩(wěn)態(tài)噪聲抑量>30dB，非平穩(wěn)噪聲印制量>24dB。

　　關鍵詞喚醒、有限語音命令詞識別Key word spotting、command

　　基于深度神經網絡訓練，根據前端算法進行深度優(yōu)化，精確辨識關鍵詞，超低誤喚醒。消耗資源配置靈活(小模型超低資源占用;資源豐富時可實現(xiàn)高性能識別)，可應用于耳機、手環(huán)、手表等可穿戴智能設備。5米喚醒率>93%，3米喚醒率>97%，誤喚醒<2次/48H。

　　基于機器學習降噪/識別

　　已成功用于聲學建模，與標準GMM模型相比語音識別率實現(xiàn)了大幅改進，DNN是全連接神經網絡，解決了局部最優(yōu)解的問題;卷積神經網絡CNN降低模型體積，充分利用語譜中的局部信息;循環(huán)神經網絡RNN可以對時間序列進行建模，適合處理語音信號。對動態(tài)/穩(wěn)態(tài)噪聲均有效(~30dB)同時保護語音成分，表現(xiàn)魯棒。

　　音效：

　　EQ均衡：通過對各種不同頻率的電信號的調節(jié)來補償揚聲器和聲場的缺陷，補償和修飾各種聲源及其它特殊作用。

　　虛擬環(huán)繞聲：在雙聲道立體聲的基礎上，不增加聲道和音箱，把聲場信號通過電路處理后播出，使聆聽者感到聲音來自多個方位。

　　SVE開啟前后對比(公路噪聲)：

　　此外，作為智能聽覺的創(chuàng)新公司，聲加科技的耳機技術方案還應用在了華為Flypods、小米Air、小米Air2、萬魔EM001、萬魔EM004、京東京魚座等產品上。目前，其團隊憑借十余年的技術積累，可為B端客戶提供復雜場景下的近場、中場、遠場語音交互技術方案，以及從芯片、模組、PCBA到工業(yè)設計的一站式產品方案。其回聲抵消、噪聲抑制、聲源定位、混響消除、波束形成、語音喚醒等性能在行業(yè)內均名列前位。

IT產業(yè)網微信二維碼logo

　　榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復制

標題鏈接已成功復制

聲加科技助力小米首款支持本地命令詞語音喚醒TWS耳機上市

最新新聞

熱門新聞

新動態(tài)

關注度

最話題

聲加科技助力小米首款支持本地命令詞語音喚醒TWS耳機上市

相關閱讀

最新新聞

熱門新聞

新動態(tài)

關注度

最話題