[No.L001]
8月10日消息,據(jù)國外媒體報(bào)道,谷歌本周發(fā)布了最新版的移送操作系統(tǒng)Android Pie,其中的亮點(diǎn)功能之一就是Smart Linkify。這是一個(gè)應(yīng)用程序編程接口,可在文本中檢測到地址、電話號碼和其他類似信息并調(diào)用可點(diǎn)擊鏈接。雖然這聽起來很炫酷,但事實(shí)上一切都是人工智能在背后作用的結(jié)果。
“在文本中識別出電話號碼和地址往往是一個(gè)難題,”谷歌人工智能軟件工程師盧卡斯齊卡(Lukas Zilka)在一篇博客文章中寫道。“這不僅是因?yàn)槿藗冊诰帉懳谋緯r(shí)有很多變化,而且文本中的組合代表什么樣的信息也經(jīng)常是模棱兩可(例如:’確認(rèn)號碼:857-555-3556’并不是一個(gè)電話號碼,即使它采用了類似于電話號碼的形式)。”
齊卡解釋說,Smart Linkify是對現(xiàn)有Android Linkify API的改進(jìn),其底層由兩個(gè)緊湊的、低延遲的前饋神經(jīng)網(wǎng)絡(luò)組成——由稱為節(jié)點(diǎn)的簡單處理單元層組成的機(jī)器學(xué)習(xí)算法——其中借用了前版移動(dòng)操作西戎Android Oreo的智能文本選擇功能。
這兩個(gè)神經(jīng)網(wǎng)絡(luò)都依賴第三個(gè)模型生成的數(shù)據(jù)。該模型從網(wǎng)絡(luò)中提取電話號碼、地址、產(chǎn)品、地點(diǎn)和商業(yè)名稱,并隨機(jī)添加“文本上下文”和短語(例如“確認(rèn)號碼”和“ID”)。谷歌人工智能團(tuán)隊(duì)針對拉丁文字語言(英語、德語、波蘭語和捷克語)使用一種算法,而針對日語、韓語、泰語、阿拉伯語和俄語等語種分別使用了完全不同的算法。
整個(gè)處理過程是這樣的:要分析的文本被拆分為單詞,然后從這些單詞中生成所有可能的最大長度子序列。然后,系統(tǒng)中的第一個(gè)神經(jīng)網(wǎng)絡(luò)為每個(gè)子序列分配一個(gè)值(在0到1之間),表示它對自己的身份(例如給定的一串?dāng)?shù)字是密碼還是電話號碼)的置信度。
得分最低的子序列從列表中刪除,然后第二個(gè)神經(jīng)網(wǎng)絡(luò)介入,按類型對子序列進(jìn)行分類——即電話號碼、地址或非實(shí)體信息。
“(網(wǎng)絡(luò))需要知道實(shí)體周圍的上下文(除了實(shí)體本身的文本字符串之外)。在機(jī)器學(xué)習(xí)中,這是通過將這些部分表示為單獨(dú)的特性來實(shí)現(xiàn)的。”齊卡表示,“實(shí)際上輸入文本被拆分成幾部分,分別饋送到神經(jīng)網(wǎng)絡(luò)。”
為此,單詞被轉(zhuǎn)換成n-gram模型(有時(shí)也稱為N元模子,是大詞匯連續(xù)語音識別中常用的一種語言模型),這種技術(shù)“將(詞匯)表示為一定長度的所有字符子序列的集合”。而一個(gè)神經(jīng)網(wǎng)絡(luò)辨識這些單詞是否以大寫字母開頭——這是郵政地址的一個(gè)顯著特征。
在實(shí)踐中,假設(shè)句子“約翰應(yīng)該在周二打電話1- 800-9444-9494”這句話,Smart Linkify首先會將“John應(yīng)該撥打”與“1- 800-9444-9494”分開,然后將“John應(yīng)該撥打”和“1-800-944-9494”分類為非實(shí)體電話號碼和電話號碼,最后在網(wǎng)絡(luò)瀏覽器或應(yīng)用程序中通過這個(gè)電話號碼創(chuàng)建一個(gè)可點(diǎn)擊的鏈接。
在智能手機(jī)硬件的限制下,這種工作對人工智能團(tuán)隊(duì)來說是一個(gè)額外的挑戰(zhàn)。他們通過量化(一種將連續(xù)范圍的值轉(zhuǎn)換為有限范圍離散值的壓縮技術(shù))以及在系統(tǒng)兩個(gè)神經(jīng)網(wǎng)絡(luò)之間共享某些數(shù)值表示等其他技術(shù)來解決這個(gè)問題。
在不久的將來,這個(gè)團(tuán)隊(duì)希望為日期和時(shí)間創(chuàng)建機(jī)器學(xué)習(xí)模型——尤其是識別文本中的非正式短語,如“下周四”或“三周后”。
“我們相信這種架構(gòu)可以擴(kuò)展到其他設(shè)備上的文本注釋問題,我們期待看到新的用例,”齊卡寫道。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...