最近好看的2019中文在线一页,北条麻妃国产九九九精品视,免费大片黄在线观看18
首頁(yè) > 資訊 > 行業(yè)

亞馬遜擬發(fā)布400萬(wàn)字會(huì)話數(shù)據(jù)集 幫助進(jìn)行自然語(yǔ)言處理研究

2019/04/02 14:40      騰訊科技


  4月2日消息,據(jù)外媒報(bào)道,亞馬遜今天表示,將在2019年9月發(fā)布超過400萬(wàn)字、針對(duì)自然語(yǔ)言處理研究的數(shù)據(jù)樣本。這個(gè)樣本名為“主題聊天數(shù)據(jù)集”(Topical Chat),其中包括眾包人類對(duì)話語(yǔ)料庫(kù),并將其提供給參加年度Alexa Prize Socialbot大挑戰(zhàn)的團(tuán)隊(duì)。

  亞馬遜稱,主題聊天數(shù)據(jù)集由21萬(wàn)多個(gè)主題會(huì)話,超過410萬(wàn)字,這使其成為世界上最大的公共會(huì)話和知識(shí)數(shù)據(jù)集之一。語(yǔ)料庫(kù)的每個(gè)會(huì)話和會(huì)話轉(zhuǎn)向都與提供給人群工作者的知識(shí)相關(guān)聯(lián),并且所涉及的知識(shí)都是從與實(shí)體相關(guān)各種“非結(jié)構(gòu)化”和“松散結(jié)構(gòu)”的文本資源中收集的。

  亞馬遜資深首席科學(xué)家迪利克·哈卡尼-圖爾(Dilek Hakkani-Tur)在博文中明確表示,這些會(huì)話都不是與Alexa客戶互動(dòng)的結(jié)果。

  哈卡尼-圖爾說:“這些數(shù)據(jù)的收集目標(biāo)是使下一步研究能夠在基于知識(shí)的神經(jīng)反應(yīng)生成系統(tǒng)中進(jìn)行,解決其他公開數(shù)據(jù)集沒有解決的自然對(duì)話中存在的困難挑戰(zhàn)。這將使研究人員能夠?qū)W⒂谌祟愒谥黝}之間的轉(zhuǎn)換、知識(shí)的選擇與豐富,以及將事實(shí)和意見納入對(duì)話,并支持出版高質(zhì)量、可重復(fù)的研究。”

  亞馬遜表示,競(jìng)爭(zhēng)Alexa Prize Socialbot大獎(jiǎng)的團(tuán)隊(duì)將可以訪問擴(kuò)展版本的數(shù)據(jù)集,其名稱為“擴(kuò)展主題聊天數(shù)據(jù)集”,其中包括正在進(jìn)行的收集和標(biāo)注的結(jié)果。

  在今天的聲明發(fā)布大約六個(gè)月前,亞馬遜就曾開放過一個(gè)數(shù)據(jù)集,可以用來訓(xùn)練AI模型,以識(shí)別不同語(yǔ)言和腳本類型的名稱。它被稱為“多語(yǔ)種命名實(shí)體音譯系統(tǒng)”,包括近40萬(wàn)個(gè)名字,語(yǔ)言包括摘自維基百科的阿拉伯語(yǔ)、英語(yǔ)、希伯來語(yǔ)、日語(yǔ)片假名和俄語(yǔ)。(騰訊科技審校/金鹿)

IT產(chǎn)業(yè)網(wǎng)微信二維碼logo

  榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報(bào)生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復(fù)制
標(biāo)題鏈接已成功復(fù)制

最新新聞

熱門新聞