隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)發(fā)展以及各種數(shù)字化終端設備的普及,2023年全球產(chǎn)生的數(shù)據(jù)量接近100ZB,且大部分是非結構化形態(tài)。要將原始形態(tài)數(shù)據(jù),轉化為機器可識別和學習的格式,數(shù)據(jù)標注服務應運而生。這兩年生成式AI的突破性發(fā)展,更是帶動數(shù)據(jù)標注從小眾服務迅速成長為潛力巨大的產(chǎn)業(yè)。根據(jù)Grand View Research的報告,2023年全球數(shù)據(jù)標注工具和服務市場規(guī)模達85億美元,其中,美國為28億美元,占1/3,尤其數(shù)據(jù)標注工具更為突出,占全球市場接近40%。據(jù)MARKETSANDMARKETS統(tǒng)計,當前全球Top30數(shù)據(jù)標注服務提供商中美國就有18家。
數(shù)據(jù)質(zhì)量是AI模型訓練面臨的最大挑戰(zhàn)。據(jù)美國最著名數(shù)據(jù)標注服務公司Scale AI對其1300名從業(yè)者調(diào)查發(fā)現(xiàn),三分之一表示他們遇到的首要問題是數(shù)據(jù)質(zhì)量問題,其次是收集、分析、存儲和版本控制問題。作為AI價值鏈的“上游”環(huán)節(jié),沒有高質(zhì)量數(shù)據(jù)集,意味著“下游”就無法高質(zhì)量建模,數(shù)據(jù)錯誤會轉化為AI的偏見和誤導性預測。高質(zhì)量數(shù)據(jù)集開發(fā)和提供因此成為數(shù)據(jù)標注服務的核心競爭力。
美國政府制定 “通過數(shù)據(jù)擴大機會和發(fā)現(xiàn)”戰(zhàn)略,積極推動AI高質(zhì)量數(shù)據(jù)提供
自提出數(shù)字經(jīng)濟戰(zhàn)略,美國政府就開始重視數(shù)據(jù)高質(zhì)量供給問題。美國的數(shù)據(jù)管理機構是商務部,于2016年成立獨立的聯(lián)邦咨詢委員會數(shù)字經(jīng)濟顧問委員會(DEBA),同年底發(fā)布《數(shù)字經(jīng)濟戰(zhàn)略》,強調(diào)技術和數(shù)據(jù)的雙輪驅動。
人工智能戰(zhàn)略中,美國政府尤其重視數(shù)據(jù)高質(zhì)量提供問題。2020年,特朗普總統(tǒng)宣布美國AI倡議承諾“增強高質(zhì)量和完全可追溯的聯(lián)邦數(shù)據(jù)的訪問……提高這些資源對AI研發(fā)的價值”,并指示機構識別并解決數(shù)據(jù)質(zhì)量限制問題�!堵�(lián)邦數(shù)據(jù)戰(zhàn)略2020年行動計劃》旨在通過集中聯(lián)邦政府資源推動AI技術發(fā)展,(1)強調(diào)了數(shù)據(jù)共享與開放,為數(shù)據(jù)標注服務提供了更豐富的數(shù)據(jù)資源,提高了數(shù)據(jù)的質(zhì)量和覆蓋范圍;(2)強調(diào)了數(shù)據(jù)治理和隱私保護的重要性,這有助于增強公眾對數(shù)據(jù)標注服務的信任;(3)促進跨部門合作,形成了統(tǒng)一的數(shù)據(jù)標準和共享機制,提高了數(shù)據(jù)標注的效率和質(zhì)量。這些措施共同構建了一個更加健全和高效的AI數(shù)據(jù)服務體系,對美國的數(shù)據(jù)標注服務及產(chǎn)業(yè)的高質(zhì)量發(fā)展產(chǎn)生了積極的影響。
生成式AI進一步促進美國政府對高質(zhì)量數(shù)據(jù)集提供的關注。今年1月,美國商務部數(shù)據(jù)治理委員會啟動了AI和開放政府數(shù)據(jù)資產(chǎn)工作組,任務是制定可供生成式AI使用的數(shù)據(jù)開放指南。4月,工作組面向公眾發(fā)布《為AI準備的政府數(shù)據(jù)資產(chǎn)開放》的需求征詢。強調(diào)AI工具越來越多地用于數(shù)據(jù)分析和數(shù)據(jù)訪問,為確保AI能夠恰當便捷地訪問數(shù)據(jù),要確保所訪問數(shù)據(jù)的完整性,確保數(shù)據(jù)“機器可理解”,而不僅僅是“機器可讀”,強調(diào)高質(zhì)量數(shù)據(jù)集提供至關重要。
美國國家標準與技術研究院(NIST)落實可信AI原則,制定標準和框架,規(guī)范高質(zhì)量數(shù)據(jù)集
美國將AI系統(tǒng)的倫理和社會影響納入國家標準戰(zhàn)略,其中之一是確保AI系統(tǒng)的可靠和可信,主要由商務部下屬的聯(lián)邦機構國家標準與技術研究院(NIST)來領導制定相關標準。
2023年1月,NIST發(fā)布了AI風險管理框架(RMF)。特別強調(diào)沒有數(shù)據(jù)就沒有AI,可信AI依賴高質(zhì)量數(shù)據(jù)集。AI系統(tǒng)運作的功能和決策可信度,很大程度上取決于系統(tǒng)訓練所需的數(shù)據(jù)集。因此,應采取必要措施以確保使用數(shù)據(jù)時遵守負責任的AI原則。
NIST積極推動全球可信AI標準的制定。2023年10月,拜登總統(tǒng)發(fā)布關于安全可靠和值得信賴的人工智能的行政命令,旨在建立新的AI安全和保障標準,促進創(chuàng)新和競爭,引領全球并推進美國的領導力。行政命令發(fā)布180天后, NIST如期發(fā)布四份草案文件,旨在幫助提高人工智能(AI)系統(tǒng)的安全性、安全性和可信賴性,其中第四份提出了制定全球AI標準的計劃。
NIST不斷開發(fā)并推出高質(zhì)量數(shù)據(jù)集。例如,NIST與執(zhí)法機構、民間社會和其他利益相關者合作開發(fā)面部數(shù)據(jù)集,可作為開發(fā)面部識別技術的組織共享使用。美國政府介入提供急需的高質(zhì)量數(shù)據(jù)已有先例。例如,美國交通部在2015年開始著手建立一個公開可訪問的國家地址數(shù)據(jù)庫,此前他們認識到幾個政府機構以及經(jīng)濟的大部分部門都在收集和依賴地址數(shù)據(jù),但缺乏這些信息的單一、全面來源,導致重復收集和碎片化的數(shù)據(jù)集。
美國數(shù)據(jù)標注企業(yè)制定數(shù)據(jù)質(zhì)量標準和管理流程,研究方法和技術,落實高質(zhì)量數(shù)據(jù)集提供
高質(zhì)量數(shù)據(jù)集首要的前提是確保數(shù)據(jù)的安全合規(guī)。數(shù)據(jù)標注公司積極參與并獲得數(shù)據(jù)管理頂級行業(yè)和國際標準認證,比如,LableYourData公司的數(shù)據(jù)標記和數(shù)據(jù)處理服務獲得了PCI DSS Level 1和ISO/IEC 27001:2013認證,并符合GDPR和CCPA規(guī)定。SuperAnnotate通過認證和遵守包括 SOC2Type2、HIPAA、GDPR、SSO、2FA 和 CCPA等行業(yè)安全標準和框架來優(yōu)先考慮數(shù)據(jù)安全。
其次,數(shù)據(jù)標注企業(yè)總結高質(zhì)量數(shù)據(jù)集的相關標準。比如,ClickWorker公司總結出高質(zhì)量數(shù)據(jù)集的六要素:準確性、完整性、一致性、時效性、有效性和獨特性。LableYourData公司認為高質(zhì)量數(shù)據(jù)集必須符合相關性并具一定覆蓋范圍:1、數(shù)據(jù)集的數(shù)據(jù)應與建模目標相關。如果為自動駕駛汽車設計ML算法,即使是由名人照片組成的最好的數(shù)據(jù)集,但不具相關性也沒用。2、確保構成數(shù)據(jù)集的數(shù)據(jù)片段足夠高質(zhì)量,讓數(shù)據(jù)符合所需特征列表。例如,當構建面部識別模型時,訓練照片需要具有足夠好的質(zhì)量。3、保證數(shù)據(jù)特征豐富性和多元性,避免不平衡的數(shù)據(jù)集導致模型結果存在盲點和偏見的問題。4、盡量使用真實數(shù)據(jù),雖然假數(shù)據(jù)更便宜、更干凈,并且數(shù)量充足,但假數(shù)據(jù)可能導致模型結果過度擬合或欠擬合。
再次,數(shù)據(jù)標注公司制定并在標注平臺內(nèi)嵌數(shù)據(jù)質(zhì)量保證(QA)程序化流程。比如,Kili科技公司研發(fā)了從數(shù)據(jù)上載到數(shù)據(jù)標注再到數(shù)據(jù)集交付的完整QA工作流,通過一致性檢查、審查與反饋以及質(zhì)量控制指標等工具,增強質(zhì)量管理;允許在標注界面直接使用自定義QA腳本進行錯誤的自動化識別,也可以使用預構建的模型自動發(fā)現(xiàn)并修復數(shù)據(jù)集的問題,保證95%準確率的高質(zhì)量數(shù)據(jù)集的交付。
另外,標注公司研究高質(zhì)量數(shù)據(jù)集的評估指標和參數(shù)。比如,LableYourData公司的數(shù)據(jù)質(zhì)量測算指標包括:(1)標注者間一致性測算,貫穿整個數(shù)據(jù)集、標注器之間、標簽之間的每個任務,確保每個標注者在數(shù)據(jù)集的所有類別中使用的方法是一致的;(2)共識算法,測算所有標注者所提供的標注的共識度,并確定最終標注;(3)Cronbach's Alpha測試,幫助檢查整個數(shù)據(jù)集的標注的一致性和可靠性。
啟示
總結以上美國企業(yè)高質(zhì)量數(shù)據(jù)集提供做法,對于我國數(shù)據(jù)標注產(chǎn)業(yè)高質(zhì)量發(fā)展有以下三點啟示:
1.統(tǒng)籌數(shù)字經(jīng)濟、數(shù)據(jù)要素與AI+三大戰(zhàn)略,培育可信AI生態(tài)系統(tǒng)。
美國的數(shù)字經(jīng)濟、AI和數(shù)據(jù)三大方面戰(zhàn)略,都統(tǒng)一歸口到美國商務部管理,充分發(fā)揮了政府、研究機構和企業(yè)之間的協(xié)作關系,也極大釋放了數(shù)據(jù)要素價值。為促進我國數(shù)據(jù)標注產(chǎn)業(yè)的高質(zhì)量發(fā)展,建議采取類似的三位一體戰(zhàn)略,構建以需求為中心的應用導向的可信AI生態(tài)系統(tǒng)。
2.構建數(shù)據(jù)標注產(chǎn)業(yè)服務平臺,加大對中小企業(yè)的扶持力度。
美國大型AI公司和標注服務企業(yè)在推動數(shù)據(jù)標注產(chǎn)業(yè)的技術革新和高質(zhì)量發(fā)展方面發(fā)揮著關鍵作用,為促進我國標注產(chǎn)業(yè)發(fā)展和技術創(chuàng)新,建議聚焦數(shù)據(jù)要素×行業(yè)應用和AI+重點項目,結合公共數(shù)據(jù)運營,組織構建數(shù)據(jù)標注產(chǎn)業(yè)服務平臺,將數(shù)據(jù)資源和算力作為公共服務向中小企業(yè)提供,節(jié)省他們的數(shù)據(jù)獲取成本。
3.加強數(shù)據(jù)管理和標準制定,推動企業(yè)數(shù)據(jù)標注技術創(chuàng)新和質(zhì)量提升。
美國企業(yè)通過技術創(chuàng)新和嚴格的質(zhì)量控制,確保了數(shù)據(jù)集的高質(zhì)量。我國數(shù)據(jù)標注企業(yè)應加強技術創(chuàng)新,利用生成式AI等先進技術提高數(shù)據(jù)標注的效率和質(zhì)量。同時,建立嚴格的數(shù)據(jù)質(zhì)量管理體系,從數(shù)據(jù)的采集、處理到標注的每個環(huán)節(jié)都進行嚴格的質(zhì)量控制。此外,國家應推動數(shù)據(jù)、數(shù)據(jù)治理及管理相關標準體系制定,企業(yè)應積極參與國家和國際標準制定,通過獲得行業(yè)、國家和國際標準認證,提升數(shù)據(jù)集開發(fā)的質(zhì)量和核心競爭力,打造數(shù)據(jù)標注領域的全球品牌。
本文作者
漆晨曦
戰(zhàn)略發(fā)展研究所
高級分析師
高級經(jīng)濟師,26年通信行業(yè)的數(shù)據(jù)分析、數(shù)據(jù)挖掘和數(shù)據(jù)科學及BI、營銷一體化平臺架構和業(yè)務規(guī)范的相關專業(yè)實踐和研究經(jīng)驗,近年專注企業(yè)數(shù)字化運營轉型和數(shù)據(jù)要素市場研究。
朱瑩瑩
戰(zhàn)略發(fā)展研究所
副主任分析師
高級經(jīng)濟師,碩士,長期從事通信行業(yè)競爭分析、數(shù)字經(jīng)濟產(chǎn)業(yè)及前沿技術跟蹤研究等工作。
徐靜
戰(zhàn)略發(fā)展研究所
一級分析師
就職于中國電信研究院,長期從事用戶需求調(diào)研、互聯(lián)網(wǎng)產(chǎn)品研究,近來專注人工智能領域。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...