中美都在押注,數(shù)據(jù)標(biāo)注為什么站到C位
文|任曉漁
編|徐鑫
“親愛的特朗普總統(tǒng),美國必須贏得AI戰(zhàn)爭。”今年年初,年僅 28 歲的 Alexandr Wang在川普就職典禮第二天,在華盛頓郵報(bào)為自己的數(shù)據(jù)標(biāo)注服務(wù)公司Scale AI打出了整版廣告。
Alexandr Wang這個(gè)看起來頗為“加戲”的動(dòng)作,讓數(shù)據(jù)標(biāo)注第一次走進(jìn)普羅大眾視野。它也凸顯一個(gè)現(xiàn)實(shí)——在AI三要素里,相比模型和算力領(lǐng)域里的硝煙滾滾,大眾對(duì)數(shù)據(jù)領(lǐng)域的演進(jìn)缺乏更多的認(rèn)知。
不過,兩周前,Meta以143億美金收購Scale AI 49%股權(quán),這讓AI數(shù)據(jù)服務(wù)領(lǐng)域真正成為了全球關(guān)注焦點(diǎn),也引發(fā)了美國數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的一場(chǎng)大地震。
無獨(dú)有偶,除了美國巨頭押注AI數(shù)據(jù)服務(wù)價(jià)值,國內(nèi)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)過去一年多里熱度也在不斷攀升,頂層設(shè)計(jì)和市場(chǎng)端都有不小的動(dòng)作。7大國家級(jí)數(shù)據(jù)標(biāo)注基地試點(diǎn)城市落地,國家數(shù)據(jù)局還集中發(fā)布了47個(gè)數(shù)據(jù)標(biāo)注優(yōu)秀案例集,同時(shí),一批數(shù)據(jù)標(biāo)注服務(wù)公司則迎來了業(yè)績的快速攀升。
不過,在產(chǎn)業(yè)界的頻繁動(dòng)作之外,業(yè)界又流行一個(gè)說法,數(shù)據(jù)標(biāo)注正在加速自動(dòng)化,技術(shù)進(jìn)步正在許多標(biāo)注任務(wù)逐漸消失。
這讓人好奇,中美都在押注的領(lǐng)域,到底是怎樣一個(gè)產(chǎn)業(yè)?當(dāng)下這一領(lǐng)域處在怎樣的發(fā)展階段?自動(dòng)化會(huì)讓數(shù)據(jù)標(biāo)注走開嗎?接下來競爭將如何展開?
01
并購案背后,AI基礎(chǔ)數(shù)據(jù)服務(wù)站上C位
“數(shù)據(jù)是人工智能中最有價(jià)值的資產(chǎn)之一”,這句人工智能時(shí)代的共識(shí),在Scale AI并購以及隨之而來的AI基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)震蕩中得到了絕佳的驗(yàn)證。
143億美金的并購金額,在Meta的并購歷史里僅次于收購whatsApp。Meta愿意支付這個(gè)價(jià)碼,背后是Meta對(duì)在當(dāng)下大模型競爭里掉隊(duì)的焦慮。
過去幾個(gè)月里,這家硅谷巨頭面臨著不小的壓力。今年4月,Meta發(fā)布的Llama 4 模型反饋不及預(yù)期,更大的模型Behemoth也被延期發(fā)布。
被收購一方,Scale AI之所以能叫出天價(jià),既要從這家公司在AI基礎(chǔ)數(shù)據(jù)服務(wù)領(lǐng)域的地位說起,又與數(shù)據(jù)標(biāo)注和挖掘在當(dāng)下的模型訓(xùn)練中的重要位置密不可分。
Scale AI成立于2016年,它最初是一個(gè)提供眾包服務(wù)的平臺(tái),幫助企業(yè)完成一些內(nèi)容審核、數(shù)據(jù)提取等需要人工操作的任務(wù)。之后隨著自動(dòng)駕駛領(lǐng)域?qū)?shù)據(jù)審核與標(biāo)注的龐大需求。Scale AI開始專注在數(shù)據(jù)標(biāo)注領(lǐng)域,幫助客戶收集、清理、標(biāo)注和管理大規(guī)模數(shù)據(jù),助力自動(dòng)駕算法研發(fā)。
大模型浪潮來臨后,Scale AI收入從2022年的2.9億美元一下子飆升到2023年的7.6億美金,2024年繼續(xù)增長到8.7億美金。有消息稱預(yù)計(jì)2025年這家公司的營收將達(dá)到20億美金水平。
如果你對(duì)它的營收沒有太多的概念,OpenAI 2024營收為37億美元。而根據(jù)Grand View Research數(shù)據(jù)顯示,2023年全球數(shù)據(jù)標(biāo)注和服務(wù)市場(chǎng)規(guī)模達(dá)140.7億美元。其中,美國的市場(chǎng)規(guī)模達(dá)42億美元,全球占比近30%。Scale AI的收入規(guī)模,稱得上是數(shù)據(jù)基礎(chǔ)服務(wù)領(lǐng)域里的賣水人之一。
Scale AI的客戶包括谷歌、蘋果、xAI、Meta、微軟和亞馬遜等在內(nèi)的一眾硅谷巨頭。去年谷歌在Scale AI的花費(fèi)約 1.5 億美元,是它的第一大客戶。
科技媒體BI報(bào)道,今年4月,Scale AI為Google運(yùn)行了至少38個(gè)活躍項(xiàng)目,占當(dāng)時(shí)Scale AI在該列表上的107個(gè)生成式AI項(xiàng)目的三分之一以上。而服務(wù)xAI的數(shù)據(jù)項(xiàng)目里包含了一個(gè)名為Xylophone 的項(xiàng)目,主要是幫助訓(xùn)練xAI的聊天機(jī)器人,提升其在廣泛話題上的對(duì)話能力。
廣泛的客戶網(wǎng)絡(luò),其實(shí)反映了數(shù)據(jù)標(biāo)注和AI基礎(chǔ)數(shù)據(jù)服務(wù)在當(dāng)下模型訓(xùn)練中的重要位置。
人工智能行業(yè)有一個(gè)提法,“垃圾進(jìn),垃圾出”,數(shù)據(jù)的質(zhì)量十分影響模型的表現(xiàn)。而數(shù)據(jù)標(biāo)注本質(zhì)上是要把大量機(jī)器無法理解的非結(jié)構(gòu)化數(shù)據(jù)翻譯成機(jī)器能理解的結(jié)構(gòu)化數(shù)據(jù)。大模型浪潮下,由于數(shù)據(jù)參數(shù)規(guī)�?涨�,為了提升模型智能水平,圍繞著數(shù)據(jù)標(biāo)注和處理的預(yù)算也在飆升。
據(jù)AI 基礎(chǔ)數(shù)據(jù)服務(wù)廠商LXT2024年對(duì)322家有AI 項(xiàng)目經(jīng)驗(yàn)的美國企業(yè)的調(diào)研,整個(gè)2023年企業(yè)在訓(xùn)練數(shù)據(jù)上的資金投入占這些企業(yè)的AI整體建設(shè)投入的15%。此前行業(yè)內(nèi)還流傳一個(gè)說法,高質(zhì)量的標(biāo)注數(shù)據(jù)是ChatGPT效果區(qū)別于其他競爭對(duì)手的原因之一。
重重因素之下,Meta做出了大手筆并購Scal AI的決定。也許在當(dāng)下的Meta看來,通過與數(shù)據(jù)服務(wù)領(lǐng)域領(lǐng)頭羊合作,有助于其更好地獲得模型訓(xùn)練的專有數(shù)據(jù),并且能基于數(shù)據(jù)來訓(xùn)練更高智能的模型,從而在當(dāng)下大模型競爭中跟上節(jié)奏。
這項(xiàng)大手筆收購也使得數(shù)據(jù)標(biāo)注產(chǎn)業(yè)和人工智能供應(yīng)鏈條發(fā)生了一系列連鎖反應(yīng)。
首先是,一大批與Meta的模型存在競爭關(guān)系的廠商紛紛開始切斷與Scale AI的合作。比如Scale AI的最大客戶谷歌就在交易達(dá)成后立即暫停了兩個(gè)代號(hào)為"Genesis"和"Beetle Crown"的項(xiàng)目合作。
其次是,與Scale AI競爭的一批數(shù)據(jù)標(biāo)注廠商們則趁機(jī)開拓客戶,比如Sapien,Appen、Prolific 和 Turing等企業(yè)成為不少AI廠商多元化數(shù)據(jù)標(biāo)注供應(yīng)商選擇時(shí)的候選。Sapien AI的CEO Rowan Stone還表示,在 Meta 交易后 48 小時(shí)內(nèi),他們平臺(tái)新增 4 萬名數(shù)據(jù)標(biāo)注注冊(cè)者,服務(wù)器都崩了。
在人們對(duì)Meta收購影響Scale AI標(biāo)注數(shù)據(jù)中立性以及對(duì)商業(yè)機(jī)密泄漏的擔(dān)憂中,Scale AI也發(fā)表了平臺(tái)中立性聲明。
但聲明發(fā)布并未止住行業(yè)內(nèi)的各種爭議。一場(chǎng)行業(yè)大洗牌已經(jīng)在進(jìn)行中。
02
政策市場(chǎng)雙驅(qū)動(dòng),國內(nèi)市場(chǎng)狂飆猛進(jìn)
海外數(shù)據(jù)標(biāo)注產(chǎn)業(yè)大洗牌之際,過去一兩年里,中國作為全球人工智能產(chǎn)業(yè)增速最快的國家之一,數(shù)據(jù)需求快速增長,數(shù)據(jù)標(biāo)注領(lǐng)域也隨之演進(jìn)。
首先是政策端的加持非常明顯,去年開始國內(nèi)接連出臺(tái)與數(shù)據(jù)標(biāo)注相關(guān)的政策法規(guī),從頂層設(shè)計(jì)上為數(shù)據(jù)標(biāo)注產(chǎn)業(yè)提供催化劑。
去年6月,國家數(shù)據(jù)局發(fā)布首批7家數(shù)據(jù)標(biāo)注基地試點(diǎn)城市名單,七個(gè)城市在數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的生態(tài)構(gòu)建、能力提升和場(chǎng)景應(yīng)用等方面扮演了先行先試的角色。
IDC告訴數(shù)智前線,這一政策初衷是為了推動(dòng)高質(zhì)量數(shù)據(jù)集建設(shè),目標(biāo)也是為了更好的推動(dòng)AI發(fā)展、為數(shù)據(jù)要素流通提供標(biāo)準(zhǔn)數(shù)據(jù)支持,在城市選擇上會(huì)綜合考慮城市需求、人才結(jié)構(gòu)等因素。
去年12月,數(shù)據(jù)標(biāo)注領(lǐng)域又迎來了重磅綱領(lǐng)性文件。國家四部委聯(lián)合發(fā)布《關(guān)于促進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的實(shí)施意見》,明確提出了到2027年產(chǎn)業(yè)規(guī)模年均復(fù)合增長率超過20%的發(fā)展目標(biāo),為國內(nèi)的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)構(gòu)建起了產(chǎn)業(yè)發(fā)展的“四梁八柱”。
同時(shí),各地過去一年也不斷出臺(tái)相關(guān)的法規(guī)和政策,指導(dǎo)產(chǎn)業(yè)發(fā)展。
同時(shí),行業(yè)主管部門還積極樹標(biāo)桿,推動(dòng)行業(yè)標(biāo)準(zhǔn)化建設(shè)。今年4月,國家數(shù)據(jù)局在第八屆數(shù)字中國建設(shè)峰會(huì)“高質(zhì)量數(shù)據(jù)集和數(shù)據(jù)標(biāo)注主題交流活動(dòng)”上發(fā)布了47個(gè)數(shù)據(jù)標(biāo)注優(yōu)秀案例集,涉及到醫(yī)療、交通、農(nóng)業(yè)、能源等20余個(gè)領(lǐng)域。這些標(biāo)桿案例提供了可復(fù)用的實(shí)踐范本,也為相關(guān)領(lǐng)域的標(biāo)準(zhǔn)統(tǒng)一、經(jīng)驗(yàn)共享打下了基礎(chǔ)。
政策加持的同時(shí),隨著大模型落地應(yīng)用浪潮的到來,數(shù)據(jù)標(biāo)注市場(chǎng)側(cè)熱度和規(guī)模也由明顯的提升。一批企業(yè)如海天瑞聲,澳鵬等都迎來了業(yè)績的快速增長。
以澳鵬為例,今年2月澳鵬發(fā)布2024年年報(bào)顯示,去年其中國區(qū)業(yè)務(wù)營收突破4.2億,年增長達(dá)到71% ,其中的大模型/AIGC業(yè)務(wù)增長了526%。澳鵬披露,許多AI龍頭,特別是大模型 AI企業(yè)成為了澳鵬的客戶,大模型及大模型相關(guān)業(yè)務(wù)已經(jīng)占據(jù)了澳鵬中國營收的40%。
AI數(shù)據(jù)服務(wù)創(chuàng)業(yè)公司整數(shù)智能CEO林群書則告訴數(shù)智前線,去年隨著多模態(tài)模型的快速演進(jìn),他們感受到市場(chǎng)的數(shù)據(jù)標(biāo)注需求呈現(xiàn)出指數(shù)級(jí)增長。
一位行業(yè)資深人士認(rèn)為,數(shù)據(jù)標(biāo)注領(lǐng)域市場(chǎng)端的熱鬧,與過去一年多人工智能領(lǐng)域的結(jié)構(gòu)性變化有關(guān)。以DeepSeek為代表的國產(chǎn)開源模型正極大拉平國內(nèi)與海外的模型方面的差距,同時(shí)國產(chǎn)模型進(jìn)步,對(duì)算力的消耗降低,緩解了許多企業(yè)的算力焦慮,使得數(shù)據(jù)層面重要性被提到更高位置。
“數(shù)據(jù)的質(zhì)量、規(guī)模和精準(zhǔn)性將直接決定模型能力的上限,也成為模型落地效果的關(guān)鍵。”該人士告訴數(shù)智前線。
產(chǎn)業(yè)的想象空間在快速打開。艾瑞咨詢的數(shù)據(jù)顯示,2024年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模為58億元,2028 年規(guī)模將達(dá)到170億元,年復(fù)合增長率為30.84%。
而IDC告訴數(shù)智前線,目前模型應(yīng)用走向垂直領(lǐng)域,數(shù)據(jù)標(biāo)注的場(chǎng)景需求主要圍繞自動(dòng)駕駛、教育、醫(yī)療、金融、零售、政務(wù)等展開。
市場(chǎng)熱度增加,數(shù)智前線觀察到,行業(yè)內(nèi)的參與主體也在變多,競爭正變得激烈,同時(shí),產(chǎn)業(yè)鏈上中下游界限也逐漸模糊起來。
比如模型廠商可能從提供更完整的模型能力配套角度,在數(shù)據(jù)標(biāo)注領(lǐng)域有相關(guān)的產(chǎn)品服務(wù)。典型的有智譜AI,去年它推出的Batch API,利用大模型技術(shù)來解決數(shù)據(jù)標(biāo)注問題。百度智能云等數(shù)據(jù)標(biāo)注服務(wù)。
也有應(yīng)用企業(yè)從AI落地的角度,在應(yīng)用中推出了一些運(yùn)營工具標(biāo)注一些數(shù)據(jù),降低場(chǎng)景內(nèi)的幻覺。典型有瓴羊在智能客服Quick Service應(yīng)用里推出AI運(yùn)營中心,針對(duì)智能客服場(chǎng)景里的幻覺問題,通過訓(xùn)練中心進(jìn)行標(biāo)注,將高質(zhì)量數(shù)據(jù)來反哺模型,讓問答更加準(zhǔn)確。
“應(yīng)用內(nèi)的標(biāo)注緩解模型幻覺服務(wù)于模型微調(diào)的環(huán)節(jié),是基�,F(xiàn)階段能力不足的一個(gè)補(bǔ)充或臨時(shí)方案”,一位數(shù)據(jù)標(biāo)注行業(yè)人士告訴數(shù)智前線。
03
技術(shù)演進(jìn),讓數(shù)據(jù)標(biāo)注走開?
全球數(shù)據(jù)標(biāo)注產(chǎn)業(yè)快速發(fā)展之際,也有一種聲音認(rèn)為,數(shù)據(jù)標(biāo)注領(lǐng)域可能會(huì)因?yàn)榧夹g(shù)進(jìn)步,面臨新的挑戰(zhàn)。比如就有人指出,未來AI會(huì)自動(dòng)完成許多標(biāo)注任務(wù),標(biāo)注領(lǐng)域的企業(yè)可能需要加速轉(zhuǎn)型。
針對(duì)這一趨勢(shì),數(shù)智前線同多位行業(yè)人士交流,業(yè)界普遍認(rèn)為大模型時(shí)代,數(shù)據(jù)標(biāo)注正逐漸走向復(fù)雜化、自動(dòng)化和專業(yè)化。自動(dòng)化浪潮并不意味著不需要標(biāo)注。
首先是數(shù)據(jù)標(biāo)注的復(fù)雜化趨勢(shì),它與大模型技術(shù)演進(jìn)帶來的數(shù)據(jù)標(biāo)注需求變化有關(guān)。
主流大模型普遍采用了無監(jiān)督自動(dòng)學(xué)習(xí)機(jī)制,在預(yù)訓(xùn)練環(huán)節(jié)大量使用無標(biāo)注數(shù)據(jù),而之后的監(jiān)督微調(diào)(SFT)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)階段,仍需要人工標(biāo)注。
一位數(shù)據(jù)標(biāo)注行業(yè)人士介紹,基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)環(huán)節(jié),企業(yè)的數(shù)據(jù)需求,需要人去對(duì)機(jī)器給出的答案去做排序和對(duì)齊,把人文的傾向、三觀、喜好給機(jī)器學(xué)習(xí)。相比此前拉框畫圈式的簡單標(biāo)注,在微調(diào)和RLHF環(huán)節(jié),數(shù)據(jù)標(biāo)注的復(fù)雜度變得更高,對(duì)標(biāo)注團(tuán)隊(duì)的要求也更高。
行業(yè)內(nèi)此前還傳說,在RLHF環(huán)節(jié),一些團(tuán)隊(duì)有博士團(tuán)來完成標(biāo)注任務(wù)。比如Scale AI就在RLHF環(huán)節(jié)招聘過幾十名博士來提供數(shù)據(jù)標(biāo)注服務(wù),而OpenAI內(nèi)部同樣有幾十名博士來配合,在Scale AI標(biāo)注之后做這些標(biāo)注的質(zhì)量檢測(cè)。
而標(biāo)注的自動(dòng)化趨勢(shì)則與大模型技術(shù)進(jìn)步用到數(shù)據(jù)標(biāo)注領(lǐng)域有關(guān),數(shù)據(jù)標(biāo)注本身利用模型也實(shí)現(xiàn)了提質(zhì)增效。海外的開源數(shù)據(jù)標(biāo)注及清洗平臺(tái)Refuel AI此前就做過測(cè)試,AI能顯著提升數(shù)據(jù)標(biāo)注的質(zhì)量,也能降低數(shù)據(jù)標(biāo)注的成本。
各種NLP任務(wù)中模型標(biāo)注相比人類標(biāo)注的標(biāo)簽準(zhǔn)確度(與真實(shí)標(biāo)簽的吻合度)明顯更高。每一列中數(shù)值最高者以綠色突出顯示。
數(shù)智前線觀察到,目前,國內(nèi)和海外數(shù)據(jù)標(biāo)注廠商都在提升數(shù)據(jù)標(biāo)注的自動(dòng)化水平,將數(shù)據(jù)標(biāo)注的任務(wù)從人工手動(dòng)操作的勞動(dòng)密集型向平臺(tái)化的自動(dòng)標(biāo)注方向去轉(zhuǎn)變。海外的Scale AI、海天瑞聲、澳鵬以及整數(shù)智能,都有自己的自動(dòng)化數(shù)據(jù)標(biāo)注平臺(tái)。
除了專業(yè)數(shù)據(jù)服務(wù)商,一些企業(yè)內(nèi)部的標(biāo)注場(chǎng)景也在自動(dòng)化。以自動(dòng)駕駛場(chǎng)景為例,特斯拉此前組建了規(guī)模龐大的企業(yè)內(nèi)數(shù)據(jù)標(biāo)注團(tuán)隊(duì),但從2022年它們開始裁撤輔助駕駛系統(tǒng)開發(fā)的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)規(guī)模,通過Dojo超級(jí)計(jì)算機(jī)來對(duì)海量視頻數(shù)據(jù)做無人監(jiān)管標(biāo)注和訓(xùn)練。
數(shù)據(jù)智能服務(wù)商每日互動(dòng)總裁劉宇告訴數(shù)智前線,在當(dāng)前激烈市場(chǎng)競爭下,對(duì)數(shù)據(jù)標(biāo)注服務(wù)商而言,將自己的服務(wù)能力沉淀為標(biāo)準(zhǔn)化產(chǎn)品,對(duì)企業(yè)而言能提升競爭的門檻,“同樣的勞動(dòng)力能更高效標(biāo)注,標(biāo)注質(zhì)量以及供應(yīng)穩(wěn)定度更高”。
不過,行業(yè)內(nèi)也認(rèn)為,這種自動(dòng)化的趨勢(shì)并不意味著標(biāo)注任務(wù)和專業(yè)服務(wù)商沒有了用武之地。實(shí)際上,隨著AI朝向垂直場(chǎng)景落地,專業(yè)領(lǐng)域里復(fù)雜任務(wù)對(duì)人工標(biāo)注的需求是在增加的。
“數(shù)據(jù)標(biāo)注難度越來越高,當(dāng)數(shù)據(jù)自動(dòng)化程度越高,例如AI可以完成90%自動(dòng)標(biāo)注,剩下10%也更加關(guān)鍵。” IDC中國高級(jí)分析師李浩然告訴數(shù)智前線。
一家AI應(yīng)用廠商此前也告訴數(shù)智前線,單點(diǎn)的拉框打標(biāo)工作,AI可能也能完成,但許多更專業(yè)的領(lǐng)域知識(shí)標(biāo)注,只能通過人工完成。
另外推理模型出現(xiàn)后,也非常需要思維鏈相關(guān)的數(shù)據(jù)。“它非常需要理解業(yè)務(wù)的專業(yè)人員,通過規(guī)則和模型參數(shù)的配置,來更好的拆解問題。“
李浩然也提到,當(dāng)數(shù)據(jù)可以被自動(dòng)化標(biāo)注、合成時(shí),其可以為模型帶來的價(jià)值也會(huì)更低,企業(yè)會(huì)投入更多資源來人工標(biāo)注更復(fù)雜的問題。“之前的教育題目可能是初高中,現(xiàn)在可能是大學(xué)題目,另外之前的圖片標(biāo)注只需要圈出人臉,現(xiàn)在還需要輸入文本來理解圖片表達(dá)的含義,以及其中的結(jié)構(gòu)關(guān)系。”
這些趨勢(shì)下,數(shù)據(jù)標(biāo)注領(lǐng)域的演進(jìn)方向也變得明晰。
一方面,行業(yè)的準(zhǔn)入門檻從勞動(dòng)密集性向技術(shù)密集型以及更高專業(yè)門檻演進(jìn)。另外,由于玩家競爭的重心向技術(shù)能力、場(chǎng)景資源等復(fù)合性能力轉(zhuǎn)變,在更多玩家入場(chǎng)的同時(shí),行業(yè)內(nèi)的淘汰賽也已經(jīng)同步展開,市場(chǎng)的競爭已經(jīng)變得更加激烈。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...