中美都在押注,數(shù)據(jù)標(biāo)注為什么站到C位
文|任曉漁
編|徐鑫
“親愛(ài)的特朗普總統(tǒng),美國(guó)必須贏得AI戰(zhàn)爭(zhēng)。”今年年初,年僅 28 歲的 Alexandr Wang在川普就職典禮第二天,在華盛頓郵報(bào)為自己的數(shù)據(jù)標(biāo)注服務(wù)公司Scale AI打出了整版廣告。
Alexandr Wang這個(gè)看起來(lái)頗為“加戲”的動(dòng)作,讓數(shù)據(jù)標(biāo)注第一次走進(jìn)普羅大眾視野。它也凸顯一個(gè)現(xiàn)實(shí)——在AI三要素里,相比模型和算力領(lǐng)域里的硝煙滾滾,大眾對(duì)數(shù)據(jù)領(lǐng)域的演進(jìn)缺乏更多的認(rèn)知。
不過(guò),兩周前,Meta以143億美金收購(gòu)Scale AI 49%股權(quán),這讓AI數(shù)據(jù)服務(wù)領(lǐng)域真正成為了全球關(guān)注焦點(diǎn),也引發(fā)了美國(guó)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的一場(chǎng)大地震。
無(wú)獨(dú)有偶,除了美國(guó)巨頭押注AI數(shù)據(jù)服務(wù)價(jià)值,國(guó)內(nèi)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)過(guò)去一年多里熱度也在不斷攀升,頂層設(shè)計(jì)和市場(chǎng)端都有不小的動(dòng)作。7大國(guó)家級(jí)數(shù)據(jù)標(biāo)注基地試點(diǎn)城市落地,國(guó)家數(shù)據(jù)局還集中發(fā)布了47個(gè)數(shù)據(jù)標(biāo)注優(yōu)秀案例集,同時(shí),一批數(shù)據(jù)標(biāo)注服務(wù)公司則迎來(lái)了業(yè)績(jī)的快速攀升。
不過(guò),在產(chǎn)業(yè)界的頻繁動(dòng)作之外,業(yè)界又流行一個(gè)說(shuō)法,數(shù)據(jù)標(biāo)注正在加速自動(dòng)化,技術(shù)進(jìn)步正在許多標(biāo)注任務(wù)逐漸消失。
這讓人好奇,中美都在押注的領(lǐng)域,到底是怎樣一個(gè)產(chǎn)業(yè)?當(dāng)下這一領(lǐng)域處在怎樣的發(fā)展階段?自動(dòng)化會(huì)讓數(shù)據(jù)標(biāo)注走開(kāi)嗎?接下來(lái)競(jìng)爭(zhēng)將如何展開(kāi)?
01
并購(gòu)案背后,AI基礎(chǔ)數(shù)據(jù)服務(wù)站上C位
“數(shù)據(jù)是人工智能中最有價(jià)值的資產(chǎn)之一”,這句人工智能時(shí)代的共識(shí),在Scale AI并購(gòu)以及隨之而來(lái)的AI基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)震蕩中得到了絕佳的驗(yàn)證。
143億美金的并購(gòu)金額,在Meta的并購(gòu)歷史里僅次于收購(gòu)whatsApp。Meta愿意支付這個(gè)價(jià)碼,背后是Meta對(duì)在當(dāng)下大模型競(jìng)爭(zhēng)里掉隊(duì)的焦慮。
過(guò)去幾個(gè)月里,這家硅谷巨頭面臨著不小的壓力。今年4月,Meta發(fā)布的Llama 4 模型反饋不及預(yù)期,更大的模型Behemoth也被延期發(fā)布。
被收購(gòu)一方,Scale AI之所以能叫出天價(jià),既要從這家公司在AI基礎(chǔ)數(shù)據(jù)服務(wù)領(lǐng)域的地位說(shuō)起,又與數(shù)據(jù)標(biāo)注和挖掘在當(dāng)下的模型訓(xùn)練中的重要位置密不可分。
Scale AI成立于2016年,它最初是一個(gè)提供眾包服務(wù)的平臺(tái),幫助企業(yè)完成一些內(nèi)容審核、數(shù)據(jù)提取等需要人工操作的任務(wù)。之后隨著自動(dòng)駕駛領(lǐng)域?qū)?shù)據(jù)審核與標(biāo)注的龐大需求。Scale AI開(kāi)始專(zhuān)注在數(shù)據(jù)標(biāo)注領(lǐng)域,幫助客戶(hù)收集、清理、標(biāo)注和管理大規(guī)模數(shù)據(jù),助力自動(dòng)駕算法研發(fā)。
大模型浪潮來(lái)臨后,Scale AI收入從2022年的2.9億美元一下子飆升到2023年的7.6億美金,2024年繼續(xù)增長(zhǎng)到8.7億美金。有消息稱(chēng)預(yù)計(jì)2025年這家公司的營(yíng)收將達(dá)到20億美金水平。
如果你對(duì)它的營(yíng)收沒(méi)有太多的概念,OpenAI 2024營(yíng)收為37億美元。而根據(jù)Grand View Research數(shù)據(jù)顯示,2023年全球數(shù)據(jù)標(biāo)注和服務(wù)市場(chǎng)規(guī)模達(dá)140.7億美元。其中,美國(guó)的市場(chǎng)規(guī)模達(dá)42億美元,全球占比近30%。Scale AI的收入規(guī)模,稱(chēng)得上是數(shù)據(jù)基礎(chǔ)服務(wù)領(lǐng)域里的賣(mài)水人之一。
Scale AI的客戶(hù)包括谷歌、蘋(píng)果、xAI、Meta、微軟和亞馬遜等在內(nèi)的一眾硅谷巨頭。去年谷歌在Scale AI的花費(fèi)約 1.5 億美元,是它的第一大客戶(hù)。
科技媒體BI報(bào)道,今年4月,Scale AI為Google運(yùn)行了至少38個(gè)活躍項(xiàng)目,占當(dāng)時(shí)Scale AI在該列表上的107個(gè)生成式AI項(xiàng)目的三分之一以上。而服務(wù)xAI的數(shù)據(jù)項(xiàng)目里包含了一個(gè)名為Xylophone 的項(xiàng)目,主要是幫助訓(xùn)練xAI的聊天機(jī)器人,提升其在廣泛話題上的對(duì)話能力。
廣泛的客戶(hù)網(wǎng)絡(luò),其實(shí)反映了數(shù)據(jù)標(biāo)注和AI基礎(chǔ)數(shù)據(jù)服務(wù)在當(dāng)下模型訓(xùn)練中的重要位置。
人工智能行業(yè)有一個(gè)提法,“垃圾進(jìn),垃圾出”,數(shù)據(jù)的質(zhì)量十分影響模型的表現(xiàn)。而數(shù)據(jù)標(biāo)注本質(zhì)上是要把大量機(jī)器無(wú)法理解的非結(jié)構(gòu)化數(shù)據(jù)翻譯成機(jī)器能理解的結(jié)構(gòu)化數(shù)據(jù)。大模型浪潮下,由于數(shù)據(jù)參數(shù)規(guī)�?涨�,為了提升模型智能水平,圍繞著數(shù)據(jù)標(biāo)注和處理的預(yù)算也在飆升。
據(jù)AI 基礎(chǔ)數(shù)據(jù)服務(wù)廠商LXT2024年對(duì)322家有AI 項(xiàng)目經(jīng)驗(yàn)的美國(guó)企業(yè)的調(diào)研,整個(gè)2023年企業(yè)在訓(xùn)練數(shù)據(jù)上的資金投入占這些企業(yè)的AI整體建設(shè)投入的15%。此前行業(yè)內(nèi)還流傳一個(gè)說(shuō)法,高質(zhì)量的標(biāo)注數(shù)據(jù)是ChatGPT效果區(qū)別于其他競(jìng)爭(zhēng)對(duì)手的原因之一。
重重因素之下,Meta做出了大手筆并購(gòu)Scal AI的決定。也許在當(dāng)下的Meta看來(lái),通過(guò)與數(shù)據(jù)服務(wù)領(lǐng)域領(lǐng)頭羊合作,有助于其更好地獲得模型訓(xùn)練的專(zhuān)有數(shù)據(jù),并且能基于數(shù)據(jù)來(lái)訓(xùn)練更高智能的模型,從而在當(dāng)下大模型競(jìng)爭(zhēng)中跟上節(jié)奏。
這項(xiàng)大手筆收購(gòu)也使得數(shù)據(jù)標(biāo)注產(chǎn)業(yè)和人工智能供應(yīng)鏈條發(fā)生了一系列連鎖反應(yīng)。
首先是,一大批與Meta的模型存在競(jìng)爭(zhēng)關(guān)系的廠商紛紛開(kāi)始切斷與Scale AI的合作。比如Scale AI的最大客戶(hù)谷歌就在交易達(dá)成后立即暫停了兩個(gè)代號(hào)為"Genesis"和"Beetle Crown"的項(xiàng)目合作。
其次是,與Scale AI競(jìng)爭(zhēng)的一批數(shù)據(jù)標(biāo)注廠商們則趁機(jī)開(kāi)拓客戶(hù),比如Sapien,Appen、Prolific 和 Turing等企業(yè)成為不少AI廠商多元化數(shù)據(jù)標(biāo)注供應(yīng)商選擇時(shí)的候選。Sapien AI的CEO Rowan Stone還表示,在 Meta 交易后 48 小時(shí)內(nèi),他們平臺(tái)新增 4 萬(wàn)名數(shù)據(jù)標(biāo)注注冊(cè)者,服務(wù)器都崩了。
在人們對(duì)Meta收購(gòu)影響Scale AI標(biāo)注數(shù)據(jù)中立性以及對(duì)商業(yè)機(jī)密泄漏的擔(dān)憂(yōu)中,Scale AI也發(fā)表了平臺(tái)中立性聲明。
但聲明發(fā)布并未止住行業(yè)內(nèi)的各種爭(zhēng)議。一場(chǎng)行業(yè)大洗牌已經(jīng)在進(jìn)行中。
02
政策市場(chǎng)雙驅(qū)動(dòng),國(guó)內(nèi)市場(chǎng)狂飆猛進(jìn)
海外數(shù)據(jù)標(biāo)注產(chǎn)業(yè)大洗牌之際,過(guò)去一兩年里,中國(guó)作為全球人工智能產(chǎn)業(yè)增速最快的國(guó)家之一,數(shù)據(jù)需求快速增長(zhǎng),數(shù)據(jù)標(biāo)注領(lǐng)域也隨之演進(jìn)。
首先是政策端的加持非常明顯,去年開(kāi)始國(guó)內(nèi)接連出臺(tái)與數(shù)據(jù)標(biāo)注相關(guān)的政策法規(guī),從頂層設(shè)計(jì)上為數(shù)據(jù)標(biāo)注產(chǎn)業(yè)提供催化劑。
去年6月,國(guó)家數(shù)據(jù)局發(fā)布首批7家數(shù)據(jù)標(biāo)注基地試點(diǎn)城市名單,七個(gè)城市在數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的生態(tài)構(gòu)建、能力提升和場(chǎng)景應(yīng)用等方面扮演了先行先試的角色。
IDC告訴數(shù)智前線,這一政策初衷是為了推動(dòng)高質(zhì)量數(shù)據(jù)集建設(shè),目標(biāo)也是為了更好的推動(dòng)AI發(fā)展、為數(shù)據(jù)要素流通提供標(biāo)準(zhǔn)數(shù)據(jù)支持,在城市選擇上會(huì)綜合考慮城市需求、人才結(jié)構(gòu)等因素。
去年12月,數(shù)據(jù)標(biāo)注領(lǐng)域又迎來(lái)了重磅綱領(lǐng)性文件。國(guó)家四部委聯(lián)合發(fā)布《關(guān)于促進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的實(shí)施意見(jiàn)》,明確提出了到2027年產(chǎn)業(yè)規(guī)模年均復(fù)合增長(zhǎng)率超過(guò)20%的發(fā)展目標(biāo),為國(guó)內(nèi)的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)構(gòu)建起了產(chǎn)業(yè)發(fā)展的“四梁八柱”。
同時(shí),各地過(guò)去一年也不斷出臺(tái)相關(guān)的法規(guī)和政策,指導(dǎo)產(chǎn)業(yè)發(fā)展。
同時(shí),行業(yè)主管部門(mén)還積極樹(shù)標(biāo)桿,推動(dòng)行業(yè)標(biāo)準(zhǔn)化建設(shè)。今年4月,國(guó)家數(shù)據(jù)局在第八屆數(shù)字中國(guó)建設(shè)峰會(huì)“高質(zhì)量數(shù)據(jù)集和數(shù)據(jù)標(biāo)注主題交流活動(dòng)”上發(fā)布了47個(gè)數(shù)據(jù)標(biāo)注優(yōu)秀案例集,涉及到醫(yī)療、交通、農(nóng)業(yè)、能源等20余個(gè)領(lǐng)域。這些標(biāo)桿案例提供了可復(fù)用的實(shí)踐范本,也為相關(guān)領(lǐng)域的標(biāo)準(zhǔn)統(tǒng)一、經(jīng)驗(yàn)共享打下了基礎(chǔ)。
政策加持的同時(shí),隨著大模型落地應(yīng)用浪潮的到來(lái),數(shù)據(jù)標(biāo)注市場(chǎng)側(cè)熱度和規(guī)模也由明顯的提升。一批企業(yè)如海天瑞聲,澳鵬等都迎來(lái)了業(yè)績(jī)的快速增長(zhǎng)。
以澳鵬為例,今年2月澳鵬發(fā)布2024年年報(bào)顯示,去年其中國(guó)區(qū)業(yè)務(wù)營(yíng)收突破4.2億,年增長(zhǎng)達(dá)到71% ,其中的大模型/AIGC業(yè)務(wù)增長(zhǎng)了526%。澳鵬披露,許多AI龍頭,特別是大模型 AI企業(yè)成為了澳鵬的客戶(hù),大模型及大模型相關(guān)業(yè)務(wù)已經(jīng)占據(jù)了澳鵬中國(guó)營(yíng)收的40%。
AI數(shù)據(jù)服務(wù)創(chuàng)業(yè)公司整數(shù)智能CEO林群書(shū)則告訴數(shù)智前線,去年隨著多模態(tài)模型的快速演進(jìn),他們感受到市場(chǎng)的數(shù)據(jù)標(biāo)注需求呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)。
一位行業(yè)資深人士認(rèn)為,數(shù)據(jù)標(biāo)注領(lǐng)域市場(chǎng)端的熱鬧,與過(guò)去一年多人工智能領(lǐng)域的結(jié)構(gòu)性變化有關(guān)。以DeepSeek為代表的國(guó)產(chǎn)開(kāi)源模型正極大拉平國(guó)內(nèi)與海外的模型方面的差距,同時(shí)國(guó)產(chǎn)模型進(jìn)步,對(duì)算力的消耗降低,緩解了許多企業(yè)的算力焦慮,使得數(shù)據(jù)層面重要性被提到更高位置。
“數(shù)據(jù)的質(zhì)量、規(guī)模和精準(zhǔn)性將直接決定模型能力的上限,也成為模型落地效果的關(guān)鍵。”該人士告訴數(shù)智前線。
產(chǎn)業(yè)的想象空間在快速打開(kāi)。艾瑞咨詢(xún)的數(shù)據(jù)顯示,2024年中國(guó)人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模為58億元,2028 年規(guī)模將達(dá)到170億元,年復(fù)合增長(zhǎng)率為30.84%。
而IDC告訴數(shù)智前線,目前模型應(yīng)用走向垂直領(lǐng)域,數(shù)據(jù)標(biāo)注的場(chǎng)景需求主要圍繞自動(dòng)駕駛、教育、醫(yī)療、金融、零售、政務(wù)等展開(kāi)。
市場(chǎng)熱度增加,數(shù)智前線觀察到,行業(yè)內(nèi)的參與主體也在變多,競(jìng)爭(zhēng)正變得激烈,同時(shí),產(chǎn)業(yè)鏈上中下游界限也逐漸模糊起來(lái)。
比如模型廠商可能從提供更完整的模型能力配套角度,在數(shù)據(jù)標(biāo)注領(lǐng)域有相關(guān)的產(chǎn)品服務(wù)。典型的有智譜AI,去年它推出的Batch API,利用大模型技術(shù)來(lái)解決數(shù)據(jù)標(biāo)注問(wèn)題。百度智能云等數(shù)據(jù)標(biāo)注服務(wù)。
也有應(yīng)用企業(yè)從AI落地的角度,在應(yīng)用中推出了一些運(yùn)營(yíng)工具標(biāo)注一些數(shù)據(jù),降低場(chǎng)景內(nèi)的幻覺(jué)。典型有瓴羊在智能客服Quick Service應(yīng)用里推出AI運(yùn)營(yíng)中心,針對(duì)智能客服場(chǎng)景里的幻覺(jué)問(wèn)題,通過(guò)訓(xùn)練中心進(jìn)行標(biāo)注,將高質(zhì)量數(shù)據(jù)來(lái)反哺模型,讓問(wèn)答更加準(zhǔn)確。
“應(yīng)用內(nèi)的標(biāo)注緩解模型幻覺(jué)服務(wù)于模型微調(diào)的環(huán)節(jié),是基�,F(xiàn)階段能力不足的一個(gè)補(bǔ)充或臨時(shí)方案”,一位數(shù)據(jù)標(biāo)注行業(yè)人士告訴數(shù)智前線。
03
技術(shù)演進(jìn),讓數(shù)據(jù)標(biāo)注走開(kāi)?
全球數(shù)據(jù)標(biāo)注產(chǎn)業(yè)快速發(fā)展之際,也有一種聲音認(rèn)為,數(shù)據(jù)標(biāo)注領(lǐng)域可能會(huì)因?yàn)榧夹g(shù)進(jìn)步,面臨新的挑戰(zhàn)。比如就有人指出,未來(lái)AI會(huì)自動(dòng)完成許多標(biāo)注任務(wù),標(biāo)注領(lǐng)域的企業(yè)可能需要加速轉(zhuǎn)型。
針對(duì)這一趨勢(shì),數(shù)智前線同多位行業(yè)人士交流,業(yè)界普遍認(rèn)為大模型時(shí)代,數(shù)據(jù)標(biāo)注正逐漸走向復(fù)雜化、自動(dòng)化和專(zhuān)業(yè)化。自動(dòng)化浪潮并不意味著不需要標(biāo)注。
首先是數(shù)據(jù)標(biāo)注的復(fù)雜化趨勢(shì),它與大模型技術(shù)演進(jìn)帶來(lái)的數(shù)據(jù)標(biāo)注需求變化有關(guān)。
主流大模型普遍采用了無(wú)監(jiān)督自動(dòng)學(xué)習(xí)機(jī)制,在預(yù)訓(xùn)練環(huán)節(jié)大量使用無(wú)標(biāo)注數(shù)據(jù),而之后的監(jiān)督微調(diào)(SFT)和基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)階段,仍需要人工標(biāo)注。
一位數(shù)據(jù)標(biāo)注行業(yè)人士介紹,基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)環(huán)節(jié),企業(yè)的數(shù)據(jù)需求,需要人去對(duì)機(jī)器給出的答案去做排序和對(duì)齊,把人文的傾向、三觀、喜好給機(jī)器學(xué)習(xí)。相比此前拉框畫(huà)圈式的簡(jiǎn)單標(biāo)注,在微調(diào)和RLHF環(huán)節(jié),數(shù)據(jù)標(biāo)注的復(fù)雜度變得更高,對(duì)標(biāo)注團(tuán)隊(duì)的要求也更高。
行業(yè)內(nèi)此前還傳說(shuō),在RLHF環(huán)節(jié),一些團(tuán)隊(duì)有博士團(tuán)來(lái)完成標(biāo)注任務(wù)。比如Scale AI就在RLHF環(huán)節(jié)招聘過(guò)幾十名博士來(lái)提供數(shù)據(jù)標(biāo)注服務(wù),而OpenAI內(nèi)部同樣有幾十名博士來(lái)配合,在Scale AI標(biāo)注之后做這些標(biāo)注的質(zhì)量檢測(cè)。
而標(biāo)注的自動(dòng)化趨勢(shì)則與大模型技術(shù)進(jìn)步用到數(shù)據(jù)標(biāo)注領(lǐng)域有關(guān),數(shù)據(jù)標(biāo)注本身利用模型也實(shí)現(xiàn)了提質(zhì)增效。海外的開(kāi)源數(shù)據(jù)標(biāo)注及清洗平臺(tái)Refuel AI此前就做過(guò)測(cè)試,AI能顯著提升數(shù)據(jù)標(biāo)注的質(zhì)量,也能降低數(shù)據(jù)標(biāo)注的成本。
各種NLP任務(wù)中模型標(biāo)注相比人類(lèi)標(biāo)注的標(biāo)簽準(zhǔn)確度(與真實(shí)標(biāo)簽的吻合度)明顯更高。每一列中數(shù)值最高者以綠色突出顯示。
數(shù)智前線觀察到,目前,國(guó)內(nèi)和海外數(shù)據(jù)標(biāo)注廠商都在提升數(shù)據(jù)標(biāo)注的自動(dòng)化水平,將數(shù)據(jù)標(biāo)注的任務(wù)從人工手動(dòng)操作的勞動(dòng)密集型向平臺(tái)化的自動(dòng)標(biāo)注方向去轉(zhuǎn)變。海外的Scale AI、海天瑞聲、澳鵬以及整數(shù)智能,都有自己的自動(dòng)化數(shù)據(jù)標(biāo)注平臺(tái)。
除了專(zhuān)業(yè)數(shù)據(jù)服務(wù)商,一些企業(yè)內(nèi)部的標(biāo)注場(chǎng)景也在自動(dòng)化。以自動(dòng)駕駛場(chǎng)景為例,特斯拉此前組建了規(guī)模龐大的企業(yè)內(nèi)數(shù)據(jù)標(biāo)注團(tuán)隊(duì),但從2022年它們開(kāi)始裁撤輔助駕駛系統(tǒng)開(kāi)發(fā)的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)規(guī)模,通過(guò)Dojo超級(jí)計(jì)算機(jī)來(lái)對(duì)海量視頻數(shù)據(jù)做無(wú)人監(jiān)管標(biāo)注和訓(xùn)練。
數(shù)據(jù)智能服務(wù)商每日互動(dòng)總裁劉宇告訴數(shù)智前線,在當(dāng)前激烈市場(chǎng)競(jìng)爭(zhēng)下,對(duì)數(shù)據(jù)標(biāo)注服務(wù)商而言,將自己的服務(wù)能力沉淀為標(biāo)準(zhǔn)化產(chǎn)品,對(duì)企業(yè)而言能提升競(jìng)爭(zhēng)的門(mén)檻,“同樣的勞動(dòng)力能更高效標(biāo)注,標(biāo)注質(zhì)量以及供應(yīng)穩(wěn)定度更高”。
不過(guò),行業(yè)內(nèi)也認(rèn)為,這種自動(dòng)化的趨勢(shì)并不意味著標(biāo)注任務(wù)和專(zhuān)業(yè)服務(wù)商沒(méi)有了用武之地。實(shí)際上,隨著AI朝向垂直場(chǎng)景落地,專(zhuān)業(yè)領(lǐng)域里復(fù)雜任務(wù)對(duì)人工標(biāo)注的需求是在增加的。
“數(shù)據(jù)標(biāo)注難度越來(lái)越高,當(dāng)數(shù)據(jù)自動(dòng)化程度越高,例如AI可以完成90%自動(dòng)標(biāo)注,剩下10%也更加關(guān)鍵。” IDC中國(guó)高級(jí)分析師李浩然告訴數(shù)智前線。
一家AI應(yīng)用廠商此前也告訴數(shù)智前線,單點(diǎn)的拉框打標(biāo)工作,AI可能也能完成,但許多更專(zhuān)業(yè)的領(lǐng)域知識(shí)標(biāo)注,只能通過(guò)人工完成。
另外推理模型出現(xiàn)后,也非常需要思維鏈相關(guān)的數(shù)據(jù)。“它非常需要理解業(yè)務(wù)的專(zhuān)業(yè)人員,通過(guò)規(guī)則和模型參數(shù)的配置,來(lái)更好的拆解問(wèn)題。“
李浩然也提到,當(dāng)數(shù)據(jù)可以被自動(dòng)化標(biāo)注、合成時(shí),其可以為模型帶來(lái)的價(jià)值也會(huì)更低,企業(yè)會(huì)投入更多資源來(lái)人工標(biāo)注更復(fù)雜的問(wèn)題。“之前的教育題目可能是初高中,現(xiàn)在可能是大學(xué)題目,另外之前的圖片標(biāo)注只需要圈出人臉,現(xiàn)在還需要輸入文本來(lái)理解圖片表達(dá)的含義,以及其中的結(jié)構(gòu)關(guān)系。”
這些趨勢(shì)下,數(shù)據(jù)標(biāo)注領(lǐng)域的演進(jìn)方向也變得明晰。
一方面,行業(yè)的準(zhǔn)入門(mén)檻從勞動(dòng)密集性向技術(shù)密集型以及更高專(zhuān)業(yè)門(mén)檻演進(jìn)。另外,由于玩家競(jìng)爭(zhēng)的重心向技術(shù)能力、場(chǎng)景資源等復(fù)合性能力轉(zhuǎn)變,在更多玩家入場(chǎng)的同時(shí),行業(yè)內(nèi)的淘汰賽也已經(jīng)同步展開(kāi),市場(chǎng)的競(jìng)爭(zhēng)已經(jīng)變得更加激烈。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...