人工智能(AI),尤其是生成式AI的迅猛發(fā)展,為知識產(chǎn)權(quán)(IP)領(lǐng)域帶來了復(fù)雜的挑戰(zhàn)。AI模型的開發(fā)、測試和驗(yàn)證高度依賴大規(guī)模數(shù)據(jù)集,導(dǎo)致對訓(xùn)練數(shù)據(jù)的需求激增。一種廣泛采用的方法是“數(shù)據(jù)抓取”,本報告特指從第三方網(wǎng)站、數(shù)據(jù)庫或社交媒體平臺自動提取信息的行為。當(dāng)數(shù)據(jù)抓取未經(jīng)權(quán)利人同意或未支付報酬時,會直接影響知識產(chǎn)權(quán)保護(hù)作品的創(chuàng)作者和所有者。此類活動可能涉及多種知識產(chǎn)權(quán)及相關(guān)權(quán)利,包括版權(quán)、數(shù)據(jù)庫權(quán)利、商標(biāo)權(quán)、商業(yè)秘密、肖像權(quán)及人格權(quán)。
圍繞數(shù)據(jù)抓取的知識產(chǎn)權(quán)法律環(huán)境復(fù)雜且快速演變�,F(xiàn)行知識產(chǎn)權(quán)法律多制定于現(xiàn)代AI實(shí)踐興起之前,且不同司法管轄區(qū)存在差異,使得其適用性變得復(fù)雜。數(shù)據(jù)抓取常涉及受知識產(chǎn)權(quán)保護(hù)的內(nèi)容,引發(fā)關(guān)于侵權(quán)、例外條款(如合理使用或文本與數(shù)據(jù)挖掘/TDM規(guī)定)的適用性,以及遵守合同條款等問題。抓取受版權(quán)保護(hù)的材料會引發(fā)關(guān)于其收集或使用是否構(gòu)成侵權(quán)的疑問。此類訴訟在全球范圍內(nèi)日益增多,美國、歐盟及其他地區(qū)已出現(xiàn)多起具有影響力的案例。此外,對AI生成內(nèi)容(尤其是未經(jīng)授權(quán)模仿個人風(fēng)格、聲音或外貌的輸出)的擔(dān)憂,正促使各方采取多樣化的法律應(yīng)對措施,以保護(hù)權(quán)利并防止濫用。
數(shù)據(jù)抓取已成為普遍實(shí)踐,但其涵蓋多種方法且缺乏普遍認(rèn)可的定義。該術(shù)語常與“數(shù)據(jù)挖掘”(指通過計(jì)算過程識別模式、趨勢和關(guān)聯(lián)的流程)及“網(wǎng)絡(luò)爬蟲”等技術(shù)混淆。本報告指出定義不一致的問題,并提出了一個廣泛的工作定義。數(shù)據(jù)抓取的流程通常包括數(shù)據(jù)收集、預(yù)處理和使用。報告分析了不同的抓取技術(shù),并強(qiáng)調(diào)需要采用通用/標(biāo)準(zhǔn)術(shù)語以及對這些方法進(jìn)行明確區(qū)分。
數(shù)據(jù)抓取生態(tài)系統(tǒng)中不同參與者的行為引發(fā)了多樣的法律問題。部分參與者利用數(shù)據(jù)抓取支持研究及其他活動,這表明需要針對不同使用場景制定相應(yīng)的政策工具。該生態(tài)系統(tǒng)主要包括研究機(jī)構(gòu)和學(xué)術(shù)界、AI數(shù)據(jù)聚合商、以及科技公司和平臺運(yùn)營商。研究機(jī)構(gòu)和學(xué)術(shù)界常通過數(shù)據(jù)抓取收集數(shù)據(jù)用于學(xué)術(shù)和科學(xué)目的。AI數(shù)據(jù)聚合商被指控將抓取的數(shù)據(jù)提供給第三方,往往缺乏明確的許可條款或數(shù)據(jù)來源披露,引發(fā)知識產(chǎn)權(quán)及其他法律問題�?萍脊竞推脚_運(yùn)營商則既是數(shù)據(jù)抓取的主要目標(biāo)(數(shù)據(jù)來源),本身也常是數(shù)據(jù)抓取的實(shí)踐者。
為引導(dǎo)數(shù)據(jù)抓取在國際協(xié)調(diào)框架下走上負(fù)責(zé)任的發(fā)展路徑,制定“數(shù)據(jù)抓取行為準(zhǔn)則”、推廣標(biāo)準(zhǔn)合同條款、開發(fā)標(biāo)準(zhǔn)技術(shù)工具以及提升認(rèn)識倡議。若能吸納包括權(quán)利持有人、研究人員、AI開發(fā)者、民間社會及政策制定者在內(nèi)的廣泛多元利益相關(guān)方意見,此類規(guī)范將尤為有效。
自愿性“數(shù)據(jù)抓取行為準(zhǔn)則”:可確立普遍適用的條款,并為AI生態(tài)系統(tǒng)中不同參與者(如AI數(shù)據(jù)聚合商與抓取數(shù)據(jù)使用者)提供具體指導(dǎo)。準(zhǔn)則應(yīng)包含標(biāo)準(zhǔn)術(shù)語以確保共同理解,可納入監(jiān)測遵守情況的機(jī)制(如注冊系統(tǒng)),并就透明度和文檔實(shí)踐提出建議。最后,可包含標(biāo)準(zhǔn)合同條款。
標(biāo)準(zhǔn)技術(shù)工具:可幫助保護(hù)知識產(chǎn)權(quán),使權(quán)利人更便捷地管理自身數(shù)據(jù)的訪問權(quán)限,例如數(shù)據(jù)訪問控制機(jī)制、自動化合同監(jiān)控和直接支付系統(tǒng)。標(biāo)準(zhǔn)化工具能簡化組織的合規(guī)流程,并助力權(quán)利人在多個平臺上保護(hù)其權(quán)利。
標(biāo)準(zhǔn)合同條款:可解決與數(shù)據(jù)抓取相關(guān)的法律和運(yùn)營問題。這些條款可作為可選起點(diǎn),允許組織協(xié)商特定條件。其制定將受益于多利益相關(guān)方合作,并可針對不同應(yīng)用場景(從非營利研究到商業(yè)應(yīng)用)進(jìn)行定制。
提升意識倡議:賦能利益相關(guān)方了解數(shù)據(jù)抓取及其法律影響,獲取保護(hù)和管理自身權(quán)利的信息。這包括幫助權(quán)利人理解保護(hù)措施、教育AI系統(tǒng)用戶負(fù)責(zé)任使用,以及確保AI數(shù)據(jù)生態(tài)系統(tǒng)中所有參與者明確自身角色與責(zé)任。
《2025年人工智能研究報告-爬取訓(xùn)練數(shù)據(jù)訓(xùn)練人工智能的知識產(chǎn)權(quán)問題》.pdf
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...