據(jù)Copyleaks的一份報(bào)告顯示,OpenAI的GPT-3.5模型輸出中,有60%存在抄襲現(xiàn)象。Copyleaks采用了一種專有的評(píng)分方法,考慮了相同文本、微小修改和改寫等因素,為每個(gè)輸出分配了一個(gè)“相似性得分”。
GPT-3.5是OpenAI推出的一款先進(jìn)的自然語言處理模型,但其輸出的原創(chuàng)性卻受到了質(zhì)疑。根據(jù)最新的研究結(jié)果,GPT-3.5的輸出中,45.7%的文本相同,27.4%經(jīng)過微小修改,46.5%是改寫的文本。相似性得分為0%表示完全原創(chuàng),而100%則表示沒有原創(chuàng)內(nèi)容。
Copyleaks對(duì)GPT-3.5進(jìn)行了多種測(cè)試,在26個(gè)學(xué)科中生成了約一千個(gè)輸出,每個(gè)輸出約400字。結(jié)果顯示,計(jì)算機(jī)科學(xué)的相似性得分最高(100%),其次是物理學(xué)(92%)和心理學(xué)(88%)。相反,戲劇(0.9%)、人文學(xué)科(2.8%)和英語語言(5.4%)的相似性得分最低。
OpenAI發(fā)言人Lindsey Held表示:“我們的模型被設(shè)計(jì)和訓(xùn)練,學(xué)習(xí)概念以幫助它們解決新問題。我們已經(jīng)采取措施限制偶發(fā)性記憶,并且我們的使用條款禁止有意使用我們的模型復(fù)述內(nèi)容。”
抄襲問題不僅僅涉及整句整段的復(fù)制粘貼。紐約時(shí)報(bào)曾對(duì)OpenAI提起訴訟,稱OpenAI的AI系統(tǒng)的“大規(guī)模復(fù)制”構(gòu)成侵犯版權(quán)。OpenAI回應(yīng)稱“偶發(fā)性記憶”是一種“罕見的錯(cuò)誤”,還指責(zé)紐約時(shí)報(bào)“操縱提示”。
盡管從作者到視覺藝術(shù)家等內(nèi)容創(chuàng)作者一直在法庭上爭(zhēng)論底層技術(shù)生成AI是基于其受版權(quán)保護(hù)的作品訓(xùn)練的,但目前法律更傾向于支持公司而非原告。紐約時(shí)報(bào)的案件可能帶來一線希望,但目前仍在等待進(jìn)展。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...