首頁 > 資訊 > 評論

開啟 AIGC 時代的那個人，一分錢都沒賺到

2023/04/26 14:09 極客公園 Founder Park

　　2021 年的時候，一位基金經理在 Discord 上找到了人在德國的高中老師克里斯托夫·舒曼。

　　基金經理愿意承擔舒曼開源項目的所有云計算成本，沒有任何附加條件。

　　一開始舒曼不敢相信會有這樣的好事，直到幾周之后，他獲得了 AWS 云端 GPU 的訪問權。

　　他的項目是 LAION，世界上*的免費 AI 訓練數據集。

　　那位基金經理名叫 Emad，他創(chuàng)辦了 Stability.AI，開啟了 AIGC 的時代。

　　開源萬歲。

　　以下內容來源 Bloomberg，GPT 翻譯的，Founder Park 做了些微小的校對。

　　在德國漢堡郊區(qū)的一所郊區(qū)房子前，單詞「LAION」用鉛筆潦草地寫在郵箱上。

　　這是一個龐大的數據收集工作的背后人物，這個工作是人工智能潮流的核心，并引發(fā)了一個越來越激烈的關于如何監(jiān)管它的爭議。

　　這個人是高中教師克里斯托夫·舒曼(Christoph Schuhmann)，而 LAION 是他的熱情項目。當舒曼不是在向德國青少年教授物理和計算機科學時，他與一小隊志愿者一起建立了世界上*的免費 AI 訓練數據集，已經被用 AIGC，如谷歌的 Imagen 和 Stable Diffusion。

　　像 LAION 這樣的數據庫對于 text2image 的生成式 AI 模型非常重要，它們依賴于它們來解構和創(chuàng)建新圖像所需的大量視覺材料。這些產品的首次亮相是一個范式轉移事件：它將科技行業(yè)的人工智能競賽推向了*，但也引發(fā)了許多道德和法律問題。

　　在幾個月內，針對生成式 AI 公司 Stability AI 和 Midjourney 的版權侵權訴訟頻發(fā)，批評者對其中暴力、性化和其他問題圖像的數據集發(fā)出警報，他們指責這些數據集包含了幾乎不可能解決的偏見。

　　但這并不是舒曼的關注點，他只想讓數據自由。

　　40 億美元 → 零收益

　　這位 40 歲的老師和受過演員訓練的人，兩年前在一個 AI 愛好者的 Discord 服務器上創(chuàng)建了 LAION。OpenAI 的*版 DALL·E 是一個深度學習模型，用于響應文字 prompt 生成圖片，例如，按要求創(chuàng)建一個粉色雞坐在沙發(fā)上的圖像。

　　舒曼受到啟發(fā)，但也擔心它會鼓勵大型科技公司使更多數據專有化。

　　「我立刻明白，如果這個只集中在一個、兩個或三個公司，對社會的影響將非常糟糕，」舒曼說。

　　作為回應，他和服務器上的其他成員決定創(chuàng)建一個開源數據集來幫助訓練 t2i 擴散模型，這是一個類似于用數百萬張閃卡向某人教授一種外語的幾個月的過程。該組使用由加利福尼亞州非營利組織 Common Crawl 收集的原始 HTML 代碼來定位網絡上的圖像并將其與描述性文本相關聯。它不使用任何手動或人工策劃。

　　幾周后，舒曼和他的同事擁有了 300 萬張圖像文本對。三個月后，他們發(fā)布了一個含有 4 億文本標注圖片的數據集。現在，這個數字已經超過了 50 億，使 LAION 成為*的免費圖像和標注數據集。

　　隨著 LAION 的聲譽不斷提高，團隊一直在無償工作，2021 年獲得了機器學習公司 Hugging Face 的一次捐贈。然后有一天，一位前對沖基金經理進入了 Discord 聊天室。

　　Emad Mostaque 主動提出承擔計算能力的費用，沒有任何附帶條件。他想要啟動自己的開源生成式 AI 業(yè)務，并渴望利用 LAION 來訓練他的產品。團隊最初嘲笑這個提議，認為他是一個瘋子。

　　舒曼說:「我們一開始非常懷疑，但經過四周左右，我們獲得了云端的 GPU 資源，這些資源通常的費用約為 9000 美元或 10000 美元�！�

　　當 Mostaque 在 2022 年創(chuàng)辦 Stability AI 時，他使用了 LAION 的數據集來訓練 Stable Diffusion，并雇用了該組織的兩名研究人員。一年后，Stability AI 目前正在尋求 40 億美元的估值，這在很大程度上得益于 LAION 提供的數據。

　　舒曼沒有從 LAION 中獲利，他對此不感興趣。「我仍然是一名高中老師。我拒絕了各種公司的工作邀請，因為我希望它保持獨立�！�

　　數據集就是

　　AI 時代的石油

　　像 LAION 這樣的數據庫中的許多圖像和鏈接，一直以來都明目張膽地存在于網絡上，有些甚至已經存在數十年之久。

　　它需要 AI 的興起才揭示出它的真正價值，因為數據集越大且越多樣化，其中的圖像質量越高，AI 生成的圖像就會越清晰、更精確。

　　這一認知反過來又引發(fā)了許多法律和倫理問題，即公開可用的材料能否用于填充數據庫——如果答案是肯定的，那么創(chuàng)作者是否應該得到報酬。

　　為了建立 LAION，創(chuàng)始人們從 Pinterest、Shopify 和 AWS 等公司中獲取了視覺數據——這些公司并未就 LAION 使用它們的內容是否違反了其服務條款發(fā)表評論。還包括來自 YouTube 縮略圖、DeviantArt 和 EyeEm 等作品集平臺的圖像、來自包括美國國防部在內的政府網站的照片，以及來自新聞網站如《每日郵報》和《太陽報》的內容。

　　如果你問舒曼，他會說任何在網上免費提供的東西都是公平競爭的。但目前歐盟還沒有 AI 監(jiān)管，即將公布的 AI Act，其語言將在今年夏天早些時候確定，也不會規(guī)定版權材料是否可以包含在大型數據集中。

　　相反，立法者正在討論是否包括一項規(guī)定，要求 AIGC 背后的公司披露其產品訓練所使用的數據集中包含了哪些材料，從而給這些材料的創(chuàng)作者提供采取行動的選擇。

　　歐洲議會議員 Dragos Tudorache 告訴彭博社，這一規(guī)定背后的基本思想很簡單：「作為生成式 AI 的開發(fā)者，你有義務記錄和透明地披露你在算法訓練中使用的版權材料�！�

　　這種規(guī)定對于 Stability AI 不是問題，但對于其他 t2i 模型可能會帶來問題「沒有人知道 Open AI 實際上用來訓練 DALL·E 2 的是什么，」舒曼說，以此作為技術公司封鎖公共數據的例子。這也將顛覆現有的數據收集現狀。

　　「在這個領域中，慣例是假定您不需要同意或不需要通知人們，或者他們甚至不需要知道這一點。人們有一種自認為擁有權利的感覺，即無論網上有什么，您都可以爬取并將其放入數據集中，」Mozilla 基金會值得信賴的 AI 高級研究員 Abeba Birhane 說道，他已經研究了 LAION。

　　盡管 LAION 沒有直接被起訴，但它已被列為兩起訴訟的被告：一起指控 Stability 和 Midjourney 違反 DMCA 版權法和公眾權利法，違法競爭和違反 TOS，使用藝術家的版權圖片來訓練其模型，另一起是由蓋蒂影像公司針對 Stability 提出的，指稱 LAION 爬取了其 1200 萬張圖片用于訓練 Stable Diffusion。

　　由于 LAION 是開源的，因此不可能知道有多少其他公司使用了該數據集。谷歌已經承認它利用 LAION 幫助訓練其 Imagen 和 Parti AI 文本到圖像模型。舒曼認為其他大公司正在悄悄地這樣做，只是不會披露。

　　互聯網的黑暗面

　　當他的兒子玩《Minecraft》時，舒曼坐在客廳里，將 LAION 比作「大信息技術海嘯」上的「小型研究船」，采集下面的樣本并展示給世界看。

　　「這只是互聯網上公開的資源的一小部分，」他說到 LAION 的數據庫，「因為即使是我們這樣的人，只有來自捐贈者的 1 萬美元的預算，也能夠得到它。」

　　但是，公開的并不總是公眾想要的，或者是合法允許看到的。除了貓和消防車的安全圖片，LAION 的數據集還包含了數百萬張色情、暴力、兒童裸體、種族主義梗、仇恨符號、版權藝術和從私人公司網站上抓取的作品。

　　舒曼表示，他不知道 LAION 的數據集中是否有兒童裸體照片，盡管他承認他沒有深入審查數據。如果得到這樣的內容通知，他說，他將立即刪除與之相關的鏈接。

　　在開始組裝數據庫之前，舒曼咨詢了律師并運行了自動化工具來過濾非法內容，但他對于清洗 LAION 的數據并不感興趣，而是希望從中學習。

　　「我們可以從發(fā)布的數據中過濾出暴力內容，」他說，「但我們決定不這樣做，因為它將加速暴力檢測軟件的開發(fā)�！筁AION 提供了一個撤下表格以請求刪除照片，但是該數據集已經被下載了數千次。

　　從 LAION 中提取的攻擊性內容似乎已經整合到了 Stable Diffusion 中，盡管最近已經加強了過濾器，但很容易生成假的伊斯蘭國斬首照片或大屠殺圖像。

　　一些專家認為，這樣的材料也可能在 AI 模型本身內部產生偏見：即使文本提示沒有暗示主題的種族，像 Dall·E-2 和 Stable Diffusion 這樣的工具也因復制種族刻板印象而受到批評。

　　這些偏見是谷歌決定不發(fā)布經過 LAION 訓練的 Imagen 的原因。

　　當被要求發(fā)表評論時，Stability AI 表示，它在 LAION 數據庫的一個策劃子集上對 Stable Diffusion 進行了訓練。該公司在一封電子郵件中寫道，它試圖「為該模型提供比原始 SD 更多樣化和廣泛的數據集」，并嘗試使用「LAION 的 NSFW 過濾器」刪除「成人內容」。

　　即使是基于開源的人工智能的支持者也警告說，在未加篩選的數據集上訓練人工智能的影響。

　　根據 Hugging Face 的機器學習和社會團隊負責人 Yacine Jernite 的說法，基于有污點的數據的生成式 AI 工具將反映其偏見�！改Ｐ褪撬柧毜膬热莸姆浅Ｖ苯拥姆从场！�

　　Jernite 補充說，在產品運行后引入防護欄是不足夠的，因為用戶總是會找到規(guī)避安全措施的方法。他們說：「當你拿一個訓練有素的模型來模擬人們在互聯網上的行為，并說：『好的，但不要這樣做�！蝗藗儠业揭环N方法來讓它仍然這樣做�！�

　　數據非營利組織 Common Crawl 的創(chuàng)始人吉爾·埃爾巴茲(Gil Elbaz)懷疑「不能從訓練集到生產之間畫一條直線」，并將該過程比作一個去博物館尋找靈感但被阻止復制藝術品的藝術家。他說，「重要的是社會決定哪些用例是合法的，哪些用例是不合法的。」

　　這不僅僅是由社會決定。隨著歐洲監(jiān)管機構制定人工智能使用法規(guī)，他們正在努力應對的事實是，目前人工智能熱潮正在挖掘的數據多年來一直處于法律灰色地帶，而這一現狀現在才受到嚴重審查。歐洲議會成員圖多拉切 (Tudorache) 說：「沒有多年的數據積累，人工智能不可能達到這種復雜程度。」

　　但在舒曼的眼中，應該監(jiān)控的不是數據集。在他看來，人工智能的最壞情況是大型科技公司通過為監(jiān)管框架定制工具來排擠開發(fā)人員。「如果我們試圖放慢速度并過度監(jiān)管，」他警告說，「最終的風險是只有少數大型企業(yè)玩家能夠承擔所有正式要求�！�

IT產業(yè)網微信二維碼logo

　　榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復制

標題鏈接已成功復制

開啟 AIGC 時代的那個人，一分錢都沒賺到

最新新聞

熱門新聞

新動態(tài)

關注度

最話題

開啟 AIGC 時代的那個人，一分錢都沒賺到

相關閱讀

最新新聞

熱門新聞

新動態(tài)

關注度

最話題

開啟 AIGC 時代的那個人，一分錢都沒賺到