剛剛，GPT-4o原生圖像生成上線

2025/03/26 09:43 機器之心

　　就在 DeepSeek V3「小版本更新」，阿里通義千問團隊開源了新模型后，OpenAI 深夜也悄悄搞事情。

　　毫無預告地，OpenAI 推出 GPT-4o 原生圖像生成。效果讓人驚嘆不已。更妙的是，即使免費用戶也可使用。

　　先來體驗一下：

　　在生成結果中可以看到，GPT-4o 在執(zhí)行任務時首先會對我們的原始提示詞進行優(yōu)化，編寫一個更加詳細的英文版提示詞：

　　在 OpenAI 看來，圖像生成應該是語言模型的核心能力之一。因此他們將*進的圖像生成器 4o 集成到了 GPT-4o 中。

　　2024 年 5 月，OpenAI 發(fā)布其*全能多模態(tài)模型 GPT-4o，與 ChatGPT 之前采用的生成式 AI 圖像模型(OpenAI 的 DALL-E 3)不同 —— 這個經典的 diffusion transformer 通過去除像素噪聲來根據文本提示重建圖像 —— 新的圖像生成器被整合到了同一個多模態(tài)模型中。OpenAI 對整個模型進行了統一訓練，使其能夠同時理解文本、代碼和圖像等多種形式。

　　GPT-4o 的圖像生成能力具有以下突出優(yōu)勢：它能精準呈現文字內容，嚴格遵循指令要求，并充分調用 4o 內置知識庫和對話上下文 —— 包括對上傳圖像進行轉化處理或將其作為視覺靈感來源。這些特性讓用戶能更輕松地創(chuàng)造出與構想完全一致的圖像，通過視覺表達實現更高效的溝通，從而將圖像生成技術升級為兼具精確性與實用性的強大工具。

　　效果如何，我們接著往下看。

　　有用且美麗的圖像生成

　　OpenAI 基于在線圖像和文本對模型進行了訓練，這不僅讓模型學習了圖像與語言之間的關系，還學習了圖像之間的相互關系。結合后訓練，最終的模型具有令人驚訝的視覺流暢性，能夠生成有用、一致且具有上下文感知能力的圖像。

　　文本渲染

　　一圖勝千言，但有時在恰當位置生成幾個字就能升華圖像意境。4o 將精準符號與視覺元素*融合的能力，使圖像生成進階為真正的視覺傳達工具。

　　提示：「創(chuàng)建一張逼真的照片，內容是兩名 20 多歲的女巫(一名是灰白色挑染發(fā)型，另一名是長卷的紅褐色頭發(fā))正在閱讀一個街標。

　　背景：紐約威廉斯堡一條普通的城市街道，一根電線桿上完全被許多詳細的街標覆蓋(例如，街道清掃時間、需要停車許可證、車輛分類、拖車規(guī)則)，包括中間的幾個荒謬的標志：Broom Parking for Witches Not Permitted in Zone C，Magic Carpet Loading and Unloading Only (15-Minute Limit) 等等。

　　人物：一名女巫拿著一把掃帚，另一名女巫拿著一個卷起的魔法地毯。她們在前景中，身體微微背向相機，頭部微微傾斜，仔細查看標志。

　　從背景到前景的構圖：街道 + 停放的汽車 + 建筑物 → 街標 → 女巫。人物必須是離拍攝相機最近的�！�

　　這就是生成一張圖片的部分提示詞，提示詞描述的可謂非常詳細。GPT-4o 不但嚴格遵循指令，還將提示語中的文本字符也準確的表達出來了。

　　GPT-4o 生成的菜單，不知道的還以為這是一張真實菜單。

　　提示：「我在 Marin 開設了一家名為 Haein 的傳統概念餐廳，主打采用有機農場新鮮食材烹制的韓式料理，并根據時令供應輪換菜單。請您設計一份菜單圖片，需包含以下菜品 —— 整體風格要兼顧傳統 / 鄉(xiāng)村韻味與高端精致感。請為每道菜品配上優(yōu)雅的彼得兔風格的插畫，確保所有文字正確呈現，并使用白色背景。

　　頂部：大醬湯(發(fā)酵大豆燉菜) - 18 美元

　　大醬湯是用當地的蘑菇、豆腐和時令蔬菜做成的，配上米飯……

　　底部：時令米酒 —— 每杯 12 美元」

　　持續(xù)生成

　　由于圖像生成功能現已深度集成于 GPT-4o 系統，用戶可通過自然對話實現圖像優(yōu)化。GPT-4o 能基于聊天上下文中的圖文內容持續(xù)創(chuàng)作，確保輸出結果的一致性。例如在設計游戲角色時，當你反復調整和測試方案，該角色的外觀特征將在多次迭代中保持高度協調。

　　舉例來說，當你輸入一張貓咪的圖片，然后給出提示「給這只貓一頂偵探帽和一副單片眼鏡」，GPT-4o 就能在保持原始圖片的情況下，遵循指令重新生成一張。

　　你還可以繼續(xù)修改圖片，只要給點提示就可以了，例如給定提示「將這個場景制作成一款 AAA 級的 4K 游戲引擎打造的視頻游戲，并添加一個神秘角色扮演游戲的用戶界面作為覆蓋層。在游戲中，我們可以在頂部看到生命值條和小地圖，底部則顯示法術圖標，整體界面風格保持一致且具有標志性。」對話過程一張精美的圖片就生成了。

　　除了圖像作為輸入，你也可以從提示入手，例如要求 GPT-4o 生成一張「奢華蛋殼紋理卡片上的詩歌」，然后把詩歌內容也附加上，就能出現如下的效果圖，你也可以進一步修改，輸入提示就可以了。

　　指令遵循

　　GPT-4o 的圖像生成能夠細致入微地遵循詳細的提示，注重細節(jié)。其他系統在處理大約 5 到 8 個對象時可能會遇到困難，而 GPT-4o 能夠處理多達 10 到 20 個不同的對象。對象與其特征和關系的更緊密綁定，使得控制更加精準。

　　提示：「一張正方形圖片，包含一個 4 行 4 列的網格，共有 16 個物體，背景為白色。從左到右、從上到下依次排列如下：

　　一顆藍色的星星

　　一個紅色的三角形

　　一個綠色的正方形

　　一個粉色的圓形

　　一個橙色的沙漏

　　一個紫色的無窮大符號

　　一個黑白波點圖案的領結

　　一個扎染風格的 42 字樣

　　……

　　用草書寫成的 OpenAI 字樣

　　一道彩虹色的閃電」

　　空曠的城市，提示：下午的紐約時代廣場，沒有人，沒有車輛，也沒有發(fā)光的廣告牌。

　　轉化數學公式：

　　上下文學習

　　GPT-4o 能夠分析并學習用戶上傳的圖像，將圖像的細節(jié)無縫整合到上下文中，以指導圖像生成。

　　當你輸入幾張圖像，然后給出提示：用這些圖像作為參考，畫一個三角形車輪的車輛設計。

　　標出前輪，后輪，并在圖的下方給出文字(用小大寫)

　　「TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI」

　　提示：藍色電鋸逼真圖像。

　　然后再給出提示：為這個電鋸做個廣告，一個奶奶在感恩節(jié)餐桌上切火雞。并添加標簽行。

　　世界知識

　　原生圖像生成使 4o 能夠將文本和圖像之間的知識聯系起來，從而形成一個感覺更智能、更高效的模型。

　　提示：制作一個視覺信息圖表，描述為什么舊金山如此多霧。

　　簡單的一句提示，4o 就把影響環(huán)境質量的原因用圖片的形式描述出來了。看來，4o 掌握的知識還是很豐富的。

　　要求 4o 制作一幅關于如何制作抹茶的彩色圖解，也沒有問題。

　　風格

　　在反映豐富多樣圖像風格的圖像上進行訓練，使模型能夠令人信服地創(chuàng)建或轉換圖像。

　　提示：一只貓望著街上的水坑，但它的倒影是一只老虎，而且兩種倒影都被水中的漣漪真實地扭曲了。

　　提示：創(chuàng)建一張超逼真的照片，內容是這四只動物在公園的野餐毯上玩撲克，畫面拉遠，呈現全景，照片風格逼真。一只長毛虎斑貓正拿著一手牌……

　　局限性

　　OpenAI 沒有避諱自身模型的局限性。他們指出：「我們的模型并不*。我們目前已經看到了其存在多種限制，我們將在首次發(fā)布后通過模型改進來解決這些限制�！咕唧w來說，OpenAI 羅列出的限制包括：

　　裁剪：GPT-4o 有時會錯誤地裁剪較長的圖像(如海報)，尤其是靠近底部的部分。

　　幻覺：與其他文本模型一樣，圖像生成模型也可以編造信息，尤其是在上下文提示較少時。

　　高結合問題：當生成圖像需要依賴于其知識庫時，它可能難以同時準確地呈現 10-20 多個不同的概念，例如完整的元素周期表。

　　精確繪圖：模型可能在繪制涉及數據的圖表時不準確。

　　多語言文本渲染：模型有時難以渲染非拉丁語言，并且字符可能不準確或產生幻覺，尤其是在更復雜的情況下。

　　編輯精度：當要求編輯圖像生成的特定部分(例如拼寫錯誤)時，結果并不總是有效，還可能出現在沒有請求的情況下更改圖像的其他部分或引入更多錯誤的情況。另一個錯誤是模型難以保持用戶上傳的人臉在編輯中的一致性，但 OpenAI 預計將在一周內修復該錯誤。

　　小文本信息密集：眾所周知，當被要求以非常小的尺寸呈現詳細信息時，模型會遇到困難。

　　模型難以呈現完整的元素周期表

　　安全性

　　OpenAI 也強調了自己在模型安全方面所做的工作。

　　按照 OpenAI 之前發(fā)布的 Model Spec(模型規(guī)范)，他們的目標是「通過支持游戲開發(fā)、歷史探索和教育等有價值的用例來*限度地提高創(chuàng)作自由 —— 同時保持嚴格的安全標準。與此同時，阻止違反這些標準的請求仍然和以往一樣重要�！挂韵率菍ζ渌L險領域的評估：

　　通過 C2PA 和內部可逆搜索給出出處

　　所有生成的圖像都將自帶 C2PA 元數據，即會被標記成來自 GPT‑4o 的圖像。OpenAI 表示，這樣做是為了提供透明性。并且他們宣布已經構建了一個內部搜索工具，可利用生成結果的技術屬性來幫助驗證某個內容是否出自他們的模型。

　　阻止不良內容

　　OpenAI 表示將繼續(xù)阻止可能違反其內容政策的生成圖像請求。他們表示，當真人圖像處于上下文中時，會加強對可以創(chuàng)建的圖像類型的限制。

　　「與任何發(fā)布一樣，安全性永不止步，而是一個持續(xù)的投資領域。隨著我們更多地了解該模型在現實世界中的使用情況，我們將相應地調整我們的政策。」

　　使用推理來增強安全性

　　與審議性對齊(deliberative alignment⁠)類似，OpenAI 表示已經訓練了一個可以直接根據人工編寫的可解釋安全規(guī)范工作的推理 LLM。

　　「我們在開發(fā)過程中使用了這個推理 LLM 來幫助我們識別和解決我們政策中的歧義。結合我們?yōu)?ChatGPT 和 Sora 開發(fā)的多模態(tài)技術進步和現有的安全技術，這能讓我們根據我們的政策來調節(jié)輸入文本和輸出圖像�！�

　　有關安全性的更多論述和研究結果請訪問 OpenAI 同步發(fā)布的 GPT-4o 系統卡附錄。

　　哪些用戶可以使用？

　　OpenAI 表示，從今天開始，4o 圖像生成能力將向 Plus、Pro、Team 和免費用戶推出，作為 ChatGPT 中的默認圖像生成器，企業(yè)版和教育版用戶還需等待一段時間。它也可以在 Sora 中使用。對于那些 DALL・E 在其心中占有特殊地位的人來說，仍然可以通過一個專門的 DALL・E GPT 訪問它。

　　API 用戶呢?OpenAI 表示也快了：訪問權限將在未來幾周內推出。

　　最后，OpenAI 表示：「使用 GPT-4o，創(chuàng)建和定制圖像就像天一樣簡單 —— 只需描述你需要什么，包括任何細節(jié)，如寬高比、使用十六進制代碼的精確顏色或透明背景�！共贿^，OpenAI 也指出，由于此模型能生成更詳細的圖像，因此圖像渲染時間更長，通常長達一分鐘。

IT產業(yè)網微信二維碼logo

　　榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報生成中...

分享到微博分享到微信一鍵復制

標題鏈接已成功復制

剛剛，GPT-4o原生圖像生成上線

最新新聞

熱門新聞

新動態(tài)

關注度

最話題

剛剛，GPT-4o原生圖像生成上線

相關閱讀

最新新聞

熱門新聞

新動態(tài)

關注度

最話題

剛剛，GPT-4o原生圖像生成上線