站長之家(ChinaZ.com) 9月21日消息:本周三,OpenAI 宣布了 DALL-E 3,這是其最新版本的 AI 圖像合成模型,它與 ChatGPT 完全集成。
DALL-E 3 通過緊密遵循復雜的描述并處理圖像內(nèi)文本生成(如標簽和標志)來渲染圖像,這是早期模型所面臨的挑戰(zhàn)。目前處于研究預覽階段,將于十月初提供給 ChatGPT Plus 和企業(yè)客戶。
與其前身一樣,DALL-E 3 是一種文本到圖像生成器,根據(jù)稱為提示的書面描述創(chuàng)建新穎的圖像。盡管 OpenAI 沒有透露關(guān)于 DALL-E 3 的技術(shù)細節(jié),但以前版本的 DALL-E 的核心 AI 模型是基于由人類藝術(shù)家和攝影師創(chuàng)作的數(shù)百萬張圖像進行訓練的,其中一些是從像 Shutterstock 這樣的庫網(wǎng)站獲得許可的。DALL-E 3 很可能也遵循了這一相同的方法,但使用了新的訓練技術(shù)和更多的計算訓練時間。
從 OpenAI 在其宣傳博客上提供的示例來看,DALL-E 3 似乎是迄今為止可用于按提示操作的圖像合成模型中的一個巨大突破。盡管 OpenAI 的示例是精選的,以展示其效果,但它們似乎忠實地遵循了提示的指令,并以無需任何「黑科技」或提示工程即可令對象逼真地呈現(xiàn)出來。
與 DALL-E 2 相比,OpenAI 表示 DALL-E 3 能夠更有效地細化手部等小細節(jié),從而默認情況下創(chuàng)建引人入勝的圖像。
相比之下,來自另一競爭對手供應(yīng)商 Midjourney 渲染了逼真的細節(jié),但仍然需要對提示進行大量反直覺的調(diào)整才能控制圖像輸出。
DALL-E 3 似乎還可以處理圖像中的文本,而其前身無法做到這一點(一些競爭模型,如 Stable Diffusion XL 和 DeepFloyd,在這方面表現(xiàn)得越來越好)。例如,包含「一幅畫中,一個鱷梨坐在治療師椅子上,說著『我感到內(nèi)心空虛』,中間有一個坑孔大小的洞」的提示,創(chuàng)建了一個卡通鱷梨,角色的臺詞完美地被包含在一個對話氣泡中。
圖片來自OpenAI
值得注意的是,OpenAI 表示 DALL-E 3 是「在 ChatGPT 上本地構(gòu)建」的,并將作為 ChatGPT Plus 的一個集成功能推出,使 AI 助手能夠作為頭腦風暴的合作伙伴以一種與當前對話的背景相一致的上下文環(huán)境方式生成圖像。這可能會帶來新的能力。微軟的 Bing Chat AI 助手,也是基于 OpenAI 的技術(shù)構(gòu)建的,自去年三月以來就能夠在對話中生成圖像。
DALL-E 的原始版本于 2021 年 1 月出現(xiàn),OpenAI 在 2022 年 4 月推出了更強大的續(xù)作,以令人震驚的方式引發(fā)了 AI 生成圖像的新時代,深深吸引了最初的封閉測試者。DALL-E 模型使用一種稱為「潛在擴散」的技術(shù),將噪音轉(zhuǎn)化為它從訓練數(shù)據(jù)集中獲得的知識和提示的圖像。同樣的技術(shù)在去年 8 月也使開放權(quán)重模型 Stable Diffusion 誕生。
由于 DALL-E 是通過從人類創(chuàng)作的藝術(shù)作品的大規(guī)模數(shù)據(jù)集中獲取概念來學習圖像的,自從去年引入主流以來,AI 圖像生成技術(shù)一直備受爭議。這項技術(shù)引發(fā)了藝術(shù)家的抗議,他們擔心它會取代他們或不道德地復制他們的風格,引發(fā)了關(guān)于未經(jīng)版權(quán)持有人同意使用作為訓練數(shù)據(jù)的被抓取圖像的版權(quán)侵權(quán)的訴訟,以及關(guān)于美國版權(quán)辦公室和美國地方法院對版權(quán)的新裁決。
作為對這些爭議的回應(yīng),OpenAI 表示,DALL-E 3 將拒絕要求以在世藝術(shù)家風格制作圖像的請求。OpenAI 還提供了一個表單,供創(chuàng)作者選擇不讓他們的圖像用于訓練未來的模型。這些措施似乎不太可能滿足那些通常認為 AI 訓練應(yīng)該僅限于選擇加入而不包含在默認圖像數(shù)據(jù)集中的藝術(shù)家。
目前,美國的版權(quán)政策規(guī)定,純粹由 AI 生成的藝術(shù)作品無法獲得版權(quán)保護,因此使用 DALL-E 3 創(chuàng)建的任何圖像都將屬于公有領(lǐng)域。盡管 OpenAI 沒有明確承認這一點,但它表示「您使用 DALL-E 3 創(chuàng)建的圖像屬于您,您無需我們的許可即可重新印刷、銷售或制作商品。」這與去年 OpenAI 根據(jù)擁有所有生成物權(quán)的許可限制 DALL-E 2 圖像使用的情況有了顯著變化。
關(guān)于安全性,OpenAI 表示,與 DALL-E 2 一樣,DALL-E 3 已經(jīng)實施了關(guān)鍵字和圖像檢測過濾器,以限制其生成暴力、性或令人討厭的內(nèi)容。該系統(tǒng)還被編程拒絕生成涉及具名公眾人物的請求,這一點在競爭的 AI 圖像生成器 Midjourney 生成唐納德·特朗普的虛假逮捕圖像時曾引發(fā)問題。
OpenAI 表示,已經(jīng)與被稱為「紅隊成員」的專家合作,以識別和減輕潛在風險,如有害的偏見或制造宣傳和虛假信息。OpenAI 沒有提及其工具潛在用于以具有說服力的虛構(gòu)來扭曲歷史記錄,盡管它表示正在嘗試使用「來源分類器」工具,該工具可以幫助確定圖像是否由 DALL-E 3 生成。
OpenAI 表示,這款 AI 圖像生成器正在進行封閉測試。計劃通過 API 在十月提供給 ChatGPT Plus 和企業(yè)客戶,并在今年晚些時候在實驗室中提供。
(舉報)