文章概要:
OpenAI 正準(zhǔn)備推出 GPT-4的圖像理解,這是一種名為“GPT-Vision”的多模態(tài)功能,以使該模型得到更廣泛的應(yīng)用,以與谷歌計(jì)劃的 Gemini 多模態(tài) AI 模型競(jìng)爭(zhēng)。
此功能可以為 GPT-4啟用新的基于圖像的應(yīng)用程序,例如生成與圖像匹配的文本。
OpenAI 還在開發(fā)一種新的 AI 模型,代號(hào)為“Gobi”,該模型從一開始就被設(shè)計(jì)為多模式,并有可能成為 GPT-5。
站長(zhǎng)之家(ChinaZ.com) 9月20日 消息:谷歌即將發(fā)布 Gemini,這是一種多模態(tài)語(yǔ)言模型,可能會(huì)挑戰(zhàn) OpenAI 的 GPT-4的領(lǐng)導(dǎo)地位。
但據(jù)報(bào)道 OpenAI 正在準(zhǔn)備做出適當(dāng)?shù)幕貞?yīng),該公司計(jì)劃通過引入名為“GPT-Vision”的圖像理解功能來(lái)應(yīng)對(duì)Gemini的競(jìng)爭(zhēng)。
據(jù)《The Information》報(bào)道,GPT-4的圖像理解功能將被命名為“GPT-Vision”。這一多模態(tài)功能最初是在GPT-4發(fā)布會(huì)上介紹的,并成為了演示的焦點(diǎn)之一。GPT-4展示了基于網(wǎng)頁(yè)繪圖生成網(wǎng)頁(yè)代碼的能力,但一般用戶尚無(wú)法獲得這一圖像理解功能。據(jù)稱,主要是OpenAI擔(dān)心該功能可能被濫用,例如用于面部識(shí)別等用途,因此對(duì)其進(jìn)行了限制。
GPT-Vision的推出將使GPT-4具備更廣泛的圖像應(yīng)用能力,例如生成與圖像內(nèi)容相關(guān)的文本。這將為用戶提供更多創(chuàng)造性的應(yīng)用可能性,也能夠滿足多樣化的需求。
另外,還有傳聞稱OpenAI正在開發(fā)DALL-E3,并有可能將其集成到GPT-4中。與GPT-Vision的發(fā)布相結(jié)合,這意味著OpenAI正不斷拓展GPT-4的功能,尤其是在圖像處理領(lǐng)域。DALL-E3生成的第一批圖像據(jù)稱已經(jīng)取得了顯著的進(jìn)步,這將進(jìn)一步提升GPT-4的吸引力。
OpenAI計(jì)劃在11月6日舉行的OpenAI一日開發(fā)者大會(huì)上宣布GPT-4的新功能。盡管OpenAI首席執(zhí)行官Sam Altman沒有透露太多細(xì)節(jié),但他表示將會(huì)有“偉大的東西”,這引發(fā)了廣泛的期待。
The Information還報(bào)道稱,OpenAI 還在考慮一種新的 AI 模型,代號(hào)為“Gobi”,該模型從一開始就被設(shè)計(jì)為多模態(tài)。Gobi的訓(xùn)練還沒有開始,有機(jī)會(huì)成為GPT-5。
(舉報(bào))