OpenAI或?qū)⑼瞥龆嗄B(tài)模型GPT-Vision和Gobi，與谷歌Gemini競(jìng)爭(zhēng)

2023-09-20 11:42 · 稿源：站長(zhǎng)之家

文章概要:
OpenAI 正準(zhǔn)備推出 GPT-4的圖像理解，這是一種名為“GPT-Vision”的多模態(tài)功能，以使該模型得到更廣泛的應(yīng)用，以與谷歌計(jì)劃的 Gemini 多模態(tài) AI 模型競(jìng)爭(zhēng)。
此功能可以為 GPT-4啟用新的基于圖像的應(yīng)用程序，例如生成與圖像匹配的文本。
OpenAI 還在開發(fā)一種新的 AI 模型，代號(hào)為“Gobi”，該模型從一開始就被設(shè)計(jì)為多模式，并有可能成為 GPT-5。

站長(zhǎng)之家(ChinaZ.com) 9月20日消息:谷歌即將發(fā)布 Gemini，這是一種多模態(tài)語(yǔ)言模型，可能會(huì)挑戰(zhàn) OpenAI 的 GPT-4的領(lǐng)導(dǎo)地位。

但據(jù)報(bào)道 OpenAI 正在準(zhǔn)備做出適當(dāng)?shù)幕貞?yīng)，該公司計(jì)劃通過引入名為“GPT-Vision”的圖像理解功能來(lái)應(yīng)對(duì)Gemini的競(jìng)爭(zhēng)。

據(jù)《The Information》報(bào)道，GPT-4的圖像理解功能將被命名為“GPT-Vision”。這一多模態(tài)功能最初是在GPT-4發(fā)布會(huì)上介紹的，并成為了演示的焦點(diǎn)之一。GPT-4展示了基于網(wǎng)頁(yè)繪圖生成網(wǎng)頁(yè)代碼的能力，但一般用戶尚無(wú)法獲得這一圖像理解功能。據(jù)稱，主要是OpenAI擔(dān)心該功能可能被濫用，例如用于面部識(shí)別等用途，因此對(duì)其進(jìn)行了限制。

OpenAI，ChatGPT，人工智能，AI

GPT-Vision的推出將使GPT-4具備更廣泛的圖像應(yīng)用能力，例如生成與圖像內(nèi)容相關(guān)的文本。這將為用戶提供更多創(chuàng)造性的應(yīng)用可能性，也能夠滿足多樣化的需求。

另外，還有傳聞稱OpenAI正在開發(fā)DALL-E3，并有可能將其集成到GPT-4中。與GPT-Vision的發(fā)布相結(jié)合，這意味著OpenAI正不斷拓展GPT-4的功能，尤其是在圖像處理領(lǐng)域。DALL-E3生成的第一批圖像據(jù)稱已經(jīng)取得了顯著的進(jìn)步，這將進(jìn)一步提升GPT-4的吸引力。

OpenAI計(jì)劃在11月6日舉行的OpenAI一日開發(fā)者大會(huì)上宣布GPT-4的新功能。盡管OpenAI首席執(zhí)行官Sam Altman沒有透露太多細(xì)節(jié)，但他表示將會(huì)有“偉大的東西”，這引發(fā)了廣泛的期待。

The Information還報(bào)道稱，OpenAI 還在考慮一種新的 AI 模型，代號(hào)為“Gobi”，該模型從一開始就被設(shè)計(jì)為多模態(tài)。Gobi的訓(xùn)練還沒有開始，有機(jī)會(huì)成為GPT-5。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

薦谷歌“狙擊”OpenAI，發(fā)布新一代大模型，主打Agent+多模態(tài)

繼量子芯片之后，谷歌又來(lái)?yè)尅癘penAI雙12直播”的流量了!就在剛剛，谷歌新一代大模型Gemini2.0突然登場(chǎng)，再次由谷歌CEO皮猜親自官宣。新一代模型專為AIAgent打造，谷歌表示目前已經(jīng)將2.0版本提供給了一些開發(fā)者內(nèi)測(cè)，正在迅速將其集成在Gemini和搜索等產(chǎn)品線中。從OpenAI跳槽到谷歌的LoganKilpatrick表示，他們?cè)贕oogleAIStudio中創(chuàng)建了一個(gè)全新體驗(yàn)，展示了Gemini2.0視頻理解、原生工具?

?谷歌 ?Gemini ?2.0
谷歌史上最強(qiáng)大模型！Gemini 2.0正式發(fā)布

今天凌晨，谷歌正式發(fā)布了為新智能體時(shí)代構(gòu)建的下一代模型Gemini2.0。這是谷歌迄今為止功能最強(qiáng)的AI模型，帶來(lái)了更強(qiáng)的性能、更多的多模態(tài)表現(xiàn)和新的原生工具應(yīng)用。Gemini2.0還會(huì)擴(kuò)展到更多Google產(chǎn)品中。

?谷歌 ?Gemini ?2.0
薦AI日?qǐng)?bào)：OpenAI重磅上線Sora；智譜AI免費(fèi)多模態(tài)模型GLM-4V-Flash；騰訊云打造AI代碼助手

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、OpenAI正式上線Sora，ChatGPTPro用戶可無(wú)限生成、最長(zhǎng)20秒OpenAI在"ship-mas"系列活動(dòng)中發(fā)布了SoraTurbo視頻生成AI，支持生成20秒1080p視頻，用戶可通過文本、圖片或視頻進(jìn)行創(chuàng)作，具有多種風(fēng)格和剪輯功能。See3D已開源，支持多種3D創(chuàng)作應(yīng)用。
成都匯陽(yáng)投資關(guān)于Sora 正式上線，多模態(tài)模型的里程碑

事件12月10日，OpenAl正式上線Sora，并向包括美國(guó)在內(nèi)的多數(shù)國(guó)家用戶開放，用戶可在OpenAI官網(wǎng)上體驗(yàn)Sora。Sora被包含在ChatGPTPlus和ChatGPTPro的會(huì)員訂閱方案中，用戶無(wú)需額外付費(fèi)。股市有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。

?OpenAI ?Sora ?視頻生成
消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

AI初創(chuàng)公司OpenAI開發(fā)其下一個(gè)主要模型GPT-5的努力正落后于計(jì)劃，其結(jié)果還不能證明巨大的成本是合理的。OpenAI已經(jīng)完成了至少兩次大型訓(xùn)練運(yùn)行，其目的是通過對(duì)大量數(shù)據(jù)的訓(xùn)練來(lái)改進(jìn)模型。在Codeforces競(jìng)技編程中o3模型得分為2727分，甚至超過了OpenAI的首席科學(xué)家。

?GPT-5 ?OpenAI ?AI模型
薦AI日?qǐng)?bào)：支付寶推AI創(chuàng)意生成平臺(tái)；谷歌王炸推理模型Gemini2.0 Flash Thinking；Runway支持插入中間幀；OpenAI準(zhǔn)備o3推理模型

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、谷歌發(fā)布王炸推理模型Gemini2.0FlashThinking，挑戰(zhàn)OpenAIo1谷歌近期推出的Gemini2.0FlashThinking模型在多模態(tài)推理領(lǐng)域展現(xiàn)出強(qiáng)大的能力，支持32，000個(gè)輸入標(biāo)記和8，000個(gè)輸出標(biāo)記，極大提升了處理復(fù)雜問題的效率。與前代產(chǎn)品相比，F(xiàn)alcon3的訓(xùn)練規(guī)模翻倍，展現(xiàn)出強(qiáng)勁的競(jìng)爭(zhēng)力，尤其是在與其他主流開源模型的基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。

?AI技術(shù) ?人工智能 ?機(jī)器學(xué)習(xí)
薦AI日?qǐng)?bào)：阿里通義開源多模態(tài)推理模型QVQ-72B；OpenAI考慮自研人形機(jī)器人；QQ音樂上線首個(gè)AI大模型音效

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里發(fā)布多模態(tài)推理模型QVQ-72B!視覺、語(yǔ)言能力雙提升阿里巴巴最近推出的QVQ-72B多模態(tài)推理模型在語(yǔ)言和視覺能力上實(shí)現(xiàn)了顯著提升，能夠處理復(fù)雜的推理和分析任務(wù)，尤其在多步推理和數(shù)學(xué)推理方面表現(xiàn)突出。盡管o1-preview在某些方面表現(xiàn)優(yōu)秀，但在實(shí)際應(yīng)用中仍面臨高成本和不切實(shí)際的測(cè)試建議等問題。

?人工智能 ?多模態(tài)推理 ?阿里巴巴
薦AI日?qǐng)?bào)：蘋果全家桶接入ChatGPT；百度文庫(kù)上線專業(yè)PPT生成；谷歌Gemini 2.0版來(lái)襲；ChatGPT全球宕機(jī)已修復(fù)

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、蘋果發(fā)布iOS18.2正式版:Siri接入ChatGPT蘋果公司正式發(fā)布了iOS18.2、iPadOS18.2和macOSSequoia15.2，特別是iOS18.2引入的新功能AppleIntelligence備受關(guān)注。廣州警方成功偵破了一個(gè)犯罪團(tuán)伙，抓獲6名嫌疑人，該團(tuán)伙通過注冊(cè)自媒體賬號(hào)和使用AI工具批量發(fā)布虛假信息，造成了嚴(yán)重的網(wǎng)絡(luò)污染。

?人工智能 ?蘋果產(chǎn)品 ?iOS更新
智象多模態(tài)生成大模型3.0發(fā)布離幻覺更遠(yuǎn)與離落地更近

12月28日，智象未來(lái)科技有限公司在安徽人工智能產(chǎn)業(yè)先導(dǎo)區(qū)啟動(dòng)儀式中，正式發(fā)布智象多模態(tài)生成大模型3.0版。啟動(dòng)儀式上，智象未來(lái)創(chuàng)始人兼首席執(zhí)行官梅濤總結(jié)了2024年人工領(lǐng)域技術(shù)發(fā)展的五個(gè)標(biāo)志性事件，分別是以Sora為代表的視覺生成物理世界模擬器、以ChatGPT4o為代表的多模態(tài)模型、以GPT-o1為代表的從預(yù)訓(xùn)練到后訓(xùn)練推理優(yōu)化、多模態(tài)大模型賦能具身智能實(shí)現(xiàn)軟硬件結(jié)合，以及人工智能學(xué)者榮獲諾貝爾化學(xué)獎(jiǎng)表明AI賦能科研范式變革。本次活動(dòng)現(xiàn)場(chǎng)，智象未來(lái)與人民網(wǎng)、上海電影集團(tuán)、彩訊科技、捷成華視網(wǎng)聚、安徽聯(lián)通、中國(guó)移動(dòng)咪咕音樂等12家生態(tài)伙伴企業(yè)代表簽約，共同打造集技術(shù)研發(fā)、產(chǎn)業(yè)化應(yīng)用、市場(chǎng)推廣于一體的生態(tài)體系。

?人工智能 ?多模態(tài)大模型 ?技術(shù)發(fā)展
蘋果Vision Pro計(jì)劃增加對(duì)PlayStation VR2 手部控制器的支持

根據(jù)彭博社馬克·古爾曼的最新報(bào)道，蘋果正在尋求通過增加對(duì)PlayStationVR控制器的支持，來(lái)吸引更多的游戲玩家和開發(fā)者，以提升其VisionPro混合現(xiàn)實(shí)設(shè)備的市場(chǎng)吸引力。雖然VisionPro目前更多被視為生產(chǎn)力和媒體消費(fèi)工具非游戲設(shè)備，部分原因在于它依賴眼睛和手部控制非獨(dú)立控制器。通過這種方式，蘋果不僅能提升游戲控制的精度可能推動(dòng)更多軟件應(yīng)用，如FinalCutPro和AdobePhotoshop等，也能在VisionPro上順利運(yùn)行，為專業(yè)用戶提供更多功能。

?蘋果 ?Vision ?Pro

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

OpenAI或?qū)⑼瞥龆嗄B(tài)模型GPT-Vision和Gobi，與谷歌Gemini競(jìng)爭(zhēng)

薦谷歌“狙擊”OpenAI，發(fā)布新一代大模型，主打Agent+多模態(tài)

谷歌史上最強(qiáng)大模型！Gemini 2.0正式發(fā)布

薦AI日?qǐng)?bào)：OpenAI重磅上線Sora；智譜AI免費(fèi)多模態(tài)模型GLM-4V-Flash；騰訊云打造AI代碼助手

成都匯陽(yáng)投資關(guān)于Sora 正式上線，多模態(tài)模型的里程碑

消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

薦AI日?qǐng)?bào)：支付寶推AI創(chuàng)意生成平臺(tái)；谷歌王炸推理模型Gemini2.0 Flash Thinking；Runway支持插入中間幀；OpenAI準(zhǔn)備o3推理模型

薦AI日?qǐng)?bào)：阿里通義開源多模態(tài)推理模型QVQ-72B；OpenAI考慮自研人形機(jī)器人；QQ音樂上線首個(gè)AI大模型音效

薦AI日?qǐng)?bào)：蘋果全家桶接入ChatGPT；百度文庫(kù)上線專業(yè)PPT生成；谷歌Gemini 2.0版來(lái)襲；ChatGPT全球宕機(jī)已修復(fù)

智象多模態(tài)生成大模型3.0發(fā)布離幻覺更遠(yuǎn)與離落地更近

蘋果Vision Pro計(jì)劃增加對(duì)PlayStation VR2 手部控制器的支持

熱文

雷軍感謝網(wǎng)友祝他年入百萬(wàn)：愿大家夢(mèng)想成真今晚8點(diǎn)跨年直播

雷軍辟謠只招聘35歲以下員工：僅針對(duì)未來(lái)之星項(xiàng)目

抖音副總裁回應(yīng)吳柳芳同名賬號(hào)被封：仿冒當(dāng)事人

抖音李亮：字節(jié)70億美元購(gòu)買英偉達(dá)芯片不實(shí) 張一鳴從未參與算力

阿里巴巴AI“生意管家”: 400萬(wàn)商家的秘密武器

雷軍曬健身房照片：此前設(shè)定100次健身打卡目標(biāo)

董明珠曾喊話雷軍給股民分多少錢！格力：擬分紅超55億

法拉第未來(lái)漲近80% 此前宣布再獲3000萬(wàn)美元融資

拼手氣分紅包！支付寶宣布2025年集五福1月20日開啟

雷軍：至今還有30%的車主沒試駕過就直接下單

3萬(wàn)一只AI寵物：正成為日本富人的新玩具

曝雷軍挖了個(gè)95后天才少女“AI小蘿莉”：開出千萬(wàn)年薪惡補(bǔ)大模

京東科技宣布落實(shí)20薪：計(jì)劃到2025年實(shí)現(xiàn)

AI 的暗面：永遠(yuǎn)不要對(duì)人工智能聊天機(jī)器人說(shuō)的 10 件事

Edge瀏覽器睡眠標(biāo)簽頁(yè)立功：一年節(jié)省7萬(wàn)億MB流量

免費(fèi)寫真人人都能用！騰訊元寶AI跨年美照上線：大片一鍵生成

AI教父辛頓發(fā)聲：30年內(nèi)AI致人類滅亡幾率達(dá)10%-20%

李想談OpenAI：如果讓我當(dāng)CEO 我做的不會(huì)比Altman更好

出圈就好！盤點(diǎn)2024年國(guó)內(nèi)AI大模型產(chǎn)品的那些破圈姿勢(shì)

AI 智能體如何在教育領(lǐng)域崛起并塑造 2025 年

站長(zhǎng)商機(jī)

OpenAI或?qū)⑼瞥龆嗄B(tài)模型GPT-Vision和Gobi，與谷歌Gemini競(jìng)爭(zhēng)

熱文

站長(zhǎng)商機(jī)

OpenAI或?qū)⑼瞥龆嗄B(tài)模型GPT-Vision和Gobi，與谷歌Gemini競(jìng)爭(zhēng)