多模態(tài)認(rèn)知大模型

理想汽車宣布其全自研的多模態(tài)認(rèn)知大模型——MindGPT，已正式通過國(guó)家《生成式人工智能服務(wù)管理暫行辦法》的備案。這一里程碑式的事件標(biāo)志著理想汽車成為首個(gè)通過該備案的汽車廠商自研大模型。它不僅支持方言自由說、指令自由說具備簡(jiǎn)潔模式以及全時(shí)全車免喚醒的能力，為用戶提供了更加便捷、智能的交互體驗(yàn)。...

特別聲明：本頁面標(biāo)簽名稱與頁面內(nèi)容，系網(wǎng)站系統(tǒng)為資訊內(nèi)容分類自動(dòng)生成，僅提供資訊內(nèi)容索引使用，旨在方便用戶索引相關(guān)資訊報(bào)道。如標(biāo)簽名稱涉及商標(biāo)信息，請(qǐng)?jiān)L問商標(biāo)品牌官方了解詳情，請(qǐng)勿以本站標(biāo)簽頁面內(nèi)容為參考信息，本站與可能出現(xiàn)的商標(biāo)名稱信息不存在任何關(guān)聯(lián)關(guān)系，對(duì)本頁面內(nèi)容所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。站長(zhǎng)之家將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。任何單位或個(gè)人認(rèn)為本頁面內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，可及時(shí)向站長(zhǎng)之家提出書面權(quán)利通知或不實(shí)情況說明，并提權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明（點(diǎn)擊查看反饋聯(lián)系地址）。本網(wǎng)站在收到上述反饋文件后，將會(huì)依法依規(guī)核實(shí)信息，第一時(shí)間溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

與“多模態(tài)認(rèn)知大模型”的相關(guān)熱搜詞：

相關(guān)“多模態(tài)認(rèn)知大模型” 的資訊342篇

【騰訊云】11.11云上盛惠！云服務(wù)器首年1.8折起，買1年送3個(gè)月！

11.11云上盛惠！海量產(chǎn)品 · 輕松上云！云服務(wù)器首年1.8折起，買1年送3個(gè)月！超值優(yōu)惠，性能穩(wěn)定，讓您的云端之旅更加暢享?？靵眚v訊云選購(gòu)吧！

Docker容器鏡像
去看看

Docker容器鏡像 60元/15天

爆款產(chǎn)品組合購(gòu)
去看看

爆款產(chǎn)品組合購(gòu) 低至1元

騰訊云x NVIDIA加速計(jì)劃
去看看

騰訊云x NVIDIA加速計(jì)劃最高獲贈(zèng)10萬元扶持基金

2核2G云服務(wù)器
去看看

2核2G云服務(wù)器 112元/1年

查看更多相關(guān)信息>>

騰訊云 12-20

廣告
理想汽車 Mind GPT 多模態(tài)認(rèn)知大模型通過國(guó)家備案

理想汽車宣布其全自研的多模態(tài)認(rèn)知大模型——MindGPT，已正式通過國(guó)家《生成式人工智能服務(wù)管理暫行辦法》的備案。這一里程碑式的事件標(biāo)志著理想汽車成為首個(gè)通過該備案的汽車廠商自研大模型。它不僅支持方言自由說、指令自由說具備簡(jiǎn)潔模式以及全時(shí)全車免喚醒的能力，為用戶提供了更加便捷、智能的交互體驗(yàn)。

理想汽車多模態(tài)認(rèn)知大模型 Mind
Meta推出新一代智能觸覺系統(tǒng)機(jī)械手可實(shí)現(xiàn)多模態(tài)環(huán)境感知

Meta公司日前宣布與傳感器制造商GelSight及韓國(guó)機(jī)器人企業(yè)WonikRobotics達(dá)成戰(zhàn)略合作，共同推進(jìn)新一代觸覺傳感技術(shù)的商業(yè)化進(jìn)程。這套面向科研領(lǐng)域的創(chuàng)新設(shè)備將為科學(xué)家提供更精確的物理世界觀測(cè)與模擬能力。這次跨界合作標(biāo)志著觸覺傳感技術(shù)在科研領(lǐng)域的重要突破，有望為相關(guān)領(lǐng)域研究帶來新的發(fā)展機(jī)遇。

Meta公司觸覺傳感技術(shù) GelSight
實(shí)時(shí)互動(dòng) 情感陪伴，Soul App升級(jí)多模態(tài)大模型探索AI社交新可能

10月25日~26日，由聲網(wǎng)和RTE開發(fā)者社區(qū)聯(lián)合主辦的RTE2024實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)在北京舉行。在AI技術(shù)突破式發(fā)展引發(fā)各行業(yè)革新浪潮的當(dāng)下，此次大會(huì)主題聚焦“AI愛”，匯聚行業(yè)代表企業(yè)、技術(shù)大咖、專家學(xué)者等嘉賓，共同深度探討AI為互聯(lián)網(wǎng)生態(tài)帶來的新發(fā)展。”這也意味著，Soul將實(shí)現(xiàn)真正意義上的AI多模態(tài)交互，集合文字、語音、動(dòng)作交互的多模態(tài)大模型，讓用戶可以在平臺(tái)實(shí)現(xiàn)更接近人類模式的互動(dòng)體驗(yàn)和更高效、自然、豐富維度的信息傳遞，真正獲得社交體驗(yàn)的顛覆式升級(jí)。

實(shí)時(shí)互聯(lián)網(wǎng)大會(huì) AI技術(shù)發(fā)展社交領(lǐng)域AI
圖像偽造照妖鏡！北大發(fā)布多模態(tài)LLM圖像篡改檢測(cè)定位框架FakeShield

【新智元導(dǎo)讀】北京大學(xué)的研究人員開發(fā)了一種新型多模態(tài)框架FakeShield，能夠檢測(cè)圖像偽造、定位篡改區(qū)域，并提供基于像素和圖像語義錯(cuò)誤的合理解釋，可以提高圖像偽造檢測(cè)的可解釋性和泛化能力。隨著生成式人工智能的迅猛發(fā)展，圖像編輯與合成技術(shù)變得愈加成熟與普及。表3:FakeShield與主流IFDL方法的定位性能比較另外，圖4的主觀結(jié)果對(duì)比也表明，F(xiàn)akeShield能夠生成更加?

LLM
GITEX GLOBAL2024開展，Soul 最新多模態(tài)大模型引關(guān)注

如今的AI看起來已經(jīng)無所不能，不僅能夠勝任感知、學(xué)習(xí)、推理、決策等不同層面的任務(wù)，甚至可以打造虛擬數(shù)字分析，為人類帶來多模態(tài)AI交互體驗(yàn)。新型社交平臺(tái)SoulApp在GITEXGLOBAL海灣信息技術(shù)博覽會(huì)上展出了其最新自研的多模態(tài)大模型，該模型具備多模態(tài)理解、真實(shí)擬人、文字對(duì)話、語音通話、多語種等特性，實(shí)現(xiàn)打破次元壁的互動(dòng)，讓現(xiàn)場(chǎng)的觀眾們驚艷不已。Soul將持續(xù)加大對(duì)AI技術(shù)的投入，致力于通過AI技術(shù)更好地幫助用戶進(jìn)行社交破冰，助力人設(shè)搭建和認(rèn)知決策，提升社交溝通效率。

多模態(tài)AI 社交平臺(tái) AI技術(shù)創(chuàng)新
自研多模態(tài)大模型，Soul App亮相2024 GITEX GLOBAL

通過理解自身的行為方式、記憶、偏好等內(nèi)容，復(fù)刻一個(gè)專屬于自己的虛擬化身，實(shí)現(xiàn)打破次元壁的互動(dòng)，結(jié)識(shí)好友，獲得陪伴......如今，科幻電影中描繪的場(chǎng)景正走向現(xiàn)實(shí)。2024年10月14日-18日，GITEXGLOBAL海灣信息技術(shù)博覽會(huì)在迪拜舉辦。預(yù)計(jì)今年年底，Soul多模態(tài)端到端大模型將再次升級(jí)，推出全雙工視頻通話能力，讓用戶可以真正便捷、自然的體驗(yàn)到包括文字、語音、視覺在內(nèi)的多模態(tài)創(chuàng)新交互。

虛擬化身多模態(tài)大模型 GITEX
亮相2024 GITEX海灣信息技術(shù)博覽會(huì) Soul App多模態(tài)大模型實(shí)現(xiàn)超擬人互動(dòng)體驗(yàn)

通過理解自身的行為方式、記憶、偏好等內(nèi)容，復(fù)刻一個(gè)專屬于自己的虛擬化身，實(shí)現(xiàn)打破次元壁的互動(dòng)，結(jié)識(shí)好友，獲得陪伴......如今，科幻電影中描繪的場(chǎng)景正走向現(xiàn)實(shí)。2024年10月14日-18日，GITEXGLOBAL海灣信息技術(shù)博覽會(huì)在迪拜舉辦。預(yù)計(jì)今年年底，Soul多模態(tài)端到端大模型將再次升級(jí)，推出全雙工視頻通話能力，讓用戶可以真正便捷、自然的體驗(yàn)到包括文字、語音、視覺在內(nèi)的多模態(tài)創(chuàng)新交互。

虛擬化身多模態(tài)大模型社交平臺(tái)
薦 AI日?qǐng)?bào)：阿里發(fā)布 FLUX.1-Turbo-Alpha；蘋果多模態(tài)模型MM1升級(jí)為MM1.5；獲獎(jiǎng)AI畫作《太空歌劇院》版權(quán)申請(qǐng)?jiān)饩?

歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里發(fā)布FLUX.1-Turbo-Alpha:基于FLUX.1-dev、8步提煉Lora阿里媽媽創(chuàng)意團(tuán)隊(duì)發(fā)布了基于FLUX.1-dev模型訓(xùn)練的FLUX.1-Turbo-Alpha，采用8步蒸餾Lora模型，多頭判別器顯著提高蒸餾質(zhì)量，支持多種FLU

FLUX
薦長(zhǎng)文本、語音、視覺、結(jié)構(gòu)化數(shù)據(jù)全覆蓋，中國(guó)移動(dòng)九天善智多模態(tài)大模型震撼發(fā)布

它早已不是一家單純的通信運(yùn)營(yíng)商是通過構(gòu)建多模態(tài)基座大模型，打造全要素“AI”服務(wù)運(yùn)營(yíng)體系，成為通用人工智能時(shí)代的供給者、匯聚者和運(yùn)營(yíng)者。

大模型
深思考“Dongni.ai”多模態(tài)大模型，深耕行業(yè)垂直場(chǎng)景，規(guī)?；涞?

深思考人工智能于2024年10月10日在長(zhǎng)沙湖南大數(shù)據(jù)交易所，成功舉辦了以“深耕行業(yè)垂直場(chǎng)景，規(guī)?；涞亍睘橹黝}的云、端、邊側(cè)AI產(chǎn)品發(fā)布會(huì)。本次發(fā)布會(huì)發(fā)布的產(chǎn)品矩陣簡(jiǎn)單概括是“一個(gè)中心，兩個(gè)基本點(diǎn)”，即:以深思考的云側(cè)Dongni.ai大模型和端側(cè)TinyDongni大模型為基礎(chǔ)模型，形成一個(gè)搜索引擎入口，聚焦兩個(gè)深度垂直場(chǎng)景“智能終端”和“重疾早篩”，具體產(chǎn)品包含“一個(gè)中心”AI多模態(tài)搜索引擎“Dongni.so”;“智能終端“場(chǎng)景產(chǎn)品:AIPCSuite套件、AI攝像頭、AI顯微鏡、”，“重疾早篩“場(chǎng)景產(chǎn)品:巧思、慧眼等產(chǎn)品。AI重疾早篩平臺(tái)-慧眼未來展望深思考以AI大模型的場(chǎng)景化、垂直化、產(chǎn)品化和服務(wù)化為目標(biāo)，持續(xù)提高大模型在垂域場(chǎng)景中解決客戶痛點(diǎn)問題的能力，打造專用場(chǎng)景AI的產(chǎn)品，深耕業(yè)務(wù)，并與生態(tài)伙伴緊密合作，繼續(xù)推進(jìn)大模型在垂域場(chǎng)景中的大規(guī)模應(yīng)用落地，相信不久的將來，就可以在各種智能終端和垂直行業(yè)應(yīng)用中看到深思考的應(yīng)用落地，未來可期，未來已來。

人工智能產(chǎn)品發(fā)布行業(yè)應(yīng)用
蘋果多模態(tài)模型大升級(jí)！文本密集、多圖理解，全能小鋼炮

【新智元導(dǎo)讀】近日，一向畫風(fēng)精致的「蘋果牌AI」，也推出了升級(jí)版的多模態(tài)大模型，從1B到30B參數(shù)，涵蓋密集和專家混合模型，密集文本、多圖理解，多項(xiàng)能力大提升。多模態(tài)大語言模型如今已是大勢(shì)所趨。最后一欄表明，作者優(yōu)化的組合實(shí)現(xiàn)了最佳的整體性能，平衡了基準(zhǔn)測(cè)試中的所有功能。

多模態(tài)大模型蘋果AI 開源與閉源
蘋果推出300億參數(shù)多模態(tài)AI大模型MM1.5：擁有圖像識(shí)別、自然語言推理能力

近日，蘋果公司推出了300億參數(shù)的多模態(tài)AI大模型MM1.5，該版本是在前代MM1的架構(gòu)基礎(chǔ)上發(fā)展來的。該模型繼續(xù)遵循數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練原則，著重探究在不同訓(xùn)練周期中混合各類數(shù)據(jù)對(duì)模型性能產(chǎn)生的影響，相關(guān)模型文檔已在HuggingFace上發(fā)布。盡管MM1.5模型在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，但蘋果團(tuán)隊(duì)仍計(jì)劃通過進(jìn)一步融合文本、圖像和用戶交互數(shù)據(jù)，并設(shè)計(jì)更復(fù)雜的架構(gòu)，來提升模型對(duì)移動(dòng)設(shè)備UI的理解能力，從讓蘋果牌”AI更強(qiáng)大。

蘋果多模態(tài)AI MM1.5
薦具身智能機(jī)器人隱藏冠軍上新：領(lǐng)狗進(jìn)家門，多模態(tài)AI那種

具身智能領(lǐng)域的“癲”，已經(jīng)進(jìn)入nextlevel了!來看這段視頻:人形機(jī)器人在前面跑，一群機(jī)器狗在后面追;然后人追著狗，接著狗追著人……最后那位機(jī)器人還有很重的「偷感」在身上。這樣它就真的很真狗啊!第二點(diǎn)是BabyAlphaA2擁有SuperChat功能。機(jī)器人對(duì)人類的價(jià)值，從來不只是“科幻”和冷冰冰的硬件已。

機(jī)器人
薦 Meta首款多模態(tài)Llama 3.2開源！1B羊駝寶寶，跑在手機(jī)上了

【新智元導(dǎo)讀】Meta首個(gè)理解圖文的多模態(tài)Llama3.2來了!這次，除了11B和90B兩個(gè)基礎(chǔ)版本，Meta還推出了僅有1B和3B輕量級(jí)版本，適配了Arm處理器，手機(jī)、AR眼鏡邊緣設(shè)備皆可用。Llama3.1超大杯405B剛過去兩個(gè)月，全新升級(jí)后的Llama3.2來了!這次，最大的亮點(diǎn)在于，Llama3.2成為羊駝家族中，首個(gè)支持多模態(tài)能力的模型。這些新解決方案已經(jīng)集成到了Meta的參考實(shí)現(xiàn)、演示和應(yīng)用程序中，開源

Meta Llama3.2
悅靈犀AI多模態(tài)應(yīng)用重大升級(jí)，支持海外用戶使用

北京2024年9月24日，悅享控股有限公司，一家以技術(shù)驅(qū)動(dòng)的新一代移動(dòng)互聯(lián)網(wǎng)基礎(chǔ)設(shè)施與平臺(tái)服務(wù)提供商今天宣布，悅靈犀AI多模態(tài)全面升級(jí)2.3版本，使悅靈犀AI具有更為強(qiáng)大的應(yīng)用能力。在本次更新升級(jí)中，除新增AIlive圖功能外，悅靈犀AI實(shí)現(xiàn)了支持部分國(guó)家和地區(qū)的海外用戶使用。隨著悅享控股的大模型底層技術(shù)不斷取得突破和進(jìn)步，悅靈犀AI已經(jīng)在應(yīng)用層面實(shí)現(xiàn)了超越式發(fā)展，其豐富、多樣和真實(shí)的生成效果，為全球更多用戶帶來前所未有的超級(jí)應(yīng)用體驗(yàn)。

悅享控股悅靈犀AI 多模態(tài)升級(jí)
薦 AI日?qǐng)?bào)：??阿里推新多模態(tài)大模型Ovis；Kyutai開源實(shí)時(shí)語音對(duì)話模型Moshi；Apple Intelligence測(cè)試版現(xiàn)已開放

歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里國(guó)際推出最新多模態(tài)大模型Ovis，看菜品就能提供烹飪步驟阿里國(guó)際AI團(tuán)隊(duì)發(fā)布了多模態(tài)大模型Ovis，為各行業(yè)帶來新機(jī)遇。英特爾在2024年計(jì)劃中穩(wěn)步推進(jìn)，展望2025年推出的FalconShores將進(jìn)一步提升其在AI領(lǐng)域的競(jìng)爭(zhēng)力。

Ovis
全球首個(gè)多模態(tài)地理科學(xué)大模型“坤元”發(fā)布：可據(jù)指令生成專業(yè)地理圖表

中國(guó)科學(xué)院地理科學(xué)與資源研究所正式發(fā)布全球首個(gè)多模態(tài)地理科學(xué)大模型坤元”。作為專為地理科學(xué)領(lǐng)域量身打造的專業(yè)語言大模型，坤元”不僅精通地理學(xué)的精髓，更在懂地理”、精配圖”、知人心”、智生圖”四大核心功能上展現(xiàn)出非凡能力。他們還將打造地理科研協(xié)作大平臺(tái)，為每一位科學(xué)家和科研團(tuán)隊(duì)提供專屬的地理大模型服務(wù)，通過共享數(shù)據(jù)、模型與研究思路等?

地理科學(xué) 大模型語言模型
薦與「李白」賞圖賦詩，同「猴哥」直面天命，人大高瓴提出MMRole多模態(tài)角色扮演

隨著大語言模型的飛速發(fā)展，角色扮演智能體正逐漸成為AI領(lǐng)域的熱門話題。這類智能體不僅能夠?yàn)槿藗兲峁┡惆?、互?dòng)和娛樂在教育、社會(huì)模擬等領(lǐng)域展現(xiàn)出重要的應(yīng)用潛力。在多模態(tài)角色扮演智能體的開發(fā)中，多模態(tài)理解能力和角色扮演質(zhì)量是更具挑戰(zhàn)性的方面，需要在未來的研究和優(yōu)化中予以特別關(guān)注。

角色扮演智能體多模態(tài)感知人工智能發(fā)展
聲網(wǎng)對(duì)話式AI解決方案上新構(gòu)建實(shí)時(shí)多模態(tài)AI交互

在生成式人工智能領(lǐng)域，大模型多模態(tài)交互能力的升級(jí)正掀起一股新的AI浪潮，在RTC能力的加持下，人與AI的交互不再局限于文字，也可以通過語音通話進(jìn)行生動(dòng)、流暢的低延時(shí)交互，這也成為當(dāng)下國(guó)內(nèi)外大模型廠商新的發(fā)力點(diǎn)。今年5月，GPT-4o的發(fā)布開創(chuàng)了AI實(shí)時(shí)語音交互的先河。聲網(wǎng)的實(shí)時(shí)多模態(tài)對(duì)話式AI解決方案目前已經(jīng)上線，如您想進(jìn)一步體驗(yàn)我們的Demo或者接入該方案，可在聲網(wǎng)公眾號(hào)找到這篇文章，掃描文章底部的二維碼聯(lián)系我們。

生成式人工智能大模型多模態(tài)交互
松鼠Ai引領(lǐng)教育新紀(jì)元：多模態(tài)智適應(yīng)教育大模型重塑學(xué)習(xí)生態(tài)

科技日新月異的今天，教育行業(yè)正經(jīng)歷著前所未有的變革松鼠Ai作為這一領(lǐng)域的佼佼者，正以其創(chuàng)新的多模態(tài)智適應(yīng)教育大模型，引領(lǐng)著教育行業(yè)的未來發(fā)展方向。松鼠Ai在多個(gè)重要場(chǎng)合的亮相和成果展示，再次證明了其在人工智能教育領(lǐng)域的領(lǐng)先地位。我們有理由相信，在松鼠Ai的引領(lǐng)下，未來的教育將更加個(gè)性化、智能化和高效化。

松鼠Ai 智適應(yīng)教育多模態(tài)模型
讓AI更懂物理世界，人大北郵上海AI Lab等提出多模態(tài)分割新方法

讓AI像人類一樣借助多模態(tài)線索定位感興趣的物體，有新招了!來自人大高瓴GeWu-Lab、北郵、上海AILab等機(jī)構(gòu)的研究人員提出Ref-AVS，讓AI能看、會(huì)聽，更懂真實(shí)物理世界。相關(guān)論文已入選頂會(huì)ECCV2024。更多詳情歡迎查閱原論文。

多模態(tài)AI 音頻視覺分割深度學(xué)習(xí)技術(shù)
云知聲山海多模態(tài)大模型，一個(gè)給足你情緒價(jià)值的伙伴

科技創(chuàng)新人工智能區(qū)塊鏈應(yīng)用
薦語言圖像模型大一統(tǒng)！Meta將Transformer和Diffusion融合，多模態(tài)AI王者登場(chǎng)

【新智元導(dǎo)讀】就在剛剛，Meta最新發(fā)布的Transfusion，能夠訓(xùn)練生成文本和圖像的統(tǒng)一模型了!完美融合Transformer和擴(kuò)散領(lǐng)域之后，語言模型和圖像大一統(tǒng)，又近了一步。真正的多模態(tài)AI模型，可能很快就要來了!Transformer和Diffusion，終于有了一次出色的融合。他在卡耐基梅隆大學(xué)語言技術(shù)研究所獲得博士學(xué)位，師從EduardHovy教授，并在上海交通大學(xué)獲得了計(jì)算機(jī)科學(xué)碩士和學(xué)士學(xué)位?

Transformer Diffusion Meta
AI情感分析能力受認(rèn)可，Soul App多模態(tài)情感識(shí)別研究成果被國(guó)際頂會(huì)錄用

ACM國(guó)際多媒體會(huì)議上組織的多模態(tài)與可靠性情感計(jì)算研討會(huì)MRAC24公布論文接收結(jié)果，社交平臺(tái)SoulApp研究成果《MultimodalEmotionRecognitionwithVision-languagePromptingandModalityDropout》成功入選。作為較早思考將AI應(yīng)用于社交領(lǐng)域的平臺(tái)，Soul積極推動(dòng)AI情感互動(dòng)能力的研究，目前相關(guān)技術(shù)已應(yīng)用于異世界回響、AI茍蛋、群聊派對(duì)等AI陪伴、AI輔助的創(chuàng)新場(chǎng)景。對(duì)Soul來說，接下來，將繼續(xù)加大技?

ACM MM2024 多模態(tài)情感計(jì)算
2B多模態(tài)新SOTA，華科、華南理工發(fā)布Mini-Monkey，專治“切分增大分辨率”后遺癥

【新智元導(dǎo)讀】Mini-Monkey是一個(gè)輕量級(jí)的多模態(tài)大型語言模型，通過采用多尺度自適應(yīng)切分策略和尺度壓縮機(jī)制，有效緩解了傳統(tǒng)圖像切分策略帶來的鋸齒效應(yīng)，提升了模型在高分辨率圖像處理和文檔理解任務(wù)的性能。它在多項(xiàng)基準(zhǔn)測(cè)試中取得了領(lǐng)先的成績(jī)，證明了其在多模態(tài)理解和文檔智能領(lǐng)域的潛力。作者也驗(yàn)證了多尺度自適應(yīng)切分策略在別的架構(gòu)的多模態(tài)大模型上的有效性，為緩解由切分增大分辨率導(dǎo)致的「后遺癥」提供了一種簡(jiǎn)單有效的解決方案。

多模態(tài)語言模型圖像處理文檔理解
薦 2B多模態(tài)新SOTA！華科、華南理工發(fā)布Mini-Monkey，專治「切分增大分辨率」后遺癥

提升多模態(tài)大模型處理高分辨率圖像的能力越來越引起這個(gè)領(lǐng)域的關(guān)注。絕大多數(shù)方法致力于通過對(duì)圖像進(jìn)行切分再融合的策略，來提升多模態(tài)大模型對(duì)圖像細(xì)節(jié)的理解能力。作者也驗(yàn)證了多尺度自適應(yīng)切分策略在別的架構(gòu)的多模態(tài)大模型上的有效性，為緩解由切分增大分辨率導(dǎo)致的「后遺癥」提供了一種簡(jiǎn)單有效的解決方案。

多模態(tài)大模型高分辨率圖像圖像切分融合
薦超9000顆星，優(yōu)于GPT-4V！國(guó)內(nèi)開源多模態(tài)大模型

國(guó)內(nèi)著名開源社區(qū)OpenBMB發(fā)布了最新開源多模態(tài)大模型——MiniCPM-V2.6。MiniCPM-V2.6一共有80億參數(shù)，在單圖像、多圖像和視頻理解方面超越了GPT-4V;在單圖像理解方面優(yōu)于GPT-4omini、Gemini1.5Pro和Claude3.5Sonnet。易用擴(kuò)展性強(qiáng):可以通過多種方式輕松使用，包括llama.cpp和ollama支持在本地設(shè)備上進(jìn)行高效的CPU推理，提供int4和GGUF格式的量化模型，支持vLLM進(jìn)行高吞吐量和內(nèi)存高效的推理，支持在新領(lǐng)域和任務(wù)上進(jìn)行微調(diào)目前，MiniCPM-V2.6在Github的評(píng)分超過9000顆星，是開源多模態(tài)中性能非常好用的一款模型。

MiniCPM-V2.6
最強(qiáng)國(guó)產(chǎn)多模態(tài)剛剛易主！騰訊混元把GPT-4/Claude-3.5/Gemini-1.5都超了

國(guó)產(chǎn)大模型，多模態(tài)能力都開始超越GPT-4-Turbo了??權(quán)威榜單，中文多模態(tài)大模型測(cè)評(píng)基準(zhǔn)SuperCLUE-V，新鮮出爐:特別是騰訊的hunyuan-vision、上海AILab的InternVL2-40B，分別成為國(guó)內(nèi)閉源和開源界兩大領(lǐng)跑者，甚至超過Claude-3.5-Sonnet和谷歌王牌Gemini-1.5-Pro。雖然這次都還是被GPT-4o壓過，差距也確確實(shí)實(shí)縮小了很多。在多模態(tài)“圖生文”場(chǎng)景下，騰訊又能整出什么實(shí)用好活，就非常值得期待了。

國(guó)產(chǎn)大模型多模態(tài)能力 SuperCLUE-V
ISC.AI 2024多模態(tài)時(shí)代的大模型關(guān)鍵技術(shù)與應(yīng)用論壇成功召開

近日，ISC.AI2024多模態(tài)時(shí)代的大模型關(guān)鍵技術(shù)與應(yīng)用論壇成功召開。本次論壇由360人工智能研究院、中國(guó)圖象圖形學(xué)學(xué)會(huì)聯(lián)合主辦，集結(jié)業(yè)界知名學(xué)者、行業(yè)技術(shù)領(lǐng)袖等前沿代表，圍繞多模態(tài)時(shí)代大模型的技術(shù)變革、研發(fā)挑戰(zhàn)、應(yīng)用場(chǎng)景等問題展開深入探討，致力共同探索出多模態(tài)大模型發(fā)展的“中國(guó)路徑”，為全行業(yè)的數(shù)轉(zhuǎn)智改提質(zhì)加速。在開場(chǎng)致辭環(huán)節(jié)中，360集團(tuán)副總裁、3

多模態(tài)AI 大模型技術(shù) 人工智能論壇
巖芯數(shù)智展示機(jī)器人多模態(tài)能力

在2024世界人工智能大會(huì)上，上海巖芯數(shù)智攜Yan1.2多模態(tài)大模型亮相，不僅可以讓大模型在手機(jī)、電腦、甚至樹莓派端無損運(yùn)行可以讓機(jī)器人準(zhǔn)確理解用戶的模糊指令和意圖。研發(fā)團(tuán)隊(duì)展示了一款部署Yan1.2多模態(tài)大模型的智能機(jī)器人“小智”，它能夠基于Yan1.2的語音和視覺處理能力，實(shí)時(shí)識(shí)別環(huán)境、準(zhǔn)確理解用戶的模糊指令和意圖，并據(jù)此控制其機(jī)械軀體高效完成各類復(fù)雜任務(wù)。當(dāng)有人問“小智，你現(xiàn)在看到了什么”或手捧書籍邀請(qǐng)“小智”一同看書時(shí)，它能夠基于多模態(tài)能力進(jìn)行學(xué)習(xí)和創(chuàng)作，精確描述環(huán)境和人物特征、學(xué)習(xí)書籍信息。

人工智能多模態(tài)大模型 Yan1.2

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘