多模態(tài)大語言模型

在人工智能領(lǐng)域，多模式大語言模型在推動進(jìn)步方面發(fā)揮了巨大作用，但它們面臨處理誤導(dǎo)性信息的挑戰(zhàn)，可能導(dǎo)致不正確或產(chǎn)生幻覺的響應(yīng)。這種脆弱性引發(fā)了對MLLM在需要準(zhǔn)確解釋文本和視覺數(shù)據(jù)的應(yīng)用中可靠性的擔(dān)憂。作為一個不斷發(fā)展的領(lǐng)域，解決這些挑戰(zhàn)對于在現(xiàn)實應(yīng)用中部署MLLMs至關(guān)重要。...

特別聲明：本頁面標(biāo)簽名稱與頁面內(nèi)容，系網(wǎng)站系統(tǒng)為資訊內(nèi)容分類自動生成，僅提供資訊內(nèi)容索引使用，旨在方便用戶索引相關(guān)資訊報道。如標(biāo)簽名稱涉及商標(biāo)信息，請訪問商標(biāo)品牌官方了解詳情，請勿以本站標(biāo)簽頁面內(nèi)容為參考信息，本站與可能出現(xiàn)的商標(biāo)名稱信息不存在任何關(guān)聯(lián)關(guān)系，對本頁面內(nèi)容所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。站長之家將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。任何單位或個人認(rèn)為本頁面內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，可及時向站長之家提出書面權(quán)利通知或不實情況說明，并提權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明（點擊查看反饋聯(lián)系地址）。本網(wǎng)站在收到上述反饋文件后，將會依法依規(guī)核實信息，第一時間溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

與“多模態(tài)大語言模型”的相關(guān)熱搜詞：

相關(guān)“多模態(tài)大語言模型” 的資訊645篇

【騰訊云】11.11云上盛惠！云服務(wù)器首年1.8折起，買1年送3個月！

11.11云上盛惠！海量產(chǎn)品 · 輕松上云！云服務(wù)器首年1.8折起，買1年送3個月！超值優(yōu)惠，性能穩(wěn)定，讓您的云端之旅更加暢享。快來騰訊云選購吧！

Docker容器鏡像
去看看

Docker容器鏡像 60元/15天

爆款產(chǎn)品組合購
去看看

爆款產(chǎn)品組合購低至1元

騰訊云x NVIDIA加速計劃
去看看

騰訊云x NVIDIA加速計劃最高獲贈10萬元扶持基金

2核2G云服務(wù)器
去看看

2核2G云服務(wù)器 112元/1年

查看更多相關(guān)信息>>

騰訊云 12-20

廣告
蘋果研究人員提出MAD-Bench基準(zhǔn)，克服多模態(tài)大語言模型中幻覺和誤導(dǎo)性提示

在人工智能領(lǐng)域，多模式大語言模型在推動進(jìn)步方面發(fā)揮了巨大作用，但它們面臨處理誤導(dǎo)性信息的挑戰(zhàn)，可能導(dǎo)致不正確或產(chǎn)生幻覺的響應(yīng)。這種脆弱性引發(fā)了對MLLM在需要準(zhǔn)確解釋文本和視覺數(shù)據(jù)的應(yīng)用中可靠性的擔(dān)憂。作為一個不斷發(fā)展的領(lǐng)域，解決這些挑戰(zhàn)對于在現(xiàn)實應(yīng)用中部署MLLMs至關(guān)重要。

多模態(tài)大語言模型 AI頭條
MGIE官網(wǎng)體驗入口蘋果多模態(tài)大語言模型AI圖像編輯工具在線使用地址

MGIE是一項由蘋果開源的技術(shù)，利用多模態(tài)大型語言模型生成圖像編輯指令，通過端到端訓(xùn)練，捕捉視覺想象力并執(zhí)行圖像處理操作，使圖像編輯更加智能、直觀。點擊前往MGIE官網(wǎng)體驗入口需求人群："用戶可以通過自然語言直觀地描述圖像編輯需求，如改變顏色、調(diào)整大小等，無需復(fù)雜的描述或區(qū)域掩碼，使圖像編輯更加自由和輕松。為了深入了解MGIE并開始您的圖像編輯之旅，請點擊前往MGIE官網(wǎng)。

MGIE
?字節(jié)與浙大聯(lián)合推多模態(tài)大語言模型Vista-LLaMA 可解讀視頻內(nèi)容

在自然語言處理領(lǐng)域，大型語言模型如GPT、GLM和LLaMA等的成功應(yīng)用已經(jīng)取得了顯著的進(jìn)展。將這些技術(shù)擴(kuò)展到視頻內(nèi)容理解領(lǐng)域則是一項全新的挑戰(zhàn)。其在長視頻內(nèi)容方面的顯著優(yōu)勢為未來多模態(tài)交互和自動化內(nèi)容生成領(lǐng)域提供了廣泛的機(jī)遇。

Vista-LLaMA 多模態(tài)大語言模型 AI頭條
中國研究人員推ControlLLM框架：提升大語言模型處理多模態(tài)任務(wù)能力

中國的研究人員近期提出了一項名為ControlLLM的創(chuàng)新框架，旨在增強(qiáng)大型語言模型在處理復(fù)雜的現(xiàn)實任務(wù)時的表現(xiàn)。盡管LLMs在處理自主代理的規(guī)劃、推理和決策方面已經(jīng)取得了顯著進(jìn)展，但在某些情況下，由于用戶提示不清晰、工具選擇錯誤以及參數(shù)設(shè)置和調(diào)度不足，它們可能需要輔助工具。ControlLLM整合了各種信息源，以生成基于執(zhí)行結(jié)果的全面有意義的回應(yīng)。

ControlLLM 大語言模型多模態(tài)任務(wù)
薦 AI日報：科大訊飛星火多模態(tài)交互大模型上線；Anthropic發(fā)布提示詞優(yōu)化新功能；騰訊AI智能工作臺ima上線Windows版

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、科大訊飛星火多模態(tài)交互大模型上線實現(xiàn)“語音、視覺、數(shù)字人交互”三合一科大訊飛最新推出的訊飛星火多模態(tài)交互大模型標(biāo)志著其從單一語音交互技術(shù)拓展到音視頻流實時多模態(tài)交互的新階段。多家汽車制造商參與認(rèn)購，推動Robotaxi技術(shù)合作與全球布局。

人工智能多模態(tài)交互科大訊飛
Meta推出新一代智能觸覺系統(tǒng)機(jī)械手可實現(xiàn)多模態(tài)環(huán)境感知

Meta公司日前宣布與傳感器制造商GelSight及韓國機(jī)器人企業(yè)WonikRobotics達(dá)成戰(zhàn)略合作，共同推進(jìn)新一代觸覺傳感技術(shù)的商業(yè)化進(jìn)程。這套面向科研領(lǐng)域的創(chuàng)新設(shè)備將為科學(xué)家提供更精確的物理世界觀測與模擬能力。這次跨界合作標(biāo)志著觸覺傳感技術(shù)在科研領(lǐng)域的重要突破，有望為相關(guān)領(lǐng)域研究帶來新的發(fā)展機(jī)遇。

Meta公司觸覺傳感技術(shù) GelSight
實時互動情感陪伴，Soul App升級多模態(tài)大模型探索AI社交新可能

10月25日~26日，由聲網(wǎng)和RTE開發(fā)者社區(qū)聯(lián)合主辦的RTE2024實時互聯(lián)網(wǎng)大會在北京舉行。在AI技術(shù)突破式發(fā)展引發(fā)各行業(yè)革新浪潮的當(dāng)下，此次大會主題聚焦“AI愛”，匯聚行業(yè)代表企業(yè)、技術(shù)大咖、專家學(xué)者等嘉賓，共同深度探討AI為互聯(lián)網(wǎng)生態(tài)帶來的新發(fā)展?！边@也意味著，Soul將實現(xiàn)真正意義上的AI多模態(tài)交互，集合文字、語音、動作交互的多模態(tài)大模型，讓用戶可以在平臺實現(xiàn)更接近人類模式的互動體驗和更高效、自然、豐富維度的信息傳遞，真正獲得社交體驗的顛覆式升級。

實時互聯(lián)網(wǎng)大會 AI技術(shù)發(fā)展社交領(lǐng)域AI
圖像偽造照妖鏡！北大發(fā)布多模態(tài)LLM圖像篡改檢測定位框架FakeShield

【新智元導(dǎo)讀】北京大學(xué)的研究人員開發(fā)了一種新型多模態(tài)框架FakeShield，能夠檢測圖像偽造、定位篡改區(qū)域，并提供基于像素和圖像語義錯誤的合理解釋，可以提高圖像偽造檢測的可解釋性和泛化能力。隨著生成式人工智能的迅猛發(fā)展，圖像編輯與合成技術(shù)變得愈加成熟與普及。表3:FakeShield與主流IFDL方法的定位性能比較另外，圖4的主觀結(jié)果對比也表明，F(xiàn)akeShield能夠生成更加?

LLM
GITEX GLOBAL2024開展，Soul 最新多模態(tài)大模型引關(guān)注

如今的AI看起來已經(jīng)無所不能，不僅能夠勝任感知、學(xué)習(xí)、推理、決策等不同層面的任務(wù)，甚至可以打造虛擬數(shù)字分析，為人類帶來多模態(tài)AI交互體驗。新型社交平臺SoulApp在GITEXGLOBAL海灣信息技術(shù)博覽會上展出了其最新自研的多模態(tài)大模型，該模型具備多模態(tài)理解、真實擬人、文字對話、語音通話、多語種等特性，實現(xiàn)打破次元壁的互動，讓現(xiàn)場的觀眾們驚艷不已。Soul將持續(xù)加大對AI技術(shù)的投入，致力于通過AI技術(shù)更好地幫助用戶進(jìn)行社交破冰，助力人設(shè)搭建和認(rèn)知決策，提升社交溝通效率。

多模態(tài)AI 社交平臺 AI技術(shù)創(chuàng)新
自研多模態(tài)大模型，Soul App亮相2024 GITEX GLOBAL

通過理解自身的行為方式、記憶、偏好等內(nèi)容，復(fù)刻一個專屬于自己的虛擬化身，實現(xiàn)打破次元壁的互動，結(jié)識好友，獲得陪伴......如今，科幻電影中描繪的場景正走向現(xiàn)實。2024年10月14日-18日，GITEXGLOBAL海灣信息技術(shù)博覽會在迪拜舉辦。預(yù)計今年年底，Soul多模態(tài)端到端大模型將再次升級，推出全雙工視頻通話能力，讓用戶可以真正便捷、自然的體驗到包括文字、語音、視覺在內(nèi)的多模態(tài)創(chuàng)新交互。

虛擬化身多模態(tài)大模型 GITEX
亮相2024 GITEX海灣信息技術(shù)博覽會 Soul App多模態(tài)大模型實現(xiàn)超擬人互動體驗

通過理解自身的行為方式、記憶、偏好等內(nèi)容，復(fù)刻一個專屬于自己的虛擬化身，實現(xiàn)打破次元壁的互動，結(jié)識好友，獲得陪伴......如今，科幻電影中描繪的場景正走向現(xiàn)實。2024年10月14日-18日，GITEXGLOBAL海灣信息技術(shù)博覽會在迪拜舉辦。預(yù)計今年年底，Soul多模態(tài)端到端大模型將再次升級，推出全雙工視頻通話能力，讓用戶可以真正便捷、自然的體驗到包括文字、語音、視覺在內(nèi)的多模態(tài)創(chuàng)新交互。

虛擬化身多模態(tài)大模型社交平臺
薦 AI日報：阿里發(fā)布 FLUX.1-Turbo-Alpha；蘋果多模態(tài)模型MM1升級為MM1.5；獲獎AI畫作《太空歌劇院》版權(quán)申請遭拒

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里發(fā)布FLUX.1-Turbo-Alpha:基于FLUX.1-dev、8步提煉Lora阿里媽媽創(chuàng)意團(tuán)隊發(fā)布了基于FLUX.1-dev模型訓(xùn)練的FLUX.1-Turbo-Alpha，采用8步蒸餾Lora模型，多頭判別器顯著提高蒸餾質(zhì)量，支持多種FLU

FLUX
薦長文本、語音、視覺、結(jié)構(gòu)化數(shù)據(jù)全覆蓋，中國移動九天善智多模態(tài)大模型震撼發(fā)布

它早已不是一家單純的通信運(yùn)營商是通過構(gòu)建多模態(tài)基座大模型，打造全要素“AI”服務(wù)運(yùn)營體系，成為通用人工智能時代的供給者、匯聚者和運(yùn)營者。

大模型
深思考“Dongni.ai”多模態(tài)大模型，深耕行業(yè)垂直場景，規(guī)模化落地

深思考人工智能于2024年10月10日在長沙湖南大數(shù)據(jù)交易所，成功舉辦了以“深耕行業(yè)垂直場景，規(guī)?；涞亍睘橹黝}的云、端、邊側(cè)AI產(chǎn)品發(fā)布會。本次發(fā)布會發(fā)布的產(chǎn)品矩陣簡單概括是“一個中心，兩個基本點”，即:以深思考的云側(cè)Dongni.ai大模型和端側(cè)TinyDongni大模型為基礎(chǔ)模型，形成一個搜索引擎入口，聚焦兩個深度垂直場景“智能終端”和“重疾早篩”，具體產(chǎn)品包含“一個中心”AI多模態(tài)搜索引擎“Dongni.so”;“智能終端“場景產(chǎn)品:AIPCSuite套件、AI攝像頭、AI顯微鏡、”，“重疾早篩“場景產(chǎn)品:巧思、慧眼等產(chǎn)品。AI重疾早篩平臺-慧眼未來展望深思考以AI大模型的場景化、垂直化、產(chǎn)品化和服務(wù)化為目標(biāo)，持續(xù)提高大模型在垂域場景中解決客戶痛點問題的能力，打造專用場景AI的產(chǎn)品，深耕業(yè)務(wù)，并與生態(tài)伙伴緊密合作，繼續(xù)推進(jìn)大模型在垂域場景中的大規(guī)模應(yīng)用落地，相信不久的將來，就可以在各種智能終端和垂直行業(yè)應(yīng)用中看到深思考的應(yīng)用落地，未來可期，未來已來。

人工智能產(chǎn)品發(fā)布行業(yè)應(yīng)用
蘋果多模態(tài)模型大升級！文本密集、多圖理解，全能小鋼炮

【新智元導(dǎo)讀】近日，一向畫風(fēng)精致的「蘋果牌AI」，也推出了升級版的多模態(tài)大模型，從1B到30B參數(shù)，涵蓋密集和專家混合模型，密集文本、多圖理解，多項能力大提升。多模態(tài)大語言模型如今已是大勢所趨。最后一欄表明，作者優(yōu)化的組合實現(xiàn)了最佳的整體性能，平衡了基準(zhǔn)測試中的所有功能。

多模態(tài)大模型蘋果AI 開源與閉源
蘋果推出300億參數(shù)多模態(tài)AI大模型MM1.5：擁有圖像識別、自然語言推理能力

近日，蘋果公司推出了300億參數(shù)的多模態(tài)AI大模型MM1.5，該版本是在前代MM1的架構(gòu)基礎(chǔ)上發(fā)展來的。該模型繼續(xù)遵循數(shù)據(jù)驅(qū)動的訓(xùn)練原則，著重探究在不同訓(xùn)練周期中混合各類數(shù)據(jù)對模型性能產(chǎn)生的影響，相關(guān)模型文檔已在HuggingFace上發(fā)布。盡管MM1.5模型在多項基準(zhǔn)測試中表現(xiàn)優(yōu)異，但蘋果團(tuán)隊仍計劃通過進(jìn)一步融合文本、圖像和用戶交互數(shù)據(jù)，并設(shè)計更復(fù)雜的架構(gòu)，來提升模型對移動設(shè)備UI的理解能力，從讓蘋果牌”AI更強(qiáng)大。

蘋果多模態(tài)AI MM1.5
薦具身智能機(jī)器人隱藏冠軍上新：領(lǐng)狗進(jìn)家門，多模態(tài)AI那種

具身智能領(lǐng)域的“癲”，已經(jīng)進(jìn)入nextlevel了!來看這段視頻:人形機(jī)器人在前面跑，一群機(jī)器狗在后面追;然后人追著狗，接著狗追著人……最后那位機(jī)器人還有很重的「偷感」在身上。這樣它就真的很真狗啊!第二點是BabyAlphaA2擁有SuperChat功能。機(jī)器人對人類的價值，從來不只是“科幻”和冷冰冰的硬件已。

機(jī)器人
薦 Meta首款多模態(tài)Llama 3.2開源！1B羊駝寶寶，跑在手機(jī)上了

【新智元導(dǎo)讀】Meta首個理解圖文的多模態(tài)Llama3.2來了!這次，除了11B和90B兩個基礎(chǔ)版本，Meta還推出了僅有1B和3B輕量級版本，適配了Arm處理器，手機(jī)、AR眼鏡邊緣設(shè)備皆可用。Llama3.1超大杯405B剛過去兩個月，全新升級后的Llama3.2來了!這次，最大的亮點在于，Llama3.2成為羊駝家族中，首個支持多模態(tài)能力的模型。這些新解決方案已經(jīng)集成到了Meta的參考實現(xiàn)、演示和應(yīng)用程序中，開源

Meta Llama3.2
悅靈犀AI多模態(tài)應(yīng)用重大升級，支持海外用戶使用

北京2024年9月24日，悅享控股有限公司，一家以技術(shù)驅(qū)動的新一代移動互聯(lián)網(wǎng)基礎(chǔ)設(shè)施與平臺服務(wù)提供商今天宣布，悅靈犀AI多模態(tài)全面升級2.3版本，使悅靈犀AI具有更為強(qiáng)大的應(yīng)用能力。在本次更新升級中，除新增AIlive圖功能外，悅靈犀AI實現(xiàn)了支持部分國家和地區(qū)的海外用戶使用。隨著悅享控股的大模型底層技術(shù)不斷取得突破和進(jìn)步，悅靈犀AI已經(jīng)在應(yīng)用層面實現(xiàn)了超越式發(fā)展，其豐富、多樣和真實的生成效果，為全球更多用戶帶來前所未有的超級應(yīng)用體驗。

悅享控股悅靈犀AI 多模態(tài)升級
薦 AI日報：??阿里推新多模態(tài)大模型Ovis；Kyutai開源實時語音對話模型Moshi；Apple Intelligence測試版現(xiàn)已開放

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里國際推出最新多模態(tài)大模型Ovis，看菜品就能提供烹飪步驟阿里國際AI團(tuán)隊發(fā)布了多模態(tài)大模型Ovis，為各行業(yè)帶來新機(jī)遇。英特爾在2024年計劃中穩(wěn)步推進(jìn)，展望2025年推出的FalconShores將進(jìn)一步提升其在AI領(lǐng)域的競爭力。

Ovis
全球首個多模態(tài)地理科學(xué)大模型“坤元”發(fā)布：可據(jù)指令生成專業(yè)地理圖表

中國科學(xué)院地理科學(xué)與資源研究所正式發(fā)布全球首個多模態(tài)地理科學(xué)大模型坤元”。作為專為地理科學(xué)領(lǐng)域量身打造的專業(yè)語言大模型，坤元”不僅精通地理學(xué)的精髓，更在懂地理”、精配圖”、知人心”、智生圖”四大核心功能上展現(xiàn)出非凡能力。他們還將打造地理科研協(xié)作大平臺，為每一位科學(xué)家和科研團(tuán)隊提供專屬的地理大模型服務(wù)，通過共享數(shù)據(jù)、模型與研究思路等?

地理科學(xué) 大模型語言模型
薦與「李白」賞圖賦詩，同「猴哥」直面天命，人大高瓴提出MMRole多模態(tài)角色扮演

隨著大語言模型的飛速發(fā)展，角色扮演智能體正逐漸成為AI領(lǐng)域的熱門話題。這類智能體不僅能夠為人們提供陪伴、互動和娛樂在教育、社會模擬等領(lǐng)域展現(xiàn)出重要的應(yīng)用潛力。在多模態(tài)角色扮演智能體的開發(fā)中，多模態(tài)理解能力和角色扮演質(zhì)量是更具挑戰(zhàn)性的方面，需要在未來的研究和優(yōu)化中予以特別關(guān)注。

角色扮演智能體多模態(tài)感知人工智能發(fā)展
聲網(wǎng)對話式AI解決方案上新構(gòu)建實時多模態(tài)AI交互

在生成式人工智能領(lǐng)域，大模型多模態(tài)交互能力的升級正掀起一股新的AI浪潮，在RTC能力的加持下，人與AI的交互不再局限于文字，也可以通過語音通話進(jìn)行生動、流暢的低延時交互，這也成為當(dāng)下國內(nèi)外大模型廠商新的發(fā)力點。今年5月，GPT-4o的發(fā)布開創(chuàng)了AI實時語音交互的先河。聲網(wǎng)的實時多模態(tài)對話式AI解決方案目前已經(jīng)上線，如您想進(jìn)一步體驗我們的Demo或者接入該方案，可在聲網(wǎng)公眾號找到這篇文章，掃描文章底部的二維碼聯(lián)系我們。

生成式人工智能大模型多模態(tài)交互
松鼠Ai引領(lǐng)教育新紀(jì)元：多模態(tài)智適應(yīng)教育大模型重塑學(xué)習(xí)生態(tài)

科技日新月異的今天，教育行業(yè)正經(jīng)歷著前所未有的變革松鼠Ai作為這一領(lǐng)域的佼佼者，正以其創(chuàng)新的多模態(tài)智適應(yīng)教育大模型，引領(lǐng)著教育行業(yè)的未來發(fā)展方向。松鼠Ai在多個重要場合的亮相和成果展示，再次證明了其在人工智能教育領(lǐng)域的領(lǐng)先地位。我們有理由相信，在松鼠Ai的引領(lǐng)下，未來的教育將更加個性化、智能化和高效化。

松鼠Ai 智適應(yīng)教育多模態(tài)模型
讓AI更懂物理世界，人大北郵上海AI Lab等提出多模態(tài)分割新方法

讓AI像人類一樣借助多模態(tài)線索定位感興趣的物體，有新招了!來自人大高瓴GeWu-Lab、北郵、上海AILab等機(jī)構(gòu)的研究人員提出Ref-AVS，讓AI能看、會聽，更懂真實物理世界。相關(guān)論文已入選頂會ECCV2024。更多詳情歡迎查閱原論文。

多模態(tài)AI 音頻視覺分割深度學(xué)習(xí)技術(shù)
云知聲山海多模態(tài)大模型，一個給足你情緒價值的伙伴

科技創(chuàng)新人工智能區(qū)塊鏈應(yīng)用
薦語言圖像模型大一統(tǒng)！Meta將Transformer和Diffusion融合，多模態(tài)AI王者登場

【新智元導(dǎo)讀】就在剛剛，Meta最新發(fā)布的Transfusion，能夠訓(xùn)練生成文本和圖像的統(tǒng)一模型了!完美融合Transformer和擴(kuò)散領(lǐng)域之后，語言模型和圖像大一統(tǒng)，又近了一步。真正的多模態(tài)AI模型，可能很快就要來了!Transformer和Diffusion，終于有了一次出色的融合。他在卡耐基梅隆大學(xué)語言技術(shù)研究所獲得博士學(xué)位，師從EduardHovy教授，并在上海交通大學(xué)獲得了計算機(jī)科學(xué)碩士和學(xué)士學(xué)位?

Transformer Diffusion Meta
AI情感分析能力受認(rèn)可，Soul App多模態(tài)情感識別研究成果被國際頂會錄用

ACM國際多媒體會議上組織的多模態(tài)與可靠性情感計算研討會MRAC24公布論文接收結(jié)果，社交平臺SoulApp研究成果《MultimodalEmotionRecognitionwithVision-languagePromptingandModalityDropout》成功入選。作為較早思考將AI應(yīng)用于社交領(lǐng)域的平臺，Soul積極推動AI情感互動能力的研究，目前相關(guān)技術(shù)已應(yīng)用于異世界回響、AI茍蛋、群聊派對等AI陪伴、AI輔助的創(chuàng)新場景。對Soul來說，接下來，將繼續(xù)加大技?

ACM MM2024 多模態(tài)情感計算
2B多模態(tài)新SOTA，華科、華南理工發(fā)布Mini-Monkey，專治“切分增大分辨率”后遺癥

【新智元導(dǎo)讀】Mini-Monkey是一個輕量級的多模態(tài)大型語言模型，通過采用多尺度自適應(yīng)切分策略和尺度壓縮機(jī)制，有效緩解了傳統(tǒng)圖像切分策略帶來的鋸齒效應(yīng)，提升了模型在高分辨率圖像處理和文檔理解任務(wù)的性能。它在多項基準(zhǔn)測試中取得了領(lǐng)先的成績，證明了其在多模態(tài)理解和文檔智能領(lǐng)域的潛力。作者也驗證了多尺度自適應(yīng)切分策略在別的架構(gòu)的多模態(tài)大模型上的有效性，為緩解由切分增大分辨率導(dǎo)致的「后遺癥」提供了一種簡單有效的解決方案。

多模態(tài)語言模型圖像處理文檔理解
薦 2B多模態(tài)新SOTA！華科、華南理工發(fā)布Mini-Monkey，專治「切分增大分辨率」后遺癥

提升多模態(tài)大模型處理高分辨率圖像的能力越來越引起這個領(lǐng)域的關(guān)注。絕大多數(shù)方法致力于通過對圖像進(jìn)行切分再融合的策略，來提升多模態(tài)大模型對圖像細(xì)節(jié)的理解能力。作者也驗證了多尺度自適應(yīng)切分策略在別的架構(gòu)的多模態(tài)大模型上的有效性，為緩解由切分增大分辨率導(dǎo)致的「后遺癥」提供了一種簡單有效的解決方案。

多模態(tài)大模型高分辨率圖像圖像切分融合

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘