11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享。快來騰訊云選購吧!
在人工智能領(lǐng)域,多模式大語言模型在推動進(jìn)步方面發(fā)揮了巨大作用,但它們面臨處理誤導(dǎo)性信息的挑戰(zhàn),可能導(dǎo)致不正確或產(chǎn)生幻覺的響應(yīng)。這種脆弱性引發(fā)了對MLLM在需要準(zhǔn)確解釋文本和視覺數(shù)據(jù)的應(yīng)用中可靠性的擔(dān)憂。作為一個不斷發(fā)展的領(lǐng)域,解決這些挑戰(zhàn)對于在現(xiàn)實應(yīng)用中部署MLLMs至關(guān)重要。
MGIE是一項由蘋果開源的技術(shù),利用多模態(tài)大型語言模型生成圖像編輯指令,通過端到端訓(xùn)練,捕捉視覺想象力并執(zhí)行圖像處理操作,使圖像編輯更加智能、直觀。點擊前往MGIE官網(wǎng)體驗入口需求人群:"用戶可以通過自然語言直觀地描述圖像編輯需求,如改變顏色、調(diào)整大小等,無需復(fù)雜的描述或區(qū)域掩碼,使圖像編輯更加自由和輕松。為了深入了解MGIE并開始您的圖像編輯之旅,請點擊前往MGIE官網(wǎng)。
在自然語言處理領(lǐng)域,大型語言模型如GPT、GLM和LLaMA等的成功應(yīng)用已經(jīng)取得了顯著的進(jìn)展。將這些技術(shù)擴(kuò)展到視頻內(nèi)容理解領(lǐng)域則是一項全新的挑戰(zhàn)。其在長視頻內(nèi)容方面的顯著優(yōu)勢為未來多模態(tài)交互和自動化內(nèi)容生成領(lǐng)域提供了廣泛的機(jī)遇。
中國的研究人員近期提出了一項名為ControlLLM的創(chuàng)新框架,旨在增強(qiáng)大型語言模型在處理復(fù)雜的現(xiàn)實任務(wù)時的表現(xiàn)。盡管LLMs在處理自主代理的規(guī)劃、推理和決策方面已經(jīng)取得了顯著進(jìn)展,但在某些情況下,由于用戶提示不清晰、工具選擇錯誤以及參數(shù)設(shè)置和調(diào)度不足,它們可能需要輔助工具。ControlLLM整合了各種信息源,以生成基于執(zhí)行結(jié)果的全面有意義的回應(yīng)。
歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、科大訊飛星火多模態(tài)交互大模型上線實現(xiàn)“語音、視覺、數(shù)字人交互”三合一科大訊飛最新推出的訊飛星火多模態(tài)交互大模型標(biāo)志著其從單一語音交互技術(shù)拓展到音視頻流實時多模態(tài)交互的新階段。多家汽車制造商參與認(rèn)購,推動Robotaxi技術(shù)合作與全球布局。
Meta公司日前宣布與傳感器制造商GelSight及韓國機(jī)器人企業(yè)WonikRobotics達(dá)成戰(zhàn)略合作,共同推進(jìn)新一代觸覺傳感技術(shù)的商業(yè)化進(jìn)程。這套面向科研領(lǐng)域的創(chuàng)新設(shè)備將為科學(xué)家提供更精確的物理世界觀測與模擬能力。這次跨界合作標(biāo)志著觸覺傳感技術(shù)在科研領(lǐng)域的重要突破,有望為相關(guān)領(lǐng)域研究帶來新的發(fā)展機(jī)遇。
10月25日~26日,由聲網(wǎng)和RTE開發(fā)者社區(qū)聯(lián)合主辦的RTE2024實時互聯(lián)網(wǎng)大會在北京舉行。在AI技術(shù)突破式發(fā)展引發(fā)各行業(yè)革新浪潮的當(dāng)下,此次大會主題聚焦“AI愛”,匯聚行業(yè)代表企業(yè)、技術(shù)大咖、專家學(xué)者等嘉賓,共同深度探討AI為互聯(lián)網(wǎng)生態(tài)帶來的新發(fā)展?!边@也意味著,Soul將實現(xiàn)真正意義上的AI多模態(tài)交互,集合文字、語音、動作交互的多模態(tài)大模型,讓用戶可以在平臺實現(xiàn)更接近人類模式的互動體驗和更高效、自然、豐富維度的信息傳遞,真正獲得社交體驗的顛覆式升級。
【新智元導(dǎo)讀】北京大學(xué)的研究人員開發(fā)了一種新型多模態(tài)框架FakeShield,能夠檢測圖像偽造、定位篡改區(qū)域,并提供基于像素和圖像語義錯誤的合理解釋,可以提高圖像偽造檢測的可解釋性和泛化能力。隨著生成式人工智能的迅猛發(fā)展,圖像編輯與合成技術(shù)變得愈加成熟與普及。表3:FakeShield與主流IFDL方法的定位性能比較另外,圖4的主觀結(jié)果對比也表明,F(xiàn)akeShield能夠生成更加?
如今的AI看起來已經(jīng)無所不能,不僅能夠勝任感知、學(xué)習(xí)、推理、決策等不同層面的任務(wù),甚至可以打造虛擬數(shù)字分析,為人類帶來多模態(tài)AI交互體驗。新型社交平臺SoulApp在GITEXGLOBAL海灣信息技術(shù)博覽會上展出了其最新自研的多模態(tài)大模型,該模型具備多模態(tài)理解、真實擬人、文字對話、語音通話、多語種等特性,實現(xiàn)打破次元壁的互動,讓現(xiàn)場的觀眾們驚艷不已。Soul將持續(xù)加大對AI技術(shù)的投入,致力于通過AI技術(shù)更好地幫助用戶進(jìn)行社交破冰,助力人設(shè)搭建和認(rèn)知決策,提升社交溝通效率。
通過理解自身的行為方式、記憶、偏好等內(nèi)容,復(fù)刻一個專屬于自己的虛擬化身,實現(xiàn)打破次元壁的互動,結(jié)識好友,獲得陪伴......如今,科幻電影中描繪的場景正走向現(xiàn)實。2024年10月14日-18日,GITEXGLOBAL海灣信息技術(shù)博覽會在迪拜舉辦。預(yù)計今年年底,Soul多模態(tài)端到端大模型將再次升級,推出全雙工視頻通話能力,讓用戶可以真正便捷、自然的體驗到包括文字、語音、視覺在內(nèi)的多模態(tài)創(chuàng)新交互。
通過理解自身的行為方式、記憶、偏好等內(nèi)容,復(fù)刻一個專屬于自己的虛擬化身,實現(xiàn)打破次元壁的互動,結(jié)識好友,獲得陪伴......如今,科幻電影中描繪的場景正走向現(xiàn)實。2024年10月14日-18日,GITEXGLOBAL海灣信息技術(shù)博覽會在迪拜舉辦。預(yù)計今年年底,Soul多模態(tài)端到端大模型將再次升級,推出全雙工視頻通話能力,讓用戶可以真正便捷、自然的體驗到包括文字、語音、視覺在內(nèi)的多模態(tài)創(chuàng)新交互。
歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里發(fā)布FLUX.1-Turbo-Alpha:基于FLUX.1-dev、8步提煉Lora阿里媽媽創(chuàng)意團(tuán)隊發(fā)布了基于FLUX.1-dev模型訓(xùn)練的FLUX.1-Turbo-Alpha,采用8步蒸餾Lora模型,多頭判別器顯著提高蒸餾質(zhì)量,支持多種FLU
它早已不是一家單純的通信運(yùn)營商是通過構(gòu)建多模態(tài)基座大模型,打造全要素“AI”服務(wù)運(yùn)營體系,成為通用人工智能時代的供給者、匯聚者和運(yùn)營者。
深思考人工智能于2024年10月10日在長沙湖南大數(shù)據(jù)交易所,成功舉辦了以“深耕行業(yè)垂直場景,規(guī)?;涞亍睘橹黝}的云、端、邊側(cè)AI產(chǎn)品發(fā)布會。本次發(fā)布會發(fā)布的產(chǎn)品矩陣簡單概括是“一個中心,兩個基本點”,即:以深思考的云側(cè)Dongni.ai大模型和端側(cè)TinyDongni大模型為基礎(chǔ)模型,形成一個搜索引擎入口,聚焦兩個深度垂直場景“智能終端”和“重疾早篩”,具體產(chǎn)品包含“一個中心”AI多模態(tài)搜索引擎“Dongni.so”;“智能終端“場景產(chǎn)品:AIPCSuite套件、AI攝像頭、AI顯微鏡、”,“重疾早篩“場景產(chǎn)品:巧思、慧眼等產(chǎn)品。AI重疾早篩平臺-慧眼未來展望深思考以AI大模型的場景化、垂直化、產(chǎn)品化和服務(wù)化為目標(biāo),持續(xù)提高大模型在垂域場景中解決客戶痛點問題的能力,打造專用場景AI的產(chǎn)品,深耕業(yè)務(wù),并與生態(tài)伙伴緊密合作,繼續(xù)推進(jìn)大模型在垂域場景中的大規(guī)模應(yīng)用落地,相信不久的將來,就可以在各種智能終端和垂直行業(yè)應(yīng)用中看到深思考的應(yīng)用落地,未來可期,未來已來。
【新智元導(dǎo)讀】近日,一向畫風(fēng)精致的「蘋果牌AI」,也推出了升級版的多模態(tài)大模型,從1B到30B參數(shù),涵蓋密集和專家混合模型,密集文本、多圖理解,多項能力大提升。多模態(tài)大語言模型如今已是大勢所趨。最后一欄表明,作者優(yōu)化的組合實現(xiàn)了最佳的整體性能,平衡了基準(zhǔn)測試中的所有功能。
近日,蘋果公司推出了300億參數(shù)的多模態(tài)AI大模型MM1.5,該版本是在前代MM1的架構(gòu)基礎(chǔ)上發(fā)展來的。該模型繼續(xù)遵循數(shù)據(jù)驅(qū)動的訓(xùn)練原則,著重探究在不同訓(xùn)練周期中混合各類數(shù)據(jù)對模型性能產(chǎn)生的影響,相關(guān)模型文檔已在HuggingFace上發(fā)布。盡管MM1.5模型在多項基準(zhǔn)測試中表現(xiàn)優(yōu)異,但蘋果團(tuán)隊仍計劃通過進(jìn)一步融合文本、圖像和用戶交互數(shù)據(jù),并設(shè)計更復(fù)雜的架構(gòu),來提升模型對移動設(shè)備UI的理解能力,從讓蘋果牌”AI更強(qiáng)大。
具身智能領(lǐng)域的“癲”,已經(jīng)進(jìn)入nextlevel了!來看這段視頻:人形機(jī)器人在前面跑,一群機(jī)器狗在后面追;然后人追著狗,接著狗追著人……最后那位機(jī)器人還有很重的「偷感」在身上。這樣它就真的很真狗啊!第二點是BabyAlphaA2擁有SuperChat功能。機(jī)器人對人類的價值,從來不只是“科幻”和冷冰冰的硬件已。
【新智元導(dǎo)讀】Meta首個理解圖文的多模態(tài)Llama3.2來了!這次,除了11B和90B兩個基礎(chǔ)版本,Meta還推出了僅有1B和3B輕量級版本,適配了Arm處理器,手機(jī)、AR眼鏡邊緣設(shè)備皆可用。Llama3.1超大杯405B剛過去兩個月,全新升級后的Llama3.2來了!這次,最大的亮點在于,Llama3.2成為羊駝家族中,首個支持多模態(tài)能力的模型。這些新解決方案已經(jīng)集成到了Meta的參考實現(xiàn)、演示和應(yīng)用程序中,開源
北京2024年9月24日,悅享控股有限公司,一家以技術(shù)驅(qū)動的新一代移動互聯(lián)網(wǎng)基礎(chǔ)設(shè)施與平臺服務(wù)提供商今天宣布,悅靈犀AI多模態(tài)全面升級2.3版本,使悅靈犀AI具有更為強(qiáng)大的應(yīng)用能力。在本次更新升級中,除新增AIlive圖功能外,悅靈犀AI實現(xiàn)了支持部分國家和地區(qū)的海外用戶使用。隨著悅享控股的大模型底層技術(shù)不斷取得突破和進(jìn)步,悅靈犀AI已經(jīng)在應(yīng)用層面實現(xiàn)了超越式發(fā)展,其豐富、多樣和真實的生成效果,為全球更多用戶帶來前所未有的超級應(yīng)用體驗。
歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里國際推出最新多模態(tài)大模型Ovis,看菜品就能提供烹飪步驟阿里國際AI團(tuán)隊發(fā)布了多模態(tài)大模型Ovis,為各行業(yè)帶來新機(jī)遇。英特爾在2024年計劃中穩(wěn)步推進(jìn),展望2025年推出的FalconShores將進(jìn)一步提升其在AI領(lǐng)域的競爭力。
中國科學(xué)院地理科學(xué)與資源研究所正式發(fā)布全球首個多模態(tài)地理科學(xué)大模型坤元”。作為專為地理科學(xué)領(lǐng)域量身打造的專業(yè)語言大模型,坤元”不僅精通地理學(xué)的精髓,更在懂地理”、精配圖”、知人心”、智生圖”四大核心功能上展現(xiàn)出非凡能力。他們還將打造地理科研協(xié)作大平臺,為每一位科學(xué)家和科研團(tuán)隊提供專屬的地理大模型服務(wù),通過共享數(shù)據(jù)、模型與研究思路等?
隨著大語言模型的飛速發(fā)展,角色扮演智能體正逐漸成為AI領(lǐng)域的熱門話題。這類智能體不僅能夠為人們提供陪伴、互動和娛樂在教育、社會模擬等領(lǐng)域展現(xiàn)出重要的應(yīng)用潛力。在多模態(tài)角色扮演智能體的開發(fā)中,多模態(tài)理解能力和角色扮演質(zhì)量是更具挑戰(zhàn)性的方面,需要在未來的研究和優(yōu)化中予以特別關(guān)注。
在生成式人工智能領(lǐng)域,大模型多模態(tài)交互能力的升級正掀起一股新的AI浪潮,在RTC能力的加持下,人與AI的交互不再局限于文字,也可以通過語音通話進(jìn)行生動、流暢的低延時交互,這也成為當(dāng)下國內(nèi)外大模型廠商新的發(fā)力點。今年5月,GPT-4o的發(fā)布開創(chuàng)了AI實時語音交互的先河。聲網(wǎng)的實時多模態(tài)對話式AI解決方案目前已經(jīng)上線,如您想進(jìn)一步體驗我們的Demo或者接入該方案,可在聲網(wǎng)公眾號找到這篇文章,掃描文章底部的二維碼聯(lián)系我們。
科技日新月異的今天,教育行業(yè)正經(jīng)歷著前所未有的變革松鼠Ai作為這一領(lǐng)域的佼佼者,正以其創(chuàng)新的多模態(tài)智適應(yīng)教育大模型,引領(lǐng)著教育行業(yè)的未來發(fā)展方向。松鼠Ai在多個重要場合的亮相和成果展示,再次證明了其在人工智能教育領(lǐng)域的領(lǐng)先地位。我們有理由相信,在松鼠Ai的引領(lǐng)下,未來的教育將更加個性化、智能化和高效化。
讓AI像人類一樣借助多模態(tài)線索定位感興趣的物體,有新招了!來自人大高瓴GeWu-Lab、北郵、上海AILab等機(jī)構(gòu)的研究人員提出Ref-AVS,讓AI能看、會聽,更懂真實物理世界。相關(guān)論文已入選頂會ECCV2024。更多詳情歡迎查閱原論文。
【新智元導(dǎo)讀】就在剛剛,Meta最新發(fā)布的Transfusion,能夠訓(xùn)練生成文本和圖像的統(tǒng)一模型了!完美融合Transformer和擴(kuò)散領(lǐng)域之后,語言模型和圖像大一統(tǒng),又近了一步。真正的多模態(tài)AI模型,可能很快就要來了!Transformer和Diffusion,終于有了一次出色的融合。他在卡耐基梅隆大學(xué)語言技術(shù)研究所獲得博士學(xué)位,師從EduardHovy教授,并在上海交通大學(xué)獲得了計算機(jī)科學(xué)碩士和學(xué)士學(xué)位?
ACM國際多媒體會議上組織的多模態(tài)與可靠性情感計算研討會MRAC24公布論文接收結(jié)果,社交平臺SoulApp研究成果《MultimodalEmotionRecognitionwithVision-languagePromptingandModalityDropout》成功入選。作為較早思考將AI應(yīng)用于社交領(lǐng)域的平臺,Soul積極推動AI情感互動能力的研究,目前相關(guān)技術(shù)已應(yīng)用于異世界回響、AI茍蛋、群聊派對等AI陪伴、AI輔助的創(chuàng)新場景。對Soul來說,接下來,將繼續(xù)加大技?
【新智元導(dǎo)讀】Mini-Monkey是一個輕量級的多模態(tài)大型語言模型,通過采用多尺度自適應(yīng)切分策略和尺度壓縮機(jī)制,有效緩解了傳統(tǒng)圖像切分策略帶來的鋸齒效應(yīng),提升了模型在高分辨率圖像處理和文檔理解任務(wù)的性能。它在多項基準(zhǔn)測試中取得了領(lǐng)先的成績,證明了其在多模態(tài)理解和文檔智能領(lǐng)域的潛力。作者也驗證了多尺度自適應(yīng)切分策略在別的架構(gòu)的多模態(tài)大模型上的有效性,為緩解由切分增大分辨率導(dǎo)致的「后遺癥」提供了一種簡單有效的解決方案。
提升多模態(tài)大模型處理高分辨率圖像的能力越來越引起這個領(lǐng)域的關(guān)注。絕大多數(shù)方法致力于通過對圖像進(jìn)行切分再融合的策略,來提升多模態(tài)大模型對圖像細(xì)節(jié)的理解能力。作者也驗證了多尺度自適應(yīng)切分策略在別的架構(gòu)的多模態(tài)大模型上的有效性,為緩解由切分增大分辨率導(dǎo)致的「后遺癥」提供了一種簡單有效的解決方案。