11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購(gòu)吧!
理想汽車宣布其全自研的多模態(tài)認(rèn)知大模型——MindGPT,已正式通過國(guó)家《生成式人工智能服務(wù)管理暫行辦法》的備案。這一里程碑式的事件標(biāo)志著理想汽車成為首個(gè)通過該備案的汽車廠商自研大模型。它不僅支持方言自由說、指令自由說具備簡(jiǎn)潔模式以及全時(shí)全車免喚醒的能力,為用戶提供了更加便捷、智能的交互體驗(yàn)。
Meta公司日前宣布與傳感器制造商GelSight及韓國(guó)機(jī)器人企業(yè)WonikRobotics達(dá)成戰(zhàn)略合作,共同推進(jìn)新一代觸覺傳感技術(shù)的商業(yè)化進(jìn)程。這套面向科研領(lǐng)域的創(chuàng)新設(shè)備將為科學(xué)家提供更精確的物理世界觀測(cè)與模擬能力。這次跨界合作標(biāo)志著觸覺傳感技術(shù)在科研領(lǐng)域的重要突破,有望為相關(guān)領(lǐng)域研究帶來新的發(fā)展機(jī)遇。
10月25日~26日,由聲網(wǎng)和RTE開發(fā)者社區(qū)聯(lián)合主辦的RTE2024實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)在北京舉行。在AI技術(shù)突破式發(fā)展引發(fā)各行業(yè)革新浪潮的當(dāng)下,此次大會(huì)主題聚焦“AI愛”,匯聚行業(yè)代表企業(yè)、技術(shù)大咖、專家學(xué)者等嘉賓,共同深度探討AI為互聯(lián)網(wǎng)生態(tài)帶來的新發(fā)展。”這也意味著,Soul將實(shí)現(xiàn)真正意義上的AI多模態(tài)交互,集合文字、語音、動(dòng)作交互的多模態(tài)大模型,讓用戶可以在平臺(tái)實(shí)現(xiàn)更接近人類模式的互動(dòng)體驗(yàn)和更高效、自然、豐富維度的信息傳遞,真正獲得社交體驗(yàn)的顛覆式升級(jí)。
【新智元導(dǎo)讀】北京大學(xué)的研究人員開發(fā)了一種新型多模態(tài)框架FakeShield,能夠檢測(cè)圖像偽造、定位篡改區(qū)域,并提供基于像素和圖像語義錯(cuò)誤的合理解釋,可以提高圖像偽造檢測(cè)的可解釋性和泛化能力。隨著生成式人工智能的迅猛發(fā)展,圖像編輯與合成技術(shù)變得愈加成熟與普及。表3:FakeShield與主流IFDL方法的定位性能比較另外,圖4的主觀結(jié)果對(duì)比也表明,F(xiàn)akeShield能夠生成更加?
如今的AI看起來已經(jīng)無所不能,不僅能夠勝任感知、學(xué)習(xí)、推理、決策等不同層面的任務(wù),甚至可以打造虛擬數(shù)字分析,為人類帶來多模態(tài)AI交互體驗(yàn)。新型社交平臺(tái)SoulApp在GITEXGLOBAL海灣信息技術(shù)博覽會(huì)上展出了其最新自研的多模態(tài)大模型,該模型具備多模態(tài)理解、真實(shí)擬人、文字對(duì)話、語音通話、多語種等特性,實(shí)現(xiàn)打破次元壁的互動(dòng),讓現(xiàn)場(chǎng)的觀眾們驚艷不已。Soul將持續(xù)加大對(duì)AI技術(shù)的投入,致力于通過AI技術(shù)更好地幫助用戶進(jìn)行社交破冰,助力人設(shè)搭建和認(rèn)知決策,提升社交溝通效率。
通過理解自身的行為方式、記憶、偏好等內(nèi)容,復(fù)刻一個(gè)專屬于自己的虛擬化身,實(shí)現(xiàn)打破次元壁的互動(dòng),結(jié)識(shí)好友,獲得陪伴......如今,科幻電影中描繪的場(chǎng)景正走向現(xiàn)實(shí)。2024年10月14日-18日,GITEXGLOBAL海灣信息技術(shù)博覽會(huì)在迪拜舉辦。預(yù)計(jì)今年年底,Soul多模態(tài)端到端大模型將再次升級(jí),推出全雙工視頻通話能力,讓用戶可以真正便捷、自然的體驗(yàn)到包括文字、語音、視覺在內(nèi)的多模態(tài)創(chuàng)新交互。
通過理解自身的行為方式、記憶、偏好等內(nèi)容,復(fù)刻一個(gè)專屬于自己的虛擬化身,實(shí)現(xiàn)打破次元壁的互動(dòng),結(jié)識(shí)好友,獲得陪伴......如今,科幻電影中描繪的場(chǎng)景正走向現(xiàn)實(shí)。2024年10月14日-18日,GITEXGLOBAL海灣信息技術(shù)博覽會(huì)在迪拜舉辦。預(yù)計(jì)今年年底,Soul多模態(tài)端到端大模型將再次升級(jí),推出全雙工視頻通話能力,讓用戶可以真正便捷、自然的體驗(yàn)到包括文字、語音、視覺在內(nèi)的多模態(tài)創(chuàng)新交互。
歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里發(fā)布FLUX.1-Turbo-Alpha:基于FLUX.1-dev、8步提煉Lora阿里媽媽創(chuàng)意團(tuán)隊(duì)發(fā)布了基于FLUX.1-dev模型訓(xùn)練的FLUX.1-Turbo-Alpha,采用8步蒸餾Lora模型,多頭判別器顯著提高蒸餾質(zhì)量,支持多種FLU
它早已不是一家單純的通信運(yùn)營(yíng)商是通過構(gòu)建多模態(tài)基座大模型,打造全要素“AI”服務(wù)運(yùn)營(yíng)體系,成為通用人工智能時(shí)代的供給者、匯聚者和運(yùn)營(yíng)者。
深思考人工智能于2024年10月10日在長(zhǎng)沙湖南大數(shù)據(jù)交易所,成功舉辦了以“深耕行業(yè)垂直場(chǎng)景,規(guī)?;涞亍睘橹黝}的云、端、邊側(cè)AI產(chǎn)品發(fā)布會(huì)。本次發(fā)布會(huì)發(fā)布的產(chǎn)品矩陣簡(jiǎn)單概括是“一個(gè)中心,兩個(gè)基本點(diǎn)”,即:以深思考的云側(cè)Dongni.ai大模型和端側(cè)TinyDongni大模型為基礎(chǔ)模型,形成一個(gè)搜索引擎入口,聚焦兩個(gè)深度垂直場(chǎng)景“智能終端”和“重疾早篩”,具體產(chǎn)品包含“一個(gè)中心”AI多模態(tài)搜索引擎“Dongni.so”;“智能終端“場(chǎng)景產(chǎn)品:AIPCSuite套件、AI攝像頭、AI顯微鏡、”,“重疾早篩“場(chǎng)景產(chǎn)品:巧思、慧眼等產(chǎn)品。AI重疾早篩平臺(tái)-慧眼未來展望深思考以AI大模型的場(chǎng)景化、垂直化、產(chǎn)品化和服務(wù)化為目標(biāo),持續(xù)提高大模型在垂域場(chǎng)景中解決客戶痛點(diǎn)問題的能力,打造專用場(chǎng)景AI的產(chǎn)品,深耕業(yè)務(wù),并與生態(tài)伙伴緊密合作,繼續(xù)推進(jìn)大模型在垂域場(chǎng)景中的大規(guī)模應(yīng)用落地,相信不久的將來,就可以在各種智能終端和垂直行業(yè)應(yīng)用中看到深思考的應(yīng)用落地,未來可期,未來已來。
【新智元導(dǎo)讀】近日,一向畫風(fēng)精致的「蘋果牌AI」,也推出了升級(jí)版的多模態(tài)大模型,從1B到30B參數(shù),涵蓋密集和專家混合模型,密集文本、多圖理解,多項(xiàng)能力大提升。多模態(tài)大語言模型如今已是大勢(shì)所趨。最后一欄表明,作者優(yōu)化的組合實(shí)現(xiàn)了最佳的整體性能,平衡了基準(zhǔn)測(cè)試中的所有功能。
近日,蘋果公司推出了300億參數(shù)的多模態(tài)AI大模型MM1.5,該版本是在前代MM1的架構(gòu)基礎(chǔ)上發(fā)展來的。該模型繼續(xù)遵循數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練原則,著重探究在不同訓(xùn)練周期中混合各類數(shù)據(jù)對(duì)模型性能產(chǎn)生的影響,相關(guān)模型文檔已在HuggingFace上發(fā)布。盡管MM1.5模型在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,但蘋果團(tuán)隊(duì)仍計(jì)劃通過進(jìn)一步融合文本、圖像和用戶交互數(shù)據(jù),并設(shè)計(jì)更復(fù)雜的架構(gòu),來提升模型對(duì)移動(dòng)設(shè)備UI的理解能力,從讓蘋果牌”AI更強(qiáng)大。
具身智能領(lǐng)域的“癲”,已經(jīng)進(jìn)入nextlevel了!來看這段視頻:人形機(jī)器人在前面跑,一群機(jī)器狗在后面追;然后人追著狗,接著狗追著人……最后那位機(jī)器人還有很重的「偷感」在身上。這樣它就真的很真狗啊!第二點(diǎn)是BabyAlphaA2擁有SuperChat功能。機(jī)器人對(duì)人類的價(jià)值,從來不只是“科幻”和冷冰冰的硬件已。
【新智元導(dǎo)讀】Meta首個(gè)理解圖文的多模態(tài)Llama3.2來了!這次,除了11B和90B兩個(gè)基礎(chǔ)版本,Meta還推出了僅有1B和3B輕量級(jí)版本,適配了Arm處理器,手機(jī)、AR眼鏡邊緣設(shè)備皆可用。Llama3.1超大杯405B剛過去兩個(gè)月,全新升級(jí)后的Llama3.2來了!這次,最大的亮點(diǎn)在于,Llama3.2成為羊駝家族中,首個(gè)支持多模態(tài)能力的模型。這些新解決方案已經(jīng)集成到了Meta的參考實(shí)現(xiàn)、演示和應(yīng)用程序中,開源
北京2024年9月24日,悅享控股有限公司,一家以技術(shù)驅(qū)動(dòng)的新一代移動(dòng)互聯(lián)網(wǎng)基礎(chǔ)設(shè)施與平臺(tái)服務(wù)提供商今天宣布,悅靈犀AI多模態(tài)全面升級(jí)2.3版本,使悅靈犀AI具有更為強(qiáng)大的應(yīng)用能力。在本次更新升級(jí)中,除新增AIlive圖功能外,悅靈犀AI實(shí)現(xiàn)了支持部分國(guó)家和地區(qū)的海外用戶使用。隨著悅享控股的大模型底層技術(shù)不斷取得突破和進(jìn)步,悅靈犀AI已經(jīng)在應(yīng)用層面實(shí)現(xiàn)了超越式發(fā)展,其豐富、多樣和真實(shí)的生成效果,為全球更多用戶帶來前所未有的超級(jí)應(yīng)用體驗(yàn)。
歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里國(guó)際推出最新多模態(tài)大模型Ovis,看菜品就能提供烹飪步驟阿里國(guó)際AI團(tuán)隊(duì)發(fā)布了多模態(tài)大模型Ovis,為各行業(yè)帶來新機(jī)遇。英特爾在2024年計(jì)劃中穩(wěn)步推進(jìn),展望2025年推出的FalconShores將進(jìn)一步提升其在AI領(lǐng)域的競(jìng)爭(zhēng)力。
中國(guó)科學(xué)院地理科學(xué)與資源研究所正式發(fā)布全球首個(gè)多模態(tài)地理科學(xué)大模型坤元”。作為專為地理科學(xué)領(lǐng)域量身打造的專業(yè)語言大模型,坤元”不僅精通地理學(xué)的精髓,更在懂地理”、精配圖”、知人心”、智生圖”四大核心功能上展現(xiàn)出非凡能力。他們還將打造地理科研協(xié)作大平臺(tái),為每一位科學(xué)家和科研團(tuán)隊(duì)提供專屬的地理大模型服務(wù),通過共享數(shù)據(jù)、模型與研究思路等?
隨著大語言模型的飛速發(fā)展,角色扮演智能體正逐漸成為AI領(lǐng)域的熱門話題。這類智能體不僅能夠?yàn)槿藗兲峁┡惆?、互?dòng)和娛樂在教育、社會(huì)模擬等領(lǐng)域展現(xiàn)出重要的應(yīng)用潛力。在多模態(tài)角色扮演智能體的開發(fā)中,多模態(tài)理解能力和角色扮演質(zhì)量是更具挑戰(zhàn)性的方面,需要在未來的研究和優(yōu)化中予以特別關(guān)注。
在生成式人工智能領(lǐng)域,大模型多模態(tài)交互能力的升級(jí)正掀起一股新的AI浪潮,在RTC能力的加持下,人與AI的交互不再局限于文字,也可以通過語音通話進(jìn)行生動(dòng)、流暢的低延時(shí)交互,這也成為當(dāng)下國(guó)內(nèi)外大模型廠商新的發(fā)力點(diǎn)。今年5月,GPT-4o的發(fā)布開創(chuàng)了AI實(shí)時(shí)語音交互的先河。聲網(wǎng)的實(shí)時(shí)多模態(tài)對(duì)話式AI解決方案目前已經(jīng)上線,如您想進(jìn)一步體驗(yàn)我們的Demo或者接入該方案,可在聲網(wǎng)公眾號(hào)找到這篇文章,掃描文章底部的二維碼聯(lián)系我們。
科技日新月異的今天,教育行業(yè)正經(jīng)歷著前所未有的變革松鼠Ai作為這一領(lǐng)域的佼佼者,正以其創(chuàng)新的多模態(tài)智適應(yīng)教育大模型,引領(lǐng)著教育行業(yè)的未來發(fā)展方向。松鼠Ai在多個(gè)重要場(chǎng)合的亮相和成果展示,再次證明了其在人工智能教育領(lǐng)域的領(lǐng)先地位。我們有理由相信,在松鼠Ai的引領(lǐng)下,未來的教育將更加個(gè)性化、智能化和高效化。
讓AI像人類一樣借助多模態(tài)線索定位感興趣的物體,有新招了!來自人大高瓴GeWu-Lab、北郵、上海AILab等機(jī)構(gòu)的研究人員提出Ref-AVS,讓AI能看、會(huì)聽,更懂真實(shí)物理世界。相關(guān)論文已入選頂會(huì)ECCV2024。更多詳情歡迎查閱原論文。
【新智元導(dǎo)讀】就在剛剛,Meta最新發(fā)布的Transfusion,能夠訓(xùn)練生成文本和圖像的統(tǒng)一模型了!完美融合Transformer和擴(kuò)散領(lǐng)域之后,語言模型和圖像大一統(tǒng),又近了一步。真正的多模態(tài)AI模型,可能很快就要來了!Transformer和Diffusion,終于有了一次出色的融合。他在卡耐基梅隆大學(xué)語言技術(shù)研究所獲得博士學(xué)位,師從EduardHovy教授,并在上海交通大學(xué)獲得了計(jì)算機(jī)科學(xué)碩士和學(xué)士學(xué)位?
ACM國(guó)際多媒體會(huì)議上組織的多模態(tài)與可靠性情感計(jì)算研討會(huì)MRAC24公布論文接收結(jié)果,社交平臺(tái)SoulApp研究成果《MultimodalEmotionRecognitionwithVision-languagePromptingandModalityDropout》成功入選。作為較早思考將AI應(yīng)用于社交領(lǐng)域的平臺(tái),Soul積極推動(dòng)AI情感互動(dòng)能力的研究,目前相關(guān)技術(shù)已應(yīng)用于異世界回響、AI茍蛋、群聊派對(duì)等AI陪伴、AI輔助的創(chuàng)新場(chǎng)景。對(duì)Soul來說,接下來,將繼續(xù)加大技?
【新智元導(dǎo)讀】Mini-Monkey是一個(gè)輕量級(jí)的多模態(tài)大型語言模型,通過采用多尺度自適應(yīng)切分策略和尺度壓縮機(jī)制,有效緩解了傳統(tǒng)圖像切分策略帶來的鋸齒效應(yīng),提升了模型在高分辨率圖像處理和文檔理解任務(wù)的性能。它在多項(xiàng)基準(zhǔn)測(cè)試中取得了領(lǐng)先的成績(jī),證明了其在多模態(tài)理解和文檔智能領(lǐng)域的潛力。作者也驗(yàn)證了多尺度自適應(yīng)切分策略在別的架構(gòu)的多模態(tài)大模型上的有效性,為緩解由切分增大分辨率導(dǎo)致的「后遺癥」提供了一種簡(jiǎn)單有效的解決方案。
提升多模態(tài)大模型處理高分辨率圖像的能力越來越引起這個(gè)領(lǐng)域的關(guān)注。絕大多數(shù)方法致力于通過對(duì)圖像進(jìn)行切分再融合的策略,來提升多模態(tài)大模型對(duì)圖像細(xì)節(jié)的理解能力。作者也驗(yàn)證了多尺度自適應(yīng)切分策略在別的架構(gòu)的多模態(tài)大模型上的有效性,為緩解由切分增大分辨率導(dǎo)致的「后遺癥」提供了一種簡(jiǎn)單有效的解決方案。
國(guó)內(nèi)著名開源社區(qū)OpenBMB發(fā)布了最新開源多模態(tài)大模型——MiniCPM-V2.6。MiniCPM-V2.6一共有80億參數(shù),在單圖像、多圖像和視頻理解方面超越了GPT-4V;在單圖像理解方面優(yōu)于GPT-4omini、Gemini1.5Pro和Claude3.5Sonnet。易用擴(kuò)展性強(qiáng):可以通過多種方式輕松使用,包括llama.cpp和ollama支持在本地設(shè)備上進(jìn)行高效的CPU推理,提供int4和GGUF格式的量化模型,支持vLLM進(jìn)行高吞吐量和內(nèi)存高效的推理,支持在新領(lǐng)域和任務(wù)上進(jìn)行微調(diào)目前,MiniCPM-V2.6在Github的評(píng)分超過9000顆星,是開源多模態(tài)中性能非常好用的一款模型。
國(guó)產(chǎn)大模型,多模態(tài)能力都開始超越GPT-4-Turbo了??權(quán)威榜單,中文多模態(tài)大模型測(cè)評(píng)基準(zhǔn)SuperCLUE-V,新鮮出爐:特別是騰訊的hunyuan-vision、上海AILab的InternVL2-40B,分別成為國(guó)內(nèi)閉源和開源界兩大領(lǐng)跑者,甚至超過Claude-3.5-Sonnet和谷歌王牌Gemini-1.5-Pro。雖然這次都還是被GPT-4o壓過,差距也確確實(shí)實(shí)縮小了很多。在多模態(tài)“圖生文”場(chǎng)景下,騰訊又能整出什么實(shí)用好活,就非常值得期待了。
近日,ISC.AI2024多模態(tài)時(shí)代的大模型關(guān)鍵技術(shù)與應(yīng)用論壇成功召開。本次論壇由360人工智能研究院、中國(guó)圖象圖形學(xué)學(xué)會(huì)聯(lián)合主辦,集結(jié)業(yè)界知名學(xué)者、行業(yè)技術(shù)領(lǐng)袖等前沿代表,圍繞多模態(tài)時(shí)代大模型的技術(shù)變革、研發(fā)挑戰(zhàn)、應(yīng)用場(chǎng)景等問題展開深入探討,致力共同探索出多模態(tài)大模型發(fā)展的“中國(guó)路徑”,為全行業(yè)的數(shù)轉(zhuǎn)智改提質(zhì)加速。在開場(chǎng)致辭環(huán)節(jié)中,360集團(tuán)副總裁、3
在2024世界人工智能大會(huì)上,上海巖芯數(shù)智攜Yan1.2多模態(tài)大模型亮相,不僅可以讓大模型在手機(jī)、電腦、甚至樹莓派端無損運(yùn)行可以讓機(jī)器人準(zhǔn)確理解用戶的模糊指令和意圖。研發(fā)團(tuán)隊(duì)展示了一款部署Yan1.2多模態(tài)大模型的智能機(jī)器人“小智”,它能夠基于Yan1.2的語音和視覺處理能力,實(shí)時(shí)識(shí)別環(huán)境、準(zhǔn)確理解用戶的模糊指令和意圖,并據(jù)此控制其機(jī)械軀體高效完成各類復(fù)雜任務(wù)。當(dāng)有人問“小智,你現(xiàn)在看到了什么”或手捧書籍邀請(qǐng)“小智”一同看書時(shí),它能夠基于多模態(tài)能力進(jìn)行學(xué)習(xí)和創(chuàng)作,精確描述環(huán)境和人物特征、學(xué)習(xí)書籍信息。