11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享。快來騰訊云選購吧!
近日,蘋果公司推出了300億參數(shù)的多模態(tài)AI大模型MM1.5,該版本是在前代MM1的架構(gòu)基礎(chǔ)上發(fā)展來的。該模型繼續(xù)遵循數(shù)據(jù)驅(qū)動的訓(xùn)練原則,著重探究在不同訓(xùn)練周期中混合各類數(shù)據(jù)對模型性能產(chǎn)生的影響,相關(guān)模型文檔已在HuggingFace上發(fā)布。盡管MM1.5模型在多項(xiàng)基準(zhǔn)測試中表現(xiàn)優(yōu)異,但蘋果團(tuán)隊(duì)仍計(jì)劃通過進(jìn)一步融合文本、圖像和用戶交互數(shù)據(jù),并設(shè)計(jì)更復(fù)雜的架構(gòu),來提升模型對移動設(shè)備UI的理解能力,從讓蘋果牌”AI更強(qiáng)大。
具身智能領(lǐng)域的“癲”,已經(jīng)進(jìn)入nextlevel了!來看這段視頻:人形機(jī)器人在前面跑,一群機(jī)器狗在后面追;然后人追著狗,接著狗追著人……最后那位機(jī)器人還有很重的「偷感」在身上。這樣它就真的很真狗啊!第二點(diǎn)是BabyAlphaA2擁有SuperChat功能。機(jī)器人對人類的價值,從來不只是“科幻”和冷冰冰的硬件已。
在生成式人工智能領(lǐng)域,大模型多模態(tài)交互能力的升級正掀起一股新的AI浪潮,在RTC能力的加持下,人與AI的交互不再局限于文字,也可以通過語音通話進(jìn)行生動、流暢的低延時交互,這也成為當(dāng)下國內(nèi)外大模型廠商新的發(fā)力點(diǎn)。今年5月,GPT-4o的發(fā)布開創(chuàng)了AI實(shí)時語音交互的先河。聲網(wǎng)的實(shí)時多模態(tài)對話式AI解決方案目前已經(jīng)上線,如您想進(jìn)一步體驗(yàn)我們的Demo或者接入該方案,可在聲網(wǎng)公眾號找到這篇文章,掃描文章底部的二維碼聯(lián)系我們。
【新智元導(dǎo)讀】就在剛剛,Meta最新發(fā)布的Transfusion,能夠訓(xùn)練生成文本和圖像的統(tǒng)一模型了!完美融合Transformer和擴(kuò)散領(lǐng)域之后,語言模型和圖像大一統(tǒng),又近了一步。真正的多模態(tài)AI模型,可能很快就要來了!Transformer和Diffusion,終于有了一次出色的融合。他在卡耐基梅隆大學(xué)語言技術(shù)研究所獲得博士學(xué)位,師從EduardHovy教授,并在上海交通大學(xué)獲得了計(jì)算機(jī)科學(xué)碩士和學(xué)士學(xué)位?
斯坦福大學(xué)的NEXAAI團(tuán)隊(duì)宣布推出全球首個多模態(tài)AI代理模型OctopusV3,讓AI代理更加智能、快速、能耗及成本降低。今年四月份初,NEXAAI推出了備受矚目的OctopusV2,該模型在函數(shù)調(diào)用性能上超越了GPT-4,減少了95%的推理時所需的文本量,為端側(cè)AI應(yīng)用帶來了新的可能性。NEXAAI的創(chuàng)始團(tuán)隊(duì)表示,他們將繼續(xù)致力于推動端側(cè)AI技術(shù)的發(fā)展,通過開源模型提升其創(chuàng)新技術(shù)的影響力,為用戶創(chuàng)造更智能、高效的未來生活。
4月18日,2024中國生成式AI大會上李未可科技正式發(fā)布為眼鏡等未來終端定向優(yōu)化等自研WAKE-AI多模態(tài)大模型,具備文本生成、語言理解、圖像識別及視頻生成等多模態(tài)交互能力。該大模型圍繞GPS軌跡視覺語音打造新一代LLM-Based的自然交互,同時多模態(tài)問答技術(shù)的加持,能實(shí)現(xiàn)所見即所問、所問即所得的精準(zhǔn)服務(wù)。李未可科技合伙人&AI負(fù)責(zé)人古鑒表示W(wǎng)AKE-AI將逐步開放平臺能力,便于更多企業(yè)及開發(fā)者調(diào)用WAKE-AI能力,共建AI硬件生態(tài)。
Grok-1.5VisionPreview是X.AI公司推出的首個多模態(tài)模型。除了強(qiáng)大的文本處理能力,Grok還能處理各種視覺信息,如文檔、圖表、截圖和照片等。點(diǎn)擊前往Grok-1.5VisionPreview官網(wǎng)體驗(yàn)入口需求人群:輔助決策分析內(nèi)容生成工作效率提升使用場景示例:使用Grok-1.5V分析復(fù)雜的商業(yè)報告,快速提取關(guān)鍵數(shù)據(jù)和見解利用Grok-1.5V自動生成項(xiàng)目計(jì)劃草稿,并優(yōu)化資源分配通過Grok-1.5V理解工廠設(shè)備使用說明,提高維修效率產(chǎn)品特色:多學(xué)科推理文檔理解圖表解讀現(xiàn)實(shí)世界理解圖像處理掌握Grok-1.5VisionPreview,體驗(yàn)多模態(tài)AI的強(qiáng)大功能和無限潛力。
MiniGPT4-Video是什么?MiniGPT4-Video是為視頻理解設(shè)計(jì)的多模態(tài)大模型,能處理時態(tài)視覺數(shù)據(jù)和文本數(shù)據(jù),配標(biāo)題、宣傳語,適用于視頻問答。用戶可以上傳視頻,讓模型生成標(biāo)題與宣傳語,理解特效處理,或作超美抒情詩。
冒泡鴨AI 是基于自研多模態(tài)大模型開發(fā)的AI互動平臺,提供擬人、工具、內(nèi)容、游戲、娛樂等多個領(lǐng)域的海量智能體。平臺具有超長的上下文記憶能力和實(shí)時聯(lián)網(wǎng)搜索能力,能夠深度理解用戶意圖,并提供即時、準(zhǔn)確、個性化的回復(fù)和選擇。用戶還可以定制個性化的AI智能體,以滿足個性化的需求和偏好。點(diǎn)擊前往冒泡鴨AI官網(wǎng)體驗(yàn)入口誰適合使用冒泡鴨AI?冒泡鴨AI適用于尋求?
36kr研究院發(fā)布了《2024年AIGC行業(yè)研究:多模態(tài)大模型與商業(yè)應(yīng)用》,文中基于AIGC產(chǎn)業(yè)生態(tài)現(xiàn)狀和技術(shù)發(fā)展路徑,深入分析AIGC商業(yè)化應(yīng)用的方向與產(chǎn)業(yè)發(fā)展趨勢。其中在36kr研究院梳理的產(chǎn)業(yè)圖譜中,發(fā)現(xiàn)杭州李未可科技與字節(jié)跳動的豆包、騰訊云混元及華為云盤古等大模型等一起出現(xiàn)在閉源模型層,甚至在跨模態(tài)生成應(yīng)用層也占據(jù)一地。李未可科技這類結(jié)合自身業(yè)務(wù)垂類場景,提前布局中間層及終端應(yīng)用層的自研大模型或許能給市場帶來不小的驚喜。
MobileAgent是由阿里巴巴開發(fā)的一個自主多模態(tài)AI代理,可以模擬人類操作手機(jī),是一個純視覺解決方案,不需要任何系統(tǒng)代碼,完全通過分析圖像來理解和操作手機(jī)。項(xiàng)目地址:https://top.aibase.com/tool/mobile-agent特點(diǎn):依賴于純視覺解決方案:MobileAgent通過分析圖像來理解和操作手機(jī)無需任何系統(tǒng)代碼。觀察、思考和行動是MobileAgent采用的提示格式,要求代理輸出三個組成部分。
Mobile-Agent是一款具有視覺感知的自主多模式移動設(shè)備代理,由北京交通大學(xué)聯(lián)合阿里巴巴團(tuán)隊(duì)共同開發(fā)。該代理采用純視覺解決方案,獨(dú)立于XML和系統(tǒng)元數(shù)據(jù),不需要任何系統(tǒng)代碼,完全通過分析圖像來理解和操作手機(jī)。它能夠自動完成各種任務(wù),比如可以在淘寶加購物車車,在APP播放音樂,自主使用導(dǎo)航APP,收發(fā)郵件等等。
Gemini是由谷歌DeepMind推出的新一代人工智能系統(tǒng)。作為全球熱門的多模態(tài)AI系統(tǒng),Gemini能夠進(jìn)行多模態(tài)推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。點(diǎn)擊上方鏈接,體驗(yàn)這個全球熱門的多模態(tài)人工智能系統(tǒng),探索無限可能性!
由艾倫人工智能研究所、伊利諾伊大學(xué)厄巴納-香檳分校和華盛頓大學(xué)的研究人員聯(lián)合開發(fā)的“Unified-IO2”標(biāo)志著人工智能能力的一次巨大飛躍。與之前只能處理雙模態(tài)的前輩不同,Unified-IO2是一款自回歸的多模態(tài)模型,能夠解釋和生成文本、圖像、音頻和視頻等多種數(shù)據(jù)類型。它成功地駕馭了多模態(tài)數(shù)據(jù)整合的復(fù)雜性,為未來人工智能模型樹立了一個先例,預(yù)示著人工智能將更
Gemini是谷歌DeepMind推出的新一代人工智能系統(tǒng)。它能夠進(jìn)行多模態(tài)推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。以上就是Gemini的全部介紹了,感興趣的小伙伴可以點(diǎn)擊上方鏈接前往體驗(yàn)!
《Gemini》是由DeepMind開發(fā)的一款先進(jìn)的人工智能模型,它從根本上構(gòu)建為多模態(tài),能夠在文本、圖像、視頻、音頻和代碼之間無縫進(jìn)行推理。這標(biāo)志著AI如何幫助改善我們?nèi)粘I畹闹卮箫w躍。以上就是《Gemini》的全部介紹了,感興趣的小伙伴可以點(diǎn)擊上方鏈接前往體驗(yàn)!
《GoogleGemini》是Alphabet于2023年12月6日發(fā)布的下一代AI模型的首個階段。這個AI系統(tǒng)由GoogleDeepMind團(tuán)隊(duì)主導(dǎo),旨在超越人類專家在多任務(wù)語言理解方面的表現(xiàn),能夠根據(jù)不同輸入生成代碼、結(jié)合生成文本和圖像,并能跨語言進(jìn)行視覺推理。以上就是《GoogleGemini》的全部介紹了,感興趣的小伙伴可以點(diǎn)擊上方鏈接前往體驗(yàn)!
多模態(tài)AI正處于爆發(fā)前夜。從GPT-4V的“驚艷亮相”,到AI視頻生成工具Pika1.0的“火爆出圈”,再到谷歌Gemini的“全面領(lǐng)先”,多模態(tài)AI都是其中的關(guān)鍵詞。在多模態(tài)AI爆發(fā)之前,不要溫和地走進(jìn)這個良夜。
《Gemini》是由谷歌DeepMind推出的新一代人工智能系統(tǒng)。它具備多模態(tài)推理能力,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。以上就是《Gemini》的全部介紹了,感興趣的小伙伴可以點(diǎn)擊上方鏈接前往體驗(yàn)!
《Gemini》是由谷歌DeepMind推出的新一代人工智能系統(tǒng)。這個系統(tǒng)能夠進(jìn)行多模態(tài)推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。以上就是《Gemini》的全部介紹了,感興趣的小伙伴可以點(diǎn)擊上方鏈接前往體驗(yàn)!
一項(xiàng)基于大學(xué)水平考試的多模態(tài)AI測試基準(zhǔn)MMMUs發(fā)布,旨在評估機(jī)器在廣泛多樣的任務(wù)上的專家級多模態(tài)理解和推理能力。這一基準(zhǔn)對當(dāng)前最先進(jìn)的GPT-4V等模型提出挑戰(zhàn),通過涵蓋藝術(shù)與設(shè)計(jì)、商科、科學(xué)、健康與醫(yī)學(xué)、人文與社會科學(xué)、技術(shù)與工程等六個學(xué)科的30個科目,共有1.15萬個問題,考察了感知、知識和推理等基本技能。這將有助于推動人工智能領(lǐng)域的發(fā)展,引領(lǐng)未來人工智能系統(tǒng)在多學(xué)科、多模態(tài)任務(wù)上取得更為卓越的成就。
由DeepMind、Google、百度和Meta的研究人員共同創(chuàng)立的AI創(chuàng)企Reka,最近宣布了最新產(chǎn)品一款多模態(tài)AI助手Yasa-1。這款助手被設(shè)計(jì)成可以理解和互動文本、圖像、視頻和音頻等多種媒體形式,被認(rèn)為有望成為OpenAI的ChatGPT的競爭對手。Yasa-1的發(fā)布標(biāo)志著多模態(tài)AI助手領(lǐng)域的競爭愈發(fā)激烈,預(yù)示著未來AI助手將在不同媒體類型之間進(jìn)行更多復(fù)雜的交互,為用戶提供更多有趣和實(shí)用的功能。
據(jù)TheInformation報道,知情人士透露,鑒于谷歌上周開始向部分企業(yè)測試其多模態(tài)大模型Gemini,OpenAI希望搶占先機(jī),推出自己的多模態(tài)AI系統(tǒng)。OpenAI在3月份推出語言模型GPT-4時曾預(yù)覽了多模態(tài)功能,但至今僅向?yàn)槊と颂峁┓?wù)的BeMyEyes公司開放。AI領(lǐng)域兩大巨頭互相競爭有利于行業(yè)技術(shù)進(jìn)步,消費(fèi)者也將從中受益。
HuggingFace推出了一個名為IDEFICS的開源多模態(tài)AI模型,它可以接受圖像和文本作為輸入,并生成連貫的文本輸出。IDEFICS是一個強(qiáng)大的視覺語言模型,擁有高達(dá)800億的參數(shù)量,功能包括根據(jù)圖像生成描述、回答相關(guān)問題以及根據(jù)多個圖像生成敘述等。未來如果能進(jìn)一步提升多模態(tài)理解和生成能力,將可以大幅推動諸如機(jī)器人、自動駕駛等多模態(tài)AI應(yīng)用的發(fā)展。
ProjectRumi是微軟的一個項(xiàng)目,旨在通過解決大型語言模型理解非語言線索和上下文細(xì)微差別的局限性,增強(qiáng)LLM的能力。該項(xiàng)目將非語言線索融入基于提示的LLM交互中,以提高交流的質(zhì)量。3.未來的研究計(jì)劃包括進(jìn)一步改進(jìn)模型,并添加心率變異性和環(huán)境感知等更多細(xì)節(jié),以實(shí)現(xiàn)與人工智能的更深層次的交互。
在華為開發(fā)者大會2020(Cloud)期間,華為云推出了全面升級的業(yè)界首個端云協(xié)同多模態(tài)AI應(yīng)用開發(fā)套件——HiLens ,打通線上線下開發(fā)和部署流程,開發(fā)者只需在云上完成一次多模態(tài)AI應(yīng)用開發(fā),既可以部署到云側(cè),也可以部署到端側(cè)和邊緣側(cè)。人工智能的發(fā)展正經(jīng)歷從感知到認(rèn)知,從單模到多模,從云側(cè)到端云協(xié)同的演進(jìn)。此次,全面升級的華為云HiLens推出多模態(tài)開發(fā)環(huán)境HiLens Studio、開發(fā)框架HiLens Framework及技能市場HiLens Skill Ma
12 月 12 日起,華為云宣布開啟“華為云12. 12 會員節(jié)”年末回饋活動,超值優(yōu)惠讓利企業(yè),與百萬用戶共享云上福利。其中,華為云 11 月推出的多模態(tài)AI開發(fā)套件HiLens Kit優(yōu)惠多多。福利一:直降 600 元,領(lǐng)取HiLens Kit專用滿減券新用戶登錄華為云官網(wǎng)后,注冊后即可領(lǐng)取 2 張滿減券,分別HiLens Kit1 臺專用滿 4199 元減 600 元和 5 臺專用滿 20995 元減 3000 元券。福利二:領(lǐng)券下單,再贏華為WATCH GT2 等實(shí)物豪禮即日起至 2020
10 月 16 日晚,專注于軍事領(lǐng)域智能化的智慧防務(wù)服務(wù)商——南京攝星智能科技有限公司(以下簡稱“南京攝星智能”),發(fā)布了全國首款分別面向B端和C端的多模態(tài)AI生成信息智能檢測應(yīng)用小程序——星眼鑒。不僅能夠幾秒就高效鑒別出用戶上傳的視頻/圖像是否為AI生成的偽造數(shù)據(jù),還能自動生成量化的檢測報告,精準(zhǔn)的分析出數(shù)據(jù)的難辨等級和合成率。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,AI技術(shù)被應(yīng)用在大量場景中。其中,應(yīng)用最為廣泛的技術(shù)之一,人
Meta公司日前宣布與傳感器制造商GelSight及韓國機(jī)器人企業(yè)WonikRobotics達(dá)成戰(zhàn)略合作,共同推進(jìn)新一代觸覺傳感技術(shù)的商業(yè)化進(jìn)程。這套面向科研領(lǐng)域的創(chuàng)新設(shè)備將為科學(xué)家提供更精確的物理世界觀測與模擬能力。這次跨界合作標(biāo)志著觸覺傳感技術(shù)在科研領(lǐng)域的重要突破,有望為相關(guān)領(lǐng)域研究帶來新的發(fā)展機(jī)遇。
10月25日~26日,由聲網(wǎng)和RTE開發(fā)者社區(qū)聯(lián)合主辦的RTE2024實(shí)時互聯(lián)網(wǎng)大會在北京舉行。在AI技術(shù)突破式發(fā)展引發(fā)各行業(yè)革新浪潮的當(dāng)下,此次大會主題聚焦“AI愛”,匯聚行業(yè)代表企業(yè)、技術(shù)大咖、專家學(xué)者等嘉賓,共同深度探討AI為互聯(lián)網(wǎng)生態(tài)帶來的新發(fā)展?!边@也意味著,Soul將實(shí)現(xiàn)真正意義上的AI多模態(tài)交互,集合文字、語音、動作交互的多模態(tài)大模型,讓用戶可以在平臺實(shí)現(xiàn)更接近人類模式的互動體驗(yàn)和更高效、自然、豐富維度的信息傳遞,真正獲得社交體驗(yàn)的顛覆式升級。