11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
10月25日~26日,由聲網(wǎng)和RTE開發(fā)者社區(qū)聯(lián)合主辦的RTE2024實時互聯(lián)網(wǎng)大會在北京舉行。在AI技術(shù)突破式發(fā)展引發(fā)各行業(yè)革新浪潮的當(dāng)下,此次大會主題聚焦“AI愛”,匯聚行業(yè)代表企業(yè)、技術(shù)大咖、專家學(xué)者等嘉賓,共同深度探討AI為互聯(lián)網(wǎng)生態(tài)帶來的新發(fā)展?!边@也意味著,Soul將實現(xiàn)真正意義上的AI多模態(tài)交互,集合文字、語音、動作交互的多模態(tài)大模型,讓用戶可以在平臺實現(xiàn)更接近人類模式的互動體驗和更高效、自然、豐富維度的信息傳遞,真正獲得社交體驗的顛覆式升級。
如今的AI看起來已經(jīng)無所不能,不僅能夠勝任感知、學(xué)習(xí)、推理、決策等不同層面的任務(wù),甚至可以打造虛擬數(shù)字分析,為人類帶來多模態(tài)AI交互體驗。新型社交平臺SoulApp在GITEXGLOBAL海灣信息技術(shù)博覽會上展出了其最新自研的多模態(tài)大模型,該模型具備多模態(tài)理解、真實擬人、文字對話、語音通話、多語種等特性,實現(xiàn)打破次元壁的互動,讓現(xiàn)場的觀眾們驚艷不已。Soul將持續(xù)加大對AI技術(shù)的投入,致力于通過AI技術(shù)更好地幫助用戶進行社交破冰,助力人設(shè)搭建和認知決策,提升社交溝通效率。
通過理解自身的行為方式、記憶、偏好等內(nèi)容,復(fù)刻一個專屬于自己的虛擬化身,實現(xiàn)打破次元壁的互動,結(jié)識好友,獲得陪伴......如今,科幻電影中描繪的場景正走向現(xiàn)實。2024年10月14日-18日,GITEXGLOBAL海灣信息技術(shù)博覽會在迪拜舉辦。預(yù)計今年年底,Soul多模態(tài)端到端大模型將再次升級,推出全雙工視頻通話能力,讓用戶可以真正便捷、自然的體驗到包括文字、語音、視覺在內(nèi)的多模態(tài)創(chuàng)新交互。
通過理解自身的行為方式、記憶、偏好等內(nèi)容,復(fù)刻一個專屬于自己的虛擬化身,實現(xiàn)打破次元壁的互動,結(jié)識好友,獲得陪伴......如今,科幻電影中描繪的場景正走向現(xiàn)實。2024年10月14日-18日,GITEXGLOBAL海灣信息技術(shù)博覽會在迪拜舉辦。預(yù)計今年年底,Soul多模態(tài)端到端大模型將再次升級,推出全雙工視頻通話能力,讓用戶可以真正便捷、自然的體驗到包括文字、語音、視覺在內(nèi)的多模態(tài)創(chuàng)新交互。
它早已不是一家單純的通信運營商是通過構(gòu)建多模態(tài)基座大模型,打造全要素“AI”服務(wù)運營體系,成為通用人工智能時代的供給者、匯聚者和運營者。
深思考人工智能于2024年10月10日在長沙湖南大數(shù)據(jù)交易所,成功舉辦了以“深耕行業(yè)垂直場景,規(guī)?;涞亍睘橹黝}的云、端、邊側(cè)AI產(chǎn)品發(fā)布會。本次發(fā)布會發(fā)布的產(chǎn)品矩陣簡單概括是“一個中心,兩個基本點”,即:以深思考的云側(cè)Dongni.ai大模型和端側(cè)TinyDongni大模型為基礎(chǔ)模型,形成一個搜索引擎入口,聚焦兩個深度垂直場景“智能終端”和“重疾早篩”,具體產(chǎn)品包含“一個中心”AI多模態(tài)搜索引擎“Dongni.so”;“智能終端“場景產(chǎn)品:AIPCSuite套件、AI攝像頭、AI顯微鏡、”,“重疾早篩“場景產(chǎn)品:巧思、慧眼等產(chǎn)品。AI重疾早篩平臺-慧眼未來展望深思考以AI大模型的場景化、垂直化、產(chǎn)品化和服務(wù)化為目標(biāo),持續(xù)提高大模型在垂域場景中解決客戶痛點問題的能力,打造專用場景AI的產(chǎn)品,深耕業(yè)務(wù),并與生態(tài)伙伴緊密合作,繼續(xù)推進大模型在垂域場景中的大規(guī)模應(yīng)用落地,相信不久的將來,就可以在各種智能終端和垂直行業(yè)應(yīng)用中看到深思考的應(yīng)用落地,未來可期,未來已來。
歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里國際推出最新多模態(tài)大模型Ovis,看菜品就能提供烹飪步驟阿里國際AI團隊發(fā)布了多模態(tài)大模型Ovis,為各行業(yè)帶來新機遇。英特爾在2024年計劃中穩(wěn)步推進,展望2025年推出的FalconShores將進一步提升其在AI領(lǐng)域的競爭力。
國內(nèi)著名開源社區(qū)OpenBMB發(fā)布了最新開源多模態(tài)大模型——MiniCPM-V2.6。MiniCPM-V2.6一共有80億參數(shù),在單圖像、多圖像和視頻理解方面超越了GPT-4V;在單圖像理解方面優(yōu)于GPT-4omini、Gemini1.5Pro和Claude3.5Sonnet。易用擴展性強:可以通過多種方式輕松使用,包括llama.cpp和ollama支持在本地設(shè)備上進行高效的CPU推理,提供int4和GGUF格式的量化模型,支持vLLM進行高吞吐量和內(nèi)存高效的推理,支持在新領(lǐng)域和任務(wù)上進行微調(diào)目前,MiniCPM-V2.6在Github的評分超過9000顆星,是開源多模態(tài)中性能非常好用的一款模型。
歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、百度文心智能體平臺免費開放文心4.0版本百度文心智能體平臺最新推出的文心大模型4.0版本免費開放給公眾使用,極大地擴展了平臺的功能和應(yīng)用范圍。這一投資有望降低電影?
生數(shù)科技完成數(shù)億元Pre-A輪融資,該輪融資由北京市人工智能產(chǎn)業(yè)投資基金、百度聯(lián)合領(lǐng)投,中關(guān)村科學(xué)城公司等跟投,啟明創(chuàng)投等數(shù)位老股東繼續(xù)支持。生數(shù)科技已經(jīng)獲得來自螞蟻集團、BV百度風(fēng)投、卓源亞洲、錦秋基金、達泰資本、智譜AI等機構(gòu)的投資。2022年提出了Diffusion與Transformer融合架構(gòu)U-ViT,進一步開源了多模態(tài)擴散模型UniDiffuser,驗證了大規(guī)模訓(xùn)練融合架構(gòu)的可行性和效果。
最近的一系列研究表明,純解碼器生成模型可以通過訓(xùn)練利用下一個token預(yù)測生成有用的表征,從成功地生成多種模態(tài)的新序列,從文本、蛋白質(zhì)、音頻到圖像,甚至是狀態(tài)序列。能夠同時生成多種模態(tài)輸出的多模態(tài)模型一般是通過某種形式的詞匯擴展來實現(xiàn)的,即在預(yù)訓(xùn)練階段或在后期微調(diào)階段進行跨模態(tài)對齊。更多研究細節(jié),可參考原論文。
智譜·AI最近宣布推出新一代多模態(tài)大模型CogVLM2,該模型在關(guān)鍵性能指標(biāo)上相較于前一代CogVLM有了顯著提升,同時支持8K文本長度和高達1344*1344分辨率的圖像。CogVLM2在OCRbench基準(zhǔn)上性能提升了32%,在TextVQA基準(zhǔn)上性能提升了21.9%,顯示出強大的文檔圖像理解能力。CogVLM2的兩個模型在多個基準(zhǔn)中取得了最先進的性能,同時在其他性能上也能達到與閉源模型相近的水平。
MiniMax公司推出了一款人生搭子產(chǎn)品,名為「海螺AI」,也可以稱為「小海螺」。這款產(chǎn)品可以幫助學(xué)生、職場新人、自由工作者、創(chuàng)作者等各類人群,作為一個外掛大腦和人生搭子,幫助化解信息過載和高速運轉(zhuǎn)帶來的壓力。小海螺會24*7在線解決用戶工作和生活中的問題,同時也希望能陪伴用戶在人生的不同階段。
在人工智能領(lǐng)域,人大系初創(chuàng)公司智子引擎近日發(fā)布了一款名為Awaker1.0的全新多模態(tài)大模型,標(biāo)志著向通用人工智能邁出了重要一步。該模型在寫真視頻效果上超越了Sora,展現(xiàn)了其在視覺生成方面的卓越能力。Awaker1.0在理解側(cè)和生成側(cè)都實現(xiàn)了效果突破,有望加速多模態(tài)大模型行業(yè)的發(fā)展,最終讓人類實現(xiàn)AGI。
元象公司發(fā)布了首個多模態(tài)大型模型XVERSE-V,并將其開源。這一模型支持任意寬高比的圖像輸入,并在多個權(quán)威評測中取得了優(yōu)異的成績。除了圖像識別,XVERSE-V還在多個實際應(yīng)用場景中表現(xiàn)突出,包括信息圖理解、視障場景處理、文本生成、教育解題等。
一個可以自動分析PDF、網(wǎng)頁、海報、Excel圖表內(nèi)容的大模型,對于打工人來說簡直不要太方便。上海AILab,香港中文大學(xué)等研究機構(gòu)提出的InternLM-XComposer2-4KHD模型讓這成為了現(xiàn)實。IXC2-4KHD將多模態(tài)大模型支持的分辨率提升到了4K的水平,研究人員表示目前這種通過增加切塊個數(shù)支持更大圖像輸入的策略遇到了計算代價和顯存的瓶頸,因此他們計劃提出更加高效的策略在未來實現(xiàn)?
RekaCore是一款最新發(fā)布的多模態(tài)大型語言模型,其性能可與GPT-4相媲美,甚至在某些方面超越了現(xiàn)有的前沿模型。這一技術(shù)突破為人工智能領(lǐng)域帶來了新的里程碑,特別是在圖像、視頻和音頻的上下文理解能力方面。隨著Core的進一步優(yōu)化和應(yīng)用,我們有理由相信,它將在多個領(lǐng)域產(chǎn)生深遠的影響,推動人工智能技術(shù)的進步和社會的發(fā)展。
MetaAI近日推出了一種名為MA-LMM的新型模型,旨在解決長期視頻理解中的挑戰(zhàn)。LLMs在處理文本數(shù)據(jù)時表現(xiàn)出了令人印象深刻的能力,但在處理視頻輸入方面存在一些限制,例如上下文長度限制和GPU內(nèi)存限制。其創(chuàng)新性的設(shè)計以及利用長期記憶庫和順序處理的方法使得該模型能夠在各種復(fù)雜場景下取得顯著成果,證明了其在多模態(tài)視頻理解應(yīng)用中的有效性和多功能性。
生數(shù)科技「多模態(tài)大模型」正式通過國家《生成式人工智能服務(wù)管理暫行辦法》備案。成立于2023年3月,生數(shù)科技是一家全球領(lǐng)先的自主研發(fā)多模態(tài)通用大模型的人工智能企業(yè),布局MaaS與應(yīng)用級產(chǎn)品,面向藝術(shù)設(shè)計、游戲制作、影視動畫、社交娛樂等領(lǐng)域提供賦能。生數(shù)科技將繼續(xù)深化在通用多模態(tài)大模型方向的探索,致力于用AI提升每個人的創(chuàng)造力和生產(chǎn)力。
3月11日,DeepSeek-AI開源了全新多模態(tài)大模型DeepSeek-VL系列,分為1.3b和7b兩種規(guī)模,共有4個版本。它具有融合語言和視覺能力,可以在不損失語言理解能力的情況下處理多模態(tài)任務(wù),識別高分辨率圖像中的細小物體。成立于2023年,專注于研究世界領(lǐng)先的通用人工智能底層模型與技術(shù),挑戰(zhàn)人工智能前沿性難題。
歡迎來到【今日AI】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
華中科技大學(xué)等機構(gòu)發(fā)布了一項關(guān)于多模態(tài)大模型的全面評估新基準(zhǔn),旨在解決多模態(tài)大模型性能評估的問題。這項研究涉及了14個主流多模態(tài)大模型,包括谷歌Gemini、OpenAIGPT-4V等,覆蓋了五大任務(wù)、27個數(shù)據(jù)集。這項研究不僅為多模態(tài)大模型的性能評估提供了新的思路,也為相關(guān)領(lǐng)域的研究和應(yīng)用奠定了更加扎實的基礎(chǔ)。
InternLM-XComposer2是一款先進的視覺-語言模型,在自由組合文本和圖像以及理解這兩者之間的內(nèi)容方面表現(xiàn)卓越。這款模型不僅超越了傳統(tǒng)的視覺-語言理解能夠巧妙地將多樣化的輸入,如概要、詳盡的文本描述和參考圖片,融合成包含文本和圖像的復(fù)合內(nèi)容,實現(xiàn)高度定制化的創(chuàng)作。這使得InternLM-XComposer2成為當(dāng)前領(lǐng)先的視覺-語言模型之一,為多領(lǐng)域的創(chuàng)作和理解任務(wù)提供了卓越
歡迎來到【AI視野】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
通義千問的圖像推理能力,最近有了大幅提升。2024年,大模型領(lǐng)域要卷什么?如果沒有思路的話,不妨看看各家大廠都在押注什么方向。隨著多模態(tài)大模型技術(shù)的突破,我們將很快看到電商領(lǐng)域發(fā)生一場革命。
阿里云公布了多模態(tài)大模型的最新研究成果,繼Plus版本之后,再次推出Max版本。Qwen-VL-Max模型在視覺推理方面展現(xiàn)出卓越的能力,可以理解并分析復(fù)雜的圖片信息,包括識人、答題、創(chuàng)作和寫代碼等任務(wù)。用戶可以在通義千問官網(wǎng)、通義千問APP直接體驗Max版本模型的能力,也可以通過阿里云靈積平臺調(diào)用模型API。
領(lǐng)跑中英文兩大權(quán)威榜單,李開復(fù)零一萬物交出多模態(tài)大模型答卷!距離其首款開源大模型Yi-34B和Yi-6B的發(fā)布,僅間隔不到三個月的時間。模型名為YiVisionLanguage,現(xiàn)已正式面向全球開源。GPT-4V在該測試集上的準(zhǔn)確率為43.7%,Yi-VL-34B以36.5%的準(zhǔn)確率緊隨其后,領(lǐng)先于當(dāng)前最前沿的開源多模態(tài)模型。
GLM-4是由智譜AI在首屆技術(shù)開放日上發(fā)布的一款新型大模型。GLM-4在性能上全面提升近60%,支持更長的上下文、更強的多模態(tài)支持和更快速的推理。要獲取更多詳細信息并開始使用GLM-4,請訪問GLM-4網(wǎng)站查看更多介紹。
多模態(tài)大模型爆發(fā),準(zhǔn)備好進入圖像編輯、自動駕駛和機器人技術(shù)等細粒度任務(wù)中實際應(yīng)用了嗎?目前大多數(shù)模型的能力還是局限于生成對整體圖像或特定區(qū)域的文本描述,在像素級理解方面的能力相對有限。針對這個問題,一些工作開始探索借助多模態(tài)大模型來處理用戶的分割指令。在三個benchmark的絕大多數(shù)指標(biāo)上,PixelLM的性能均優(yōu)于其他方法,且由于PixelLM不依賴于SAM,其TFLOPs遠遠低于同尺寸的模型。