11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享。快來騰訊云選購吧!
AI界近日迎來了一項(xiàng)重大突破,一款名為Llama3-V的全新開源視覺大語言模型正式亮相。Llama3-V基于Llama38B和siglip-so400m構(gòu)建,被業(yè)界譽(yù)為最先進(jìn)的視覺大語言模型之一。讓我們共同期待Llama3-V在未來AI應(yīng)用中的精彩表現(xiàn)。
AI界掀起了一股新風(fēng)潮,一款名為Llama3-V的全新開源視覺大語言模型橫空出世!這款模型基于Llama38B和siglip-so400m,被稱為最先進(jìn)的視覺大語言模型之一。Llama3-V的推出無疑將為AI領(lǐng)域帶來一股新的風(fēng)向,讓我們拭目以待,看這款模型能為人工智能領(lǐng)域帶來怎樣的突破與創(chuàng)新!
歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、李彥宏:百度搜索已有11%結(jié)果由AI生成在百度2024年第一季度財(cái)報(bào)電話會(huì)上,百度創(chuàng)始人李彥宏深入探討了公司的業(yè)務(wù)表現(xiàn)和未來發(fā)展方向,強(qiáng)調(diào)人工智能技術(shù)對(duì)用戶體驗(yàn)的推動(dòng)?
谷歌推出了一款名為PaliGemma的開源視覺語言模型,該模型結(jié)合了圖像處理和語言理解的能力,旨在支持多種視覺語言任務(wù),如圖像和短視頻字幕生成、視覺問答、圖像文本理解、物體檢測、文件圖表解讀以及圖像分割等。PaliGemma的關(guān)鍵特點(diǎn):多任務(wù)支持:PaliGemma能夠處理多種視覺語言相關(guān)的任務(wù),提供廣泛的應(yīng)用場景。開源的特性意味著PaliGemma可以被社區(qū)廣泛地使用、改進(jìn)和集成到各種產(chǎn)品和服務(wù)中。
HuggingFace首次發(fā)布了其Idefics視覺語言模型,該模型于2023年首次亮相,采用了最初由DeepMind開發(fā)的技術(shù)。Idefics迎來了升級(jí),新版本Idefics2擁有更小的參數(shù)規(guī)模、開放許可證以及改進(jìn)的光學(xué)字符識(shí)別能力。Idefics2的發(fā)布是AI繁榮持續(xù)推出的許多多模態(tài)模型之一,包括Reka的新Core模型、xAI的Grok-1.5V和Google的Imagen2。
中國香港中文大學(xué)和SmartMore的研究人員推出了一種名為Mini-Gemini的新穎框架,通過增強(qiáng)多模態(tài)輸入處理來推動(dòng)VLMs的發(fā)展。Mini-Gemini采用了雙編碼器系統(tǒng)和一種新穎的補(bǔ)丁信息挖掘技術(shù),結(jié)合一個(gè)特別策劃的高質(zhì)量數(shù)據(jù)集,使其能夠有效處理高分辨率圖像并生成內(nèi)容豐富的視覺和文本內(nèi)容,從使其脫穎出。正如研究人員所承認(rèn)的那樣,Mini-Gemini在視覺理解和推理能力方面仍有改進(jìn)?
劃重點(diǎn):??GoogleAI團(tuán)隊(duì)提出了ScreenAI,這是一個(gè)視覺語言模型,可以全面理解UI和信息圖。??ScreenAI在多個(gè)任務(wù)上表現(xiàn)出色,包括圖形問答,元素注釋,摘要生成等。通過利用這些組件的共同視覺語言和復(fù)雜設(shè)計(jì),ScreenAI為理解數(shù)字內(nèi)容提供了全面的方法。
谷歌最新研究提出SpatialVLM,旨在解決視覺語言模型缺乏空間推理能力的問題。視覺語言模型在理解目標(biāo)在三維空間中位置或關(guān)系時(shí)存在困難,研究者通過借鑒人類空間推理能力的思路,提出了這一新方法。這一研究成果有望推動(dòng)視覺語言模型在未來的發(fā)展方向上取得更大突破,為人工智能領(lǐng)域帶來新的進(jìn)步。
谷歌最新論文揭示的SpatialVLM,是一種具備空間推理能力的視覺語言模型,旨在解決當(dāng)前視覺語言模型在空間推理方面的困難。視覺語言模型在圖像描述、視覺問答等任務(wù)上取得顯著進(jìn)展,但在理解目標(biāo)在三維空間中的位置或空間關(guān)系方面仍存在難題。這一研究為視覺語言模型的空間推理能力提供了新的思路,為未來在機(jī)器人、圖像識(shí)別等領(lǐng)域的發(fā)展帶來了新的可能性。
Qwen-VL是阿里云推出的通用型視覺語言模型,具有強(qiáng)大的視覺理解和多模態(tài)推理能力。這一創(chuàng)新產(chǎn)品支持零樣本圖像描述、視覺問答、文本理解、圖像地標(biāo)定位等任務(wù),且在多個(gè)視覺基準(zhǔn)測試中達(dá)到或超過當(dāng)前最優(yōu)水平。想要深入了解Qwen-VL及其強(qiáng)大功能,請(qǐng)?jiān)L問Qwen-VL網(wǎng)站。
Qwen-VL是阿里云推出的通用型視覺語言模型,具備強(qiáng)大的視覺理解和多模態(tài)推理能力。采用Transformer結(jié)構(gòu),以7B參數(shù)規(guī)模進(jìn)行預(yù)訓(xùn)練,支持448x448分辨率,能夠端到端處理圖像與文本的多模態(tài)輸入與輸出。AIbase擁有一個(gè)全面的國內(nèi)外AI產(chǎn)品數(shù)據(jù)庫,涵蓋了超過7000個(gè)出色的人工智能網(wǎng)站和產(chǎn)品,覆蓋了40多個(gè)不同的領(lǐng)域。
谷歌AI研究團(tuán)隊(duì)最近提出了SpatialVLM,這是一種旨在增強(qiáng)視覺語言模型空間推理能力的創(chuàng)新系統(tǒng)。盡管先進(jìn)的模型如GPT-4V在人工智能驅(qū)動(dòng)任務(wù)中取得了顯著進(jìn)展,但它們在空間推理方面仍存在顯著局限。-SpatialVLM的開發(fā)標(biāo)志著人工智能技術(shù)的重大進(jìn)步。
清華大學(xué)智普AI的研究人員開發(fā)了一種新的視覺語言模型,名為CogAgent。該模型專門設(shè)計(jì)用于理解和導(dǎo)航圖形用戶界面。該模型有可能徹底改變我們與計(jì)算機(jī)交互的方式。
智譜AI開源了CogAgent,它是一個(gè)視覺語言模型,擁有180億參數(shù)規(guī)模。該模型在GUI理解和導(dǎo)航方面表現(xiàn)出色,在多個(gè)基準(zhǔn)測試上取得了SOTA的通用性能。CogAgent還支持OCR相關(guān)任務(wù),通過預(yù)訓(xùn)練和微調(diào),其能力得到了顯著提升。
谷歌AI研究團(tuán)隊(duì)與加州大學(xué)圣迭戈分校的研究人員合作,提出了一種名為PixelLLM的智能模型,旨在解決大型語言模型在細(xì)粒度定位和視覺-語言對(duì)齊方面的挑戰(zhàn)。這一模型的提出受到了人類自然行為的啟發(fā),尤其是嬰兒描述其視覺環(huán)境的方式,包括手勢、指向和命名。這一研究成果標(biāo)志著在大型語言模型領(lǐng)域取得的一項(xiàng)重要進(jìn)展,為實(shí)現(xiàn)更精確的視覺-語言對(duì)齊和定位打開了新的?
堪稱改變游戲規(guī)則的視覺語言模型PaLI-3問世,引得大量科研人員關(guān)注。PaLI-3是谷歌最新推出的視覺語言模型,以更小的體量,更快的推理速度,達(dá)到了更強(qiáng)的性能。PaLI-3還未完全開源,但是開發(fā)人員已經(jīng)發(fā)布了多語言和英文SigLIPBase、Large和So400M模型。
谷歌最新發(fā)布的PaLI-3視覺語言模型在小體量下實(shí)現(xiàn)了SOTA性能,引起廣泛關(guān)注。這款模型以更小的體量和更快的推理速度實(shí)現(xiàn)更強(qiáng)大的性能,是谷歌去年推出的多模態(tài)大模型PaLI的升級(jí)版。這一創(chuàng)新有望影響視覺語言模型的未來發(fā)展方向,提供更高效的解決方案。
GoogleResearch和GoogleDeepMind日前發(fā)布了名為PaLI-3的新一代視覺語言模型,盡管僅擁有50億參數(shù),但其性能令人矚目。與體積大10倍的競爭對(duì)手相比,PaLI-3在多模態(tài)測試中表現(xiàn)出色,能夠回答關(guān)于圖像的問題、描述視頻、識(shí)別對(duì)象和讀取圖像上的文本。該研究團(tuán)隊(duì)表示,PaLI-3的性能表現(xiàn),盡管僅有50億參數(shù),重新激發(fā)了對(duì)復(fù)雜VLM核心組成部分的研究興趣,并有望推動(dòng)新一代大規(guī)模VLM的發(fā)展。
在多模態(tài)大模型領(lǐng)域,拼參數(shù)贏性能的同時(shí),追求參數(shù)更小、速度更快、性能更強(qiáng)是另一條研究路徑。在大模型時(shí)代,視覺語言模型的參數(shù)已經(jīng)擴(kuò)展到了數(shù)百甚至數(shù)千億,使得性能持續(xù)增加。表7和表8評(píng)估了模型的公平性、偏差和其他潛在問題。
來自谷歌、CMU的研究發(fā)現(xiàn),語言模型在圖像、視頻生成領(lǐng)域的性能一直不如擴(kuò)散模型,主要原因是缺乏有效的視覺表示。通過引入一種名為MAGVIT-v2的視頻tokenizer,采用無查找量化和增強(qiáng)功能的設(shè)計(jì),研究者成功改進(jìn)了圖像和視頻生成的質(zhì)量,超越了現(xiàn)有技術(shù)。通過這一研究,我們可以看到語言模型在視覺生成領(lǐng)域的潛力,以及如何通過創(chuàng)新的設(shè)計(jì)和改進(jìn)來實(shí)現(xiàn)更好的性能。
百度正在加速訓(xùn)練文心大模型4.0,并計(jì)劃在10月17日的百度世界大會(huì)上發(fā)布。這一新版本將是文心大模型3.5的重要升級(jí),重點(diǎn)提升基礎(chǔ)模型能力,尤其在邏輯推理、代碼和數(shù)學(xué)等方面取得顯著進(jìn)展。GoogleDeepMind提出DRaFT算法以高效優(yōu)化擴(kuò)散模型GoogleDeepMind最新提出的DRaFT算法用于高效優(yōu)化擴(kuò)散模型,提高了文本到圖像生成等實(shí)際應(yīng)用的效率和性能,成為機(jī)器學(xué)習(xí)領(lǐng)域的有價(jià)值工具?
BLIVA是一種視覺語言模型,擅長讀取圖像中的文本,使其在許多行業(yè)的現(xiàn)實(shí)場景和應(yīng)用中發(fā)揮作用。加州大學(xué)圣地亞哥分校的研究人員開發(fā)了BLIVA,這是一種視覺語言模型,旨在更好地處理包含文本的圖像。BLIVA有望改善現(xiàn)實(shí)世界中的多種應(yīng)用。
阿里云旗下魔搭社區(qū)宣布開源視覺語言模型Qwen-VL。Qwen-VL以通義千問70億參數(shù)模型Qwen-7B為基座語言模型研發(fā),支持圖文輸入,具備多模態(tài)信息理解能力。該模型的推理速度快,資源消耗相對(duì)較低。
prismer是一種視覺語言模型的實(shí)現(xiàn),旨在提供一個(gè)具有專家集合的系統(tǒng)。該系統(tǒng)基于PyTorch1.13開發(fā),使用了Huggingface的加速工具包,支持多節(jié)點(diǎn)多GPU的訓(xùn)練。抵制無益的意見研究結(jié)果進(jìn)一步表明,當(dāng)噪聲預(yù)測專家加入時(shí),Prismer的性能是穩(wěn)定的。
自2012年以來,Be+My+Eyes一直在為超過2.5億的盲人或低視力者群體創(chuàng)建技術(shù)。這家丹麥初創(chuàng)公司將盲人或低視力者與志愿者聯(lián)系起來,幫助他們完成數(shù)百項(xiàng)日常生活任務(wù),如識(shí)別產(chǎn)品或?qū)Ш降綑C(jī)場。就像其現(xiàn)有的志愿者服務(wù)一樣,該工具對(duì)所有使用+Be+My+Eyes+應(yīng)用程序的盲人和低視力社區(qū)成員免費(fèi)。
在當(dāng)下這個(gè)科技日新月異的時(shí)代,AI大語言模型正以前所未有的速度重塑各行各業(yè),教育領(lǐng)域也不例外。隨著AI技術(shù)的不斷成熟,其與職業(yè)教育的融合日益加深,為職業(yè)教育帶來了前所未有的變革機(jī)遇。她認(rèn)為:“隨著AI技術(shù)的不斷發(fā)展和應(yīng)用深化,數(shù)字職業(yè)教育將迎來更加廣闊的發(fā)展前景和無限可能。
【新智元導(dǎo)讀】Robin3D通過魯棒指令數(shù)據(jù)生成引擎生成的大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,以提高模型在3D場景理解中的魯棒性和泛化能力,在多個(gè)3D多模態(tài)學(xué)習(xí)基準(zhǔn)測試中取得了優(yōu)異的性能,超越了以往的方法,且無需針對(duì)特定任務(wù)的微調(diào)。多模態(tài)大語言模型以文本模態(tài)為基礎(chǔ),將其它各種模態(tài)對(duì)齊至語言模型的語義空間,從實(shí)現(xiàn)多模態(tài)的理解和對(duì)話能力。這種大幅的提升體現(xiàn)了對(duì)抗性數(shù)據(jù)對(duì)模型識(shí)別能力的提升。
探索MetaLlama3.1-405B能為你帶來哪些改變?yōu)槭裁催x擇MetaLlama3.1-405B?MetaLlama3.1-405B不僅僅是一款產(chǎn)品——它是一項(xiàng)革命性的技術(shù),致力于提供大型多語言預(yù)訓(xùn)練語言模型,以滿足自然語言處理研究人員、軟件開發(fā)者、教育工作者和企業(yè)用戶的需求。通過AIbase,您可以輕松發(fā)現(xiàn)最適合您需求的人工智能工具,解鎖AI的力量。
6月18日,北京智譜華章科技有限公司與中國銀聯(lián)股份有限公司大語言模型聯(lián)合實(shí)驗(yàn)室簽約儀式在上海正式舉行。中國銀聯(lián)作為國內(nèi)領(lǐng)先的轉(zhuǎn)接清算機(jī)構(gòu),擁有豐富的金融支付數(shù)據(jù)和業(yè)務(wù)場景,智譜AI作為行業(yè)領(lǐng)先的大模型公司,專注于做大模型的中國創(chuàng)新,模型研發(fā)能力位列全球前列,雙方具備大模型合作的堅(jiān)實(shí)基礎(chǔ)。下一步雙方將推動(dòng)大語言模型應(yīng)用的科技研發(fā)、聯(lián)合創(chuàng)新、
小米官方宣布,小米大語言模型MiLM正式通過大模型備案。通過備案后,小米大模型將逐步應(yīng)用于小米公司的汽車、手機(jī)、智能家居等產(chǎn)品中,通過端云結(jié)合,既帶來單個(gè)設(shè)備的智能提升,也實(shí)現(xiàn)場景內(nèi)和場景間多設(shè)備的協(xié)同,為人車家全生態(tài)戰(zhàn)略賦能。在全新高通驍龍8Gen3終端上,基于NPU運(yùn)行了小米自研60億參數(shù)語言大模型,在首詞響應(yīng)、生成速度等幾項(xiàng)關(guān)鍵指標(biāo)上均處于行業(yè)領(lǐng)先水平。