歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/
1、InstantX圖像生成黑科技!可精確控制 FLUX 生成圖片時每個區(qū)域的內(nèi)容
在AI繪畫領(lǐng)域,InstantX推出的Regional-Prompting-FLUX技術(shù)實現(xiàn)了前所未有的高精準(zhǔn)度,讓創(chuàng)作者們能夠精細(xì)控制圖片內(nèi)容,開拓了全新的創(chuàng)作可能。該技術(shù)突破性在于強(qiáng)大的區(qū)域控制能力,兼容性強(qiáng),操作簡單直觀,具有極強(qiáng)的擴(kuò)展性。FLUX為AI繪畫帶來了更自由、更靈活、更高效的創(chuàng)作平臺。
【AiBase提要:】
?? FLUX技術(shù)實現(xiàn)了高精準(zhǔn)度,讓創(chuàng)作者精細(xì)控制圖片內(nèi)容,開拓創(chuàng)作可能。
?? FLUX具有強(qiáng)大的區(qū)域控制能力,可實現(xiàn)不同風(fēng)格區(qū)域的完美融合。
?? FLUX在處理速度、兼容性和操作簡便性方面表現(xiàn)優(yōu)異,為圖像生成帶來新的可能性。
詳情鏈接:https://github.com/instantX-research/Regional-Prompting-FLUX
2、超快速文本轉(zhuǎn)語音模型Lightning:超低延遲, 100毫秒生成10秒音頻
最新推出的AI文本轉(zhuǎn)語音模型Lightning在100毫秒內(nèi)生成10秒音頻,大幅降低語音機(jī)器人開發(fā)成本,提高可及性。支持多種語言口音,定價極具成本效益。
【AiBase提要:】
?? 速度與效率。Lightning模型在100毫秒內(nèi)生成10秒音頻,實現(xiàn)實時語音合成,滿足快速響應(yīng)需求。
?? 低成本高效率。每分鐘僅需0.02美元,顯著降低語音機(jī)器人開發(fā)者的運營費用。
?? 多功能應(yīng)用。除語音機(jī)器人外,還可用于有聲書和社交媒體配音,方便開發(fā)者和非開發(fā)者使用。
詳情鏈接:https://smallest.ai/blog/lightning-fast-text-to-speech
3、黑神話悟空也能用AI生成了?GameGen-X 顛覆游戲開發(fā),傳統(tǒng)游戲瑟瑟發(fā)抖!
GameGen-X 模型由香港科技大學(xué)、中國科學(xué)技術(shù)大學(xué)等機(jī)構(gòu)研究人員發(fā)布,是專為生成和互動控制開放世界游戲視頻而設(shè)計的擴(kuò)散變換器模型。該模型能自動生成開放世界游戲視頻,模擬游戲引擎功能,實現(xiàn)角色互動和場景內(nèi)容控制,為游戲開發(fā)帶來新可能性。雖然仍處于初級階段,但展示了生成模型作為傳統(tǒng)渲染技術(shù)輔助工具的潛力。
【AiBase提要:】
?? GameGen-X 模型可生成開放世界游戲視頻,模擬游戲引擎功能,實現(xiàn)角色互動和場景內(nèi)容控制。
?? GameGen-X 訓(xùn)練使用大型開放世界游戲視頻數(shù)據(jù)集 OGameData,通過兩階段訓(xùn)練實現(xiàn)高質(zhì)量游戲內(nèi)容生成和互動可控性。
?? GameGen-X 表現(xiàn)出色,提供優(yōu)秀的環(huán)境和角色控制能力,為未來游戲開發(fā)帶來新可能性。
詳情鏈接:https://gamegen-x.github.io/
4、AI新框架HelloMeme:超逼真實現(xiàn)不同圖片之間的表情遷移
HelloMeme框架通過獨特的網(wǎng)絡(luò)結(jié)構(gòu)和Animatediff模塊,實現(xiàn)了視頻生成的流暢性與畫質(zhì)的雙重提升??蚣苤С諥RKit Face Blendshapes,使用戶能夠靈活控制角色面部表情,豐富視頻內(nèi)容的表現(xiàn)。采用熱插拔適配器設(shè)計,確保與SD1.5基礎(chǔ)上的其他模型兼容,為創(chuàng)作提供更大的靈活性。
【AiBase提要:】
?? HelloMeme通過獨特的網(wǎng)絡(luò)結(jié)構(gòu)和Animatediff模塊,實現(xiàn)了視頻生成的流暢性與畫質(zhì)的雙重提升。
?? 框架支持ARKit Face Blendshapes,使用戶能夠靈活控制角色面部表情,豐富視頻內(nèi)容的表現(xiàn)。
?? 采用熱插拔適配器設(shè)計,確保與SD1.5基礎(chǔ)上的其他模型兼容,為創(chuàng)作提供更大的靈活性。
詳情鏈接:https://songkey.github.io/hellomeme/
5、OuteTTS-0.1-350M: 一種新穎的文本轉(zhuǎn)語音合成方法
Oute AI 最近發(fā)布了一種名為 OuteTTS-0.1-350M 的文本轉(zhuǎn)語音合成方法,采用純語言建模,簡化了 TTS 方法,具有零樣本語音克隆功能,適用于廣泛的應(yīng)用領(lǐng)域。該方法基于 LLaMa 架構(gòu),使用 WavTokenizer 生成音頻標(biāo)記,性能可與更大、更復(fù)雜的 TTS 系統(tǒng)相媲美,具有高效率和可訪問性。
【AiBase提要:】
?? OuteTTS-0.1-350M 利用純語言建模,無需外部適配器,提供簡化的 TTS 方法。
?? OuteTTS-0.1-350M 使用 WavTokenizer 直接生成音頻標(biāo)記,流程更高效。
?? OuteTTS-0.1-350M 具有零樣本語音克隆功能,與 llama.cpp 兼容,適用于實時應(yīng)用。
詳情鏈接:https://www.outeai.com/blog/OuteTTS-0.1-350M
6、CMU、Meta聯(lián)手放大招! VQAScore一個問題搞定文生圖模型評測,準(zhǔn)確性遠(yuǎn)超傳統(tǒng)方法!
生成式AI發(fā)展迅猛,但全面評估其性能一直是難題。近期,卡耐基梅隆大學(xué)和Meta合作推出VQAScore評測方案,利用視覺問答模型評分,準(zhǔn)確性超越傳統(tǒng)方法。新評測基準(zhǔn)GenAI-Bench推動文生圖模型發(fā)展,提供更全面、具有挑戰(zhàn)性的評測。VQAScore存在局限性,但隨著VQA模型進(jìn)步,性能將提升。
【AiBase提要:】
?? VQAScore評測方案利用視覺問答模型給文生圖模型打分,準(zhǔn)確性超越傳統(tǒng)方法。
?? GenAI-Bench評測基準(zhǔn)推動文生圖模型發(fā)展,提供更全面、具有挑戰(zhàn)性的評測。
?? VQAScore存在局限性,但隨著VQA模型進(jìn)步,性能將進(jìn)一步提升。
詳情鏈接:https://linzhiqiu.github.io/papers/vqascore/
7、中國團(tuán)隊推世界最大多模態(tài)數(shù)據(jù)集“Infinity-MM”和頂尖微型AI模型“Aquila-VL-2B”
近日,中國研究團(tuán)隊成功創(chuàng)建了“Infinity-MM”數(shù)據(jù)集,同時訓(xùn)練出了性能卓越的小型新模型“Aquila-VL-2B”。這一舉措標(biāo)志著開放源代碼模型在AI研究中逐漸趕超傳統(tǒng)閉源系統(tǒng)的趨勢,尤其在合成訓(xùn)練數(shù)據(jù)的利用方面展現(xiàn)出良好前景。
【AiBase提要:】
?? 數(shù)據(jù)集“Infinity-MM”包含1000萬條圖像描述和2440萬條視覺指令數(shù)據(jù)。
?? 新模型Aquila-VL-2B在多個基準(zhǔn)測試中表現(xiàn)優(yōu)異,打破了同類模型的記錄。
?? 合成數(shù)據(jù)的使用顯著提升了模型性能,研究團(tuán)隊決定向社區(qū)開放數(shù)據(jù)集和模型。
詳情鏈接:https://arxiv.org/abs/2410.18558
8、AI浪潮下受益者!英偉達(dá)超越蘋果,成為全球市值最高公司
在近期的股市交易中,英偉達(dá)憑借其在人工智能領(lǐng)域的強(qiáng)勁表現(xiàn),超越了蘋果公司,成為全球市值最高的公司。這一變化標(biāo)志著英偉達(dá)自2022年底以來實現(xiàn)了驚人的850%的增長,顯示出強(qiáng)勁的市場表現(xiàn)。英偉達(dá)在人工智能熱潮中的重要地位得到再次驗證。
【AiBase提要:】
?? 英偉達(dá)市值達(dá)3.43萬億美元,超越蘋果成為全球市值最高公司。
?? 自2022年底以來,英偉達(dá)股價增長850%,顯示出強(qiáng)勁的市場表現(xiàn)。
?? 蘋果也在人工智能領(lǐng)域發(fā)力,但英偉達(dá)仍是頂尖大型語言模型的關(guān)鍵支持者。
9、微軟推出 Magnetic-One 系統(tǒng):多智能體協(xié)同完成日常任務(wù)
微軟最新發(fā)布的 Magnetic-One 系統(tǒng)是一款多智能體框架,旨在提升個人和企業(yè)的工作效率。該系統(tǒng)允許一個 AI 模型驅(qū)動多個助手智能體,協(xié)同完成復(fù)雜的多步驟任務(wù)。微軟使用了 OpenAI 的 GPT-4o 進(jìn)行開發(fā),但系統(tǒng)與大型語言模型無關(guān),推薦使用強(qiáng)大的推理模型作為指揮者智能體。
【AiBase提要:】
?? Magnetic-One 系統(tǒng): 微軟推出的多智能體框架,旨在提升生產(chǎn)力并自動化日常任務(wù)。
?? 多種智能體角色: 包括指揮者、網(wǎng)頁瀏覽、文件瀏覽、代碼編寫等多種智能體協(xié)同工作。
?? 開源共享: Magnetic-One 為開發(fā)者提供開源框架,促進(jìn)智能體的靈活應(yīng)用與評估。
詳情鏈接:https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/
(舉報)