????????大模型動態(tài)
美圖大模型將向公眾開放
美圖公司的AI視覺大模型MiracleVision于2023年6月內(nèi)測,已升級至4.0版本并通過備案,成為國內(nèi)唯一專注視覺領(lǐng)域的大模型,將在電商、廣告、游戲、動漫、影視等行業(yè)開放服務(wù)。
【AiBase提要:】
?? MiracleVision4.0升級,為美圖旗下產(chǎn)品提供AI模型能力。
?? 是國內(nèi)備案通過的唯一專注視覺領(lǐng)域的大模型。
?? 將在電商、廣告、游戲、動漫、影視等行業(yè)開放服務(wù)。
Meta推全新視頻生成模型FlowVid
Meta與清華校友合作開發(fā)的FlowVid視頻生成模型利用V2V技術(shù),在短短1.5分鐘內(nèi)生成4秒視頻,突破了時間連貫性難題,通過光流技術(shù)實現(xiàn)視頻幀之間的高度一致性。
論文地址:https://arxiv.org/pdf/2312.17681.pdf
項目地址:https://top.aibase.com/tool/flowvid
【AiBase提要:】
?? 新模型發(fā)布: Meta與清華校友聯(lián)手推出FlowVid視頻生成模型,采用V2V技術(shù),為AI視頻生成領(lǐng)域帶來新突破。
?? 核心技術(shù): FlowVid利用空間條件和源視頻中的時間光流信息,解決了V2V合成的時間連貫性難題,保持視頻幀之間的一致性。
?? 用戶研究表現(xiàn): 在用戶研究中,F(xiàn)lowVid在及時對齊和整體視頻質(zhì)量方面表現(xiàn)出色,以45.7%的偏好率超越其他V2V模型,如CoDeF、Rerender和TokenFlow。
LangSplat:比LERF快199倍的3D語言搜索模型
LangSplat是由清華大學(xué)和哈佛大學(xué)研發(fā)的3D語言高斯模型,通過將CLIP特征映射到3D語言高斯中,實現(xiàn)了比LERF快199倍的精準(zhǔn)3D語言搜索。
項目體驗網(wǎng)址:https://top.aibase.com/tool/langsplat
【AiBase提要】
?? 創(chuàng)新方法: LangSplat通過將CLIP特征映射到一組3D語言高斯中,實現(xiàn)了精準(zhǔn)的3D語言場,比LERF快199倍。
??3D語言場: LangSplat構(gòu)建了一個3D語言場,支持在3D空間內(nèi)進行精準(zhǔn)高效的開放式語言查詢。
?? 視覺效果: LangSplat通過可視化學(xué)習(xí)特征,準(zhǔn)確捕捉物體邊界,無需后處理,同時在1440×1080分辨率下比LERF快199倍。
多模態(tài)AI模型Unified-IO2:可理解和生成圖像、文本、音頻和動作
近日,由艾倫人工智能研究所、伊利諾伊大學(xué)厄巴納-香檳分校和華盛頓大學(xué)的研究人員聯(lián)合開發(fā)的Unified-IO2標(biāo)志著人工智能領(lǐng)域的一次飛躍。該模型采用獨特的單編碼器-解碼器變壓器模型,能夠處理和生成文本、圖像、音頻和視頻等多種數(shù)據(jù)類型。在35個數(shù)據(jù)集上的評估中,Unified-IO2創(chuàng)下了GRIT評估的新記錄,特別在圖像生成方面超越了競爭對手,展現(xiàn)了其卓越的設(shè)計和性能。
項目體驗網(wǎng)址:https://top.aibase.com/tool/unified-io-2
【AiBase提要:】
?? 多模態(tài)整合前沿: Unified-IO2是一款具有自回歸能力的多模態(tài)AI模型,能夠處理和生成文本、圖像、音頻和視頻等多種數(shù)據(jù)類型,標(biāo)志著人工智能領(lǐng)域的重大突破。
?? 創(chuàng)新架構(gòu): 采用獨特的單編碼器-解碼器變壓器模型,通過共享的表示空間對不同輸入進行編碼,克服了以往模型在處理多模態(tài)數(shù)據(jù)時的限制,展現(xiàn)了其卓越的設(shè)計和性能。
?? 性能超群: 在35個數(shù)據(jù)集上進行評估,Unified-IO2在GRIT評估中創(chuàng)下新的記錄,在關(guān)鍵點估計和表面法線估計等任務(wù)上表現(xiàn)卓越,特別在圖像生成方面超越了競爭對手,展現(xiàn)了其廣泛的能力范圍。
??????AI新鮮事
AI繪圖模型寫字難題被阿里AnyText破解
阿里巴巴推出的AnyText AI繪圖工具成功解決了以往模型難以準(zhǔn)確寫入文字的問題,支持中英日韓四種語言,可以任意指定文字位置。
項目體驗網(wǎng)址:https://top.aibase.com/tool/anytext-tuwenronghe
【AiBase提要:】
?? 多語言支持:AnyText能夠準(zhǔn)確繪制中英日韓四種語言,徹底解決了文字繪圖模型的難題。
??? 靈活文字定位:用戶可以精準(zhǔn)指定文字位置,包括在繪制時加入文字、修改已有文字或向圖中添加文字。
?? 獨立完成文字渲染:AnyText基于擴散模型,通過隱空間輔助模塊和文本嵌入模塊實現(xiàn)文字生成,提高了書寫精度和文字與背景的一致性。
微軟推出WaveCoder:提升指令調(diào)優(yōu)與數(shù)據(jù)生成
微軟研究人員發(fā)布WaveCoder模型,通過多才的指令調(diào)優(yōu)在代碼相關(guān)任務(wù)上表現(xiàn)出色。引入CodeOcean數(shù)據(jù)集,采用基于LLM的生成器-鑒別器框架,從開源代碼中生成多樣、高質(zhì)量指令數(shù)據(jù),擴展指令調(diào)優(yōu)的泛化能力。
論文網(wǎng)址:https://arxiv.org/pdf/2312.14187.pdf
【AiBase提要:】
?? WaveCoder模型通過廣泛指令調(diào)優(yōu)在不同任務(wù)上表現(xiàn)出色。
?? 引入CodeOcean數(shù)據(jù)集,包含4個通用任務(wù)的指令實例,增強指令調(diào)優(yōu)效果。
?? 提出基于LLM的生成器-鑒別器框架,分類生成多樣、高質(zhì)量指令數(shù)據(jù),控制數(shù)據(jù)質(zhì)量。
斯坦福Meta研究證明Gemini推理能力強于GPT-3.5
斯坦福和Meta的研究發(fā)現(xiàn),Gemini在全面的常識推理任務(wù)中表現(xiàn)強勁,超越先前基于有限數(shù)據(jù)集的評估,證明其推理性能優(yōu)于GPT-3.5。
【AiBase提要】:
?? 斯坦福和Meta的研究挽回了Gemini在常識推理上的聲譽,強調(diào)有限數(shù)據(jù)集評估的不足。
?? 在綜合12個常識推理數(shù)據(jù)集的測試中,Gemini在復(fù)雜推理任務(wù)中表現(xiàn)出強大的潛力。
?? 在多模態(tài)和語言任務(wù)中,Gemini Pro的表現(xiàn)與GPT-3.5相當(dāng),略遜于GPT-4,揭示了不同模型在不同推理任務(wù)上的優(yōu)劣。
黑客大規(guī)模惡意注冊與ChatGPT相似的域名
網(wǎng)絡(luò)安全研究發(fā)現(xiàn)黑客大規(guī)模注冊與ChatGPT相似的域名,模糊用戶判斷,利用模型信譽欺騙用戶,涉及超過65萬個惡意域名,引發(fā)下載惡意內(nèi)容和泄露敏感信息等安全問題。
【AiBase提要:】
?? 惡意利用ChatGPT名聲: 黑客注冊大量與ChatGPT相似的域名,借助模型信譽欺騙用戶,引發(fā)下載惡意內(nèi)容、泄露敏感信息等問題。
?? Cl0p勒索軟件攻擊: 利用MOVEit的零日漏洞,俄羅斯Cl0p組織實施全球企業(yè)和美國機構(gòu)的勒索軟件攻擊,包括勒索未付款時將數(shù)據(jù)泄露到公開網(wǎng)絡(luò)的新策略。
?? 多樣化威脅: 包括Mozi僵尸網(wǎng)絡(luò)關(guān)閉、Android/Pandora威脅攻擊智能設(shè)備、對ChatGPT用戶的定向攻擊等,強調(diào)API密鑰隱私保護的重要性。
??????AI應(yīng)用
多功能即時語音克隆技術(shù)OpenVoice
OpenVoice是一項實用的即時仿聲技術(shù),能根據(jù)目標(biāo)發(fā)言人的短音頻模仿其聲音,精細控制情感、口音、語調(diào)等,實現(xiàn)零樣本跨語言模仿。
項目地址:https://top.aibase.com/tool/openvoice
【AiBase提要】
?? 準(zhǔn)確音色克隆: OpenVoice可復(fù)制參考音色,生成多語言和口音的語音。
?? 靈活語音風(fēng)格控制: 用戶可精細控制情感、口音、語調(diào)、停頓和節(jié)奏等語音風(fēng)格。
?? 零射擊跨語言語音克隆: 模型可在未訓(xùn)練語言中生成語音,展示適應(yīng)性和多功能性。
?????????聚焦開發(fā)者
ComfyUI實用插件!可在ComfyUI中調(diào)用GPT-4和DALL-E3
Plush-for-ComfyUI插件在ComfyUI平臺中調(diào)用GPT-4和DALL-E3,通過圖片提取提示詞,實現(xiàn)圖像處理與生成,為用戶提供強大而有趣的工具。
項目地址:https://top.aibase.com/tool/plush-for-comfyui
【AiBase提要:】
?? Plush-for-ComfyUI插件可在ComfyUI平臺調(diào)用GPT-4和DALL-E3,提供強大的圖像處理與生成功能。
?? 插件包括Style Prompt和OAI Dall_e3節(jié)點,支持文本和圖像提示,生成ChatGPT3或4的提示,以及使用DALL-E3生成圖像。
?? 使用前需配置OpenAI API密鑰,安裝ComfyUI、Base和Refiner SDXL模型,推薦初次使用選擇完整的SDXL Base和Refiner模型獲取最佳效果。
開放世界游戲角色扮演智能體框架LARP 喚醒NPC
LARP是一個創(chuàng)新框架,致力于增強用戶與語言代理在開放世界游戲中的互動體驗。其認(rèn)知架構(gòu)包含記憶處理和決策輔助功能,環(huán)境交互模塊通過反饋驅(qū)動學(xué)習(xí)提高代理在游戲環(huán)境中的適應(yīng)能力,而后處理方法促進各種個性的對齊,提供更真實、沉浸式的交互。
項目地址:https://top.aibase.com/tool/larp
【AiBase提要:】
?? 認(rèn)知架構(gòu): LARP采用強大認(rèn)知架構(gòu),注重記憶處理和決策輔助,確保代理在動態(tài)開放世界中的連貫行動。
?? 環(huán)境交互模塊: 具備反饋驅(qū)動可學(xué)習(xí)行動空間,使代理能夠?qū)崟r學(xué)習(xí)并調(diào)整行動,提高在游戲環(huán)境中的導(dǎo)航和交互能力。
?? 個性對齊后處理: 引入后處理方法促進各種個性的對齊,提升代理交互真實感,為用戶創(chuàng)造更沉浸式、引人入勝的開放世界游戲體驗。
MagicDance:基于擴散的人體運動傳遞框架生成逼真舞蹈視頻
MagicDance框架是一種基于擴散的計算機視覺模型,通過兩階段訓(xùn)練策略專注于人體動作解纏和外觀因素,成功生成高度逼真的人類舞蹈視頻,為計算機視覺和人工智能領(lǐng)域帶來新可能性。
項目地址:https://top.aibase.com/tool/magicdance
【AiBase提要:】
?? MagicDance框架采用穩(wěn)定擴散模型,在兩階段訓(xùn)練中關(guān)注外觀解纏,成功生成既逼真又具有原始身份信息的舞蹈視頻。
?? 在TikTok數(shù)據(jù)集上預(yù)訓(xùn)練,展現(xiàn)了卓越的泛化能力,MagicDance框架在復(fù)雜運動序列和不同人類身份下保持高水準(zhǔn)逼真性。
?? 盡管面臨一些挑戰(zhàn),如復(fù)雜場景中的面部標(biāo)志和姿勢骨架檢測,MagicDance框架為人體運動傳遞和舞蹈視頻生成領(lǐng)域帶來顯著進展。
騰訊推新技術(shù)Paint3D 給3D模型生成高清紋理
騰訊推出的Paint3D技術(shù)在解決3D模型缺乏內(nèi)嵌光照信息的情況下,能夠自動化生成高分辨率、無光照的多樣化紋理貼圖,為自動化紋理貼圖生成領(lǐng)域帶來重大進展。
項目地址:https://top.aibase.com/tool/paint3d
【AiBase提要:】
??Paint3D利用兩階段紋理生成框架,在UV紋理空間上訓(xùn)練無光照擴散模型,顯著提升了3D模型紋理生成效果,成為唯一能生成無內(nèi)嵌光照紋理的算法。
??Paint3D通過量化和定性實驗,幾乎在所有樣本上達到更好的效果,在紋理生成質(zhì)量和符合輸入條件方面優(yōu)于當(dāng)前最佳算法,標(biāo)志著自動化紋理貼圖生成領(lǐng)域的重大進展。
???Paint3D生成的紋理貼圖沒有內(nèi)嵌光照陰影效果,可被重新照明或編輯,直接應(yīng)用于現(xiàn)有渲染管線,在藝術(shù)創(chuàng)作、數(shù)字媒體制作和游戲內(nèi)容創(chuàng)作等領(lǐng)域具有重要作用。
(舉報)