11.11云上盛惠!海量產品 · 輕松上云!云服務器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
OpenAI發(fā)布了全新擴散模型方法sCM,僅需2步就能生成高質量圖片、3D模型等實現(xiàn)50倍時鐘加速,尤其是在高分辨率任務上相當出色。通過sCM訓練了一個15億參數(shù)的模型,在單個A100GPU上無需任何推理優(yōu)化0.11秒內就能生成內容。把這個技術用在Sora,應該就快來了吧?目前,OpenAI已經分享了該論文方法,是由兩位華人提出來的。
在CVPR2024上,美國英特爾研究院的蔡志鵬博士及其團隊提出了一種名為L-MAGIC的新技術。這項技術通過結合語言模型和圖像擴散模型,實現(xiàn)了高質量、多模態(tài)、零樣本泛化的360度場景生成。技術應用:L-MAGIC還能夠利用深度估計模型生成場景的沉浸式視頻和三維點云,為場景理解和可視化提供了更多可能性。
NVIDIA近期提出了一種名為自動引導的新方法,旨在改善擴散模型中圖像的質量和變化不影響其與給定條件的一致性。當前的方法通常會以犧牲多樣性為代價來提高圖像質量,從限制了它們在醫(yī)學診斷和自動駕駛等各種現(xiàn)實場景中的適用性。這種創(chuàng)新方法在基準測試中取得了最先進的成績,顯著推進了人工智能研究領域,為生成高質量和多樣化圖像提供了更高效、更有效的解決方案。
SLD 是一個自糾正的LLM控制的擴散模型框架,它通過集成檢測器增強生成模型,以實現(xiàn)精確的文本到圖像對齊。SLD框架支持圖像生成和精細編輯,并且與任何圖像生成器兼容,如DALL-E 3,無需額外訓練或數(shù)據(jù)。點擊前往SLD官網(wǎng)體驗入口需求人群:適用于需要精確文本到圖像對齊的研究者和開發(fā)者,以及希望進行圖像生成和編輯的用戶。使用場景示例:使用SLD框架根據(jù)文本提示生?
擴散模型中,UNet的longskipconnection上的scaling操作被證實能夠穩(wěn)定模型訓練。在一些流行的擴散模型中,如Imagen和Score-basedgenerativemodel中,已經觀察到設置scaling系數(shù)可以有效加速模型的訓練過程。最近的一些后續(xù)工作也進一步驗證了skipconnection上scaling的重要性,為這一領域的發(fā)展提供了新的思路和方向。
針對文本到圖像生成模型領域中的個性化主題驅動模型,出現(xiàn)了一些令人印象深刻的進展,如DreamBooth和BLIP-Diffusion。這些模型普遍存在著對微調的需求較高和參數(shù)規(guī)模龐大的限制。綜合對比實驗結果,DiffuseKronA在視覺質量、文本對齊性、可解釋性、參數(shù)效率和模型穩(wěn)定性等方面均優(yōu)于LoRA-DreamBooth,為T2I生成模型的領域帶來了重大進展。
音樂生成技術一直是一個迷人的領域,將創(chuàng)造力與技術相結合,產生與人類情感共鳴的作品。這個過程涉及生成與通過文本描述傳達的特定主題或情感相符的音樂。盡管在處理長序列方面存在一些局限性,并且受限于16kHz的采樣率,但MusicMagus在風格和音色轉移方面取得了顯著進展,展示了其創(chuàng)新的音樂編輯方法。
新加坡國立大學尤洋教授團隊聯(lián)合其他機構開發(fā)的p-diff擴散模型在AI領域引起熱議。這項模型能以44倍的速度生成神經網(wǎng)絡參數(shù),得到了深度學習領域的重要人物LeCun的點贊。其高效、準確且具有泛化能力的特點將為未來的AI應用提供更多可能性,同時也促進了AI領域知識的共享與交流。
為了使機器具有人類的想象力,深度生成模型取得了重大進展。這些模型能創(chuàng)造逼真的樣本,尤其是擴散模型,在多個領域表現(xiàn)出色。通過整合額外的反饋,豐富了強化學習,從改善了模型的可控條件生成能力。
在最新的研究中,研究人員提出了一種名為FreeControl的方法,可以實現(xiàn)對文本到圖像生成模型的空間控制無需進行訓練。這項研究支持同時控制多個條件、架構和檢查點,為生成過程提供了更大的靈活性。FreeControl有助于對許多不同的架構和檢查點進行方便的免訓練控制,允許大多數(shù)現(xiàn)有免訓練方法失敗的具有挑戰(zhàn)性的輸入條件,并通過基于訓練的方法實現(xiàn)有競爭力的合成質量。
谷歌研究人員推出了創(chuàng)新性文本生成視頻模型——Lumiere。與傳統(tǒng)模型不同的是,Lumiere采用了一種時空擴散U-Net架構,可以在單次推理中生成整個視頻的所有時間段,能明顯增強生成視頻的動作連貫性,并大幅度提升時間的一致性。這種整合過程考慮了時間窗口之間的關聯(lián)性,保證了視頻生成的連貫性和視覺一致性。
想要AI生成更長的視頻?現(xiàn)在,有人提出了一個效果很不錯的免調優(yōu)方法,直接就能作用于預訓練好的視頻擴散模型。它最長可支持512幀。畢業(yè)后曾在UC伯克利做博士后、港中文擔任四年研究員。
高質量的3D內容對于AR/VR、機器人技術、電影和游戲等應用至關重要。紋理的創(chuàng)作一直是視覺和圖形領域的挑戰(zhàn)之一。通過對Dreambooth、ControlNet和分數(shù)蒸餾等關鍵技術的綜合應用,TextureDreamer展現(xiàn)了在圖像引導紋理合成領域的卓越性能。
過去一年擴散模型風頭正勁,徹底改變了文生圖領域!那么,擴散模型能否處理視覺感知任務?字節(jié)跳動和復旦大學技術團隊在最新研究中提出了一個簡單有效的方案。擴散模型在生成高清晰度圖像方面顯示出了卓越的能力,這一成就得益于其在大規(guī)模圖像-文本對上的預訓練。隨著技術的進步,這些方法可能會進一步完善。
【新智元導讀】谷歌全新視頻生成模型VideoPoet再次引領世界!十秒超長視頻生成效果碾壓Gen-2可進行音頻生成,風格轉化。AI視頻生成,或許就是2024年下一個最前沿的領域。對于未來的研究方向,谷歌研究人員表示,VideoPoet框架將會實現(xiàn)「any-to-any」的生成,比如擴展文本到音頻、音頻到視頻,以及視頻字幕等等。
DreamTalk是一個由清華大學、阿里巴巴和華中科大共同開發(fā)的基于擴散模型的框架,可以讓人物頭像說話、唱歌并保持嘴唇的同步和模仿表情變化。項目地址:https://dreamtalk-project.github.io/這一框架具有以下特點:DreamTalk能夠生成高質量的動畫,使人物臉部動作看起來非常真實。DreamTalk是一個具有創(chuàng)新技術的框架,能夠為人物頭像賦予說話和表情的能力,為多種領域帶來更加生動和豐
為了用更少的算力讓擴散模型生成高分辨率圖像,注意力機制可以不要,這是康奈爾大學和蘋果的一項最新研究所給出的結論。注意力機制是Transformer架構的核心組件,對于高質量的文本、圖像生成都至關重要。對于這個任務,最佳GAN模型在模型類別上勝過擴散模型。
在手機等移動端側運行StableDiffusion等文生圖生成式AI大模型已經成為業(yè)界追逐的熱點之一,其中生成速度是主要的制約因素。來自谷歌的一篇論文「MobileDiffusion:SubsecondText-to-ImageGenerationonMobileDevices」,提出了手機端最快文生圖,在iPhone15Pro上只要0.2秒。我們相信這將會對今后高效的擴散模型設計產生影響,并拓展移動端應用實例。
AI畫的瑪麗蓮·夢露,倒轉180°后,竟然變成了愛因斯坦?!這是最近在社交媒體上爆火的擴散模型視錯覺畫,隨便給AI兩組不同的提示詞,它都能給你畫出來!哪怕是截然不同的對象也可以,例如一位男子,經過反色處理,就神奇地轉變成一名女子:就連單詞也能被翻轉出新效果,happy和holiday只在一旋轉間:原來,這是來自密歇根大學的一項“視覺字謎”新研究,論文一發(fā)出就在HackerN
GoogleDeepMind昨天發(fā)布的一項研究展示了一項引人注目的技術,盡管其中的技術細節(jié)可能需要深入理解,但總體來說,通過一系列操作,可以以無監(jiān)督的方式精準控制擴散模型,從實現(xiàn)風格和內容的分離,以及合成物品的3D視圖等功能。論文地址:https://soda-diffusion.github.io/這項研究介紹了一種名為SODA的自監(jiān)督擴散模型,專門用于表示學習。這項研究為深度學習領域的發(fā)展提供了新的思路和可能性。
擴散模型的出現(xiàn)推動了文本生成視頻技術的發(fā)展,但這類方法的計算成本通常不菲,并且往往難以制作連貫的物體運動視頻。為了解決這些問題,來自中國科學院深圳先進技術研究院、中國科學院大學和VIVOAILab的研究者聯(lián)合提出了一個無需訓練的文本生成視頻新框架——GPT4Motion。感興趣的讀者可以閱讀論文原文,了解更多研究內容。
在文本到音樂合成領域,生成內容的質量一直在提高,但對音樂方面的可控性仍未得到探索。新加坡科技與設計大學和倫敦瑪麗女王大學的研究人員提出了一個名為Mustango的解決方案,它擴展了Tango文本到音頻模型,旨在通過豐富的說明來控制生成的音樂,這些說明包含與和弦、節(jié)拍、速度和鍵相關的具體指令。研究人員發(fā)布了MusicBench數(shù)據(jù)集,為未來的文本到音樂合成研究提供了資源。
擴散模型在視覺創(chuàng)作領域的應用不斷增加,但是生成速度一直是一個問題。隨著技術的進步,UFOGen模型的出現(xiàn)解決了這個問題,它只需要一步就能生成高質量的圖片。UFOGen模型通過使用帶條件的GAN來模擬降噪分布,取較大的降噪步長來減少步數(shù),從提高了生成速度。
生成式AI模型的新范式要來了。UC伯克利谷歌提出冪等生成網(wǎng)絡,只需單步即可生圖。最新研究的代碼,未來將在GitHub上公開。
Google的研究團隊提出了一種名為E3TTS的簡便端到端擴散式文本到語音模型。該模型通過擴散模型保留時間結構,能夠直接接受純文本輸入并生成音頻波形。它簡化了端到端TTS系統(tǒng)的設計,經過實驗證明具有出色的性能。
人工智能在文本到圖像生成領域取得了顯著進展。將書面描述轉化為視覺表現(xiàn)具有廣泛的應用,從創(chuàng)作內容到幫助盲人和講故事。他們還將訓練好的CommonCanvas模型、CC照片、人工標題和CommonCatalog數(shù)據(jù)集免費提供在GitHub上,以鼓勵更多的合作和研究。
蘋果最近推出了一款新的高分辨率圖像生成模型,名為俄羅斯套娃式擴散模型,這標志著在生成式AI領域的重要突破。高分辨率圖像生成一直是一個具有挑戰(zhàn)性的任務,因為要處理大量的輸入信息,需要深層架構和復雜的注意力機制。這一技術的發(fā)布將有望推動生成式AI領域的發(fā)展。
蘋果的一項最新研究,大幅提高了擴散模型在高分辨率圖像上性能。利用這種方法,同樣分辨率的圖像,訓練步數(shù)減少了超過七成。關于CFG參數(shù)的選擇,則是一個多次測試后再FID和CLIP之間權衡的結果。
卡內基梅隆大學和GoogleDeepMind的研究人員引入了一種突破性的方法,稱為"AlignProp"。該方法利用直接反向傳播來微調文本到圖像擴散模型,解決了將這些模型與所需的獎勵功能對齊的挑戰(zhàn)。未來的研究方向未來,研究人員可以探索將AlignProp的原則擴展到基于擴散的語言模型,以增強其與人類反饋的一致性。
文本到圖像生成模型如DALLE2、Imagen和StableDiffusion的發(fā)展,開啟了逼真圖像合成的新時代。這不僅對圖片編輯、視頻制作、3D素材創(chuàng)建等領域產生了深遠影響為研究社區(qū)和企業(yè)提供了許多下游應用的機會??刂乒δ?PIXART-α還提供了控制功能,允許用戶生成定制圖像,精確修改物體顏色等,以滿足特定需求。