幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關(guān)鍵詞  > OpenAI最新資訊  > 正文

剛剛,OpenAI發(fā)布sCM提升50倍效率,擴散模型重大技術(shù)突破!

2024-10-24 08:42 · 稿源: ? AIGC開放社區(qū)公眾號

聲明:本文來自于微信公眾號AIGC開放社區(qū),授權(quán)站長之家轉(zhuǎn)載發(fā)布。

今天凌晨,OpenAI發(fā)布了全新擴散模型方法sCM,僅需2步就能生成高質(zhì)量圖片、3D模型等實現(xiàn)50倍時鐘加速,尤其是在高分辨率任務(wù)上相當出色。

例如,通過sCM訓練了一個15億參數(shù)的模型,在單個A100GPU上無需任何推理優(yōu)化0.11秒內(nèi)就能生成內(nèi)容。

目前,擴散模型生成圖片最快的是Stability AI開源的SD快速版本,4步就能生成高質(zhì)量圖片。而Scm在保證質(zhì)量的前提下又將推理效率提升了1倍,同時簡化了連續(xù)時間一致性模型的理論公式,允許模型在更大數(shù)據(jù)集上進行穩(wěn)定的訓練和擴展。

圖片

sCM的核心原理是基于一致性模型思路,通過直接將噪聲轉(zhuǎn)換為無噪聲樣本來生成數(shù)據(jù)。在傳統(tǒng)擴散模型中,數(shù)據(jù)生成過程被視作一條從噪聲到數(shù)據(jù)的漸進路徑,每一步都通過去噪來逐漸恢復(fù)數(shù)據(jù)的清晰度。

一致性模型則恰恰相反,可找到一條更直接的路徑,在單步或少數(shù)幾步內(nèi)直接從噪聲狀態(tài)跳躍到數(shù)據(jù)狀態(tài)。

sCM采用了連續(xù)時間框架,使得模型在理論上可以在連續(xù)的時間軸上進行操作,從而避免了離散時間模型中的離散化誤差。在連續(xù)時間于一致性模型中,模型的參數(shù)化、擴散過程和訓練目標都被重新定義,以適應(yīng)連續(xù)時間的設(shè)置。

圖片

例如,模型的參數(shù)化不再依賴于離散的時間步,而是直接依賴于時間本身。這種連續(xù)時間的參數(shù)化方式使得模型能夠更精確地捕捉數(shù)據(jù)生成過程中的動態(tài)變化。

在網(wǎng)絡(luò)架構(gòu)方面,sCM引入了改進的時間條件、自適應(yīng)組歸一化、新的激活函數(shù)和自適應(yīng)權(quán)重,以提高模型的訓練穩(wěn)定性和生成質(zhì)量。改進的時間條件使得模型能夠更準確地感知時間t的變化,從而在生成過程中做出更合理的決策。

自適應(yīng)組歸一化則有助于模型在訓練過程中保持內(nèi)部特征的穩(wěn)定性,減少訓練過程中的噪聲干擾。新的激活函數(shù)被引入以增強模型的非線性表達能力,使得模型能夠更好地學習復(fù)雜的數(shù)據(jù)分布。

而自適應(yīng)權(quán)重的引入允許模型根據(jù)訓練數(shù)據(jù)的分布動態(tài)調(diào)整損失函數(shù)中的權(quán)重,從而減少了不同時間步長之間的損失方差。

圖片

為了評估sCM的性能,研究人員在CIFAR-10、ImageNet64×64和ImageNet512×512多個數(shù)據(jù)集上進行了綜合評測。結(jié)果顯示,sCM成為目前最高效的擴散生成方法。

例如,在ImageNet512×512數(shù)據(jù)集上,sCM的模型達到了1.88FID,同時使用的算力更少、更高效。

有網(wǎng)友表示,如果把這個方法用在視頻領(lǐng)域,那實時視頻可能很快會到來。Sora的推理負擔也會降低很多。

圖片

很高興又看到OpenAI分享技術(shù)論文了。

圖片

如果把這個技術(shù)用在Sora,它應(yīng)該快公測了吧?

圖片

這種簡化的模型非常適合需要快速結(jié)果而不影響質(zhì)量的應(yīng)用!

圖片

這個模型相當有前途啊。

圖片

2步就能生成內(nèi)容,這會再一次改變游戲規(guī)則啊。

圖片

把這個技術(shù)用在Sora,應(yīng)該就快來了吧?

圖片

目前,OpenAI已經(jīng)分享了該論文方法,是由兩位華人提出來的。

論文地址:https://arxiv.org/abs/2410.11081

舉報

  • 相關(guān)推薦
  • 大家在看
  • InkSight:手寫筆記數(shù)字化模型,無需專業(yè)設(shè)備

    InkSight是一個由Google Research開發(fā)的模型,旨在將手寫筆記的照片轉(zhuǎn)換成數(shù)字格式,精確還原書寫筆跡,無需任何專業(yè)設(shè)備。這項技術(shù)的重要性在于它能夠?qū)鹘y(tǒng)的手寫筆記轉(zhuǎn)換為可編輯、可索引的數(shù)字形式,同時保留了手寫的風格和感覺。InkSight通過學習“閱讀”和“寫作”來構(gòu)建對書寫的理解,使其能夠在多種場景下,包括光線條件不佳、遮擋等情況下,都能良好地工作。這種技術(shù)的主要優(yōu)點是它的通用性和對用戶友好性,因為它不需要額外的硬件支持,降低了用戶的入門門檻和成本。

  • NVIDIA Video Search and Summarization:構(gòu)建視頻搜索和摘要代理,提取視頻洞察

    NVIDIA Video Search and Summarization 是一個利用深度學習和人工智能技術(shù),能夠處理大量實時或存檔視頻,并從中提取信息以進行摘要和交互式問答的模型。該產(chǎn)品代表了視頻內(nèi)容分析和處理技術(shù)的最新進展,它通過生成式AI和視頻到文本的技術(shù),為用戶提供了一種全新的視頻內(nèi)容管理和檢索方式。NVIDIA Video Search and Summarization 的主要優(yōu)點包括高效的視頻內(nèi)容分析、準確的摘要生成和交互式問答能力,這些功能對于需要處理大量視頻數(shù)據(jù)的企業(yè)來說至關(guān)重要。產(chǎn)品背景信息顯示,NVIDIA 致力于通過其先進的AI模型,推動視頻內(nèi)容的智能化處理和分析。

  • Analytics Model:即時、可操作的洞察力分析平臺

    Analytics Model是一個AI驅(qū)動的分析平臺,它使每個人都能生成個性化的洞察力,從而實現(xiàn)明智的決策和可操作的結(jié)果。該平臺通過將復(fù)雜數(shù)據(jù)轉(zhuǎn)換為強大的洞察力,賦予企業(yè)和利益相關(guān)者迅速有效地做出戰(zhàn)略決策的能力。它代表了數(shù)據(jù)分析領(lǐng)域的先進技術(shù),以其快速、直觀和強大的數(shù)據(jù)處理能力而著稱,對于需要從大數(shù)據(jù)中快速獲得有價值信息的企業(yè)和專業(yè)人士來說至關(guān)重要。

  • Geniai:AI助力的智能日程安排工具

    Geniai是一個由Teqnological Asia開發(fā)的AI驅(qū)動的日程安排工具,旨在通過智能算法優(yōu)化用戶的時間管理,提高工作效率。它通過與多個參與者協(xié)調(diào)時間,并根據(jù)用戶的時間表提供定制的時間建議,使得安排會議變得更加簡單和高效。Geniai的核心優(yōu)勢在于其能夠減少安排會議時的時間和努力,同時提供個性化的時間建議,幫助用戶更好地管理時間。

  • Crisp 4:全新的站點搜索體驗,提升客戶服務(wù)效率。

    Crisp 4是一個以異步通信為核心的客戶服務(wù)平臺,提供了全新的Inbox、設(shè)計、分析、AI功能和覆蓋搜索小部件。它通過集成AI技術(shù),優(yōu)化了客戶互動的每一個環(huán)節(jié),幫助團隊更清晰、高效地提供客戶服務(wù)。Crisp 4的背景是隨著在線業(yè)務(wù)的增長,企業(yè)需要更智能、更自動化的方式來處理客戶咨詢和支持請求,Crisp 4正是為了滿足這一需求而設(shè)計的。產(chǎn)品定位于中大型企業(yè),提供14天免費試用,之后為付費服務(wù)。

  • MyBaby.help:即時育兒助手,免費試用。

    MyBaby.help是一個基于人工智能的在線育兒助手,提供即時、個性化的育兒指導(dǎo)和建議。它通過用戶共享的信息和寶寶的發(fā)展階段,為用戶提供針對性的答案,幫助解決日常育兒中的疑問和挑戰(zhàn)。產(chǎn)品的主要優(yōu)點包括即時響應(yīng)、個性化服務(wù)、科學依據(jù)的信息提供,以及多語言支持。MyBaby.help適合忙碌的現(xiàn)代父母,特別是首次育兒的家庭,幫助他們更自信、更科學地育兒。產(chǎn)品提供免費試用,并且有不同級別的付費計劃,滿足不同用戶的需求。

  • Face Sticker AI:使用AI將您的面部照片變成面部貼紙

    Face Sticker AI是一個AI驅(qū)動的面部貼紙工具,它通過添加文本提示將用戶的面部圖像轉(zhuǎn)換成奇妙的面部貼紙圖像。該產(chǎn)品利用先進的面部識別技術(shù)和自然語言處理技術(shù),確保生成的貼紙與原始圖像高度相似,同時保持高清圖像質(zhì)量。Face Sticker AI不僅支持真人照片,還支持動畫角色照片,滿足用戶個性化表達和創(chuàng)造的需求。產(chǎn)品背景信息顯示,F(xiàn)ace Sticker AI旨在提供一個簡單易用的平臺,讓用戶能夠以前所未有的方式探索和創(chuàng)造面部貼紙,釋放創(chuàng)造力。產(chǎn)品定價分為Base、Standard和Pro三個等級,用戶可以根據(jù)自己的需求選擇合適的計劃購買積分。

  • Magentic-One:多智能體系統(tǒng),解決復(fù)雜任務(wù)

    Magentic-One是由微軟研究團隊開發(fā)的一個通用多智能體系統(tǒng),旨在解決開放性網(wǎng)絡(luò)和文件任務(wù)。該系統(tǒng)代表了人工智能領(lǐng)域向代理系統(tǒng)發(fā)展的重要一步,這些系統(tǒng)能夠完成人們在工作和生活中遇到的復(fù)雜多步驟任務(wù)。Magentic-One采用了一個名為Orchestrator的主智能體,負責規(guī)劃、跟蹤進度和在需要時重新規(guī)劃,同時指導(dǎo)其他專門智能體執(zhí)行任務(wù),如操作網(wǎng)絡(luò)瀏覽器、導(dǎo)航本地文件或編寫和執(zhí)行Python代碼。Magentic-One在多個挑戰(zhàn)性的代理基準測試中表現(xiàn)出與最新技術(shù)相媲美的性能,且無需對其核心能力或架構(gòu)進行修改。

  • Confi AI:Slack和Confluence的AI助手,簡化內(nèi)部文檔管理。

    Confi AI是一個專為Slack和Confluence設(shè)計的AI助手,旨在簡化內(nèi)部文檔管理。它通過AI技術(shù),讓用戶能夠直接從Slack獲取文檔信息,提高工作效率。產(chǎn)品背景信息顯示,Confi AI由Lamona Technology開發(fā),支持無代碼快速設(shè)置,提供14天免費試用,并有年付優(yōu)惠。價格方面,提供每月49美元的高級計劃,包括無限文檔、Slack消息和API調(diào)用,每日增量更新等。

  • askrepo:利用LLM讀取源代碼并提供問題解答

    askrepo是一個基于LLM(大型語言模型)的源代碼閱讀工具,它能夠讀取Git管理的文本文件內(nèi)容,發(fā)送至Google Gemini API,并根據(jù)指定的提示提供問題的答案。該產(chǎn)品代表了自然語言處理和機器學習技術(shù)在代碼分析領(lǐng)域的應(yīng)用,其主要優(yōu)點包括能夠理解和解釋代碼的功能,幫助開發(fā)者快速理解新項目或復(fù)雜代碼庫。產(chǎn)品背景信息顯示,askrepo適用于需要深入理解代碼的場景,尤其是在代碼審查和維護階段。該產(chǎn)品是開源的,可以免費使用。

  • Alta.ai:您的強大寫作伙伴

    Alta是一個強大的寫作輔助工具,提供友好易用的用戶界面和基于人工智能的寫作支持。它通過AltaChat聊天機器人幫助用戶克服寫作障礙,將想法轉(zhuǎn)化為內(nèi)容。AltaCopy提供跨平臺內(nèi)容創(chuàng)作的模板和提示,而品牌聲音功能則確保內(nèi)容與用戶的品牌調(diào)性一致。AltaDetect則用于檢查內(nèi)容的原創(chuàng)性和人性化程度。Alta以其易用性、實惠性、高級支持、防抄襲、定制化、模型庫和100%加密等特點,成為專業(yè)人士和領(lǐng)先公司信賴的寫作伙伴。

  • MindOne.app:構(gòu)建AI原生應(yīng)用的平臺

    MindOne是一個AI原生應(yīng)用構(gòu)建平臺,它允許用戶通過簡單的提示和手動編輯來創(chuàng)建交互式應(yīng)用。該平臺提供了一個組件庫和內(nèi)置的設(shè)計系統(tǒng),支持實時預(yù)覽和預(yù)構(gòu)建模塊,以加速產(chǎn)品開發(fā)。MindOne支持與GitHub、Linear、Jira、Salesforce等多種工具集成,實現(xiàn)API、AI和UI的無縫對接。此外,MindOne還提供了白標服務(wù)和基于令牌的設(shè)計系統(tǒng),以實現(xiàn)完全定制化。

  • GameGen-X:生成和交互控制開放世界游戲視頻的擴散變換模型

    GameGen-X是專為生成和交互控制開放世界游戲視頻而設(shè)計的擴散變換模型。該模型通過模擬游戲引擎的多種特性,如創(chuàng)新角色、動態(tài)環(huán)境、復(fù)雜動作和多樣事件,實現(xiàn)了高質(zhì)量、開放領(lǐng)域的視頻生成。此外,它還提供了交互控制能力,能夠根據(jù)當前視頻片段預(yù)測和改變未來內(nèi)容,從而實現(xiàn)游戲玩法模擬。為了實現(xiàn)這一愿景,我們首先從零開始收集并構(gòu)建了一個開放世界視頻游戲數(shù)據(jù)集(OGameData),這是第一個也是最大的開放世界游戲視頻生成和控制數(shù)據(jù)集,包含超過150款游戲的100多萬個多樣化游戲視頻片段,這些片段都配有GPT-4o的信息性字幕。GameGen-X經(jīng)歷了兩階段的訓練過程,包括基礎(chǔ)模型預(yù)訓練和指令調(diào)優(yōu)。首先,模型通過文本到視頻生成和視頻續(xù)集進行預(yù)訓練,賦予了其長序列、高質(zhì)量開放領(lǐng)域游戲視頻生成的能力。進一步,為了實現(xiàn)交互控制能力,我們設(shè)計了InstructNet來整合與游戲相關(guān)的多模態(tài)控制信號專家。這使得模型能夠根據(jù)用戶輸入調(diào)整潛在表示,首次在視頻生成中統(tǒng)一角色交互和場景內(nèi)容控制。在指令調(diào)優(yōu)期間,只有InstructNet被更新,而預(yù)訓練的基礎(chǔ)模型被凍結(jié),使得交互控制能力的整合不會損失生成視頻內(nèi)容的多樣性和質(zhì)量。GameGen-X代表了使用生成模型進行開放世界視頻游戲設(shè)計的一次重大飛躍。它展示了生成模型作為傳統(tǒng)渲染技術(shù)的輔助工具的潛力,有效地將創(chuàng)造性生成與交互能力結(jié)合起來。

  • MobileLLM-1B:Meta 開發(fā)的子十億參數(shù)語言模型,適用于設(shè)備端應(yīng)用。

    Meta 開發(fā)的自回歸語言模型,采用優(yōu)化架構(gòu),適合資源受限設(shè)備。優(yōu)點多,如集成多種技術(shù),支持零樣本推理等,價格免費,面向自然語言處理研究人員和開發(fā)者。

  • LLaMA-O1:大型推理模型框架,支持PyTorch和HuggingFace。

    LLaMA-O1是一個大型推理模型框架,它結(jié)合了蒙特卡洛樹搜索(MCTS)、自我強化學習、PPO等技術(shù),并借鑒了AlphaGo Zero的雙重策略范式以及大型語言模型。該模型主要針對奧林匹克級別的數(shù)學推理問題,提供了一個開放的平臺用于訓練、推理和評估。產(chǎn)品背景信息顯示,這是一個個人實驗項目,與任何第三方組織或機構(gòu)無關(guān)。

  • MobileLLM-600M:高效優(yōu)化的600M參數(shù)語言模型,專為設(shè)備端應(yīng)用設(shè)計。

    MobileLLM-600M是由Meta開發(fā)的自回歸語言模型,采用了優(yōu)化的Transformer架構(gòu),專為資源受限的設(shè)備端應(yīng)用而設(shè)計。該模型集成了SwiGLU激活函數(shù)、深度薄架構(gòu)、嵌入共享和分組查詢注意力等關(guān)鍵技術(shù)。MobileLLM-600M在零樣本常識推理任務(wù)上取得了顯著的性能提升,與之前的125M/350M SoTA模型相比,分別提高了2.7%/4.3%的準確率。該模型的設(shè)計理念可擴展至更大模型,如MobileLLM-1B/1.5B,均取得了SoTA結(jié)果。

  • Xbox Support Virtual Agent:Xbox玩家的AI支持助手

    Support Virtual Agent是一個AI驅(qū)動的功能,旨在幫助Xbox玩家更高效地解決與支持相關(guān)的游戲問題。它能夠快速訪問support.xbox.com上的信息,回答與Xbox游戲和主機支持問題相關(guān)的問題。這一功能的推出,標志著Xbox在提升用戶體驗和提供即時支持方面邁出了重要一步。Support Virtual Agent目前僅對參與Xbox Insider項目的特定用戶開放,并且微軟非常重視這些用戶的反饋,以改進和優(yōu)化產(chǎn)品。

  • O1-Journey:O1復(fù)制之旅:戰(zhàn)略進展報告第一部分

    O1-Journey是由上海交通大學GAIR研究組發(fā)起的一個項目,旨在復(fù)制和重新想象OpenAI的O1模型的能力。該項目提出了“旅程學習”的新訓練范式,并構(gòu)建了首個成功整合搜索和學習在數(shù)學推理中的模型。這個模型通過試錯、糾正、回溯和反思等過程,成為處理復(fù)雜推理任務(wù)的有效方法。

  • OpenHands on Daytona:AI助手,提升編程效率與協(xié)作

    OpenHands結(jié)合Daytona平臺,提供了一個AI編程助手,能夠同時處理多個任務(wù),提高團隊的生產(chǎn)力。它具備集成的工作空間,支持自然語言協(xié)作,并能適應(yīng)企業(yè)需求。Daytona平臺則提供了按需工作空間,支持AI代理的基礎(chǔ)設(shè)施中間件,使得OpenHands能夠在任何基礎(chǔ)設(shè)施上無縫運行。

  • 壹伴:高效排版、修圖、找素材和回消息的微信編輯器

    壹伴是一款專為微信公眾號運營者設(shè)計的瀏覽器插件,集成了排版、修圖、素材搜集、消息回復(fù)等功能,旨在提高運營效率。產(chǎn)品背景基于公眾號運營者對高效工具的需求,主要優(yōu)點包括一鍵排版、AI寫作賦能、數(shù)據(jù)洞察等,價格定位為免費試用和付費會員禮包。

今日大家都在搜的詞:

熱文

  • 3 天
  • 7天