EMO同款？微軟發(fā)布對口型軟件VASA-1 圖片加語音即可生成逼真說話視頻

2024-04-18 09:38 · 稿源：站長之家

站長之家（ChinaZ.com）4月18日消息:由微軟亞洲研究院開發(fā)的VASA-1項目，是一項前沿的人工智能技術，它能夠?qū)我混o態(tài)圖像和一段語音音頻轉(zhuǎn)換為逼真的對話面部動畫。這項技術不僅能夠?qū)崿F(xiàn)音頻與唇部動作的精確同步，還能夠捕捉并再現(xiàn)豐富的面部表情和自然的頭部動作，極大地增強了生成視頻的真實感和生動性。

QQ截圖20240418093835.png

主要功能與特點:

逼真的面部動畫: VASA-1可以根據(jù)一段語音音頻和單一靜態(tài)圖像生成逼真的對話面部視頻，包括精確的唇部運動同步和復雜的面部表情及頭部動作。

高度自然的頭部動作: VASA-1能夠生成包括點頭和轉(zhuǎn)頭在內(nèi)的自然頭部運動，這些都是人類交流中常見的非語言行為。

實時視頻生成: 利用NVIDIA RTX4090GPU，VASA-1能夠?qū)崿F(xiàn)高性能的視頻生成。它支持在離線模式下以45fps生成512×512分辨率的視頻，以及在線流模式下的40fps生成速度，前置延遲僅為170毫秒，適合實時應用。

泛化能力: 模型展現(xiàn)出強大的適應能力，即使面對與訓練數(shù)據(jù)不同的音頻或圖像，如不同的語言或非常規(guī)的藝術照片，也能夠有效工作。

支持多種語言: VASA-1不僅支持中文，還能處理多種語言的語音輸入，甚至能夠生成唱歌的動畫。

解耦能力: 模型能夠獨立處理和控制人臉的不同動態(tài)特征，如嘴唇運動、表情、眼睛注視方向等，提供了高度的解耦和可控性。

生成的可控性: 通過引入條件信號，如眼睛注視方向、頭部距離和情緒偏移，VASA-1增強了視頻生成的可控性，允許更精細的調(diào)整和個性化的動畫輸出。

技術原理:

VASA-1項目利用了一系列先進的計算機視覺和機器學習技術，包括面部潛在空間構建、數(shù)據(jù)集處理、3D輔助表征、整體面部動態(tài)和頭部動作生成、音頻條件化的生成控制、以及實時生成支持等。這些技術的應用使得VASA-1能夠生成與音頻高度同步的、具有豐富表情和動作的逼真面部動畫。

案例與資源:

微軟亞洲研究院提供了VASA-1的項目演示和相關論文，以供有興趣的研究人員和開發(fā)者進一步探索和學習。所有在演示中使用的肖像圖像，除了蒙娜麗莎外，都是由StyleGAN2或DALL-E-3生成的虛擬、不存在的身份圖像。

項目地址：https://top.aibase.com/tool/vasa-1

論文地址：https://arxiv.org/abs/2404.10667

（舉報）

相關推薦
大家在看

關鍵詞：

【騰訊云】11.11云上盛惠！云服務器首年1.8折起，買1年送3個月！

11.11云上盛惠！海量產(chǎn)品 · 輕松上云！云服務器首年1.8折起，買1年送3個月！超值優(yōu)惠，性能穩(wěn)定，讓您的云端之旅更加暢享?？靵眚v訊云選購吧！

Docker容器鏡像
去看看

Docker容器鏡像 60元/15天

爆款產(chǎn)品組合購
去看看

爆款產(chǎn)品組合購低至1元

騰訊云x NVIDIA加速計劃
去看看

騰訊云x NVIDIA加速計劃最高獲贈10萬元扶持基金

2核2G云服務器
去看看

2核2G云服務器 112元/1年

查看更多相關信息>>

騰訊云 12-20

廣告
中原小岳岳承認對口型并道歉：將繼續(xù)學習開發(fā)新技能

一位名為“中原小岳岳”的主播因其模仿著名相聲演員岳云鵬在網(wǎng)絡上走紅。這位主播不僅在外貌上與岳云鵬相似穿著岳云鵬標志性的紅色長袍，更以其相似的音色在視頻中對口型，讓人難以分辨。他承認對口型的事實，并表示將繼續(xù)學習，開發(fā)新的技能。

?中原小岳岳 ?岳云鵬 ?網(wǎng)絡紅人
薦AI日報：阿里開源文檔模型DocOwl 1.5；Midjourney圖像編輯器新功能下周上線；Viggle AI推對口型功能

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、表格、圖表統(tǒng)統(tǒng)拿下!阿里達摩院開源DocOwl1.5無需OCR，高效“讀懂”文檔!阿里巴巴達摩院與中國人民大學聯(lián)合開源了mPLUG-DocOwl1.5文檔處理模型，無需OCR即可理解文檔內(nèi)容，在多個視覺文檔理解基準測試中表現(xiàn)領先。本次新增備案名單中包括快手科技公司的可靈AI和昆侖萬維科技股份有限公司的天工圖像。

?DocOwl1.5
后悔藥來了！微信公眾號支持改標題/視頻/圖片/正文

微信派在公眾號發(fā)文表示，微信公眾號有5處支持修改，具體如下：1、封面能改每篇僅支持修改1次，在公眾號后臺，點擊文章右側(cè)改點擊封面進行裁剪或者替換確定提交，修改后的新封面將在賬號主頁和新轉(zhuǎn)發(fā)卡片中生效。2、標題能改每篇最多支持修改3個字，在公眾號后臺，點擊文章右側(cè)改點擊標題出現(xiàn)綠色光標點擊修改或者刪除確定提交。每篇推文只有一次機會，支持同時修改封面、標題、視頻、圖片和正文，家人們且用且珍惜。

?微信公眾號修改 ?封面更換 ?標題修改
Meta發(fā)布AI視頻生成器Movie Gen：一鍵生成高清視頻

Meta公司發(fā)布了其最新的AI視頻生成器MovieGen，這是一款能夠自動生成包含聲音的高清視頻的創(chuàng)新工具，為影視、廣告、動漫等多個領域帶來了全新的可能性。MovieGen憑借前沿的AI技術，只需用戶提供的文本提示或圖片，即可迅速生成高質(zhì)量的視頻內(nèi)容。MovieGen正處于測試階段，Meta公司計劃在未來幾個月內(nèi)逐步擴大試用范圍，讓更多用戶能夠體驗到這款創(chuàng)新工具帶來的便捷與樂趣。

?AI視頻生成 ?Meta公司 ?Movie
榮耀首發(fā)全棧Vulkan圖形引擎：10萬張圖片下劃絲毫不卡

榮耀今日在MagicOS9.0發(fā)布會上正式首發(fā)全棧Vulkan圖形引擎。在圖形引擎的加持下，MagicOS9.0系統(tǒng)支持大屏瀏覽、小窗視頻。榮耀MagicOS9.0的動效帶來巨大提升，支持咔嗒動效、按壓沖量、一鏡到底、動態(tài)模糊、并行響應等，150多種場景動畫重繪，帶來優(yōu)異的流暢體驗。

?榮耀 ?MagicOS ?9.0
CEMOY澳詩茉：已報警

“人紅是非多”，這句話似乎也應驗在當下化妝品行業(yè)黑馬CEMOY澳詩茉身上。長期在賈乃亮、朱梓驍?shù)让餍侵鞑ブ辈ラg熱賣的澳洲國民護膚品牌CEMOY身陷“虛假宣傳”的輿論漩渦。注：本文系用戶投稿內(nèi)容，不代表本站觀點，若您有任何疑問，可聯(lián)系本站處理。

?虛假宣傳 ?CEMOY ?護膚品
華為回應升級鴻蒙NEXT后隱藏相冊照片丟失：10月修復圖片沒丟！

華為純血鴻蒙HarmonyOSNEXT目前已開啟公測，首批公測機型為華為Mate60系列、華為MateX5系列、華為MatePadPro13.2英寸系列。華為官方針對部分用戶升級至HarmonyOSNEXT后出現(xiàn)隱藏相冊圖片丟失”的問題進行了解答。有業(yè)內(nèi)人士認為，隨著純血鴻蒙開啟公測以及微信開啟內(nèi)測邀請，鴻蒙生態(tài)正加速邁向全面商用的新征程。

?華為 ?HarmonyOS ?NEXT
旗艦功能普及！華為nova 13全系支持北斗衛(wèi)星圖片消息

華為nova13系列今日正式官宣，預計在10月22日召開原生鴻蒙之夜暨華為全場景新品發(fā)布會”上正式登場。從海報可知，新機采用斜向格紋后蓋設計，支持前后多焦段人像，AI修圖、北斗衛(wèi)星圖片消息。nova13系列預計將配備全新麒麟處理器，高配版搭載麒麟9010處理器，GPU則是麒麟9000S同款的Maleoon910。

?華為nova ?13 ?鴻蒙系統(tǒng)
薦AI日報：復旦、百度新模型可生成1小時長視頻；全新ChatGPT Windows版本上線；NotebookLM又上2個新功能

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、面向付費用戶!全新ChatGPTWindows版本上線:快捷鍵即可召喚AI助手OpenAI推出了全新的ChatGPTWindows應用早期版，為付費用戶提供便捷的AI助手體驗。營收主要來自Robotaxi業(yè)務，2024年上半年同比增長86%。

?Hallo2
薦美圖Vmake進榜，訪問量200w+華人產(chǎn)品再添2個 | AI圖片應用出海洞察

并做榜單深度解讀和產(chǎn)品洞察，來長期追蹤全球AIGC應用的迭代方向，以及在AI浪潮下，中國廠商/華人團隊在圖片與視頻2個視覺相關垂直賽道的探索和創(chuàng)新應用。)本篇發(fā)布的榜單為第2期2024年8月AI圖片web榜。另外榜單中如有產(chǎn)品遺漏、錯誤或其他不足之處，也歡迎讀者在評論區(qū)指出或者加微交流。

?Vmake ?美圖

URL Parser Online:在線URL解析器，將URL轉(zhuǎn)換為適合大型語言模型的輸入格式。

URL Parser Online是一個在線工具，它能夠?qū)碗s的URL轉(zhuǎn)換為適合大型語言模型（LLMs）使用的輸入格式。這項技術的重要性在于它能夠幫助開發(fā)者和研究人員更有效地處理和解析URL數(shù)據(jù)，尤其是在進行網(wǎng)頁內(nèi)容分析和數(shù)據(jù)抽取時。產(chǎn)品背景信息顯示，隨著互聯(lián)網(wǎng)數(shù)據(jù)量的爆炸式增長，對URL的解析和處理需求日益增加。URL Parser Online以其簡潔的用戶界面和高效的解析能力，為用戶提供了一個便捷的解決方案。該產(chǎn)品目前提供免費服務，定位于開發(fā)者和數(shù)據(jù)分析師。

URL解析數(shù)據(jù)抽取大型語言模型

AI Summarizer:全能AI摘要生成器，快速生成文本、PDF、視頻摘要。

AI Summarizer是一個強大的AI摘要生成器，支持文本、PDF、視頻等多種格式的摘要生成。它通過先進的算法提取關鍵信息，幫助用戶快速理解內(nèi)容要點，提升工作和學習效率。產(chǎn)品支持超過50種語言，保障用戶隱私，不存儲任何上傳文件，并提供免費的Chrome擴展插件，方便用戶隨時隨地使用。

摘要 AI 生產(chǎn)力

Transcribro:Android平臺上的私有、設備端語音識別鍵盤和文字服務

Transcribro是一款運行在Android平臺上的私有、設備端語音識別鍵盤和文字服務應用，它使用whisper.cpp來運行OpenAI Whisper系列模型，并結合Silero VAD進行語音活動檢測。該應用提供了語音輸入鍵盤，允許用戶通過語音進行文字輸入，并且可以被其他應用顯式使用，或者設置為用戶選擇的語音轉(zhuǎn)文字應用，部分應用可能會使用它來進行語音轉(zhuǎn)文字。Transcribro的背景是為用戶提供一種更安全、更私密的語音轉(zhuǎn)文字解決方案，避免了云端處理可能帶來的隱私泄露問題。該應用是開源的，用戶可以自由地查看、修改和分發(fā)代碼。

Android 語音識別鍵盤

Oasis:基于Transformer的實時開放世界AI模型

Oasis是由Decart AI開發(fā)的首個可玩、實時、開放世界的AI模型，它是一個互動視頻游戲，由Transformer端到端生成，基于逐幀生成。Oasis能夠接收用戶鍵盤和鼠標輸入，實時生成游戲玩法，內(nèi)部模擬物理、游戲規(guī)則和圖形。該模型通過直接觀察游戲玩法學習，允許用戶移動、跳躍、拾取物品、破壞方塊等。Oasis被視為研究更復雜交互世界的基礎模型的第一步，未來可能取代傳統(tǒng)的游戲引擎。Oasis的實現(xiàn)需要模型架構的改進和模型推理技術的突破，以實現(xiàn)用戶與模型的實時交互。Decart AI采用了最新的擴散訓練和Transformer模型方法，并結合了大型語言模型（LLMs）來訓練一個自回歸模型，該模型可以根據(jù)用戶即時動作生成視頻。此外，Decart AI還開發(fā)了專有的推理框架，以提供NVIDIA H100 Tensor Core GPU的峰值利用率，并支持Etched即將推出的Sohu芯片。

AI Transformer 實時互動

三頓智能助手:多功能AI助手，提供問答、寫作、繪圖等智能服務。

三頓智能助手是一個集成了多種AI功能的在線平臺，它通過提供問答、寫作、繪圖等多種服務，幫助用戶提高工作效率和創(chuàng)造力。該產(chǎn)品以其強大的AI技術背景和用戶友好的界面，為用戶提供了一個便捷的智能服務入口。價格方面，三頓智能助手提供免費試用，同時也提供付費服務以解鎖更多功能。

AI 智能助手問答

Light Novels:AI驅(qū)動的輕小說閱讀平臺，提供個性化推薦和翻譯

Explore Light Novels是一個AI驅(qū)動的輕小說閱讀平臺，旨在通過人工智能技術打破語言障礙，為全球讀者提供沉浸式的輕小說閱讀體驗。平臺擁有數(shù)千部流行輕小說，并提供AI驅(qū)動的個性化推薦，每日更新新章節(jié)和根據(jù)讀者偏好定制的新鮮內(nèi)容。此外，平臺還提供AI生成的文化背景注釋，幫助讀者深入了解故事背景，并通過AI推薦系統(tǒng)學習用戶的輕小說偏好，推薦新作者和故事。平臺還設有AI主持的全球社區(qū)討論，以及AI生成的每日內(nèi)容，確保讀者總有新鮮內(nèi)容可讀。

AI翻譯個性化推薦跨文化交流

SDXL_EcomID_ComfyUI:ComfyUI的EcomID原生支持插件

SDXL_EcomID_ComfyUI是一個為ComfyUI提供原生SDXL-EcomID支持的插件。它通過增強肖像表示，提供更真實、審美上更令人愉悅的外觀，同時確保語義一致性和更大的內(nèi)部ID相似性。這個插件完全集成于ComfyUI，并且不使用diffusers，而是本地實現(xiàn)EcomID。它的重要性在于能夠提升圖像生成的質(zhì)量和一致性，特別是在處理人物肖像時，能夠保持不同年齡、發(fā)型、眼鏡等物理變化下的內(nèi)部特征一致性。

EcomID ComfyUI 圖像生成

Promega:通過ChatGPT加速制造、銷售和市場營銷。

Promega是一家在生命科學領域領先的公司，提供用于研究和應用技術的開創(chuàng)性生物試劑和集成系統(tǒng)。Promega通過自上而下地采用ChatGPT，幫助員工更高效地管理數(shù)千種產(chǎn)品和超過60,000個賬戶，從而加速產(chǎn)品交付到生物技術生態(tài)系統(tǒng)。ChatGPT的使用不僅提高了工作效率，還增強了客戶關系，并在制造、銷售和市場營銷等多個領域發(fā)揮了重要作用。

ChatGPT AI 生命科學

Excerptor:從實體書籍中提取劃線或手寫標記的文本

Excerptor是一個專門設計來從實體書籍中提取劃線或手寫標記文本的工具。它通過圖像處理和光學字符識別技術，將書籍中的標記文本轉(zhuǎn)換為數(shù)字格式，方便用戶編輯和保存。這項技術的重要性在于它能夠幫助用戶快速從大量書籍中提取關鍵信息，提高研究和學習的效率。Excerptor以其高效、準確的文本識別能力和用戶友好的操作界面，滿足了學術研究、教育和個人學習等不同領域的需求。目前，Excerptor是免費提供給用戶的，它的開發(fā)和維護由開源社區(qū)負責。

文本識別 OCR 圖像處理

Spafe Code:AI代碼翻譯器

Spafe Code是一個利用人工智能技術實現(xiàn)代碼翻譯的平臺，它能夠?qū)⒋a從一種編程語言翻譯成另一種編程語言。這項技術的重要性在于它能夠幫助開發(fā)者跨越語言障礙，提高代碼的可讀性和可維護性，促進全球開發(fā)者之間的協(xié)作。Spafe Code以其高效的翻譯能力、易用性和對多種編程語言的支持而受到開發(fā)者的歡迎。目前，Spafe Code提供免費試用，具體價格和定位信息需要進一步查詢。

代碼翻譯人工智能開發(fā)者工具

Browser AI Kit:在瀏覽器中直接運行的AI工具箱

Browser AI Kit是一個集成了多種AI工具的平臺，用戶可以在瀏覽器中直接使用這些工具，無需安裝或設置。它提供了音頻轉(zhuǎn)文本、去除背景、文本轉(zhuǎn)語音等多種功能，并且完全免費。這個工具箱基于Transformers.js開發(fā)，強調(diào)數(shù)據(jù)安全和隱私保護，所有數(shù)據(jù)處理都在本地進行，不上傳任何服務器。它的目標是為用戶提供一個便捷、安全、多功能的AI工具平臺。

AI工具音頻處理圖像編輯

Emotive AI Actors by CreatorKit:視頻廣告中的情感AI演員

Emotive AI Actors by CreatorKit是一個利用人工智能技術創(chuàng)建用戶生成內(nèi)容（UGC）視頻和廣告的平臺。它通過與真實UGC演員和內(nèi)容策略師合作訓練AI，使得用戶能夠快速創(chuàng)建出具有真實情感反應的視頻廣告。這個產(chǎn)品的重要性在于它能夠以更低的成本、更快的速度和更好的性能來替代傳統(tǒng)的視頻制作方式，同時提供可擴展的解決方案，允許用戶在幾分鐘內(nèi)創(chuàng)建出100個視頻廣告。AI Actors的主要優(yōu)點包括成本效益、快速制作、性能優(yōu)越和易于擴展。

AI視頻制作用戶生成內(nèi)容視頻廣告

SELA:通過結合蒙特卡洛樹搜索和基于LLM的代理來增強自動化機器學習。

SELA是一個創(chuàng)新系統(tǒng)，它通過將蒙特卡洛樹搜索(MCTS)與基于大型語言模型(LLM)的代理結合起來，增強了自動化機器學習（AutoML）。傳統(tǒng)的AutoML方法經(jīng)常產(chǎn)生低多樣性和次優(yōu)的代碼，限制了它們在模型選擇和集成方面的有效性。SELA通過將管道配置表示為樹，使代理能夠智能地探索解決方案空間，并根據(jù)實驗反饋迭代改進其策略。

自動化機器學習蒙特卡洛樹搜索大型語言模型

Universal-2:下一代語音AI，提供卓越的音頻數(shù)據(jù)處理能力。

Universal-2是AssemblyAI推出的最新語音識別模型，它在準確度和精確度上超越了前一代Universal-1，能夠更好地捕捉人類語言的復雜性，為用戶提供無需二次檢查的音頻數(shù)據(jù)。這一技術的重要性在于它能夠為產(chǎn)品體驗提供更敏銳的洞察力、更快的工作流程和一流的產(chǎn)品體驗。Universal-2在專有名詞識別、文本格式化和字母數(shù)字識別方面都有顯著提升，減少了實際應用中的詞錯誤率。

語音識別音頻處理 AI模型

Laminar.ai:開源全棧平臺，為打造頂級LLM產(chǎn)品提供支持

Laminar是一個開源的全棧平臺，專注于從第一性原理出發(fā)進行AI工程。它幫助用戶收集、理解和使用數(shù)據(jù)，以提高大型語言模型（LLM）應用的質(zhì)量。Laminar支持對文本和圖像模型的追蹤，并且即將支持音頻模型。產(chǎn)品的主要優(yōu)點包括零開銷的可觀測性、在線評估、數(shù)據(jù)集構建和LLM鏈管理。Laminar完全開源，易于自托管，適合需要構建和管理LLM產(chǎn)品的開發(fā)者和團隊。

AI工程 LLM 數(shù)據(jù)追蹤

HOVER:人形機器人多功能神經(jīng)全身控制器

HOVER是一個針對人形機器人的多功能神經(jīng)全身控制器，它通過模仿全身運動來提供通用的運動技能，學習多種全身控制模式。HOVER通過多模式策略蒸餾框架將不同的控制模式整合到一個統(tǒng)一的策略中，實現(xiàn)了在不同控制模式之間的無縫切換，同時保留了每種模式的獨特優(yōu)勢。這種控制器提高了人形機器人在多種模式下的控制效率和靈活性，為未來的機器人應用提供了一個健壯且可擴展的解決方案。

人形機器人神經(jīng)網(wǎng)絡全身控制

LinkedIn Hiring Assistant:LinkedIn招聘助手，助力招聘流程自動化。

Hiring Assistant for Recruiter & Jobs是LinkedIn推出的一款AI助手，旨在幫助招聘人員自動化執(zhí)行耗時的任務，從而讓他們專注于更有影響力的、以人為中心的工作部分。這款產(chǎn)品代表了LinkedIn在利用人工智能技術優(yōu)化招聘流程方面邁出的重要一步，它通過自動構建候選人管道、篩選頂級申請者、起草外展郵件甚至回答有關角色的基本問題來減輕招聘人員的工作負擔。產(chǎn)品背景信息顯示，LinkedIn一直致力于通過AI技術提升用戶體驗，而Hiring Assistant的推出進一步強化了這一點。產(chǎn)品定位于幫助招聘人員提高效率，同時保持對招聘過程的完全控制。

招聘 AI助手自動化

Fable:AI驅(qū)動的交互式產(chǎn)品演示軟件

Fable是一款AI驅(qū)動的交互式產(chǎn)品演示軟件，旨在幫助企業(yè)通過創(chuàng)建高轉(zhuǎn)化率的產(chǎn)品演示來吸引潛在客戶、完成交易并簡化產(chǎn)品上線流程。Fable通過其AI技術，允許用戶輕松創(chuàng)建個性化的演示，這些演示可以嵌入網(wǎng)站、通過電子郵件發(fā)送或添加到幫助中心。產(chǎn)品背景信息顯示，F(xiàn)able在G2上獲得了4.9的高評分，并被全球各地的GTM團隊所信賴。Fable的價格定位是免費試用和付費，適合需要提高銷售轉(zhuǎn)化率和客戶滿意度的商業(yè)團隊。

AI演示產(chǎn)品演示客戶轉(zhuǎn)化

Trieve:AI優(yōu)先的基礎設施API，提供搜索、推薦和RAG服務

Trieve是一個AI優(yōu)先的基礎設施API，結合了語言模型和工具，用于微調(diào)排名和相關性，提供一站式的搜索、推薦、RAG和分析解決方案。它能夠自動持續(xù)改進，基于數(shù)十個反饋信號，確保相關性。Trieve支持語義向量搜索、BM25和SPlade全文搜索，以及混合搜索，結合全文搜索和語義向量搜索。此外，它還提供了商品推銷和相關性調(diào)整功能，幫助用戶通過API或無代碼儀表板調(diào)整搜索結果以實現(xiàn)KPI。Trieve建立在最佳基礎之上，使用開源嵌入模型和LLMs，運行在自己的服務器上，確保數(shù)據(jù)安全。

搜索推薦 RAG

Open Source AI Definition:開源人工智能定義，推動AI領域的開放與合作

Open Source AI Definition（OSAID）是由Open Source Initiative（OSI）發(fā)布的行業(yè)首個開源人工智能定義。它提供了一個標準，通過社區(qū)領導的開放和公共評估來驗證一個AI系統(tǒng)是否可以被認為是開源AI。OSAID v1.0的發(fā)布是多年研究和合作的結果，經(jīng)過國際研討會和為期一年的共同設計過程。這個定義要求開源模型提供足夠的訓練數(shù)據(jù)信息，以便熟練的人可以使用相同或類似的數(shù)據(jù)重建一個大致等效的系統(tǒng)。OSAID的發(fā)布對于推動AI領域的開放性、透明度和合作具有重要意義，它強調(diào)了開源原則在AI發(fā)展中的核心地位，并為獨立機器學習研究人員和大型AI開發(fā)者之間的透明度提供了支持。

EMO同款？微軟發(fā)布對口型軟件VASA-1 圖片加語音即可生成逼真說話視頻

今日大家都在搜的詞：

熱文

站長商機

EMO同款？微軟發(fā)布對口型軟件VASA-1 圖片加語音即可生成逼真說話視頻