11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
英特爾發(fā)布了新一代人工智能芯片Gaudi3,引發(fā)了業(yè)界的廣泛關注。Gaudi3的性能遠超競爭對手英偉達的H100芯片,成為當前市場上最強大的AI芯片之一。這使得Gaudi3在AI領域的應用中具有出色的表現(xiàn),特別適合處理大規(guī)模的深度學習模型。
美國當?shù)貢r間4月9日,Intel舉辦了一場面向客戶和合作伙伴的IntelVision2024產(chǎn)業(yè)創(chuàng)新大會,做出多項重磅宣布,包括全新的Gaudi3AI加速器,包括全新的至強6品牌,以及涵蓋全新開放、可擴展系統(tǒng),下一代產(chǎn)品和一系列戰(zhàn)略合作的全棧解決方案。預計到2030年,全球半導體市場規(guī)模將達1萬億美元,AI是主要推動力,不過在2023年,只有10%的企業(yè)能夠成功將其AIGC項目產(chǎn)品化。Intel將利用至強處理器、Gaudi加速器,推出AIGC流水線的參考實現(xiàn),發(fā)布技術概念框架,并繼續(xù)加強IntelTiber開發(fā)者云平臺基礎設施的功能。
根據(jù)Databricks的最新研究,英特爾的Gaudi2技術在大規(guī)模語言模型推理方面與業(yè)界領先的英偉達AI加速器相媲美。該研究發(fā)現(xiàn),Gaudi2在解碼方面的延遲與英偉達H100系統(tǒng)相當,并且優(yōu)于英偉達A100。我們的總體策略是提供一系列解決方案。
在今日“讓AI無處不在”的活動上,英特爾CEO帕特?基辛格還首次向公眾揭示了英特爾Gaudi3系列AI加速器,這是一款專為深度學習和大規(guī)模生成人工智能模型設計的工具,計劃明年推出。新一代的Gaudi3AI加速器憑借出色的性能優(yōu)勢和極具競爭力的總體擁有成本及定價,有望在2024年占據(jù)更大的市場份額。它還將配備最高達128GB的HBM3e內(nèi)存,這將大幅提升AI的學習和訓練性能,直接與英偉達的H200加速卡競爭。
在最新一輪MLPerf訓練v3.1的結果中,盡管大部分成績并不激動人心,但兩個結果引人注目。NVIDIA使用MLPerf來展示其最新的霍珀一代超級計算機。NVIDIA試圖展示它在圖表上有一個更長的條形圖,但在爭取更長條形圖的比賽中,它失去了規(guī)模效率,給了英特爾一個大勝利。
英特爾宣稱 Gaudi2 的 AI 訓練性能是英偉達 A100 競品方案的兩倍,且芯片制造工藝也從初代 16nm 升級到了 7nm...而當前的 Gaudi2 支持,正好建立在現(xiàn)有的 Gaudi 和 Goya 加速器內(nèi)核驅(qū)動程序(habanalabs)的基礎上...截至新的頭文件主要代表了該主線驅(qū)動程序啟用 Gaudi2 支持所需的大部分代碼變動......
9月2日,大眼橙全新首發(fā)大眼橙X30Ultra和X7DUltra兩款旗艦新品,引發(fā)行業(yè)內(nèi)外極大關注,尤其是一些極具差異化的創(chuàng)新點收獲眾多用戶的好評。在8月30日,兩款投影儀均獲得由世界超高清視頻產(chǎn)業(yè)聯(lián)盟頒發(fā)的“HDRVivid”和“AudioVivid”雙認證證書,成為業(yè)界唯二款支持“雙Vivid認證”的投影產(chǎn)品。我們將持續(xù)以科技創(chuàng)新賦能產(chǎn)品,打造更優(yōu)品質(zhì)、更好體驗、更有性價比的好產(chǎn)品,為全球消費者提供更為震撼的家庭影音娛樂享受,引領智能投影行業(yè)發(fā)展。
2024年8月20日,「伯韻聆動,熠熠雙奏/DuetSymphonyofMEZE」2024MEZEAUDIO線上新品發(fā)布會圓滿結束,發(fā)布會全程在微信視頻號和嗶哩嗶哩直播進行。廣州帝捷電子科技有限公司的總經(jīng)理王朝陽先生、銷售經(jīng)理鄧靜女士作為特邀代表出席了本次發(fā)布會,MEZEAUDIO的創(chuàng)始人AntonioMeze先生和多名音頻業(yè)內(nèi)嘉賓也以視頻的形式參與其中。MEZEAUDIO的兩款新品LIRIC二代和ALBA必將在音頻市場掀起新的潮流,為廣大消費者帶來無與倫比的音樂享受。
“GamingVirtualizerby360RealityAudio”—攜手眾游戲開發(fā)者,將其應用于手游和PC游戲中—索尼公司宣布推出“GamingVirtualizerby360RealityAudio”,這是一款專為游戲開發(fā)者設計的插件軟件,使用該軟件能夠便捷地制作出通過耳機播放的沉浸式游戲空間音頻。此插件可集成于跨平臺音頻中間件Wwise?,該音頻中間件Wwise?已被全球游戲開發(fā)者廣泛采用于不同平臺的游戲開發(fā)。其他產(chǎn)品名稱、服務名稱、公司名稱或標志分別為各自所有者及/或授權方的商標和版權所有。
歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、震驚AI界!14、微軟研究院推AI框架E5-V:用文本對的單模態(tài)訓練簡化多模態(tài)學習降低成本微軟研究院與北京航空航天大學聯(lián)合推出的E5-V框架通過單模態(tài)訓練簡化多模態(tài)學習,降低成本,在多個任務中展現(xiàn)出優(yōu)異性能,代表了多模態(tài)學習的重大進步。
歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、阿里云發(fā)布Qwen2-Audio:革新的音頻多模態(tài)模型阿里云最新發(fā)布的Qwen2-Audio大規(guī)模音頻語言型模型,革新了語音交互體驗,用戶無需輸入文字即可與其進行語音交互,提供更便捷的?
FishAudio簡介FishAudio是一種文本轉(zhuǎn)語音技術,用于將文本信息轉(zhuǎn)換為語音的技術,廣泛應用于輔助閱讀、語音助手、有聲讀物制作等領域。它通過模擬人類語音,提高了信息獲取的便捷性,尤其對視力障礙者或在無法使用眼睛閱讀的情況下非常有幫助。通過AIbase,您可以輕松發(fā)現(xiàn)最適合您需求的人工智能工具,解鎖AI的力量。
StableAudioOpen簡介StableAudioOpen是一個開源的文本到音頻模型,專為生成短音頻樣本、音效和制作元素優(yōu)化。它為聲音設計師、音樂家和創(chuàng)意社區(qū)等用戶提供了一個強大的工具,可以通過簡單的文本提示快速生成高達47秒的高質(zhì)量音頻數(shù)據(jù),加速音樂制作和聲音設計的過程。通過AIbase,您可以輕松發(fā)現(xiàn)最適合您需求的人工智能工具,解鎖AI的力量。
StabilityAI今天發(fā)布了StableAudioOpen1.0,這是其音頻領域的新一款生成AI模型。StabilityAI以穩(wěn)定擴散文本到圖像生成AI技術聞名,但這只是該公司產(chǎn)品組合的一部分。我們期待進一步發(fā)布商業(yè)和開放模型,以反映我們研究的進展。
StableAudioOpen是什么?StableAudioOpen是一個開源的文本到音頻模型,專為生成短音頻樣本、音效和制作元素優(yōu)化。AIGC網(wǎng)站,AI工具盡在AIbase!
6月6日,著名開源大模型平臺Stability.ai在官網(wǎng)宣布,開源最新文生音頻模型StableAudioOpen。用戶通過文本就能生成最多47秒,鋼琴、笛子、鼓點、模擬人聲等不同類型的44.1kHz音效。StableAudioOpen目前只能用于學術研究無法商業(yè)化。
ElevenLabs推出了一項名為AudioNative的新服務,它是一個嵌入式音頻播放器,能夠自動將博客、新聞網(wǎng)站和其他網(wǎng)頁內(nèi)容轉(zhuǎn)換成高質(zhì)量的語音旁白,從將這些內(nèi)容自動變?yōu)椴タ托问健V饕δ?自動生成語音旁白:利用ElevenLabs的文本轉(zhuǎn)語音服務,自動生成網(wǎng)頁內(nèi)容的高質(zhì)量人聲旁白。復制并粘貼嵌入代碼到網(wǎng)站上。
著名開源大模型平臺Stability.ai在官網(wǎng)正式發(fā)布了音頻模型StableAudio2.0。這一版本支持用戶通過文本或音頻生成多種類型的高質(zhì)量音樂,時長可達3分鐘44.1kHz。隨著Stability.ai不斷推出新功能和技術,用戶可以期待更多高質(zhì)量、多樣化的音樂生成體驗。
4月4日,著名開源大模型平臺Stability.ai在官網(wǎng)正式發(fā)布了,音頻模型StableAudio2.0。StableAudio2.0支持用戶通過文本或音頻,一次性可生成3分鐘44.1kHz的搖滾、爵士、電子、嘻哈、重金屬、民謠、流行、鄉(xiāng)村等20多種類型的高質(zhì)量音樂。StableAudio2.0免費贈送20積分,生成的音樂可以商業(yè)化,這對于抖音、快手、B站的視頻自媒體用戶來說挺有幫助的。
隨著人工智能和主要是生成式AI領域的進展,已經(jīng)展示了大型語言模型生成文本以響應輸入或提示的能力。這些模型能夠像人類一樣生成文本,回答問題,總結長篇文本段落等。GENAUDIT是一款優(yōu)秀的工具,有助于改善具有強大文檔基礎的任務中的事實核查程序,并提高LLM生成的信息在重要應用中的可靠性。
Meta的研究人員在對抗合成語音的挑戰(zhàn)中取得了一項重大突破。他們提出了一種名為AudioSeal的技術,該技術能夠在人工智能生成的語音中嵌入隱形水印,用于主動檢測AI生成的言論,同時還能夠識別生成它的具體模型。隨著威脅形勢的變化,更好的解決方案仍需要不斷發(fā)展,以識別操縱風險并在人工智能能力不斷增強的背景下建立對語音界面的信任。
當你和朋友隔著冷冰冰的手機屏幕聊天時,你得猜猜對方的語氣。當Ta發(fā)語音時,你的腦海中還能浮現(xiàn)出Ta的表情甚至動作。在逼真程度方面,評估人員還是更認可真實情況不是Audio2Photoreal。
audio2photoreal是一個開源項目,專注于從音頻生成照片級逼真的avatar。它包含一個基于pytorch的實現(xiàn),可以從音頻中合成交談中的人類形象。要獲取更多詳細信息并開始您的AI頭像生成之旅,請訪問audio2photoreal官方網(wǎng)站。
MetaAI最近發(fā)布了一項引人注目的技術,他們成功地開發(fā)出一種能夠從音頻中生成逼真的虛擬人物形象的系統(tǒng)。這個系統(tǒng)能夠根據(jù)多人對話中的語音生成與對話相對應的逼真面部表情、完整身體和手勢動作。我們可以期待在不久的將來,這種技術將成為我們生活中不可或缺的一部分。
Meta最新發(fā)布了Audiobox,這是一款基于語音和自然語言提示生成音頻的先進研究模型。通過結合語音輸入和文本提示,Audiobox可以輕松生成各種聲音,包括語音、音效和音景,從為多種用例提供定制音頻。這對于視頻、播客、游戲等多種用例都具有潛在的影響,為未來的音頻創(chuàng)作開辟了新的可能性。
為慶祝Meta基礎人工智能研究團隊成立十周年,公司隆重推出三個創(chuàng)新的人工智能項目,展示了引人注目的演示。Ego-Exo4D:官方項目介紹網(wǎng)址:https://ai.meta.com/blog/ego-exo4d-video-learning-perception/該項目以數(shù)據(jù)集及基準測試的形式呈現(xiàn),旨在支持視頻學習和多模態(tài)感知的人工智能研究。這三個項目的推出標志著MetaFAIR團隊十年來在人工智能領域取得的巨大成就,并為未來的技術發(fā)展和創(chuàng)?
阿里云開源通義千問720億參數(shù)模型Qwen-72B、18億參數(shù)模型Qwen-1.8B及音頻大模型Qwen-Audio。阿里云本次開源的模型中除預訓練模型外同步推出了對應的對話模型,面向72B、1.8B對話模型提供了4bit/8bit量化版模型,便于開發(fā)者們推理訓練。Qwen-Audio模型是一個針對音頻的大模型,可以將語音轉(zhuǎn)換成文本。
阿里巴巴研究團隊最近推出的Qwen-Audio系列為大規(guī)模音頻語言模型領域帶來了重大突破。該系列通過采用層次標簽的多任務框架,成功解決了有限的預訓練音頻模型面臨的多樣化任務的挑戰(zhàn)。Qwen-Audio-Chat將進一步優(yōu)化以符合人類意圖,支持多語言互動,并實現(xiàn)動態(tài)多輪對話。
AudioSep是一種AI模型,可以使用自然語言查詢進行聲音分離。這一創(chuàng)新性的模型由Audio-AGI開發(fā),使用戶能夠通過簡單的語言描述來分離各種聲音源。AudioSep具有強大的分離性能和出色的零射擊泛化能力,AudioSep為音頻事件分離、樂器分離和語音增強等任務提供了廣泛的應用。