歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/
1、面向付費(fèi)用戶!全新ChatGPT Windows版本上線:快捷鍵即可召喚AI助手
OpenAI推出了全新的ChatGPT Windows應(yīng)用早期版,為付費(fèi)用戶提供便捷的AI助手體驗(yàn)。用戶只需按下Alt + Space組合鍵即可召喚ChatGPT,無需每次打開網(wǎng)頁。應(yīng)用目前僅對(duì)付費(fèi)用戶開放,但計(jì)劃在完善后也會(huì)讓免費(fèi)用戶有機(jī)會(huì)體驗(yàn)。雖然測試版應(yīng)用功能暫不完善,但OpenAI承諾會(huì)持續(xù)更新以提升用戶體驗(yàn)。
【AiBase提要:】
?? ChatGPT Windows應(yīng)用僅對(duì)付費(fèi)用戶開放,支持多種付費(fèi)賬號(hào)類型。
?? 按下Alt + Space組合鍵即可輕松召喚ChatGPT進(jìn)行對(duì)話,方便快捷。
?? 測試版應(yīng)用暫時(shí)缺少一些復(fù)雜功能,但將持續(xù)更新以完善體驗(yàn)。
2、OpenAI重磅發(fā)布GPT-4O-Audio-Preview
OpenAI最新推出的GPT-4O-Audio-Preview模型在語音處理領(lǐng)域展現(xiàn)出驚人能力,不僅能生成自然流暢的語音響應(yīng),還具備情感分析和語音交互功能,開啟了新的人機(jī)交互可能性。該模型靈活支持多種模式組合,定價(jià)策略反映了音頻處理的復(fù)雜性。推出將在客戶服務(wù)、教育、娛樂和輔助技術(shù)領(lǐng)域帶來革新。
【AiBase提要:】
?? 模型具備生成自然流暢語音響應(yīng)能力,支持語音助手和虛擬客服應(yīng)用。
?? 具備分析音頻情感、語調(diào)和音調(diào)的能力,適用于情感計(jì)算和用戶體驗(yàn)分析領(lǐng)域。
?? 支持語音到語音的互動(dòng),為全方位語音交互系統(tǒng)打下基礎(chǔ)。
詳情鏈接:https://platform.openai.com/docs/guides/audio/quickstart
3、Google升級(jí)AI筆記和研究助手NotebookLM
Google宣布對(duì)NotebookLM進(jìn)行重大升級(jí),增強(qiáng)音頻概覽功能,讓用戶更精準(zhǔn)引導(dǎo)AI生成對(duì)話內(nèi)容。更新包括自定義音頻概覽和后臺(tái)收聽功能,提升用戶體驗(yàn)。商業(yè)版試點(diǎn)計(jì)劃啟動(dòng),展望更廣泛的應(yīng)用場景。
【AiBase提要:】
?? 音頻概覽功能升級(jí),用戶可自定義引導(dǎo)AI對(duì)話內(nèi)容。
??? 新增后臺(tái)收聽功能,用戶可同時(shí)工作和收聽音頻。
?? 商業(yè)版試點(diǎn)計(jì)劃啟動(dòng),企業(yè)可提前體驗(yàn)新功能并獲得支持。
4、復(fù)旦、百度聯(lián)手打造全新AI模型Hallo2可生成4K超高清+1小時(shí)超長視頻!
復(fù)旦大學(xué)和百度公司聯(lián)合開發(fā)的Hallo2AI模型將徹底改變?nèi)宋飫?dòng)畫生成的現(xiàn)狀,為電影制作、虛擬助手、游戲開發(fā)等領(lǐng)域帶來革命性變化。該模型結(jié)合了latent diffusion models、Patch-drop數(shù)據(jù)增強(qiáng)技術(shù)、高斯噪聲增強(qiáng)技術(shù)、VQGAN離散碼本預(yù)測技術(shù)和文本提示控制機(jī)制,在生成高質(zhì)量、長序列人物動(dòng)畫方面表現(xiàn)優(yōu)異。
【AiBase提要:】
?? Hallo2模型結(jié)合了多項(xiàng)創(chuàng)新技術(shù),包括Patch-drop數(shù)據(jù)增強(qiáng)、高斯噪聲增強(qiáng)、VQGAN離散碼本預(yù)測和文本提示控制機(jī)制。
?? Hallo2在多個(gè)公開數(shù)據(jù)集上驗(yàn)證,超越現(xiàn)有方法,在生成高質(zhì)量、長序列人物動(dòng)畫方面表現(xiàn)出色。
?? Hallo2模型的發(fā)布標(biāo)志著AI人物動(dòng)畫生成技術(shù)邁上新的臺(tái)階,未來將進(jìn)一步優(yōu)化效率和探索更多應(yīng)用領(lǐng)域。
詳情鏈接:https://fudan-generative-vision.github.io/hallo2/#/
5、特斯拉Optimus機(jī)器人再進(jìn)化:自主導(dǎo)航、爬樓梯、與人互動(dòng)成現(xiàn)實(shí)
特斯拉最新發(fā)布的Optimus機(jī)器人展示了令人矚目的新功能,從自主導(dǎo)航到與人類互動(dòng),彰顯人工智能和機(jī)器人技術(shù)的飛速進(jìn)步。Optimus的自主導(dǎo)航能力、能源管理自主性、負(fù)載能力提升等方面都展現(xiàn)出巨大潛力。
【AiBase提要:】
?? 自主導(dǎo)航能力:Optimus能在復(fù)雜環(huán)境中自如穿行,多臺(tái)機(jī)器人可協(xié)同工作優(yōu)化導(dǎo)航效率。
?? 能源管理自主性:Optimus能自動(dòng)定位充電站實(shí)現(xiàn)自主充電,提高工作持續(xù)性和效率。
????♂? 負(fù)載能力提升:Optimus能搬運(yùn)重達(dá)11公斤的電池托盤,開拓工業(yè)和物流應(yīng)用新可能性。
6、谷歌人事大調(diào)整:Gemini團(tuán)隊(duì)并入DeepMind,搜索領(lǐng)導(dǎo)層大變動(dòng)
谷歌最近進(jìn)行了重要的領(lǐng)導(dǎo)層變動(dòng)和團(tuán)隊(duì)結(jié)構(gòu)調(diào)整,包括K&I團(tuán)隊(duì)和Gemini團(tuán)隊(duì)。新任領(lǐng)導(dǎo)人的接任和團(tuán)隊(duì)整合將對(duì)公司的技術(shù)發(fā)展和AI項(xiàng)目合作產(chǎn)生重大影響。
【AiBase提要:】
?? Nick Fox接任谷歌K&I團(tuán)隊(duì)新負(fù)責(zé)人,將繼續(xù)推動(dòng)搜索、廣告、地理和商務(wù)產(chǎn)品的發(fā)展。
?? Prabhakar Raghavan轉(zhuǎn)任谷歌首席技術(shù)官,致力于為公司的技術(shù)發(fā)展提供方向和支持。
?? Gemini團(tuán)隊(duì)與谷歌DeepMind整合,旨在加強(qiáng)應(yīng)用團(tuán)隊(duì)和Gemini模型團(tuán)隊(duì)之間的合作。
7、上傳一段音樂秒變鋼琴曲!AMT-APC算法一鍵生成大師級(jí)鋼琴演奏
近日,武蔵野大學(xué)數(shù)據(jù)科學(xué)學(xué)院的研究人員開發(fā)了AMT-APC算法,通過結(jié)合AMT模型和微調(diào)技術(shù),實(shí)現(xiàn)更精準(zhǔn)生成接近原曲的鋼琴演奏版本。該算法突破了現(xiàn)有自動(dòng)生成鋼琴曲技術(shù)的局限,提升了音質(zhì)保真度和表現(xiàn)力。
【AiBase提要:】
? AMT-APC算法利用AMT模型優(yōu)勢(shì),通過微調(diào)生成更接近原曲的鋼琴演奏版本。
?? 核心策略包括預(yù)訓(xùn)練和微調(diào),使AMT模型能夠處理更長音樂片段并生成符合原曲風(fēng)格的鋼琴演奏。
?? 引入風(fēng)格向量概念,學(xué)習(xí)不同演奏風(fēng)格,提升生成鋼琴曲的表現(xiàn)力和音質(zhì)保真度。
詳情鏈接:https://misya11p.github.io/amt-apc/
8、蘋果Siri AI新功能:ChatGPT 集成和圖像生成
蘋果正致力于為iOS18、iPadOS18和macOS15添加新的Apple Intelligence功能,其中包括ChatGPT集成和圖像生成。ChatGPT將為Siri提供更先進(jìn)的文本和圖像生成能力,而Visual Intelligence則將為iPhone16用戶提供相機(jī)控制按鈕功能。iOS18.1、iPadOS18.1和macOS Sequoia15.1預(yù)計(jì)將于10月28日發(fā)布,而iOS18.2、iPadOS18.2和macOS Sequoia15.2的測試版也將很快推出。
【AiBase提要:】
?? Siri將集成ChatGPT,提供更先進(jìn)的文本和圖像生成能力。
?? iPhone16將獲得Visual Intelligence功能,通過相機(jī)控制按鈕提供周圍物體信息。
?? iOS18.2將支持Image Playground圖像生成、Genmoji和Image Wand。
9、僅十億參數(shù)!AI圖像生成模型Meissonic
Meissonic是一款僅用十億個(gè)參數(shù)就能生成高質(zhì)量圖像的開源AI模型。其采用了并行迭代優(yōu)化的訓(xùn)練方法,使得在圖像生成速度上比傳統(tǒng)模型快99%。盡管參數(shù)量小,Meissonic在多項(xiàng)測試中表現(xiàn)超越更大模型,且能實(shí)現(xiàn)無訓(xùn)練的圖像修補(bǔ)和擴(kuò)展功能。
【AiBase提要:】
?? 緊湊設(shè)計(jì)的Meissonic適合普通游戲PC和未來的移動(dòng)設(shè)備使用。
? 采用并行迭代優(yōu)化的訓(xùn)練方法,Meissonic在圖像生成速度上比傳統(tǒng)模型快99%。
?? 盡管參數(shù)量小,Meissonic在多項(xiàng)測試中表現(xiàn)超越更大模型,且能實(shí)現(xiàn)無訓(xùn)練的圖像修補(bǔ)和擴(kuò)展功能。
詳情鏈接:https://huggingface.co/spaces/MeissonFlow/meissonic
10、Perplexity推出內(nèi)部知識(shí)搜索功能,企業(yè)可同時(shí)查詢內(nèi)外部數(shù)據(jù)
Perplexity公司推出了新功能“內(nèi)部知識(shí)搜索”,旨在提高企業(yè)工作效率,讓用戶更便捷獲取所需信息。用戶上傳自選文件,避免低價(jià)值信息干擾搜索,提高效率。新增“空間”功能支持團(tuán)隊(duì)文件共享與AI助手定制。
【AiBase提要:】
?? 用戶只能上傳自選文件,避免低價(jià)值信息干擾搜索,提高效率。
?? Perplexity推出“內(nèi)部知識(shí)搜索”功能,支持用戶同時(shí)查詢內(nèi)外部數(shù)據(jù)。
?? 新增“空間”功能,支持團(tuán)隊(duì)文件共享與AI助手定制。
11、自動(dòng)駕駛公司小馬智行擬赴美IPO 估值已超85億美元
小馬智行計(jì)劃赴美IPO,估值超過85億美元。公司成立于2016年,專注自動(dòng)駕駛解決方案,已完成9輪融資超過10億美元。營收主要來自Robotaxi業(yè)務(wù),2024年上半年同比增長86%。
【AiBase提要:】
?? 小馬智行計(jì)劃赴美IPO,股票代碼為“PONY”,估值超過85億美元。
?? 公司成立于2016年,已完成9輪融資超過10億美元,估值達(dá)85億美元。
?? Robotaxi業(yè)務(wù)是主要收入來源,2024年上半年同比增長86%。
(舉報(bào))