歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/
1、OpenAI發(fā)布o3:AI 推理能力的重大突破,得分高達87.5%
OpenAI最近推出了其最新的o-Model推理系列模型o3,標志著在數(shù)學(xué)和科學(xué)推理領(lǐng)域的重大進展。o3在ARC AGI基準測試中得分87.5%,顯示出其在解決復(fù)雜邏輯和數(shù)學(xué)問題方面的顯著能力提升。該模型結(jié)合了神經(jīng)符號學(xué)習(xí)與概率邏輯,能夠有效處理多步推理挑戰(zhàn),展現(xiàn)出在教育、醫(yī)療和軟件開發(fā)等多個領(lǐng)域的廣泛應(yīng)用潛力。
【AiBase提要:】
?? o3在ARC AGI基準測試中得分87.5%,展現(xiàn)出顯著的推理能力提升。
?? 在高級數(shù)學(xué)測試中,o3的成功率達到96.7%,科學(xué)推理準確率提升10%。
?? o3的應(yīng)用潛力廣泛,能夠在教育、醫(yī)療和軟件開發(fā)等領(lǐng)域提供實際支持。
2、Adobe推新AI音頻具Sketch2Sound ,只需哼唱和模仿聲音就能創(chuàng)建音效
Adobe Research與西北大學(xué)聯(lián)合推出的Sketch2Sound是一款創(chuàng)新的人工智能工具,旨在革新聲音設(shè)計師的工作流程。用戶可以通過哼唱、模仿聲音和簡單文本描述來生成專業(yè)音效。該系統(tǒng)分析音量、音色和音高,并結(jié)合文本生成所需聲音,特別適合Foley藝術(shù)家,提升影視音效的制作效率。
【AiBase提要:】
?? Sketch2Sound是一個新開發(fā)的AI工具,能通過哼唱和文本描述來創(chuàng)建音效。
?? 該系統(tǒng)分析音量、音色和音高,將用戶的聲音輸入與文本結(jié)合生成目標音效。
?? 特別適合Foley藝術(shù)家使用,能夠快速生成影視音效,提升工作效率。
詳情鏈接:https://hugofloresgarcia.art/sketch2sound/
3、百川智能發(fā)布金融大模型Baichuan4-Finance
百川智能最近發(fā)布了其全新的金融大模型Baichuan4-Finance,該模型通過創(chuàng)新的領(lǐng)域自約束訓(xùn)練方案,在金融能力和通用能力上實現(xiàn)了雙重提升,顯著增強了在金融場景中的適用性。根據(jù)評測數(shù)據(jù),Baichuan4-Finance在多個金融領(lǐng)域的準確率均超越了競爭對手GPT-4o。
【AiBase提要:】
?? Baichuan4-Finance通過領(lǐng)域自約束訓(xùn)練方案,提升金融和通用能力。
?? 在多個評測中,Baichuan4-Finance的整體準確率達到93.62%,領(lǐng)先GPT-4o近20%。
?? 該模型在銀行、保險、基金和證券等領(lǐng)域的準確率均突破95%。
詳情鏈接:https://platform.baichuan-ai.com/finPage
4、清華大學(xué)聯(lián)合騰訊出品!ColorFlow:自動給黑白漫畫上色,保持角色一致性
ColorFlow是清華大學(xué)與騰訊ARC實驗室聯(lián)合研發(fā)的新型圖像序列上色模型,旨在解決黑白圖像上色時角色身份一致性的問題。該模型通過雙分支設(shè)計和創(chuàng)新的檢索增強上色管道,顯著提升了上色效果與效率。ColorFlow在多個指標上超越了現(xiàn)有先進模型,展現(xiàn)出更高的美學(xué)質(zhì)量,適用于黑白漫畫、線條藝術(shù)等多種藝術(shù)場景。
【AiBase提要:】
?? ColorFlow是創(chuàng)新的黑白圖像序列上色模型,能夠保持角色身份一致性。
?? 該模型采用雙分支設(shè)計,分別用于色彩身份提取和實際上色,提升了上色的效果和效率。
?? ColorFlow在多項指標上超越了現(xiàn)有的先進模型,展現(xiàn)出更高的美學(xué)質(zhì)量和實用性。
詳情鏈接:https://zhuang2002.github.io/ColorFlow/
5、CAP4D:上傳參考圖即可生成高質(zhì)量4D角色頭像
CAP4D模型是一項革命性的技術(shù),能夠通過任意數(shù)量的參考圖像生成高質(zhì)量的4D頭像。該模型采用雙階段工作流程,首先生成不同視角和表情的圖像,然后結(jié)合參考圖像重建可實時控制的4D頭像。通過使用先進的面部追蹤技術(shù)和隨機采樣的方式,CAP4D顯著提升了圖像重建效果和細節(jié)呈現(xiàn)。
【AiBase提要:】
?? CAP4D模型通過任意數(shù)量的參考圖像生成高質(zhì)量的4D頭像,采用雙階段工作流程。
??? 該技術(shù)可以生成多種不同視角的頭像,顯著提高了圖像重建效果和細節(jié)呈現(xiàn)。
?? CAP4D與語音驅(qū)動動畫模型相結(jié)合,實現(xiàn)音頻驅(qū)動的動態(tài)頭像,拓展了虛擬頭像的應(yīng)用場景。
6、OpenAI推出ChatGPT新記憶功能:能跨對話回憶用戶交流
OpenAI最近推出了一項全新的記憶功能,使得其AI助手ChatGPT能夠在用戶開啟新對話時回憶起以往的交流內(nèi)容。這一更新旨在提升用戶體驗,允許用戶全面管理自己的記憶設(shè)置,包括刪除或歸檔特定信息。與此類似,谷歌也加快了其聊天機器人Gemini的記憶功能的推出,顯示出AI行業(yè)在個性化服務(wù)方面的持續(xù)努力。
【AiBase提要:】
?? OpenAI推出新記憶功能,ChatGPT可跨對話回憶用戶過往交流。
?? 用戶可隨時管理記憶設(shè)置,刪除或歸檔特定信息。
?? 谷歌也推出類似功能,旨在提升AI助手的個性化服務(wù)。
7、震驚!你的AI聊天對象竟然偷偷學(xué)會了“讀心術(shù)”!—— INFP帶你解鎖雙人對話新姿勢
INFP技術(shù)的出現(xiàn),標志著AI虛擬頭像在雙人對話中的互動能力得到了質(zhì)的飛躍。通過模仿人類的表情和動作,INFP使得虛擬角色能夠在對話中展現(xiàn)出真實的互動,仿佛與真人交流。其背后的技術(shù)創(chuàng)新,不僅提升了用戶體驗,也為未來的AI對話系統(tǒng)提供了新的可能性。
【AiBase提要:】
?? INFP技術(shù)通過模仿人類的表情和動作,提升了AI虛擬頭像的互動能力。
?? 該技術(shù)利用音頻分析,動態(tài)調(diào)整AI頭像的狀態(tài),實現(xiàn)自然流暢的對話。
?? DyConv數(shù)據(jù)集為INFP提供了豐富的對話素材,確保學(xué)習(xí)效果和表現(xiàn)的優(yōu)越性。
詳情鏈接:https://grisoon.github.io/INFP/
8、DeepSeek開源大模型開發(fā)者之一羅福莉?qū)⒓用诵∶?/strong>
羅福莉,DeepSeek-V2的關(guān)鍵開發(fā)者,近期宣布加入小米,擔任AI實驗室的領(lǐng)導(dǎo),負責(zé)大模型團隊的建設(shè)。此舉引發(fā)廣泛關(guān)注,尤其是在小米加大大模型領(lǐng)域布局的背景下。羅福莉擁有北京大學(xué)的碩士學(xué)位,并在自然語言處理領(lǐng)域表現(xiàn)突出,曾在阿里巴巴達摩院任職,參與多語言預(yù)訓(xùn)練模型的開發(fā)。
【AiBase提要:】
?? 羅福莉?qū)⒓用诵∶?,領(lǐng)導(dǎo)AI實驗室的大模型團隊。
?? 雷軍對小米在AI大模型領(lǐng)域的發(fā)展表示擔憂,并高薪挖人。
?? 小米AI實驗室已經(jīng)設(shè)立專門團隊,致力于推動大模型技術(shù)的發(fā)展。
9、AI終于邁過這道檻!Livekit 開源模型精準識別“你是否說完”!
在語音助手和客服機器人領(lǐng)域,如何準確判斷用戶是否說完一直是個難題。Livekit推出的開源精準語音輪次檢測模型,通過結(jié)合Transformer模型與傳統(tǒng)語音活動檢測,顯著提升了人機對話的自然度與流暢性。該模型能夠減少AI的錯誤打斷,提升用戶體驗,未來有望使人機對話更加智能和自然。
【AiBase提要:】
?? 結(jié)合Transformer和傳統(tǒng)VAD技術(shù),提升語音輪次檢測的準確性。
?? 新模型減少AI的錯誤打斷率達85%,使人機對話更加自然。
?? 演示視頻展示AI耐心等待用戶說完,提升交互體驗。
詳情鏈接:https://github.com/livekit/agents/tree/main/livekit-plugins/livekit-plugins-turn-detector
10、李飛飛團隊前瞻性研究 多模態(tài)AI模型初顯空間智能
斯坦福大學(xué)教授李飛飛及其團隊的研究揭示了多模態(tài)大模型在空間智能方面的初步能力,展示了它們在記憶和回憶空間的潛力。研究開發(fā)了VSI-Bench工具,評估視覺空間智能,盡管模型表現(xiàn)仍低于人類,但在某些任務(wù)上已接近人類水平。
【AiBase提要:】
??? 研究團隊推出VSI-Bench工具,評估視覺空間智能,包含5000多個高質(zhì)量問答對。
?? 多模態(tài)模型在某些任務(wù)上已接近人類水平,Gemini-1.5Pro在房間大小估計任務(wù)中表現(xiàn)突出。
?? 李飛飛創(chuàng)辦的World Labs專注于開發(fā)具備空間智能的AI模型,已獲得多家知名機構(gòu)投資。
11、特朗普正式任命白宮AI政策高級顧問
近日,美國前總統(tǒng)唐納德?特朗普確認Sriram Krishnan擔任白宮科技政策辦公室的人工智能高級政策顧問。Krishnan曾是Andreessen Horowitz的合伙人,將負責(zé)協(xié)調(diào)政府的AI政策,并與前PayPal首席運營官David Sacks合作。
【AiBase提要:】
?? Sriram Krishnan被任命為特朗普的人工智能政策高級顧問,負責(zé)協(xié)調(diào)政府的AI政策。
?? 他將與前PayPal首席運營官David Sacks合作,共同推動AI和加密貨幣相關(guān)政策。
?? Krishnan曾在多家知名科技公司擔任領(lǐng)導(dǎo)職務(wù),并在《紐約時報》中分享了對AI趨勢的看法。
12、閃極AI拍拍鏡宣布預(yù)售售罄:999元5萬臺一天搶光
閃極科技最近推出了其首款AI拍拍鏡,標志著國內(nèi)AI拍攝眼鏡領(lǐng)域的重要進展。該產(chǎn)品以1499元的價格上市,首批5萬臺以999元的優(yōu)惠價迅速售罄,顯示出市場的熱烈反響。此外,閃極還推出了一個吸引人的促銷活動,用戶在300天內(nèi)打卡200天可獲得全額退款。
【AiBase提要:】
?? 這款A(yù)I拍拍鏡售價1499元,首批5萬臺以999元的優(yōu)惠價售罄,顯示出強勁的市場需求。
?? 用戶在300天內(nèi)打卡200天可獲得全額退款,增加了產(chǎn)品的吸引力。
?? 該眼鏡搭載索尼1600萬像素攝像頭,支持多種智能功能,提供豐富的用戶體驗。
(舉報)