歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/
1、表格、圖表統(tǒng)統(tǒng)拿下!阿里達摩院開源DocOwl1.5無需OCR,高效“讀懂”文檔!
阿里巴巴達摩院與中國人民大學聯(lián)合開源了mPLUG-DocOwl1.5文檔處理模型,無需OCR即可理解文檔內(nèi)容,在多個視覺文檔理解基準測試中表現(xiàn)領(lǐng)先。該模型強調(diào)結(jié)構(gòu)信息的重要性,提出“統(tǒng)一結(jié)構(gòu)學習”來提升MLLM性能。
【AiBase提要:】
?? mPLUG-DocOwl1.5無需OCR即可理解文檔內(nèi)容,在視覺文檔理解基準測試中領(lǐng)先。
?? 強調(diào)結(jié)構(gòu)信息對于文檔理解的重要性,提出“統(tǒng)一結(jié)構(gòu)學習”來提升MLLM性能。
?? 提供了開源代碼、模型和數(shù)據(jù)集,取得了在多個下游任務(wù)中的最先進性能。
詳情鏈接:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
2、Midjourney圖像編輯器新功能下周上線
Midjourney的創(chuàng)始人David Holz宣布,一款全新的圖像編輯器即將上線,該編輯器利用上傳圖像的深度信息生成新圖片,保留原始構(gòu)圖和內(nèi)容的同時徹底改變紋理、顏色和細節(jié)。這一創(chuàng)新提升了用戶創(chuàng)作自由度,為設(shè)計師和藝術(shù)家提供強大工具。Midjourney通過AI技術(shù)不斷優(yōu)化圖像生成質(zhì)量,最新v6.1模型進一步提升圖像清晰度和準確性。新圖像編輯器的加入將拓寬AI在創(chuàng)意領(lǐng)域的應(yīng)用,預示著Midjourney在圖像編輯工具方面的重大進步。
【AiBase提要:】
? 利用上傳圖像的深度信息生成新圖片,保留原始構(gòu)圖和內(nèi)容,徹底改變紋理、顏色和細節(jié)。
?? Midjourney致力于通過AI技術(shù)提升圖像生成質(zhì)量,最新v6.1模型進一步優(yōu)化圖像清晰度和準確性。
?? 新編輯器的加入將拓寬AI在創(chuàng)意領(lǐng)域的應(yīng)用,為設(shè)計師和藝術(shù)家提供更靈活的圖像操控和修改方式。
3、Viggle AI再推新功能 可通過錄制聲音讓角色說話
Viggle AI推出了令人興奮的新功能,用戶可以通過錄制聲音讓角色說話并實現(xiàn)口型同步。這項創(chuàng)新技術(shù)讓用戶完全控制角色的表現(xiàn)方式,無論是唱歌還是跳舞,都能輕松實現(xiàn)。Viggle應(yīng)用程序以其創(chuàng)新性在社交媒體上引起了廣泛關(guān)注,利用先進的JST-1視頻3D基礎(chǔ)模型,用戶可以輕松創(chuàng)造和混合視頻內(nèi)容。
【AiBase提要:】
?? 角色說話功能:用戶可以通過錄制聲音讓角色說話,實現(xiàn)口型同步。
?? 角色替換功能:用戶可以將任何角色置入視頻場景,創(chuàng)造個性化沉浸式體驗。
?? 靜態(tài)圖像動畫化:用戶可以將靜態(tài)照片轉(zhuǎn)化為動態(tài)影像,增加視頻趣味性和互動性。
詳情鏈接:https://viggle.ai/home
4、即使是頂尖AI模型也難以應(yīng)對復雜旅行規(guī)劃,OpenAI o1-preview也犯難
最新研究表明,即使是先進的AI語言模型,如OpenAI最新的o1-preview,在復雜的規(guī)劃任務(wù)中也面臨挑戰(zhàn)。研究發(fā)現(xiàn)模型在整合規(guī)則和條件方面表現(xiàn)不佳,且隨規(guī)劃時間增加會逐漸失去對問題的關(guān)注。盡管一些模型在BlocksWorld中表現(xiàn)尚可,但在更復雜的TravelPlanner任務(wù)中表現(xiàn)不佳。
【AiBase提要:】
?? OpenAI的o1-preview等AI模型在復雜旅行規(guī)劃上表現(xiàn)不佳,GPT-4o成功率僅7.8%。
?? 大多數(shù)模型在BlocksWorld中表現(xiàn)尚可,但在TravelPlanner上難以達到理想效果。
?? 模型存在對規(guī)則的整合不足及隨時間推移而失去焦點的問題。
詳情鏈接:https://github.com/hsaest/Agent-Planning-Analysis
5、開源工具Vulnhuntr可發(fā)現(xiàn)Python零日漏洞,巧妙利用Claude AI
Protect AI公司推出的Vulnhuntr工具利用Claude AI幫助開發(fā)者發(fā)現(xiàn)Python代碼中的零日漏洞。該工具與傳統(tǒng)靜態(tài)分析不同,能夠追蹤用戶輸入到服務(wù)器輸出的完整調(diào)用鏈,提高漏洞檢測準確性。Vulnhuntr已在多個大型開源項目中發(fā)現(xiàn)零日漏洞,即將在GitHub上發(fā)布供開發(fā)者使用。
【AiBase提要:】
?? Vulnhuntr是開源工具,利用Claude AI發(fā)現(xiàn)Python零日漏洞。
??? 工具工作方式不同于靜態(tài)分析,能追蹤完整調(diào)用鏈。
?? Vulnhuntr已發(fā)現(xiàn)多個大型開源項目中的零日漏洞,即將在GitHub上發(fā)布。
6、字節(jié)跳動回應(yīng)“實習生破壞大模型訓練”:未影響正式商業(yè)項目
字節(jié)跳動近期針對實習生破壞大模型訓練的傳聞進行了官方回應(yīng),確認實習生惡意干擾研究項目模型訓練,但未影響正式商業(yè)項目和線上業(yè)務(wù)。公司指出傳聞嚴重夸大,已辭退實習生并通報相關(guān)機構(gòu)。事件暴露安全管理問題,公司計劃大力投資AI技術(shù)。
【AiBase提要:】
?? 實習生惡意干擾大模型訓練,未影響商業(yè)項目和線上業(yè)務(wù)。
?? 公司確認傳聞夸大,已辭退實習生并通報相關(guān)機構(gòu)。
?? 事件暴露安全管理問題,公司計劃大力投資AI技術(shù)。
7、Meta最新黑科技SPIRIT-LM:能說會寫還能懂你的情緒,這個 AI 語言模型有點強!
SPIRIT-LM 是一款具有革命性意義的多模態(tài)基礎(chǔ)語言模型,能夠自由混合文本和語音,理解和表達情感。它結(jié)合了文本模型的語義能力和語音模型的表達能力,完成跨模態(tài)任務(wù),只需少量樣本即可學習新任務(wù)。SPIRIT-LM-EXPRESSIVE在情感表達方面優(yōu)于基礎(chǔ)版,開創(chuàng)了多模態(tài)語言理解和生成的新可能性。
【AiBase提要:】
?? SPIRIT-LM 是多模態(tài)基礎(chǔ)語言模型,能混合文本和語音,理解情感。
?? SPIRIT-LM 結(jié)合了文本模型的語義能力和語音模型的表達能力,完成跨模態(tài)任務(wù)。
?? SPIRIT-LM-EXPRESSIVE在情感表達方面優(yōu)于基礎(chǔ)版,開創(chuàng)了多模態(tài)語言理解和生成的新可能性。
詳情鏈接:https://arxiv.org/pdf/2402.05755
8、顛覆 Stable Diffusion!智源重磅發(fā)布 Emu3,圖像、文本、視頻全拿下!
Emu3團隊發(fā)布了一套全新的多模態(tài)模型Emu3,顛覆了傳統(tǒng)的擴散模型和組合模型架構(gòu),在生成和感知任務(wù)上取得了最先進的性能。該模型基于下一個token預測進行訓練,實現(xiàn)了多模態(tài)任務(wù)的統(tǒng)一,超越了特定任務(wù)模型,甚至旗艦模型。Emu3的成功為多模態(tài)模型的未來發(fā)展指明了方向,也為實現(xiàn)AGI帶來了新的希望。
【AiBase提要:】
?? Emu3基于下一個token預測進行訓練,顛覆了傳統(tǒng)模型架構(gòu),取得了最先進的性能。
?? Emu3實現(xiàn)了多模態(tài)任務(wù)的統(tǒng)一,無需依賴擴散或組合架構(gòu),超越了特定任務(wù)模型和旗艦模型。
?? Emu3團隊開源了關(guān)鍵技術(shù)和模型,為多模態(tài)智能領(lǐng)域的進一步研究提供支持。
詳情鏈接:https://github.com/baaivision/Emu3
9、Perplexity AI 尋求90億美元估值
Perplexity AI 宣布在新一輪融資中希望將估值提升至90億美元,當前估值為30億美元。公司面臨抄襲指控,但堅決否認。在激烈市場競爭中努力提升技術(shù)和服務(wù)水平。
【AiBase提要:】
?? Perplexity AI 計劃將估值提高至90億美元,吸引大量投資者關(guān)注。
?? 公司自今年初以來進行了三輪融資,迅速發(fā)展。
?? 面臨抄襲指控,公司堅決否認并保護知識產(chǎn)權(quán)。
10、前OpenAI CTO重磅打造新AI公司,融資目標高達1億美元
Mira Murati正籌集超過1億美元的風險投資,準備創(chuàng)辦新的AI創(chuàng)業(yè)公司。她離開OpenAI希望進行個人探索,而OpenAI在她離職后籌集了創(chuàng)紀錄的66億美元風險投資。期待Murati的新公司未來發(fā)展。
【AiBase提要:】
? Mira Murati正籌集超過1億美元的風險投資,打造新AI公司。
?? Murati離開OpenAI希望進行個人探索,未透露具體計劃。
?? OpenAI在Murati離職后籌集了創(chuàng)紀錄的66億美元風險投資。
11、蘋果AI發(fā)展滯后兩年,計劃未來兩年全線設(shè)備引入Apple Intelligence
在今年的WWDC大會上,蘋果展示了AI新特性,但分析師稱蘋果在AI技術(shù)發(fā)展上落后競爭對手約兩年。蘋果計劃未來兩年在所有帶屏設(shè)備上推出“Apple Intelligence”功能,盡管起步較晚,但有信心迎頭趕上。
【AiBase提要:】
?? 蘋果在AI發(fā)展上落后競爭對手約兩年,正努力追趕行業(yè)標準。
?? 蘋果計劃未來兩年內(nèi)在所有帶屏設(shè)備上推出“Apple Intelligence”功能。
?? 新款iPad和即將推出的iPhone都將配備支持“Apple Intelligence”的硬件。
12、北京市新增12款生成式AI服務(wù)備案,累計達94款
北京市最近新增了12款生成式人工智能服務(wù)備案,使得累計備案數(shù)量達到了94款,為用戶帶來更多選擇與便利。已上線的AI應(yīng)用需公示備案情況,包括模型名稱和備案編號。本次新增備案名單中包括快手科技公司的可靈AI和昆侖萬維科技股份有限公司的天工圖像。
【AiBase提要:】
?? 北京市新增12款生成式AI服務(wù)備案,累計達94款
?? 已上線AI應(yīng)用需公示備案情況,包括模型名稱和備案編號
?? 本次新增備案名單中包括快手科技公司的可靈AI和昆侖萬維科技股份有限公司的天工圖像
(舉報)