AI日報：阿里通義開源多模態(tài)推理模型QVQ-72B；OpenAI考慮自研人形機器人；QQ音樂上線首個AI大模型音效

2024-12-25 15:23 · 稿源：站長之家

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。

新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/

1、阿里發(fā)布多模態(tài)推理模型QVQ-72B!視覺、語言能力雙提升

阿里巴巴最近推出的QVQ-72B多模態(tài)推理模型在語言和視覺能力上實現(xiàn)了顯著提升，能夠處理復雜的推理和分析任務，尤其在多步推理和數(shù)學推理方面表現(xiàn)突出。該模型的出現(xiàn)標志著阿里巴巴在多模態(tài)AI領域的重大突破，提供了新的工具和思路來解決復雜問題，推動各行業(yè)的智能化升級。

【AiBase提要:】
?? QVQ-72B模型融合了強大的語言和視覺能力，能夠處理復雜的推理任務。
?? 在物理和數(shù)學推理中，該模型通過多步推理顯著提升了準確率，減少了錯誤。
?? QVQ-72B在技術報告和圖表分析中具備高效的信息提取能力，為專業(yè)人士提供強大支持。
詳情鏈接:https://huggingface.co/spaces/Qwen/QVQ-72B-preview

2、投資三家機器人公司后 OpenAI欲自研人形機器人

OpenAI正在積極探索自研人形機器人，盡管曾在2021年關閉機器人部門。近期，該公司通過投資三家機器人公司，顯著布局機器人領域。其旗艦模型O3在AGI測試中首次超越人類水平，為進軍實體機器人提供了技術支持。然而，進入這一競爭激烈的市場，OpenAI可能面臨利益沖突和硬件研發(fā)短板等挑戰(zhàn)。

【AiBase提要:】
?? OpenAI投資三家機器人公司，積極布局機器人領域。
?? 旗艦模型O3在AGI測試中超越人類，技術優(yōu)勢明顯。
?? 面臨市場競爭和硬件研發(fā)挑戰(zhàn)，需快速補齊短板。

3、QQ音樂14.0版本上線，發(fā)布首個AI大模型音效、智能匹配聽歌音效

QQ音樂14.0版本的推出標志著音樂體驗的一個新高度，特別是引入的AI大模型音效。這一創(chuàng)新技術通過分析音頻特征，為用戶提供個性化的聽覺體驗，尤其在3D環(huán)繞音效方面表現(xiàn)出色。此外，伴唱功能的升級使得用戶可以根據(jù)個人需求調(diào)節(jié)播放速度和音調(diào)，進一步增強了音樂互動的樂趣。

【AiBase提要:】
?? 新推出的大模型音效通過AI技術提供個性化聽覺體驗，提升音樂的空間感和層次感。
?? 伴唱功能升級，用戶可自由調(diào)節(jié)伴唱模式、播放速度和音調(diào)，滿足不同演唱需求。
?? 多款個性化設置功能讓用戶選擇不同樣式，享受個性化的聽歌體驗。

4、訊飛星火瀏覽器插件新升級新增翻譯總結(jié)、繼續(xù)提問等AI功能

訊飛開放平臺最近對其星火瀏覽器插件進行了重要升級，顯著提升了用戶的瀏覽體驗和工作效率。新功能包括支持多語言的全局翻譯、增強的網(wǎng)頁總結(jié)能力以及“繼續(xù)提問”功能，使用戶能夠深入討論并獲取更高質(zhì)量的答案。此外，插件還提供了一鍵朗讀功能，幫助用戶提高外語口語水平。

【AiBase提要:】
?? 新增的“繼續(xù)提問”功能允許用戶深入討論，獲取更高質(zhì)量的答案。
?? 實現(xiàn)網(wǎng)頁全局對照翻譯，支持12種語言，打破語言障礙，提升閱讀體驗。
?? 一鍵朗讀功能幫助用戶提高外語口語水平，增強學習效果。

5、字節(jié)開源 Midscene.js:AI驅(qū)動的E2E測試框架迎來突破

隨著人工智能技術的迅猛發(fā)展，E2E測試領域正經(jīng)歷著一場創(chuàng)新的革命。字節(jié)跳動的web-infra團隊推出的Midscene.js，結(jié)合多模態(tài)大語言模型，極大地簡化了用戶界面測試的過程。用戶無需編寫代碼，通過自然語言即可與網(wǎng)頁進行交互，提升了測試效率。

【AiBase提要:】
??? Midscene.js通過自然語言與網(wǎng)頁交互，簡化了E2E測試流程。
?? Shortest工具利用AI自動生成測試用例，減少重復性工作時間。
?? AI技術的成熟使得基礎E2E測試場景的自動化水平顯著提升。
詳情鏈接:https://github.com/web-infra-dev/midscene

6、DeepMind項目MegaSaM :輸入普通視頻即可預估相機視角和景深

MegaSaM系統(tǒng)的推出標志著計算機視覺領域的一次重大突破。該系統(tǒng)能夠從普通動態(tài)視頻中快速、準確地估計相機參數(shù)和深度圖，克服了傳統(tǒng)技術在動態(tài)場景中的局限性。通過對深度視覺SLAM框架的創(chuàng)新性修改，MegaSaM在復雜環(huán)境下的實時處理能力顯著提高，實驗結(jié)果顯示其在準確性和效率上均優(yōu)于以往技術。

【AiBase提要:】
?? MegaSaM系統(tǒng)能夠從普通動態(tài)視頻中快速、準確地估計相機參數(shù)和深度圖。
?? 該技術克服了傳統(tǒng)方法在動態(tài)場景中的不足，適應復雜環(huán)境的實時處理。
?? 實驗結(jié)果顯示，MegaSaM在準確性和運行效率上均優(yōu)于以往技術。
詳情鏈接:https://mega-sam.github.io/#demo

7、字節(jié)TikTok算法負責人陳志杰或?qū)㈦x職，投身AI Coding方向創(chuàng)業(yè)

字節(jié)跳動的TikTok算法負責人陳志杰即將離職，計劃專注于AI Coding領域的創(chuàng)業(yè)。自2022年加入字節(jié)跳動以來，他負責TikTok的推薦算法和數(shù)據(jù)科學團隊，之前在百度積累了近九年的技術經(jīng)驗。隨著AI Coding市場的快速發(fā)展，預計到2032年將超過295億美元，吸引了眾多投資者的關注。

【AiBase提要:】
?? 陳志杰即將離職字節(jié)跳動，專注于AI Coding創(chuàng)業(yè)。
?? AI Coding市場前景廣闊，預計到2032年將超295億美元。
?? 國內(nèi)市場投資人關注AI Coding，多個項目相繼涌現(xiàn)。

8、Fireworks AI推出文檔解析神器!AI輕松讀懂復雜文件

Fireworks AI最近推出了“Document Inlining”功能，旨在解決處理非結(jié)構化文檔的難題。該功能能夠?qū)DF、截圖和圖像等文檔轉(zhuǎn)化為大語言模型可理解的結(jié)構化文本，顯著提高了AI處理文檔的效率和準確性。其核心在于強大的復合AI系統(tǒng)，能夠自動識別和解析多種內(nèi)容，操作簡單且兼容OpenAI API，用戶無需額外學習成本。

【AiBase提要:】
?? 高質(zhì)量輸出: Document Inlining提供的文本質(zhì)量優(yōu)于傳統(tǒng)文本型LLM輸出，尤其在推理和生成任務中表現(xiàn)出色。
?? 多種文檔格式支持: 該工具支持PDF、圖片等多種格式，能夠準確提取復雜文檔中的關鍵信息。
?? 復雜文檔解析能力: 能夠解析含有表格和圖表的復雜文檔，并將其轉(zhuǎn)換為LLM可理解的文本。
詳情鏈接:https://fireworks.ai/blog/document-inlining-launch#quality-evaluation

9、果然最強!OpenAI 新模型o3在ARC-AGI基準測試得分破紀錄

OpenAI最新發(fā)布的模型o3在ARC-AGI基準測試中取得了顯著成績，標準計算條件下得分75.7%，高計算版本更是達到87.5%。盡管這一成就震驚了AI研究界，但專家指出o3仍未達到通用人工智能（AGI）的標準。o3的計算成本高昂，解決每個謎題需17至20美元，且在某些簡單任務上表現(xiàn)不佳。

【AiBase提要:】
?? o3在ARC-AGI基準測試中獲得75.7%的高分，表現(xiàn)超越以往模型。
?? o3解決每個謎題的成本高達17到20美元，計算量巨大。
?? 盡管o3表現(xiàn)優(yōu)秀，但專家們強調(diào)其尚未達到AGI的標準。

10、打錯字也能 “越獄”GPT-4o、Claude:揭秘AI聊天機器人的脆弱性!

最近的研究揭示了先進AI聊天機器人在面對簡單拼寫錯誤時的脆弱性。通過一種名為“最佳選擇（Best-of-N，BoN）越獄”的算法，研究人員發(fā)現(xiàn)，故意加入拼寫錯誤可以讓這些模型忽視安全防護，生成本應拒絕的內(nèi)容。這一發(fā)現(xiàn)不僅突顯了AI與人類價值觀對齊的困難，也表明即使是高級AI系統(tǒng)也容易受到欺騙。

【AiBase提要:】
?? 研究發(fā)現(xiàn)，通過拼寫錯誤等簡單技巧，AI聊天機器人可被輕易 “越獄”。
?? BoN越獄技術在多種AI模型中成功率達52%，有些甚至高達89%。
?? 此技術在音頻和圖像輸入中同樣有效，顯示出AI的脆弱性。

11、尷尬!谷歌被曝用Claude模型進行對比測試來改進Gemini AI

近日，谷歌的Gemini人工智能項目正在通過與Anthropic公司的Claude模型進行對比測試，以提升自身的性能。負責Gemini改進的承包商正在評估這兩種模型的輸出，比較的標準包括真實性和安全性。盡管谷歌是Anthropic的主要投資者之一，但谷歌發(fā)言人表示并未對Gemini進行Claude模型的訓練。

【AiBase提要:】
?? Gemini正在與Claude進行對比測試，以提升自身AI模型的性能。
?? 承包商負責評分，兩者的回答比較涉及多個標準，包括真實性和安全性。
?? Anthropic禁止在未授權的情況下使用Claude進行競爭性模型的訓練。

12、研究發(fā)現(xiàn)，OpenAI 的 o1-preview 在診斷復雜醫(yī)療病例方面優(yōu)于醫(yī)生

一項新研究表明，OpenAI 的 o1-preview 人工智能系統(tǒng)在復雜醫(yī)療案例的診斷上表現(xiàn)優(yōu)于人類醫(yī)生，達到了88.6%的準確率。該系統(tǒng)在醫(yī)療推理方面同樣出色，獲得了80個病例中78個滿分。盡管o1-preview在某些方面表現(xiàn)優(yōu)秀，但在實際應用中仍面臨高成本和不切實際的測試建議等問題。

【AiBase提要:】
?? o1-preview 在診斷率上超過醫(yī)生，達到88.6%的準確率。
?? 醫(yī)療推理方面，o1-preview 在80個病例中獲得78個滿分，遠超醫(yī)生表現(xiàn)。
?? 盡管表現(xiàn)優(yōu)秀，o1-preview 在實際應用中的高成本和不切實際的測試建議仍需解決。
詳情鏈接:https://arxiv.org/abs/2412.10849

（舉報）

相關推薦

關鍵詞：

親自下場！曝OpenAI考慮開發(fā)人形機器人

人工智能初創(chuàng)公司OpenAI近期考慮了制造能夠執(zhí)行多種任務的人形機器人的可能性。在過去的一年間，OpenAI不僅重啟了四年前解散的內(nèi)部機器人軟件專項團隊積極投資于專注機器人軟硬件開發(fā)的初創(chuàng)企業(yè)，如Figure與PhysicalIntelligence，顯示出其在該領域的雄心壯志。這一系列動作無疑為OpenAI在人形機器人領域的探索增添了更多想象空間與技術底氣。

?人工智能 ?人形機器人 ?OpenAI
薦AI日報：OpenAI重磅上線Sora；智譜AI免費多模態(tài)模型GLM-4V-Flash；騰訊云打造AI代碼助手

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、OpenAI正式上線Sora，ChatGPTPro用戶可無限生成、最長20秒OpenAI在"ship-mas"系列活動中發(fā)布了SoraTurbo視頻生成AI，支持生成20秒1080p視頻，用戶可通過文本、圖片或視頻進行創(chuàng)作，具有多種風格和剪輯功能。See3D已開源，支持多種3D創(chuàng)作應用。
薦谷歌“狙擊”OpenAI，發(fā)布新一代大模型，主打Agent+多模態(tài)

繼量子芯片之后，谷歌又來搶“OpenAI雙12直播”的流量了!就在剛剛，谷歌新一代大模型Gemini2.0突然登場，再次由谷歌CEO皮猜親自官宣。新一代模型專為AIAgent打造，谷歌表示目前已經(jīng)將2.0版本提供給了一些開發(fā)者內(nèi)測，正在迅速將其集成在Gemini和搜索等產(chǎn)品線中。從OpenAI跳槽到谷歌的LoganKilpatrick表示，他們在GoogleAIStudio中創(chuàng)建了一個全新體驗，展示了Gemini2.0視頻理解、原生工具?

?谷歌 ?Gemini ?2.0
薦AI日報：支付寶推AI創(chuàng)意生成平臺；谷歌王炸推理模型Gemini2.0 Flash Thinking；Runway支持插入中間幀；OpenAI準備o3推理模型

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、谷歌發(fā)布王炸推理模型Gemini2.0FlashThinking，挑戰(zhàn)OpenAIo1谷歌近期推出的Gemini2.0FlashThinking模型在多模態(tài)推理領域展現(xiàn)出強大的能力，支持32，000個輸入標記和8，000個輸出標記，極大提升了處理復雜問題的效率。與前代產(chǎn)品相比，F(xiàn)alcon3的訓練規(guī)模翻倍，展現(xiàn)出強勁的競爭力，尤其是在與其他主流開源模型的基準測試中表現(xiàn)優(yōu)異。

?AI技術 ?人工智能 ?機器學習
薦AI日報：百川智能金融大模型發(fā)布；ChatGPT新增跨對話記憶功能；DeepSeek大模型一開發(fā)者將加盟小米；OpenAI最強推理模型o3

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、OpenAI發(fā)布o3:AI推理能力的重大突破，得分高達87.5%OpenAI最近推出了其最新的o-Model推理系列模型o3，標志著在數(shù)學和科學推理領域的重大進展。閃極還推出了一個吸引人的促銷活動，用戶在300天內(nèi)打卡200天可獲得全額退款。

?人工智能 ?OpenAI ?推理能力
普渡機器人發(fā)布首款全人形機器人PUDU D9

12月19日，全球服務機器人領軍企業(yè)普渡機器人正式發(fā)布首款全尺寸雙足人形機器人PUDUD9。該產(chǎn)品由普渡X實驗室研發(fā)，是團隊繼類人形機器人PUDUD7，五指靈巧手PUDUDH11后，在今年孵化的第三款產(chǎn)品。普渡機器人產(chǎn)品已廣泛應用于餐飲、零售、酒店、醫(yī)療、娛樂體育、工業(yè)制造、教育等多個行業(yè)和場景，累計出貨量超8萬臺。

?普渡機器人 ?人形機器人 ?服務機器人
薦AI日報：字節(jié)重磅推出豆包視覺理解模型；AI“魔改”寵物跳舞爆火；OpenAI開放滿血o1模型API；即夢AI上線海報生成功能

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。9、英偉達發(fā)布生成式AI超級電腦:僅249美元性能提升1.7倍英偉達推出的JetsonOrinNanoSuper是一款面向開發(fā)者的生成式人工智能超級電腦，定價249美元，性能提升顯著，適用于多種AI應用場景。此次股票出售不僅激勵了員工，也加強了公司與投資者之間的信任關系，顯示出OpenAI作為創(chuàng)新型公司的潛力與價值。

?人工智能 ?視覺推理 ?大模型
薦AI日報：王炸！Anthropic開源模型上下文協(xié)議MCP；阿里?通義App上線局部風格化功能； Kimi 數(shù)學版上線

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、萬物皆可一鍵毛茸茸!阿里通義App上線“局部風格化”功能通義App最近推出的“局部風格化”功能引發(fā)了社交平臺的熱潮。這項研究強調(diào)了AI電腦在任務處理、隱私保護和自適應學?

?人工智能 ?AI產(chǎn)品 ?圖像編輯
薦AI日報：AI假冒名人直播帶貨違法；OpenAI o3 模型能耗驚人；AI技術將助推iPhone銷量

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內(nèi)容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、AI假冒名人直播帶貨屬違法行為可要求退一賠三近年來，AI技術的迅速發(fā)展帶來了深度偽造技術的應用，這種技術通過算法生成逼真的虛假內(nèi)容，導致了名人形象被冒用的現(xiàn)象。彼得·蒂爾的影響力在這些公司中無處不在，他推動的科技優(yōu)先理念引發(fā)了對國家安全與倫理的深思。

?AI技術 ?假冒名人 ?違法行為
全球首次：人形機器人集群長期駐場表演

2024年12月15日，由張藝謀導演和何超瓊女士聯(lián)合呈現(xiàn)的駐場秀《澳門2049》，正式開啟了長期循環(huán)駐場表演，獻禮全國人民。在展現(xiàn)中國非遺文化秧歌的“秧歌?數(shù)控”節(jié)目里，那12臺備受矚目的人形機器人，皆出自宇樹科技精心打造的首款人形機器人H1。這一演出標志著表演藝術進入了一個全新的時代，開啟了人類創(chuàng)意與人工智能協(xié)作的無限可能之門，必將在全球科技史、藝術?

?澳門2049

熱文

3 天
7天

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

AI日報：阿里通義開源多模態(tài)推理模型QVQ-72B；OpenAI考慮自研人形機器人；QQ音樂上線首個AI大模型音效

親自下場！曝OpenAI考慮開發(fā)人形機器人

薦AI日報：OpenAI重磅上線Sora；智譜AI免費多模態(tài)模型GLM-4V-Flash；騰訊云打造AI代碼助手

薦谷歌“狙擊”OpenAI，發(fā)布新一代大模型，主打Agent+多模態(tài)

薦AI日報：支付寶推AI創(chuàng)意生成平臺；谷歌王炸推理模型Gemini2.0 Flash Thinking；Runway支持插入中間幀；OpenAI準備o3推理模型

薦AI日報：百川智能金融大模型發(fā)布；ChatGPT新增跨對話記憶功能；DeepSeek大模型一開發(fā)者將加盟小米；OpenAI最強推理模型o3

普渡機器人發(fā)布首款全人形機器人PUDU D9

薦AI日報：字節(jié)重磅推出豆包視覺理解模型；AI“魔改”寵物跳舞爆火；OpenAI開放滿血o1模型API；即夢AI上線海報生成功能

薦AI日報：王炸！Anthropic開源模型上下文協(xié)議MCP；阿里?通義App上線局部風格化功能； Kimi 數(shù)學版上線

薦AI日報：AI假冒名人直播帶貨違法；OpenAI o3 模型能耗驚人；AI技術將助推iPhone銷量

全球首次：人形機器人集群長期駐場表演

熱文

吳柳芳賬號再次被禁粉絲從600萬被清理至4萬抖音：低俗內(nèi)容吸

劉強東提前發(fā)年終獎絕大多數(shù)員工可獲5到8個月年終獎

京東發(fā)布年終獎通知部分員工年前可收到年終獎

肯德基中國漲價官方回應：運營成本變化導致

小米SU7最新版本OTA推送：正式接入VLM視覺語言大模型

李斌回應螢火蟲外觀設計：看過實車的人都喜歡這個設計

央視曝光未成年人繞開防沉迷只需4元：通過租用游戲賬號規(guī)避

微信可以線上送實體禮物了：微信小店“藍包”功能正灰度測試逐

騰訊QQ 2024年度報告發(fā)布：以脫口秀形式呈現(xiàn)

美團回應騎手穿點男模字樣工服：博流量惡意炒作

吳柳芳賬號再次被禁粉絲從600萬被清理至4萬抖音：低俗內(nèi)容吸

小紅書封號上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

劉強東提前發(fā)年終獎絕大多數(shù)員工可獲5到8個月年終獎

京東發(fā)布年終獎通知部分員工年前可收到年終獎

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

肯德基中國漲價官方回應：運營成本變化導致

小米SU7最新版本OTA推送：正式接入VLM視覺語言大模型

李斌回應螢火蟲外觀設計：看過實車的人都喜歡這個設計

消息稱OpenAI新模型GPT-5研發(fā)未達到預期：成本高昂效果欠佳

央視曝光未成年人繞開防沉迷只需4元：通過租用游戲賬號規(guī)避

站長商機

AI日報：阿里通義開源多模態(tài)推理模型QVQ-72B；OpenAI考慮自研人形機器人；QQ音樂上線首個AI大模型音效

熱文

站長商機

AI日報：阿里通義開源多模態(tài)推理模型QVQ-72B；OpenAI考慮自研人形機器人；QQ音樂上線首個AI大模型音效