歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/
1、開發(fā)者狂喜!GPT-4o新版本上線,API 更快更便宜
OpenAI 近期推出了全新的結(jié)構(gòu)化輸出功能,旨在使模型生成的輸出嚴(yán)格遵循開發(fā)者提供的 JSON 模式,提升輸出的可靠性和匹配度。這一功能的推出為開發(fā)者構(gòu)建可靠應(yīng)用程序提供了重要基礎(chǔ),簡化了開發(fā)過程,幫助開發(fā)者更輕松地創(chuàng)建出色的應(yīng)用。
【AiBase提要:】
?? 結(jié)構(gòu)化輸出功能使模型輸出更可靠,遵循開發(fā)者提供的 JSON 模式。
?? 新模型 gpt-4o-2024-08-06在復(fù)雜 JSON 模式的評估中獲得完美100% 分?jǐn)?shù)。
?? Python 和 Node SDK 已更新,支持結(jié)構(gòu)化輸出,簡化開發(fā)者的工作流程。
詳情鏈接:https://openai.com/index/introducing-structured-outputs-in-the-api/
2、面壁智能開源 MiniCPM-V2.6可以在手機(jī)上跑的“GPT-4V”
MiniCPM-V2.6是一款端側(cè)多模態(tài)人工智能模型,僅有8B參數(shù)卻取得了20B以下單圖、多圖、視頻理解三項(xiàng)SOTA成績,與GPT-4V水平全面對標(biāo)。該模型在端側(cè)實(shí)現(xiàn)了單圖、多圖和視頻理解等核心能力的全面超越,具有極高的像素密度和運(yùn)行效率,支持多種語言和推理框架。
【AiBase提要:】
?? MiniCPM-V2.6取得了20B以下單圖、多圖、視頻理解三項(xiàng)SOTA成績,與GPT-4V水平全面對標(biāo)
?? 模型具有極高的像素密度和運(yùn)行效率,在端側(cè)設(shè)備上實(shí)現(xiàn)了極高的運(yùn)行效率
?? MiniCPM-V2.6支持多種語言和推理框架,通過OCR能力實(shí)現(xiàn)了從單圖到多圖及視頻的流暢拓展
詳情鏈接:
GitHub:https://github.com/OpenBMB/MiniCPM-V
HuggingFace: https://huggingface.co/openbmb/MiniCPM-V-2_6
llama.cpp、ollama、vllm 部署教程地址:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
MiniCPM 系列開源地址:
https://github.com/OpenBMB/MiniCPM
3、華為、復(fù)旦聯(lián)手打造3D數(shù)字人新框架EmoTalk3D:喜怒哀樂表情逼真豐富
研究團(tuán)隊(duì)從南京大學(xué)、復(fù)旦大學(xué)和華為諾亞方舟實(shí)驗(yàn)室聯(lián)手打造了EmoTalk3D框架,解決了多視角一致性和情感表現(xiàn)力不足的難題。他們提出了合成可控情感數(shù)字人的新方法,構(gòu)建了從語音到幾何再到外觀的映射框架,并建立了EmoTalk3D數(shù)據(jù)集。
【AiBase提要:】
?? 提出合成可控情感數(shù)字人的新方法。
?? 構(gòu)建“從語音到幾何再到外觀”的映射框架。
?? 建立EmoTalk3D數(shù)據(jù)集并準(zhǔn)備開放。
詳情鏈接:https://nju-3dv.github.io/projects/EmoTalk3D/
4、阿里云PAI Artlab新增奧運(yùn)高光時刻海報工作流
阿里云PAI Artlab的ComfyUI新增了一個奧運(yùn)高光時刻海報的工作流,用戶只需三步即可生成個性化的奧運(yùn)主題海報。用戶需要先在阿里云官網(wǎng)注冊并完成實(shí)名認(rèn)證,然后訪問PAI ArtLab平臺,領(lǐng)取免費(fèi)資源,并通過ComfyUI加載奧運(yùn)流程來解鎖更多海報設(shè)計(jì)。
【AiBase提要:】
?? 用戶只需三步即可生成個性化的奧運(yùn)主題海報。
?? 需要上傳圖片數(shù)據(jù)、加載并微調(diào)AI模型,調(diào)整生成內(nèi)容的Prompt,保存工作流并生成json文件。
?? 其他用戶可以通過生成的json文件快速生成海報,實(shí)現(xiàn)共享與交流。
產(chǎn)品入口:https://x.sm.cn/5hd9PfM
詳情點(diǎn)此查看:https://www.aibase.com/zh/news/10857
5、騰訊元寶AI助手上線長文精讀 支持最長近50萬字輸入
騰訊元寶AI助手推出了長文精讀功能,用戶上傳專業(yè)內(nèi)容后可進(jìn)入深度閱讀模式,提供核心內(nèi)容概覽、模塊化解析和總結(jié)性圖表,幫助用戶快速理解關(guān)鍵信息。利用騰訊混元大模型處理能力,支持最長近50萬字輸入,生成圖文并茂的內(nèi)容。用戶可評估論文質(zhì)量、查看專業(yè)圖表和在離線狀態(tài)下回看精讀內(nèi)容。騰訊混元大模型已全面開源,展現(xiàn)卓越的多模態(tài)理解能力。
【AiBase提要:】
?? 長文精讀功能提供深度閱讀模式,核心內(nèi)容概覽、模塊化解析和總結(jié)性圖表。
?? 利用騰訊混元大模型處理能力,支持最長近50萬字輸入,生成圖文并茂的內(nèi)容。
?? 用戶可評估論文質(zhì)量、查看專業(yè)圖表和在離線狀態(tài)下回看精讀內(nèi)容。
6、月之暗面 Kimi 開放平臺:上下文緩存 Cache 存儲費(fèi)用降價50%
Kimi 開放平臺宣布上下文緩存存儲費(fèi)用降價50%,為用戶提供更經(jīng)濟(jì)實(shí)惠的服務(wù)。上下文緩存是高效的數(shù)據(jù)管理技術(shù),能夠提高系統(tǒng)效率和節(jié)省時間資源。
【AiBase提要:】
?? 上下文緩存存儲費(fèi)用降價50%,從10元/1M tokens/min降至5元/1M tokens/min。
? 上下文緩存是一種高效的數(shù)據(jù)管理技術(shù),能夠預(yù)先存儲可能被頻繁請求的大量數(shù)據(jù),提高系統(tǒng)效率。
?? 上下文緩存特別適合頻繁請求、重復(fù)引用大量初始上下文的場景,可降低長文本模型費(fèi)用并提高效率。
7、Figure公司發(fā)布超強(qiáng)實(shí)體ChatGPT機(jī)器人Figure02
Figure公司最新推出的Figure02機(jī)器人標(biāo)志著AI技術(shù)的重大突破,預(yù)示著人機(jī)交互進(jìn)入全新時代。該機(jī)器人在硬件和軟件上進(jìn)行了全面革新,具有靈活手部操作、強(qiáng)大對話視覺能力和3倍計(jì)算推理能力。
【AiBase提要:】
?? Figure02機(jī)器人是AI技術(shù)重大突破,預(yù)示人機(jī)交互新時代。
?? 語音對話功能、先進(jìn)視覺系統(tǒng)、革命性手部設(shè)計(jì)是其核心特點(diǎn)。
?? Figure02集成OpenAI大模型,結(jié)合語音指令和視覺信息進(jìn)行深度推理。
8、AI設(shè)計(jì)加持義烏制造:AI設(shè)計(jì)穿戴甲火到巴黎奧運(yùn)
這篇文章介紹了一款由AI設(shè)計(jì)、義烏生產(chǎn)的穿戴甲在巴黎街頭引發(fā)熱議的故事,展示了義烏制造業(yè)注入新活力的場景。通過AI技術(shù)設(shè)計(jì)的穿戴甲產(chǎn)品在巴黎引起轟動,證明了義烏的創(chuàng)新實(shí)力和市場敏銳度。
【AiBase提要:】
?? AI設(shè)計(jì)穿戴甲在巴黎引發(fā)熱議,成為時尚界新寵,為義烏制造注入活力。
?? LumiNail是一款傻瓜式AI穿戴甲設(shè)計(jì)產(chǎn)品,簡單yet強(qiáng)大,提高設(shè)計(jì)效率,注入創(chuàng)意活力。
?? 義烏商家開始嘗試AI輔助生產(chǎn),超過1萬戶商戶使用AI技術(shù)優(yōu)化經(jīng)營,開辟新發(fā)展方向。
9、上海人工智能實(shí)驗(yàn)室推出書生·浦語系列模型新版本InternLM2.5
上海人工智能實(shí)驗(yàn)室在2024年7月4日的WAIC科學(xué)前沿主論壇上推出了書生·浦語系列模型的新版本InternLM2.5,該版本在復(fù)雜場景下的推理能力得到全面增強(qiáng),支持超長上下文和自主進(jìn)行互聯(lián)網(wǎng)搜索整合信息。模型參數(shù)版本包括1.8B、7B和20B,適應(yīng)不同應(yīng)用場景和開發(fā)者需求。
【AiBase提要:】
?? InternLM2.5發(fā)布三種參數(shù)版本的模型,包括1.8B、7B和20B,滿足不同應(yīng)用場景需求。
?? InternLM2.5在多個數(shù)據(jù)合成技術(shù)上進(jìn)行迭代,顯著提升模型的推理能力,特別在數(shù)學(xué)評測集MATH上的準(zhǔn)確率達(dá)到64.7%。
??? InternLM2.5實(shí)現(xiàn)了與下游推理和微調(diào)框架的無縫對接,包括XTuner微調(diào)框架、LMDeploy推理框架和其他社區(qū)框架。
詳情鏈接:https://internlm.intern-ai.org.cn
10、以色列公司推出速度提升50%的開源語音識別模型Whisper Medusa
aiOla公司推出的Whisper Medusa開源語音識別模型在處理速度上取得了重大突破,比OpenAI的Whisper模型快50%,引起了業(yè)界廣泛關(guān)注。這一創(chuàng)新將為語音識別技術(shù)的發(fā)展帶來深遠(yuǎn)影響,為人工智能在語音識別領(lǐng)域的應(yīng)用開辟新的可能性。
【AiBase提要:】
?? Whisper Medusa的核心創(chuàng)新在于引入了多頭注意力機(jī)制,使模型能夠每次預(yù)測十個tokens,顯著提高了語音預(yù)測速度和生成運(yùn)行時間。
?? Whisper Medusa在提高速度的同時并未犧牲性能,主干系統(tǒng)建立在Whisper的基礎(chǔ)上,保證了模型的準(zhǔn)確性和穩(wěn)定性。
?? aiOla采用弱監(jiān)督的機(jī)器學(xué)習(xí)方法訓(xùn)練Whisper Medusa,進(jìn)一步提高了模型的學(xué)習(xí)效率和準(zhǔn)確性。
詳情鏈接:https://github.com/aiola-lab/whisper-medusa
11、新流量密碼?AI視頻翻車意外走紅:一段詭異畫面引發(fā)2000萬次觀看
AI生成的內(nèi)容已經(jīng)滲透到我們的生活中,但最近一段AI翻車視頻卻成為網(wǎng)絡(luò)熱點(diǎn),吸引了近2000萬次觀看,揭示了人們對AI技術(shù)的復(fù)雜態(tài)度。這段視頻展示了AI圖像生成技術(shù)的失控一面,引發(fā)了網(wǎng)友們的強(qiáng)烈反應(yīng)。公眾對AI技術(shù)的態(tài)度正在發(fā)生微妙的變化,需要保持幽默感和開放心態(tài)。
【AiBase提要:】
?? AI視頻翻車成網(wǎng)絡(luò)熱點(diǎn),吸引2000萬次觀看。
?? 視頻展示AI失控畫面,引發(fā)強(qiáng)烈反應(yīng)。
?? 公眾態(tài)度對AI發(fā)生微妙變化,需保持幽默感和開放心態(tài)。
12、摩爾線程AI創(chuàng)作平臺摩筆馬良全新升級
摩筆馬良全新升級,提供更高效、個性化的圖像生成體驗(yàn),強(qiáng)化對中文和中國文化的理解,實(shí)現(xiàn)精準(zhǔn)創(chuàng)意人像生成。用戶操作簡單,上傳照片、輸入描述、生成圖片,快速實(shí)現(xiàn)個性化創(chuàng)意人像。新增20多種預(yù)置風(fēng)格滿足多樣化創(chuàng)意需求,AI算法和交互體驗(yàn)顯著提升,圖像生成高速高分辨率。界面優(yōu)化簡化操作流程,提升交互直觀性和便捷性,為個人用戶和專業(yè)人士帶來前所未有的創(chuàng)意體驗(yàn)。
【AiBase提要:】
?? 提供更高效、個性化的圖像生成體驗(yàn),強(qiáng)化對中文和中國文化的理解,實(shí)現(xiàn)精準(zhǔn)創(chuàng)意人像生成。
??? 新增20多種預(yù)置風(fēng)格,滿足用戶多樣化創(chuàng)意需求。
?? AI算法和交互體驗(yàn)顯著提升,圖像生成高速高分辨率。
13、Reddit將測試AI驅(qū)動的搜索結(jié)果頁面
Reddit的創(chuàng)始人兼首席執(zhí)行官Steve Huffman透露,Reddit將推出AI驅(qū)動的搜索結(jié)果頁面,提供AI生成的內(nèi)容摘要。這一舉措旨在幫助用戶更輕松地找到感興趣的內(nèi)容,并推薦相關(guān)社區(qū),進(jìn)一步深入了解內(nèi)容和探索更多Reddit社區(qū)。
【AiBase提要:】
?? Reddit將推出AI驅(qū)動的搜索結(jié)果頁面,提供AI生成的內(nèi)容摘要。
?? Reddit與OpenAI合作,利用其大型語言模型構(gòu)建新功能。
?? Reddit每周活躍用戶達(dá)3.423億,收入超出市場預(yù)期。
14、亞馬遜升級AI圖像生成器Titan Image Generator v2,支持參考圖像來“引導(dǎo)”生成作品
亞馬遜推出了升級版Titan Image Generator v2,為用戶帶來多項(xiàng)新功能,包括圖像調(diào)節(jié)、配色方案控制、背景去除等。該模型還支持用戶通過參考圖像和文本提示來生成符合用戶布局和結(jié)構(gòu)要求的圖像。AWS提供賠償政策保護(hù)版權(quán),Andy Jassy對生成AI技術(shù)充滿信心。
【AiBase提要:】
?? 用戶可以通過圖像調(diào)節(jié)功能精確控制創(chuàng)作內(nèi)容,提供參考圖像和文本提示后生成符合用戶布局和結(jié)構(gòu)要求的圖像。
?? 用戶可以控制生成圖像的配色方案,只需提供十六進(jìn)制顏色代碼即可。
?? 背景去除功能得到顯著提升,用戶可以輕松從包含多個對象的圖像中移除背景,確保主要對象清晰展現(xiàn)
詳情鏈接:https://top.aibase.com/tool/amazon-titan-text-premier
(舉報)