AI日報：GPT-4o新版本上線；面壁智能開源手機(jī)版“GPT-4V”；華為推3D數(shù)字人新框架?EmoTalk3D；阿里上線奧運(yùn)時刻海報工作流

2024-08-07 15:02 · 稿源：站長之家

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。

新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/

1、開發(fā)者狂喜!GPT-4o新版本上線，API 更快更便宜

OpenAI 近期推出了全新的結(jié)構(gòu)化輸出功能，旨在使模型生成的輸出嚴(yán)格遵循開發(fā)者提供的 JSON 模式，提升輸出的可靠性和匹配度。這一功能的推出為開發(fā)者構(gòu)建可靠應(yīng)用程序提供了重要基礎(chǔ)，簡化了開發(fā)過程，幫助開發(fā)者更輕松地創(chuàng)建出色的應(yīng)用。

【AiBase提要:】
?? 結(jié)構(gòu)化輸出功能使模型輸出更可靠，遵循開發(fā)者提供的 JSON 模式。
?? 新模型 gpt-4o-2024-08-06在復(fù)雜 JSON 模式的評估中獲得完美100% 分?jǐn)?shù)。
?? Python 和 Node SDK 已更新，支持結(jié)構(gòu)化輸出，簡化開發(fā)者的工作流程。
詳情鏈接:https://openai.com/index/introducing-structured-outputs-in-the-api/

2、面壁智能開源 MiniCPM-V2.6可以在手機(jī)上跑的“GPT-4V”

MiniCPM-V2.6是一款端側(cè)多模態(tài)人工智能模型，僅有8B參數(shù)卻取得了20B以下單圖、多圖、視頻理解三項(xiàng)SOTA成績，與GPT-4V水平全面對標(biāo)。該模型在端側(cè)實(shí)現(xiàn)了單圖、多圖和視頻理解等核心能力的全面超越，具有極高的像素密度和運(yùn)行效率，支持多種語言和推理框架。

【AiBase提要:】
?? MiniCPM-V2.6取得了20B以下單圖、多圖、視頻理解三項(xiàng)SOTA成績，與GPT-4V水平全面對標(biāo)
?? 模型具有極高的像素密度和運(yùn)行效率，在端側(cè)設(shè)備上實(shí)現(xiàn)了極高的運(yùn)行效率
?? MiniCPM-V2.6支持多種語言和推理框架，通過OCR能力實(shí)現(xiàn)了從單圖到多圖及視頻的流暢拓展
詳情鏈接:
GitHub:https://github.com/OpenBMB/MiniCPM-V
HuggingFace: https://huggingface.co/openbmb/MiniCPM-V-2_6
llama.cpp、ollama、vllm 部署教程地址:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
MiniCPM 系列開源地址:
https://github.com/OpenBMB/MiniCPM

3、華為、復(fù)旦聯(lián)手打造3D數(shù)字人新框架EmoTalk3D:喜怒哀樂表情逼真豐富

研究團(tuán)隊(duì)從南京大學(xué)、復(fù)旦大學(xué)和華為諾亞方舟實(shí)驗(yàn)室聯(lián)手打造了EmoTalk3D框架，解決了多視角一致性和情感表現(xiàn)力不足的難題。他們提出了合成可控情感數(shù)字人的新方法，構(gòu)建了從語音到幾何再到外觀的映射框架，并建立了EmoTalk3D數(shù)據(jù)集。

【AiBase提要:】
?? 提出合成可控情感數(shù)字人的新方法。
?? 構(gòu)建“從語音到幾何再到外觀”的映射框架。
?? 建立EmoTalk3D數(shù)據(jù)集并準(zhǔn)備開放。
詳情鏈接:https://nju-3dv.github.io/projects/EmoTalk3D/

4、阿里云PAI Artlab新增奧運(yùn)高光時刻海報工作流

阿里云PAI Artlab的ComfyUI新增了一個奧運(yùn)高光時刻海報的工作流，用戶只需三步即可生成個性化的奧運(yùn)主題海報。用戶需要先在阿里云官網(wǎng)注冊并完成實(shí)名認(rèn)證，然后訪問PAI ArtLab平臺，領(lǐng)取免費(fèi)資源，并通過ComfyUI加載奧運(yùn)流程來解鎖更多海報設(shè)計(jì)。

【AiBase提要:】
?? 用戶只需三步即可生成個性化的奧運(yùn)主題海報。
?? 需要上傳圖片數(shù)據(jù)、加載并微調(diào)AI模型，調(diào)整生成內(nèi)容的Prompt，保存工作流并生成json文件。
?? 其他用戶可以通過生成的json文件快速生成海報，實(shí)現(xiàn)共享與交流。
產(chǎn)品入口：https://x.sm.cn/5hd9PfM
詳情點(diǎn)此查看：https://www.aibase.com/zh/news/10857

5、騰訊元寶AI助手上線長文精讀支持最長近50萬字輸入

騰訊元寶AI助手推出了長文精讀功能，用戶上傳專業(yè)內(nèi)容后可進(jìn)入深度閱讀模式，提供核心內(nèi)容概覽、模塊化解析和總結(jié)性圖表，幫助用戶快速理解關(guān)鍵信息。利用騰訊混元大模型處理能力，支持最長近50萬字輸入，生成圖文并茂的內(nèi)容。用戶可評估論文質(zhì)量、查看專業(yè)圖表和在離線狀態(tài)下回看精讀內(nèi)容。騰訊混元大模型已全面開源，展現(xiàn)卓越的多模態(tài)理解能力。

【AiBase提要:】
?? 長文精讀功能提供深度閱讀模式，核心內(nèi)容概覽、模塊化解析和總結(jié)性圖表。
?? 利用騰訊混元大模型處理能力，支持最長近50萬字輸入，生成圖文并茂的內(nèi)容。
?? 用戶可評估論文質(zhì)量、查看專業(yè)圖表和在離線狀態(tài)下回看精讀內(nèi)容。

6、月之暗面 Kimi 開放平臺:上下文緩存 Cache 存儲費(fèi)用降價50%

Kimi 開放平臺宣布上下文緩存存儲費(fèi)用降價50%，為用戶提供更經(jīng)濟(jì)實(shí)惠的服務(wù)。上下文緩存是高效的數(shù)據(jù)管理技術(shù)，能夠提高系統(tǒng)效率和節(jié)省時間資源。

【AiBase提要:】
?? 上下文緩存存儲費(fèi)用降價50%，從10元/1M tokens/min降至5元/1M tokens/min。
? 上下文緩存是一種高效的數(shù)據(jù)管理技術(shù)，能夠預(yù)先存儲可能被頻繁請求的大量數(shù)據(jù)，提高系統(tǒng)效率。
?? 上下文緩存特別適合頻繁請求、重復(fù)引用大量初始上下文的場景，可降低長文本模型費(fèi)用并提高效率。

7、Figure公司發(fā)布超強(qiáng)實(shí)體ChatGPT機(jī)器人Figure02

Figure公司最新推出的Figure02機(jī)器人標(biāo)志著AI技術(shù)的重大突破，預(yù)示著人機(jī)交互進(jìn)入全新時代。該機(jī)器人在硬件和軟件上進(jìn)行了全面革新，具有靈活手部操作、強(qiáng)大對話視覺能力和3倍計(jì)算推理能力。

【AiBase提要:】
?? Figure02機(jī)器人是AI技術(shù)重大突破，預(yù)示人機(jī)交互新時代。
?? 語音對話功能、先進(jìn)視覺系統(tǒng)、革命性手部設(shè)計(jì)是其核心特點(diǎn)。
?? Figure02集成OpenAI大模型，結(jié)合語音指令和視覺信息進(jìn)行深度推理。

8、AI設(shè)計(jì)加持義烏制造:AI設(shè)計(jì)穿戴甲火到巴黎奧運(yùn)

這篇文章介紹了一款由AI設(shè)計(jì)、義烏生產(chǎn)的穿戴甲在巴黎街頭引發(fā)熱議的故事，展示了義烏制造業(yè)注入新活力的場景。通過AI技術(shù)設(shè)計(jì)的穿戴甲產(chǎn)品在巴黎引起轟動，證明了義烏的創(chuàng)新實(shí)力和市場敏銳度。

【AiBase提要:】
?? AI設(shè)計(jì)穿戴甲在巴黎引發(fā)熱議，成為時尚界新寵，為義烏制造注入活力。
?? LumiNail是一款傻瓜式AI穿戴甲設(shè)計(jì)產(chǎn)品，簡單yet強(qiáng)大，提高設(shè)計(jì)效率，注入創(chuàng)意活力。
?? 義烏商家開始嘗試AI輔助生產(chǎn)，超過1萬戶商戶使用AI技術(shù)優(yōu)化經(jīng)營，開辟新發(fā)展方向。

9、上海人工智能實(shí)驗(yàn)室推出書生·浦語系列模型新版本InternLM2.5

上海人工智能實(shí)驗(yàn)室在2024年7月4日的WAIC科學(xué)前沿主論壇上推出了書生·浦語系列模型的新版本InternLM2.5，該版本在復(fù)雜場景下的推理能力得到全面增強(qiáng)，支持超長上下文和自主進(jìn)行互聯(lián)網(wǎng)搜索整合信息。模型參數(shù)版本包括1.8B、7B和20B，適應(yīng)不同應(yīng)用場景和開發(fā)者需求。

【AiBase提要:】
?? InternLM2.5發(fā)布三種參數(shù)版本的模型，包括1.8B、7B和20B，滿足不同應(yīng)用場景需求。
?? InternLM2.5在多個數(shù)據(jù)合成技術(shù)上進(jìn)行迭代，顯著提升模型的推理能力，特別在數(shù)學(xué)評測集MATH上的準(zhǔn)確率達(dá)到64.7%。
??? InternLM2.5實(shí)現(xiàn)了與下游推理和微調(diào)框架的無縫對接，包括XTuner微調(diào)框架、LMDeploy推理框架和其他社區(qū)框架。
詳情鏈接:https://internlm.intern-ai.org.cn

10、以色列公司推出速度提升50%的開源語音識別模型Whisper Medusa

aiOla公司推出的Whisper Medusa開源語音識別模型在處理速度上取得了重大突破，比OpenAI的Whisper模型快50%，引起了業(yè)界廣泛關(guān)注。這一創(chuàng)新將為語音識別技術(shù)的發(fā)展帶來深遠(yuǎn)影響，為人工智能在語音識別領(lǐng)域的應(yīng)用開辟新的可能性。

【AiBase提要:】
?? Whisper Medusa的核心創(chuàng)新在于引入了多頭注意力機(jī)制，使模型能夠每次預(yù)測十個tokens，顯著提高了語音預(yù)測速度和生成運(yùn)行時間。
?? Whisper Medusa在提高速度的同時并未犧牲性能，主干系統(tǒng)建立在Whisper的基礎(chǔ)上，保證了模型的準(zhǔn)確性和穩(wěn)定性。
?? aiOla采用弱監(jiān)督的機(jī)器學(xué)習(xí)方法訓(xùn)練Whisper Medusa，進(jìn)一步提高了模型的學(xué)習(xí)效率和準(zhǔn)確性。
詳情鏈接:https://github.com/aiola-lab/whisper-medusa

11、新流量密碼?AI視頻翻車意外走紅:一段詭異畫面引發(fā)2000萬次觀看

AI生成的內(nèi)容已經(jīng)滲透到我們的生活中，但最近一段AI翻車視頻卻成為網(wǎng)絡(luò)熱點(diǎn)，吸引了近2000萬次觀看，揭示了人們對AI技術(shù)的復(fù)雜態(tài)度。這段視頻展示了AI圖像生成技術(shù)的失控一面，引發(fā)了網(wǎng)友們的強(qiáng)烈反應(yīng)。公眾對AI技術(shù)的態(tài)度正在發(fā)生微妙的變化，需要保持幽默感和開放心態(tài)。

【AiBase提要:】
?? AI視頻翻車成網(wǎng)絡(luò)熱點(diǎn)，吸引2000萬次觀看。
?? 視頻展示AI失控畫面，引發(fā)強(qiáng)烈反應(yīng)。
?? 公眾態(tài)度對AI發(fā)生微妙變化，需保持幽默感和開放心態(tài)。

12、摩爾線程AI創(chuàng)作平臺摩筆馬良全新升級

摩筆馬良全新升級，提供更高效、個性化的圖像生成體驗(yàn)，強(qiáng)化對中文和中國文化的理解，實(shí)現(xiàn)精準(zhǔn)創(chuàng)意人像生成。用戶操作簡單，上傳照片、輸入描述、生成圖片，快速實(shí)現(xiàn)個性化創(chuàng)意人像。新增20多種預(yù)置風(fēng)格滿足多樣化創(chuàng)意需求，AI算法和交互體驗(yàn)顯著提升，圖像生成高速高分辨率。界面優(yōu)化簡化操作流程，提升交互直觀性和便捷性，為個人用戶和專業(yè)人士帶來前所未有的創(chuàng)意體驗(yàn)。

【AiBase提要:】
?? 提供更高效、個性化的圖像生成體驗(yàn)，強(qiáng)化對中文和中國文化的理解，實(shí)現(xiàn)精準(zhǔn)創(chuàng)意人像生成。
??? 新增20多種預(yù)置風(fēng)格，滿足用戶多樣化創(chuàng)意需求。
?? AI算法和交互體驗(yàn)顯著提升，圖像生成高速高分辨率。

13、Reddit將測試AI驅(qū)動的搜索結(jié)果頁面

Reddit的創(chuàng)始人兼首席執(zhí)行官Steve Huffman透露，Reddit將推出AI驅(qū)動的搜索結(jié)果頁面，提供AI生成的內(nèi)容摘要。這一舉措旨在幫助用戶更輕松地找到感興趣的內(nèi)容，并推薦相關(guān)社區(qū)，進(jìn)一步深入了解內(nèi)容和探索更多Reddit社區(qū)。

【AiBase提要:】
?? Reddit將推出AI驅(qū)動的搜索結(jié)果頁面，提供AI生成的內(nèi)容摘要。
?? Reddit與OpenAI合作，利用其大型語言模型構(gòu)建新功能。
?? Reddit每周活躍用戶達(dá)3.423億，收入超出市場預(yù)期。

14、亞馬遜升級AI圖像生成器Titan Image Generator v2，支持參考圖像來“引導(dǎo)”生成作品

亞馬遜推出了升級版Titan Image Generator v2，為用戶帶來多項(xiàng)新功能，包括圖像調(diào)節(jié)、配色方案控制、背景去除等。該模型還支持用戶通過參考圖像和文本提示來生成符合用戶布局和結(jié)構(gòu)要求的圖像。AWS提供賠償政策保護(hù)版權(quán)，Andy Jassy對生成AI技術(shù)充滿信心。

【AiBase提要:】
?? 用戶可以通過圖像調(diào)節(jié)功能精確控制創(chuàng)作內(nèi)容，提供參考圖像和文本提示后生成符合用戶布局和結(jié)構(gòu)要求的圖像。
?? 用戶可以控制生成圖像的配色方案，只需提供十六進(jìn)制顏色代碼即可。
?? 背景去除功能得到顯著提升，用戶可以輕松從包含多個對象的圖像中移除背景，確保主要對象清晰展現(xiàn)
詳情鏈接:https://top.aibase.com/tool/amazon-titan-text-premier

（舉報）

相關(guān)推薦
大家在看

關(guān)鍵詞：

GPT-4o

【騰訊云】11.11云上盛惠！云服務(wù)器首年1.8折起，買1年送3個月！

11.11云上盛惠！海量產(chǎn)品 · 輕松上云！云服務(wù)器首年1.8折起，買1年送3個月！超值優(yōu)惠，性能穩(wěn)定，讓您的云端之旅更加暢享?？靵眚v訊云選購吧！

Docker容器鏡像
去看看

Docker容器鏡像 60元/15天

爆款產(chǎn)品組合購
去看看

爆款產(chǎn)品組合購低至1元

騰訊云x NVIDIA加速計(jì)劃
去看看

騰訊云x NVIDIA加速計(jì)劃最高獲贈10萬元扶持基金

2核2G云服務(wù)器
去看看

2核2G云服務(wù)器 112元/1年

查看更多相關(guān)信息>>

騰訊云 12-20

廣告
薦擊敗GPT-4o、僅次于o1！英偉達(dá)重磅開源超強(qiáng)大模型--Nemotron

全球AI領(lǐng)導(dǎo)者英偉達(dá)開源了超強(qiáng)大模型——Llama-3.1-Nemotron-70B-Instruct。根據(jù)測試數(shù)據(jù)顯示，這個模型已經(jīng)擊敗GPT-4o、GPT-4turbo、Gemma-2、Gemini-1.5、Claude-3.5sonnet等140多個開閉源模型，僅次于OpenAI發(fā)布的最新模型o1。根據(jù)測試數(shù)據(jù)顯示，使用HELPSTEER2-PREFERENCE數(shù)據(jù)集訓(xùn)練的模型性能非常強(qiáng)，在RewardBench評測中達(dá)到了94.1的高分，超過了同期幾乎所有其他模型的表現(xiàn)。

?英偉達(dá)
薦英偉達(dá)開源新王登基！70B刷爆SOTA，擊敗GPT-4o只服OpenAI o1

就在剛剛，英偉達(dá)開源了超強(qiáng)模型Nemotron-70B，后者一經(jīng)發(fā)布就超越了GPT-4o和Claude3.5Sonnet，僅次于OpenAIo1!AI社區(qū)驚呼:新的開源王者又來了?業(yè)內(nèi)直呼:用Llama3.1訓(xùn)出小模型吊打GPT-4o，簡直是神來之筆!一覺醒來，新模型Nemotron-70B成為僅次o1的最強(qiáng)王者!是的，就在昨晚，英偉達(dá)悄無聲息地開源了這個超強(qiáng)大模型。它立刻在AI社區(qū)引發(fā)巨大轟動。對齊模型的性能:所有模型均由Llama-3.1-70B-Inst

?GPT-4o ?英偉達(dá)
薦AI日報：國產(chǎn)逆襲！Yi-Lightning排行超越GPT-4o；阿里推翻譯神器Marco-MT；開源版Heygen來了

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、國產(chǎn)AI逆襲!零一萬物新模型Yi-Lightning登頂，超越GPT-4o本文介紹了國產(chǎn)AI模型“Yi-Lightning”在全球盲測投票中奪魁的消息，超越了長期占據(jù)榜首的GPT-4。開發(fā)者可享受豐富的客戶端庫

?Yi-Lightning
薦讓Kimi和GPT-4o用語音功能相親，兩個AI差點(diǎn)談上了

Kimi突然給我打了個電話，我這才發(fā)現(xiàn)自己被“灰度”了。灰度測試的內(nèi)容是Kimi的語音通話功能。比如讓GPT-4o模仿人類情緒，帶著委屈和哭腔說話:讓它用京腔說話，一開口就是老京片子了:粵語也不在話下:還有網(wǎng)友讓它模仿美劇中經(jīng)典的Meangirl，代入感很強(qiáng)，感覺已經(jīng)被白女校園霸凌了:同聲傳譯日本乙游，自帶意譯和潤色，準(zhǔn)確度很高:通過這些對話碎片，可以想象，語音功能?

?Kimi
薦國產(chǎn)大模型競技場首超GPT-4o！零一萬物GLM共同躋身Top10

國產(chǎn)大模型首次在公開榜單上超過GPT-4o!就在剛剛，“大模型六小強(qiáng)”之一的零一萬物正式對外發(fā)布新旗艦?zāi)Ｐ汀猋i-Lightning。在大模型競技場上，Yi-Lightning性能直沖總榜單并列第6，數(shù)學(xué)分榜并列第3，代碼等其它分榜也名列前茅。目前該數(shù)字人已接入Yi-Lightning，實(shí)時互動效果相比以往更強(qiáng)更自然了，belike:最后談起和國外頭部大模型的差距，李開復(fù)博士表示這次Yi-Lightning的排名?

?國產(chǎn)大模型 ?Yi-Lightning ?Chatbot
全新開源王者！NVIDIA悄然推出70B AI模型：力壓GPT-4o、僅次于OpenAI o1

今天，NVIDIA悄然開源了名為Nemotron-70B的AI模型。這款模型一經(jīng)發(fā)布便在多個基準(zhǔn)測試中超越了包括OpenAI的GPT-4和Anthropic的Claude3.5Sonnet在內(nèi)的140多個開閉源模型，僅次于OpenAI的最新模型o1。英偉達(dá)還開源了Nemotron的訓(xùn)練數(shù)據(jù)集HelpSteer2，包括如下：構(gòu)建了21362個提示響應(yīng)，使模型更符合人類偏好，也更有幫助、更符合事實(shí)、更連貫，并且可以根據(jù)復(fù)雜度和詳細(xì)度進(jìn)行定制；構(gòu)建了20324個用于訓(xùn)練的提示響應(yīng)，1038個用于驗(yàn)證。

?NVIDIA ?Nemotron-70B ?開源AI模型
百萬魯棒數(shù)據(jù)訓(xùn)練，3D場景大語言模型新SOTA！IIT等發(fā)布Robin3D

【新智元導(dǎo)讀】Robin3D通過魯棒指令數(shù)據(jù)生成引擎生成的大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練，以提高模型在3D場景理解中的魯棒性和泛化能力，在多個3D多模態(tài)學(xué)習(xí)基準(zhǔn)測試中取得了優(yōu)異的性能，超越了以往的方法，且無需針對特定任務(wù)的微調(diào)。多模態(tài)大語言模型以文本模態(tài)為基礎(chǔ)，將其它各種模態(tài)對齊至語言模型的語義空間，從實(shí)現(xiàn)多模態(tài)的理解和對話能力。這種大幅的提升體現(xiàn)了對抗性數(shù)據(jù)對模型識別能力的提升。

?大語言模型 ?Robin3D
仙庫智能“閃耀”CMEF現(xiàn)場，3D數(shù)字足脊健康方案備受客戶青睞

近日，第 90 屆中國國際醫(yī)療器械博覽會（CMEF）在深圳國際會展中心盛大開幕，吸引了全球醫(yī)療科技領(lǐng)域的頂尖企業(yè)和創(chuàng)新產(chǎn)品前來參展。深圳仙庫智能有限公司（以下簡稱“仙庫”）作為3D人體數(shù)字化技術(shù)的領(lǐng)軍企業(yè)，攜其最新的3D智能體測鏡、3D智能足測儀、3D數(shù)字化足脊體態(tài)健康解決方案以及3D健康定制產(chǎn)品亮相展會，深度展示了3D+AI數(shù)智技術(shù)在醫(yī)療行業(yè)的應(yīng)用潛力和創(chuàng)新?

?醫(yī)療器械 ?3D人體數(shù)字化 ?技術(shù)創(chuàng)新
薦蘋果智能上線！海外網(wǎng)友狂給差評：GPT套殼？！

iPhone16系列的核心競爭力AppleIntelligence上線了!中文市場的蘋果AI要到2025年4月才上線，不過這對國內(nèi)消費(fèi)者言真不一定是壞事。我們可以根據(jù)首批用戶的反饋，再決定是否應(yīng)該為了AppleIntelligence購買iPhone16系列或iPhone15Pro/15ProMax。在AppleIntelligence進(jìn)入中國前，消費(fèi)者可以先體驗(yàn)一下OPPO、vivo、小米、榮耀等品牌新旗艦的AI功能，對比之后才能挑選出更符合自己預(yù)期的產(chǎn)品。

?蘋果
薦AI翻譯界殺手誕生！阿里國際翻譯大模型吊打谷歌和GPT-4

【新智元導(dǎo)讀】AI翻譯，全球大廠都卷瘋了!但「綠就是白」「光腿神」這類翻譯卻讓人啼笑皆非。阿里國際發(fā)布首個商用翻譯大模型，電商出海神器真來了!果式文案一出，少不了網(wǎng)友的熱議。AI將為跨境電商的未來帶來種種可能，讓我們拭目以待。

?AI翻譯 ?GPT-4

URL Parser Online:在線URL解析器，將URL轉(zhuǎn)換為適合大型語言模型的輸入格式。

URL Parser Online是一個在線工具，它能夠?qū)?fù)雜的URL轉(zhuǎn)換為適合大型語言模型（LLMs）使用的輸入格式。這項(xiàng)技術(shù)的重要性在于它能夠幫助開發(fā)者和研究人員更有效地處理和解析URL數(shù)據(jù)，尤其是在進(jìn)行網(wǎng)頁內(nèi)容分析和數(shù)據(jù)抽取時。產(chǎn)品背景信息顯示，隨著互聯(lián)網(wǎng)數(shù)據(jù)量的爆炸式增長，對URL的解析和處理需求日益增加。URL Parser Online以其簡潔的用戶界面和高效的解析能力，為用戶提供了一個便捷的解決方案。該產(chǎn)品目前提供免費(fèi)服務(wù)，定位于開發(fā)者和數(shù)據(jù)分析師。

URL解析數(shù)據(jù)抽取大型語言模型

AI Summarizer:全能AI摘要生成器，快速生成文本、PDF、視頻摘要。

AI Summarizer是一個強(qiáng)大的AI摘要生成器，支持文本、PDF、視頻等多種格式的摘要生成。它通過先進(jìn)的算法提取關(guān)鍵信息，幫助用戶快速理解內(nèi)容要點(diǎn)，提升工作和學(xué)習(xí)效率。產(chǎn)品支持超過50種語言，保障用戶隱私，不存儲任何上傳文件，并提供免費(fèi)的Chrome擴(kuò)展插件，方便用戶隨時隨地使用。

摘要 AI 生產(chǎn)力

Transcribro:Android平臺上的私有、設(shè)備端語音識別鍵盤和文字服務(wù)

Transcribro是一款運(yùn)行在Android平臺上的私有、設(shè)備端語音識別鍵盤和文字服務(wù)應(yīng)用，它使用whisper.cpp來運(yùn)行OpenAI Whisper系列模型，并結(jié)合Silero VAD進(jìn)行語音活動檢測。該應(yīng)用提供了語音輸入鍵盤，允許用戶通過語音進(jìn)行文字輸入，并且可以被其他應(yīng)用顯式使用，或者設(shè)置為用戶選擇的語音轉(zhuǎn)文字應(yīng)用，部分應(yīng)用可能會使用它來進(jìn)行語音轉(zhuǎn)文字。Transcribro的背景是為用戶提供一種更安全、更私密的語音轉(zhuǎn)文字解決方案，避免了云端處理可能帶來的隱私泄露問題。該應(yīng)用是開源的，用戶可以自由地查看、修改和分發(fā)代碼。

Android 語音識別鍵盤

Oasis:基于Transformer的實(shí)時開放世界AI模型

Oasis是由Decart AI開發(fā)的首個可玩、實(shí)時、開放世界的AI模型，它是一個互動視頻游戲，由Transformer端到端生成，基于逐幀生成。Oasis能夠接收用戶鍵盤和鼠標(biāo)輸入，實(shí)時生成游戲玩法，內(nèi)部模擬物理、游戲規(guī)則和圖形。該模型通過直接觀察游戲玩法學(xué)習(xí)，允許用戶移動、跳躍、拾取物品、破壞方塊等。Oasis被視為研究更復(fù)雜交互世界的基礎(chǔ)模型的第一步，未來可能取代傳統(tǒng)的游戲引擎。Oasis的實(shí)現(xiàn)需要模型架構(gòu)的改進(jìn)和模型推理技術(shù)的突破，以實(shí)現(xiàn)用戶與模型的實(shí)時交互。Decart AI采用了最新的擴(kuò)散訓(xùn)練和Transformer模型方法，并結(jié)合了大型語言模型（LLMs）來訓(xùn)練一個自回歸模型，該模型可以根據(jù)用戶即時動作生成視頻。此外，Decart AI還開發(fā)了專有的推理框架，以提供NVIDIA H100 Tensor Core GPU的峰值利用率，并支持Etched即將推出的Sohu芯片。

AI Transformer 實(shí)時互動

三頓智能助手:多功能AI助手，提供問答、寫作、繪圖等智能服務(wù)。

三頓智能助手是一個集成了多種AI功能的在線平臺，它通過提供問答、寫作、繪圖等多種服務(wù)，幫助用戶提高工作效率和創(chuàng)造力。該產(chǎn)品以其強(qiáng)大的AI技術(shù)背景和用戶友好的界面，為用戶提供了一個便捷的智能服務(wù)入口。價格方面，三頓智能助手提供免費(fèi)試用，同時也提供付費(fèi)服務(wù)以解鎖更多功能。

AI 智能助手問答

Light Novels:AI驅(qū)動的輕小說閱讀平臺，提供個性化推薦和翻譯

Explore Light Novels是一個AI驅(qū)動的輕小說閱讀平臺，旨在通過人工智能技術(shù)打破語言障礙，為全球讀者提供沉浸式的輕小說閱讀體驗(yàn)。平臺擁有數(shù)千部流行輕小說，并提供AI驅(qū)動的個性化推薦，每日更新新章節(jié)和根據(jù)讀者偏好定制的新鮮內(nèi)容。此外，平臺還提供AI生成的文化背景注釋，幫助讀者深入了解故事背景，并通過AI推薦系統(tǒng)學(xué)習(xí)用戶的輕小說偏好，推薦新作者和故事。平臺還設(shè)有AI主持的全球社區(qū)討論，以及AI生成的每日內(nèi)容，確保讀者總有新鮮內(nèi)容可讀。

AI翻譯個性化推薦跨文化交流

SDXL_EcomID_ComfyUI:ComfyUI的EcomID原生支持插件

SDXL_EcomID_ComfyUI是一個為ComfyUI提供原生SDXL-EcomID支持的插件。它通過增強(qiáng)肖像表示，提供更真實(shí)、審美上更令人愉悅的外觀，同時確保語義一致性和更大的內(nèi)部ID相似性。這個插件完全集成于ComfyUI，并且不使用diffusers，而是本地實(shí)現(xiàn)EcomID。它的重要性在于能夠提升圖像生成的質(zhì)量和一致性，特別是在處理人物肖像時，能夠保持不同年齡、發(fā)型、眼鏡等物理變化下的內(nèi)部特征一致性。

EcomID ComfyUI 圖像生成

Promega:通過ChatGPT加速制造、銷售和市場營銷。

Promega是一家在生命科學(xué)領(lǐng)域領(lǐng)先的公司，提供用于研究和應(yīng)用技術(shù)的開創(chuàng)性生物試劑和集成系統(tǒng)。Promega通過自上而下地采用ChatGPT，幫助員工更高效地管理數(shù)千種產(chǎn)品和超過60,000個賬戶，從而加速產(chǎn)品交付到生物技術(shù)生態(tài)系統(tǒng)。ChatGPT的使用不僅提高了工作效率，還增強(qiáng)了客戶關(guān)系，并在制造、銷售和市場營銷等多個領(lǐng)域發(fā)揮了重要作用。

ChatGPT AI 生命科學(xué)

Excerptor:從實(shí)體書籍中提取劃線或手寫標(biāo)記的文本

Excerptor是一個專門設(shè)計(jì)來從實(shí)體書籍中提取劃線或手寫標(biāo)記文本的工具。它通過圖像處理和光學(xué)字符識別技術(shù)，將書籍中的標(biāo)記文本轉(zhuǎn)換為數(shù)字格式，方便用戶編輯和保存。這項(xiàng)技術(shù)的重要性在于它能夠幫助用戶快速從大量書籍中提取關(guān)鍵信息，提高研究和學(xué)習(xí)的效率。Excerptor以其高效、準(zhǔn)確的文本識別能力和用戶友好的操作界面，滿足了學(xué)術(shù)研究、教育和個人學(xué)習(xí)等不同領(lǐng)域的需求。目前，Excerptor是免費(fèi)提供給用戶的，它的開發(fā)和維護(hù)由開源社區(qū)負(fù)責(zé)。

文本識別 OCR 圖像處理

Spafe Code:AI代碼翻譯器

Spafe Code是一個利用人工智能技術(shù)實(shí)現(xiàn)代碼翻譯的平臺，它能夠?qū)⒋a從一種編程語言翻譯成另一種編程語言。這項(xiàng)技術(shù)的重要性在于它能夠幫助開發(fā)者跨越語言障礙，提高代碼的可讀性和可維護(hù)性，促進(jìn)全球開發(fā)者之間的協(xié)作。Spafe Code以其高效的翻譯能力、易用性和對多種編程語言的支持而受到開發(fā)者的歡迎。目前，Spafe Code提供免費(fèi)試用，具體價格和定位信息需要進(jìn)一步查詢。

代碼翻譯人工智能開發(fā)者工具

Browser AI Kit:在瀏覽器中直接運(yùn)行的AI工具箱

Browser AI Kit是一個集成了多種AI工具的平臺，用戶可以在瀏覽器中直接使用這些工具，無需安裝或設(shè)置。它提供了音頻轉(zhuǎn)文本、去除背景、文本轉(zhuǎn)語音等多種功能，并且完全免費(fèi)。這個工具箱基于Transformers.js開發(fā)，強(qiáng)調(diào)數(shù)據(jù)安全和隱私保護(hù)，所有數(shù)據(jù)處理都在本地進(jìn)行，不上傳任何服務(wù)器。它的目標(biāo)是為用戶提供一個便捷、安全、多功能的AI工具平臺。

AI工具音頻處理圖像編輯

Emotive AI Actors by CreatorKit:視頻廣告中的情感AI演員

Emotive AI Actors by CreatorKit是一個利用人工智能技術(shù)創(chuàng)建用戶生成內(nèi)容（UGC）視頻和廣告的平臺。它通過與真實(shí)UGC演員和內(nèi)容策略師合作訓(xùn)練AI，使得用戶能夠快速創(chuàng)建出具有真實(shí)情感反應(yīng)的視頻廣告。這個產(chǎn)品的重要性在于它能夠以更低的成本、更快的速度和更好的性能來替代傳統(tǒng)的視頻制作方式，同時提供可擴(kuò)展的解決方案，允許用戶在幾分鐘內(nèi)創(chuàng)建出100個視頻廣告。AI Actors的主要優(yōu)點(diǎn)包括成本效益、快速制作、性能優(yōu)越和易于擴(kuò)展。

AI視頻制作用戶生成內(nèi)容視頻廣告

SELA:通過結(jié)合蒙特卡洛樹搜索和基于LLM的代理來增強(qiáng)自動化機(jī)器學(xué)習(xí)。

SELA是一個創(chuàng)新系統(tǒng)，它通過將蒙特卡洛樹搜索(MCTS)與基于大型語言模型(LLM)的代理結(jié)合起來，增強(qiáng)了自動化機(jī)器學(xué)習(xí)（AutoML）。傳統(tǒng)的AutoML方法經(jīng)常產(chǎn)生低多樣性和次優(yōu)的代碼，限制了它們在模型選擇和集成方面的有效性。SELA通過將管道配置表示為樹，使代理能夠智能地探索解決方案空間，并根據(jù)實(shí)驗(yàn)反饋迭代改進(jìn)其策略。

自動化機(jī)器學(xué)習(xí) 蒙特卡洛樹搜索大型語言模型

Universal-2:下一代語音AI，提供卓越的音頻數(shù)據(jù)處理能力。

Universal-2是AssemblyAI推出的最新語音識別模型，它在準(zhǔn)確度和精確度上超越了前一代Universal-1，能夠更好地捕捉人類語言的復(fù)雜性，為用戶提供無需二次檢查的音頻數(shù)據(jù)。這一技術(shù)的重要性在于它能夠?yàn)楫a(chǎn)品體驗(yàn)提供更敏銳的洞察力、更快的工作流程和一流的產(chǎn)品體驗(yàn)。Universal-2在專有名詞識別、文本格式化和字母數(shù)字識別方面都有顯著提升，減少了實(shí)際應(yīng)用中的詞錯誤率。

語音識別音頻處理 AI模型

Laminar.ai:開源全棧平臺，為打造頂級LLM產(chǎn)品提供支持

Laminar是一個開源的全棧平臺，專注于從第一性原理出發(fā)進(jìn)行AI工程。它幫助用戶收集、理解和使用數(shù)據(jù)，以提高大型語言模型（LLM）應(yīng)用的質(zhì)量。Laminar支持對文本和圖像模型的追蹤，并且即將支持音頻模型。產(chǎn)品的主要優(yōu)點(diǎn)包括零開銷的可觀測性、在線評估、數(shù)據(jù)集構(gòu)建和LLM鏈管理。Laminar完全開源，易于自托管，適合需要構(gòu)建和管理LLM產(chǎn)品的開發(fā)者和團(tuán)隊(duì)。

AI工程 LLM 數(shù)據(jù)追蹤

HOVER:人形機(jī)器人多功能神經(jīng)全身控制器

HOVER是一個針對人形機(jī)器人的多功能神經(jīng)全身控制器，它通過模仿全身運(yùn)動來提供通用的運(yùn)動技能，學(xué)習(xí)多種全身控制模式。HOVER通過多模式策略蒸餾框架將不同的控制模式整合到一個統(tǒng)一的策略中，實(shí)現(xiàn)了在不同控制模式之間的無縫切換，同時保留了每種模式的獨(dú)特優(yōu)勢。這種控制器提高了人形機(jī)器人在多種模式下的控制效率和靈活性，為未來的機(jī)器人應(yīng)用提供了一個健壯且可擴(kuò)展的解決方案。

人形機(jī)器人神經(jīng)網(wǎng)絡(luò) 全身控制

LinkedIn Hiring Assistant:LinkedIn招聘助手，助力招聘流程自動化。

Hiring Assistant for Recruiter & Jobs是LinkedIn推出的一款A(yù)I助手，旨在幫助招聘人員自動化執(zhí)行耗時的任務(wù)，從而讓他們專注于更有影響力的、以人為中心的工作部分。這款產(chǎn)品代表了LinkedIn在利用人工智能技術(shù)優(yōu)化招聘流程方面邁出的重要一步，它通過自動構(gòu)建候選人管道、篩選頂級申請者、起草外展郵件甚至回答有關(guān)角色的基本問題來減輕招聘人員的工作負(fù)擔(dān)。產(chǎn)品背景信息顯示，LinkedIn一直致力于通過AI技術(shù)提升用戶體驗(yàn)，而Hiring Assistant的推出進(jìn)一步強(qiáng)化了這一點(diǎn)。產(chǎn)品定位于幫助招聘人員提高效率，同時保持對招聘過程的完全控制。

招聘 AI助手自動化

Fable:AI驅(qū)動的交互式產(chǎn)品演示軟件

Fable是一款A(yù)I驅(qū)動的交互式產(chǎn)品演示軟件，旨在幫助企業(yè)通過創(chuàng)建高轉(zhuǎn)化率的產(chǎn)品演示來吸引潛在客戶、完成交易并簡化產(chǎn)品上線流程。Fable通過其AI技術(shù)，允許用戶輕松創(chuàng)建個性化的演示，這些演示可以嵌入網(wǎng)站、通過電子郵件發(fā)送或添加到幫助中心。產(chǎn)品背景信息顯示，F(xiàn)able在G2上獲得了4.9的高評分，并被全球各地的GTM團(tuán)隊(duì)所信賴。Fable的價格定位是免費(fèi)試用和付費(fèi)，適合需要提高銷售轉(zhuǎn)化率和客戶滿意度的商業(yè)團(tuán)隊(duì)。

AI演示產(chǎn)品演示客戶轉(zhuǎn)化

Trieve:AI優(yōu)先的基礎(chǔ)設(shè)施API，提供搜索、推薦和RAG服務(wù)

Trieve是一個AI優(yōu)先的基礎(chǔ)設(shè)施API，結(jié)合了語言模型和工具，用于微調(diào)排名和相關(guān)性，提供一站式的搜索、推薦、RAG和分析解決方案。它能夠自動持續(xù)改進(jìn)，基于數(shù)十個反饋信號，確保相關(guān)性。Trieve支持語義向量搜索、BM25和SPlade全文搜索，以及混合搜索，結(jié)合全文搜索和語義向量搜索。此外，它還提供了商品推銷和相關(guān)性調(diào)整功能，幫助用戶通過API或無代碼儀表板調(diào)整搜索結(jié)果以實(shí)現(xiàn)KPI。Trieve建立在最佳基礎(chǔ)之上，使用開源嵌入模型和LLMs，運(yùn)行在自己的服務(wù)器上，確保數(shù)據(jù)安全。

搜索推薦 RAG

Open Source AI Definition:開源人工智能定義，推動AI領(lǐng)域的開放與合作

Open Source AI Definition（OSAID）是由Open Source Initiative（OSI）發(fā)布的行業(yè)首個開源人工智能定義。它提供了一個標(biāo)準(zhǔn)，通過社區(qū)領(lǐng)導(dǎo)的開放和公共評估來驗(yàn)證一個AI系統(tǒng)是否可以被認(rèn)為是開源AI。OSAID v1.0的發(fā)布是多年研究和合作的結(jié)果，經(jīng)過國際研討會和為期一年的共同設(shè)計(jì)過程。這個定義要求開源模型提供足夠的訓(xùn)練數(shù)據(jù)信息，以便熟練的人可以使用相同或類似的數(shù)據(jù)重建一個大致等效的系統(tǒng)。OSAID的發(fā)布對于推動AI領(lǐng)域的開放性、透明度和合作具有重要意義，它強(qiáng)調(diào)了開源原則在AI發(fā)展中的核心地位，并為獨(dú)立機(jī)器學(xué)習(xí)研究人員和大型AI開發(fā)者之間的透明度提供了支持。

開源人工智能定義

今日大家都在搜的詞：

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

AI日報：GPT-4o新版本上線；面壁智能開源手機(jī)版“GPT-4V”；華為推3D數(shù)字人新框架?EmoTalk3D；阿里上線奧運(yùn)時刻海報工作流

今日大家都在搜的詞：

熱文

站長商機(jī)

AI日報：GPT-4o新版本上線；面壁智能開源手機(jī)版“GPT-4V”；華為推3D數(shù)字人新框架?EmoTalk3D；阿里上線奧運(yùn)時刻海報工作流