AI日報：谷歌Gemini將發(fā)五個新功能；百度推文小言AI數(shù)字人社交APP；OpenAI草莓計劃揭秘；亞馬遜上線Rufus AI購物助手

2024-07-15 15:10 · 稿源：站長之家

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。

新鮮AI產(chǎn)品點擊了解：https://top.aibase.com/

1、谷歌Gemini即將發(fā)布五個新功能：Imagen3、定制GPT等

谷歌即將推出Gemini產(chǎn)品系列的新功能，包括Imagen3、Gemini定制GPT等，備受期待。這些新功能將為用戶帶來更加個性化和便捷的體驗，展示了谷歌在人工智能領域的持續(xù)創(chuàng)新和發(fā)展。

【AiBase提要:】
?? 谷歌Gemini即將發(fā)布新功能，包括Imagen3、Gemini定制GPT等，為用戶帶來更加個性化和便捷的體驗。
?? 預計Gemini還將推出個性化回應、預定提示、錄音和Google Photos集成等功能，進一步豐富用戶體驗。
?? 谷歌正在加緊招募iOS版Gemini的Beta測試人員，iOS更新或將很快面世，展示了Gemini持續(xù)發(fā)展的勢頭。

2、百度推出文小言AI數(shù)字人社交APP

百度最近推出了名為"文小言"的AI數(shù)字人社交APP，利用先進的文心大模型技術，用戶可以與仿真的數(shù)字人進行實時溝通、互動，建立情感聯(lián)系，帶來更真實、自然的交互體驗。用戶可以在應用中找到喜歡的數(shù)字人聊天對象，了解其信息并進行多種方式的互動。

【AiBase提要:】
?? 用戶可以與AI虛擬角色實時溝通、互動，建立情感聯(lián)系，提升交互體驗。
?? 每個AI數(shù)字人提供獨特的聊天服務，可成為用戶的百科全書、生活小助手，甚至心靈導師。
?? 數(shù)字人在回復時展示語音、文字，并通過肢體語言增強真實感。

3、OpenAI草莓計劃揭秘：Q*推理能力大爆發(fā)，未來觸手可及！

我對OpenAI草莓計劃感到興奮和好奇。這個項目以草莓的身份重新登場，據(jù)說能讓AI提前規(guī)劃任務、自主上網(wǎng)搜集信息，甚至進行深入研究。草莓模型的設計理念頗具創(chuàng)新，讓AI具備前所未有的推理能力。OpenAI的秘密研發(fā)過程和高度保密讓人更加期待未來的成果。

【AiBase提要:】
?? 草莓計劃能讓AI提前規(guī)劃任務、自主上網(wǎng)搜集信息，進行深入研究。
?? STaR技術通過迭代使用少量推理示例和大量無推理數(shù)據(jù)，讓AI自我提升。
?? OpenAI希望草莓能夠執(zhí)行長時間任務，提升AI模型的推理能力。
論文地址:https://arxiv.org/pdf/2203.14465

4、Magic Insert：一鍵拖放即可讓人物完美融入新背景

在數(shù)字創(chuàng)作的神奇世界里，Magic Insert技術的魅力在于可以輕松將主題從一張圖片拖放到另一張風格迥異的背景圖中，實現(xiàn)完美融合。這項技術結合了風格感知個性化和對象插入，展現(xiàn)出靈活性和多樣性，為圖像生成領域帶來新挑戰(zhàn)。

【AiBase提要:】
?? Magic Insert技術結合了風格感知個性化和對象插入，實現(xiàn)主題在不同背景中的完美融合。
?? 技術亮點包括使用LoRA和文本標記微調模型、Bootstrapped Domain Adaptation技術實現(xiàn)真實對象插入，以及靈活性選擇風格化程度和主題細節(jié)忠實度。
?? 研究人員展示了Magic Insert在多種風格主題和背景上的實驗結果，證明其有效性和用戶偏好。
詳情鏈接:https://magicinsert.github.io/demo.html

5、快看漫畫：正在訓練二次元領域垂直大模型

快看漫畫正致力于探索基于開源大模型進行微調，訓練二次元領域的垂直大模型，以提升作品搜索轉化率和活力，推動漫畫行業(yè)的創(chuàng)新發(fā)展。通過應用大語言模型（LLM）和檢索增強生成技術(RAG)，快看漫畫構建了內部知識庫，采用微調大模型+RAG增強策略，提高了搜索回答響應速度和排序指標。

【AiBase提要:】
?? 利用大模型進行微調，提升作品搜索轉化率和活力
?? 應用大語言模型（LLM）和檢索增強生成技術(RAG)，構建內部知識庫
?? 推動漫畫行業(yè)創(chuàng)新發(fā)展，提升用戶體驗和內容產(chǎn)能

6、個性化服務升級！亞馬遜悄悄上線Rufus AI購物助手

亞馬遜最新推出的Rufus AI購物助手為用戶帶來個性化購物體驗，通過智能問答服務幫助用戶節(jié)省時間、做出明智選擇，展現(xiàn)出色的購物問題解決能力。

【AiBase提要:】
?? Rufus AI購物助手上線，提供個性化購物體驗，節(jié)省用戶時間。
?? 智能問答服務，詳盡回答用戶關于產(chǎn)品的各種問題，包括推薦、比較、訂單追蹤。
?? Rufus展現(xiàn)潛力，有望成為亞馬遜智能購物領域的王牌，引領零售創(chuàng)新。

7、谷歌 Eureka AI模型提前曝光卓越的文本寫作能力引關注

谷歌即將推出名為“Eureka”的新型AI模型，備受關注。Eureka在自然語言生成方面表現(xiàn)出色，被認為是谷歌在AI領域的重大突破。預計在7月15日將發(fā)布初步公告，7月18日有望正式發(fā)布。除了Eureka，谷歌還在開發(fā)其他新工具，如Google Gemini，引起行業(yè)極大興趣。

【AiBase提要:】
? Eureka模型在自然語言生成方面表現(xiàn)出色，超越其他模型。
?? Eureka展示了改進的指令遵循能力，對用戶定義參數(shù)遵守異常。
?? Eureka在廣泛的AI驅動任務中具有提高性能的潛力。

8、3D視覺重建技術DUSt3R:輕松基于2D圖片生成3D模型

DUSt3R是一項創(chuàng)新技術，能在沒有相機信息的情況下創(chuàng)建3D模型，極大地簡化了從2D圖片到3D模型的轉換過程。它采用智能的處理方式，提供高效的重建任務處理，表現(xiàn)卓越，在多種視覺任務中取得最佳成績。

【AiBase提要:】
?? 創(chuàng)新技術: DUSt3R能在沒有相機信息的情況下創(chuàng)建3D模型，簡化了復雜的相機參數(shù)需求。
?? 高效處理: DUSt3R統(tǒng)一處理多張圖片的重建任務，智能高效。
?? 卓越表現(xiàn): DUSt3R在多種視覺任務中表現(xiàn)出色，取得最佳成績。
詳情鏈接:https://top.aibase.com/tool/dust3r

9、OpenDiLoCo：分布式AI訓練的開源解決方案，低通信成本，全球覆蓋！

在AI大爆炸時代，OpenDiLoCo開源框架實現(xiàn)了DiLoCo訓練方法，通過低通信成本實現(xiàn)全球分布式訓練，保持高計算利用率。

【AiBase提要:】
?? 全球分布式訓練: OpenDiLoCo實現(xiàn)了全球范圍內的模型訓練，跨越兩大洲、三個國家，保持高計算利用率。
?? 動態(tài)資源管理: 訓練過程中可動態(tài)調整計算資源，新設備可隨時加入或退出訓練。
?? 容錯與點對點通信: 使用Hivemind庫實現(xiàn)容錯訓練，點對點通信方式進行訓練，提高效率和穩(wěn)定性。
詳情鏈接:https://arxiv.org/pdf/2407.07852

10、微軟MIT開創(chuàng)推理新紀元：6700萬參數(shù)模型，與GPT-4一較高下

在這篇論文中，研究人員介紹了一種突破性的機器學習訓練策略，通過改進邏輯推理能力和利用因果關系構建訓練集，成功訓練出了一個小型Transformer模型，與GPT-4相媲美。這項研究為AI學習因果推理打開了新的可能性，讓AI能夠更好地理解和解釋世界。

【AiBase提要:】
?? 獨特的訓練方法: 采用新穎訓練方法，提升大型模型的邏輯推理能力。
?? 邏輯推理的改進: 顯著提升模型的邏輯推理能力，解決了先前挑戰(zhàn)。
?? 利用因果關系構建訓練集: 利用因果關系模型構建訓練數(shù)據(jù)集，幫助模型理解數(shù)據(jù)背后的因果邏輯。
詳情鏈接:https://arxiv.org/pdf/2407.07612v1

11、美國金融監(jiān)管機構敦促調查OpenAI的保密協(xié)議問題

本文報道了一群舉報人揭露OpenAI公司的保密協(xié)議存在問題，要求美國金融監(jiān)管機構展開調查。舉報人指稱OpenAI可能限制員工的舉報權利，引發(fā)公眾擔憂。格拉斯利表示OpenAI的政策限制了舉報人的權利，呼吁SEC對其不當行為進行調查。

【AiBase提要:】
?? 舉報人揭露OpenAI公司保密協(xié)議問題，要求SEC展開調查
?? OpenAI被指違反SEC規(guī)定，剝奪員工舉報權利
?? 根據(jù)舉報信，OpenAI被要求生產(chǎn)所有保密協(xié)議，避免侵犯員工權利，舉報人要求SEC對OpenAI的不當行為進行調查

（舉報）

相關推薦
大家在看

關鍵詞：

谷歌

【騰訊云】11.11云上盛惠！云服務器首年1.8折起，買1年送3個月！

11.11云上盛惠！海量產(chǎn)品 · 輕松上云！云服務器首年1.8折起，買1年送3個月！超值優(yōu)惠，性能穩(wěn)定，讓您的云端之旅更加暢享?？靵眚v訊云選購吧！

Docker容器鏡像
去看看

Docker容器鏡像 60元/15天

爆款產(chǎn)品組合購
去看看

爆款產(chǎn)品組合購低至1元

騰訊云x NVIDIA加速計劃
去看看

騰訊云x NVIDIA加速計劃最高獲贈10萬元扶持基金

2核2G云服務器
去看看

2核2G云服務器 112元/1年

查看更多相關信息>>

騰訊云 12-20

廣告
薦AI日報：Claude推出桌面客戶端；ChatGPT、谷歌Gemini均推搜索功能；阿里EcomID原生支持ComfyUI；Suno新增AI歌手克隆功能

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、Anthropic旗下ClaudeAI推出桌面客戶端Anthropic公司推出了AI聊天機器人Claude的桌面應用程序，提升用戶體驗，使用戶能更便捷地與Claude互動。12、谷歌地圖終于開掛!Gemini加持解鎖多項神

?Claude
薦谷歌版賈維斯即將問世，最強Gemini 2.0加持！AI自主操控電腦時代來臨

【新智元導讀】科幻中的賈維斯，已經(jīng)離我們不遠了。Claude3.5接管人類電腦掀起了人機交互全新范式，爆料稱谷歌同類ProjectJarvis預計年底亮相。模型能夠很好地理解和處理移動設備上的用戶界面，即使在沒有額外訓練數(shù)據(jù)的情況下也能表現(xiàn)出色。

?Gemini
薦AI日報：Pika 1.5又上線4個新特效；英偉達推超快AI圖像生成模型Sana；Mistral AI推超強邊緣AI模型Ministral 8B

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、Pika1.5重磅上線四個新特效:從粉碎到消失，效果炸裂了!Pika1.5版本再度增加了四種新特效，讓用戶可以輕松生成炫酷動畫。臺積電作為高級芯片制造商，受益于人工智能應用的快速發(fā)展，業(yè)績得到顯著提升。

?Pika
谷歌 Workspace Gemini 插件用戶可享受 Gmail “幫助我寫作”功能

谷歌正在擴展其Gmail網(wǎng)頁版的“幫助我寫作”功能，讓用戶能夠輕松地編寫或修改電子郵件。該功能與移動設備版Gmail類似，用戶在打開空白草稿時會看到提示，使用該功能可以快速生成電子郵件草稿。谷歌將在網(wǎng)絡上逐步推出“幫我寫”功能以及新的“潤色”快捷方式。

?Gmail ?幫助我寫作 ?Google
薦豪擲千億美元布局AI，微軟不止有OpenAI

微軟和OpenAI無疑是大洋彼岸最具看點的一對商業(yè)組合。人們在一年前暢想的AGI、SuperApp并未如期出現(xiàn)訓練所需的資金基本都來自于大廠輸血。但退一步講，這個答案或許并不重要。

?微軟 ?OpenAI
薦AI日報：阿里開源文檔模型DocOwl 1.5；Midjourney圖像編輯器新功能下周上線；Viggle AI推對口型功能

歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領域的熱點內容，聚焦開發(fā)者，助你洞悉技術趨勢、了解創(chuàng)新AI產(chǎn)品應用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、表格、圖表統(tǒng)統(tǒng)拿下!阿里達摩院開源DocOwl1.5無需OCR，高效“讀懂”文檔!阿里巴巴達摩院與中國人民大學聯(lián)合開源了mPLUG-DocOwl1.5文檔處理模型，無需OCR即可理解文檔內容，在多個視覺文檔理解基準測試中表現(xiàn)領先。本次新增備案名單中包括快手科技公司的可靈AI和昆侖萬維科技股份有限公司的天工圖像。

?DocOwl1.5
薦開源版OpenAI再出「神作」，小模型吊打Llama 3！Ministral系列問世，邊緣AI革命開啟

【新智元導讀】Mistral7B誕生一周年之際，法國AI初創(chuàng)公司Mistral再次連發(fā)兩個輕量級模型Ministral3B和Ministral8B，性能趕超Llama38B。Mistral7B僅僅發(fā)布一周年，法國AI初創(chuàng)小模型「lesMinistraux」就打敗它了。對于Mistral也是如此，若要持續(xù)打造優(yōu)秀的模型，只有這一種選擇。

?OpenAI ?Llama3 ?Ministral
OpenAI重磅開源！AI Agent大爆發(fā)，狂攬6000顆星！

OpenAI終于開放了一次，罕見地開源了多功能協(xié)同AIAgent——Swarm。與普通AIAgent不同的是，Swarm可以同時創(chuàng)建多個智能體互相協(xié)同工作來完成特定任務，包括客戶服務、銷售支持和售后服務等，同時每個智能體都配備了一套專屬工具集以更高效的完成任務。OpenAI才剛開源Swarm，但在Github上非常火爆已經(jīng)突破6000顆星還在快速增長中，有興趣的小伙伴趕緊試試去吧。

?OpenAI
劍指谷歌！OpenAI宣布ChatGPT搜索功能正式上線

北京時間今天凌晨，OpenAI宣布ChatGPT搜索功能正式上線，該功能覆蓋ChatGPT網(wǎng)頁版、手機、桌面應用。該功能只有付費的ChatGPTPlus和Team用戶，以及SearchGPT候補名單用戶可以訪問。從ChatGPT搜索功能開始，OpenAI可能對搜索巨頭谷歌構成重大威脅。

?ChatGPT ?搜索功能 ?OpenAI
OPPO文檔AI新功能曝光！支持蘋果文件格式轉換、文檔翻譯

OPPO官方今日發(fā)布了一條預熱消息，宣布ColorOS15將會推出全新的OPPO文檔。這款應用將支持多項功能，包括文件隨心開”、AI隨心幫寫”、格式隨心轉換”和文檔隨心搜索”。此前OPPO舉行了ColorOS15流暢雙引擎技術溝通會，介紹了該系統(tǒng)的流暢體驗將在10月17日舉行的開發(fā)者大會上，會有更多的功能進行公布。

?OPPO ?ColorOS ?15

URL Parser Online:在線URL解析器，將URL轉換為適合大型語言模型的輸入格式。

URL Parser Online是一個在線工具，它能夠將復雜的URL轉換為適合大型語言模型（LLMs）使用的輸入格式。這項技術的重要性在于它能夠幫助開發(fā)者和研究人員更有效地處理和解析URL數(shù)據(jù)，尤其是在進行網(wǎng)頁內容分析和數(shù)據(jù)抽取時。產(chǎn)品背景信息顯示，隨著互聯(lián)網(wǎng)數(shù)據(jù)量的爆炸式增長，對URL的解析和處理需求日益增加。URL Parser Online以其簡潔的用戶界面和高效的解析能力，為用戶提供了一個便捷的解決方案。該產(chǎn)品目前提供免費服務，定位于開發(fā)者和數(shù)據(jù)分析師。

URL解析數(shù)據(jù)抽取大型語言模型

AI Summarizer:全能AI摘要生成器，快速生成文本、PDF、視頻摘要。

AI Summarizer是一個強大的AI摘要生成器，支持文本、PDF、視頻等多種格式的摘要生成。它通過先進的算法提取關鍵信息，幫助用戶快速理解內容要點，提升工作和學習效率。產(chǎn)品支持超過50種語言，保障用戶隱私，不存儲任何上傳文件，并提供免費的Chrome擴展插件，方便用戶隨時隨地使用。

摘要 AI 生產(chǎn)力

Transcribro:Android平臺上的私有、設備端語音識別鍵盤和文字服務

Transcribro是一款運行在Android平臺上的私有、設備端語音識別鍵盤和文字服務應用，它使用whisper.cpp來運行OpenAI Whisper系列模型，并結合Silero VAD進行語音活動檢測。該應用提供了語音輸入鍵盤，允許用戶通過語音進行文字輸入，并且可以被其他應用顯式使用，或者設置為用戶選擇的語音轉文字應用，部分應用可能會使用它來進行語音轉文字。Transcribro的背景是為用戶提供一種更安全、更私密的語音轉文字解決方案，避免了云端處理可能帶來的隱私泄露問題。該應用是開源的，用戶可以自由地查看、修改和分發(fā)代碼。

Android 語音識別鍵盤

Oasis:基于Transformer的實時開放世界AI模型

Oasis是由Decart AI開發(fā)的首個可玩、實時、開放世界的AI模型，它是一個互動視頻游戲，由Transformer端到端生成，基于逐幀生成。Oasis能夠接收用戶鍵盤和鼠標輸入，實時生成游戲玩法，內部模擬物理、游戲規(guī)則和圖形。該模型通過直接觀察游戲玩法學習，允許用戶移動、跳躍、拾取物品、破壞方塊等。Oasis被視為研究更復雜交互世界的基礎模型的第一步，未來可能取代傳統(tǒng)的游戲引擎。Oasis的實現(xiàn)需要模型架構的改進和模型推理技術的突破，以實現(xiàn)用戶與模型的實時交互。Decart AI采用了最新的擴散訓練和Transformer模型方法，并結合了大型語言模型（LLMs）來訓練一個自回歸模型，該模型可以根據(jù)用戶即時動作生成視頻。此外，Decart AI還開發(fā)了專有的推理框架，以提供NVIDIA H100 Tensor Core GPU的峰值利用率，并支持Etched即將推出的Sohu芯片。

AI Transformer 實時互動

三頓智能助手:多功能AI助手，提供問答、寫作、繪圖等智能服務。

三頓智能助手是一個集成了多種AI功能的在線平臺，它通過提供問答、寫作、繪圖等多種服務，幫助用戶提高工作效率和創(chuàng)造力。該產(chǎn)品以其強大的AI技術背景和用戶友好的界面，為用戶提供了一個便捷的智能服務入口。價格方面，三頓智能助手提供免費試用，同時也提供付費服務以解鎖更多功能。

AI 智能助手問答

Light Novels:AI驅動的輕小說閱讀平臺，提供個性化推薦和翻譯

Explore Light Novels是一個AI驅動的輕小說閱讀平臺，旨在通過人工智能技術打破語言障礙，為全球讀者提供沉浸式的輕小說閱讀體驗。平臺擁有數(shù)千部流行輕小說，并提供AI驅動的個性化推薦，每日更新新章節(jié)和根據(jù)讀者偏好定制的新鮮內容。此外，平臺還提供AI生成的文化背景注釋，幫助讀者深入了解故事背景，并通過AI推薦系統(tǒng)學習用戶的輕小說偏好，推薦新作者和故事。平臺還設有AI主持的全球社區(qū)討論，以及AI生成的每日內容，確保讀者總有新鮮內容可讀。

AI翻譯個性化推薦跨文化交流

SDXL_EcomID_ComfyUI:ComfyUI的EcomID原生支持插件

SDXL_EcomID_ComfyUI是一個為ComfyUI提供原生SDXL-EcomID支持的插件。它通過增強肖像表示，提供更真實、審美上更令人愉悅的外觀，同時確保語義一致性和更大的內部ID相似性。這個插件完全集成于ComfyUI，并且不使用diffusers，而是本地實現(xiàn)EcomID。它的重要性在于能夠提升圖像生成的質量和一致性，特別是在處理人物肖像時，能夠保持不同年齡、發(fā)型、眼鏡等物理變化下的內部特征一致性。

EcomID ComfyUI 圖像生成

Promega:通過ChatGPT加速制造、銷售和市場營銷。

Promega是一家在生命科學領域領先的公司，提供用于研究和應用技術的開創(chuàng)性生物試劑和集成系統(tǒng)。Promega通過自上而下地采用ChatGPT，幫助員工更高效地管理數(shù)千種產(chǎn)品和超過60,000個賬戶，從而加速產(chǎn)品交付到生物技術生態(tài)系統(tǒng)。ChatGPT的使用不僅提高了工作效率，還增強了客戶關系，并在制造、銷售和市場營銷等多個領域發(fā)揮了重要作用。

ChatGPT AI 生命科學

Excerptor:從實體書籍中提取劃線或手寫標記的文本

Excerptor是一個專門設計來從實體書籍中提取劃線或手寫標記文本的工具。它通過圖像處理和光學字符識別技術，將書籍中的標記文本轉換為數(shù)字格式，方便用戶編輯和保存。這項技術的重要性在于它能夠幫助用戶快速從大量書籍中提取關鍵信息，提高研究和學習的效率。Excerptor以其高效、準確的文本識別能力和用戶友好的操作界面，滿足了學術研究、教育和個人學習等不同領域的需求。目前，Excerptor是免費提供給用戶的，它的開發(fā)和維護由開源社區(qū)負責。

文本識別 OCR 圖像處理

Spafe Code:AI代碼翻譯器

Spafe Code是一個利用人工智能技術實現(xiàn)代碼翻譯的平臺，它能夠將代碼從一種編程語言翻譯成另一種編程語言。這項技術的重要性在于它能夠幫助開發(fā)者跨越語言障礙，提高代碼的可讀性和可維護性，促進全球開發(fā)者之間的協(xié)作。Spafe Code以其高效的翻譯能力、易用性和對多種編程語言的支持而受到開發(fā)者的歡迎。目前，Spafe Code提供免費試用，具體價格和定位信息需要進一步查詢。

代碼翻譯人工智能開發(fā)者工具

Browser AI Kit:在瀏覽器中直接運行的AI工具箱

Browser AI Kit是一個集成了多種AI工具的平臺，用戶可以在瀏覽器中直接使用這些工具，無需安裝或設置。它提供了音頻轉文本、去除背景、文本轉語音等多種功能，并且完全免費。這個工具箱基于Transformers.js開發(fā)，強調數(shù)據(jù)安全和隱私保護，所有數(shù)據(jù)處理都在本地進行，不上傳任何服務器。它的目標是為用戶提供一個便捷、安全、多功能的AI工具平臺。

AI工具音頻處理圖像編輯

Emotive AI Actors by CreatorKit:視頻廣告中的情感AI演員

Emotive AI Actors by CreatorKit是一個利用人工智能技術創(chuàng)建用戶生成內容（UGC）視頻和廣告的平臺。它通過與真實UGC演員和內容策略師合作訓練AI，使得用戶能夠快速創(chuàng)建出具有真實情感反應的視頻廣告。這個產(chǎn)品的重要性在于它能夠以更低的成本、更快的速度和更好的性能來替代傳統(tǒng)的視頻制作方式，同時提供可擴展的解決方案，允許用戶在幾分鐘內創(chuàng)建出100個視頻廣告。AI Actors的主要優(yōu)點包括成本效益、快速制作、性能優(yōu)越和易于擴展。

AI視頻制作用戶生成內容視頻廣告

SELA:通過結合蒙特卡洛樹搜索和基于LLM的代理來增強自動化機器學習。

SELA是一個創(chuàng)新系統(tǒng)，它通過將蒙特卡洛樹搜索(MCTS)與基于大型語言模型(LLM)的代理結合起來，增強了自動化機器學習（AutoML）。傳統(tǒng)的AutoML方法經(jīng)常產(chǎn)生低多樣性和次優(yōu)的代碼，限制了它們在模型選擇和集成方面的有效性。SELA通過將管道配置表示為樹，使代理能夠智能地探索解決方案空間，并根據(jù)實驗反饋迭代改進其策略。

自動化機器學習蒙特卡洛樹搜索大型語言模型

Universal-2:下一代語音AI，提供卓越的音頻數(shù)據(jù)處理能力。

Universal-2是AssemblyAI推出的最新語音識別模型，它在準確度和精確度上超越了前一代Universal-1，能夠更好地捕捉人類語言的復雜性，為用戶提供無需二次檢查的音頻數(shù)據(jù)。這一技術的重要性在于它能夠為產(chǎn)品體驗提供更敏銳的洞察力、更快的工作流程和一流的產(chǎn)品體驗。Universal-2在專有名詞識別、文本格式化和字母數(shù)字識別方面都有顯著提升，減少了實際應用中的詞錯誤率。

語音識別音頻處理 AI模型

Laminar.ai:開源全棧平臺，為打造頂級LLM產(chǎn)品提供支持

Laminar是一個開源的全棧平臺，專注于從第一性原理出發(fā)進行AI工程。它幫助用戶收集、理解和使用數(shù)據(jù)，以提高大型語言模型（LLM）應用的質量。Laminar支持對文本和圖像模型的追蹤，并且即將支持音頻模型。產(chǎn)品的主要優(yōu)點包括零開銷的可觀測性、在線評估、數(shù)據(jù)集構建和LLM鏈管理。Laminar完全開源，易于自托管，適合需要構建和管理LLM產(chǎn)品的開發(fā)者和團隊。

AI工程 LLM 數(shù)據(jù)追蹤

HOVER:人形機器人多功能神經(jīng)全身控制器

HOVER是一個針對人形機器人的多功能神經(jīng)全身控制器，它通過模仿全身運動來提供通用的運動技能，學習多種全身控制模式。HOVER通過多模式策略蒸餾框架將不同的控制模式整合到一個統(tǒng)一的策略中，實現(xiàn)了在不同控制模式之間的無縫切換，同時保留了每種模式的獨特優(yōu)勢。這種控制器提高了人形機器人在多種模式下的控制效率和靈活性，為未來的機器人應用提供了一個健壯且可擴展的解決方案。

人形機器人神經(jīng)網(wǎng)絡全身控制

LinkedIn Hiring Assistant:LinkedIn招聘助手，助力招聘流程自動化。

Hiring Assistant for Recruiter & Jobs是LinkedIn推出的一款AI助手，旨在幫助招聘人員自動化執(zhí)行耗時的任務，從而讓他們專注于更有影響力的、以人為中心的工作部分。這款產(chǎn)品代表了LinkedIn在利用人工智能技術優(yōu)化招聘流程方面邁出的重要一步，它通過自動構建候選人管道、篩選頂級申請者、起草外展郵件甚至回答有關角色的基本問題來減輕招聘人員的工作負擔。產(chǎn)品背景信息顯示，LinkedIn一直致力于通過AI技術提升用戶體驗，而Hiring Assistant的推出進一步強化了這一點。產(chǎn)品定位于幫助招聘人員提高效率，同時保持對招聘過程的完全控制。

招聘 AI助手自動化

Fable:AI驅動的交互式產(chǎn)品演示軟件

Fable是一款AI驅動的交互式產(chǎn)品演示軟件，旨在幫助企業(yè)通過創(chuàng)建高轉化率的產(chǎn)品演示來吸引潛在客戶、完成交易并簡化產(chǎn)品上線流程。Fable通過其AI技術，允許用戶輕松創(chuàng)建個性化的演示，這些演示可以嵌入網(wǎng)站、通過電子郵件發(fā)送或添加到幫助中心。產(chǎn)品背景信息顯示，F(xiàn)able在G2上獲得了4.9的高評分，并被全球各地的GTM團隊所信賴。Fable的價格定位是免費試用和付費，適合需要提高銷售轉化率和客戶滿意度的商業(yè)團隊。

AI演示產(chǎn)品演示客戶轉化

Trieve:AI優(yōu)先的基礎設施API，提供搜索、推薦和RAG服務

Trieve是一個AI優(yōu)先的基礎設施API，結合了語言模型和工具，用于微調排名和相關性，提供一站式的搜索、推薦、RAG和分析解決方案。它能夠自動持續(xù)改進，基于數(shù)十個反饋信號，確保相關性。Trieve支持語義向量搜索、BM25和SPlade全文搜索，以及混合搜索，結合全文搜索和語義向量搜索。此外，它還提供了商品推銷和相關性調整功能，幫助用戶通過API或無代碼儀表板調整搜索結果以實現(xiàn)KPI。Trieve建立在最佳基礎之上，使用開源嵌入模型和LLMs，運行在自己的服務器上，確保數(shù)據(jù)安全。

搜索推薦 RAG

Open Source AI Definition:開源人工智能定義，推動AI領域的開放與合作

Open Source AI Definition（OSAID）是由Open Source Initiative（OSI）發(fā)布的行業(yè)首個開源人工智能定義。它提供了一個標準，通過社區(qū)領導的開放和公共評估來驗證一個AI系統(tǒng)是否可以被認為是開源AI。OSAID v1.0的發(fā)布是多年研究和合作的結果，經(jīng)過國際研討會和為期一年的共同設計過程。這個定義要求開源模型提供足夠的訓練數(shù)據(jù)信息，以便熟練的人可以使用相同或類似的數(shù)據(jù)重建一個大致等效的系統(tǒng)。OSAID的發(fā)布對于推動AI領域的開放性、透明度和合作具有重要意義，它強調了開源原則在AI發(fā)展中的核心地位，并為獨立機器學習研究人員和大型AI開發(fā)者之間的透明度提供了支持。

AI日報：谷歌Gemini將發(fā)五個新功能；百度推文小言AI數(shù)字人社交APP；OpenAI草莓計劃揭秘；亞馬遜上線Rufus AI購物助手

今日大家都在搜的詞：

熱文

站長商機

AI日報：谷歌Gemini將發(fā)五個新功能；百度推文小言AI數(shù)字人社交APP；OpenAI草莓計劃揭秘；亞馬遜上線Rufus AI購物助手