歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/
1、Claude3.5Sonnet模型增加PDF文件處理功能
Anthropic公司最新推出的Claude3.5Sonnet模型增加了PDF文件處理功能,用戶可以通過該模型分析PDF文檔中的文本和視覺元素,包括圖像、圖表和表格等,適用于多種場景。
【AiBase提要:】
?? Claude3.5Sonnet模型新增PDF文件處理功能,支持文本和圖像分析。
??? 處理過程包括提取文本、轉(zhuǎn)換頁面為圖像和綜合分析三個步驟。
?? 處理費用根據(jù)文檔長度和內(nèi)容密度不同,用戶需遵循文件大小和頁數(shù)限制。
2、OpenAI完整版o1模型曝光:能力超強 可處理20萬個token
我對最新曝光的OpenAI o1模型進行了點評。該模型被稱為OpenAI最強大的模型,具備處理大量文本和分析圖像的能力,特別適合高級推理和創(chuàng)造性任務(wù)。預(yù)計完整版將在今年晚些時候推出,引起了人工智能領(lǐng)域的廣泛關(guān)注。用戶們對o1模型的體驗充滿期待。
【AiBase提要:】
?? o1模型短暫開放,能處理約20萬字和分析圖像。
?? OpenAI稱其為“最強大的模型”,適合高級推理和創(chuàng)造性任務(wù)。
?? 完整版尚未發(fā)布,預(yù)計將于今年晚些時候推出。
3、告別隨機生成!Runway推出高級攝像機控制 像導演一樣掌控鏡頭
Runway最新推出的高級攝像機控制功能讓用戶像導演一樣掌控虛擬場景中的鏡頭移動,為AI視頻創(chuàng)作帶來前所未有的靈活性和掌控力。用戶可以實現(xiàn)水平移動、環(huán)繞拍攝、位置探索、循環(huán)拍攝等多種效果,極大拓展了創(chuàng)作潛力。這一功能改變了用戶對數(shù)碼相機工作的看法,實現(xiàn)無縫過渡和增強場景構(gòu)圖。
【AiBase提要:】
?? 用戶可以像導演一樣精準控制虛擬場景中的鏡頭移動,實現(xiàn)多種效果,包括水平移動、環(huán)繞拍攝等。
?? 結(jié)合速度變化的循環(huán)拍攝功能,用戶可以生成吸睛的視覺循環(huán)或過渡,極大拓展了創(chuàng)作潛力。
??? 高級攝像機控制功能讓用戶精確控制場景和主題的呈現(xiàn)方式,將觀眾帶入一個栩栩如生、看似3D的世界。
詳情鏈接:https://top.aibase.com/tool/runway
4、付費用戶僅60+,月入?yún)s達3萬!開源AI聊天工具LobeChat盈利模式大揭秘
LobeChat團隊在開源AI聊天工具LobeChat的云服務(wù)公測中取得初步成績,月收入突破3萬元人民幣,但面臨付費轉(zhuǎn)化率低的挑戰(zhàn)。團隊計劃通過差異化功能和調(diào)整訂閱模式解決問題,同時承諾解決產(chǎn)品設(shè)計中的挑戰(zhàn)。盈利空間有限,將關(guān)注MRR指標確保可持續(xù)發(fā)展。
【AiBase提要:】
?? LobeChat云服務(wù)一個月月收入突破3萬元人民幣,付費用戶數(shù)達60+,展現(xiàn)商業(yè)化希望。
?? 付費轉(zhuǎn)化率低,僅不到1%,可能因市場競爭激烈和功能差距。
?? LobeChat團隊計劃推出差異化功能和調(diào)整訂閱模式,關(guān)注MRR指標確??沙掷m(xù)發(fā)展。
詳情鏈接:https://lobechat.com/welcome
5、Diffusion 模型也能“舉一反三”?阿里IC-LoRA給圖像生成模型增加情節(jié)記憶力能力
阿里巴巴通義實驗室最新研究表明,現(xiàn)有的文生圖Diffusion Transformer模型已具備生成多張具有特定關(guān)系圖像的能力,通過IC-LoRA的加持,模型變得更智能,只需少量樣本即可學會新技能。研究人員設(shè)計了簡單有效的流程,喚醒Diffusion模型的“上下文學習”能力,大大降低了AI模型的訓練成本,讓更多人參與AI創(chuàng)作。IC-LoRA的出現(xiàn)是AI圖像生成領(lǐng)域的里程碑式進步,讓每個人都能成為藝術(shù)家。
【AiBase提要:】
?? 現(xiàn)有的文生圖Diffusion Transformer模型已具備生成多張具有特定關(guān)系圖像的能力
?? IC-LoRA加持使模型變得更智能,只需少量樣本即可學會新技能
?? 設(shè)計簡單有效的流程喚醒Diffusion模型的“上下文學習”能力
詳情鏈接:https://ali-vilab.github.io/In-Context-LoRA-Page/
6、顛覆視頻編輯!開源神器ComfyUI-MochiEdit 支持視頻轉(zhuǎn)視頻,局部編輯
我想象過像操控文字一樣編輯視頻的情景,現(xiàn)在這個想法已經(jīng)成為現(xiàn)實。ComfyUI-MochiEdit是一款基于ComfyUI和Genmo Mochi的開源視頻編輯工具,它提供了一種全新的視頻編輯思路:將視頻轉(zhuǎn)換為噪聲,再通過目標提示重新采樣噪聲,生成全新視頻。這種方法實現(xiàn)了局部編輯和視頻轉(zhuǎn)視頻功能,讓用戶可以輕松修改視頻的部分而無需處理整個視頻。
【AiBase提要:】
?? 視頻轉(zhuǎn)噪聲再重采樣,實現(xiàn)局部編輯和視頻轉(zhuǎn)視頻功能
?? 可將輸入視頻轉(zhuǎn)換為具有特定風格或內(nèi)容的新視頻
?? 用戶可通過調(diào)整節(jié)點參數(shù)控制最終視頻效果
詳情鏈接:https://github.com/logtd/ComfyUI-MochiEdit?tab=readme-ov-file#mochi-unsampler
7、AI熱潮推動!Python超越JavaScript,成GitHub最受歡迎編程語言
Python在GitHub開發(fā)者平臺成功超越JavaScript,主要源自生成式人工智能熱潮。GitHub指出AI并未降低開源項目代碼質(zhì)量,反而促進了AI項目貢獻增長。開發(fā)者越來越多地將AI模型集成到工具鏈中,關(guān)注小型高效模型和AI代理自動化。2024年最受關(guān)注的開源AI項目是“ollama/ollama”,展示了AI領(lǐng)域的快速發(fā)展。
【AiBase提要:】
?? Python成功超越JavaScript,成為GitHub最受歡迎編程語言,受益于生成式人工智能熱潮。
?? 生成式AI項目貢獻增長59%,總數(shù)增加98%,推動了AI領(lǐng)域的發(fā)展。
?? GitHub表示AI并未降低開源項目代碼質(zhì)量,開發(fā)者對小型高效模型和AI代理自動化表現(xiàn)出濃厚興趣。
8、Meta最新黑科技:Sparsh賦予機器人“人類級”觸覺,靈巧操作不再是夢!
Meta FAIR 實驗室近日發(fā)布了名為“Sparsh”的人工多模態(tài)指尖觸覺感知技術(shù),為機器人賦予近似人類的觸覺感知能力,將在機器人操控領(lǐng)域帶來革命性變化。該技術(shù)采用自監(jiān)督學習,利用46萬+觸覺圖像進行預(yù)訓練,支持多種視覺觸覺傳感器,顯著提升機器人在觸覺感知任務(wù)上的性能。發(fā)布的Sparsh模型標志著AI觸覺感知領(lǐng)域的重大突破,未來有望改變機器人與物理世界交互方式。
【AiBase提要:】
?? Sparsh模型采用自監(jiān)督學習,預(yù)訓練使用46萬+觸覺圖像,無需人工標注數(shù)據(jù),學習通用觸覺表征。
?? Sparsh模型支持多種視覺觸覺傳感器,如DIGIT、GelSight2017和GelSight Mini,提升機器人在觸覺感知任務(wù)上的性能。
?? Sparsh模型在TacBench基準測試平臺上表現(xiàn)出色,在力估計、滑動檢測等任務(wù)中即使使用1%標注數(shù)據(jù)也能取得滿意結(jié)果。
詳情鏈接:
https://scontent-sjc3-1.xx.fbcdn.net/v/t39.2365-6/464969941_1107633400780143_7479102347328147009_n.pdf?_nc_cat=103&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=y8Ui1HEw3BQQ7kNvgFe-ePu&_nc_zt=14&_nc_ht=scontent-sjc3-1.xx&_nc_gid=AeaFsuZziasVwPfMQsEoZqu&oh=00_AYAMqxGq0ATCySDxZWB0ZT8BgSkogYmj13c9f3ytVtkmSg&oe=672DEEE4
9、全新開源音頻模型Hertz-Dev:超低延遲,實現(xiàn)AI實時對話
在當今科技的浪潮中,對話式人工智能(AI)已經(jīng)成為我們生活中的重要組成部分。Standard Intelligence Lab推出的Hertz-Dev開源音頻模型,實現(xiàn)了超低延遲的實時對話AI,為人與機器之間的互動帶來新的希望。
【AiBase提要:】
?? Hertz-Dev是一個開源的8.5億參數(shù)音頻模型,理論延遲僅為80毫秒,實際延遲為120毫秒,極大提升了實時對話體驗。
?? 獨立開發(fā)者和研究人員可以輕松使用先進的實時對話AI技術(shù),無需龐大硬件支持,降低了門檻。
?? Hertz-Dev的廣泛應(yīng)用將推動人工智能在客戶支持、智能家居等領(lǐng)域發(fā)展,讓人與機器的互動更為自然。
詳情鏈接:https://github.com/Standard-Intelligence/hertz-dev
10、前小鵬高管創(chuàng)辦 AI 陪伴機器人公司,成功融資千萬元!
作為前小鵬機器人產(chǎn)品設(shè)計負責人的孫兆治創(chuàng)辦的上海珞博智能科技有限公司成功完成千萬元級人民幣的天使輪融資。公司專注于AI陪伴機器人領(lǐng)域,產(chǎn)品定位為“AI潮玩”,將兼顧桌面和可穿戴場景,具備多項創(chuàng)新特性。
【AiBase提要:】
?? 珞博智能完成千萬元級人民幣的天使輪融資,主要來自行業(yè)投資者。
?? 公司成立于2024年1月,首款產(chǎn)品定位為“AI潮玩”,已完成前三輪原型機設(shè)計開發(fā)。
?? 創(chuàng)始人孫兆治具有豐富的用戶體驗設(shè)計和工業(yè)設(shè)計背景,公司目標市場明確,面向年輕女性用戶的情感陪伴需求。
(舉報)