??????AI應(yīng)用
Midjourney正式上線Alpha網(wǎng)頁版!支持已生成圖片設(shè)置參數(shù)回填
Midjourney Alpha全新升級(jí),生成用戶界面更便捷,成功生成1萬張圖片即可獲得權(quán)限,可視化圖像參數(shù)支持點(diǎn)擊回填到提示詞輸入框,提升生成體驗(yàn)。
截圖自歸藏
【AiBase提要:】
?? 生成體驗(yàn)提升: Midjourney Alpha升級(jí)界面更便捷,所有參數(shù)以可視化圖像形式展示,成功生成1萬張圖片即可獲得權(quán)限。
??? 可視化回填功能: 已生成的圖片參數(shù)支持點(diǎn)擊回填到提示詞輸入框,簡(jiǎn)化分割提示詞的操作,提升用戶體驗(yàn)。
?? 圖像識(shí)別升級(jí): 圖像生成功能升級(jí),選擇已生成圖片時(shí)系統(tǒng)顯示藝術(shù)家和風(fēng)格的提示詞,方便點(diǎn)擊選擇進(jìn)行回填,使操作更加簡(jiǎn)便。
runway支持人物面部生成指定表情
Runway宣布運(yùn)動(dòng)筆刷功能升級(jí),結(jié)合提示詞實(shí)現(xiàn)對(duì)人物面部表情的精準(zhǔn)控制,讓制作人員更方便地在創(chuàng)作過程中控制人物的表情。
【AiBase提要:】
?? 運(yùn)動(dòng)筆刷升級(jí): Runway運(yùn)動(dòng)筆刷功能升級(jí),通過結(jié)合提示詞,能夠在人物面部快速準(zhǔn)確地產(chǎn)生指定表情,提高創(chuàng)作效率。
?? 創(chuàng)新技術(shù)應(yīng)用: 運(yùn)動(dòng)筆刷是Runway推出的一項(xiàng)創(chuàng)新技術(shù),用戶無需輸入文字,通過手勢(shì)操作即可使圖片動(dòng)起來,簡(jiǎn)化視頻制作流程。
?? 生動(dòng)人物形象: 制作人員可以更方便地控制人物表情,使人物形象更加生動(dòng),為內(nèi)容創(chuàng)作提供了更靈活的可能性。
Snapchat推出AI生成照片功能
Snapchat Plus會(huì)員現(xiàn)在可通過AI生成圖像,選擇文本提示或預(yù)制選項(xiàng),豐富定制照片,包括背景填充和主題變換。
【AiBase提要:】
?? Snapchat Plus會(huì)員通過點(diǎn)擊“AI”按鈕,利用AI生成圖像功能,根據(jù)文本提示創(chuàng)建并發(fā)送圖像。
?? 新功能包括AI填充背景,使主體看起來離相機(jī)更遠(yuǎn),以及通過“Dreams”功能為照片添加主題變換。
?? Snapchat Plus會(huì)員每月可免費(fèi)獲得一個(gè)包含八個(gè)“Dreams”的禮包,豐富用戶定制和分享體驗(yàn)。
????????大模型動(dòng)態(tài)
騰訊發(fā)布視頻生成模型AnimateZero 效果秒殺Animatediff
騰訊最新發(fā)布的AnimateZero視頻生成模型效果優(yōu)于Animatediff,具備更好的SD生態(tài)兼容性,并采用社區(qū)SD模型進(jìn)行演示。
項(xiàng)目地址:https://vvictoryuki.github.io/animatezero.github.io/
【AiBase提要:】
?? AnimateZero效果超群,優(yōu)于Animatediff,更兼容SD生態(tài)。
?? 采用視頻擴(kuò)散模型,解決傳統(tǒng)模型不透明、難以控制等問題。
?? 在應(yīng)用方面展示多種場(chǎng)景,提供高質(zhì)量視頻編輯輔助工具。
微軟發(fā)布小語言模型AI Phi-2
微軟研究院推出Phi-2小語言模型,參數(shù)達(dá)27億,性能媲美Meta的Llama2-7B和Mistral-7B。盡管規(guī)模僅為L(zhǎng)lama2-7B的一半,Phi-2性能更佳,且在回答物理問題和指導(dǎo)學(xué)生方面表現(xiàn)出色。然而,目前僅限用于研究目的,不可用于商業(yè)用途。
【AiBase提要】
?? 微軟發(fā)布27億參數(shù)的小語言模型Phi-2,性能與更大的Llama2-7B和Mistral-7B相當(dāng)。
?? Phi-2在回答物理問題和學(xué)生指導(dǎo)方面展現(xiàn)出更好的性能,毒性和偏差比Llama2更少。
?? Phi-2目前僅限用于研究目的,商業(yè)用途受限。
阿里、港大推動(dòng)態(tài)視頻生成模型LivePhoto
阿里巴巴、香港大學(xué)、螞蟻集團(tuán)聯(lián)合推出LivePhoto,這是一種創(chuàng)新的動(dòng)態(tài)視頻生成模型,通過圖像內(nèi)容控制、運(yùn)動(dòng)建模、額外控制指令等模塊,精準(zhǔn)生成高質(zhì)量動(dòng)態(tài)視頻。
論文地址:https://arxiv.org/abs/2312.02928
【AiBase提要:】
?? 創(chuàng)新模型: 阿里、港大、螞蟻集團(tuán)合作推出LivePhoto,基于Stable Diffusion的動(dòng)態(tài)視頻生成模型,結(jié)合圖像內(nèi)容控制、運(yùn)動(dòng)建模、額外控制指令。
?? 卓越性能: LivePhoto在多輪測(cè)試中展現(xiàn)出卓越性能,與主流模型如Gen-2、Pikalabs相比效果顯著,用戶可通過調(diào)節(jié)運(yùn)動(dòng)強(qiáng)度定制視頻中的運(yùn)動(dòng)方式。
?? 零樣本生成: LivePhoto在零樣本視頻動(dòng)畫生成性能方面表現(xiàn)出色,用戶通過簡(jiǎn)單調(diào)節(jié)運(yùn)動(dòng)強(qiáng)度能自由定制視頻中的運(yùn)動(dòng)方式。
通義千問72B模型榮登大模型評(píng)測(cè)平臺(tái)OpenCompass榜首
通義千問72B模型以67.1的高分在中國權(quán)威模型評(píng)估平臺(tái)OpenCompass上獲得榜首,顯示出其在學(xué)科、語言、知識(shí)、理解和推理等五個(gè)維度的全面能力。
【AiBase提要】
?? 通義千問72B模型以67.1高分登頂OpenCompass模型評(píng)測(cè)平臺(tái),展現(xiàn)在多維度全面評(píng)估中的卓越表現(xiàn)。
?? 阿里云開源的Qwen-72B模型在十個(gè)權(quán)威基準(zhǔn)測(cè)評(píng)中超越開源和商業(yè)模型,成為業(yè)界最強(qiáng)大的開源大型模型。
?? 通義千問-72B在中文數(shù)據(jù)集評(píng)測(cè)中顯著優(yōu)于其他模型,處理最長(zhǎng)為32k的文本輸入,性能超越ChatGPT-3.5-16k。
??????AI新鮮事
OpenAI恢復(fù)會(huì)員注冊(cè)
OpenAI開始逐步恢復(fù)ChatGPT Plus注冊(cè),已向部分用戶發(fā)出邀請(qǐng),并表示感謝用戶注冊(cè)候補(bǔ)名單。
【AiBase提要:】
?? 逐步恢復(fù)注冊(cè): OpenAI開始逐漸允許ChatGPT Plus注冊(cè),已向部分用戶發(fā)出邀請(qǐng),解決先前因使用量激增而暫停注冊(cè)的問題。
?? 邀請(qǐng)函內(nèi)容: 用戶收到邀請(qǐng)函,感謝注冊(cè)候補(bǔ)名單,有效期10天,可通過電腦登錄ChatGPT升級(jí)到Plus,享受GPT-4和其他工具。
?? 用戶反應(yīng): 先前的“ChatGPT Plus絕版”消息引起一些用戶在eBay上租售賬戶或高價(jià)出售邀請(qǐng)碼,突顯對(duì)ChatGPT Plus的高度關(guān)注。
Meta使用盜版書籍訓(xùn)練AI模型遭指控
Meta公司在夏季提起的版權(quán)侵權(quán)訴訟中,被指控?zé)o視律師的警告,使用數(shù)千本盜版書籍訓(xùn)練其AI模型。最新提交文件揭示了Meta關(guān)聯(lián)研究員在Discord上討論數(shù)據(jù)集采購的聊天記錄,顯示公司或許明知使用這些書籍存在法律風(fēng)險(xiǎn)。
【AiBase提要:】
?? 法律風(fēng)險(xiǎn)忽視: Meta被控?zé)o視律師警告,使用受版權(quán)保護(hù)的書籍進(jìn)行AI模型訓(xùn)練。
?? 聊天記錄揭示: 提交的新文件包括研究員在Discord上的聊天記錄,或許表明Meta知曉其行為可能涉及法律問題。
?? 訴訟背景: 一些著名作者起訴Meta未經(jīng)許可使用其作品訓(xùn)練人工智能語言模型Llama,公司尚未對(duì)指控回應(yīng)。
OpenAI非營(yíng)利部門去年凈收入不足4.5萬美元
OpenAI的非營(yíng)利部門在最新稅務(wù)文件中披露,去年凈收入僅為44,485美元,盡管其盈利業(yè)務(wù)可能為公司創(chuàng)造了數(shù)百萬美元的收入,引起外界關(guān)注。
【AiBase提要:】
?? OpenAI非營(yíng)利部門去年凈收入僅為44,485美元,與其盈利業(yè)務(wù)(如ChatGPT)創(chuàng)造的數(shù)百萬美元收入形成鮮明對(duì)比。
?? OpenAI的盈利部門可能估值高達(dá)900億美元,微軟投資100億美元持有其49%股份,引發(fā)了對(duì)公司結(jié)構(gòu)的關(guān)注。
?? OpenAI的企業(yè)結(jié)構(gòu)受到爭(zhēng)議,接受私人投資數(shù)十億美元,與其他非營(yíng)利組織不同,引發(fā)了透明度和公共信任的討論。
頂尖AI公司薪酬榜曝光:600萬天價(jià)年薪震驚網(wǎng)友
一張最新薪酬表格曝光,顯示OpenAI領(lǐng)銜全美AI公司,提供高達(dá)600萬美元年薪,引發(fā)社會(huì)廣泛熱議。初級(jí)碼農(nóng)時(shí)薪低至85美元,突顯AI行業(yè)薪資差距。網(wǎng)友對(duì)高薪AI科學(xué)家和低薪工程師的差異表示質(zhì)疑。各大科技公司年薪不一,但大多數(shù)超過百萬美元。未來AI領(lǐng)域人才需求增長(zhǎng),薪資引起廣泛關(guān)注。
【AiBase提要:】
?? OpenAI以600萬美元年薪領(lǐng)銜AI公司榜單。
?? 薪資差距懸殊,初級(jí)碼農(nóng)時(shí)薪僅為85美元。
?? AI領(lǐng)域需求升高,未來薪酬或?qū)⒊掷m(xù)吸引關(guān)注。
特斯拉人形機(jī)器人Optimus二代上線
特斯拉人形機(jī)器人Optimus二代上線,展示更靈活的雙手和輕盈身體,具備對(duì)物體分類和瑜伽動(dòng)作等新能力,引領(lǐng)機(jī)器人技術(shù)創(chuàng)新。
【AiBase提要:】
?? 特斯拉人形機(jī)器人Optimus二代亮相,經(jīng)過兩年半的練習(xí),展示出更靈活的雙手和輕盈的身體。
?? Optimus Gen2配備全新手,擁有11個(gè)自由度,能靈巧處理精細(xì)物體,展示觸覺處理能力。
?? 特斯拉人形機(jī)器人展示驚人的進(jìn)步速度,包括對(duì)物體分類和瑜伽動(dòng)作等新能力。
Meta 推出雷朋智能眼鏡的多模態(tài) AI 功能測(cè)試
Meta宣布早期訪問測(cè)試其多模態(tài)AI功能,應(yīng)用于Ray-Ban智能眼鏡,通過攝像頭和麥克風(fēng)告知用戶周圍視聽信息,包括物體識(shí)別和語言翻譯。
【AiBase提要】
?? 智能眼鏡新體驗(yàn): Meta推出早期測(cè)試,讓Ray-Ban智能眼鏡具備多模態(tài)AI功能,用戶通過眼鏡體驗(yàn)物體識(shí)別和語言翻譯。
?? 全天候互動(dòng): 用戶可通過眼鏡與Meta AI助手全天對(duì)話,提問并得到智能建議,開創(chuàng)全新智能眼鏡應(yīng)用場(chǎng)景。
?? 測(cè)試范圍有限: 初期測(cè)試僅限于美國,選擇加入的少數(shù)人參與,拓展智能眼鏡在用戶生活中的潛在應(yīng)用。
?????????聚焦開發(fā)者
南大提出全新框架VividTalk 一張照片一段聲音秒生超逼真視頻
南大等機(jī)構(gòu)研究人員推出VividTalk框架,通過一段音頻和一張照片生成高質(zhì)量、富有表現(xiàn)力的說話視頻,實(shí)現(xiàn)口型和音頻的無縫對(duì)齊。
論文地址:https://arxiv.org/pdf/2312.01841.pdf
【AiBase提要:】
?? 全新框架VividTalk: 南大研究人員提出通用框架,通過音頻和照片生成逼真說話視頻。
??? 兩階段生成方法: 采用多分支Transformer網(wǎng)絡(luò)建模音頻上下文和渲染投影紋理,實(shí)現(xiàn)全面建模運(yùn)動(dòng)。
?? 優(yōu)越生成質(zhì)量: VividTalk展現(xiàn)出在多語言支持下生成具有豐富表情和自然頭部姿勢(shì)的口型同步視頻的優(yōu)越性能。
趣味項(xiàng)目CLoT:訓(xùn)練LLM更幽默地回答問題
趣味項(xiàng)目CLoT通過日本傳統(tǒng)喜劇游戲“大喜利”挑戰(zhàn)AI,培養(yǎng)其成為幽默吐槽高手。研究人員構(gòu)建了多模態(tài)Oogiri-GO數(shù)據(jù)集,通過特殊訓(xùn)練方法使AI學(xué)會(huì)在游戲中產(chǎn)生創(chuàng)意和幽默回答。CLoT顯著提高了大語言模型(LLM)在多種Oogiri游戲中的幽默表現(xiàn),展現(xiàn)了卓越的創(chuàng)造性和泛化能力。
【AiBase提要:】
?? CLoT項(xiàng)目通過"大喜利"游戲挑戰(zhàn)AI,培養(yǎng)其成為幽默吐槽高手。
?? 構(gòu)建多模態(tài)Oogiri-GO數(shù)據(jù)集,訓(xùn)練AI在游戲中生成創(chuàng)意和幽默回答。
?? CLoT顯著提高LLM在Oogiri游戲中的幽默表現(xiàn),展現(xiàn)出卓越的創(chuàng)造性和泛化能力。
HiFi4G渲染技術(shù)實(shí)現(xiàn)25倍壓縮率,照片級(jí)真實(shí)人體建模和高效渲染
上??萍即髮W(xué)、NeuDim、字節(jié)跳動(dòng)和DGene的研究團(tuán)隊(duì)聯(lián)合發(fā)布的HiFi4G渲染技術(shù),以緊湊的高斯噴濺表示法和雙圖機(jī)制為基礎(chǔ),實(shí)現(xiàn)了25倍壓縮率。
項(xiàng)目網(wǎng)址:https://nowheretrix.github.io/HiFi4G/
論文網(wǎng)址:https://arxiv.org/abs/2312.03461
【AiBase提要】
1. ?? HiFi4G實(shí)現(xiàn)了從密集視頻中重新創(chuàng)建高保真4D人體表演的全顯式和緊湊方法。
2. ?? HiFi4G在優(yōu)化速度、渲染質(zhì)量和存儲(chǔ)開銷方面明顯優(yōu)于當(dāng)前的隱式渲染技術(shù)。
3. ?? 研究團(tuán)隊(duì)提供了一種壓縮方法,使HiFi4G在每幀不到2MB的存儲(chǔ)空間下,以約25倍的壓縮率,可在各種設(shè)備上實(shí)現(xiàn)沉浸式觀看人體表演。
(舉報(bào))