??????AI新鮮事
百度Apollo開放平臺(tái)9.0發(fā)布
百度發(fā)布Apollo開放平臺(tái)9.0,全面升級(jí)自動(dòng)駕駛開發(fā)領(lǐng)域,包括工程、算法和工具三方面,重構(gòu)12萬行代碼,新增20萬行。工程框架拆分成小軟件包,提高靈活性;算法優(yōu)化感知算法,支持4D毫米波雷達(dá);工具升級(jí)包括高精地圖、傳感器標(biāo)定等,提升Dreamview+效率。
【AiBase提要:】
?? 工程框架全面升級(jí),模塊拆分提高靈活性;
?? 算法優(yōu)化感知算法,支持4D毫米波雷達(dá);
?? 工具升級(jí)包括高精地圖、傳感器標(biāo)定,提升效率。
OpenAI公布ChatGPT安全框架
OpenAI發(fā)布ChatGPT安全框架,采用風(fēng)險(xiǎn)“記分卡”衡量潛在危害,雇傭跨領(lǐng)域?qū)<覉F(tuán)隊(duì)監(jiān)測(cè)技術(shù),與第三方合作測(cè)試技術(shù),與競(jìng)爭(zhēng)對(duì)手Anthropic的政策形成差異。
【AiBase提要:】
?? 安全框架發(fā)布:OpenAI推出ChatGPT安全框架,采用風(fēng)險(xiǎn)“記分卡”評(píng)估潛在危害,不斷完善框架以確保AI安全。
?? 跨領(lǐng)域?qū)<覉F(tuán)隊(duì):雇傭AI研究、國(guó)家安全、政策專業(yè)人員組成“應(yīng)對(duì)”團(tuán)隊(duì),監(jiān)測(cè)技術(shù)風(fēng)險(xiǎn)并提供預(yù)警。
?? 開放合作與競(jìng)爭(zhēng)對(duì)手對(duì)比:允許第三方測(cè)試技術(shù),與Anthropic的政策形成鮮明對(duì)比,展現(xiàn)出框架的靈活性。
Etched AI推AI推理加速芯片Sohu
美國(guó)芯片初創(chuàng)公司Etched AI成功開發(fā)了一項(xiàng)技術(shù),將Transformer架構(gòu)直接嵌入芯片,創(chuàng)造出專為Transformer推理的超強(qiáng)服務(wù)器Sohu,可運(yùn)行萬億參數(shù)模型,挑戰(zhàn)英偉達(dá)。
官網(wǎng)地址:https://www.etched.ai/
【AiBase提要】
?? Etched AI成功將Transformer架構(gòu)“燒錄”到芯片,創(chuàng)造強(qiáng)大服務(wù)器Sohu。
?? 技術(shù)支持實(shí)時(shí)語音代理、高級(jí)解碼等多項(xiàng)功能。
?? 服務(wù)器配備144GB HBM3E,支持MoE和轉(zhuǎn)換器變體,為高性能提供有力支持。
百度數(shù)字人生成專利公布
百度公布一項(xiàng)數(shù)字人生成專利,專利涉及人工智能技術(shù)領(lǐng)域,通過計(jì)算機(jī)視覺、自然語言處理和深度學(xué)習(xí)等技術(shù),實(shí)現(xiàn)對(duì)數(shù)字人賦予不同人格。
【AiBase提要:】
?? 多人格數(shù)字人生成專利: 百度公布一項(xiàng)數(shù)字人生成專利,通過語言模型訓(xùn)練和三維建模,使數(shù)字人具備不同人格。
?? 應(yīng)用領(lǐng)域廣泛: 該專利涉及計(jì)算機(jī)視覺、自然語言處理和深度學(xué)習(xí),可應(yīng)用于元宇宙等場(chǎng)景,提升數(shù)字人的交流與互動(dòng)自然度。
?? 賦予情感與意識(shí): 生成的數(shù)字人可像人類一樣表達(dá)情感和意識(shí),為人機(jī)交互提供更豐富、自然的體驗(yàn)。
OpenAI官方發(fā)布Prompt工程指南
OpenAI官方發(fā)布的Prompt工程指南分享了六個(gè)策略,幫助用戶優(yōu)化ChatGPT等大型語言模型的輸出,包括寫清楚指令、提供參考文本、拆分復(fù)雜任務(wù)等。
指南地址:https://platform.openai.com/docs/guides/prompt-engineering
【AiBase提要:】
?? 寫清楚指令: 用戶需明確、詳細(xì)指導(dǎo)模型,減少猜測(cè),提高滿意度。
?? 提供參考文本: 使用參考文本幫助模型減少錯(cuò)誤輸出,指導(dǎo)回答問題。
?? 拆分復(fù)雜任務(wù): 將任務(wù)分解為簡(jiǎn)單子任務(wù),降低錯(cuò)誤率,提高整體性能。
Adobe終止200億美元收購(gòu)Figma
Adobe和Figma宣布終止200億美元的合并交易,因歐洲監(jiān)管機(jī)構(gòu)強(qiáng)烈反對(duì),認(rèn)為該交易將損害競(jìng)爭(zhēng),導(dǎo)致用戶面臨更高的價(jià)格和更少的選擇。
【AiBase提要:】
?? Adobe和Figma終止200億美元的合并交易,歐洲監(jiān)管機(jī)構(gòu)認(rèn)為交易將損害競(jìng)爭(zhēng),不予批準(zhǔn)。
?? Adobe首席執(zhí)行官表示盡管相信合并的好處,但由于歐洲監(jiān)管無法獲得批準(zhǔn),共同同意終止交易。
?? 根據(jù)合同規(guī)定,Adobe需支付Figma10億美元的終止費(fèi),反映科技行業(yè)監(jiān)管日益嚴(yán)格。
Mistral AI CEO宣布于2024年開源GPT-4級(jí)別模型
法國(guó)初創(chuàng)公司Mistral AI計(jì)劃于2024年開源GPT-4級(jí)別模型,最近獲得4.15億美元融資,推出基于MoE架構(gòu)的8X7B模型,同時(shí)推進(jìn)多語言模型Mistral Medium的開發(fā)。
【AiBase提要:】
?? Mistral AI首席執(zhí)行官Arthur Mensch宣布公司將于2024年開源GPT-4級(jí)模型,引起行業(yè)廣泛關(guān)注。
?? 公司最近獲得4.15億美元融資,估值20億美元,推出基于MoE架構(gòu)的8X7B模型,同時(shí)推出API服務(wù)“La Plateforme”。
?? Mistral AI正在開發(fā)支持多語言的Mistral Medium模型,在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,預(yù)計(jì)將于2024年發(fā)布。
??????AI應(yīng)用
美圖云修Pro版正式發(fā)布
美圖公司旗下的美圖云修正式推出Pro版,搭載全新圖像處理引擎,實(shí)現(xiàn)實(shí)時(shí)預(yù)覽,為商業(yè)攝影提供即時(shí)修圖解決方案。同時(shí),智能修圖API服務(wù)也正式開放,支持多端應(yīng)用,助力快速出圖。數(shù)據(jù)顯示,美圖云修已擁有超過百萬用戶和3萬余家商業(yè)攝影機(jī)構(gòu)使用,年修圖量超過5億張,有效提升修圖效率和生產(chǎn)力。
美圖云修官網(wǎng):https://yunxiu.meitu.com/home
【AiBase提要】
?? Pro版亮點(diǎn): 全新圖像處理引擎,實(shí)時(shí)預(yù)覽,適用于約拍和旅拍等即時(shí)修圖場(chǎng)景。
?? API服務(wù)開放: 美圖云修智能修圖API服務(wù)全面開放,支持多端應(yīng)用,實(shí)現(xiàn)“即拍即修”。
?? 數(shù)據(jù)亮點(diǎn): 超過百萬用戶、3萬余家商業(yè)攝影機(jī)構(gòu)使用,年修圖量超5億張,提升修圖效率。
Runway上線文字生成語音功能
Runway最近悄悄上線了文字生成語音功能,初次嘗試英文效果驚艷,但中文語音仍帶有外國(guó)口音,可能需要解決。
體驗(yàn)地址:https://app.runwayml.com
【AiBase提要】
?? 語音功能驚艷登場(chǎng):Runway最新推出的文字生成語音功能,在英文表達(dá)方面展現(xiàn)出驚人的自然豐富情感。
?? 多模型選擇,點(diǎn)數(shù)消耗低:該功能提供多種語音模型,僅需右上角點(diǎn)數(shù)即可生成長(zhǎng)時(shí)間可用的語音。
?? 中文語音仍存問題:盡管英文效果驚艷,中文語音仍存在外國(guó)口音問題,可能需要解決。
超強(qiáng)小說生成工具M(jìn)idreal AI 情節(jié)有邏輯還具有互動(dòng)能力
小說生成工具M(jìn)idreal AI強(qiáng)于其他LLM直接生成的小說,以內(nèi)存跨越技術(shù)和長(zhǎng)篇寫作能力為特色,用戶可在關(guān)鍵節(jié)點(diǎn)選擇劇情走向,獲得具有邏輯和互動(dòng)能力的小說。
體驗(yàn)地址:discord.gg/ReKvgchE3P
【AiBase提要:】
?? 內(nèi)存跨越技術(shù):Midreal AI采用內(nèi)存跨越技術(shù),實(shí)現(xiàn)幾乎無限的記憶保留,確保長(zhǎng)期無縫連接的游戲體驗(yàn)。
?? 長(zhǎng)篇寫作能力:具備長(zhǎng)篇寫作能力,保持?jǐn)⑹逻B貫和引人入勝,為用戶提供高質(zhì)量的閱讀體驗(yàn)。
?? 中英文支持:Midreal AI支持中文和英文,為喜愛閱讀和寫作的用戶提供全新的創(chuàng)作體驗(yàn)。
CSM ai推實(shí)時(shí)草圖轉(zhuǎn)3D功能
CSM AI最新推出的實(shí)時(shí)繪圖工具進(jìn)化,用戶可通過簡(jiǎn)單草圖生成3D模型,并導(dǎo)出至3D軟件,在兒童游戲和專業(yè)3D創(chuàng)意工作中具備廣泛應(yīng)用。
體驗(yàn)地址:https://3d.csm.ai/canvas
【AiBase提要】
?? 實(shí)時(shí)草圖轉(zhuǎn)3D: CSM AI推出的工具允許用戶通過簡(jiǎn)單的草圖實(shí)時(shí)生成3D模型。
?? 導(dǎo)出至3D軟件: 生成的3D模型可直接導(dǎo)出到其他3D軟件中進(jìn)行進(jìn)一步編輯和應(yīng)用。
?? 免費(fèi)體驗(yàn)功能: 用戶可以通過訪問體驗(yàn)地址免費(fèi)嘗試這一功能,為創(chuàng)意設(shè)計(jì)提供便利。
????????大模型動(dòng)態(tài)
谷歌推視覺語言模型PixelLLM
通過與加州大學(xué)圣迭戈分校合作,谷歌AI研究團(tuán)隊(duì)推出PixelLLM,實(shí)現(xiàn)了細(xì)粒度定位和視覺-語言對(duì)齊。該模型通過在語言模型的每個(gè)輸出單詞與像素位置建立密集對(duì)齊,成功解決了大語言模型在定位任務(wù)中的挑戰(zhàn)。
項(xiàng)目體驗(yàn)網(wǎng)址:https://top.aibase.com/tool/pixelllm
論文網(wǎng)址:https://arxiv.org/abs/2312.09237
【AiBase提要:】
?? PixelLLM采用密集對(duì)齊策略,成功解決了大型語言模型在細(xì)粒度定位任務(wù)中的挑戰(zhàn)。
?? 在密集目標(biāo)描述、位置條件描述和引用定位等視覺任務(wù)中,PixelLLM表現(xiàn)出卓越性能,取得最先進(jìn)的結(jié)果。
?? 通過引入新的視覺-語言模型,PixelLLM為實(shí)現(xiàn)更精確的視覺-語言對(duì)齊和定位提供了新的可能性。
元象開源高性能大模型XVERSE-65B-2底座版
元象宣布開源XVERSE-65B-2底座版,強(qiáng)化代碼和數(shù)學(xué)能力,保持生成創(chuàng)作、角色扮演等能力,為生態(tài)貢獻(xiàn)“文理兼修、大有可為”的大模型。
【AiBase提要:】
?? XVERSE-65B-2通過綜合優(yōu)化器狀態(tài)和學(xué)習(xí)率策略進(jìn)行Continual Pre-Training,總訓(xùn)練token量達(dá)3.2萬億。
?? 模型支持40多種語言,上下文窗口為16K,在六個(gè)維度11項(xiàng)標(biāo)準(zhǔn)中八成超越GPT3.5。
?? XVERSE-65B顯著提升大模型的理解、生成、邏輯和記憶等能力,是國(guó)內(nèi)最早開源的650億參數(shù)免費(fèi)商用模型。
項(xiàng)目地址:
Github:https://github.com/xverse-ai/XVERSE-65B
Hugging Face:https://huggingface.co/xverse/XVERSE-65B-2
ModelScope魔搭:https://modelscope.cn/models/xverse/XVERSE-65B-2
UIUC清華聯(lián)手發(fā)布全新代碼大模型Magicoder
UIUC和清華合作推出的Magicoder是一款在代碼生成領(lǐng)域表現(xiàn)出色的大型語言模型,僅使用了7B參數(shù),并以全面開源的方式分享了其代碼、權(quán)重和數(shù)據(jù)。
論文地址:https://arxiv.org/pdf/2312.02120.pdf
【AiBase提要:】
?? 模型介紹: UIUC和清華合作推出的Magicoder,在代碼生成領(lǐng)域以不到7B參數(shù)媲美頂級(jí)模型,并全面開源其代碼、權(quán)重和數(shù)據(jù)。
??? OSS-INSTRUCT方法: Magicoder采用OSS-INSTRUCT方法,從開源代碼中獲取靈感,生成多樣、真實(shí)和可控的編碼指令數(shù)據(jù),注重真實(shí)性對(duì)于指令調(diào)整的重要性。
?? 性能表現(xiàn): 在Python、其他編程語言以及數(shù)據(jù)科學(xué)庫(kù)領(lǐng)域,Magicoder表現(xiàn)出色,在DS-1000dataset上改善了8.3個(gè)百分點(diǎn),展現(xiàn)了在實(shí)際用例中的潛力。
音樂生成深度學(xué)習(xí)模型StemGen
字節(jié)跳動(dòng)AI研究團(tuán)隊(duì)推出StemGen項(xiàng)目,采用非自回歸、基于Transformer的模型,通過聽取音樂上下文生成音樂,在音頻質(zhì)量和音樂與上下文協(xié)調(diào)性方面取得競(jìng)爭(zhēng)性成果。
項(xiàng)目網(wǎng)址:https://julian-parker.github.io/stemgen/
論文網(wǎng)址:https://arxiv.org/abs/2312.08723
【AiBase提要】
?? 革新性方法: StemGen采用非自回歸、基于Transformer的模型,通過聽取音樂上下文生成音樂,突破傳統(tǒng)抽象條件的模型。
?? 模型效果驗(yàn)證: 采用標(biāo)準(zhǔn)指標(biāo)和主觀測(cè)試證明StemGen模型在音頻質(zhì)量和音樂與上下文的強(qiáng)大協(xié)調(diào)性方面表現(xiàn)出競(jìng)爭(zhēng)性。
?? 技術(shù)進(jìn)步: 結(jié)合圖像和語言處理技術(shù),以端到端方式推動(dòng)深度學(xué)習(xí)音頻生成,提出非自回歸、基于Transformer的架構(gòu)訓(xùn)練模型的新范例。
?????????聚焦開發(fā)者
創(chuàng)新3D技術(shù)Gaussian-SLAM 通過分析視頻重建逼真的3D場(chǎng)景
通過分析視頻流中的圖像,Gaussian-SLAM技術(shù)能夠?qū)崟r(shí)渲染并重建逼真的3D模型,為自動(dòng)駕駛、機(jī)器人導(dǎo)航、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域提供新的可能性。
【AiBase提要:】
?? 光學(xué)真實(shí)的渲染: Gaussian-SLAM以高度真實(shí)的方式重建和渲染真實(shí)世界和合成場(chǎng)景。
?? 高斯斑點(diǎn)場(chǎng)景表示: 使用高斯斑點(diǎn)作為場(chǎng)景的表示單位,與傳統(tǒng)的點(diǎn)云或網(wǎng)格表示不同。
?? 適用于單目RGBD輸入: 針對(duì)單目RGBD輸入數(shù)據(jù)進(jìn)行優(yōu)化,適用于多種場(chǎng)景。
論文地址:https://ivi.fnwi.uva.nl/cv/paper/GaussianSLAM.pdf
項(xiàng)目地址:https://github.com/VladimirYugay/Gaussian-SLAM
演示地址:https://vladimiryugay.github.io/gaussian_slam/
(舉報(bào))