11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
【新智元導(dǎo)讀】Meta最近開源了一個(gè)7B尺寸的SpiritLM的多模態(tài)語言模型,能夠理解和生成語音及文本,可以非常自然地在兩種模式間轉(zhuǎn)換,不僅能處理基本的語音轉(zhuǎn)文本和文本轉(zhuǎn)語音任務(wù)能捕捉和再現(xiàn)語音中的情感和風(fēng)格。在純文本大模型取得進(jìn)展的同時(shí),其他模態(tài)數(shù)據(jù),如語音與文本結(jié)合的語言模型也成為了一個(gè)熱門的研究領(lǐng)域,但現(xiàn)有的模型要么在僅包含語音的數(shù)據(jù)上進(jìn)行訓(xùn)練,要么是關(guān)注特定任務(wù),如文本轉(zhuǎn)語音、自動(dòng)語音識別或翻譯,在其他模態(tài)數(shù)據(jù)和任務(wù)上的泛化能力十分有限。研究人員還直接評估了模型對輸入提示的處理能力,結(jié)果發(fā)現(xiàn),無論是哪種提示,模型都能得到很高的評分,表明還有很大的空間來進(jìn)一步提高模型在保持情感表達(dá)方面的能力,也意味著,智能體在理解和生成情感豐富的內(nèi)容方面還有很大的潛力可以挖掘。
AI編程模型的開源王座易主了!Qwen2.5-Coder-32B正式發(fā)布,霸氣拿下多個(gè)主流基準(zhǔn)測試SOTA,徹底登上全球最強(qiáng)開源編程模型寶座。更重要的是,在代碼能力的12個(gè)主流基準(zhǔn)上,Qwen2.5-Coder-32B與GPT-4o對決,斬獲9勝,一舉掀翻閉源編程模型的絕對統(tǒng)治。可以期待一下~關(guān)于Qwen2.5-Coder的更多信息,可直接通過下方鏈接了解。
一篇文章在推特上爆火,利用純提示方法讓普通LLM搖身一變,成為具備復(fù)雜推理能力的OpenAIo1。OpenAIo1正式登場。組織可以使用較小的開源模型來替代GPT-4o等成本較高的模型,用于需要復(fù)雜推理能力來解決的任務(wù)。
近日,摩爾線程上線了大語言模型高速推理框架開源項(xiàng)目vLLM的MUSA移植版本,為開發(fā)者提供基于摩爾線程全功能GPU進(jìn)行開源項(xiàng)目MUSA移植的范例。摩爾線程表示,正努力圍繞自主研發(fā)的統(tǒng)一系統(tǒng)架構(gòu)GPU、MUSA軟件平臺,構(gòu)建完善好用的MUSA應(yīng)用生態(tài)。摩爾線程通過MUSA軟件棧對CUDA軟件棧接口兼容,大幅提升了應(yīng)用移植的效率,縮短了開發(fā)周期提供MUSIFY自動(dòng)代碼移植工具等一系列實(shí)用工具和腳本。
【新智元導(dǎo)讀】北京大學(xué)的研究人員開發(fā)了一種新型多模態(tài)框架FakeShield,能夠檢測圖像偽造、定位篡改區(qū)域,并提供基于像素和圖像語義錯(cuò)誤的合理解釋,可以提高圖像偽造檢測的可解釋性和泛化能力。隨著生成式人工智能的迅猛發(fā)展,圖像編輯與合成技術(shù)變得愈加成熟與普及。表3:FakeShield與主流IFDL方法的定位性能比較另外,圖4的主觀結(jié)果對比也表明,F(xiàn)akeShield能夠生成更加?
大模型的應(yīng)用歷來受幻覺所擾。這個(gè)幻覺可以指代LLM產(chǎn)生的任何類型的錯(cuò)誤:事實(shí)不準(zhǔn)確、偏見、常識推理失敗等等。探針可以有效地識別正確答案的事實(shí)表明,LLM的內(nèi)部編碼與其外部行為之間存在重大脫節(jié):即使模型編碼了哪個(gè)答案是正確的信息,它在實(shí)踐中仍然可能生成錯(cuò)誤的答案。
【新智元導(dǎo)讀】最近,大模型訓(xùn)練遭惡意攻擊事件已經(jīng)刷屏了。Anthropic也發(fā)布了一篇論文,探討了前沿模型的巨大破壞力,他們發(fā)現(xiàn):模型遇到危險(xiǎn)任務(wù)時(shí)會隱藏真實(shí)能力會在代碼庫中巧妙地插入bug,躲過LLM和人類「檢查官」的追蹤!就在昨天,某大廠模型訓(xùn)練遭入侵的事件,驚動(dòng)了整個(gè)AI圈。隨著AI模型能力繼續(xù)提升,這些評估和緩解措施還夠用嗎?Anthropic研究者也表示,希望其他AI研究者和開發(fā)者都能加入改進(jìn)這些評估的行列。
【新智元導(dǎo)讀】1%合成數(shù)據(jù),就能讓模型瞬間崩潰!來自Meta、NYU等機(jī)構(gòu)團(tuán)隊(duì)證實(shí),「微量」合成數(shù)據(jù)便讓LLM弱不可堪。參數(shù)規(guī)模越大,模型崩潰越嚴(yán)重。JuliaKempeJuliaKempe是紐約大學(xué)數(shù)據(jù)科學(xué)中心和Courant數(shù)學(xué)科學(xué)研究所計(jì)算機(jī)科學(xué)、數(shù)學(xué)和數(shù)據(jù)科學(xué)的銀牌教授,也是MetaFair的客座高級研究員。
近日,蘋果公司的AI研究團(tuán)隊(duì)發(fā)表了一篇題為UnderstandingtheLimitationsofLargeLanguageModelsinMathematicalReasoning”的論文,揭示了大型語言模型在數(shù)學(xué)推理方面的顯著局限性。盡管這些模型在生成人類水平的文本方面表現(xiàn)出色,但當(dāng)處理簡單的數(shù)學(xué)問題時(shí),即使問題僅進(jìn)行了微小的改動(dòng),如添加無關(guān)信息,模型的表現(xiàn)也會急劇下降。雖然LLM在許多領(lǐng)域表現(xiàn)優(yōu)異,但其推理能力仍有待改進(jìn)。
【新智元導(dǎo)讀】PlaygroundResearch推出了新一代文本到圖像模型PGv3,具備240億參數(shù)量,采用深度融合的大型語言模型,實(shí)現(xiàn)了在圖形設(shè)計(jì)和遵循文本提示指令上甚至超越了人類設(shè)計(jì)師,同時(shí)支持精確的RGB顏色控制和多語言識別。自去年以來,文本到圖像生成模型取得了巨大進(jìn)展,模型的架構(gòu)從傳統(tǒng)的基于UNet逐漸轉(zhuǎn)變?yōu)榛赥ransformer的模型。多語言能力得益于語言模型天生能夠理解?