幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關(guān)鍵詞  > Meta最新資訊  > 正文

Meta發(fā)布Llama 2-Long模型 處理長文本計算量需求減少40%

2023-10-11 14:15 · 稿源:站長之家

要點:

1. Meta發(fā)布Llama2-Long模型,能在處理長文本時不增加計算需求,仍保持卓越性能。

2. 模型的性能提升得益于持續(xù)預(yù)訓(xùn)練、位置編碼改進和數(shù)據(jù)混合,而非依賴更多長文本數(shù)據(jù)。

3. 在短和長任務(wù)上,Llama2-Long都表現(xiàn)出色,超越其他長上下文模型,具有潛力革新自然語言處理領(lǐng)域。

站長之家(ChinaZ.com)10月11日 消息:Meta最新發(fā)布的Llama2-Long模型引領(lǐng)著處理長文本的革命。這個模型不僅處理長文本輸入,而且在不顯著增加計算需求的情況下,保持了卓越性能。這一成就的背后是一系列創(chuàng)新策略的結(jié)果,而不僅僅依賴于更多的長文本數(shù)據(jù)。

Llama2-Long采用了持續(xù)預(yù)訓(xùn)練策略,允許模型逐漸適應(yīng)更長的輸入序列,而不是從頭開始進行長序列預(yù)訓(xùn)練。這一策略在保持性能的同時,最多可減少40%的計算開銷。通過改進位置編碼,研究人員成功提高了模型的上下文長度,使其更好地捕獲遠處信息。

image.png

論文地址:https://arxiv.org/pdf/2309.16039.pdf

數(shù)據(jù)混合也發(fā)揮了關(guān)鍵作用,研究人員通過調(diào)整預(yù)訓(xùn)練數(shù)據(jù)的比例以及添加新的長文本數(shù)據(jù),進一步提升了模型的長上下文能力。實驗結(jié)果表明,數(shù)據(jù)質(zhì)量在長上下文任務(wù)中比文本長度更為關(guān)鍵。

模型的指令微調(diào)方法也經(jīng)過優(yōu)化,通過利用大型多樣化短提示數(shù)據(jù)集,有效將知識傳遞到長上下文場景。這種方法的簡單性和效果出奇的好,特別是在長語境基準測試中。

Llama2-Long不僅在長任務(wù)中表現(xiàn)出色,還在短任務(wù)中有卓越性能。相對于其他長上下文模型,它在編碼、數(shù)學(xué)和知識密集型任務(wù)上表現(xiàn)出明顯的改進,甚至超越了GPT-3.5。這一成就被歸因于額外的計算資源以及新引入的長數(shù)據(jù)中學(xué)到的知識。

Llama2-Long模型的發(fā)布代表了自然語言處理領(lǐng)域的一次里程碑,為處理長文本提供了強大的解決方案。它不僅改進了處理長文本的性能,還通過創(chuàng)新策略為該領(lǐng)域注入了新的活力。

舉報

  • 相關(guān)推薦
  • 這才是真?開源模型!公開「后訓(xùn)練」一切,性能超越Llama 3.1 Instruct

    在最近關(guān)于「ScalingLaw是否撞墻」的討論中,后訓(xùn)練被寄予厚望。近期發(fā)布的OpenAIo1在數(shù)學(xué)、代碼、長程規(guī)劃等問題上取得了顯著提升背后的成功離不開后訓(xùn)練階段強化學(xué)習(xí)訓(xùn)練和推理階段思考計算量的增大。最后必須說明,長達73頁的Tülu3技術(shù)報告中還包含大量本文并未提及的細節(jié),感興趣的讀者千萬不要錯過。

  • 首個可保留情感的音頻LLM!Meta重磅開源7B-Spirit LM,一網(wǎng)打盡「音頻+文本」多模態(tài)任務(wù)

    【新智元導(dǎo)讀】Meta最近開源了一個7B尺寸的SpiritLM的多模態(tài)語言模型,能夠理解和生成語音及文本,可以非常自然地在兩種模式間轉(zhuǎn)換,不僅能處理基本的語音轉(zhuǎn)文本和文本轉(zhuǎn)語音任務(wù)能捕捉和再現(xiàn)語音中的情感和風(fēng)格。在純文本大模型取得進展的同時,其他模態(tài)數(shù)據(jù),如語音與文本結(jié)合的語言模型也成為了一個熱門的研究領(lǐng)域,但現(xiàn)有的模型要么在僅包含語音的數(shù)據(jù)上進行訓(xùn)練,要么是關(guān)注特定任務(wù),如文本轉(zhuǎn)語音、自動語音識別或翻譯,在其他模態(tài)數(shù)據(jù)和任務(wù)上的泛化能力十分有限。研究人員還直接評估了模型對輸入提示的處理能力,結(jié)果發(fā)現(xiàn),無論是哪種提示,模型都能得到很高的評分,表明還有很大的空間來進一步提高模型在保持情感表達方面的能力,也意味著,智能體在理解和生成情感豐富的內(nèi)容方面還有很大的潛力可以挖掘。

  • 摸著Meta過河,百度再戰(zhàn)AI眼鏡

    因為缺少真正的出圈產(chǎn)品,導(dǎo)致外界對百度仍持有固有印象,認為其在AI硬件賽道正逐漸掉隊?!癎oogleGlass什么都能干一點,但是什么也沒有做好”,十年前,百度智能眼鏡BaiduEye產(chǎn)品團隊的一名成員坦言,“我們想至少在一點上做好,能把它用起來”。在這場“戰(zhàn)役”中,那些跑得快的企業(yè),是成為“領(lǐng)頭羊”還是“炮灰”?可能只在一念之間。

  • AI日報:InstantX推FLUX圖像生成黑科技;面部遷移模型HelloMeme;游戲?qū)崟r生成算法GameGen-X

    歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/1、InstantX圖像生成黑科技!微軟使用了OpenAI的GPT-4o進行開發(fā),但系統(tǒng)與大型語言模型無關(guān),推薦使用強大的推理模型作為指揮者智能體。

  • 蘋果新項目秘密啟動:進軍智能眼鏡市場對標Meta!

    蘋果正在秘密啟動一項名為Atlas”新計劃,主要工作是收集蘋果員工對于智能眼鏡的反饋意見。同時蘋果正對當前市場上的一款已有產(chǎn)品展開內(nèi)部調(diào)研,旨在進軍智能眼鏡領(lǐng)域。且蘋果在智能眼鏡領(lǐng)域并非毫無基礎(chǔ),事實上,蘋果已經(jīng)擁有多項與智能眼鏡相關(guān)的專利,并在過去幾年中陸續(xù)收購了多家專注于AR/VR技術(shù)的公司。

  • Meta推出新一代智能觸覺系統(tǒng)機械手 可實現(xiàn)多模態(tài)環(huán)境感知

    Meta公司日前宣布與傳感器制造商GelSight及韓國機器人企業(yè)WonikRobotics達成戰(zhàn)略合作,共同推進新一代觸覺傳感技術(shù)的商業(yè)化進程。這套面向科研領(lǐng)域的創(chuàng)新設(shè)備將為科學(xué)家提供更精確的物理世界觀測與模擬能力。這次跨界合作標志著觸覺傳感技術(shù)在科研領(lǐng)域的重要突破,有望為相關(guān)領(lǐng)域研究帶來新的發(fā)展機遇。

  • 下載次數(shù)破39萬,CMU、Meta聯(lián)合發(fā)布VQAScore文生圖優(yōu)化方案:Imagen3已采用

    VQAScore是一個利用視覺問答模型來評估由文本提示生成的圖像質(zhì)量的新方法;GenAI-Bench是一個包含復(fù)雜文本提示的基準測試集,用于挑戰(zhàn)和提升現(xiàn)有的圖像生成模型。兩個工具可以幫助研究人員自動評估AI模型的性能能通過選擇最佳候選圖像來實際改善生成的圖像。他的研究成果對視覺識別、自動駕駛、和人機交互等應(yīng)用產(chǎn)生了深遠影響,是該領(lǐng)域極具影響力的科學(xué)家之一。

  • 三星XR智能眼鏡2025年面世 功能強大或超雷朋Meta

    三星與谷歌合作開發(fā)的擴展現(xiàn)實智能眼鏡預(yù)計將在2025年下半年發(fā)布,初期生產(chǎn)50萬臺。這款眼鏡將搭載高通AR1芯片組,與雷朋Meta眼鏡使用相同硬件平臺,并配備1200萬像素攝像頭和155毫安時電池。據(jù)預(yù)測,三星可能會在2025年正式發(fā)布前,通過活動進行預(yù)熱,比如在GalaxyS25發(fā)布會上首次展示XR眼鏡,以吸引更多關(guān)注。

  • Sam Altman泄露新模型o2,太會整活了,營銷鬼才!

    善于整活玩猜字謎的OpenAI首席執(zhí)行官SamAltman又發(fā)了一條神秘消息,“我聽說o2在GPQA的性能測試達到105%?!币溃┦考壢祟愒贕PQA的準確率平均只有65%,非專家級的普通人僅有34%。Sam確實是營銷鬼才,隨便發(fā)點錯誤的消息都能出現(xiàn)裂變式傳播,流量密碼算是讓他拿捏了。

  • 超GPT-4o,1240億參數(shù)!最強開源多模態(tài)模型 Pixtral Large!

    法國著名開源大模型平臺Mistral.ai,開源了超大多模態(tài)模型——PixtralLarge。PixtralLarge有1240億參數(shù),支持128K上下文,能理解文本、圖表、圖像等,也是Mistral.ai自家聊天助手leChat目前正在使用的視覺模型。LeChat提供了一個從模型到輸出的完全集成平臺,用戶可以在一個平臺上完成所有的多模態(tài)任務(wù),無需在多個工具之間切換,簡化了工作流程。