要點:
1. 研究團隊開發(fā)了名為MemWalker的樹形記憶策略,使大型語言模型能夠突破窗口長度限制,實現(xiàn)長文本的閱讀和回答問題,而無需額外訓練。
2. MemWalker的工作原理分為記憶樹構建和導航檢索兩個階段,其中長文本被分割成小段,大模型對每段進行總結形成"葉子節(jié)點"和"非葉節(jié)點",非葉節(jié)點用于定位答案,葉子節(jié)點用于推理答案。
3. MemWalker還引入了工作記憶機制,將已經(jīng)訪問的節(jié)點內(nèi)容加入到當前內(nèi)容的上下文中,以提高準確度,而且整個過程只依賴于prompt,不需要額外訓練。
站長之家(ChinaZ.com)10月25日 消息:一項名為MemWalker的新技術,使大型語言模型能夠克服其窗口長度的限制,從而可以處理更長的文本并回答相關問題,而無需進行額外的訓練。這一技術的開發(fā)團隊使用了一種樹形記憶策略,該策略的工作原理包括兩個主要階段:記憶樹構建和導航檢索。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
在記憶樹構建階段,長文本被分割成多個小段,每個小段都由大型語言模型進行總結,形成了"葉子節(jié)點"和"非葉節(jié)點"。這些葉子節(jié)點包含原始信息,而非葉節(jié)點只包含概括信息。非葉節(jié)點用于定位答案所在的葉子節(jié)點,而葉子節(jié)點用于推理出答案。整個過程是逐步的,從葉子節(jié)點到非葉節(jié)點,直到建立完整的樹形結構。
論文地址:https://arxiv.org/abs/2310.05029
導航檢索階段涉及從根節(jié)點開始,逐一讀取下一級子節(jié)點的內(nèi)容,然后推理出是否繼續(xù)前進或返回。這個過程一直持續(xù),直到找到合適的葉子節(jié)點生成答案或達到最大步數(shù)。如果模型發(fā)現(xiàn)進入了錯誤的路徑,還可以進行導航回退。此外,MemWalker還引入了工作記憶機制,將已經(jīng)訪問的節(jié)點內(nèi)容加入到當前內(nèi)容的上下文中,以提高準確度。
重要的是,整個過程只依賴于prompt,不需要進行額外的訓練。理論上,只要有足夠的算力,MemWalker可以處理無限長的文本,但記憶樹構建時的時間和空間復雜度會隨著文本長度的增長呈指數(shù)型增加。這一技術的發(fā)展由普林斯頓大學NLP實驗室的華人博士生Howard Chen領銜,得到了導師陳丹琦和Meta AI實驗室的學者的參與。整個研究成果使大型語言模型在處理長文本方面邁出了重要一步。
(舉報)