聲明:本文來自于微信公眾號(hào) 量子位,作者:Chronos團(tuán)隊(duì),授權(quán)站長之家轉(zhuǎn)載發(fā)布。
現(xiàn)在,大模型可以幫你梳理新聞時(shí)間線了,以后吃瓜就更方便了!
AI Agent的風(fēng),咱們賽博樂子人也得吹吹。
這就是來自阿里巴巴通義實(shí)驗(yàn)室與上海交通大學(xué)的新研究,他們提出了一種基于Agent的新聞時(shí)間線摘要新框架——CHRONOS。
它不僅可以幫你從海量新聞中總結(jié)出重要事件,更重要的是,它還可以梳理出清晰的時(shí)間線,以后上網(wǎng)沖浪時(shí)各種復(fù)雜事件都一目了然。
其中的CHRONOS一詞取自希臘神話中的時(shí)間之神柯羅諾斯。
該框架通過迭代多輪的自我提問方式,結(jié)合檢索增強(qiáng)生成技術(shù),從互聯(lián)網(wǎng)上檢索相關(guān)事件信息,并生成時(shí)間順序的新聞?wù)?,為新聞時(shí)間線摘要生成提供了一種全新的解決方案。
先來一起瞅瞅幾個(gè)例子。
比如對(duì)于新聞“國足1-0巴林”,CHRONOS能夠總結(jié)海量新聞,呈現(xiàn)事件的來龍去脈。
對(duì)于覆蓋時(shí)間更長的新聞“中國探月工程”,CHRONOS也能聚焦重點(diǎn)事件,呈現(xiàn)時(shí)間線發(fā)展,使得用戶能夠一目了然。
補(bǔ)齊開放域TLS短板
時(shí)間線總結(jié)(Timeline Summarization, TLS)任務(wù)是一種自然語言處理領(lǐng)域的經(jīng)典技術(shù)挑戰(zhàn),它旨在從大量文本數(shù)據(jù)中提取關(guān)鍵事件,并按時(shí)間順序排列,以提供對(duì)某一主題或領(lǐng)域歷史發(fā)展的結(jié)構(gòu)化視圖。
例如,在新聞?lì)I(lǐng)域,時(shí)間線總結(jié)可以幫助用戶快速了解一個(gè)新聞事件的來龍去脈。該任務(wù)不僅要求識(shí)別出重要的事件,還需要理解事件之間的時(shí)間關(guān)系和因果聯(lián)系,以便生成一個(gè)連貫、簡(jiǎn)潔且信息豐富的時(shí)間線摘要。
根據(jù)可檢索事件的來源,可以將TLS任務(wù)細(xì)分為封閉域(closed-domain)和開放域(open-domain)兩個(gè)設(shè)定:在封閉域TLS任務(wù)中,時(shí)間線是從一組預(yù)定義的、與特定主題或領(lǐng)域相關(guān)的新聞文章中創(chuàng)建的,而開放域TLS指的是從互聯(lián)網(wǎng)上直接搜索和檢索新聞文章來生成時(shí)間線的過程。
過去的工作主要集中于解決封閉域上時(shí)間線生成問題,而開放域TLS則需要強(qiáng)大的信息檢索和篩選能力,以及在沒有全局視圖的情況下識(shí)別和建立事件之間聯(lián)系的能力,為這項(xiàng)任務(wù)提出了新的要求和挑戰(zhàn)。
迭代檢索的CHRONOS框架
為了應(yīng)對(duì)上述挑戰(zhàn),團(tuán)隊(duì)提出CHRONOS框架,通過迭代提問進(jìn)行相關(guān)事件檢索,生成準(zhǔn)確、全面的時(shí)間線摘要,能夠有效地解決開放域和封閉域兩種設(shè)定下的TLS任務(wù)。
1. 動(dòng)機(jī)
時(shí)間線生成的核心在于建立事件之間的時(shí)間和因果關(guān)系。
每個(gè)新聞事件都可以被表示為一個(gè)不同的節(jié)點(diǎn),任務(wù)的目標(biāo)是建立這些節(jié)點(diǎn)之間的邊,以展示它們的相關(guān)性,并最終形成一個(gè)異構(gòu)圖,從主題新聞的節(jié)點(diǎn)開始。
因此,通過一個(gè)檢索機(jī)制來檢索相關(guān)的新聞文章,可以有效建立這些邊,形成事件之間的聯(lián)系。
2. 概述
CHRONOS利用大模型的能力,通過模擬人類信息檢索的過程,即通過提出問題、基于檢索結(jié)果進(jìn)一步提出新的問題,最終收集關(guān)于相關(guān)事件的全面信息并總結(jié)為時(shí)間線。
CHRONOS包括以下幾個(gè)模塊:
自我提問 (Self-Questioning):首先搜索粗粒度的新聞背景信息,然后迭代地提出問題,以檢索更多相關(guān)新聞。
問題改寫 (Question Rewriting):將復(fù)雜或表現(xiàn)不佳的問題分解為更具體、更易檢索的查詢。
時(shí)間線生成 (Timeline Generation):通過合并每一輪檢索生成的時(shí)間線來總結(jié)一個(gè)突出重要事件的時(shí)間線。
3. 自我提問
3.1粗粒度背景調(diào)研
在自我提問的初始階段,CHRONOS使用目標(biāo)新聞的標(biāo)題作為關(guān)鍵詞進(jìn)行搜索,以收集與目標(biāo)新聞最直接相關(guān)的信息。
這些信息構(gòu)成了新聞背景(News Context),為自我提問打下初步基礎(chǔ)。
3.2提問示例選擇
在粗粒度背景調(diào)研之后,CHRONOS利用大模型的上下文學(xué)習(xí)能力,通過少量樣本提示來指導(dǎo)模型生成關(guān)于目標(biāo)新聞的問題。
為了評(píng)估問題樣本質(zhì)量,引入了時(shí)序信息量(Chrono-Informativeness, CI)的概念,用來衡量模型提出的問題檢索與參考時(shí)間線對(duì)齊事件的能力,即高CI值的問題更有可能引導(dǎo)檢索到與目標(biāo)新聞事件相關(guān)的文章,用檢索生成的時(shí)間線和參考時(shí)間線中包含日期的F1分?jǐn)?shù)進(jìn)行衡量。
基于最大化問題集時(shí)序信息量的目標(biāo),構(gòu)建一個(gè)“新聞-問題”的示例池,用于指導(dǎo)新目標(biāo)新聞的問題生成。
對(duì)于每個(gè)新的目標(biāo)新聞,通過余弦相似性動(dòng)態(tài)檢索與目標(biāo)新聞最相似的樣本,確保了樣本的上下文相關(guān)性和時(shí)間信息的準(zhǔn)確性。
3.3迭代提問
CHRONOS通過連續(xù)迭代提問,逐步深入探索事件的細(xì)節(jié)。
每一輪迭代都基于前一輪的檢索結(jié)果,以發(fā)現(xiàn)新的問題和信息,直到滿足時(shí)間線中事件數(shù)量或達(dá)到最大迭代次數(shù)。
3.4問題改寫
查詢改寫(Query Rewriting)是檢索增強(qiáng)生成中常用的優(yōu)化方法。
在CHRONOS框架中,團(tuán)隊(duì)通過對(duì)初始提問階段產(chǎn)生的寬泛或復(fù)雜問題改寫為2-3個(gè)更易于檢索的子問題,能夠生成更具體、更有針對(duì)性的查詢,從而提高搜索引擎的檢索效果。
他們同樣在提示中加入少量樣本,指導(dǎo)大模型進(jìn)行有效改寫,將復(fù)雜問題轉(zhuǎn)化為更具體的查詢,同時(shí)保持問題的原始意圖。
3.5時(shí)間線生成
CHRONOS通過兩階段生成完整的時(shí)間線總結(jié):生成(Generation)和合并(Merging)。
生成:通過分析每一輪檢索到的新聞文章來識(shí)別關(guān)鍵事件和詳細(xì)信息。利用大模型的理解和生成能力,提取每個(gè)事件的發(fā)生日期和相關(guān)細(xì)節(jié),并為每個(gè)事件撰寫簡(jiǎn)潔的描述。這些事件和描述被組織成初步的時(shí)間線,按照時(shí)間順序排列,為后續(xù)的合并階段提供基礎(chǔ)。
合并:將多輪檢索生成的初步時(shí)間線整合成一個(gè)連貫的最終摘要。這一過程涉及對(duì)齊不同時(shí)間線中的事件、解決任何日期或描述上的沖突,并選擇最具代表性和重要性的事件。
全新數(shù)據(jù)集OPEN-TLS
為了評(píng)估TLS系統(tǒng),研究團(tuán)隊(duì)還收集了由專業(yè)記者撰寫的關(guān)于近期新聞事件的時(shí)間線,構(gòu)建了一個(gè)名為Open-TLS的新數(shù)據(jù)集。
與以往封閉域的數(shù)據(jù)集相比,Open-TLS不僅在數(shù)據(jù)集規(guī)模和內(nèi)容上更加多樣化,覆蓋政治、經(jīng)濟(jì)、社會(huì)、體育和科學(xué)技術(shù)等多個(gè)領(lǐng)域,而且在時(shí)效性上更具優(yōu)勢(shì),為開放域TLS任務(wù)提供了一個(gè)更全面和更具挑戰(zhàn)性的基準(zhǔn)。
實(shí)驗(yàn)結(jié)果
1. 實(shí)驗(yàn)設(shè)定
實(shí)驗(yàn)基于GPT-3.5-Turbo、GPT-4和Qwen2.5-72B分別構(gòu)建CHRONOS系統(tǒng),評(píng)測(cè)開放域和封閉域兩個(gè)設(shè)定下TLS的性能表現(xiàn)。使用的評(píng)估指標(biāo)主要有:
ROUGE-N: 衡量生成時(shí)間線和參考時(shí)間線之間的N-gram重疊。具體包括:(1)Concat F1:通過將所有日期摘要連接起來計(jì)算ROUGE,以評(píng)估整體的一致性;(2)Agree F1:僅使用匹配日期的摘要計(jì)算ROUGE,以評(píng)估特定日期的準(zhǔn)確性;(3)Align F1:在計(jì)算ROUGE之前,先根據(jù)相似性和日期接近性對(duì)預(yù)測(cè)摘要和參考摘要進(jìn)行對(duì)齊,評(píng)估對(duì)齊后的一致性。
Date F1:衡量生成時(shí)間線中日期與參考時(shí)間線中真實(shí)日期匹配程度。
2. 開放域TLS
在開放域TLS的實(shí)驗(yàn)中,CHRONOS與幾個(gè)基線方法進(jìn)行了比較,包括直接搜索目標(biāo)新聞(DIRECT)和重寫目標(biāo)新聞以創(chuàng)建查詢用于檢索(REWRITE)。
對(duì)比之下,CHRONOS通過迭代自我提問和檢索相關(guān)新聞文章的方法,顯著提高了事件總結(jié)的質(zhì)量和日期對(duì)齊的準(zhǔn)確性,在所有指標(biāo)上都領(lǐng)先于基線方法。
3. 封閉域TLS
在封閉域TLS的實(shí)驗(yàn)中,CHRONOS與之前的代表性工作進(jìn)行了比較,包括:(1)基于事件聚合方法的CLUST (Gholipour Ghalandari and. Ifrim,2020);(2)基于事件圖模型EGC(Li et al.,2021)和(3)利用大模型進(jìn)行事件聚類的LLM-TLS(Hu et al.,2024)。
在Crisis和T17這兩個(gè)經(jīng)典數(shù)據(jù)集上的比較結(jié)果顯示,CHRONOS達(dá)到了與這些工作類似的表現(xiàn),在兩個(gè)數(shù)據(jù)集的AR-2指標(biāo)上取得了SOTA效果,證明了其在不同類型事件和時(shí)間跨度上的強(qiáng)大性能和適應(yīng)性。
4. 運(yùn)行時(shí)間分析
CHRONOS的另一個(gè)優(yōu)勢(shì)體現(xiàn)在效率方面。
與同樣基于大模型、但需要處理新聞庫中所有文章的LLM-TLS方法相比,它通過檢索增強(qiáng)機(jī)制專注于最相關(guān)的新聞文章,顯著減少了處理時(shí)間。
這種效率的提升使其在實(shí)際應(yīng)用中更為實(shí)用,尤其是在需要快速響應(yīng)的場(chǎng)景中。
案例研究:蘋果產(chǎn)品發(fā)布時(shí)間線
團(tuán)隊(duì)深入分析了模型在處理具體新聞事件時(shí)的表現(xiàn),通過選擇具有代表性的新聞事件,如蘋果公司的重大產(chǎn)品發(fā)布,能夠觀察到CHRONOS如何通過由淺入深的自我提問和信息檢索來生成時(shí)間線。
在案例研究中,CHRONOS展示了其能夠準(zhǔn)確提取關(guān)鍵事件和日期的能力,同時(shí)也揭示了在某些情況下可能需要改進(jìn)的地方,例如對(duì)某些事件的遺漏或日期幻覺。
結(jié)語
CHRONOS框架通過結(jié)合大型語言模型的迭代自我提問和檢索增強(qiáng)生成技術(shù),為時(shí)間線總結(jié)任務(wù)提供了一種新穎且有效的解決方案。
這種方法的核心在于模擬人類的信息檢索過程,通過不斷地提出和回答新問題來逐步深入理解事件,最終生成一個(gè)全面且連貫的時(shí)間線摘要。
實(shí)驗(yàn)結(jié)果已經(jīng)充分證明了CHRONOS在復(fù)雜事件檢索和構(gòu)建時(shí)間線方面的能力,展示了該框架在實(shí)際新聞時(shí)間線生成應(yīng)用中的應(yīng)用潛力和準(zhǔn)確性。
同時(shí),這種迭代提問的檢索生成方法是否具有泛化到通用任務(wù)上的能力也值得未來進(jìn)一步研究。
論文:https://arxiv.org/abs/2501.00888
Github:https://github.com/Alibaba-NLP/CHRONOS
Demo:https://modelscope.cn/studios/vickywu1022/CHRONOS
(舉報(bào))