用大模型吃瓜更智能了！阿里通義實(shí)驗(yàn)室提出新時(shí)間線總結(jié)框架，全面提升新聞總結(jié)效率

2025-01-07 21:14 · 稿源：量子位公眾號(hào)

聲明:本文來自于微信公眾號(hào) 量子位，作者:Chronos團(tuán)隊(duì)，授權(quán)站長之家轉(zhuǎn)載發(fā)布。

現(xiàn)在，大模型可以幫你梳理新聞時(shí)間線了，以后吃瓜就更方便了!

AI Agent的風(fēng)，咱們賽博樂子人也得吹吹。

這就是來自阿里巴巴通義實(shí)驗(yàn)室與上海交通大學(xué)的新研究，他們提出了一種基于Agent的新聞時(shí)間線摘要新框架——CHRONOS。

它不僅可以幫你從海量新聞中總結(jié)出重要事件，更重要的是，它還可以梳理出清晰的時(shí)間線，以后上網(wǎng)沖浪時(shí)各種復(fù)雜事件都一目了然。

其中的CHRONOS一詞取自希臘神話中的時(shí)間之神柯羅諾斯。

該框架通過迭代多輪的自我提問方式，結(jié)合檢索增強(qiáng)生成技術(shù)，從互聯(lián)網(wǎng)上檢索相關(guān)事件信息，并生成時(shí)間順序的新聞?wù)?，為新聞時(shí)間線摘要生成提供了一種全新的解決方案。

先來一起瞅瞅幾個(gè)例子。

比如對(duì)于新聞“國足1-0巴林”，CHRONOS能夠總結(jié)海量新聞，呈現(xiàn)事件的來龍去脈。

對(duì)于覆蓋時(shí)間更長的新聞“中國探月工程”，CHRONOS也能聚焦重點(diǎn)事件，呈現(xiàn)時(shí)間線發(fā)展，使得用戶能夠一目了然。

補(bǔ)齊開放域TLS短板

時(shí)間線總結(jié)（Timeline Summarization， TLS）任務(wù)是一種自然語言處理領(lǐng)域的經(jīng)典技術(shù)挑戰(zhàn)，它旨在從大量文本數(shù)據(jù)中提取關(guān)鍵事件，并按時(shí)間順序排列，以提供對(duì)某一主題或領(lǐng)域歷史發(fā)展的結(jié)構(gòu)化視圖。

例如，在新聞?lì)I(lǐng)域，時(shí)間線總結(jié)可以幫助用戶快速了解一個(gè)新聞事件的來龍去脈。該任務(wù)不僅要求識(shí)別出重要的事件，還需要理解事件之間的時(shí)間關(guān)系和因果聯(lián)系，以便生成一個(gè)連貫、簡(jiǎn)潔且信息豐富的時(shí)間線摘要。

根據(jù)可檢索事件的來源，可以將TLS任務(wù)細(xì)分為封閉域（closed-domain）和開放域（open-domain）兩個(gè)設(shè)定:在封閉域TLS任務(wù)中，時(shí)間線是從一組預(yù)定義的、與特定主題或領(lǐng)域相關(guān)的新聞文章中創(chuàng)建的，而開放域TLS指的是從互聯(lián)網(wǎng)上直接搜索和檢索新聞文章來生成時(shí)間線的過程。

過去的工作主要集中于解決封閉域上時(shí)間線生成問題，而開放域TLS則需要強(qiáng)大的信息檢索和篩選能力，以及在沒有全局視圖的情況下識(shí)別和建立事件之間聯(lián)系的能力，為這項(xiàng)任務(wù)提出了新的要求和挑戰(zhàn)。

迭代檢索的CHRONOS框架

為了應(yīng)對(duì)上述挑戰(zhàn)，團(tuán)隊(duì)提出CHRONOS框架，通過迭代提問進(jìn)行相關(guān)事件檢索，生成準(zhǔn)確、全面的時(shí)間線摘要，能夠有效地解決開放域和封閉域兩種設(shè)定下的TLS任務(wù)。

1. 動(dòng)機(jī)

時(shí)間線生成的核心在于建立事件之間的時(shí)間和因果關(guān)系。

每個(gè)新聞事件都可以被表示為一個(gè)不同的節(jié)點(diǎn)，任務(wù)的目標(biāo)是建立這些節(jié)點(diǎn)之間的邊，以展示它們的相關(guān)性，并最終形成一個(gè)異構(gòu)圖，從主題新聞的節(jié)點(diǎn)開始。

因此，通過一個(gè)檢索機(jī)制來檢索相關(guān)的新聞文章，可以有效建立這些邊，形成事件之間的聯(lián)系。

2. 概述

CHRONOS利用大模型的能力，通過模擬人類信息檢索的過程，即通過提出問題、基于檢索結(jié)果進(jìn)一步提出新的問題，最終收集關(guān)于相關(guān)事件的全面信息并總結(jié)為時(shí)間線。

CHRONOS包括以下幾個(gè)模塊:

自我提問（Self-Questioning）:首先搜索粗粒度的新聞背景信息，然后迭代地提出問題，以檢索更多相關(guān)新聞。

問題改寫（Question Rewriting）:將復(fù)雜或表現(xiàn)不佳的問題分解為更具體、更易檢索的查詢。

時(shí)間線生成（Timeline Generation）:通過合并每一輪檢索生成的時(shí)間線來總結(jié)一個(gè)突出重要事件的時(shí)間線。

3. 自我提問

3.1粗粒度背景調(diào)研

在自我提問的初始階段，CHRONOS使用目標(biāo)新聞的標(biāo)題作為關(guān)鍵詞進(jìn)行搜索，以收集與目標(biāo)新聞最直接相關(guān)的信息。

這些信息構(gòu)成了新聞背景（News Context），為自我提問打下初步基礎(chǔ)。

3.2提問示例選擇

在粗粒度背景調(diào)研之后，CHRONOS利用大模型的上下文學(xué)習(xí)能力，通過少量樣本提示來指導(dǎo)模型生成關(guān)于目標(biāo)新聞的問題。

為了評(píng)估問題樣本質(zhì)量，引入了時(shí)序信息量（Chrono-Informativeness， CI）的概念，用來衡量模型提出的問題檢索與參考時(shí)間線對(duì)齊事件的能力，即高CI值的問題更有可能引導(dǎo)檢索到與目標(biāo)新聞事件相關(guān)的文章，用檢索生成的時(shí)間線和參考時(shí)間線中包含日期的F1分?jǐn)?shù)進(jìn)行衡量。

基于最大化問題集時(shí)序信息量的目標(biāo)，構(gòu)建一個(gè)“新聞-問題”的示例池，用于指導(dǎo)新目標(biāo)新聞的問題生成。

對(duì)于每個(gè)新的目標(biāo)新聞，通過余弦相似性動(dòng)態(tài)檢索與目標(biāo)新聞最相似的樣本，確保了樣本的上下文相關(guān)性和時(shí)間信息的準(zhǔn)確性。

3.3迭代提問

CHRONOS通過連續(xù)迭代提問，逐步深入探索事件的細(xì)節(jié)。

每一輪迭代都基于前一輪的檢索結(jié)果，以發(fā)現(xiàn)新的問題和信息，直到滿足時(shí)間線中事件數(shù)量或達(dá)到最大迭代次數(shù)。

3.4問題改寫

查詢改寫（Query Rewriting）是檢索增強(qiáng)生成中常用的優(yōu)化方法。

在CHRONOS框架中，團(tuán)隊(duì)通過對(duì)初始提問階段產(chǎn)生的寬泛或復(fù)雜問題改寫為2-3個(gè)更易于檢索的子問題，能夠生成更具體、更有針對(duì)性的查詢，從而提高搜索引擎的檢索效果。

他們同樣在提示中加入少量樣本，指導(dǎo)大模型進(jìn)行有效改寫，將復(fù)雜問題轉(zhuǎn)化為更具體的查詢，同時(shí)保持問題的原始意圖。

3.5時(shí)間線生成

CHRONOS通過兩階段生成完整的時(shí)間線總結(jié):生成（Generation）和合并(Merging)。

生成:通過分析每一輪檢索到的新聞文章來識(shí)別關(guān)鍵事件和詳細(xì)信息。利用大模型的理解和生成能力，提取每個(gè)事件的發(fā)生日期和相關(guān)細(xì)節(jié)，并為每個(gè)事件撰寫簡(jiǎn)潔的描述。這些事件和描述被組織成初步的時(shí)間線，按照時(shí)間順序排列，為后續(xù)的合并階段提供基礎(chǔ)。

合并:將多輪檢索生成的初步時(shí)間線整合成一個(gè)連貫的最終摘要。這一過程涉及對(duì)齊不同時(shí)間線中的事件、解決任何日期或描述上的沖突，并選擇最具代表性和重要性的事件。

全新數(shù)據(jù)集OPEN-TLS

為了評(píng)估TLS系統(tǒng)，研究團(tuán)隊(duì)還收集了由專業(yè)記者撰寫的關(guān)于近期新聞事件的時(shí)間線，構(gòu)建了一個(gè)名為Open-TLS的新數(shù)據(jù)集。

與以往封閉域的數(shù)據(jù)集相比，Open-TLS不僅在數(shù)據(jù)集規(guī)模和內(nèi)容上更加多樣化，覆蓋政治、經(jīng)濟(jì)、社會(huì)、體育和科學(xué)技術(shù)等多個(gè)領(lǐng)域，而且在時(shí)效性上更具優(yōu)勢(shì)，為開放域TLS任務(wù)提供了一個(gè)更全面和更具挑戰(zhàn)性的基準(zhǔn)。

實(shí)驗(yàn)結(jié)果

1. 實(shí)驗(yàn)設(shè)定

實(shí)驗(yàn)基于GPT-3.5-Turbo、GPT-4和Qwen2.5-72B分別構(gòu)建CHRONOS系統(tǒng)，評(píng)測(cè)開放域和封閉域兩個(gè)設(shè)定下TLS的性能表現(xiàn)。使用的評(píng)估指標(biāo)主要有:

ROUGE-N: 衡量生成時(shí)間線和參考時(shí)間線之間的N-gram重疊。具體包括:（1）Concat F1:通過將所有日期摘要連接起來計(jì)算ROUGE，以評(píng)估整體的一致性;（2）Agree F1:僅使用匹配日期的摘要計(jì)算ROUGE，以評(píng)估特定日期的準(zhǔn)確性;（3）Align F1:在計(jì)算ROUGE之前，先根據(jù)相似性和日期接近性對(duì)預(yù)測(cè)摘要和參考摘要進(jìn)行對(duì)齊，評(píng)估對(duì)齊后的一致性。

Date F1:衡量生成時(shí)間線中日期與參考時(shí)間線中真實(shí)日期匹配程度。

2. 開放域TLS

在開放域TLS的實(shí)驗(yàn)中，CHRONOS與幾個(gè)基線方法進(jìn)行了比較，包括直接搜索目標(biāo)新聞（DIRECT）和重寫目標(biāo)新聞以創(chuàng)建查詢用于檢索（REWRITE）。

對(duì)比之下，CHRONOS通過迭代自我提問和檢索相關(guān)新聞文章的方法，顯著提高了事件總結(jié)的質(zhì)量和日期對(duì)齊的準(zhǔn)確性，在所有指標(biāo)上都領(lǐng)先于基線方法。

3. 封閉域TLS

在封閉域TLS的實(shí)驗(yàn)中，CHRONOS與之前的代表性工作進(jìn)行了比較，包括:（1）基于事件聚合方法的CLUST (Gholipour Ghalandari and. Ifrim，2020);(2)基于事件圖模型EGC(Li et al.，2021)和(3)利用大模型進(jìn)行事件聚類的LLM-TLS(Hu et al.，2024)。

在Crisis和T17這兩個(gè)經(jīng)典數(shù)據(jù)集上的比較結(jié)果顯示，CHRONOS達(dá)到了與這些工作類似的表現(xiàn)，在兩個(gè)數(shù)據(jù)集的AR-2指標(biāo)上取得了SOTA效果，證明了其在不同類型事件和時(shí)間跨度上的強(qiáng)大性能和適應(yīng)性。

4. 運(yùn)行時(shí)間分析

CHRONOS的另一個(gè)優(yōu)勢(shì)體現(xiàn)在效率方面。

與同樣基于大模型、但需要處理新聞庫中所有文章的LLM-TLS方法相比，它通過檢索增強(qiáng)機(jī)制專注于最相關(guān)的新聞文章，顯著減少了處理時(shí)間。

這種效率的提升使其在實(shí)際應(yīng)用中更為實(shí)用，尤其是在需要快速響應(yīng)的場(chǎng)景中。

案例研究:蘋果產(chǎn)品發(fā)布時(shí)間線

團(tuán)隊(duì)深入分析了模型在處理具體新聞事件時(shí)的表現(xiàn)，通過選擇具有代表性的新聞事件，如蘋果公司的重大產(chǎn)品發(fā)布，能夠觀察到CHRONOS如何通過由淺入深的自我提問和信息檢索來生成時(shí)間線。

在案例研究中，CHRONOS展示了其能夠準(zhǔn)確提取關(guān)鍵事件和日期的能力，同時(shí)也揭示了在某些情況下可能需要改進(jìn)的地方，例如對(duì)某些事件的遺漏或日期幻覺。

結(jié)語

CHRONOS框架通過結(jié)合大型語言模型的迭代自我提問和檢索增強(qiáng)生成技術(shù)，為時(shí)間線總結(jié)任務(wù)提供了一種新穎且有效的解決方案。

這種方法的核心在于模擬人類的信息檢索過程，通過不斷地提出和回答新問題來逐步深入理解事件，最終生成一個(gè)全面且連貫的時(shí)間線摘要。

實(shí)驗(yàn)結(jié)果已經(jīng)充分證明了CHRONOS在復(fù)雜事件檢索和構(gòu)建時(shí)間線方面的能力，展示了該框架在實(shí)際新聞時(shí)間線生成應(yīng)用中的應(yīng)用潛力和準(zhǔn)確性。

同時(shí)，這種迭代提問的檢索生成方法是否具有泛化到通用任務(wù)上的能力也值得未來進(jìn)一步研究。

論文:https://arxiv.org/abs/2501.00888

Github:https://github.com/Alibaba-NLP/CHRONOS

Demo:https://modelscope.cn/studios/vickywu1022/CHRONOS

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

大模型

薦AI日?qǐng)?bào)：阿里通義開源多模態(tài)推理模型QVQ-72B；OpenAI考慮自研人形機(jī)器人；QQ音樂上線首個(gè)AI大模型音效

歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里發(fā)布多模態(tài)推理模型QVQ-72B!視覺、語言能力雙提升阿里巴巴最近推出的QVQ-72B多模態(tài)推理模型在語言和視覺能力上實(shí)現(xiàn)了顯著提升，能夠處理復(fù)雜的推理和分析任務(wù)，尤其在多步推理和數(shù)學(xué)推理方面表現(xiàn)突出。盡管o1-preview在某些方面表現(xiàn)優(yōu)秀，但在實(shí)際應(yīng)用中仍面臨高成本和不切實(shí)際的測(cè)試建議等問題。

?人工智能 ?多模態(tài)推理 ?阿里巴巴
AI大模型時(shí)代下的天融信：安全領(lǐng)域的智能先鋒

2024年，AI大模型的發(fā)展迎來了前所未有的突破和變革。全球范圍內(nèi)，AI大模型因其強(qiáng)大的數(shù)據(jù)處理能力和卓越的性能表現(xiàn)，被視為推動(dòng)產(chǎn)業(yè)升級(jí)和經(jīng)濟(jì)轉(zhuǎn)型的重要引擎。隨著AI大模型的不斷發(fā)展和應(yīng)用場(chǎng)景的不斷拓展，天融信將繼續(xù)秉持“科技引領(lǐng)、創(chuàng)新驅(qū)動(dòng)”的發(fā)展理念，為客戶提供更加優(yōu)質(zhì)、智能的網(wǎng)絡(luò)安全服務(wù)，為中國的網(wǎng)絡(luò)安全事業(yè)貢獻(xiàn)自己的力量。

?AI大模型 ?技術(shù)變革 ?產(chǎn)業(yè)升級(jí)
薦大模型混戰(zhàn)這一年：進(jìn)化之賽、效率之爭(zhēng)、落地之戰(zhàn)

烈火烹油的兩年過去，飛速發(fā)展的大模型行業(yè)怎么樣了?與兩年前“百模大戰(zhàn)”為技術(shù)爭(zhēng)奪的景象不同，玩家們有兩個(gè)速度之爭(zhēng):一是技術(shù)迭代和產(chǎn)品更新的速度，二是商業(yè)化賺錢和應(yīng)用落地的速度。技術(shù)和產(chǎn)品的迭代很直觀，直接推動(dòng)大模型行業(yè)的百舸爭(zhēng)流。誰是這1%，誰能創(chuàng)造“新”世界，要等市場(chǎng)給出答案。

?大模型行業(yè) ?技術(shù)迭代 ?商業(yè)化應(yīng)用
薦大模型拿單江湖

11月29日，智譜AgentOpenDay會(huì)后，現(xiàn)場(chǎng)有記者問了CEO張鵬一個(gè)問題:“ToB進(jìn)展如何?”“還行吧”，至此張鵬沒有再多說一句。這家明星AI公司深度參與到大模型的廝殺當(dāng)中，其同臺(tái)競(jìng)爭(zhēng)對(duì)手是百度、阿里、騰訊和字節(jié)。留在AI公司手中的牌就要見底了。

?智譜Agent ?大模型 ?AI公司
思必馳智能語音攜手茅臺(tái)，打造“國酒級(jí)”AI大模型智能會(huì)議方案

茅臺(tái)集團(tuán)是中國乃至全球知名的白酒企業(yè)，自 1951 年成立以來，始終堅(jiān)守傳統(tǒng)工藝與創(chuàng)新精神的融合之道。 1996 年，茅臺(tái)酒的釀造工藝被正式確認(rèn)為國家機(jī)密，受到嚴(yán)格保護(hù)。 2001 年，這一傳統(tǒng)工藝榮獲國家級(jí)首批物質(zhì)文化遺產(chǎn)的殊榮。思必馳是國內(nèi)專業(yè)的大模型對(duì)話式人工智能平臺(tái)型企業(yè)。公司以“溝通萬物、打理萬事”為使命，基于公司自主研發(fā)的全鏈路智能對(duì)話系統(tǒng)定?

?茅臺(tái)集團(tuán) ?白酒行業(yè) ?傳統(tǒng)工藝
薦AI日?qǐng)?bào)：可靈AI API對(duì)口型能力全面開放；豆包大模型宣稱追平GPT-4；百度2024年度AI提示詞“答案”；通義千問視覺模型直降80%

歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、可靈AIAPI對(duì)口型能力全面開放、虛擬試穿升級(jí)至V1.5模型北京快手科技有限公司近日宣布可靈AIAPI完成新一輪升級(jí)，主要在虛擬試穿和對(duì)口型功能上取得顯著進(jìn)展。Run:ai的軟件能夠?

?人工智能 ?虛擬試穿 ?對(duì)口型技術(shù)
全國A級(jí)！三六零大模型安全能力獲中國人工智能大賽認(rèn)證

12 月 20 日，第五屆中國人工智能成果發(fā)布會(huì)在廈門召開。三六零（601360.SH，下稱“360”）集團(tuán)因在人工智能安全治理“大模型安全攻防賽”中表現(xiàn)突出，榮獲本屆中國人工智能大賽A級(jí)證書。今年 9 月，在國家互聯(lián)網(wǎng)信息辦公室、公安部指導(dǎo)下，廈門市人民政府主辦的第五屆中國人工智能大賽正式啟動(dòng)，圍繞人工智能安全治理和創(chuàng)新發(fā)展兩大主線設(shè)置了賽題。作為重要賽題之一

?人工智能 ?安全治理 ?大模型
周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

近兩年AI發(fā)展迅速，但目前種種跡象表明，一些AI巨頭寄予厚望的AGI之路似乎已經(jīng)遭遇瓶頸，尋找其他發(fā)展路徑正成為業(yè)界共識(shí)。360集團(tuán)創(chuàng)始人周鴻祎在《財(cái)經(jīng)》年度對(duì)話2024上發(fā)表演講稱，目前AGI的發(fā)展面正臨挑戰(zhàn)智能體和專業(yè)大模型的應(yīng)用將推動(dòng)大模型技術(shù)的落地。一個(gè)標(biāo)志是能提高10倍的體驗(yàn)，即提高10倍的效率或降低10倍的成本，減少10倍的人力”。

?AI發(fā)展 ?AGI瓶頸 ?智能體應(yīng)用
薦大模型，在內(nèi)卷中尋找出口

2024年，大模型進(jìn)展不斷。從年初的Sora到最新的o3，更新更好的模型不斷被推出，“內(nèi)卷”到底有沒有發(fā)生?我們要先確定“內(nèi)卷”的定義，指某一類產(chǎn)業(yè)模式，發(fā)展到一種確定形式后，陷入“高水平均衡陷阱”，出現(xiàn)“沒有發(fā)展的增長”，這種局面一直無法被打破，那就會(huì)走向停滯和危機(jī)。大模型要取得商業(yè)成功，前提是用戶和開發(fā)者的業(yè)務(wù)能否成功，這是為什么完善的商業(yè)基

?大模型進(jìn)展 ?內(nèi)卷現(xiàn)象 ?scaling
阿里云宣布第三輪大模型降價(jià)：0.0015元/千tokens 全網(wǎng)最低價(jià)！

今日，阿里云宣布本年度第三輪大模型降價(jià)，通義千問視覺理解模型全線降價(jià)超80%。Qwen-VL-Plus直降81%，輸入價(jià)格僅為0.0015元/千tokens，創(chuàng)下全網(wǎng)最低價(jià)格。在今年9月的云棲大會(huì)上，阿里云再度官宣大降價(jià)，阿里云百煉平臺(tái)上的三款通義千問主力模型再次降價(jià)，其中Qwen-Turbo價(jià)格直降85%，低至百萬tokens0.3元。

?阿里云 ?大模型降價(jià) ?通義千問

熱文

3 天
7天

站長商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

用大模型吃瓜更智能了！阿里通義實(shí)驗(yàn)室提出新時(shí)間線總結(jié)框架，全面提升新聞總結(jié)效率