幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關(guān)鍵詞  > 大模型最新資訊  > 正文

用大模型吃瓜更智能了!阿里通義實(shí)驗(yàn)室提出新時(shí)間線總結(jié)框架,全面提升新聞總結(jié)效率

2025-01-07 21:14 · 稿源: 量子位公眾號(hào)

聲明:本文來自于微信公眾號(hào) 量子位,作者:Chronos團(tuán)隊(duì),授權(quán)站長之家轉(zhuǎn)載發(fā)布。

現(xiàn)在,大模型可以幫你梳理新聞時(shí)間線了,以后吃瓜就更方便了!

AI Agent的風(fēng),咱們賽博樂子人也得吹吹。

這就是來自阿里巴巴通義實(shí)驗(yàn)室上海交通大學(xué)的新研究,他們提出了一種基于Agent的新聞時(shí)間線摘要新框架——CHRONOS。

它不僅可以幫你從海量新聞中總結(jié)出重要事件,更重要的是,它還可以梳理出清晰的時(shí)間線,以后上網(wǎng)沖浪時(shí)各種復(fù)雜事件都一目了然。

圖片

其中的CHRONOS一詞取自希臘神話中的時(shí)間之神柯羅諾斯。

圖片

該框架通過迭代多輪的自我提問方式,結(jié)合檢索增強(qiáng)生成技術(shù),從互聯(lián)網(wǎng)上檢索相關(guān)事件信息,并生成時(shí)間順序的新聞?wù)?,為新聞時(shí)間線摘要生成提供了一種全新的解決方案。

先來一起瞅瞅幾個(gè)例子。

比如對(duì)于新聞“國足1-0巴林”,CHRONOS能夠總結(jié)海量新聞,呈現(xiàn)事件的來龍去脈。

圖片

對(duì)于覆蓋時(shí)間更長的新聞“中國探月工程”,CHRONOS也能聚焦重點(diǎn)事件,呈現(xiàn)時(shí)間線發(fā)展,使得用戶能夠一目了然。

圖片

補(bǔ)齊開放域TLS短板

時(shí)間線總結(jié)(Timeline Summarization, TLS)任務(wù)是一種自然語言處理領(lǐng)域的經(jīng)典技術(shù)挑戰(zhàn),它旨在從大量文本數(shù)據(jù)中提取關(guān)鍵事件,并按時(shí)間順序排列,以提供對(duì)某一主題或領(lǐng)域歷史發(fā)展的結(jié)構(gòu)化視圖。

例如,在新聞?lì)I(lǐng)域,時(shí)間線總結(jié)可以幫助用戶快速了解一個(gè)新聞事件的來龍去脈。該任務(wù)不僅要求識(shí)別出重要的事件,還需要理解事件之間的時(shí)間關(guān)系和因果聯(lián)系,以便生成一個(gè)連貫、簡(jiǎn)潔且信息豐富的時(shí)間線摘要。

圖片

根據(jù)可檢索事件的來源,可以將TLS任務(wù)細(xì)分為封閉域(closed-domain)和開放域(open-domain)兩個(gè)設(shè)定:在封閉域TLS任務(wù)中,時(shí)間線是從一組預(yù)定義的、與特定主題或領(lǐng)域相關(guān)的新聞文章中創(chuàng)建的,而開放域TLS指的是從互聯(lián)網(wǎng)上直接搜索和檢索新聞文章來生成時(shí)間線的過程。

過去的工作主要集中于解決封閉域上時(shí)間線生成問題,而開放域TLS則需要強(qiáng)大的信息檢索和篩選能力,以及在沒有全局視圖的情況下識(shí)別和建立事件之間聯(lián)系的能力,為這項(xiàng)任務(wù)提出了新的要求和挑戰(zhàn)。

迭代檢索的CHRONOS框架

為了應(yīng)對(duì)上述挑戰(zhàn),團(tuán)隊(duì)提出CHRONOS框架,通過迭代提問進(jìn)行相關(guān)事件檢索,生成準(zhǔn)確、全面的時(shí)間線摘要,能夠有效地解決開放域和封閉域兩種設(shè)定下的TLS任務(wù)。

1. 動(dòng)機(jī)

時(shí)間線生成的核心在于建立事件之間的時(shí)間和因果關(guān)系。

每個(gè)新聞事件都可以被表示為一個(gè)不同的節(jié)點(diǎn),任務(wù)的目標(biāo)是建立這些節(jié)點(diǎn)之間的邊,以展示它們的相關(guān)性,并最終形成一個(gè)異構(gòu)圖,從主題新聞的節(jié)點(diǎn)開始。

因此,通過一個(gè)檢索機(jī)制來檢索相關(guān)的新聞文章,可以有效建立這些邊,形成事件之間的聯(lián)系。

2. 概述

CHRONOS利用大模型的能力,通過模擬人類信息檢索的過程,即通過提出問題、基于檢索結(jié)果進(jìn)一步提出新的問題,最終收集關(guān)于相關(guān)事件的全面信息并總結(jié)為時(shí)間線。

圖片

CHRONOS包括以下幾個(gè)模塊:

自我提問 (Self-Questioning):首先搜索粗粒度的新聞背景信息,然后迭代地提出問題,以檢索更多相關(guān)新聞。

問題改寫 (Question Rewriting):將復(fù)雜或表現(xiàn)不佳的問題分解為更具體、更易檢索的查詢。

時(shí)間線生成 (Timeline Generation):通過合并每一輪檢索生成的時(shí)間線來總結(jié)一個(gè)突出重要事件的時(shí)間線。

3. 自我提問

3.1粗粒度背景調(diào)研

在自我提問的初始階段,CHRONOS使用目標(biāo)新聞的標(biāo)題作為關(guān)鍵詞進(jìn)行搜索,以收集與目標(biāo)新聞最直接相關(guān)的信息。

這些信息構(gòu)成了新聞背景(News Context),為自我提問打下初步基礎(chǔ)。

3.2提問示例選擇

在粗粒度背景調(diào)研之后,CHRONOS利用大模型的上下文學(xué)習(xí)能力,通過少量樣本提示來指導(dǎo)模型生成關(guān)于目標(biāo)新聞的問題。

為了評(píng)估問題樣本質(zhì)量,引入了時(shí)序信息量(Chrono-Informativeness, CI)的概念,用來衡量模型提出的問題檢索與參考時(shí)間線對(duì)齊事件的能力,即高CI值的問題更有可能引導(dǎo)檢索到與目標(biāo)新聞事件相關(guān)的文章,用檢索生成的時(shí)間線和參考時(shí)間線中包含日期的F1分?jǐn)?shù)進(jìn)行衡量。

基于最大化問題集時(shí)序信息量的目標(biāo),構(gòu)建一個(gè)“新聞-問題”的示例池,用于指導(dǎo)新目標(biāo)新聞的問題生成。

對(duì)于每個(gè)新的目標(biāo)新聞,通過余弦相似性動(dòng)態(tài)檢索與目標(biāo)新聞最相似的樣本,確保了樣本的上下文相關(guān)性和時(shí)間信息的準(zhǔn)確性。

3.3迭代提問

CHRONOS通過連續(xù)迭代提問,逐步深入探索事件的細(xì)節(jié)。

每一輪迭代都基于前一輪的檢索結(jié)果,以發(fā)現(xiàn)新的問題和信息,直到滿足時(shí)間線中事件數(shù)量或達(dá)到最大迭代次數(shù)。

3.4問題改寫

查詢改寫(Query Rewriting)是檢索增強(qiáng)生成中常用的優(yōu)化方法。

在CHRONOS框架中,團(tuán)隊(duì)通過對(duì)初始提問階段產(chǎn)生的寬泛或復(fù)雜問題改寫為2-3個(gè)更易于檢索的子問題,能夠生成更具體、更有針對(duì)性的查詢,從而提高搜索引擎的檢索效果。

他們同樣在提示中加入少量樣本,指導(dǎo)大模型進(jìn)行有效改寫,將復(fù)雜問題轉(zhuǎn)化為更具體的查詢,同時(shí)保持問題的原始意圖。

3.5時(shí)間線生成

CHRONOS通過兩階段生成完整的時(shí)間線總結(jié):生成(Generation)和合并(Merging)。

生成:通過分析每一輪檢索到的新聞文章來識(shí)別關(guān)鍵事件和詳細(xì)信息。利用大模型的理解和生成能力,提取每個(gè)事件的發(fā)生日期和相關(guān)細(xì)節(jié),并為每個(gè)事件撰寫簡(jiǎn)潔的描述。這些事件和描述被組織成初步的時(shí)間線,按照時(shí)間順序排列,為后續(xù)的合并階段提供基礎(chǔ)。

合并:將多輪檢索生成的初步時(shí)間線整合成一個(gè)連貫的最終摘要。這一過程涉及對(duì)齊不同時(shí)間線中的事件、解決任何日期或描述上的沖突,并選擇最具代表性和重要性的事件。

全新數(shù)據(jù)集OPEN-TLS

為了評(píng)估TLS系統(tǒng),研究團(tuán)隊(duì)還收集了由專業(yè)記者撰寫的關(guān)于近期新聞事件的時(shí)間線,構(gòu)建了一個(gè)名為Open-TLS的新數(shù)據(jù)集。

與以往封閉域的數(shù)據(jù)集相比,Open-TLS不僅在數(shù)據(jù)集規(guī)模和內(nèi)容上更加多樣化,覆蓋政治、經(jīng)濟(jì)、社會(huì)、體育和科學(xué)技術(shù)等多個(gè)領(lǐng)域,而且在時(shí)效性上更具優(yōu)勢(shì),為開放域TLS任務(wù)提供了一個(gè)更全面和更具挑戰(zhàn)性的基準(zhǔn)。

圖片

實(shí)驗(yàn)結(jié)果

1. 實(shí)驗(yàn)設(shè)定

實(shí)驗(yàn)基于GPT-3.5-Turbo、GPT-4和Qwen2.5-72B分別構(gòu)建CHRONOS系統(tǒng),評(píng)測(cè)開放域和封閉域兩個(gè)設(shè)定下TLS的性能表現(xiàn)。使用的評(píng)估指標(biāo)主要有:

ROUGE-N: 衡量生成時(shí)間線和參考時(shí)間線之間的N-gram重疊。具體包括:(1)Concat F1:通過將所有日期摘要連接起來計(jì)算ROUGE,以評(píng)估整體的一致性;(2)Agree F1:僅使用匹配日期的摘要計(jì)算ROUGE,以評(píng)估特定日期的準(zhǔn)確性;(3)Align F1:在計(jì)算ROUGE之前,先根據(jù)相似性和日期接近性對(duì)預(yù)測(cè)摘要和參考摘要進(jìn)行對(duì)齊,評(píng)估對(duì)齊后的一致性。

Date F1:衡量生成時(shí)間線中日期與參考時(shí)間線中真實(shí)日期匹配程度。

2. 開放域TLS

在開放域TLS的實(shí)驗(yàn)中,CHRONOS與幾個(gè)基線方法進(jìn)行了比較,包括直接搜索目標(biāo)新聞(DIRECT)和重寫目標(biāo)新聞以創(chuàng)建查詢用于檢索(REWRITE)。

對(duì)比之下,CHRONOS通過迭代自我提問和檢索相關(guān)新聞文章的方法,顯著提高了事件總結(jié)的質(zhì)量和日期對(duì)齊的準(zhǔn)確性,在所有指標(biāo)上都領(lǐng)先于基線方法。

圖片

3. 封閉域TLS

在封閉域TLS的實(shí)驗(yàn)中,CHRONOS與之前的代表性工作進(jìn)行了比較,包括:(1)基于事件聚合方法的CLUST (Gholipour Ghalandari and. Ifrim,2020);(2)基于事件圖模型EGC(Li et al.,2021)和(3)利用大模型進(jìn)行事件聚類的LLM-TLS(Hu et al.,2024)。

在Crisis和T17這兩個(gè)經(jīng)典數(shù)據(jù)集上的比較結(jié)果顯示,CHRONOS達(dá)到了與這些工作類似的表現(xiàn),在兩個(gè)數(shù)據(jù)集的AR-2指標(biāo)上取得了SOTA效果,證明了其在不同類型事件和時(shí)間跨度上的強(qiáng)大性能和適應(yīng)性。

圖片

4. 運(yùn)行時(shí)間分析

CHRONOS的另一個(gè)優(yōu)勢(shì)體現(xiàn)在效率方面。

與同樣基于大模型、但需要處理新聞庫中所有文章的LLM-TLS方法相比,它通過檢索增強(qiáng)機(jī)制專注于最相關(guān)的新聞文章,顯著減少了處理時(shí)間

這種效率的提升使其在實(shí)際應(yīng)用中更為實(shí)用,尤其是在需要快速響應(yīng)的場(chǎng)景中。

圖片

案例研究:蘋果產(chǎn)品發(fā)布時(shí)間線

團(tuán)隊(duì)深入分析了模型在處理具體新聞事件時(shí)的表現(xiàn),通過選擇具有代表性的新聞事件,如蘋果公司的重大產(chǎn)品發(fā)布,能夠觀察到CHRONOS如何通過由淺入深的自我提問和信息檢索來生成時(shí)間線。

在案例研究中,CHRONOS展示了其能夠準(zhǔn)確提取關(guān)鍵事件和日期的能力,同時(shí)也揭示了在某些情況下可能需要改進(jìn)的地方,例如對(duì)某些事件的遺漏或日期幻覺。

圖片

結(jié)語

CHRONOS框架通過結(jié)合大型語言模型的迭代自我提問檢索增強(qiáng)生成技術(shù),為時(shí)間線總結(jié)任務(wù)提供了一種新穎且有效的解決方案。

這種方法的核心在于模擬人類的信息檢索過程,通過不斷地提出和回答新問題來逐步深入理解事件,最終生成一個(gè)全面且連貫的時(shí)間線摘要。

實(shí)驗(yàn)結(jié)果已經(jīng)充分證明了CHRONOS在復(fù)雜事件檢索和構(gòu)建時(shí)間線方面的能力,展示了該框架在實(shí)際新聞時(shí)間線生成應(yīng)用中的應(yīng)用潛力和準(zhǔn)確性。

同時(shí),這種迭代提問的檢索生成方法是否具有泛化到通用任務(wù)上的能力也值得未來進(jìn)一步研究。

論文:https://arxiv.org/abs/2501.00888

Github:https://github.com/Alibaba-NLP/CHRONOS

Demo:https://modelscope.cn/studios/vickywu1022/CHRONOS

舉報(bào)

  • 相關(guān)推薦
  • AI日?qǐng)?bào):阿里通義開源多模態(tài)推理模型QVQ-72B;OpenAI考慮自研人形機(jī)器人;QQ音樂上線首個(gè)AI大模型音效

    歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里發(fā)布多模態(tài)推理模型QVQ-72B!視覺、語言能力雙提升阿里巴巴最近推出的QVQ-72B多模態(tài)推理模型在語言和視覺能力上實(shí)現(xiàn)了顯著提升,能夠處理復(fù)雜的推理和分析任務(wù),尤其在多步推理和數(shù)學(xué)推理方面表現(xiàn)突出。盡管o1-preview在某些方面表現(xiàn)優(yōu)秀,但在實(shí)際應(yīng)用中仍面臨高成本和不切實(shí)際的測(cè)試建議等問題。

  • AI大模型時(shí)代下的天融信:安領(lǐng)域的智能先鋒

    2024年,AI大模型的發(fā)展迎來了前所未有的突破和變革。全球范圍內(nèi),AI大模型因其強(qiáng)大的數(shù)據(jù)處理能力和卓越的性能表現(xiàn),被視為推動(dòng)產(chǎn)業(yè)升級(jí)和經(jīng)濟(jì)轉(zhuǎn)型的重要引擎。隨著AI大模型的不斷發(fā)展和應(yīng)用場(chǎng)景的不斷拓展,天融信將繼續(xù)秉持“科技引領(lǐng)、創(chuàng)新驅(qū)動(dòng)”的發(fā)展理念,為客戶提供更加優(yōu)質(zhì)、智能的網(wǎng)絡(luò)安全服務(wù),為中國的網(wǎng)絡(luò)安全事業(yè)貢獻(xiàn)自己的力量。

  • 大模型混戰(zhàn)這一年: 進(jìn)化之賽、效率之爭(zhēng)、落地之戰(zhàn)

    烈火烹油的兩年過去,飛速發(fā)展的大模型行業(yè)怎么樣了?與兩年前“百模大戰(zhàn)”為技術(shù)爭(zhēng)奪的景象不同,玩家們有兩個(gè)速度之爭(zhēng):一是技術(shù)迭代和產(chǎn)品更新的速度,二是商業(yè)化賺錢和應(yīng)用落地的速度。技術(shù)和產(chǎn)品的迭代很直觀,直接推動(dòng)大模型行業(yè)的百舸爭(zhēng)流。誰是這1%,誰能創(chuàng)造“新”世界,要等市場(chǎng)給出答案。

  • 大模型拿單江湖

    11月29日,智譜AgentOpenDay會(huì)后,現(xiàn)場(chǎng)有記者問了CEO張鵬一個(gè)問題:“ToB進(jìn)展如何?”“還行吧”,至此張鵬沒有再多說一句。這家明星AI公司深度參與到大模型的廝殺當(dāng)中,其同臺(tái)競(jìng)爭(zhēng)對(duì)手是百度、阿里、騰訊和字節(jié)。留在AI公司手中的牌就要見底了。

  • 思必馳智能語音攜手茅臺(tái),打造“國酒級(jí)”AI大模型智能會(huì)議方案

    茅臺(tái)集團(tuán)是中國乃至全球知名的白酒企業(yè),自 1951 年成立以來,始終堅(jiān)守傳統(tǒng)工藝與創(chuàng)新精神的融合之道。 1996 年,茅臺(tái)酒的釀造工藝被正式確認(rèn)為國家機(jī)密,受到嚴(yán)格保護(hù)。 2001 年,這一傳統(tǒng)工藝榮獲國家級(jí)首批物質(zhì)文化遺產(chǎn)的殊榮。思必馳是國內(nèi)專業(yè)的大模型對(duì)話式人工智能平臺(tái)型企業(yè)。公司以“溝通萬物、打理萬事”為使命,基于公司自主研發(fā)的全鏈路智能對(duì)話系統(tǒng)定?

  • AI日?qǐng)?bào):可靈AI API對(duì)口型能力全面開放;豆包大模型宣稱追平GPT-4;百度2024年度AI提示詞“答案”;通義千問視覺模型直降80%

    歡迎來到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、可靈AIAPI對(duì)口型能力全面開放、虛擬試穿升級(jí)至V1.5模型北京快手科技有限公司近日宣布可靈AIAPI完成新一輪升級(jí),主要在虛擬試穿和對(duì)口型功能上取得顯著進(jìn)展。Run:ai的軟件能夠?

  • 國A級(jí)! 三六零大模型能力獲中國人工智能大賽認(rèn)證

    12 月 20 日,第五屆中國人工智能成果發(fā)布會(huì)在廈門召開。三六零(601360.SH,下稱“360”)集團(tuán)因在人工智能安全治理“大模型安全攻防賽”中表現(xiàn)突出,榮獲本屆中國人工智能大賽A級(jí)證書。今年 9 月,在國家互聯(lián)網(wǎng)信息辦公室、公安部指導(dǎo)下,廈門市人民政府主辦的第五屆中國人工智能大賽正式啟動(dòng),圍繞人工智能安全治理和創(chuàng)新發(fā)展兩大主線設(shè)置了賽題。作為重要賽題之一

  • 周鴻祎:AGI發(fā)展遇瓶頸 智能體和專業(yè)大模型將扛大旗

    近兩年AI發(fā)展迅速,但目前種種跡象表明,一些AI巨頭寄予厚望的AGI之路似乎已經(jīng)遭遇瓶頸,尋找其他發(fā)展路徑正成為業(yè)界共識(shí)。360集團(tuán)創(chuàng)始人周鴻祎在《財(cái)經(jīng)》年度對(duì)話2024上發(fā)表演講稱,目前AGI的發(fā)展面正臨挑戰(zhàn)智能體和專業(yè)大模型的應(yīng)用將推動(dòng)大模型技術(shù)的落地。一個(gè)標(biāo)志是能提高10倍的體驗(yàn),即提高10倍的效率或降低10倍的成本,減少10倍的人力”。

  • 大模型,在內(nèi)卷中尋找出口

    2024年,大模型進(jìn)展不斷。從年初的Sora到最新的o3,更新更好的模型不斷被推出,“內(nèi)卷”到底有沒有發(fā)生?我們要先確定“內(nèi)卷”的定義,指某一類產(chǎn)業(yè)模式,發(fā)展到一種確定形式后,陷入“高水平均衡陷阱”,出現(xiàn)“沒有發(fā)展的增長”,這種局面一直無法被打破,那就會(huì)走向停滯和危機(jī)。大模型要取得商業(yè)成功,前提是用戶和開發(fā)者的業(yè)務(wù)能否成功,這是為什么完善的商業(yè)基

  • 阿里云宣布第三輪大模型降價(jià):0.0015元/千tokens 網(wǎng)最低價(jià)!

    今日,阿里云宣布本年度第三輪大模型降價(jià),通義千問視覺理解模型全線降價(jià)超80%。Qwen-VL-Plus直降81%,輸入價(jià)格僅為0.0015元/千tokens,創(chuàng)下全網(wǎng)最低價(jià)格。在今年9月的云棲大會(huì)上,阿里云再度官宣大降價(jià),阿里云百煉平臺(tái)上的三款通義千問主力模型再次降價(jià),其中Qwen-Turbo價(jià)格直降85%,低至百萬tokens0.3元。

熱文

  • 3 天
  • 7天