5 月 7 日,由中國(guó)圖象圖形學(xué)學(xué)會(huì)(CSIG)主辦、金山辦公承辦的“CSIG企業(yè)行”系列活動(dòng)在珠海金山軟件園成功舉行?;顒?dòng)以“AI大模型時(shí)代文檔識(shí)別和理解前沿技術(shù)探討”為主題,特邀來(lái)自中科院、北京科技大學(xué)、華中科技大學(xué)、華南理工大學(xué)等院校的專家學(xué)者,與金山辦公技術(shù)團(tuán)隊(duì)共同探討文檔識(shí)別領(lǐng)域的前沿技術(shù)研究及實(shí)踐成果。
ChatGPT的問(wèn)世,引發(fā)了大眾對(duì)AI大模型技術(shù)的關(guān)注。金山辦公副總裁姚冬在致辭中表示,金山辦公自 2017 年就創(chuàng)立了AI團(tuán)隊(duì),多年來(lái)持續(xù)深耕AI技術(shù)的研發(fā)和落地。目前的大模型技術(shù)不僅可以理解人類的語(yǔ)言,還可以進(jìn)行推理甚至寫代碼等創(chuàng)意性工作,對(duì)傳統(tǒng)技術(shù)領(lǐng)域帶來(lái)了巨大挑戰(zhàn)和機(jī)遇。金山辦公不久前在產(chǎn)品中落地的部分新功能,正是源于對(duì)大模型技術(shù)的研究成果。
中國(guó)科學(xué)院自動(dòng)化研究所副所長(zhǎng)劉成林表示,大模型時(shí)代的開(kāi)啟為文檔識(shí)別帶來(lái)了新的機(jī)遇和挑戰(zhàn)。從早期的單字識(shí)別到字符串整體識(shí)別,再到手寫文檔版面分析和自然場(chǎng)景、視頻文本中的文本檢測(cè),文檔識(shí)別目前已歷經(jīng)三個(gè)研究階段。而近年來(lái)人工智能深度學(xué)習(xí)等技術(shù)的成熟,使大模型成為文檔識(shí)別與理解的全新研究方向。
針對(duì)文字的識(shí)別技術(shù),北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院院長(zhǎng)殷緒成表示,ChatGPT在問(wèn)世后之所以表現(xiàn)出色,正是源于其積累了大批高質(zhì)量的訓(xùn)練數(shù)據(jù),而開(kāi)放集模式識(shí)別,是文字識(shí)別未來(lái)的一條技術(shù)新路徑。
華中科技大學(xué)白翔教授針對(duì)視覺(jué)與語(yǔ)言模型的研究做了詳細(xì)介紹,他認(rèn)為這幾年多模態(tài)和跨模態(tài)對(duì)各個(gè)領(lǐng)域都帶來(lái)非常深遠(yuǎn)的影響,各行各業(yè)圍繞大模型去做定制化方案,包括對(duì)大模型本身進(jìn)行調(diào)整,都有重要意義。
華南理工大學(xué)金連文教授分享了面向文檔圖像的篡改文本檢測(cè)的最 新研究成果,金連文教授表示,SSL OCR 技術(shù)(使用SSL加密協(xié)議的OCR技術(shù))、大模型與OCR結(jié)合、視覺(jué)大模型等是值得關(guān)注的技術(shù)方向。AI大模型技術(shù)無(wú)論是在垂直領(lǐng)域還是通用領(lǐng)域,均具備很大發(fā)展空間。
除前沿理論研究分享外,金山辦公CV技術(shù)總監(jiān)熊龍飛以掃描件PDF編輯為案例,分享了AI大模型時(shí)代文檔識(shí)別技術(shù)的比較新實(shí)踐成果:掃描件PDF編輯新模態(tài)。掃描件PDF因變成了圖片,其排版、內(nèi)容、字體、段落等信息丟失,還可能存在污染、變形、對(duì)象層疊等問(wèn)題,解決這些挑戰(zhàn)對(duì)算法和服務(wù)架構(gòu)有非常高的技術(shù)要求,金山辦公經(jīng)過(guò)多年研發(fā)已經(jīng)將該領(lǐng)域做到了令人耳目一新的效果。據(jù)了解,該功能已于 2023 年 3 月逐步上線,在未來(lái)還將持續(xù)迭代。
針對(duì)大模型技術(shù)的實(shí)際應(yīng)用,姚冬表示,大模型技術(shù)不僅可極大提高辦公軟件的工作效率,同時(shí)此類軟件龐大的基礎(chǔ)用戶量,又為不斷改進(jìn)大模型提供了數(shù)據(jù)支撐?!敖鹕睫k公在這個(gè)領(lǐng)域扮演的角色就是落地應(yīng)用,金山辦公具備大量的功能API接口,通過(guò)結(jié)合大模型可以調(diào)動(dòng)這些能力,實(shí)現(xiàn)很多對(duì)用戶很便利的功能。這些API能力背后是金山辦公 35 年來(lái)在文檔處理和排版領(lǐng)域的技術(shù)積累。”
據(jù)悉,金山辦公基于大語(yǔ)言模型的人工智能應(yīng)用“WPS AI”,第 一站搭載在金山辦公在線內(nèi)容協(xié)作編輯產(chǎn)品輕文檔上,未來(lái)WPS AI還將以用戶體驗(yàn)為優(yōu)先級(jí),逐步嵌入金山辦公全線產(chǎn)品。
(推廣)