劃重點(diǎn):
?? Magi 模型可以自動將漫畫頁轉(zhuǎn)錄成文字并生成劇本。
?? 功能包括面板檢測、文本塊檢測、角色檢測、角色聚類、文本到說話者關(guān)聯(lián)、閱讀順序排序。
?? 項(xiàng)目還包含 Mangadex-1.5M 數(shù)據(jù)集,旨在解決漫畫頁面自動理解和劇本生成問題。
站長之家(ChinaZ.com)3月12日 消息:牛津大學(xué)工程科學(xué)系的視覺幾何組開發(fā)了一款名為 Magi 的模型,可以自動將漫畫頁轉(zhuǎn)錄成文字并生成劇本。
該模型通過識別漫畫頁面上的面板、文字塊和角色,實(shí)現(xiàn)了全自動的劇本生成功能。其主要功能包括面板檢測,識別漫畫頁面上的各個(gè)面板,以及文本塊檢測,識別面板中的文本塊,通常包含對話或敘述性文本。此外,模型還能夠檢測頁面上的角色形象,并根據(jù)其身份進(jìn)行聚類,以區(qū)分不同的角色。
Magi 模型還可以將文本與說話者進(jìn)行關(guān)聯(lián),確定哪些文本是由頁面上的哪個(gè)角色說出的,保證劇本的準(zhǔn)確性。同時(shí),模型還會按照漫畫的閱讀順序?qū)ξ谋緣K進(jìn)行排序,確保劇本的敘述邏輯與原漫畫一致,讓讀者通過閱讀文本完整地體驗(yàn)漫畫故事。
除了 Magi 模型本身,項(xiàng)目還包含一個(gè)名為 Mangadex-1.5M 的數(shù)據(jù)集,其中包含約150萬漫畫頁面,涵蓋多種流派和藝術(shù)風(fēng)格。這個(gè)數(shù)據(jù)集的設(shè)計(jì)旨在為 Magi 模型的訓(xùn)練提供支持,解決漫畫頁面的自動理解和劇本生成問題,包括面板檢測、文本塊和角色檢測、角色身份聚類以及文本與說話者之間的關(guān)聯(lián)。
通過這一項(xiàng)目,研究人員希望推動漫畫領(lǐng)域的自動化處理和理解技術(shù)的發(fā)展。
論文:https://arxiv.org/abs/2401.10224
項(xiàng)目入口:https://top.aibase.com/tool/magi
(舉報(bào))