后疫情時(shí)代,隨著技術(shù)的不斷發(fā)展,機(jī)器已經(jīng)轉(zhuǎn)化為人們生活中的第三只“眼”,如工業(yè)質(zhì)檢,無(wú)人駕駛,智慧城市等應(yīng)用愈加依賴與視頻信息分析與理解,而使得視頻能夠更利于機(jī)器分析的同時(shí)能夠進(jìn)一步節(jié)省帶寬成的壓縮技術(shù)成為了這一系列行業(yè)應(yīng)用的剛需,面向機(jī)器的視頻編碼VCM(video coding for machine)應(yīng)運(yùn)而生。
2019 年運(yùn)動(dòng)圖像專家組(Moving Picture Experts Group, MPEG)第 127 次會(huì)議宣布成立AHG VCM(Ad Hoc Group on Video Coding for Machines)機(jī)器視覺(jué)編碼工作組,工作組研究面向機(jī)器視覺(jué)或者人機(jī)混合視覺(jué)的下一代視頻編碼標(biāo)準(zhǔn),為機(jī)器視覺(jué)應(yīng)用場(chǎng)景提供高壓縮率、高任務(wù)精度的視頻/特征壓縮技術(shù)。Nokia, Ericsson, Intel, Sumsung, Interdigital, 騰訊, 阿里巴巴, 中國(guó)電信, oppo, vivo, 中科院等公司和組織參與該工作組。
騰訊在VCM的工作中擔(dān)任了重要的角色,擔(dān)任AHG聯(lián)合主席,為工作組提供了包含標(biāo)注的視頻數(shù)據(jù)集(Tencent Video Dataset, TVD) [1][2], 并被工作組采納成為檢測(cè)、分割和跟蹤任務(wù)的通用測(cè)試數(shù)據(jù)集。另外,騰訊牽頭制定了通用測(cè)試條件(Common test conditions, CTC)和評(píng)測(cè)框架,為相關(guān)技術(shù)的驗(yàn)證提供規(guī)范化的流程。同時(shí),騰訊也一直積極參與技術(shù)路線的推進(jìn),成功響應(yīng)了工作組的多次證據(jù)征集(Call for Evidence, CfE)和提案征集(Call for Proposals, CfP),并在后續(xù)標(biāo)準(zhǔn)化進(jìn)程中擔(dān)任核心實(shí)驗(yàn)(Core experiments, CE)召集人等角色來(lái)推動(dòng)技術(shù)方案的發(fā)展。
過(guò)去幾年中,工作組進(jìn)行了大量的基礎(chǔ)調(diào)研,證明了在機(jī)器視覺(jué)任務(wù)場(chǎng)景下傳統(tǒng)視頻編碼技術(shù)存在著較大的提升空間,同時(shí)針對(duì)目標(biāo)檢測(cè)、分割、跟蹤等典型機(jī)器視覺(jué)任務(wù)建立了規(guī)范的測(cè)試數(shù)據(jù)集和通用測(cè)試條件?;谶@些前期工作,工作組于 2022 年 4 月正式發(fā)布提案征集(Call for Proposal, CfP),獲得了來(lái)自工業(yè)界和學(xué)術(shù)界的積極參與響應(yīng),展示了機(jī)器視覺(jué)編碼的巨大應(yīng)用潛力。目前,標(biāo)準(zhǔn)化仍在持續(xù)進(jìn)行中。
去年,制定了H.266/VVC標(biāo)準(zhǔn)的工作組JVET(Joint Video Experts Team)也成立了新的 AHG 專題組(AHG15),該工作組將針對(duì)H.266/VVC與H.265/HEVC這一系列標(biāo)準(zhǔn)進(jìn)行進(jìn)一步優(yōu)化,幫助其在面向機(jī)器場(chǎng)景下可以更大程度的提升機(jī)器識(shí)別精度和進(jìn)一步節(jié)省帶寬。目前比較新一代編碼標(biāo)準(zhǔn)H.266/VVC相較上一代編碼標(biāo)準(zhǔn)H.265/HEVC,在相同質(zhì)量下可以節(jié)省約50%帶寬,而該工作組預(yù)期可在H.266/VVC的基礎(chǔ)上更近一步節(jié)省50%帶寬。隨著這一技術(shù)的逐漸成熟,可以預(yù)見(jiàn)未來(lái)面向機(jī)器的編碼器將有更廣闊的應(yīng)用前景。
[1] An Open Dataset for Video Coding for Machines Standardization | IEEE Conference Publication | IEEE Xplore
[2] A Video Dataset for Learning-based Visual Data Compression and Analysis | IEEE Conference Publication | IEEE Xplore
(推廣)