聲明:本文來(lái)自于微信公眾號(hào) 字母榜,作者:馬舒葉,授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。
“幾乎沒(méi)有一家大模型公司的AI視頻生成訓(xùn)練,會(huì)找視頻網(wǎng)站授權(quán)?!?/strong>2025年伊始,在視頻生成領(lǐng)域立志“追平Sora”的大模型公司,撞上了版權(quán)墻。
AI創(chuàng)業(yè)者陳臨告訴字母榜(ID:wujicaijing),這其中也包括被稱為“AI六小虎”的6家中國(guó)大模型獨(dú)角獸。而缺乏授權(quán)的模型訓(xùn)練,勢(shì)必將成為大模型公司們的潛在風(fēng)險(xiǎn)。
如今,在熱度不減的AI視頻生成賽道,“視頻平臺(tái)訴大模型侵權(quán)”第一案已經(jīng)出現(xiàn)。
日前,有報(bào)道稱愛(ài)奇藝起訴MiniMax旗下海螺AI侵犯著作權(quán),據(jù)悉事由或?yàn)镸iniMax未經(jīng)授權(quán)使用了愛(ài)奇藝享有版權(quán)的素材進(jìn)行模型訓(xùn)練,目前正在走司法程序。對(duì)此,愛(ài)奇藝回復(fù)字母榜,確認(rèn)案件正在審理中。MiniMax則尚無(wú)正式回應(yīng)。
就在去年9月MiniMax剛剛推出視頻大模型時(shí),其創(chuàng)始人閆俊杰對(duì)字母榜表示,MiniMax用于訓(xùn)練的數(shù)據(jù),除了語(yǔ)料公司的高質(zhì)量數(shù)據(jù),還有部分采購(gòu)來(lái)的平臺(tái)化數(shù)據(jù)。
大公司也屢屢因版權(quán)陷入糾紛。去年8月,OpenAI被超過(guò)100位YouTube主播集體訴訟,指控其擅自轉(zhuǎn)錄數(shù)百萬(wàn)個(gè)YouTube 視頻來(lái)訓(xùn)練大模型。英偉達(dá)、蘋果、Anthropic等巨頭也涉及其中。OpenAI的前任CEO Mira,曾在采訪中被記者提問(wèn)是否拿YouTube的視頻訓(xùn)練Sora,Mira選擇了拒絕回答。
雖然OpenAI已經(jīng)和Politico、《大西洋月刊》《時(shí)代》《金融時(shí)報(bào)》等簽訂了付費(fèi)協(xié)議用于訓(xùn)練,但這類授權(quán)都屬于文字領(lǐng)域,陳臨告訴字母榜,在Sora視頻的訓(xùn)練協(xié)議中,“OpenAI還沒(méi)有簽過(guò)相應(yīng)的協(xié)議。”
數(shù)據(jù)、算法和算力是AI大模型的三大支柱,其中數(shù)據(jù)更是大模型進(jìn)行訓(xùn)練的根本??梢哉f(shuō),生成式AI的繁榮是建立在數(shù)據(jù)規(guī)模之上的。訓(xùn)練數(shù)據(jù)越多,模型就越強(qiáng)大。數(shù)據(jù)賦予模型用于學(xué)習(xí)和思考的海量知識(shí),數(shù)據(jù)也成了模型廠商技術(shù)壁壘的一部分。
不像BAT們,在圖文時(shí)代、移動(dòng)互聯(lián)網(wǎng)時(shí)代早已積攢起巨量的私域數(shù)據(jù)庫(kù),并且這些數(shù)據(jù)早已被不同平臺(tái)瓜分。晚來(lái)的大模型六小龍,被重重壁壘所環(huán)繞。
一旦愛(ài)奇藝的訴訟成功,或許預(yù)告著一場(chǎng)更大規(guī)模的大模型版權(quán)糾紛時(shí)代的來(lái)臨。
“愛(ài)奇藝成功了,優(yōu)酷、騰訊視頻也可能會(huì)起訴,”陳臨表示,這無(wú)疑是兜頭澆了狂奔中的大模型公司們一盆冷水。對(duì)于獨(dú)立進(jìn)行大模型訓(xùn)練的公司來(lái)說(shuō),“視頻要版權(quán)費(fèi),圖片也要版權(quán)費(fèi),文字可能也要版權(quán)費(fèi),致使AI的訓(xùn)練成本會(huì)比現(xiàn)在高出許多?!?/strong>
如今,孰是孰非暫無(wú)定論,只是可以肯定的是,大模型的狂飆路上,正在豎起一面新的版權(quán)墻。
A
國(guó)內(nèi)AI視頻生成第一個(gè)侵權(quán)案,已經(jīng)出現(xiàn)了。
近日,據(jù)外媒報(bào)道,MiniMax被指控未經(jīng)授權(quán)使用愛(ài)奇藝享有版權(quán)的素材進(jìn)行模型訓(xùn)練,愛(ài)奇藝已向上海市徐匯區(qū)人民法院提起訴訟,要求MiniMax立即停止侵權(quán)行為,并索賠約10萬(wàn)元人民幣。
去年8月底,MiniMax推出視頻大模型,用戶登錄海螺AI就能體驗(yàn)MiniMax的視頻生成模型。根據(jù)AI產(chǎn)品榜數(shù)據(jù),去年9月,海螺AI搜索熱度暴漲,海螺AI網(wǎng)頁(yè)版9月訪問(wèn)量增幅達(dá)860%,一舉登頂2024年9月全球及國(guó)內(nèi)AI應(yīng)用增速榜首。
不過(guò),加入“追平Sora”大軍的MiniMax,也如同OpenAI被《紐約時(shí)報(bào)》起訴一樣,撞上了版權(quán)墻。
根據(jù)我國(guó)法律規(guī)定,生成式人工智能服務(wù)提供者必須采用“合法來(lái)源”的數(shù)據(jù)和基礎(chǔ)模型,以確保不侵犯他人的知識(shí)產(chǎn)權(quán)。
《互聯(lián)網(wǎng)法律評(píng)論》主編張穎告訴字母榜,在這場(chǎng)民事訴訟中,愛(ài)奇藝起訴,需要證明MiniMax存在未經(jīng)其允許的情況下使用愛(ài)奇藝數(shù)據(jù)訓(xùn)練,并且在生成內(nèi)容中包含了其版權(quán)內(nèi)容。此外,愛(ài)奇藝還需要證明被告在主觀上有過(guò)錯(cuò)?,即故意或者未盡到注意義務(wù)。
也就是說(shuō),海螺AI的“侵權(quán)”存在兩種可能。
一種可能是MiniMax海螺AI視頻生成的訓(xùn)練中,未經(jīng)授權(quán)使用了愛(ài)奇藝享有版權(quán)的素材內(nèi)容。
另一種可能,則是用戶使用海螺AI時(shí),未經(jīng)愛(ài)奇藝授權(quán),上傳了版權(quán)素材做AI“魔改”。
圖注:AI魔改視頻,下方都備注內(nèi)容疑似用AI技術(shù)合成
圖源:字母榜截圖
《甄嬛傳》變槍戰(zhàn)片、《紅樓夢(mèng)》變武打劇,用AI視頻工具就能讓爾康喝啤酒、甄嬛啃漢堡、林黛玉抄起加特林。陳臨表示,以上這些AI“魔改”經(jīng)典影視劇的小視頻,都在社交平臺(tái)得到數(shù)百萬(wàn)的播放量。
這些“沒(méi)有邏輯,只有搞笑”的AI“魔改”視頻,大多沒(méi)有授權(quán),“部分是大模型公司推廣產(chǎn)品時(shí),委托第三方投流公司的作品,更多的則是用戶的無(wú)厘頭腦洞?!比ツ?2月,廣電網(wǎng)絡(luò)視聽(tīng)司也發(fā)布了《管理提示》,提出要排查清理AI“魔改”影視劇的短視頻。這意味著生成式AI將面臨更細(xì)致的內(nèi)容審核。
而作為被起訴方,如果MiniMax想證明自己沒(méi)有侵權(quán),大概需要證明自身數(shù)據(jù)來(lái)源、生成內(nèi)容與愛(ài)奇藝無(wú)關(guān),或者沒(méi)有故意侵權(quán)。
在海螺AI的用戶協(xié)議中,也要求用戶保證不利用平臺(tái)制作的內(nèi)容或用于相關(guān)用途,包括“未經(jīng)授權(quán)自行剪切、改編電影、電視劇、網(wǎng)絡(luò)影視劇等各類視聽(tīng)節(jié)目及片段”。
不過(guò),值得注意的是,“10萬(wàn)元賠償金對(duì)愛(ài)奇藝來(lái)說(shuō)太少了?!睆埛f表示,盡管缺乏愛(ài)奇藝的起訴書作為依據(jù),但從金額來(lái)看,推測(cè)MiniMax的侵權(quán)情況可能并不嚴(yán)重,雙方和解的可能性很大。 走向和解,對(duì)于MiniMax來(lái)說(shuō),不管是照價(jià)賠償10萬(wàn)元,還是交上一筆不菲的版權(quán)費(fèi),都似乎免不了為版權(quán)墻“破財(cái)”了。
B
實(shí)際上,“國(guó)內(nèi)AI從業(yè)者對(duì)于訓(xùn)練數(shù)據(jù)沒(méi)有很高的版權(quán)意識(shí),通常認(rèn)為版權(quán)會(huì)阻礙AI訓(xùn)練?!?/strong>
離開某大廠開始AI應(yīng)用創(chuàng)業(yè)后,陳臨發(fā)現(xiàn),國(guó)內(nèi)主動(dòng)要求版權(quán)授權(quán)的AI訓(xùn)練公司似乎并不多。原因不僅在于本身便高昂的AI訓(xùn)練成本,也是由于一旦視頻、圖片,甚至文字都需要版權(quán),對(duì)于AI創(chuàng)企來(lái)說(shuō),“模型就沒(méi)法訓(xùn)練了?!?/p>
不少AI創(chuàng)企做視頻生成訓(xùn)練的第一步,正是“從網(wǎng)上扒視頻訓(xùn)練”。
為了規(guī)避版權(quán)風(fēng)險(xiǎn),企業(yè)會(huì)通過(guò)關(guān)鍵詞過(guò)濾,盡量避免用戶輸入比如米老鼠這種版權(quán)字眼,來(lái)減少生成侵權(quán)內(nèi)容。
圖注:以即夢(mèng)AI為例,AI視頻生成自動(dòng)過(guò)濾關(guān)鍵詞
圖源:陳臨提供
新壹科技CEO雷濤告訴字母榜,作為To B的AIGC視頻生成公司,新壹科技用來(lái)訓(xùn)練AI視頻大模型的數(shù)據(jù),來(lái)自此前在秒拍、小咖秀等應(yīng)用的數(shù)據(jù)積累,還有定向合作數(shù)據(jù)庫(kù),以及依托原算法訓(xùn)練的“從無(wú)到有”的素材。但只有AI視頻生成的足夠真實(shí),才能起到訓(xùn)練效果。
而對(duì)于既沒(méi)有攢夠數(shù)據(jù),又付不起定向合作版權(quán)費(fèi)的AI創(chuàng)企而言,想要坐上牌桌,撞上版權(quán)墻,或早或晚,都是必然的結(jié)果。
不過(guò),這種爭(zhēng)議并不是新鮮事。
在圖文時(shí)代,圖片版權(quán)的糾紛一度讓創(chuàng)作者們“不敢配圖”。有自媒體大V被告知,歷史文章中有數(shù)十張來(lái)自搜索引擎的圖片涉嫌侵權(quán),在刪除全部原創(chuàng)文章后,還支付了不菲的侵權(quán)費(fèi)用于和解。有攝影師使用了自己拍攝的173張照片進(jìn)行配圖,卻被視覺(jué)中國(guó)提起訴訟,指其侵權(quán)。
如今,輪到AI站上了被告席。
在國(guó)內(nèi),去年6月,4名畫師起訴小紅書AI大模型“Trik AI”侵權(quán),這是國(guó)內(nèi)第一起AI模型訓(xùn)練數(shù)據(jù)集體侵權(quán)的案件,如今訴訟正在進(jìn)行。
在國(guó)外,Meta、OpenAI都曾陷入版權(quán)糾紛。
去年4月底,《紐約每日新聞》《芝加哥論壇報(bào)》等美國(guó)八家知名報(bào)紙聯(lián)合起訴OpenAI和微軟,指控它們未經(jīng)允許使用數(shù)百萬(wàn)篇版權(quán)新聞文章訓(xùn)練其AI聊天機(jī)器人。為此,OpenAI 與 Politico、《大西洋月刊》《時(shí)代》《金融時(shí)報(bào)》等新聞出版商達(dá)成付費(fèi)協(xié)議,來(lái)使用并引用版權(quán)新聞文章。
早在2023年5月,OpenAI首席執(zhí)行官奧特曼便公開承認(rèn),AI公司在不久的將來(lái)會(huì)耗盡互聯(lián)網(wǎng)上所有的數(shù)據(jù)。2024年6月,研究機(jī)構(gòu)Epoch AI也發(fā)布研究預(yù)測(cè),可用于AI語(yǔ)言模型公開訓(xùn)練的數(shù)據(jù),將在2026年到2032年間,被科技公司耗盡。
對(duì)于大模型創(chuàng)企來(lái)說(shuō),高質(zhì)量的數(shù)據(jù)永遠(yuǎn)稀缺,大模型公司間的算力戰(zhàn)、應(yīng)用戰(zhàn),也將拓展到數(shù)據(jù)戰(zhàn)。
只是OpenAI的訴訟或許傳達(dá)出了明確的信號(hào),高質(zhì)量的訓(xùn)練數(shù)據(jù)不是免費(fèi)的。對(duì)于大模型創(chuàng)企而言,不像Meta、BAT等公司,早已積累起近20年的社交媒體數(shù)據(jù),它們或許只能“花錢開路”。
C
不過(guò),想要解決版權(quán)這個(gè)絆腳石,大模型公司們需要回答一個(gè)問(wèn)題,錢從哪里來(lái)?
對(duì)于尚未盈利的大模型創(chuàng)企而言,投資人的錢袋子越來(lái)越緊了。
根據(jù)字母榜統(tǒng)計(jì),大模型六小虎(包括零一萬(wàn)物、MiniMax、百川智能、智譜AI、階躍星辰、月之暗面)中,2024年有五家拿到億元級(jí)融資。目前,智譜、月之暗面、百川智能、階躍星辰的估值均已超200億元。
但根據(jù)《智能涌現(xiàn)》報(bào)道,隨著估值跨上200億元臺(tái)階,國(guó)內(nèi)大模型公司最新的單輪次融資規(guī)模將卡在50億元左右。即估值越高,融資越難。根據(jù)華興資本數(shù)據(jù),2024年前三季度國(guó)內(nèi)全市場(chǎng)投融資總額為2603億元,不及近三年同期的40%。
以月之暗面為例,2024年2月份A+輪完成超10億美元融資,投后估值一路漲至25億美元。隨后的8月,首輪參投的小紅書、美團(tuán)龍珠、紅杉中國(guó)已不見(jiàn)身影,月之暗面B輪的融資額為超3億美元。風(fēng)波中的MiniMax,則在去年3月拿到6億美元B輪融資后,暫未等來(lái)新的融資消息。
對(duì)于大模型創(chuàng)企們而言,“等錢開干”的緊迫性無(wú)異于等米下鍋。
等來(lái)的數(shù)十億元融資,大模型創(chuàng)企不僅要分給持續(xù)堆參數(shù)的模型訓(xùn)練,還要分給需要上億元投流燒錢營(yíng)銷的AI應(yīng)用,能留給大模型購(gòu)買版權(quán)的錢,并不富裕。
而大模型創(chuàng)企的靈魂拷問(wèn)遠(yuǎn)不止版權(quán)糾紛這一點(diǎn),高昂的研發(fā)投入和頗為有限的商業(yè)變現(xiàn),才是懸在“六小虎”頭頂?shù)倪_(dá)摩克利斯之劍。
馬斯克曾估算,GPT-5的訓(xùn)練成本是3萬(wàn)-5萬(wàn)張H100,僅芯片成本就超過(guò)7億美元(約合50億元)。目前六小虎的收入均未透露,僅根據(jù)外媒爆料,MiniMax預(yù)計(jì)年收入7000萬(wàn)美元。目前看來(lái),哪怕是已經(jīng)在海外靠Talkie賺到錢的MiniMax,也難以在短期內(nèi)實(shí)現(xiàn)營(yíng)收打正。
大模型水溫轉(zhuǎn)涼,最先感知到的或許是撲騰其中的從業(yè)者。
“有一家大模型公司裁員后人數(shù)已經(jīng)降到500人,另一家直接放棄了預(yù)訓(xùn)練和C端市場(chǎng),剩下的幾家?guī)缀踹M(jìn)入靜默狀態(tài),不再開放HC(招聘名額)了?!?/strong>
陳臨告訴字母榜,2024年年底幾乎已經(jīng)拿不到70w+的AI offer了。2023年只要有AI相關(guān)經(jīng)驗(yàn),就能有面試機(jī)會(huì),現(xiàn)在過(guò)去一年,不僅要求有落地經(jīng)驗(yàn),漲薪幅度也打了折扣。目前除了北京之外,其他城市的AI崗位招聘也是少的可憐。
可以肯定的是,2025年想要繼續(xù)留在牌桌上的大模型創(chuàng)企們,在模型訓(xùn)練過(guò)程中為版權(quán)付費(fèi)只是第一步,降本不是長(zhǎng)久之計(jì),想法子賺錢增效,才是關(guān)鍵。
(文中陳臨為化名)
(舉報(bào))