幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > 大模型最新資訊  > 正文

豆包說(shuō)要「普惠」,于是大模型處理圖片按「厘」計(jì)價(jià)了

2024-12-23 14:07 · 稿源: 機(jī)器之心公眾號(hào)

聲明:本文來(lái)自于微信公眾號(hào) 機(jī)器之心,作者:蛋醬,授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。

這段時(shí)間,OpenAI 宣告連續(xù)12輪轟炸,讓2024年底的大模型領(lǐng)域熱鬧起來(lái)了。

但堅(jiān)持每個(gè)凌晨看直播的話會(huì)發(fā)現(xiàn),越到后面的發(fā)布越平淡,內(nèi)心的波動(dòng)也越少了。

今年的大模型就卷到這里了嗎?并沒(méi)有,國(guó)產(chǎn)大模型又卷起來(lái)了,還給 OpenAI 來(lái)了一記「重拳」。

就在前幾天,2024冬季火山引擎 FORCE 原動(dòng)力大會(huì)上,字節(jié)跳動(dòng)的豆包大模型家族,來(lái)了一場(chǎng)爆發(fā)式上新。

最受關(guān)注的是豆包大模型家族的新成員 ——豆包?視覺(jué)理解模型。顧名思義,它讓豆包有了「看懂」世界的能力。更重要的是,這款新模型一千個(gè) token 的輸入價(jià)格僅3厘錢,也就是說(shuō)花一塊錢就能處理284張720P 的圖片,比行業(yè)價(jià)格便宜了85%。

價(jià)格官宣的那一刻,或許眾多企業(yè)用戶在心里默念了一句:太好了,是豆包,我們有救了。

至于這款模型的理解能力有多強(qiáng),請(qǐng)看 VCR:

火山引擎,贊4054

與此同時(shí),三位成員豆包通用模型 Pro、豆包?音樂(lè)生成模型、豆包?文生圖模型宣布升級(jí),一起發(fā)布的還有豆包?3D 模型。

圖片

回想年中的時(shí)候,豆包還是國(guó)產(chǎn)大模型中的「新秀」。短短半年多,竟然已經(jīng)紅透了半邊天,成為了眾多用戶首選的生產(chǎn)力工具。

七個(gè)月的時(shí)間,能發(fā)生什么?對(duì)于 OpenAI 來(lái)說(shuō),可能只是一項(xiàng)新功能從「期貨」到「全量上線」的準(zhǔn)備時(shí)長(zhǎng)。

但對(duì)于豆包大模型,這段時(shí)間已經(jīng)足以拿下日均 tokens 使用量超4萬(wàn)億的優(yōu)秀成績(jī),比最初發(fā)布的那天增長(zhǎng)了33倍。

圖片

經(jīng)過(guò)此次升級(jí)后,豆包大模型家族的實(shí)力又壯大了一波。

據(jù)智源研究院12月19日發(fā)布的國(guó)內(nèi)外100余個(gè)開源和商業(yè)閉源的大模型綜合及專項(xiàng)評(píng)測(cè)結(jié)果,「大語(yǔ)言模型評(píng)測(cè)能力榜單」中,豆包通用模型 pro 在重點(diǎn)考察中文能力的主觀評(píng)測(cè)中排名第一,「多模態(tài)模型評(píng)測(cè)榜單」中,豆包·視覺(jué)理解模型在視覺(jué)語(yǔ)言模型中排名第二,僅次于 GPT-4o,是得分最高的國(guó)產(chǎn)大模型?!窮lagEval 大模型角斗場(chǎng)榜單」中,豆包通用模型 pro 在大語(yǔ)言模型榜單中位居第一梯隊(duì),評(píng)分排名第二,僅次于 OpenAI 的 o1-mini,是得分最高的國(guó)產(chǎn)大模型。

不得不說(shuō),國(guó)產(chǎn) AI 進(jìn)化的速度是真的驚人。

會(huì)讀論文、看梗圖

豆包的「秒懂」能力強(qiáng)得可怕

回望2024年的大模型技術(shù)發(fā)展,除了文本能力的繼續(xù)提升外,從單模態(tài)過(guò)渡到多模態(tài)也是基礎(chǔ)模型的演進(jìn)趨勢(shì)之一。

一個(gè)關(guān)鍵方向是,增加對(duì)視覺(jué)模態(tài)輸入的支持。這就像是給 LLM 裝上了「眼睛」和「大腦」,使其能夠理解圖像并進(jìn)行相應(yīng)的自然語(yǔ)言生成。

在不斷進(jìn)化的豆包大模型中,我們也看到了驚人的「秒懂」能力。

具體來(lái)說(shuō),豆包?視覺(jué)理解模型具備精準(zhǔn)的指令理解能力,能夠精準(zhǔn)提取圖像文本信息,因此可應(yīng)用于更復(fù)雜、更廣泛的視覺(jué)問(wèn)答任務(wù),比如描述圖片中的內(nèi)容以及對(duì)圖片中包含的內(nèi)容進(jìn)行提問(wèn)。另一方面,該模型可完成深度的圖片理解與推理,在表格圖像、數(shù)學(xué)問(wèn)題、代碼圖像等復(fù)雜推理場(chǎng)景下都能發(fā)揮所長(zhǎng)。

豆包?視覺(jué)理解模型接入豆包 App 和 PC 端產(chǎn)品已經(jīng)有段時(shí)間了,機(jī)器之心也測(cè)試了一番,實(shí)際體驗(yàn)很不錯(cuò)。

在此之前,人們公認(rèn)體驗(yàn)比較好的是 GPT-4o 模型,但這次測(cè)試下來(lái),豆包?視覺(jué)理解模型毫不遜色。

首先能感受到,豆包的內(nèi)容識(shí)別能力很強(qiáng),比如對(duì)于視覺(jué)內(nèi)容中的知識(shí)、文化背景、狀態(tài)、數(shù)量、文字等信息都識(shí)別得很準(zhǔn)確,特別是能理解中國(guó)傳統(tǒng)文化知識(shí)。

比如問(wèn)一個(gè)生活化的問(wèn)題。站在超市貨架前,每個(gè)人都有過(guò)難以抉擇的時(shí)刻。但顯然,大模型比我們更懂傳統(tǒng)食物:

圖片

當(dāng)然,它不只是擅長(zhǎng)識(shí)別現(xiàn)實(shí)中的物品,即使圖片只有光影、輪廓、位置這些特征,也能一眼辨別:

圖片

其次,豆包對(duì)于視覺(jué)內(nèi)容信息的推理能力也很強(qiáng),包括數(shù)學(xué)、邏輯、代碼等。

就拿難懂的論文架構(gòu)圖來(lái)說(shuō)吧,在沒(méi)有給出任何論文背景信息的前提下,豆包不僅能看懂、講透,特別是針對(duì)整體流程的解讀,將階段1和階段2的因果邏輯表達(dá)得非常清楚,還能如數(shù)列出背景知識(shí):

圖片

圖片

圖片

假如同事交接給你一些代碼,別焦慮,叫上豆包一起看能效率加倍:

圖片

圖片

圖片

圖片

再說(shuō)到視覺(jué)描述能力,它也非常擅長(zhǎng)「看圖說(shuō)話」,完全可以用來(lái)編寫社交媒體文案,或者任何你需要啟發(fā)靈感的創(chuàng)作任務(wù):

圖片

還有一個(gè)很巧妙的用途 —— 幫助2G 沖浪的「老年人」看懂新梗:

圖片

圖片

多模態(tài)能力的突破,讓今年的大模型應(yīng)用給用戶帶來(lái)了諸多驚喜。此次視覺(jué)理解能力的增強(qiáng),也將是豆包大模型打開更多落地場(chǎng)景的關(guān)鍵一步。當(dāng)模型能夠?qū)D像和文字信息相結(jié)合,我們就能夠獲得更自然、直觀的交互體驗(yàn)。例如,在產(chǎn)品推薦、教育輔助或虛擬助手場(chǎng)景中,用戶可以通過(guò)圖片與模型互動(dòng),獲得更豐富的反饋。此外,結(jié)合視覺(jué)和文本信息,模型對(duì)輸入的洞察水準(zhǔn)也會(huì)更上一層樓。例如,在新聞分析或知識(shí)圖譜構(gòu)建中,模型能夠關(guān)聯(lián)文字和圖片,提供更完整的背景和見(jiàn)解。

加上以「厘」為單位的定價(jià),這些應(yīng)用場(chǎng)景的解鎖速度會(huì)比想象中更快。秉承「讓每家企業(yè)都用得起好模型」的原則,豆包一發(fā)力,實(shí)實(shí)在在是把視覺(jué)理解模型的應(yīng)用成本打下來(lái)了,將以更低成本推動(dòng) AI 技術(shù)普惠和應(yīng)用發(fā)展。

圖片

三大主力模型升級(jí)

視頻模型下月上線

在新成員誕生的同時(shí),豆包大模型家族的三位重要成員也迎來(lái)了本年度的最后一次重大升級(jí)。

首先是大語(yǔ)言模型 ——豆包通用模型 Pro。對(duì)比今年5月最初公開發(fā)布的版本,這款模型在綜合能力上已經(jīng)提升了32%,與 GPT-4o 持平,但價(jià)格僅是其八分之一。

圖片

此外,豆包通用模型 Pro在指令遵循、代碼、專業(yè)知識(shí)、數(shù)學(xué)層面全面對(duì)齊了 GPT-4o 水平。其中指令遵循能力提升9%,代碼能力提升58%,GPQA 專業(yè)知識(shí)方面能力提升54%,數(shù)學(xué)能力提升43%,推理能力提升13%。

圖片

然后是語(yǔ)音,豆包?音樂(lè)模型的生成水平已經(jīng)從「高光片段」躍升到「完整樂(lè)章」。

現(xiàn)在,用戶只需要簡(jiǎn)單描述或上傳一張圖片,就能生成一首長(zhǎng)達(dá)3分鐘的包含旋律、歌詞和演唱的高質(zhì)量音樂(lè)作品,包括前奏、主歌、副歌、間奏、過(guò)渡段等復(fù)雜結(jié)構(gòu)。并且,豆包?音樂(lè)模型提供了局部修改功能,在針對(duì)部分歌詞修改后仍能在原有旋律的節(jié)奏框架內(nèi)適配。

體驗(yàn)地址:https://www.haimian.com/create (APP 端:海綿音樂(lè))

從原來(lái)的1分鐘,升級(jí)為現(xiàn)在的3分鐘,豆包?音樂(lè)模型克服了挑戰(zhàn),在較長(zhǎng)的時(shí)間跨度內(nèi)容保持了音樂(lè)元素的連貫性。

最后,在視覺(jué)層面,豆包?文生圖模型本次也迎來(lái)了新一波升級(jí),在通用性、可控性、高質(zhì)量三方面取得了新突破。具體來(lái)說(shuō),豆包?文生圖模型2.1新增了「一鍵海報(bào)」和「一鍵 P 圖」能力,目前已接入即夢(mèng) AI 和豆包 App。

一鍵海報(bào)的關(guān)鍵點(diǎn)在于「寫字」。在實(shí)際體驗(yàn)中,我們可以感受到,豆包?文生圖模型對(duì)文字細(xì)節(jié)的指令遵循能力很強(qiáng),特別是非常擅長(zhǎng)「寫漢字」:

Prompt:生成一張卡通土撥鼠的圖片 衣服上的文字圖案是 “機(jī)器之心”

圖片

圖片

背后的技術(shù)源自豆包?文生圖模型原生的文字渲染能力,豆包大模型團(tuán)隊(duì)通過(guò)打通 LLM 和 DiT 架構(gòu)和構(gòu)建高質(zhì)量文字渲染數(shù)據(jù),大幅提升了模型在文字生成方面的準(zhǔn)確率,尤其是結(jié)構(gòu)復(fù)雜、字符數(shù)量較多的漢字場(chǎng)景。

一鍵 P 圖功能的實(shí)現(xiàn),則基于豆包大模型團(tuán)隊(duì)近期在圖像編輯技術(shù)上取得的重大突破:SeedEdit。

近年來(lái),基于擴(kuò)散模型的圖像生成技術(shù)進(jìn)展飛速,然而,圖像編輯技術(shù)還難以滿足人們對(duì)于生成內(nèi)容可控性的需求,關(guān)鍵挑戰(zhàn)在于實(shí)現(xiàn)「維持原始圖像」和「生成新圖像」之間的最優(yōu)平衡。

SeedEdit 框架在不引入新參數(shù)的前提下,將圖像生成擴(kuò)散模型轉(zhuǎn)為圖像編輯模型,也是國(guó)內(nèi)首個(gè)產(chǎn)品化的通用圖像編輯模型。無(wú)需描邊涂抹,用戶只需要給出簡(jiǎn)單的自然語(yǔ)言指示,就能換背景、轉(zhuǎn)風(fēng)格,或者在指定區(qū)域進(jìn)行元素的增刪和替換。

Prompt:驢打滾變成拿破侖

圖片

相比于傳統(tǒng)涂抹選中的方法,這種編輯方式更加精準(zhǔn),不會(huì)誤傷無(wú)關(guān)區(qū)域。還有一點(diǎn)好處是,這種編輯技術(shù)能夠一次性完成多項(xiàng)編輯任務(wù),效率大大提升。

關(guān)于最近非常火熱的3D 賽道,豆包家族也添加了一位新成員:豆包?3D 生成模型。將這款模型與火山引擎數(shù)字孿生平臺(tái) veOmniverse 結(jié)合使用,可以高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作,成為一套支持 AIGC 創(chuàng)作的物理世界仿真模擬器。

如視頻所示,通過(guò)疊加一句一句的文字 Prompt,就能搭建起一個(gè)工廠車間場(chǎng)景:

image.png

后來(lái)居上,一飛沖天

「豆包」憑借的是什么?

自2024年5月發(fā)布至今,只用了七個(gè)月,豆包大模型就成為了國(guó)產(chǎn)大模型中當(dāng)之無(wú)愧的頂流。

后來(lái)者如何居上?在豆包家族做大做強(qiáng)的道路上,為其提供底層支撐的火山引擎云服務(wù)平臺(tái)的價(jià)值不可忽視。

一直以來(lái),字節(jié)跳動(dòng)的豆包大模型都通過(guò)火山引擎對(duì)外提供服務(wù),「更強(qiáng)模型、更低價(jià)格、更易落地」,這三個(gè)關(guān)鍵詞成為了其別于眾多大模型服務(wù)平臺(tái)的特質(zhì)。

除了不斷升級(jí)的模型能力之外,火山引擎還解決了「成本太高」和「落地太難」兩項(xiàng)大模型應(yīng)用挑戰(zhàn)。目前,這個(gè)平臺(tái)提供從云計(jì)算、技術(shù)引擎、智能應(yīng)用到行業(yè)解決方案的全棧服務(wù)。

圖片

模型層面,豆包大模型家族已經(jīng)有十幾位成員,覆蓋了常見(jiàn)應(yīng)用場(chǎng)景。

圖片

特別地,火山引擎為大模型落地提供了一系列覆蓋全流程的工具,包括一站式大模型服務(wù)平臺(tái)火山方舟、大模型應(yīng)用開發(fā)平臺(tái)扣子、企業(yè)專屬 AI 應(yīng)用創(chuàng)新平臺(tái) HiAgent。這些工具,在本次大會(huì)上也都同步升級(jí)。

火山引擎這次一口氣推出了Prompt 優(yōu)解、大模型記憶應(yīng)用等產(chǎn)品,持續(xù)保障企業(yè)級(jí) AI 應(yīng)用的落地。Prompt 優(yōu)解是全新一代提示詞工具,通過(guò)自動(dòng) + 互動(dòng)的方式,解決了人工編寫 Prompt 難度高、耗時(shí)寫、重新適配的問(wèn)題。大模型記憶應(yīng)用基于知識(shí)庫(kù) RAG 技術(shù)和上下文緩存技術(shù),能夠幫助企業(yè)用戶打造靈活的大模型記憶方案,并推出 prefix cache 和 session cache API,降低延遲和成本。

扣子也在這次大會(huì)上升級(jí)到了1.5版本,還公布了開發(fā)者生態(tài)方面的亮眼成績(jī):目前平臺(tái)已有超過(guò)100萬(wàn)的活躍開發(fā)者,共發(fā)布過(guò)200萬(wàn)個(gè)智能體。包括最新發(fā)布的豆包多模態(tài)模型們,用戶們都能第一時(shí)間在扣子平臺(tái)通過(guò)插件的方式體驗(yàn)。

最新發(fā)布的HiAgent1.5版本中,火山引擎提供了100多個(gè)行業(yè)應(yīng)用模板,提供給企業(yè)用戶一鍵復(fù)制,實(shí)現(xiàn)低代碼構(gòu)建智能體。同步發(fā)布的 GraphRAG 則通過(guò)連接知識(shí)圖譜為大模型提供知識(shí)及關(guān)系信息,以此增強(qiáng)回答質(zhì)量、支持多跳問(wèn)題回答。再通過(guò) Reranker,進(jìn)一步提升回答的準(zhǔn)確性和完整性。如此一來(lái),企業(yè)就能構(gòu)建專家級(jí)別的 AI 應(yīng)用。

在云服務(wù)層面,基于當(dāng)前企業(yè)使用大模型推理對(duì)計(jì)算效率的新要求,火山引擎已經(jīng)完成了從 Cloud Native 到 AI Cloud Native 的轉(zhuǎn)型,打造以 AI 負(fù)載為中心的基礎(chǔ)架構(gòu)新范式。

GPU 在并行處理能力和高吞吐量方面更適合大規(guī)模推理使用,然而,傳統(tǒng) GPU 加 CPU 的異構(gòu)計(jì)算中,GPU 從存儲(chǔ)加載數(shù)據(jù)進(jìn)行處理都必須由 CPU 控制。近年來(lái)的一個(gè)趨勢(shì)是計(jì)算從 CPU 轉(zhuǎn)移到 GPU,GPU 計(jì)算在整個(gè)系統(tǒng)的比例越來(lái)越大,因此過(guò)去的 I/O 流程成為巨大的效率瓶頸,某種程度上造成了 GPU 資源的浪費(fèi)。

基于 AI 云原生的理念,火山引擎這次推出了新一代計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)和和安全產(chǎn)品。在計(jì)算層面,新一代的火山引擎 GPU 實(shí)例,通過(guò) vRDMA 網(wǎng)絡(luò),支持大規(guī)模并行計(jì)算和 P/D 分離推理架構(gòu),顯著提升訓(xùn)練和推理效率,降低成本。存儲(chǔ)上,新推出的 EIC 彈性極速緩存,能夠?qū)崿F(xiàn) GPU 直連,使大模型推理時(shí)延降低至1/50;成本降低20%。安全層面,火山將推出 PCC 私密云服務(wù),構(gòu)建大模型的可信應(yīng)用體系?;?PCC,企業(yè)能夠?qū)崿F(xiàn)用戶數(shù)據(jù)在云上推理的端到端加密,而且性能很好,推理時(shí)延比明文模式的差異在5% 以內(nèi)。

「今年是大模型高速發(fā)展的一年。當(dāng)你看到一列高速行駛的列車,最重要的事就是確保自己要登上這趟列車。通過(guò) AI 云原生和豆包大模型家族,火山引擎希望幫助企業(yè)做好 AI 創(chuàng)新,駛向更美好的未來(lái)。」火山引擎總裁譚待表示。

面向2025,我們期待什么?

這一年,從技術(shù)研發(fā)的角度,豆包大模型團(tuán)隊(duì)在研究者和從業(yè)者圈子中影響力的增長(zhǎng)是有目共睹的。2024年,團(tuán)隊(duì)發(fā)布了一系列「出圈」成果,包括近期的圖像編輯模型 SeedEdit、代碼評(píng)估數(shù)據(jù)集 FullStack Bench、新型神經(jīng)網(wǎng)絡(luò)架構(gòu) FAN 等。在突破前沿命題之外,這些成果也對(duì)豆包大模型產(chǎn)品層面的進(jìn)化起到了關(guān)鍵的推動(dòng)作用。

正是基于技術(shù)驅(qū)動(dòng)下的產(chǎn)品迅速迭代,讓豆包坐穩(wěn)了國(guó)產(chǎn)大模型頂流的寶座。大模型技術(shù)爆發(fā)兩年后,不管是個(gè)人用戶還是企業(yè)用戶都能感知到,豆包大模型在應(yīng)用層的優(yōu)勢(shì)已經(jīng)非常明顯。

根據(jù)大會(huì) One More Thing 環(huán)節(jié)的透露,本文開頭 VCR 中所展示的端到端實(shí)時(shí)語(yǔ)音功能,以及具備更長(zhǎng)視頻生成能力的豆包?視頻生成模型1.5也會(huì)在不久后上線。

站在2024年的末尾,無(wú)論是相關(guān)從業(yè)者還是大眾都會(huì)好奇:2025年的大模型會(huì)變成什么樣?

我們看到、聽(tīng)到了很多關(guān)于大模型前進(jìn)方向的預(yù)判,比如 Scaling Law 即將撞墻,預(yù)訓(xùn)練已經(jīng)走到盡頭等等。

但這些并不意味著大模型的能力已經(jīng)到達(dá)天花板,推理 Scaling Law 來(lái)了,AI 的智能水平可能會(huì)在短時(shí)間內(nèi)躍升到一個(gè)新的高度。同時(shí)在圖像生成、視頻生成等多模態(tài)任務(wù)上,大模型仍有相當(dāng)充足的發(fā)展空間。在未來(lái)的12個(gè)月,大模型進(jìn)化的曲線可能會(huì)非常陡峭。

新的一年,豆包大模型還有哪些驚喜?值得每一個(gè)人期待。

舉報(bào)

  • 相關(guān)推薦

熱文

  • 3 天
  • 7天