豆包說(shuō)要「普惠」，于是大模型處理圖片按「厘」計(jì)價(jià)了

2024-12-23 14:07 · 稿源：機(jī)器之心公眾號(hào)

聲明:本文來(lái)自于微信公眾號(hào) 機(jī)器之心，作者:蛋醬，授權(quán)站長(zhǎng)之家轉(zhuǎn)載發(fā)布。

這段時(shí)間，OpenAI 宣告連續(xù)12輪轟炸，讓2024年底的大模型領(lǐng)域熱鬧起來(lái)了。

但堅(jiān)持每個(gè)凌晨看直播的話會(huì)發(fā)現(xiàn)，越到后面的發(fā)布越平淡，內(nèi)心的波動(dòng)也越少了。

今年的大模型就卷到這里了嗎?并沒(méi)有，國(guó)產(chǎn)大模型又卷起來(lái)了，還給 OpenAI 來(lái)了一記「重拳」。

就在前幾天，2024冬季火山引擎 FORCE 原動(dòng)力大會(huì)上，字節(jié)跳動(dòng)的豆包大模型家族，來(lái)了一場(chǎng)爆發(fā)式上新。

最受關(guān)注的是豆包大模型家族的新成員 ——豆包?視覺(jué)理解模型。顧名思義，它讓豆包有了「看懂」世界的能力。更重要的是，這款新模型一千個(gè) token 的輸入價(jià)格僅3厘錢，也就是說(shuō)花一塊錢就能處理284張720P 的圖片，比行業(yè)價(jià)格便宜了85%。

價(jià)格官宣的那一刻，或許眾多企業(yè)用戶在心里默念了一句:太好了，是豆包，我們有救了。

至于這款模型的理解能力有多強(qiáng)，請(qǐng)看 VCR:

火山引擎，贊4054

與此同時(shí)，三位成員豆包通用模型 Pro、豆包?音樂(lè)生成模型、豆包?文生圖模型宣布升級(jí)，一起發(fā)布的還有豆包?3D 模型。

回想年中的時(shí)候，豆包還是國(guó)產(chǎn)大模型中的「新秀」。短短半年多，竟然已經(jīng)紅透了半邊天，成為了眾多用戶首選的生產(chǎn)力工具。

七個(gè)月的時(shí)間，能發(fā)生什么?對(duì)于 OpenAI 來(lái)說(shuō)，可能只是一項(xiàng)新功能從「期貨」到「全量上線」的準(zhǔn)備時(shí)長(zhǎng)。

但對(duì)于豆包大模型，這段時(shí)間已經(jīng)足以拿下日均 tokens 使用量超4萬(wàn)億的優(yōu)秀成績(jī)，比最初發(fā)布的那天增長(zhǎng)了33倍。

經(jīng)過(guò)此次升級(jí)后，豆包大模型家族的實(shí)力又壯大了一波。

據(jù)智源研究院12月19日發(fā)布的國(guó)內(nèi)外100余個(gè)開源和商業(yè)閉源的大模型綜合及專項(xiàng)評(píng)測(cè)結(jié)果，「大語(yǔ)言模型評(píng)測(cè)能力榜單」中，豆包通用模型 pro 在重點(diǎn)考察中文能力的主觀評(píng)測(cè)中排名第一，「多模態(tài)模型評(píng)測(cè)榜單」中，豆包·視覺(jué)理解模型在視覺(jué)語(yǔ)言模型中排名第二，僅次于 GPT-4o，是得分最高的國(guó)產(chǎn)大模型?！窮lagEval 大模型角斗場(chǎng)榜單」中，豆包通用模型 pro 在大語(yǔ)言模型榜單中位居第一梯隊(duì)，評(píng)分排名第二，僅次于 OpenAI 的 o1-mini，是得分最高的國(guó)產(chǎn)大模型。

不得不說(shuō)，國(guó)產(chǎn) AI 進(jìn)化的速度是真的驚人。

會(huì)讀論文、看梗圖

豆包的「秒懂」能力強(qiáng)得可怕

回望2024年的大模型技術(shù)發(fā)展，除了文本能力的繼續(xù)提升外，從單模態(tài)過(guò)渡到多模態(tài)也是基礎(chǔ)模型的演進(jìn)趨勢(shì)之一。

一個(gè)關(guān)鍵方向是，增加對(duì)視覺(jué)模態(tài)輸入的支持。這就像是給 LLM 裝上了「眼睛」和「大腦」，使其能夠理解圖像并進(jìn)行相應(yīng)的自然語(yǔ)言生成。

在不斷進(jìn)化的豆包大模型中，我們也看到了驚人的「秒懂」能力。

具體來(lái)說(shuō)，豆包?視覺(jué)理解模型具備精準(zhǔn)的指令理解能力，能夠精準(zhǔn)提取圖像文本信息，因此可應(yīng)用于更復(fù)雜、更廣泛的視覺(jué)問(wèn)答任務(wù)，比如描述圖片中的內(nèi)容以及對(duì)圖片中包含的內(nèi)容進(jìn)行提問(wèn)。另一方面，該模型可完成深度的圖片理解與推理，在表格圖像、數(shù)學(xué)問(wèn)題、代碼圖像等復(fù)雜推理場(chǎng)景下都能發(fā)揮所長(zhǎng)。

豆包?視覺(jué)理解模型接入豆包 App 和 PC 端產(chǎn)品已經(jīng)有段時(shí)間了，機(jī)器之心也測(cè)試了一番，實(shí)際體驗(yàn)很不錯(cuò)。

在此之前，人們公認(rèn)體驗(yàn)比較好的是 GPT-4o 模型，但這次測(cè)試下來(lái)，豆包?視覺(jué)理解模型毫不遜色。

首先能感受到，豆包的內(nèi)容識(shí)別能力很強(qiáng)，比如對(duì)于視覺(jué)內(nèi)容中的知識(shí)、文化背景、狀態(tài)、數(shù)量、文字等信息都識(shí)別得很準(zhǔn)確，特別是能理解中國(guó)傳統(tǒng)文化知識(shí)。

比如問(wèn)一個(gè)生活化的問(wèn)題。站在超市貨架前，每個(gè)人都有過(guò)難以抉擇的時(shí)刻。但顯然，大模型比我們更懂傳統(tǒng)食物:

當(dāng)然，它不只是擅長(zhǎng)識(shí)別現(xiàn)實(shí)中的物品，即使圖片只有光影、輪廓、位置這些特征，也能一眼辨別:

其次，豆包對(duì)于視覺(jué)內(nèi)容信息的推理能力也很強(qiáng)，包括數(shù)學(xué)、邏輯、代碼等。

就拿難懂的論文架構(gòu)圖來(lái)說(shuō)吧，在沒(méi)有給出任何論文背景信息的前提下，豆包不僅能看懂、講透，特別是針對(duì)整體流程的解讀，將階段1和階段2的因果邏輯表達(dá)得非常清楚，還能如數(shù)列出背景知識(shí):

假如同事交接給你一些代碼，別焦慮，叫上豆包一起看能效率加倍:

再說(shuō)到視覺(jué)描述能力，它也非常擅長(zhǎng)「看圖說(shuō)話」，完全可以用來(lái)編寫社交媒體文案，或者任何你需要啟發(fā)靈感的創(chuàng)作任務(wù):

還有一個(gè)很巧妙的用途 —— 幫助2G 沖浪的「老年人」看懂新梗:

多模態(tài)能力的突破，讓今年的大模型應(yīng)用給用戶帶來(lái)了諸多驚喜。此次視覺(jué)理解能力的增強(qiáng)，也將是豆包大模型打開更多落地場(chǎng)景的關(guān)鍵一步。當(dāng)模型能夠?qū)D像和文字信息相結(jié)合，我們就能夠獲得更自然、直觀的交互體驗(yàn)。例如，在產(chǎn)品推薦、教育輔助或虛擬助手場(chǎng)景中，用戶可以通過(guò)圖片與模型互動(dòng)，獲得更豐富的反饋。此外，結(jié)合視覺(jué)和文本信息，模型對(duì)輸入的洞察水準(zhǔn)也會(huì)更上一層樓。例如，在新聞分析或知識(shí)圖譜構(gòu)建中，模型能夠關(guān)聯(lián)文字和圖片，提供更完整的背景和見(jiàn)解。

加上以「厘」為單位的定價(jià)，這些應(yīng)用場(chǎng)景的解鎖速度會(huì)比想象中更快。秉承「讓每家企業(yè)都用得起好模型」的原則，豆包一發(fā)力，實(shí)實(shí)在在是把視覺(jué)理解模型的應(yīng)用成本打下來(lái)了，將以更低成本推動(dòng) AI 技術(shù)普惠和應(yīng)用發(fā)展。

三大主力模型升級(jí)

視頻模型下月上線

在新成員誕生的同時(shí)，豆包大模型家族的三位重要成員也迎來(lái)了本年度的最后一次重大升級(jí)。

首先是大語(yǔ)言模型 ——豆包通用模型 Pro。對(duì)比今年5月最初公開發(fā)布的版本，這款模型在綜合能力上已經(jīng)提升了32%，與 GPT-4o 持平，但價(jià)格僅是其八分之一。

此外，豆包通用模型 Pro在指令遵循、代碼、專業(yè)知識(shí)、數(shù)學(xué)層面全面對(duì)齊了 GPT-4o 水平。其中指令遵循能力提升9%，代碼能力提升58%，GPQA 專業(yè)知識(shí)方面能力提升54%，數(shù)學(xué)能力提升43%，推理能力提升13%。

然后是語(yǔ)音，豆包?音樂(lè)模型的生成水平已經(jīng)從「高光片段」躍升到「完整樂(lè)章」。

現(xiàn)在，用戶只需要簡(jiǎn)單描述或上傳一張圖片，就能生成一首長(zhǎng)達(dá)3分鐘的包含旋律、歌詞和演唱的高質(zhì)量音樂(lè)作品，包括前奏、主歌、副歌、間奏、過(guò)渡段等復(fù)雜結(jié)構(gòu)。并且，豆包?音樂(lè)模型提供了局部修改功能，在針對(duì)部分歌詞修改后仍能在原有旋律的節(jié)奏框架內(nèi)適配。

體驗(yàn)地址:https://www.haimian.com/create （APP 端:海綿音樂(lè)）

從原來(lái)的1分鐘，升級(jí)為現(xiàn)在的3分鐘，豆包?音樂(lè)模型克服了挑戰(zhàn)，在較長(zhǎng)的時(shí)間跨度內(nèi)容保持了音樂(lè)元素的連貫性。

最后，在視覺(jué)層面，豆包?文生圖模型本次也迎來(lái)了新一波升級(jí)，在通用性、可控性、高質(zhì)量三方面取得了新突破。具體來(lái)說(shuō)，豆包?文生圖模型2.1新增了「一鍵海報(bào)」和「一鍵 P 圖」能力，目前已接入即夢(mèng) AI 和豆包 App。

一鍵海報(bào)的關(guān)鍵點(diǎn)在于「寫字」。在實(shí)際體驗(yàn)中，我們可以感受到，豆包?文生圖模型對(duì)文字細(xì)節(jié)的指令遵循能力很強(qiáng)，特別是非常擅長(zhǎng)「寫漢字」:

Prompt:生成一張卡通土撥鼠的圖片衣服上的文字圖案是 “機(jī)器之心”

背后的技術(shù)源自豆包?文生圖模型原生的文字渲染能力，豆包大模型團(tuán)隊(duì)通過(guò)打通 LLM 和 DiT 架構(gòu)和構(gòu)建高質(zhì)量文字渲染數(shù)據(jù)，大幅提升了模型在文字生成方面的準(zhǔn)確率，尤其是結(jié)構(gòu)復(fù)雜、字符數(shù)量較多的漢字場(chǎng)景。

一鍵 P 圖功能的實(shí)現(xiàn)，則基于豆包大模型團(tuán)隊(duì)近期在圖像編輯技術(shù)上取得的重大突破:SeedEdit。

近年來(lái)，基于擴(kuò)散模型的圖像生成技術(shù)進(jìn)展飛速，然而，圖像編輯技術(shù)還難以滿足人們對(duì)于生成內(nèi)容可控性的需求，關(guān)鍵挑戰(zhàn)在于實(shí)現(xiàn)「維持原始圖像」和「生成新圖像」之間的最優(yōu)平衡。

SeedEdit 框架在不引入新參數(shù)的前提下，將圖像生成擴(kuò)散模型轉(zhuǎn)為圖像編輯模型，也是國(guó)內(nèi)首個(gè)產(chǎn)品化的通用圖像編輯模型。無(wú)需描邊涂抹，用戶只需要給出簡(jiǎn)單的自然語(yǔ)言指示，就能換背景、轉(zhuǎn)風(fēng)格，或者在指定區(qū)域進(jìn)行元素的增刪和替換。

Prompt:驢打滾變成拿破侖

相比于傳統(tǒng)涂抹選中的方法，這種編輯方式更加精準(zhǔn)，不會(huì)誤傷無(wú)關(guān)區(qū)域。還有一點(diǎn)好處是，這種編輯技術(shù)能夠一次性完成多項(xiàng)編輯任務(wù)，效率大大提升。

關(guān)于最近非常火熱的3D 賽道，豆包家族也添加了一位新成員:豆包?3D 生成模型。將這款模型與火山引擎數(shù)字孿生平臺(tái) veOmniverse 結(jié)合使用，可以高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作，成為一套支持 AIGC 創(chuàng)作的物理世界仿真模擬器。

如視頻所示，通過(guò)疊加一句一句的文字 Prompt，就能搭建起一個(gè)工廠車間場(chǎng)景:

后來(lái)居上，一飛沖天

「豆包」憑借的是什么?

自2024年5月發(fā)布至今，只用了七個(gè)月，豆包大模型就成為了國(guó)產(chǎn)大模型中當(dāng)之無(wú)愧的頂流。

后來(lái)者如何居上?在豆包家族做大做強(qiáng)的道路上，為其提供底層支撐的火山引擎云服務(wù)平臺(tái)的價(jià)值不可忽視。

一直以來(lái)，字節(jié)跳動(dòng)的豆包大模型都通過(guò)火山引擎對(duì)外提供服務(wù)，「更強(qiáng)模型、更低價(jià)格、更易落地」，這三個(gè)關(guān)鍵詞成為了其別于眾多大模型服務(wù)平臺(tái)的特質(zhì)。

除了不斷升級(jí)的模型能力之外，火山引擎還解決了「成本太高」和「落地太難」兩項(xiàng)大模型應(yīng)用挑戰(zhàn)。目前，這個(gè)平臺(tái)提供從云計(jì)算、技術(shù)引擎、智能應(yīng)用到行業(yè)解決方案的全棧服務(wù)。

模型層面，豆包大模型家族已經(jīng)有十幾位成員，覆蓋了常見(jiàn)應(yīng)用場(chǎng)景。

特別地，火山引擎為大模型落地提供了一系列覆蓋全流程的工具，包括一站式大模型服務(wù)平臺(tái)火山方舟、大模型應(yīng)用開發(fā)平臺(tái)扣子、企業(yè)專屬 AI 應(yīng)用創(chuàng)新平臺(tái) HiAgent。這些工具，在本次大會(huì)上也都同步升級(jí)。

火山引擎這次一口氣推出了Prompt 優(yōu)解、大模型記憶應(yīng)用等產(chǎn)品，持續(xù)保障企業(yè)級(jí) AI 應(yīng)用的落地。Prompt 優(yōu)解是全新一代提示詞工具，通過(guò)自動(dòng) + 互動(dòng)的方式，解決了人工編寫 Prompt 難度高、耗時(shí)寫、重新適配的問(wèn)題。大模型記憶應(yīng)用基于知識(shí)庫(kù) RAG 技術(shù)和上下文緩存技術(shù)，能夠幫助企業(yè)用戶打造靈活的大模型記憶方案，并推出 prefix cache 和 session cache API，降低延遲和成本。

扣子也在這次大會(huì)上升級(jí)到了1.5版本，還公布了開發(fā)者生態(tài)方面的亮眼成績(jī):目前平臺(tái)已有超過(guò)100萬(wàn)的活躍開發(fā)者，共發(fā)布過(guò)200萬(wàn)個(gè)智能體。包括最新發(fā)布的豆包多模態(tài)模型們，用戶們都能第一時(shí)間在扣子平臺(tái)通過(guò)插件的方式體驗(yàn)。

在最新發(fā)布的HiAgent1.5版本中，火山引擎提供了100多個(gè)行業(yè)應(yīng)用模板，提供給企業(yè)用戶一鍵復(fù)制，實(shí)現(xiàn)低代碼構(gòu)建智能體。同步發(fā)布的 GraphRAG 則通過(guò)連接知識(shí)圖譜為大模型提供知識(shí)及關(guān)系信息，以此增強(qiáng)回答質(zhì)量、支持多跳問(wèn)題回答。再通過(guò) Reranker，進(jìn)一步提升回答的準(zhǔn)確性和完整性。如此一來(lái)，企業(yè)就能構(gòu)建專家級(jí)別的 AI 應(yīng)用。

在云服務(wù)層面，基于當(dāng)前企業(yè)使用大模型推理對(duì)計(jì)算效率的新要求，火山引擎已經(jīng)完成了從 Cloud Native 到 AI Cloud Native 的轉(zhuǎn)型，打造以 AI 負(fù)載為中心的基礎(chǔ)架構(gòu)新范式。

GPU 在并行處理能力和高吞吐量方面更適合大規(guī)模推理使用，然而，傳統(tǒng) GPU 加 CPU 的異構(gòu)計(jì)算中，GPU 從存儲(chǔ)加載數(shù)據(jù)進(jìn)行處理都必須由 CPU 控制。近年來(lái)的一個(gè)趨勢(shì)是計(jì)算從 CPU 轉(zhuǎn)移到 GPU，GPU 計(jì)算在整個(gè)系統(tǒng)的比例越來(lái)越大，因此過(guò)去的 I/O 流程成為巨大的效率瓶頸，某種程度上造成了 GPU 資源的浪費(fèi)。

基于 AI 云原生的理念，火山引擎這次推出了新一代計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)和和安全產(chǎn)品。在計(jì)算層面，新一代的火山引擎 GPU 實(shí)例，通過(guò) vRDMA 網(wǎng)絡(luò)，支持大規(guī)模并行計(jì)算和 P/D 分離推理架構(gòu)，顯著提升訓(xùn)練和推理效率，降低成本。存儲(chǔ)上，新推出的 EIC 彈性極速緩存，能夠?qū)崿F(xiàn) GPU 直連，使大模型推理時(shí)延降低至1/50;成本降低20%。安全層面，火山將推出 PCC 私密云服務(wù)，構(gòu)建大模型的可信應(yīng)用體系?；?PCC，企業(yè)能夠?qū)崿F(xiàn)用戶數(shù)據(jù)在云上推理的端到端加密，而且性能很好，推理時(shí)延比明文模式的差異在5% 以內(nèi)。

「今年是大模型高速發(fā)展的一年。當(dāng)你看到一列高速行駛的列車，最重要的事就是確保自己要登上這趟列車。通過(guò) AI 云原生和豆包大模型家族，火山引擎希望幫助企業(yè)做好 AI 創(chuàng)新，駛向更美好的未來(lái)。」火山引擎總裁譚待表示。

面向2025，我們期待什么?

這一年，從技術(shù)研發(fā)的角度，豆包大模型團(tuán)隊(duì)在研究者和從業(yè)者圈子中影響力的增長(zhǎng)是有目共睹的。2024年，團(tuán)隊(duì)發(fā)布了一系列「出圈」成果，包括近期的圖像編輯模型 SeedEdit、代碼評(píng)估數(shù)據(jù)集 FullStack Bench、新型神經(jīng)網(wǎng)絡(luò)架構(gòu) FAN 等。在突破前沿命題之外，這些成果也對(duì)豆包大模型產(chǎn)品層面的進(jìn)化起到了關(guān)鍵的推動(dòng)作用。

正是基于技術(shù)驅(qū)動(dòng)下的產(chǎn)品迅速迭代，讓豆包坐穩(wěn)了國(guó)產(chǎn)大模型頂流的寶座。大模型技術(shù)爆發(fā)兩年后，不管是個(gè)人用戶還是企業(yè)用戶都能感知到，豆包大模型在應(yīng)用層的優(yōu)勢(shì)已經(jīng)非常明顯。

根據(jù)大會(huì) One More Thing 環(huán)節(jié)的透露，本文開頭 VCR 中所展示的端到端實(shí)時(shí)語(yǔ)音功能，以及具備更長(zhǎng)視頻生成能力的豆包?視頻生成模型1.5也會(huì)在不久后上線。

站在2024年的末尾，無(wú)論是相關(guān)從業(yè)者還是大眾都會(huì)好奇:2025年的大模型會(huì)變成什么樣?

我們看到、聽(tīng)到了很多關(guān)于大模型前進(jìn)方向的預(yù)判，比如 Scaling Law 即將撞墻，預(yù)訓(xùn)練已經(jīng)走到盡頭等等。

但這些并不意味著大模型的能力已經(jīng)到達(dá)天花板，推理 Scaling Law 來(lái)了，AI 的智能水平可能會(huì)在短時(shí)間內(nèi)躍升到一個(gè)新的高度。同時(shí)在圖像生成、視頻生成等多模態(tài)任務(wù)上，大模型仍有相當(dāng)充足的發(fā)展空間。在未來(lái)的12個(gè)月，大模型進(jìn)化的曲線可能會(huì)非常陡峭。

新的一年，豆包大模型還有哪些驚喜?值得每一個(gè)人期待。

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

薦AI日?qǐng)?bào)：階躍星辰內(nèi)測(cè)視頻大模型Step-Video；即夢(mèng)AI圖片2.1模型支持生成文字；騰訊發(fā)布混元視頻生成大模型

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、階躍星辰視頻生成大模型Step-Video開啟內(nèi)測(cè)可在躍問(wèn)視頻申請(qǐng)階躍星辰的Step-Video模型正式開啟內(nèi)測(cè)，用戶可以通過(guò)躍問(wèn)視頻官網(wǎng)申請(qǐng)資格。用戶可在最新版本的WPSOffice中輕松找到?

?人工智能 ?視頻生成 ?技術(shù)趨勢(shì)
薦一手實(shí)測(cè)豆包新發(fā)布的視覺(jué)理解大模型，他們真的卷起飛了。

人在字節(jié)火山發(fā)布會(huì)現(xiàn)場(chǎng)。眼睜睜看著他們發(fā)了一大堆的模型升級(jí)，眼花繚亂，有一種要一股腦把字節(jié)系的AI底牌往桌上亮的感覺(jué)。這可能才是，最酷的事吧。

?豆包
薦AI日?qǐng)?bào)：字節(jié)AI助手豆包上線圖片理解功能；亞馬遜推Nova系列AI生成模型；文心一言上線“深度寫作”專業(yè)版功能

歡迎來(lái)到【AI日?qǐng)?bào)】欄目!這里是你每天探索人工智能世界的指南，每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容，聚焦開發(fā)者，助你洞悉技術(shù)趨勢(shì)、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、百度文心一言上線“深度寫作”專業(yè)版功能百度AI推出的文心一言“深度寫作”專業(yè)版功能，旨在提升AI寫作能力，通過(guò)主動(dòng)搜索引用參考資料，滿足用戶個(gè)性化需求。新加入的工

?人工智能 ?AI寫作 ?文心一言
薦大模型拿單江湖

11月29日，智譜AgentOpenDay會(huì)后，現(xiàn)場(chǎng)有記者問(wèn)了CEO張鵬一個(gè)問(wèn)題:“ToB進(jìn)展如何?”“還行吧”，至此張鵬沒(méi)有再多說(shuō)一句。這家明星AI公司深度參與到大模型的廝殺當(dāng)中，其同臺(tái)競(jìng)爭(zhēng)對(duì)手是百度、阿里、騰訊和字節(jié)。留在AI公司手中的牌就要見(jiàn)底了。

?智譜Agent ?大模型 ?AI公司
字節(jié)跳動(dòng)正式發(fā)布豆包視覺(jué)理解模型：1元可處理近300張高清圖

在今天舉辦的火山引擎Force大會(huì)上，字節(jié)跳動(dòng)正式發(fā)布豆包視覺(jué)理解模型，為企業(yè)提供極具性價(jià)比的多模態(tài)大模型能力。豆包視覺(jué)理解模型千tokens輸入價(jià)格僅為3厘，一元錢就可處理284張720P的圖片，比行業(yè)價(jià)格便宜85％，以更低成本推動(dòng)AI技術(shù)普惠和應(yīng)用發(fā)展。值得一提的是，字節(jié)跳動(dòng)還將在2025年春季將推出具備更長(zhǎng)視頻生成能力的豆包視頻生成模型1.5版，豆包端到端實(shí)時(shí)語(yǔ)音模型也將很快上線目前，豆包大模型已經(jīng)與八成主流汽車品牌合作，并接入到多家手機(jī)、PC等智能終端，覆蓋終端設(shè)備約3億臺(tái)，來(lái)自智能終端的豆包大模型調(diào)用量在半年時(shí)間內(nèi)增長(zhǎng)100倍。

?多模態(tài)大模型 ?豆包視覺(jué)理解 ?火山引擎大會(huì)
薦豆包卡在中間？

種種跡象表明，字節(jié)AIbot豆包APP，正在朝著大模型時(shí)代的「殺手級(jí)應(yīng)用」躍進(jìn)。量子位智庫(kù)數(shù)據(jù)顯示，截至11月底，豆包2024年的累計(jì)用戶規(guī)模已超過(guò)1.6億。當(dāng)我們?cè)谡務(wù)撟止?jié)的下一個(gè)抖音，不論是豆包還是即夢(mèng)，都是基于已知進(jìn)行推測(cè)分析。

?字節(jié)AI ?豆包APP ?大模型時(shí)代
2024年最佳免費(fèi)AI圖片轉(zhuǎn)提示工具

在當(dāng)今快節(jié)奏的創(chuàng)意世界中，圖像到提示工具已變得不可或缺。它們可以自動(dòng)生成圖像提示，為您節(jié)省時(shí)間和精力。這些知識(shí)可以幫助您了解如何使用這些工具并增強(qiáng)您的創(chuàng)意輸出。

?圖像生成 ?創(chuàng)意工具 ?內(nèi)容制作
薦AI大模型時(shí)代，人才的需求已經(jīng)變了

什么是AI發(fā)展的第一驅(qū)動(dòng)力?最近，全球科技大廠都在用行動(dòng)告訴我們:人才。谷歌NotebookLM的核心團(tuán)隊(duì)共同宣布離職創(chuàng)業(yè)，他們新公司的網(wǎng)站已經(jīng)進(jìn)入了「建設(shè)中」的狀態(tài)。但要真正解決AI人才短缺的問(wèn)題需要更多企業(yè)、高校和社會(huì)各界的共同努力。

?大模型
薦華人團(tuán)隊(duì)，玩轉(zhuǎn)流量、逆勢(shì)增長(zhǎng) | AI圖片出海洞察第4期

這個(gè)月嘗試加入更多維度數(shù)據(jù)來(lái)補(bǔ)充觀察視角，下個(gè)月會(huì)發(fā)力完善App榜單。白鯨出海聯(lián)合非凡產(chǎn)研發(fā)布第4期全球AI圖片web榜單，并逐步添加圖片App數(shù)據(jù)。web榜單的門檻是月訪問(wèn)量200w、App榜單的標(biāo)準(zhǔn)是MAU200w，很多web做得比較好的產(chǎn)品都開始發(fā)力App端，例如出海的Fotor、SeaArt等等，前者在移動(dòng)端也已經(jīng)做到了百萬(wàn)左右的MAU，下個(gè)月我們會(huì)進(jìn)一步完善數(shù)據(jù)。

?AI ?圖片 ?榜單發(fā)布
薦視頻生成大模型賽道，只是看上去擁擠

2024年最后一個(gè)月，國(guó)產(chǎn)大模型落地應(yīng)用突然加速。尤其視頻生成模型，就像密集射出子彈后的槍管，熱得發(fā)燙。AI一天，人間一年。

?國(guó)產(chǎn)大模型 ?視頻生成模型 ?AI導(dǎo)演

熱文

3 天
7天

站長(zhǎng)商機(jī)

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

豆包說(shuō)要「普惠」，于是大模型處理圖片按「厘」計(jì)價(jià)了

薦AI日?qǐng)?bào)：階躍星辰內(nèi)測(cè)視頻大模型Step-Video；即夢(mèng)AI圖片2.1模型支持生成文字；騰訊發(fā)布混元視頻生成大模型

薦一手實(shí)測(cè)豆包新發(fā)布的視覺(jué)理解大模型，他們真的卷起飛了。

薦AI日?qǐng)?bào)：字節(jié)AI助手豆包上線圖片理解功能；亞馬遜推Nova系列AI生成模型；文心一言上線“深度寫作”專業(yè)版功能

薦大模型拿單江湖

字節(jié)跳動(dòng)正式發(fā)布豆包視覺(jué)理解模型：1元可處理近300張高清圖

薦豆包卡在中間？

2024年最佳免費(fèi)AI圖片轉(zhuǎn)提示工具

薦AI大模型時(shí)代，人才的需求已經(jīng)變了

薦華人團(tuán)隊(duì)，玩轉(zhuǎn)流量、逆勢(shì)增長(zhǎng) | AI圖片出海洞察第4期

薦視頻生成大模型賽道，只是看上去擁擠

熱文

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

京東發(fā)布年終獎(jiǎng)通知部分員工年前可收到年終獎(jiǎng)

雷軍：小米是北方車廠 SU7研發(fā)之初就要做冬季電車?yán)m(xù)航之王

央視曝光未成年人繞開防沉迷只需4元：通過(guò)租用游戲賬號(hào)規(guī)避

李斌回應(yīng)螢火蟲外觀設(shè)計(jì)：看過(guò)實(shí)車的人都喜歡這個(gè)設(shè)計(jì)

消息稱OpenAI新模型GPT-5研發(fā)未達(dá)到預(yù)期：成本高昂效果欠佳

沒(méi)網(wǎng)也能聯(lián)絡(luò)！小米15系列星辰無(wú)網(wǎng)通12月底升級(jí)6km級(jí)通話范圍

不得使用惡俗惡趣味微短劇片名！廣電總局出手整治“霸總愛(ài)上我

FF再獲3000萬(wàn)美元新一輪融資加速第二品牌FX戰(zhàn)略推進(jìn)

美團(tuán)：冬至期間將針對(duì)餃子等應(yīng)時(shí)食品訂單提供“超時(shí)保護(hù)”

英偉達(dá)AI芯片最大買家揭曉！微軟力壓同行霸榜

微信朋友圈崩了上熱搜騰訊客服：請(qǐng)嘗試這幾種方法

周鴻祎：AGI發(fā)展遇瓶頸智能體和專業(yè)大模型將扛大旗

小紅書封號(hào)上熱搜：違規(guī)原因涉及發(fā)布引流、牟利等內(nèi)容

極越員工萬(wàn)字怒懟ceo：公關(guān)總監(jiān)徐繼業(yè)怒罵員工蒼蠅

京東發(fā)布年終獎(jiǎng)通知部分員工年前可收到年終獎(jiǎng)

馬斯克將推出X Mail電子郵箱服務(wù)

極越員工善后方案已出爐：?jiǎn)T工獲“N+1”賠償由百度吉利出資

螞蟻集團(tuán)否認(rèn)借殼上市：目前沒(méi)有上市計(jì)劃

未成年人成部分博主流量密碼抖音治理涉“網(wǎng)紅兒童”違規(guī)內(nèi)容

站長(zhǎng)商機(jī)

豆包說(shuō)要「普惠」，于是大模型處理圖片按「厘」計(jì)價(jià)了

熱文

站長(zhǎng)商機(jī)

豆包說(shuō)要「普惠」，于是大模型處理圖片按「厘」計(jì)價(jià)了