幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 傳媒 > 關(guān)鍵詞  > AGI最新資訊  > 正文

「群體智能」劍指AGI革命!國產(chǎn)架構(gòu)挑戰(zhàn)Transformer霸權(quán),非Attention模型更新

2024-09-30 10:31 · 稿源: 站長之家用戶

通往AGI先進(jìn)之路,是什么?

這世界,沒有一個(gè)完整的定義,也沒有具體的答案。

此前曝出的OpenAI秘密路線圖,將通往AGI目標(biāo)劃分五級。

而「草莓」o1 模型出世,代表著第二級已經(jīng)實(shí)現(xiàn)。

李飛飛估值 10 億美金獨(dú)角獸World Labs,將「空間智能」看作通向AGI重要的橋梁。

他們計(jì)劃打造出「大世界模型」(LWM),通過對世界建模,讓AI在3D世界中去感知、去生成、去互動(dòng)。

國內(nèi)一家AI初創(chuàng)團(tuán)隊(duì),對此也有不同的看法。

他們認(rèn)為,「群體智能」是邁向更廣泛的通用人工智能的路線。未來,世界每個(gè)設(shè)備都擁有自己的智能,能夠以類人的方式交互。

不過,實(shí)現(xiàn)這一想法的前提是,我們需要一個(gè)創(chuàng)新的算法架構(gòu)。

值得一提的是,這個(gè)團(tuán)隊(duì)卻做了一件「反直覺」的事——首創(chuàng)非Transformer獨(dú)特路線。

基于全新架構(gòu),他們打造的Yan系列模型已經(jīng)植入到樹莓派、機(jī)器人、AIPC等終端設(shè)備中。

恰在RockAI開放日上,多模態(tài)模型Yan1. 3 全面升級,直接擊敗開源Llama 3,「真端側(cè)」比較強(qiáng)大腦誕生了!

模型端到端,秒級實(shí)時(shí)人機(jī)交互

全新迭代后的Yan1.3,支持從文本、音頻、視覺輸入,并以語音、文本方式輸出。

它模擬了人類復(fù)雜的感知系統(tǒng),既能聽懂自然語言、看懂視覺信息,也能通過語音方式表達(dá)。

可以說,它是全球頭個(gè)人機(jī)交互領(lǐng)域中,端到端的多模態(tài)大模型。

憑借出色的架構(gòu)設(shè)計(jì),Yan1. 3 模型在兼容性和性能,取得了特出的表現(xiàn),從低算力到高算力全面覆蓋。

在不同終端上的體驗(yàn),多模態(tài)Yan1. 3 更是實(shí)現(xiàn)了秒級實(shí)時(shí)響應(yīng)。

在CPU上秒級響應(yīng),GPU上更是有百毫秒級的人機(jī)交互,體驗(yàn)非常絲滑趕超云端的大模型。

不如一起來看看,Yan1. 3 在手機(jī)、PC、機(jī)器人、無人機(jī)上,如何無損部署的。

低配 1500 元可跑,真·AI手機(jī)來了

在人手一臺手機(jī)的時(shí)代,搭載一個(gè)本地的大模型,那才是真·AI手機(jī)。

現(xiàn)場演示中,離線部署Yan1.3 3B參數(shù)的手機(jī),直接斷網(wǎng),上演了不用聯(lián)網(wǎng)也能體驗(yàn)LLM的精彩一幕。

告訴語音助手RockAI自己的需求——介紹一下上海。它在遵循指令后,瞬間給出了關(guān)于上海的一些簡單概要。

它還可以跨應(yīng)用,完成系統(tǒng)的調(diào)用。

讓它打開相冊,并找出一張夕陽的照片。

RockAI不僅準(zhǔn)確找到了夕陽照片,還給出了小紅書的風(fēng)格描述,這種費(fèi)腦的事兒,它全部代勞了。

更驚艷的是,告訴它今天是小明生日,并幫自己為其送上祝福。

RockAI直接進(jìn)入短信界面,自動(dòng)生成編輯了一段內(nèi)容,你所做的就是點(diǎn)擊「發(fā)送」了。

可見,一個(gè) 30 億參數(shù)離線模型,同時(shí)具備了以文找圖、以圖生文,Agent、語音助手等能力,強(qiáng)大到足以讓人震撼。

在同等的手機(jī)硬件配置上,Yan1. 3 模型相比Transfomer有30%的性能超越。

或許有的人會問,能夠運(yùn)行這樣的模型,一定需要高配的手機(jī)。

RockAI聯(lián)創(chuàng)鄒佳思稱,從低端¥ 1500 到中端¥ 3000 配置,而且還只是8G運(yùn)行內(nèi)存,都可以無損適配。

懂人話有效助手,AI PC更便利

不僅如此,在個(gè)人PC上,業(yè)界早就掀起了AI PC的概念。

但若是沒有在設(shè)備端完全部署模型,AI能力的使用會嚴(yán)重受限。而且,AI PC根本無法普及到大多數(shù)用戶。

接下來,這段現(xiàn)場演示中,直接為AI PC掐斷了網(wǎng)線。

上傳一段主持人的天氣預(yù)報(bào)音頻,然后AI智能助手將其實(shí)時(shí)轉(zhuǎn)錄成了文字。

轉(zhuǎn)寫完成后,還能幫你立即總結(jié)出一份摘要。

另外,每個(gè)人辦公時(shí)均會遇到一個(gè)困擾,「xxx圖片」誰知道保存到了哪個(gè)文件夾。

現(xiàn)在,這個(gè)煩惱完全可以打消了。

只要一句話,AI智能助手就能直接幫你找到想要的那個(gè)圖片。

而且,它還可以支持以圖搜圖的方式。

這些功能的實(shí)現(xiàn),僅需要一臺配備英特爾Core i5 主機(jī)即可流暢運(yùn)行。

四步成詩,輕松拿捏新中式

Yan1. 3 還在人形機(jī)器人上,實(shí)現(xiàn)了離線運(yùn)行。

我們都知道,構(gòu)成機(jī)器人最核心的三要素,便是大腦、小腦、本體。

如果讓一個(gè)冰冷的機(jī)械,同時(shí)具備「看聽說想動(dòng)」的能力,并基于已有的知識完成決策,最后指揮肢體進(jìn)行行動(dòng)。

這樣的前提,一定是離不開大模型、分層控制算法的植入。

當(dāng)你呼叫小蘇小蘇,你看見了什么?

憑借強(qiáng)大的多模態(tài)認(rèn)知能力,它準(zhǔn)確地描述出了當(dāng)前周圍的環(huán)境和布局。

另外,Yan1.3「大腦」控制的軀體,還能完成各類有效復(fù)雜的任務(wù)。

現(xiàn)場,讓小蘇吟詩一首——關(guān)于冬天的七言絕句,并在 4 步之內(nèi)完成。

只見小蘇一邊走,一邊完成了絕美的創(chuàng)作。

寒風(fēng)凌冽雪紛飛, 萬物蕭疏鳥自棲。 唯有梅花凌雪放, 清香四溢滿庭芳。

有趣的是,當(dāng)小蘇吟詩后離拍攝者太近,讓它讓一讓。

只見,憨態(tài)可掬的它向另一邊慢慢踱步。

其實(shí),在今年世界人工智能大會上,搭載Yan模型,基于樹莓派打造的胖虎機(jī)器人就亮相了。

它在現(xiàn)場七步成詩、詠春拳法等各種精彩演示,吸引了一大波圍觀歪果仁觀看。

城市巡檢拍照,無人機(jī)全包了

而在無人機(jī)方面,搭載Yan1. 3 后的用法就更多了。

它不僅可以治安巡邏、交通巡檢,異常監(jiān)控,還可以當(dāng)那個(gè)為你抓拍美照的「男友」。

當(dāng)然了,智能巡檢這類任務(wù),對于一個(gè)城市管理來說非常重要。

植入離線模型的無人機(jī),可以從多方位感知環(huán)境,快速識別圖像信息,自適應(yīng)調(diào)整飛行高度。

它可以搭配手機(jī),完成「端」和「端」的互聯(lián)操作。

交通巡檢過程中,它可以智能識別違規(guī)車輛,并將信息傳送到手機(jī)上。

當(dāng)你自拍找不到滿意角度,直呼「飛龍,給我拍一張氛圍感滿滿的照片」。它一躍升天,拍下了多種角度的照片,通過對照片的多維度評分,還貼心地幫你選好了最美瞬間。

可見,全新升級的Yan1. 3 已經(jīng)賦予了每個(gè)端側(cè)設(shè)備「靈魂」。

它不僅在無人機(jī)、機(jī)器人、PC、手機(jī)等終端設(shè)備中,絲滑適配,而且模型智能能力迎來了全新升級。

無需閹割模型,讓端側(cè)設(shè)備具備了完整性、可持續(xù)性。

這種類人的輸入輸出過程,不僅大幅地提升人機(jī)交互的質(zhì)量,還為未來教育、醫(yī)療等行業(yè)開辟了更廣闊的應(yīng)用場景。

當(dāng)一個(gè)比較強(qiáng)端側(cè)完成進(jìn)化,那么一群比較強(qiáng)端側(cè)協(xié)作,能夠?qū)崿F(xiàn)什么?

簡言之,群體智能。

群體智能,怎么實(shí)現(xiàn)?

其實(shí),群體智能,很早就存在于生物界。

蟻群會一起搬運(yùn)食物、搭建蟻巢;蜜蜂會各司其職,協(xié)作維護(hù)蜂巢;狼群結(jié)隊(duì),捕獲獵物等等。

這些都是,生物界群體智能的體現(xiàn)。

縱觀生物界的發(fā)展,能夠得出一個(gè)基本規(guī)律——個(gè)體智能化程度越高,群體智能的表現(xiàn)力越強(qiáng)。

就像人類一樣,我們的群體智能,所表達(dá)出的文明程度遠(yuǎn)遠(yuǎn)高于蟻群、蜂群、狼群.......

從中汲取靈感,人工智能也會有「群體智能」。

單元大模型的智慧,能夠反哺整個(gè)大模型群體,進(jìn)而讓AI群體更聰明、更智能。

或許你會說,其實(shí)國外很多研究,早就通過多個(gè)智能體協(xié)作,實(shí)現(xiàn)了高性能群體智能。

其實(shí)不然,它們之間有著本質(zhì)的區(qū)別。

智能體本身,存在一個(gè)很大缺陷——不具備自主學(xué)習(xí)能力。

而且,智能體之間的協(xié)作,也是一個(gè)很小范圍的協(xié)作。

究其根本,是因?yàn)榛赥ransformer架構(gòu)大模型搭建的智能體,實(shí)現(xiàn)自我訓(xùn)練非常困難。

群體智能中最核心的要素便是個(gè)體,也就是「端」。

而基于Transformer架構(gòu)的模型,若想在端上運(yùn)行、并自主學(xué)習(xí),根本不可行。

因?yàn)槟P屯ǔ涣炕眉魤嚎s之后,才會植入端設(shè)備。而被閹割之后的模型,就不再具備學(xué)習(xí)能力。

那該如何破解?

為了實(shí)現(xiàn)群體智能,RockAI經(jīng)過多年的技術(shù)沉淀,創(chuàng)舉了不同于Transformer的MCSD架構(gòu),并且提出了「類腦激活」機(jī)制。

這條路線,與OpenAI、World Labs有著本質(zhì)區(qū)別,是國產(chǎn)公司在AGI前沿另辟蹊徑的嘗試。

Transformer不是僅有路徑

當(dāng)前的現(xiàn)狀是,大模型領(lǐng)域早已呈現(xiàn)出Transformer「一家獨(dú)大」的格局。

用AI大神Karpathy的話說:先進(jìn)的GenAI模型,要么是自回歸訓(xùn)練,要么是擴(kuò)散訓(xùn)練,底層的神經(jīng)網(wǎng)絡(luò)通常都是Transformer架構(gòu)。

雖然Transformer自身有許多優(yōu)秀的特質(zhì),但不可否認(rèn),這仍不是一個(gè)百分百美好的架構(gòu)。

甚至,有很多業(yè)界AI大佬已經(jīng)看到了其中的巨大弊端。

首當(dāng)其沖的,就是被詬病已久的幻覺問題。

Yann LeCun認(rèn)為,LLM的幻覺根源于當(dāng)前所使用的自回歸Transformer架構(gòu)。

「幻覺問題是自回歸LLM架構(gòu)特有的」「自回歸LLM會產(chǎn)生幻覺…幻覺是自回歸生成的本質(zhì)缺陷」

這種架構(gòu)上的本質(zhì)缺陷,注定了有一天我們要走出Transformer生態(tài),就像曾經(jīng) 90 年代末走出SVM生態(tài)、 3 年前走出BERT生態(tài)一樣。

就連提出Transformer核心架構(gòu)作者之一Aidan Gomez認(rèn)為,這世間需要比Transformer更好的東西,希望將其取代,把我們帶向更高的性能高地。

「現(xiàn)在使用了太多計(jì)算資源,做了很多浪費(fèi)的計(jì)算」

部署方面,基于Transformer架構(gòu)模型對終端設(shè)備運(yùn)行內(nèi)存、儲存空間提出了更高要求,同時(shí)壓縮后的模型,在實(shí)際推理上大打折扣。

能源方面,今年 3 月,馬斯克表示, 2025 年AI將耗盡電力和變壓器,用他的話來說,「很諷刺的是,我們需要transformers(變壓器)來運(yùn)行transformers(模型)。」

很明顯,無論是從減少幻覺、推動(dòng)技術(shù)進(jìn)步的角度,還是從環(huán)境保護(hù)、促進(jìn)GenAI發(fā)展可持續(xù)的角度,我們都急需一種能夠跳出Transformer「思維圈」的新架構(gòu)誕生。

國內(nèi)頭個(gè)非Attention機(jī)制

RockAI初次提出的MCSD(Multi-Channel Slope and Decay)架構(gòu)就是跳出Transformer路線的一次較好嘗試。

而MCSD比較大的特點(diǎn),便是替換了Transformer架構(gòu)中的注意力機(jī)制。

隨著序列長度的增加,Transformer架構(gòu)對計(jì)算資源的消耗呈現(xiàn)O(N^2)增長,相比之下,MCSD實(shí)現(xiàn)了線性擴(kuò)展,而且推理速度更快,將空間和時(shí)間復(fù)雜度分別降低到了O(1)和O(N)。

直白講,MCSD全新架構(gòu)能夠?qū)⑺懔ο慕抵粮汀?/p>

也就意味著,基于此架構(gòu)打造的模型,在端側(cè)設(shè)備上運(yùn)行有了新的可能。

論文地址:https://arxiv.org/abs/2406.12230

MCSD的具體架構(gòu)如圖 1 所示,由嵌入層和N個(gè)相同的組合層堆疊而成,每個(gè)組合層中由兩個(gè)殘差連接分別封裝MCSD塊和門控MLP塊,兩者都前置一個(gè)RMS歸一化模塊,并使用GeLU作為激活函數(shù)。

MCSD塊的內(nèi)部結(jié)構(gòu)如圖1(右)所示,集成了slope部分和decay部分,分別通過不同的預(yù)定義矩陣捕捉局部和全局特征。

兩個(gè)部分均采用了雙分支設(shè)計(jì),一個(gè)分支負(fù)責(zé)進(jìn)行線性投影,另一個(gè)通過聚合前面token的上下文信息來提取多通道歷史特征,之后兩個(gè)分支進(jìn)行擾動(dòng)(perturbation)操作。

slope和decay部分主要存在兩方面的區(qū)別,一是預(yù)定義權(quán)重不同,因此在提取歷史信息時(shí)對上下文的感知能力不同,前者更注重短程上下文,后者則更關(guān)注全局上下文。

將slope和decay兩部分的輸出進(jìn)行拼接后就得到了MCSD塊的輸出,這兩者的組合使得模型既能關(guān)注到距離更近的歷史信息,也不會丟失更遠(yuǎn)的長距離上下文,從而同時(shí)增強(qiáng)了局部和全局的特征提取。

此外,論文還提出通過遞歸形式簡化推理計(jì)算,將推理所用的空間和時(shí)間復(fù)雜度分別降低至O(1)和O(N),顯著壓縮了所需算力。

實(shí)驗(yàn)數(shù)據(jù)顯示,隨著序列逐步變長,KV緩存的存在讓Transformer推理的內(nèi)存成本呈線性增加;相比之下,即使是8k的長序列,MCSD消耗的GPU內(nèi)存也幾乎不變。

給定序列長度后,隨著批大小的增加,Transformer的延遲也會顯著增加,而MCSD的延遲則依舊十分穩(wěn)定。

此外,有相同批大小或序列長度時(shí),MCSD的吞吐量性能也遠(yuǎn)遠(yuǎn)好于Transformer架構(gòu)。

除了大大節(jié)約吞吐量、延遲、內(nèi)存消耗等方面的成本,MCSD還在基準(zhǔn)測試上有更佳的性能。

類腦激活機(jī)制

基于MCSD架構(gòu),RockAI實(shí)現(xiàn)了能在「端側(cè)」運(yùn)行群體智能單元大模型。

但這并不代表著,能夠在更多端側(cè)上實(shí)現(xiàn)特出性能。

因此,RockAI還在Yan系列模型中采用了創(chuàng)舉的「類腦激活」機(jī)制,實(shí)現(xiàn)基于仿生神經(jīng)元驅(qū)動(dòng)的選擇算法。

在主流的神經(jīng)網(wǎng)絡(luò)中,每次推理都需要激活全部神經(jīng)元,這會導(dǎo)致大量算力浪費(fèi)。

而人腦的運(yùn)作并非如此。

不同的大腦區(qū)域負(fù)責(zé)不同的認(rèn)知功能,因此不同的執(zhí)行不同的任務(wù)只會造成一部分腦神經(jīng)元的激活,而且激活的區(qū)域也各有不同。

比如開車時(shí),視覺皮層會更加活躍;而寫作時(shí),掌管記憶或邏輯的腦區(qū)激活程度更高。這也許就是為什么,相比調(diào)動(dòng)每個(gè)處理單元的計(jì)算機(jī),大腦明顯更加「節(jié)能」。

因此,模擬大腦中的神經(jīng)元激活模式,可以讓神經(jīng)網(wǎng)絡(luò)更加有效地處理復(fù)雜數(shù)據(jù)和任務(wù),從而顯著提升計(jì)算效率和精度。

通過以上兩種方式結(jié)合,一是用MCSD替換注意力機(jī)制,而是通過選擇性神經(jīng)元計(jì)算,帶了較好的低算力消耗。

正是基于如此強(qiáng)大的「雙機(jī)制」,RockAI在今年 1 月發(fā)布了國內(nèi)頭個(gè)非Transformer架構(gòu)的大模型Yan 1.0。

隨之 7 月,發(fā)布了國內(nèi)頭個(gè)終端多模態(tài)大模型Yan 1.2。

經(jīng)過幾次迭代,目前已經(jīng)升級為端到端的多模態(tài)Yan 1.3,代表著邁向群體智能的新起點(diǎn),是群體智能的單元大模型。

厚積薄發(fā),先進(jìn)目標(biāo)邁向群體智能

要實(shí)現(xiàn)AI的群體智能,并不是一件簡單的事,提出MCSD架構(gòu)和「類腦激活」機(jī)制,只是一個(gè)開始。

為了達(dá)到群體智能,RockAI將這個(gè)大目標(biāo)分解為 4 個(gè)階段的子目標(biāo),一步步穩(wěn)扎穩(wěn)打。

目前,他們已經(jīng)跨越了首先級,正在完成第二級的躍升。

創(chuàng)新基礎(chǔ)架構(gòu),是要跳出Transformer的既定路線,旨在實(shí)現(xiàn)模型性能效率的跨越式發(fā)展;

多元化硬件生態(tài),則是模型部署落地的根本保證,只有適配多終端、多廠商、多型號的硬件,形成成熟的生態(tài),才能為群體智能創(chuàng)造實(shí)現(xiàn)條件。

隨著Yan 1. 3 模型的發(fā)布和廣泛部署適配,意味著前兩個(gè)階段的目標(biāo)已經(jīng)基本實(shí)現(xiàn)。

從Yan 1. 0 到Y(jié)an 1.3,不僅覆蓋了更多設(shè)備,還實(shí)現(xiàn)了端到端的多模態(tài)支持。

輸入輸出形式包含了文本、語音、視覺在內(nèi)的多模態(tài),不但大大方便人機(jī)交互,還能讓多個(gè)AI模型之間更靈活地交流同步。

下一步,RockAI將繼續(xù)發(fā)布Yan2.0,繼續(xù)強(qiáng)化模型的自主學(xué)習(xí)、自我優(yōu)化能力,讓AI更好地和真實(shí)的物理世界交互。

在Yan系列智慧生態(tài)的基礎(chǔ)上,持續(xù)的群體進(jìn)化將成為可能,最終繪制出「群體智能」的未來藍(lán)圖。

推廣

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長傳媒平臺用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù),對本頁面內(nèi)容所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任,相關(guān)信息僅供參考。站長之家將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。任何單位或個(gè)人認(rèn)為本頁面內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),可及時(shí)向站長之家提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明(點(diǎn)擊查看反饋聯(lián)系地址)。本網(wǎng)站在收到上述法律文件后,將會依法依規(guī)核實(shí)信息,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

  • 相關(guān)推薦
  • 大家在看
  • URL Parser Online:在線URL解析器,將URL轉(zhuǎn)換為適合大型語言模型的輸入格式。

    URL Parser Online是一個(gè)在線工具,它能夠?qū)?fù)雜的URL轉(zhuǎn)換為適合大型語言模型(LLMs)使用的輸入格式。這項(xiàng)技術(shù)的重要性在于它能夠幫助開發(fā)者和研究人員更有效地處理和解析URL數(shù)據(jù),尤其是在進(jìn)行網(wǎng)頁內(nèi)容分析和數(shù)據(jù)抽取時(shí)。產(chǎn)品背景信息顯示,隨著互聯(lián)網(wǎng)數(shù)據(jù)量的爆炸式增長,對URL的解析和處理需求日益增加。URL Parser Online以其簡潔的用戶界面和高效的解析能力,為用戶提供了一個(gè)便捷的解決方案。該產(chǎn)品目前提供免費(fèi)服務(wù),定位于開發(fā)者和數(shù)據(jù)分析師。

  • AI Summarizer:全能AI摘要生成器,快速生成文本、PDF、視頻摘要。

    AI Summarizer是一個(gè)強(qiáng)大的AI摘要生成器,支持文本、PDF、視頻等多種格式的摘要生成。它通過先進(jìn)的算法提取關(guān)鍵信息,幫助用戶快速理解內(nèi)容要點(diǎn),提升工作和學(xué)習(xí)效率。產(chǎn)品支持超過50種語言,保障用戶隱私,不存儲任何上傳文件,并提供免費(fèi)的Chrome擴(kuò)展插件,方便用戶隨時(shí)隨地使用。

  • Transcribro:Android平臺上的私有、設(shè)備端語音識別鍵盤和文字服務(wù)

    Transcribro是一款運(yùn)行在Android平臺上的私有、設(shè)備端語音識別鍵盤和文字服務(wù)應(yīng)用,它使用whisper.cpp來運(yùn)行OpenAI Whisper系列模型,并結(jié)合Silero VAD進(jìn)行語音活動(dòng)檢測。該應(yīng)用提供了語音輸入鍵盤,允許用戶通過語音進(jìn)行文字輸入,并且可以被其他應(yīng)用顯式使用,或者設(shè)置為用戶選擇的語音轉(zhuǎn)文字應(yīng)用,部分應(yīng)用可能會使用它來進(jìn)行語音轉(zhuǎn)文字。Transcribro的背景是為用戶提供一種更安全、更私密的語音轉(zhuǎn)文字解決方案,避免了云端處理可能帶來的隱私泄露問題。該應(yīng)用是開源的,用戶可以自由地查看、修改和分發(fā)代碼。

  • Oasis:基于Transformer的實(shí)時(shí)開放世界AI模型

    Oasis是由Decart AI開發(fā)的首個(gè)可玩、實(shí)時(shí)、開放世界的AI模型,它是一個(gè)互動(dòng)視頻游戲,由Transformer端到端生成,基于逐幀生成。Oasis能夠接收用戶鍵盤和鼠標(biāo)輸入,實(shí)時(shí)生成游戲玩法,內(nèi)部模擬物理、游戲規(guī)則和圖形。該模型通過直接觀察游戲玩法學(xué)習(xí),允許用戶移動(dòng)、跳躍、拾取物品、破壞方塊等。Oasis被視為研究更復(fù)雜交互世界的基礎(chǔ)模型的第一步,未來可能取代傳統(tǒng)的游戲引擎。Oasis的實(shí)現(xiàn)需要模型架構(gòu)的改進(jìn)和模型推理技術(shù)的突破,以實(shí)現(xiàn)用戶與模型的實(shí)時(shí)交互。Decart AI采用了最新的擴(kuò)散訓(xùn)練和Transformer模型方法,并結(jié)合了大型語言模型(LLMs)來訓(xùn)練一個(gè)自回歸模型,該模型可以根據(jù)用戶即時(shí)動(dòng)作生成視頻。此外,Decart AI還開發(fā)了專有的推理框架,以提供NVIDIA H100 Tensor Core GPU的峰值利用率,并支持Etched即將推出的Sohu芯片。

  • 三頓智能助手:多功能AI助手,提供問答、寫作、繪圖等智能服務(wù)。

    三頓智能助手是一個(gè)集成了多種AI功能的在線平臺,它通過提供問答、寫作、繪圖等多種服務(wù),幫助用戶提高工作效率和創(chuàng)造力。該產(chǎn)品以其強(qiáng)大的AI技術(shù)背景和用戶友好的界面,為用戶提供了一個(gè)便捷的智能服務(wù)入口。價(jià)格方面,三頓智能助手提供免費(fèi)試用,同時(shí)也提供付費(fèi)服務(wù)以解鎖更多功能。

  • Light Novels:AI驅(qū)動(dòng)的輕小說閱讀平臺,提供個(gè)性化推薦和翻譯

    Explore Light Novels是一個(gè)AI驅(qū)動(dòng)的輕小說閱讀平臺,旨在通過人工智能技術(shù)打破語言障礙,為全球讀者提供沉浸式的輕小說閱讀體驗(yàn)。平臺擁有數(shù)千部流行輕小說,并提供AI驅(qū)動(dòng)的個(gè)性化推薦,每日更新新章節(jié)和根據(jù)讀者偏好定制的新鮮內(nèi)容。此外,平臺還提供AI生成的文化背景注釋,幫助讀者深入了解故事背景,并通過AI推薦系統(tǒng)學(xué)習(xí)用戶的輕小說偏好,推薦新作者和故事。平臺還設(shè)有AI主持的全球社區(qū)討論,以及AI生成的每日內(nèi)容,確保讀者總有新鮮內(nèi)容可讀。

  • SDXL_EcomID_ComfyUI:ComfyUI的EcomID原生支持插件

    SDXL_EcomID_ComfyUI是一個(gè)為ComfyUI提供原生SDXL-EcomID支持的插件。它通過增強(qiáng)肖像表示,提供更真實(shí)、審美上更令人愉悅的外觀,同時(shí)確保語義一致性和更大的內(nèi)部ID相似性。這個(gè)插件完全集成于ComfyUI,并且不使用diffusers,而是本地實(shí)現(xiàn)EcomID。它的重要性在于能夠提升圖像生成的質(zhì)量和一致性,特別是在處理人物肖像時(shí),能夠保持不同年齡、發(fā)型、眼鏡等物理變化下的內(nèi)部特征一致性。

  • Promega:通過ChatGPT加速制造、銷售和市場營銷。

    Promega是一家在生命科學(xué)領(lǐng)域領(lǐng)先的公司,提供用于研究和應(yīng)用技術(shù)的開創(chuàng)性生物試劑和集成系統(tǒng)。Promega通過自上而下地采用ChatGPT,幫助員工更高效地管理數(shù)千種產(chǎn)品和超過60,000個(gè)賬戶,從而加速產(chǎn)品交付到生物技術(shù)生態(tài)系統(tǒng)。ChatGPT的使用不僅提高了工作效率,還增強(qiáng)了客戶關(guān)系,并在制造、銷售和市場營銷等多個(gè)領(lǐng)域發(fā)揮了重要作用。

  • Excerptor:從實(shí)體書籍中提取劃線或手寫標(biāo)記的文本

    Excerptor是一個(gè)專門設(shè)計(jì)來從實(shí)體書籍中提取劃線或手寫標(biāo)記文本的工具。它通過圖像處理和光學(xué)字符識別技術(shù),將書籍中的標(biāo)記文本轉(zhuǎn)換為數(shù)字格式,方便用戶編輯和保存。這項(xiàng)技術(shù)的重要性在于它能夠幫助用戶快速從大量書籍中提取關(guān)鍵信息,提高研究和學(xué)習(xí)的效率。Excerptor以其高效、準(zhǔn)確的文本識別能力和用戶友好的操作界面,滿足了學(xué)術(shù)研究、教育和個(gè)人學(xué)習(xí)等不同領(lǐng)域的需求。目前,Excerptor是免費(fèi)提供給用戶的,它的開發(fā)和維護(hù)由開源社區(qū)負(fù)責(zé)。

  • Spafe Code:AI代碼翻譯器

    Spafe Code是一個(gè)利用人工智能技術(shù)實(shí)現(xiàn)代碼翻譯的平臺,它能夠?qū)⒋a從一種編程語言翻譯成另一種編程語言。這項(xiàng)技術(shù)的重要性在于它能夠幫助開發(fā)者跨越語言障礙,提高代碼的可讀性和可維護(hù)性,促進(jìn)全球開發(fā)者之間的協(xié)作。Spafe Code以其高效的翻譯能力、易用性和對多種編程語言的支持而受到開發(fā)者的歡迎。目前,Spafe Code提供免費(fèi)試用,具體價(jià)格和定位信息需要進(jìn)一步查詢。

  • Browser AI Kit:在瀏覽器中直接運(yùn)行的AI工具箱

    Browser AI Kit是一個(gè)集成了多種AI工具的平臺,用戶可以在瀏覽器中直接使用這些工具,無需安裝或設(shè)置。它提供了音頻轉(zhuǎn)文本、去除背景、文本轉(zhuǎn)語音等多種功能,并且完全免費(fèi)。這個(gè)工具箱基于Transformers.js開發(fā),強(qiáng)調(diào)數(shù)據(jù)安全和隱私保護(hù),所有數(shù)據(jù)處理都在本地進(jìn)行,不上傳任何服務(wù)器。它的目標(biāo)是為用戶提供一個(gè)便捷、安全、多功能的AI工具平臺。

  • Emotive AI Actors by CreatorKit:視頻廣告中的情感AI演員

    Emotive AI Actors by CreatorKit是一個(gè)利用人工智能技術(shù)創(chuàng)建用戶生成內(nèi)容(UGC)視頻和廣告的平臺。它通過與真實(shí)UGC演員和內(nèi)容策略師合作訓(xùn)練AI,使得用戶能夠快速創(chuàng)建出具有真實(shí)情感反應(yīng)的視頻廣告。這個(gè)產(chǎn)品的重要性在于它能夠以更低的成本、更快的速度和更好的性能來替代傳統(tǒng)的視頻制作方式,同時(shí)提供可擴(kuò)展的解決方案,允許用戶在幾分鐘內(nèi)創(chuàng)建出100個(gè)視頻廣告。AI Actors的主要優(yōu)點(diǎn)包括成本效益、快速制作、性能優(yōu)越和易于擴(kuò)展。

  • SELA:通過結(jié)合蒙特卡洛樹搜索和基于LLM的代理來增強(qiáng)自動(dòng)化機(jī)器學(xué)習(xí)。

    SELA是一個(gè)創(chuàng)新系統(tǒng),它通過將蒙特卡洛樹搜索(MCTS)與基于大型語言模型(LLM)的代理結(jié)合起來,增強(qiáng)了自動(dòng)化機(jī)器學(xué)習(xí)(AutoML)。傳統(tǒng)的AutoML方法經(jīng)常產(chǎn)生低多樣性和次優(yōu)的代碼,限制了它們在模型選擇和集成方面的有效性。SELA通過將管道配置表示為樹,使代理能夠智能地探索解決方案空間,并根據(jù)實(shí)驗(yàn)反饋迭代改進(jìn)其策略。

  • Universal-2:下一代語音AI,提供卓越的音頻數(shù)據(jù)處理能力。

    Universal-2是AssemblyAI推出的最新語音識別模型,它在準(zhǔn)確度和精確度上超越了前一代Universal-1,能夠更好地捕捉人類語言的復(fù)雜性,為用戶提供無需二次檢查的音頻數(shù)據(jù)。這一技術(shù)的重要性在于它能夠?yàn)楫a(chǎn)品體驗(yàn)提供更敏銳的洞察力、更快的工作流程和一流的產(chǎn)品體驗(yàn)。Universal-2在專有名詞識別、文本格式化和字母數(shù)字識別方面都有顯著提升,減少了實(shí)際應(yīng)用中的詞錯(cuò)誤率。

  • Laminar.ai:開源全棧平臺,為打造頂級LLM產(chǎn)品提供支持

    Laminar是一個(gè)開源的全棧平臺,專注于從第一性原理出發(fā)進(jìn)行AI工程。它幫助用戶收集、理解和使用數(shù)據(jù),以提高大型語言模型(LLM)應(yīng)用的質(zhì)量。Laminar支持對文本和圖像模型的追蹤,并且即將支持音頻模型。產(chǎn)品的主要優(yōu)點(diǎn)包括零開銷的可觀測性、在線評估、數(shù)據(jù)集構(gòu)建和LLM鏈管理。Laminar完全開源,易于自托管,適合需要構(gòu)建和管理LLM產(chǎn)品的開發(fā)者和團(tuán)隊(duì)。

  • HOVER:人形機(jī)器人多功能神經(jīng)全身控制器

    HOVER是一個(gè)針對人形機(jī)器人的多功能神經(jīng)全身控制器,它通過模仿全身運(yùn)動(dòng)來提供通用的運(yùn)動(dòng)技能,學(xué)習(xí)多種全身控制模式。HOVER通過多模式策略蒸餾框架將不同的控制模式整合到一個(gè)統(tǒng)一的策略中,實(shí)現(xiàn)了在不同控制模式之間的無縫切換,同時(shí)保留了每種模式的獨(dú)特優(yōu)勢。這種控制器提高了人形機(jī)器人在多種模式下的控制效率和靈活性,為未來的機(jī)器人應(yīng)用提供了一個(gè)健壯且可擴(kuò)展的解決方案。

  • LinkedIn Hiring Assistant:LinkedIn招聘助手,助力招聘流程自動(dòng)化。

    Hiring Assistant for Recruiter & Jobs是LinkedIn推出的一款A(yù)I助手,旨在幫助招聘人員自動(dòng)化執(zhí)行耗時(shí)的任務(wù),從而讓他們專注于更有影響力的、以人為中心的工作部分。這款產(chǎn)品代表了LinkedIn在利用人工智能技術(shù)優(yōu)化招聘流程方面邁出的重要一步,它通過自動(dòng)構(gòu)建候選人管道、篩選頂級申請者、起草外展郵件甚至回答有關(guān)角色的基本問題來減輕招聘人員的工作負(fù)擔(dān)。產(chǎn)品背景信息顯示,LinkedIn一直致力于通過AI技術(shù)提升用戶體驗(yàn),而Hiring Assistant的推出進(jìn)一步強(qiáng)化了這一點(diǎn)。產(chǎn)品定位于幫助招聘人員提高效率,同時(shí)保持對招聘過程的完全控制。

  • Fable:AI驅(qū)動(dòng)的交互式產(chǎn)品演示軟件

    Fable是一款A(yù)I驅(qū)動(dòng)的交互式產(chǎn)品演示軟件,旨在幫助企業(yè)通過創(chuàng)建高轉(zhuǎn)化率的產(chǎn)品演示來吸引潛在客戶、完成交易并簡化產(chǎn)品上線流程。Fable通過其AI技術(shù),允許用戶輕松創(chuàng)建個(gè)性化的演示,這些演示可以嵌入網(wǎng)站、通過電子郵件發(fā)送或添加到幫助中心。產(chǎn)品背景信息顯示,F(xiàn)able在G2上獲得了4.9的高評分,并被全球各地的GTM團(tuán)隊(duì)所信賴。Fable的價(jià)格定位是免費(fèi)試用和付費(fèi),適合需要提高銷售轉(zhuǎn)化率和客戶滿意度的商業(yè)團(tuán)隊(duì)。

  • Trieve:AI優(yōu)先的基礎(chǔ)設(shè)施API,提供搜索、推薦和RAG服務(wù)

    Trieve是一個(gè)AI優(yōu)先的基礎(chǔ)設(shè)施API,結(jié)合了語言模型和工具,用于微調(diào)排名和相關(guān)性,提供一站式的搜索、推薦、RAG和分析解決方案。它能夠自動(dòng)持續(xù)改進(jìn),基于數(shù)十個(gè)反饋信號,確保相關(guān)性。Trieve支持語義向量搜索、BM25和SPlade全文搜索,以及混合搜索,結(jié)合全文搜索和語義向量搜索。此外,它還提供了商品推銷和相關(guān)性調(diào)整功能,幫助用戶通過API或無代碼儀表板調(diào)整搜索結(jié)果以實(shí)現(xiàn)KPI。Trieve建立在最佳基礎(chǔ)之上,使用開源嵌入模型和LLMs,運(yùn)行在自己的服務(wù)器上,確保數(shù)據(jù)安全。

  • Open Source AI Definition:開源人工智能定義,推動(dòng)AI領(lǐng)域的開放與合作

    Open Source AI Definition(OSAID)是由Open Source Initiative(OSI)發(fā)布的行業(yè)首個(gè)開源人工智能定義。它提供了一個(gè)標(biāo)準(zhǔn),通過社區(qū)領(lǐng)導(dǎo)的開放和公共評估來驗(yàn)證一個(gè)AI系統(tǒng)是否可以被認(rèn)為是開源AI。OSAID v1.0的發(fā)布是多年研究和合作的結(jié)果,經(jīng)過國際研討會和為期一年的共同設(shè)計(jì)過程。這個(gè)定義要求開源模型提供足夠的訓(xùn)練數(shù)據(jù)信息,以便熟練的人可以使用相同或類似的數(shù)據(jù)重建一個(gè)大致等效的系統(tǒng)。OSAID的發(fā)布對于推動(dòng)AI領(lǐng)域的開放性、透明度和合作具有重要意義,它強(qiáng)調(diào)了開源原則在AI發(fā)展中的核心地位,并為獨(dú)立機(jī)器學(xué)習(xí)研究人員和大型AI開發(fā)者之間的透明度提供了支持。

今日大家都在搜的詞:

熱文

  • 3 天
  • 7天