11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個(gè)月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
【新智元導(dǎo)讀】Meta首個(gè)理解圖文的多模態(tài)Llama3.2來了!這次,除了11B和90B兩個(gè)基礎(chǔ)版本,Meta還推出了僅有1B和3B輕量級(jí)版本,適配了Arm處理器,手機(jī)、AR眼鏡邊緣設(shè)備皆可用。Llama3.1超大杯405B剛過去兩個(gè)月,全新升級(jí)后的Llama3.2來了!這次,最大的亮點(diǎn)在于,Llama3.2成為羊駝家族中,首個(gè)支持多模態(tài)能力的模型。這些新解決方案已經(jīng)集成到了Meta的參考實(shí)現(xiàn)、演示和應(yīng)用程序中,開源
開源大模型社區(qū)再次「熱鬧」了起來,主角是AI寫作初創(chuàng)公司HyperWrite開發(fā)的新模型Reflection70B。它的底層模型建立在MetaLlama3.170BInstruct上,并使用原始的Llamachat格式,確保了與現(xiàn)有工具和pipeline的兼容性。至于重新訓(xùn)練后的Reflection70B表現(xiàn)如何?我們拭目以待。
Meta發(fā)布了Llama3.1系列模型,其中包括Meta迄今為止最大的405B模型,以及兩個(gè)較小的模型,參數(shù)量分別為700億和80億。Llama3.1被認(rèn)為是引領(lǐng)了開源新時(shí)代。要在NVIDIANeMo中使用Llama-3.1的SDG微調(diào),可參閱GitHub上的/sdg-law-title-generation部分。
【新智元導(dǎo)讀】最近的論文表明,LLM等生成模型可以通過搜索來擴(kuò)展,并實(shí)現(xiàn)非常顯著的性能提升。另一個(gè)復(fù)現(xiàn)實(shí)驗(yàn)也發(fā)現(xiàn),讓參數(shù)量僅8B的Llama3.1模型搜索100次,即可在Python代碼生成任務(wù)上達(dá)到GPT-4o同等水平。為達(dá)到這個(gè)目的,可重復(fù)數(shù)字環(huán)境中的agent似乎是一個(gè)有前景的方向。
【新智元導(dǎo)讀】Meta、UC伯克利、NYU共同提出元獎(jiǎng)勵(lì)語言模型,給「超級(jí)對齊」指條明路:讓AI自己當(dāng)裁判,自我改進(jìn)對齊,效果秒殺自我獎(jiǎng)勵(lì)模型。LLM對數(shù)據(jù)的大量消耗,不僅體現(xiàn)在預(yù)訓(xùn)練語料上體現(xiàn)在RLHF、DPO等對齊階段。研究結(jié)果提供了有力的證據(jù),證明無需任何人類反饋的自我改進(jìn)模型是實(shí)現(xiàn)超級(jí)對齊的一個(gè)有前途的方向。
繼分不清9.11和9.9哪個(gè)大以后,大模型又“集體失智”了!數(shù)不對單詞“Strawberry”中有幾個(gè)“r”,再次引起一片討論。GPT-4o不僅錯(cuò)了還很自信。最后正如網(wǎng)友所說,希望OpenAI等大模型公司,都能在下個(gè)版本中解決這個(gè)問題。
Meta-Llama-3.1-8B簡介Meta-Llama-3.1-8B是一款多語言大型語言模型,包含8B大小的版本,支持8種語言,專為多語言對話用例優(yōu)化,并在行業(yè)基準(zhǔn)測試中表現(xiàn)優(yōu)異。它采用自回歸語言模型,使用優(yōu)化的Transformer架構(gòu),并通過監(jiān)督式微調(diào)和強(qiáng)化學(xué)習(xí)結(jié)合人類反饋來提高模型的有用性和安全性。通過AIbase,您可以輕松發(fā)現(xiàn)最適合您需求的人工智能工具,解鎖AI的力量。
Meta-Llama-3.1-70B是什么?Meta-Llama-3.1-70B是Meta公司推出的大型語言模型,擁有70億個(gè)參數(shù),支持8種語言的文本生成。您可以通過我們的AI產(chǎn)品庫輕松發(fā)現(xiàn)最適合您需求的人工智能工具,解鎖AI的力量。
探索MetaLlama3.1-405B能為你帶來哪些改變?yōu)槭裁催x擇MetaLlama3.1-405B?MetaLlama3.1-405B不僅僅是一款產(chǎn)品——它是一項(xiàng)革命性的技術(shù),致力于提供大型多語言預(yù)訓(xùn)練語言模型,以滿足自然語言處理研究人員、軟件開發(fā)者、教育工作者和企業(yè)用戶的需求。通過AIbase,您可以輕松發(fā)現(xiàn)最適合您需求的人工智能工具,解鎖AI的力量。
LIama3.1正式發(fā)布,登上大模型王座!在150多個(gè)基準(zhǔn)測試集中,405B版本的表現(xiàn)追平甚至超越了現(xiàn)有SOTA模型GPT-4o和Claude3.5Sonnet。最強(qiáng)開源模型即最強(qiáng)模型。我希望你能加入我們的旅程,將人工智能的好處帶給世界上的每個(gè)人。
歡迎來到【AI日報(bào)】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、震驚AI界!14、微軟研究院推AI框架E5-V:用文本對的單模態(tài)訓(xùn)練簡化多模態(tài)學(xué)習(xí)降低成本微軟研究院與北京航空航天大學(xué)聯(lián)合推出的E5-V框架通過單模態(tài)訓(xùn)練簡化多模態(tài)學(xué)習(xí),降低成本,在多個(gè)任務(wù)中展現(xiàn)出優(yōu)異性能,代表了多模態(tài)學(xué)習(xí)的重大進(jìn)步。
7月23日凌晨,有人爆料,Meta的Llama3.1-405B評測數(shù)據(jù)遭遇泄漏,明天可能會(huì)發(fā)布Llama3系列中最大的參數(shù)模型,同時(shí)還會(huì)發(fā)布一個(gè)Llama3.1-70B版本。這也是在3.0版本基礎(chǔ)之上進(jìn)行了功能迭代,即便是70B的基礎(chǔ)模型的性能也超過了GPT-4o。期待一波明天,看看Meta還能整啥花活。
導(dǎo)讀:時(shí)隔4個(gè)月上新的Gemma2模型在LMSYSChatbotArena的排行上,以27B的參數(shù)擊敗了許多更大規(guī)模的模型,甚至超過了70B的Llama-3-Instruct,成為開源模型的性能第一!谷歌出手,果然非同凡響。Gemma2上周剛剛發(fā)布,就在LMSYS競技場上取得了亮眼的成績?!箍磥碓诨鶞?zhǔn)測試領(lǐng)域,重復(fù)的歷史總在不斷上演那個(gè)金句也總是適用——「當(dāng)一個(gè)衡量標(biāo)準(zhǔn)成為目標(biāo)時(shí),它就不再是一個(gè)好的衡量標(biāo)準(zhǔn)了
【新智元導(dǎo)讀】24點(diǎn)游戲、幾何圖形、一步將死問題,這些推理密集型任務(wù),難倒了一片大模型,怎么破?北大、UC伯克利、斯坦福研究者最近提出了一種全新的BoT方法,用思維模板大幅增強(qiáng)了推理性能。Llama3-8B在BoT的加持下,竟多次超越Llama3-70B!大語言模型不擅長推理怎么辦?用思維緩沖區(qū)來解決!最近,北大、UC伯克利、斯坦福的研究人員提出了一種元緩沖區(qū)。他擔(dān)任/曾擔(dān)任中?
【新智元導(dǎo)讀】馬斯克最近哭窮表示,xAI需要部署10萬個(gè)H100才能訓(xùn)出Grok3,影響全球的大模型算力荒怎么解?昨天開源的這款MoE大模型,只用了1/19算力、1/19激活參數(shù),性能就直接全面對標(biāo)Llama3-70B!如今,想訓(xùn)個(gè)SOTA的大模型,不僅缺數(shù)據(jù)和算力,甚至連電都不夠用了。最近馬斯克就公開表示,因?yàn)榭嘤谫I不到足夠的芯片,xAI只能推遲Gork2的訓(xùn)練和發(fā)布。在算力愈發(fā)緊俏的當(dāng)下,浪?
國內(nèi)的開發(fā)者們或許沒有想到,有朝一日,他們開發(fā)的AI大模型會(huì)像出海的網(wǎng)文、短劇一樣,讓世界各地的網(wǎng)友坐等更新。來自韓國的網(wǎng)友已經(jīng)開始反思:為什么我們就沒有這樣的模型?這個(gè)「別人家的孩子」就是阿里云的通義千問。在我們看來,近一年來通義系列的持續(xù)開源,對中文大模型社區(qū)的發(fā)展非常有意義,也期待后續(xù)有越來越多的強(qiáng)勁大模型繼續(xù)開源。
OpenBuddy團(tuán)隊(duì)發(fā)布了基于MetaLlama370B的最新成果:OpenBuddy-Llama3-70B-v21.1-8k,這是他們首次在Llama370B基座上的中文跨語言訓(xùn)練嘗試。Llama370B是一個(gè)15T訓(xùn)練集訓(xùn)練成的稠密大模型,然由于訓(xùn)練集中缺少中文數(shù)據(jù),Meta官方的Llama3系列對話模型在中文領(lǐng)域的認(rèn)知、理能力較弱,容易出現(xiàn)以英文回答中文問題的現(xiàn)象。值得一提的是,于量化版模型能力下降較為明顯,他們本次只發(fā)布了模型的完整版權(quán)重,后續(xù)會(huì)嘗優(yōu)化70B模型的量化后性能,并挑選合適時(shí)機(jī)發(fā)布量化版。
在今日上午的MediaTek天璣開發(fā)者大會(huì)MDDC2024上,備受矚目的天璣9300旗艦處理器終于揭開了神秘的面紗。這款處理器的CPU架構(gòu)精心布局,融合了1個(gè)高達(dá)3.40GHz的Cortex-X4核心,3個(gè)2.85GHz的核心,以及4個(gè)2.00GHz的核心,確保了在處理各種復(fù)雜任務(wù)時(shí)都能游刃有余。iQOONeo9SPro手機(jī)也宣布將在本月發(fā)布,成為首批搭載聯(lián)發(fā)科天璣9300芯片的手機(jī)之一,預(yù)計(jì)將在市場上掀起一股新的熱潮。
LobeChat是一個(gè)創(chuàng)新的網(wǎng)頁平臺(tái),它支持通過網(wǎng)頁版直接調(diào)用Ollama本地模型。這項(xiàng)服務(wù)的推出,為用戶提供了一種便捷的方式,通過網(wǎng)頁界面直接利用開源大模型的能力。體驗(yàn)地址:https://chat-preview.lobehub.com/chat隨著LobeChat等工具的不斷發(fā)展,我們可以預(yù)見未來將有更多集成本地大模型的網(wǎng)頁應(yīng)用出現(xiàn),為用戶提供更豐富的交互體驗(yàn)和更高效的工作流程。
阿里巴巴宣布開源其最新的Qwen1.5系列語言模型-Qwen1.5-110B。這是Qwen1.5系列中規(guī)模最大的模型,也是該系列中首個(gè)擁有超過1000億參數(shù)的模型。它在與最近發(fā)布的SOTA模型Llama-3-70B的性能上表現(xiàn)出色,并且明顯優(yōu)于72B模型。
WebLlama是一款基于Llama-3-8B模型的智能代理,它通過對話與用戶互動(dòng),執(zhí)行網(wǎng)頁瀏覽相關(guān)的任務(wù)。這款工具能夠處理連續(xù)的對話,理解并執(zhí)行用戶的指令,自動(dòng)完成網(wǎng)上搜索、導(dǎo)航和信息檢索等操作。隨著技術(shù)的不斷進(jìn)步和優(yōu)化,WebLlama有望在自動(dòng)化網(wǎng)頁瀏覽和信息收集方面發(fā)揮更大的作用。
Llama3-8B-Chinese-Chat是一個(gè)基于Meta-Llama-3-8B-Instruct模型,通過ORPO方法進(jìn)行微調(diào)的中文聊天模型。該模型在處理中文問題時(shí),相較于原始模型,減少了使用英文回答和混合中英文回答的情況,同時(shí)減少了表情符號(hào)的使用,使得回答更加正式和專業(yè)。Llama3-8B-Chinese-Chat模型在數(shù)學(xué)問題解答、寫作和編程示例方面也表現(xiàn)出色,能夠提供清晰、準(zhǔn)確的解答和示例代碼。
JetMoE-8B是一款采用稀疏激活架構(gòu)的人工智能模型,其性能卓越且訓(xùn)練成本不到10萬美元,令人驚訝的是,它的表現(xiàn)甚至超越了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。JetMoE-8B由24個(gè)塊組成,每個(gè)塊包含兩個(gè)MoE層:注意力頭混合和MLP專家混合。這不僅證明了其在性能上的優(yōu)勢,也展示了其在成本效益上的顯著優(yōu)勢。
大數(shù)據(jù)公司Databricks最近發(fā)布了一款名為DBRX的MoE大模型,引發(fā)了開源社區(qū)的熱議。DBRX在基準(zhǔn)測試中擊敗了Grok-1、Mixtral等開源模型,成為了新的開源之王。根據(jù)Databricks公布的協(xié)議,基于DBRX打造的產(chǎn)品,如果月活超過7億,就必須另行向Databricks提交申請。
3月28日,著名數(shù)據(jù)和AI平臺(tái)Databricks在官網(wǎng)正式開源大模型——DBRX。DBRX是一個(gè)專家混合模型有1320億參數(shù),能生成文本/代碼、數(shù)學(xué)推理等,有基礎(chǔ)和微調(diào)兩種模型。Databricks主要提數(shù)據(jù)智能分析服務(wù),幫助企業(yè)、個(gè)人用戶快速挖掘數(shù)據(jù)的商業(yè)價(jià)值。
馬斯克宣布將在本周開源由xAI旗下公司推出的生成式AI產(chǎn)品——Grok。這款類ChatGPT產(chǎn)品于去年11月首次亮相,針對生成文本、代碼、郵件和信息檢索等多個(gè)領(lǐng)域提供功能。以上內(nèi)容參考xAI官網(wǎng),如有侵權(quán)請聯(lián)系刪除。
英偉達(dá)最新推出的大型語言模型Nemotron-415B,以其卓越性能和創(chuàng)新架構(gòu)引起廣泛關(guān)注。該模型擁有150億參數(shù),基于龐大的8萬億文本標(biāo)注數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練。這一成就為大型語言模型的發(fā)展和應(yīng)用提供了嶄新的視角。
MobiLlama是一個(gè)開源的小型語言模型,專門針對移動(dòng)設(shè)備運(yùn)行訓(xùn)練的LLM,擁有5億個(gè)參數(shù)。該模型的設(shè)計(jì)旨在滿足資源設(shè)定計(jì)算的需求,同時(shí)注重在提高性能的同時(shí)降低資源消耗。如果用戶需要一個(gè)小型語言模型來運(yùn)行在資源中受在有限的環(huán)境中,MobiLlama可能是一個(gè)非常有用的選擇。
MobiLlama是一個(gè)為資源受限設(shè)備設(shè)計(jì)的小型語言模型,旨在提供準(zhǔn)確且輕量級(jí)的解決方案,滿足設(shè)備上的處理需求、能效、低內(nèi)存占用和響應(yīng)效率。MobiLlama從更大的模型出發(fā),通過精心設(shè)計(jì)的參數(shù)共享方案來降低預(yù)訓(xùn)練和部署成本。["移動(dòng)設(shè)備上的自然語言處理","邊緣計(jì)算","隱私和安全應(yīng)用"]MobiLlama實(shí)際應(yīng)用場景示例:在智能手機(jī)上使用MobiLlama進(jìn)行實(shí)時(shí)語言翻譯物聯(lián)網(wǎng)設(shè)備利用MobiLlama進(jìn)行語音識(shí)別和交互智能家居系統(tǒng)集成MobiLlama以提供更智能的語音控制功能產(chǎn)品特色:輕量級(jí)語言模型資源受限設(shè)備優(yōu)化參數(shù)共享方案如何使用MobiLlama:要使用MobiLlama,請?jiān)L問官方網(wǎng)站以了解更多信息,并開始體驗(yàn)這款小型語言模型帶來的便利和效益。
【新智元導(dǎo)讀】新的SOTA再次出現(xiàn),CodeLlama系列最強(qiáng)模型發(fā)布,70B代碼模型一舉擊敗GPT-4,開源代碼登陸各大平臺(tái),大佬直接開玩。Meta正式發(fā)布了CodeLlama70B,作為CodeLlama系列中規(guī)模最大,性能最強(qiáng)的版本,一舉擊敗了GPT-4!目前,模型共有三個(gè)版本,均可免費(fèi)用于研究和商業(yè)目的:算上8月份發(fā)布的CodeLlama7B、13B和34B,這個(gè)家也算是完整了。然后這位索性把CodeLlama70B直接量化到了4bit。