幺妹直播官方版_幺妹直播直播视频在线观看免费版下载_幺妹直播安卓高清版下载

首頁 > 業(yè)界 > 關(guān)鍵詞  > LLaMA最新資訊  > 正文

LLaMA都在用的開源數(shù)據(jù)集慘遭下架:包含近20萬本書,對(duì)標(biāo)OpenAI數(shù)據(jù)集

2023-08-21 14:34 · 稿源: 量子位公眾號(hào)

開源數(shù)據(jù)集因侵權(quán)問題,慘遭下架。如LLaMA、GPT-J等,都用它訓(xùn)練過。如今,托管了它3年的網(wǎng)站,一夜之間刪除了所有相關(guān)內(nèi)容。這就是Books3,一個(gè)由將近20萬本圖書組成的數(shù)據(jù)集,大小將近37GB。丹麥一家反盜版組織表示,在該數(shù)據(jù)集中發(fā)現(xiàn)了150本其成員的書籍,構(gòu)成侵權(quán),所以要求平

......

本文由站長(zhǎng)之家合作伙伴自媒體作者“量子位公眾號(hào)”授權(quán)發(fā)布于站長(zhǎng)之家平臺(tái),本平臺(tái)僅提供信息索引服務(wù)。由于內(nèi)容發(fā)布時(shí)間超過平臺(tái)更新維護(hù)時(shí)間,為了保證文章信息的及時(shí)性,內(nèi)容觀點(diǎn)的準(zhǔn)確性,平臺(tái)將不提供完全的內(nèi)容展現(xiàn),本頁面內(nèi)容僅為平臺(tái)搜索索引使用。需閱讀完整內(nèi)容的用戶,請(qǐng)查看原文,獲取內(nèi)容詳情。

舉報(bào)

  • 相關(guān)推薦
  • 智源開源中英文語義向量模型訓(xùn)練數(shù)據(jù)集MTP

    智源研究院發(fā)布面向中英文語義向量模型訓(xùn)練的大規(guī)模文本對(duì)數(shù)據(jù)集MTP。這是全球最大的中、英文文本對(duì)訓(xùn)練數(shù)據(jù)集,數(shù)據(jù)規(guī)模達(dá)3億對(duì),希望推動(dòng)解決中文模型訓(xùn)練數(shù)據(jù)集缺乏問題。作為中國(guó)大模型開源生態(tài)圈的代表機(jī)構(gòu),智源持續(xù)進(jìn)行包括數(shù)據(jù)在內(nèi)的大模型全棧技術(shù)開源,推動(dòng)人工智能協(xié)同創(chuàng)新。

  • 「字少信息量大」,Salesforce、MIT 研究者手把手教 GPT-4「改稿」,數(shù)據(jù)集開源

    自動(dòng)摘要技術(shù)取得了長(zhǎng)足的進(jìn)步,這主要?dú)w功于范式的轉(zhuǎn)變——從在標(biāo)注數(shù)據(jù)集上進(jìn)行有監(jiān)督微調(diào)轉(zhuǎn)變?yōu)槭褂么笳Z言模型進(jìn)行零樣本prompt,例如GPT-4。不需要額外的訓(xùn)練,細(xì)致的prompt就能實(shí)現(xiàn)對(duì)摘要長(zhǎng)度、主題、風(fēng)格等方面特征的精細(xì)控制。更多論文細(xì)節(jié),可參考原論文。

  • 中國(guó)研究團(tuán)隊(duì)發(fā)布多視角數(shù)據(jù)集“FreeMan” 解決3D人體姿勢(shì)估計(jì)局限性

    從真實(shí)場(chǎng)景中估計(jì)人體的三維結(jié)構(gòu)是一項(xiàng)具有挑戰(zhàn)性的任務(wù),對(duì)于人工智能、圖形學(xué)和人機(jī)交互等領(lǐng)域具有重要意義?,F(xiàn)有的3D人體姿態(tài)估計(jì)數(shù)據(jù)集通常在受控條件下收集,具有靜態(tài)背景,無法代表真實(shí)世界場(chǎng)景的多樣性,從限制了用于真實(shí)應(yīng)用的準(zhǔn)確模型的開發(fā)。FreeMan的可用性預(yù)計(jì)將推動(dòng)人體建模、計(jì)算機(jī)視覺和人機(jī)交互領(lǐng)域的進(jìn)步,彌合了受控實(shí)驗(yàn)室條件與真實(shí)場(chǎng)景之間的差距。

  • Google AI推出SANPO:多屬性視頻數(shù)據(jù)集助力高級(jí)視覺場(chǎng)景理解

    GoogleAI最近推出了名為SANPO的數(shù)據(jù)集,旨在幫助AI模型更好地理解戶外人類主觀場(chǎng)景。這一數(shù)據(jù)集的重要性在于,它不僅包括真實(shí)世界的數(shù)據(jù)包括合成數(shù)據(jù),以及豐富的注釋和多屬性特征。研究人員的隱私承諾使這一數(shù)據(jù)集能夠支持其他研究人員開發(fā)面向視障人士的視覺導(dǎo)航系統(tǒng),并推動(dòng)先進(jìn)的視覺場(chǎng)景理解領(lǐng)域的發(fā)展。

  • 國(guó)產(chǎn)開源新標(biāo)桿!20B大模型,性能媲美Llama2-70B,單卡可推理

    國(guó)產(chǎn)新標(biāo)桿:免費(fèi)可商用的200億參數(shù)大模型,來了!書生·浦語大模型20B版本正式發(fā)布,一舉刷新國(guó)內(nèi)新一代大模型開源紀(jì)錄。它由上海人工智能實(shí)驗(yàn)室與商湯科技聯(lián)合香港中文大學(xué)和復(fù)旦大學(xué)共同推出。正如林達(dá)華所說:這或許才是當(dāng)下大模型趨勢(shì)里,大家最應(yīng)該“卷”的方向。

  • 機(jī)器人研究迎來ImageNet時(shí)刻:一個(gè)數(shù)據(jù)集,讓DeepMind具身智能大模型突飛猛進(jìn)

    在大模型不斷取得突破的2023,把大模型當(dāng)做大腦來輔助運(yùn)行的具身智能機(jī)器人研究也在被迅速推進(jìn)。2個(gè)多月前,谷歌DeepMind推出了第一個(gè)控制機(jī)器人的視覺-語言-動(dòng)作模型——RT-2。未來的另一個(gè)方向是進(jìn)一步探索不同數(shù)據(jù)集的混合會(huì)如何影響跨具身智能體泛化,以及這種泛化是如何是實(shí)現(xiàn)的。

  • CMU華人打破大模型黑盒,Llama 2撒謊被一眼看穿!腦電波慘遭曝光,LLM矩陣全破解

    大語言模型黑盒,居然被CMU等機(jī)構(gòu)的學(xué)者打破了?他們發(fā)現(xiàn),LLM內(nèi)部有可解釋的表征,如果撒謊能被測(cè)謊儀檢測(cè)出來!最近,來自CAIS、CMU、斯坦福、康奈爾、馬里蘭、賓大等機(jī)構(gòu)的學(xué)者又有了令人震驚的發(fā)現(xiàn)——大語言模型,并不僅僅是黑匣子,或者難以理解的龐大矩陣。在它們內(nèi)部,具有可解釋的內(nèi)部表征。CMU等機(jī)構(gòu)研究者的探索也告訴我們,人類對(duì)于AI系統(tǒng)的理解和控制會(huì)越

  • 中文LLaMA-2刷榜,開源可商用!千元預(yù)算,訓(xùn)練半天,效果媲美主流大模型

    最強(qiáng)中文版LLaMA-2來了!15小時(shí)訓(xùn)練,僅需數(shù)千元算力,性能碾壓同級(jí)中文漢化模型,開源可商用。LLaMA-2相較于LLaMA-1,引入了更多且高質(zhì)量的語料,實(shí)現(xiàn)了顯著的性能提升,全面允許商用,進(jìn)一步激發(fā)了開源社區(qū)的繁榮,拓展了大型模型的應(yīng)用想象空間。ColossalAI云平臺(tái)現(xiàn)已開啟公測(cè),注冊(cè)即可獲得代金券,歡迎參與并提出反饋。

  • 15小時(shí)、幾千元訓(xùn)完中文版LLaMA2!低成本方案全面開源包含代碼權(quán)重,支持商用

    訓(xùn)練大模型,幾千塊就能實(shí)現(xiàn)了!現(xiàn)在,15小時(shí)、幾千塊錢、85億token數(shù)據(jù),即可訓(xùn)出中文LLaMA2。綜合性能達(dá)到開源社區(qū)同規(guī)模從頭預(yù)訓(xùn)練SOTA模型水平。更多應(yīng)用場(chǎng)景、不同領(lǐng)域、不同版本的模型、企業(yè)私有化平臺(tái)部署等正不斷迭代。

  • 20B量級(jí)大模型性能媲美Llama2-70B!完全開源,從基座到工具全安排明白了

    【新智元導(dǎo)讀】國(guó)產(chǎn)模型開源紀(jì)錄,又被刷新了!上海AI實(shí)驗(yàn)室等機(jī)構(gòu)開源的InternLM-20B,竟然能和Llama2-70B打個(gè)平手?就在剛剛,國(guó)內(nèi)開源模型參數(shù)量紀(jì)錄,又被刷新了!9月20日,上海人工智能實(shí)驗(yàn)室與商湯科技聯(lián)合香港中文大學(xué)和復(fù)旦大學(xué),正式開源了200億參數(shù)的InternLM-20B模型。項(xiàng)目地址:https://github.com/InternLM/InternLM魔搭社區(qū):https://modelscope.cn/organization/Shanghai_AI_Laboratory這次的200億參數(shù)版書生·浦語大模型,可以說是「加量不加價(jià)」,參數(shù)量還不到三分之一,性能卻可以劍挑當(dāng)今開源模型的標(biāo)桿——Llama2-70B。上海AI實(shí)驗(yàn)室的「雪中送炭」,必然會(huì)讓大模型在落地領(lǐng)域發(fā)揮出巨大的價(jià)值。

熱文

  • 3 天
  • 7天