11.11云上盛惠!海量產(chǎn)品 · 輕松上云!云服務(wù)器首年1.8折起,買1年送3個月!超值優(yōu)惠,性能穩(wěn)定,讓您的云端之旅更加暢享??靵眚v訊云選購吧!
全國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會在官網(wǎng)發(fā)布了,國家標(biāo)準(zhǔn)《網(wǎng)絡(luò)安全技術(shù)生成式人工智能服務(wù)安全基本要求》征求意見稿。該意見稿一共分為《網(wǎng)絡(luò)安全技術(shù)生成式人工智能服務(wù)安全基本要求-標(biāo)準(zhǔn)文本》、意見匯總處理表和編制說明三大塊。我國也是全球為數(shù)不多在生成式人工智能領(lǐng)域連續(xù)出臺安全管理條例的國家,一方面展示了國家對創(chuàng)新變革技術(shù)的重視程度,另外保證了?
AI的發(fā)展離不開數(shù)據(jù)這種數(shù)據(jù)的成本越來越高,這使得除了最富有的科技公司外,其他公司難以承擔(dān)這一成本。根據(jù)去年OpenAI的研究人員JamesBetker的文章,AI模型的訓(xùn)練數(shù)據(jù)是決定模型能力的關(guān)鍵因素。只有當(dāng)研究突破技術(shù)壁壘,數(shù)據(jù)收集和整理成本不再是問題時,這些開放性的數(shù)據(jù)集才有希望與科技巨頭競爭。
中國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會官網(wǎng)發(fā)布了《網(wǎng)絡(luò)安全技術(shù)生成式人工智能服務(wù)安全基本要求》征求意見稿。該標(biāo)準(zhǔn)細化了對生成式人工智能服務(wù)的安全要求,包括訓(xùn)練數(shù)據(jù)安全、生成內(nèi)容安全和模型安全要求。我國也是全球為數(shù)不多在生成式人工智能領(lǐng)域連續(xù)出臺安全管理條例的國家,一方面展示了國家對創(chuàng)新變革技術(shù)的重視程度,另外保證了生成式人工智能的場景化落地和應(yīng)用安全。
OpenAI、谷歌和Meta被指控在訓(xùn)練人工智能模型時存在不當(dāng)行為。紐約時報的報告指出,OpenAI使用名為Whisper的語音識別工具從YouTube視頻中轉(zhuǎn)錄音頻,并據(jù)稱OpenAI員工曾討論這一行為可能違反視頻網(wǎng)站的規(guī)則。紐約時報的報道引起了關(guān)于AI公司訓(xùn)練數(shù)據(jù)的合法性和道德性的討論,也凸顯了AI行業(yè)在數(shù)據(jù)獲取方面面臨的挑戰(zhàn)和爭議。
在最新的研究中,科學(xué)家們開發(fā)出了一種名為MindEye2的技術(shù),它能夠僅用1小時的功能磁共振成像數(shù)據(jù),從大腦活動中重建出觀察者所看到的圖像。這比傳統(tǒng)的需要數(shù)十小時的訓(xùn)練數(shù)據(jù)的類似技術(shù),效率大大提高。這項技術(shù)的潛力巨大,未來的應(yīng)用前景廣闊,值得我們期待。
最近,OpenAICTOMurati接受采訪時,對Sora訓(xùn)練數(shù)據(jù)語焉不詳、支支吾吾的表現(xiàn),已經(jīng)成了全網(wǎng)熱議的話題。要是一個處理不好,OpenAI就又要陷入巨額賠償金的訴訟之中了?!笰I在電影、游戲、廣告這些行業(yè)還會掀起怎樣的颶風(fēng),讓我們拭目以待吧。
歡迎來到【今日AI】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/📰🤖📢AI新鮮事蘋果大模型MM1入場:參數(shù)達到300億超半數(shù)作者是華人全球最快AI芯片WSE-3發(fā)布性能碾壓H100!Midjourney禁止用戶生成拜登和特朗普圖片Claude3HaikuAPI發(fā)布OpenAICTO承認Sora訓(xùn)練?
OpenAI的最新成果Sora在公眾面前展露了一角,引發(fā)了一場關(guān)于訓(xùn)練數(shù)據(jù)來源的爭議。在最近的一次采訪中,OpenAI首席技術(shù)官MiraMurati透露,Sora接受了公開可獲得和許可數(shù)據(jù)的訓(xùn)練,但對于是否使用了YouTube、Facebook或Instagram上的視頻數(shù)據(jù),她表示不確定。在AI時代,技術(shù)的發(fā)展需要與社會的共同關(guān)注和監(jiān)管相結(jié)合,以確保其長期發(fā)展的可持續(xù)性和穩(wěn)定性。
英偉達最新推出的大型語言模型Nemotron-415B,以其卓越性能和創(chuàng)新架構(gòu)引起廣泛關(guān)注。該模型擁有150億參數(shù),基于龐大的8萬億文本標(biāo)注數(shù)據(jù)進行了預(yù)訓(xùn)練。這一成就為大型語言模型的發(fā)展和應(yīng)用提供了嶄新的視角。
Tumblr和WordPress.com的所有者Automattic正與AI公司Midjourney和OpenAI就提供用戶帖子的訓(xùn)練數(shù)據(jù)進行談判。Automattic計劃推出一個新設(shè)置,允許用戶選擇退出與第三方的數(shù)據(jù)共享。該行為也反映了AI技術(shù)在如何利用公開數(shù)據(jù)進行訓(xùn)練上的倫理和合規(guī)問題。
真·Sora視頻上新了!走過路過不要錯過!。就在過去短短幾個小時里,包括BillPeebles、TimBrooks兩位負責(zé)人在內(nèi)的工作人員唰唰唰N連發(fā)。嗯……咱就是說,誰能一口否定沒有這種可能呢?OneMoreThingSora上新視頻后,有網(wǎng)友急沖沖去問了另一家AI視頻生成頭部玩家Runway的首席執(zhí)行官。
伊利諾伊大學(xué)香檳分校的研究團隊發(fā)表了關(guān)于代碼集成到LLM訓(xùn)練數(shù)據(jù)中的好處。這項研究概述了代碼預(yù)訓(xùn)練對LLM的影響,并追蹤了LLM作為智能智能體時的作用。對于數(shù)據(jù)密集型領(lǐng)域中更復(fù)雜的任務(wù),模型需要精確掌握各種功能終端的使用方法,這是將LLM連接到不同的功能終端時面臨的挑戰(zhàn)。
音樂發(fā)行商,包括環(huán)球音樂、康科德和ABKCO在一場侵權(quán)法律糾紛中向Anthropic提出了初步禁令。這家得到亞馬遜和谷歌支持的生成式AI公司最近正式回應(yīng)了這一請求?!瓣P(guān)于原告的[ClaudeAI]提示產(chǎn)生的副本,記錄中唯一的證據(jù)是原告及其代理商不是Anthropic制作了所謂的侵權(quán)副本…在這種情況下,輸出副本不構(gòu)成Anthropic的復(fù)制。
隨著自然語言處理和自然語言生成的進步,大型語言模型在實際應(yīng)用中得到了廣泛使用。由于它們能夠模仿人類行為,并具有通用性,這些模型已經(jīng)涉足各個領(lǐng)域。研究團隊強調(diào)了對預(yù)訓(xùn)練數(shù)據(jù)篩選程序及其社會影響進行更多研究的需求。
TACO是一個專注于算法的代碼生成數(shù)據(jù)集,旨在為代碼生成模型提供更具挑戰(zhàn)性的訓(xùn)練數(shù)據(jù)集和評測基準(zhǔn)。與當(dāng)前主流代碼評測基準(zhǔn)相比,TACO在數(shù)據(jù)規(guī)模、數(shù)據(jù)質(zhì)量和細粒度評測方案上具有明顯優(yōu)勢。提供細粒度標(biāo)簽:TACO數(shù)據(jù)集中每個題目均包含任務(wù)主題、算法、技能及難度等細粒度標(biāo)簽,為代碼生成模型的訓(xùn)練與評測更精確的參考。
美國兩名立法者提出了一項法案,要求基礎(chǔ)模型的創(chuàng)建者披露訓(xùn)練數(shù)據(jù)的來源,以便版權(quán)所有者知道他們的信息被盜用。由眾議員安娜·埃索和唐·貝爾提交的《人工智能基金會模型透明度法案》將指示聯(lián)邦貿(mào)易委員會與國家標(biāo)準(zhǔn)與技術(shù)研究所合作,建立報告培訓(xùn)數(shù)據(jù)透明度的規(guī)則。這項法案的提出是人工智能發(fā)展過程中的一個重要里程碑,它將有助于保護版權(quán)所有者和促進人?
隨著ChatGPT等模型的參數(shù)越來越大,預(yù)訓(xùn)練數(shù)據(jù)也呈指數(shù)級增長。谷歌DeepMind、華盛頓大學(xué)、康奈爾大學(xué)等研究人員發(fā)現(xiàn),無論是開源還是閉源模型,在訓(xùn)練過程中皆能記住一定數(shù)量的原始訓(xùn)練數(shù)據(jù)樣本。ChatGPT已經(jīng)修復(fù)了該漏洞,當(dāng)你在提問重復(fù)某個詞句的無限重復(fù)要求時,會提示“根據(jù)OpenAI的使用政策,我不能參與重復(fù)無意義內(nèi)容的行為。
來自GoogleDeepmind、華盛頓大學(xué)、康奈爾大學(xué)、卡內(nèi)基梅隆大學(xué)、加州大學(xué)伯克利分校和蘇黎世聯(lián)邦理工學(xué)院的一組研究人員成功地讓OpenAI的聊天機器人ChatGPT揭示了用于訓(xùn)練AI模型的一些數(shù)據(jù)。研究團隊使用了一種創(chuàng)新性的手法,即通過不斷迭代地要求ChatGPT重復(fù)一個特定的詞匯,比如“詩歌”,來引導(dǎo)模型透露其訓(xùn)練數(shù)據(jù)。這一研究為我們敲響了警鐘,提醒我們在推動AI發(fā)展的同時,需謹(jǐn)慎處理其隱私和能源消耗的問題。
GoogleDeepMind的研究發(fā)現(xiàn),通過簡單的查詢攻擊方法,可以從ChatGPT中泄露出大約幾MB的訓(xùn)練數(shù)據(jù),成本僅約200美元,引起社交網(wǎng)絡(luò)嘩然。研究團隊成功攻擊了生產(chǎn)級模型,打破了對齊設(shè)定,即使模型經(jīng)過對齊,也能通過命令誘導(dǎo)模型輸出訓(xùn)練數(shù)據(jù),暴露個人信息,揭示了對抗模型泄露的新途徑。新的攻擊方式提出了對抗模型泄露的新思路,強調(diào)了在開發(fā)和使用大型語言模型時對隱私和安全的重視,并呼吁進行更全面的測試和防護措施。
《麻省理工技術(shù)評論》曾在官網(wǎng)發(fā)表文章表示,隨著ChatGPT等大模型的持續(xù)火熱,對訓(xùn)練數(shù)據(jù)的需求越來越大。大模型就像是一個“網(wǎng)絡(luò)黑洞”不斷地吸收,最終會導(dǎo)致沒有足夠的數(shù)據(jù)進行訓(xùn)練。AI廠商們需要提前布局?jǐn)?shù)據(jù)再生、合成的有效方法,避免在發(fā)展大模型的過程中出現(xiàn)斷崖式數(shù)據(jù)短缺。
人工智能公司正面臨一個嚴(yán)峻的挑戰(zhàn):訓(xùn)練數(shù)據(jù)的枯竭。數(shù)據(jù)在AI經(jīng)濟中發(fā)揮著中心作用,是模型基本功能和質(zhì)量的關(guān)鍵推動力。盡管互聯(lián)網(wǎng)看似無限,但實際上很少有什么是永無止境的。
OpenAI最近宣布了DataPartnerships計劃,旨在與第三方機構(gòu)合作,創(chuàng)建用于AI模型訓(xùn)練的公共和私有數(shù)據(jù)集。這一舉措旨在解決現(xiàn)有AI模型訓(xùn)練數(shù)據(jù)集中存在的問題,其中包含有毒語言和偏見。在克服數(shù)據(jù)集偏見等挑戰(zhàn)方面,OpenAI是否能做得更好,仍有待驗證。
隨著人工智能達到巔峰,研究人員警告稱,AI行業(yè)可能會面臨訓(xùn)練數(shù)據(jù)告急的問題,這是強大AI系統(tǒng)的燃料。這可能會減緩AI模型的增長,特別是大型語言模型,并可能改變AI革命的軌跡。獲得對其工作的報酬可能有助于恢復(fù)創(chuàng)意工作者和AI公司之間存在的一些權(quán)力失衡。
說起大語言模型所展示的令人印象深刻的能力,其中之一就是通過提供上下文中的樣本,要求模型根據(jù)最終提供的輸入生成一個響應(yīng),從實現(xiàn)少樣本學(xué)習(xí)的能力。這一點依靠的是底層機器學(xué)習(xí)技術(shù)「Transformer模型」,并且它們也能在語言以外的領(lǐng)域執(zhí)行上下文學(xué)習(xí)任務(wù)。更多研究細節(jié),可參考原論文。
谷歌DeepMind的研究人員進行了實驗,旨在探討Transformer模型是否能夠在超出預(yù)訓(xùn)練數(shù)據(jù)范圍之外泛化出新的認知和能力。他們的研究發(fā)現(xiàn),幾乎不可能要求模型在超出預(yù)訓(xùn)練數(shù)據(jù)范圍之外解決新問題。這對于機器學(xué)習(xí)和人工智能領(lǐng)域的研究和發(fā)展具有重要意義。
隨著人工智能技術(shù)的快速發(fā)展,其訓(xùn)練數(shù)據(jù)的獲取和使用變得日益重要,但也出現(xiàn)了濫用現(xiàn)象。為了抵御這種濫用,一款名為「Nightshade」的新工具應(yīng)運生,為創(chuàng)作者提供了一種保護他們創(chuàng)意作品不被無授權(quán)用于AI模型訓(xùn)練的方法。大多數(shù)這些產(chǎn)品都是基于文本的。
自ChatGPT幾乎一年前登場以來,生成式人工智能進入了高速發(fā)展的時代,但反對聲音也逐漸增強。許多藝術(shù)家、娛樂人士、表演者甚至唱片公司已經(jīng)對AI公司提起了訴訟,其中一些訴訟涉及ChatGPT制造商OpenAI,原因是這些新工具背后的“秘密武器”:訓(xùn)練數(shù)據(jù)。研究人員已將他們關(guān)于制作Nightshade的工作提交給計算機安全會議Usinex的同行評審。
【新智元導(dǎo)讀】LLM不實用,小模型蒸餾才是「現(xiàn)實」的大模型應(yīng)用路線,全面領(lǐng)先微調(diào)技術(shù)!土豪請無視。在ANLI上,使用770MT5模型超越了540BPaLM的性能,只使用了完整數(shù)據(jù)集的80%并且可以觀察到,即使使用100%的完整數(shù)據(jù)集,標(biāo)準(zhǔn)微調(diào)也無法趕上PaLM的性能,表明分步蒸餾可以同時減少模型尺寸和訓(xùn)練數(shù)據(jù)量實現(xiàn)超越LLM的性能。
美東時間10月2日,著名開源平臺Stability.ai在官網(wǎng)宣布,推出開源大語言模型StableLM-3B-4E1T。StableLM3B是一款主要面向手機、筆記本等移動設(shè)備的基礎(chǔ)大語言模型,在保證性能的前提下,極大降低了算力資源的要求。性能完全不輸70億參數(shù)的模型,甚至比一些100億參數(shù)的更強。
智源研究院發(fā)布面向中英文語義向量模型訓(xùn)練的大規(guī)模文本對數(shù)據(jù)集MTP。這是全球最大的中、英文文本對訓(xùn)練數(shù)據(jù)集,數(shù)據(jù)規(guī)模達3億對,希望推動解決中文模型訓(xùn)練數(shù)據(jù)集缺乏問題。作為中國大模型開源生態(tài)圈的代表機構(gòu),智源持續(xù)進行包括數(shù)據(jù)在內(nèi)的大模型全棧技術(shù)開源,推動人工智能協(xié)同創(chuàng)新。