benchmark

一項新的“大模型Benchmark”在推特上爆火，LeCun也點贊轉(zhuǎn)發(fā)了!且無論是GPT-4還是Claude3，面對它都如同被奪了魂，無法給出正確答案。難倒一眾大模型的，是邏輯學(xué)當中經(jīng)典的“動物過河”問題，有網(wǎng)友發(fā)現(xiàn)，大模型對此類問題表現(xiàn)得很不擅長。前面網(wǎng)友針對訓(xùn)練數(shù)據(jù)和輸出關(guān)系的分析，可能不無道理。...

特別聲明：本頁面標簽名稱與頁面內(nèi)容，系網(wǎng)站系統(tǒng)為資訊內(nèi)容分類自動生成，僅提供資訊內(nèi)容索引使用，旨在方便用戶索引相關(guān)資訊報道。如標簽名稱涉及商標信息，請訪問商標品牌官方了解詳情，請勿以本站標簽頁面內(nèi)容為參考信息，本站與可能出現(xiàn)的商標名稱信息不存在任何關(guān)聯(lián)關(guān)系，對本頁面內(nèi)容所引致的錯誤、不確或遺漏，概不負任何法律責任。站長之家將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。任何單位或個人認為本頁面內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，可及時向站長之家提出書面權(quán)利通知或不實情況說明，并提權(quán)屬證明及詳細侵權(quán)或不實情況證明（點擊查看反饋聯(lián)系地址）。本網(wǎng)站在收到上述反饋文件后，將會依法依規(guī)核實信息，第一時間溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

與“benchmark”的相關(guān)熱搜詞：

相關(guān)“benchmark” 的資訊4978篇

【騰訊云】11.11云上盛惠！云服務(wù)器首年1.8折起，買1年送3個月！

11.11云上盛惠！海量產(chǎn)品 · 輕松上云！云服務(wù)器首年1.8折起，買1年送3個月！超值優(yōu)惠，性能穩(wěn)定，讓您的云端之旅更加暢享?？靵眚v訊云選購吧！

Docker容器鏡像
去看看

Docker容器鏡像 60元/15天

爆款產(chǎn)品組合購
去看看

爆款產(chǎn)品組合購低至1元

騰訊云x NVIDIA加速計劃
去看看

騰訊云x NVIDIA加速計劃最高獲贈10萬元扶持基金

2核2G云服務(wù)器
去看看

2核2G云服務(wù)器 112元/1年

查看更多相關(guān)信息>>

騰訊云 12-20

廣告
大模型測試題爆火，GPT-4和Claude3都跪了，LeCun轉(zhuǎn)發(fā)：新Benchmark

一項新的“大模型Benchmark”在推特上爆火，LeCun也點贊轉(zhuǎn)發(fā)了!且無論是GPT-4還是Claude3，面對它都如同被奪了魂，無法給出正確答案。難倒一眾大模型的，是邏輯學(xué)當中經(jīng)典的“動物過河”問題，有網(wǎng)友發(fā)現(xiàn)，大模型對此類問題表現(xiàn)得很不擅長。前面網(wǎng)友針對訓(xùn)練數(shù)據(jù)和輸出關(guān)系的分析，可能不無道理。

Instagram AI社交
大模型實時打《街霸》捉對PK，GPT-4居然不敵3.5，新型Benchmark火了

讓大模型直接操縱格斗游戲《街霸》里的角色，捉對PK，誰更能打?GitHub上一種你沒有見過的船新Benchmark火了。與llmsys大模型競技場中，兩個大模型分別輸出答案，再由人類評分不同——街霸Bench引入了兩個AI之間的交互，且由游戲引擎中確定的規(guī)則評判勝負。正如開發(fā)者所說，想要贏，要在速度和精度之間做好權(quán)衡。

GPT-4 Benchmark
天璣9300蘇黎世AI Benchmark跑分出爐，贏得AI性能第一！

聯(lián)發(fā)科最新發(fā)布的一代旗艦級5G生成式AI移動芯片天璣9300，其創(chuàng)新的全大核架構(gòu)設(shè)計與最新的AI處理器APU等聯(lián)發(fā)科特色技術(shù)的合并，為生成式AI應(yīng)用提供了強大的動力，以實現(xiàn)引人入勝、豐富多樣的生成式AI體驗。聯(lián)發(fā)科也與大量的AI企業(yè)在業(yè)內(nèi)進行深入合作，共同在移動平臺上構(gòu)造了一個充滿活力的AI生態(tài)。聯(lián)發(fā)科等生成式AI的領(lǐng)先者們正通過不斷地技術(shù)革新和適當?shù)纳鷳B(tài)布局，大力推動混合式AI計算，并為端側(cè)生成式AI部署設(shè)計出了一套獨自且高效的方法，全力以赴推進生成式AI在端側(cè)的普及，旨在讓更多的用戶享受到端側(cè)AI的個性化服務(wù)，帶來全新的全方位智能體驗，實現(xiàn)科技成果惠及全社會。
12核心Ryzen 7900X跑分在偏向Intel的UserBenchmark網(wǎng)站上排名第一

隨著發(fā)布會的臨近，基準測試也被泄露出來...這些分數(shù)在在線免費基準測試工具網(wǎng)站UserBenchmark上泄露了，該網(wǎng)站被認為幾乎一有機會就喜歡向AMD潑臟水，當Ryzen75800X3D推出時，該網(wǎng)站稱AMD的3DV-cache技術(shù)為噱頭，還有無數(shù)這樣的例子...對于UserBenchmark來說，諷刺的是，Ryzen7900X還是在其基準測試中擊敗了Corei9-12900KS，占據(jù)了頭名，數(shù)據(jù)顯示7900X的性能比12900KS好18%......
網(wǎng)友調(diào)侃UserBenchmark對AMD銳龍R7-5800X3D處理器評價不高

隨著評測解禁，網(wǎng)絡(luò)上也涌現(xiàn)出了許多與 AMD 銳龍 R7-5800X3D 桌面游戲處理器的基準測試...單從現(xiàn)時的性價比來看，銳龍 R7-5800X3D 甚至能夠與越級的酷睿 i9-12900KS 旗艦 SKU 一較高下...當然，UserBenchmark 基準測試數(shù)據(jù)庫本身也有不少槽點...由于 UserBenchmark 屢次給出與大多數(shù)媒體評測不一致的結(jié)論，其基準測試工具的公信力也受到了極大的挑戰(zhàn)...想要“兼聽則明”的潛在 PC DIY 愛好者，還可參考 PassMark 等知名第三方基準測試工具......

銳龍R7-5800X3D AMD銳龍R7 UserBenchmark
UL Benchmarks宣布3DMark《Speed Way》DX12 Ultimate基準測試項目

UL Benchmarks 在周一表示，其正在準備為 3DMark GPU 基準測試工具套件，引入全新的《Speed Way》基準測試項目?？芍鳛?DX12 Ultimate 功能套件的一部分，《Speed Way》支持微軟的 DirectX 光追（DXR）方案、以及網(wǎng)格著色器（Mesh Shaders）和可變速率著色（VRS）。（來自：UL Benchmarks）作為對比，早期《Port Royal》基準測試項目僅提供了針對光纖追蹤（Ray Tracing）功能的單獨測試。公告中還特別提到了使用“實時全局照明”來渲染真實的照明和反射，但我們想知道這是否也包括了光追陰影（Ray-Traced Shadows）。從 Demo 圖像來看，

基準測試實時渲染功能測試
Metal Benchmark測試：M1 Max的GPU比M1快3倍以上

在剛剛發(fā)布的2021款MacBook Pro上，蘋果推出了性能強勁的M1? Max芯片，該芯片配備多達32個GPU核心，這意味著對比上一代M1?的8核GPU有巨大改進，如今兩款芯片在GPU部分的測試數(shù)據(jù)也出爐。

M1Max芯片 M1芯片跑分測試
AI Benchmark曝光一加Nord 2新機關(guān)鍵規(guī)格：采用天璣1200芯片組

傳聞稱一加 Nord 2 智能機將于 7 月登陸市場，而 AI Benchmark 已經(jīng)曝光了這款 5G 新機的關(guān)鍵規(guī)格。Mukul Sharma 在 Twitter 上指出，基準測試數(shù)據(jù)庫中的這款設(shè)備，采用了聯(lián)發(fā)科天璣 1200 芯片組 + 8GB 運存。不過根據(jù) 91Mobiles 在本月早些時候的爆料，據(jù)說一加 Nord 2 還有天璣 1200 芯片組 + 12GB 運存的高配版本。無論怎樣，AI Benchmark 算是證實了一加 Nord 2 5G 新機即將面世。與此同時，我們還見到了它與采用 Exynos 2100

一加阿里 twitter
華為一代FusionServer Pro 2488H V6智能服務(wù)器打破SAP? BWH Benchmark測試紀錄

近日，華為最新基于第三代英特爾?至強?可擴展處理器的FusionServer Pro2488H V6 智能服務(wù)器在SAP?BWH Benchmark基準版本 3 階段2 （每小時查詢執(zhí)行次數(shù)）中，以 52 億條數(shù)據(jù)量的初始記錄取得了每小時 6766 次查詢的優(yōu)異得分，打破 4 路服務(wù)器在該項測試中的紀錄。華為FusionServer Pro2488H V6 智能服務(wù)器SAP? BWH Benchmark測試結(jié)果華為FusionServer Pro2488H V6 智能服務(wù)器在2U空間內(nèi)可配置 4 個最新的第三代英特爾?至強?可擴展?

華為智能服務(wù)器
英特爾新旗艦i9-11900K在benchmark測試中超過Ryzen9 5950X

英特爾的下一代旗艦臺式機處理器酷睿i9-11900K可能只有八個內(nèi)核，但在benchmark測試中已經(jīng)可以與AMD Ryzen9 5950X相提并論?？犷9-11900K與AMD的16核心Ryzen95950X芯片相比，擁有高達8％的優(yōu)勢。

英特爾 benchmark AMD
一加8 Pro現(xiàn)身AI Benchmark：驍龍865+12G內(nèi)存

經(jīng)查，一加8 Pro出現(xiàn)在蘇黎世理工制作的AI Benchmark全球排行榜中，測試產(chǎn)品搭載驍龍 865 處理器，12GB RAM，綜合成績 33480 分，與小米10 5G相仿。

一加8Pro
WeWork公開招股書：4年連虧40億美元，Benchmark位列大股東

?WeWork用了超過 7 年的時間才獲得了 10 億美元的運營收入，但是僅用了一年達到 20 億美元的運營收入，而僅僅 6 個月就達到了 30 億美元的運營收入。若以全球 280 個目標城市，2. 55 億潛在會員總?cè)藬?shù)的口徑來估算，WeWork預(yù)估其市場空間為1. 6 萬億美元。

WeWork Benchmark
AI Benchmark：新展銳虎賁T710 AI性能全球領(lǐng)跑

近日，全球公認的AI芯片性能排行榜——蘇黎世聯(lián)邦理工學(xué)院AI Benchmark，公布了最新的全球AI芯片的測試榜單，紫光展銳虎賁T710 以 28097 的優(yōu)異成績奪魁，遠遠超過了高通新發(fā)布的驍龍855 plus和華為麒麟810。AI Benchmark官方刊文詳細解讀了展銳虎賁T710 的各項測試性能：（http://ai-benchmark.com/news_2019_04_18_spreadtrum_ud710.html）通過測試結(jié)果對比，AI Benchmark點評說，紫光展銳的虎賁T710 無論是在浮點和量化AI模型方

AI芯片
9個回答，了解Benchmark合伙人Peter Fenton的投資哲學(xué)

Benchmark合伙人Peter Fenton最近在Quora上回答了一系列與投資相關(guān)的問題。Peter Fenton在2015年《福布斯》雜志的“全球最佳創(chuàng)投人榜”上位列第二。他是Twitter的早期投資者之一，還投資過JBoss、Zimbra、Yelp等等。Fenton有著獨特的投資哲學(xué)，看重創(chuàng)始人的愿景。對于保持高效的投資，F(xiàn)enton認為保持高度好奇心可以令你發(fā)現(xiàn)更多機會。

投資 Benchmark
Benchmark向投資者返還2.28億美元Twitter股票

新浪科技訊北京時間8月12日早間消息，美國風(fēng)險投資公司Benchmark在周一提交給美國證券交易委員會(SEC)的文件中表示，該公司已經(jīng)將大約530萬股Twitter股票返還給了他們的有限合伙人。按照上周五43.13美元的收盤價計算，Ben

投資者股票
跑分竟然退步？魅族高清屏MX二代GLBenchmark顯卡跑分出爐

魅族MX是國內(nèi)一款精品手機，一共出了MX雙核版、MX 32nm雙核版、MX四核版三款，分別對應(yīng)M030、M031、M032三個內(nèi)部型號，而小編今天在國外著名移動GPU測試軟件GLBenchmark的官方網(wǎng)站的跑分榜單上，查找到一款型號為M040的設(shè)備，這款神秘設(shè)備又是什么呢？會是MX二代嗎？

魅族MX 四核手機國內(nèi)四核手機
移動視頻分享應(yīng)用Klip獲Benchmark領(lǐng)投800萬B輪融資

Klip（土耳其語“剪輯”）是一款可以讓用戶捕捉，分享，發(fā)現(xiàn)和觀看手機視頻的iOS應(yīng)用，從Benchmark，經(jīng)緯以及Alain Rossmann那里獲得了800萬美金的B輪融資。目前為止總計獲得了1000萬美金融資。

移動視頻分享應(yīng)用 Klip 融資
RTX3090跑分多少？RTX3090 Geekbench CUDA、3DMARK跑分成績匯總

英偉達 RTX 3090 將于 9 月 24 日正式開賣，RTX 3090 價格 11999 元人民幣起，海外 1499 美元起，稀缺程度可能比 RTX 3080 更高，預(yù)計也會出現(xiàn) RTX 3080 那樣開售“秒罄”的情況。根據(jù)爆料者 @APISAK 的消息，英偉達 RTX 3090 已經(jīng)現(xiàn)身 Geekbench，CUDA 跑分破紀錄。

RTX3090
WP7手機測試專家 oohMark終極PK WP Bench

由于系統(tǒng)的原因，WP7上性能測試軟件不如其他平臺那么多，目前筆者搜集到的只有兩款：WP Bench和oohMark。為了讓需要的朋友對它們有所了解

手機測試 WP7手機跑分手機排名
薦 VBench評測第一，5周訪問量暴增8倍多! 這款國產(chǎn)AI視頻生成器「壓番」Runway

這難道不是一部電影的切片?來自@StevieMac03誰能不被這頭蘇醒過來的小飛象萌化?使用了圖生視頻lastframe功能，來自@alexgnewmedia講真，要不是在X上晃悠時突然被這幾個視頻「砸中」，咱還真不知道MiniMax，中國估值最高的大模型公司之一，又悶聲整了個大活兒。咋說碎就碎?魔法降臨，石膏天使也會醒來。神奇海螺的智慧和魔力是不容被質(zhì)疑的，既然Sora遲遲不來，為什么不問問神奇

AI視頻
蘋果Mac M4 Geekbench跑分出爐：單核性能提高26.7%

蘋果計劃在11月初推出M4Mac，其中一款產(chǎn)品的新基準測試成績已經(jīng)在Geekbench中現(xiàn)身。M4Mac的Geekbench跑分成績?yōu)閱魏朔謹?shù)3864分，多核分數(shù)15288分，這一成績是在名為Mac16，1”的測試機型上獲得的，該機型搭載了10核CPU。蘋果將于10月下旬舉辦主題演講新品發(fā)布會，推出搭載M4芯片的新款Mac，該產(chǎn)品將于11月1日正式發(fā)布上市。

蘋果 M4 Mac
Intel首批通過AISBench大模型性能測試！5代至強可達每秒2493 token

近日，第五代英特爾至強處理器，以優(yōu)秀的表現(xiàn)通過了中國電子技術(shù)標準化研究院組織的人工智能服務(wù)器系統(tǒng)性能測試。英特爾也成為首批通過AISBench大語言模型推理性能測試的企業(yè)。同時還彰顯了英特爾至強可以為企業(yè)提供開箱即用”的功能，即可以在通用系統(tǒng)上部署一部分AI工作負載，從為客戶帶來更佳的總體擁有成本優(yōu)勢。

英特爾至強處理器 AISBench測試人工智能服務(wù)器
三星Galaxy Z Flip 6現(xiàn)身Geekbench平臺：搭載驍龍8 Gen3 For Galaxy

三星即將在7月10日在巴黎舉行GalaxyUnpacked活動，并正式推出新一代的GalaxyZFold6系列大折疊和GalaxyZFlip6小折疊等產(chǎn)品。一款型號為SM-F741B的三星設(shè)備出現(xiàn)在了Geekbench數(shù)據(jù)庫中，結(jié)合之前相關(guān)爆料來看，這款設(shè)備很可能是全新三星GalaxyZFlip6折疊屏機型的全球/歐洲版本。更多詳細信息，請期待后續(xù)報道。

三星 Galaxy Z
索尼Xperia 10 VI現(xiàn)身Geekbench：驍龍6 Gen1 6.1寸小屏

索尼即將推出全新Xperia10VI手機，內(nèi)部代號鸚鵡”，這款新機已在Geekbench跑分網(wǎng)站曝光，其亮點在于搭載了驍龍6Gen1處理器，并配備了6.1英寸的小巧屏幕，為用戶帶來卓越的性能體驗。在Geekbench的測試中，型號為XQ-ES10的Xperia10VI表現(xiàn)搶眼。Xperia10VI作為繼任者，預(yù)計將繼續(xù)延續(xù)這一傳統(tǒng)。

索尼 Xperia10VI 驍龍6Gen1
跑分逆天！三星Galaxy Z Flip 6現(xiàn)身GeekBench：或配驍龍8 Gen 3

三星GalaxyZFlip6手機近日在GeekBench跑分庫中現(xiàn)身，型號為SM-F741U，共有17條Vulkan跑分記錄，其中最高分為15084分。根據(jù)跑分庫顯示的信息，該手機搭載代號為pineapple的處理器，采用1223組合設(shè)計，并配備Adreno750GPU，可以確認為高通驍龍8Gen3處理器。GalaxyZFlip6具有8GB和12GBRAM版本，但并非所有地區(qū)都會獲得具有12GBRAM版本存儲空間依舊為256GB和512GB。

三星 Galaxy Z
薦英偉達AI Workbench正式發(fā)布，大幅度簡化大模型開發(fā)流程

3月22日，英偉達在官網(wǎng)宣布，正式發(fā)布NVIDIAAIWorkbench。AIWorkbench是一款面向AI大模型開發(fā)人員的工具包，可以幫助開發(fā)人員消除很多繁瑣、復(fù)雜的部署、開發(fā)流程。Workbench項目整合了所有需要的資源和元數(shù)據(jù)，以簡化跨各種基礎(chǔ)設(shè)施的工作流管理，同時促進無縫移植和可在任何地方再現(xiàn)性。

NVIDIA AI Workbench
一加Ace 3V現(xiàn)身Geekbench平臺：全球首發(fā)驍龍7 Gen3

一加Ace3V手機目前已經(jīng)現(xiàn)身Geekbench跑分平臺，型號為PJF110。在Geekbench6跑分中，一加Ace3V取得了最高單核1848、多核5007的分數(shù)，并于Geekbench5中取得了單核1416、多核4829的分數(shù)，接近天璣9200。一加李杰稱，一加Ace3V將是一款續(xù)航怪物”，這意味著Ace3V將是Ace系列續(xù)航最好的機型。

一加Ace3V Geekbench 驍龍7Gen3
蘋果研究人員提出MAD-Bench基準，克服多模態(tài)大語言模型中幻覺和誤導(dǎo)性提示

在人工智能領(lǐng)域，多模式大語言模型在推動進步方面發(fā)揮了巨大作用，但它們面臨處理誤導(dǎo)性信息的挑戰(zhàn)，可能導(dǎo)致不正確或產(chǎn)生幻覺的響應(yīng)。這種脆弱性引發(fā)了對MLLM在需要準確解釋文本和視覺數(shù)據(jù)的應(yīng)用中可靠性的擔憂。作為一個不斷發(fā)展的領(lǐng)域，解決這些挑戰(zhàn)對于在現(xiàn)實應(yīng)用中部署MLLMs至關(guān)重要。

多模態(tài)大語言模型 AI頭條
參考消息：HMD新機通過Geekbench認證預(yù)裝Android 14

HMDGlobal計劃放棄使用“諾基亞”品牌，并推出自有品牌機型。IMEI數(shù)據(jù)庫中發(fā)現(xiàn)了9款新的HMD手機，同時在Geekbench上也出現(xiàn)了其中兩款機型的信息，這暗示著新款手機即將在全球范圍內(nèi)發(fā)布。我們也將持續(xù)關(guān)注并為大家?guī)砀嗟膱蟮馈?/p>
OPPO Reno11 F現(xiàn)身Geekbench：搭載天璣7050

OPPO去年發(fā)布了OPPOReno11系列，提供標準版和Pro版兩種版本，如今OPPO還將帶來Reno11系列的新版本Reno11F。OPPOReno11F已經(jīng)現(xiàn)身Geekbench6數(shù)據(jù)庫，新機單核跑分897分，多核跑分2329分。其還將配備6400萬像素主攝、800萬像素超廣角和200萬像素微距，前置相機則為3200萬像素，內(nèi)置5000mAh電池，支持67WSuperVOOC有線充電。

熱文

3 天
7天

站長商機

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘