劃重點:
- Nvidia的RAPIDS cuDF框架的新版本可使Pandas在GPU上運行時性能提升150倍。
- Pandas是一種廣泛使用的Python數(shù)據(jù)框架,用于數(shù)據(jù)處理和分析,現(xiàn)在可在GPU上獲得顯著的性能提升。
- 新的Pandas加速模式允許未更改的Pandas代碼在統(tǒng)一的CPU/GPU環(huán)境中運行,從而為數(shù)據(jù)科學家提供更快速的數(shù)據(jù)處理能力。
站長之家(ChinaZ.com)11月9日 消息:Nvidia最新發(fā)布的RAPIDS cuDF框架的新版本引起了廣大數(shù)據(jù)科學家和Pandas用戶的興趣,因為它聲稱可以使Pandas在GPU上運行時性能提升150倍。Pandas是一種受歡迎的基于Python的數(shù)據(jù)框架,用于數(shù)據(jù)處理和分析。它是由Wes McKinney于2018年作為開源項目發(fā)布的,目前已經(jīng)被全球約950萬開發(fā)者廣泛使用。
Nvidia的RAPIDS框架包括了cuDF,這是一個構建在Apache Arrow之上的Python GPU數(shù)據(jù)框架,它提供了一種類似Pandas的API,用于加載、過濾和操作數(shù)據(jù)。隨著RAPIDS版本23.10的發(fā)布,cuDF已經(jīng)更新,使Pandas代碼可以在GPU加速環(huán)境中不經(jīng)修改地運行。
新的Pandas加速模式使未更改的Pandas代碼可以在統(tǒng)一的CPU/GPU環(huán)境中運行,并且性能提升高達150倍,Nvidia的產(chǎn)品營銷經(jīng)理Jay Rodge、高級技術產(chǎn)品經(jīng)理Nick Becker和高級軟件工程師Ashwin Srinath在一篇博客文章中寫道。他們解釋說:“cuDF一直以來都為用戶提供了頂級的數(shù)據(jù)框架庫性能,同時使用了類似Pandas的API。然而,采用cuDF有時需要繞過一些問題?!?/p>
其中一個問題是,一些Pandas功能在cuDF中尚未實施或支持,因此無法從GPU加速計算中受益。另一個問題是,需要為GPU和CPU執(zhí)行設計單獨的代碼路徑,以及在與其他PyData庫互動時手動切換cuDF和Pandas。
Nvidia表示,這一新功能是為那些希望在數(shù)據(jù)規(guī)模不斷增長并且Pandas性能下降的數(shù)據(jù)科學家而設計的。在cuDF的Pandas加速模式中,操作在GPU上盡可能運行,否則在CPU上(使用Pandas),并在必要時在底層同步。這使得用戶可以獲得統(tǒng)一的CPU/GPU體驗,為Pandas工作流程提供卓越的性能。
Nvidia使用DuckDB的新版H2O.ai數(shù)據(jù)庫樣本測試了性能提升。測試是在一個5GB的數(shù)據(jù)集上進行的,包含了連接和高級分組操作。結果顯示,在CPU上運行的Pandas平均需要約5分鐘7秒來執(zhí)行這兩項任務,而在經(jīng)過RAPIDS cuDF加速的Pandas上執(zhí)行這兩項任務的平均時間只需約1.5秒。
GPU加速的Pandas目前以beta版形式在RAPIDS版本23.10的開源項目中提供,公司表示它將很快添加到Nvidia AI Enterprise中。這一新功能將有望使更多數(shù)據(jù)科學家受益,特別是那些需要處理大規(guī)模數(shù)據(jù)的用戶。
(舉報)