Apache Spark 3.0 pridáva podporu Nvidia GPU pre strojové učenie

Apache Spark, rámec pre spracovanie veľkých dát v pamäti, sa vo svojej čoskoro vydanej 3.0 inkarnácii stane plne akcelerovaným GPU. Najlepšie zo všetkého je, že dnešné aplikácie Spark môžu využívať výhody akcelerácie GPU bez úprav; všetky existujúce rozhrania Spark API fungujú tak, ako sú.

Komponenty akcelerácie GPU poskytované spoločnosťou Nvidia sú navrhnuté tak, aby dopĺňali všetky fázy aplikácií Spark vrátane operácií ETL, školenia strojového učenia a odvodzovania.

Príspevky spoločnosti Nvidia Spark čerpajú z balíka RAPIDS knižníc vedeckých údajov s akceleráciou GPU. Mnoho interných dátových štruktúr RAPIDS, ako napríklad dátové rámce, dopĺňa vlastné Sparkove, ale prinútiť Spark natívne používať RAPIDS trvalo takmer štyri roky práce.

Zrýchlenia modelu Spark 3.0 nevychádzajú iba z akcelerácie GPU. Spark 3.0 tiež žne zvyšovanie výkonu minimalizáciou pohybu dát do az GPU. Ak je potrebné údaje presunúť cez klaster, rámec Unified Communication X ich dopraví priamo z jedného bloku pamäte GPU do druhého s minimálnymi nákladmi.

Podľa Nvidie prinieslo predbežné vydanie Sparku 3.0 bežiaceho na platforme Databricks sedemnásobné zlepšenie výkonu pri použití akcelerácie GPU, aj keď podrobnosti o pracovnej záťaži a jej množine údajov neboli k dispozícii.

Pre všeobecnú dostupnosť produktu Spark 3.0 nebol uvedený žiadny pevný dátum. Náhľadové vydania si môžete stiahnuť z webovej stránky projektu Apache Spark.

mohlo by sa vám páčiť