Programovanie

Kaggle: Kde sa vedci o údajoch učia a súťažia

Veda o dátach je napriek názvu typicky viac umenie ako veda. Začínate so špinavými dátami a starým štatistickým prediktívnym modelom a snažíte sa robiť lepšie pomocou strojového učenia. Nikto nekontroluje vašu prácu ani sa ju nepokúša vylepšiť: Ak váš nový model sedí lepšie ako ten starý, osvojíte si ho a prejdete k ďalšiemu problému. Keď sa údaje začnú unášať a model prestane fungovať, aktualizujete model z novej množiny údajov.

Robiť dátovú vedu v Kaggle je celkom iné. Kaggle je online prostredie a komunita pre strojové učenie. Má štandardné súbory údajov, ktoré sa snažia modelovať stovky alebo tisíce jednotlivcov alebo tímov, a pre každú súťaž existuje tabuľka výsledkov. Mnoho súťaží ponúka peňažné ceny a stavové body. Ľudia môžu vylepšovať svoje modely až do skončenia súťaže, vylepšiť svoje skóre a vyšplhať sa po rebríku. Malé percentá často robia rozdiel medzi víťazmi a postupujúcimi.

Kaggle je niečo, s čím sa môžu profesionálni vedci v oblasti dát hrať vo svojom voľnom čase, a začínajúci vedci v oblasti dát sa môžu naučiť, ako zostaviť dobré modely strojového učenia.

Čo je Kaggle?

Z komplexného pohľadu je Kaggle online komunita pre vedcov v oblasti dát, ktorá ponúka súťaže v strojovom učení, súbory údajov, notebooky, prístup k akcelerátorom výcviku a vzdelávanie. Anthony Goldbloom (generálny riaditeľ) a Ben Hamner (CTO) založili spoločnosť Kaggle v roku 2010 a spoločnosť Google získala v roku 2017.

Súťaže Kaggle zlepšili stav umenia strojového učenia vo viacerých oblastiach. Jedným z nich je mapovanie temnej hmoty; ďalším je výskum HIV / AIDS. Pri pohľade na víťazov súťaží Kaggle uvidíte veľa modelov XGBoost, niekoľko modelov Random Forest a niekoľko hlbokých neurónových sietí.

Kaggle súťaže

Existuje päť kategórií súťaží Kaggle: Začíname, Detské ihrisko, Vybrané, Výskum a Nábor.

Súťaže Začíname sú semipermanentné a mali by ich využívať noví používatelia, ktorí sa v oblasti strojového učenia dostanú len tak pred dvere. Neponúkajú žiadne ceny ani body, ale majú dostatok návodov. Súťaže Začíname majú dvojmesačné výsledkové tabuľky.

Súťaže na ihrisku sú o krok vyššie ako Začíname v ťažkostiach. Ceny sa pohybujú od sláva po malé peňažné ceny.

Vybrané súťaže sú výzvy komplexného strojového učenia, ktoré spôsobujú zložité problémy s predvídaním, zvyčajne s komerčným účelom. Vybrané súťaže priťahujú najpozoruhodnejších odborníkov a tímy a ponúkajú ceny, ktoré môžu dosahovať až milión dolárov. Môže to znieť skľučujúco, ale aj keď jednu z nich nevyhráte, budete sa učiť pri pokusoch a pri čítaní riešení od iných ľudí, najmä od tých najlepších.

Výskumné súťaže zahŕňajú problémy, ktoré sú experimentálnejšie ako problémy s odporúčanými súťažami. Zvyčajne neponúkajú ceny ani body kvôli svojej experimentálnej povahe.

V náborových súťažiach jednotlivci súťažia o vytvorenie modelov strojového učenia pre výzvy korporácie. Po skončení súťaže môžu účastníci, ktorí majú záujem, nahrať svoj životopis na zváženie hostiteľom. Cenou je (potenciálne) pracovný pohovor v spoločnosti alebo organizácii, ktorá súťaží.

Existuje niekoľko formátov súťaží. V štandardnej súťaži Kaggle môžu používatelia získať prístup k úplným súborom údajov na začiatku súťaže, stiahnuť údaje, zostaviť modely na údajoch lokálne alebo v poznámkových blokoch spoločnosti Kaggle (pozri nižšie), vygenerovať súbor predpovedí a potom nahrať predpovede ako príspevok. na Kaggle. Väčšina súťaží na Kaggle sleduje tento formát, ale existujú alternatívy. Niekoľko súťaží je rozdelených do etáp. Niektoré sú súťaže o kód, ktoré je potrebné odoslať z Kaggle Notebooku.

Kaggle množiny údajov

Spoločnosť Kaggle hostí viac ako 35 000 súborov údajov. K dispozícii sú v rôznych formátoch publikácie, vrátane hodnôt oddelených čiarkami (CSV) pre tabuľkové údaje, JSON pre údaje podobné stromom, databáz SQLite, archívov ZIP a 7z (často používaných pre súbory údajov o obrázkoch) a súborov BigQuery, ktoré sú viacúčelové -terabajtové súbory údajov SQL hostené na serveroch spoločnosti Google.

Existuje niekoľko spôsobov, ako nájsť dátové sady Kaggle. Na domovskej stránke Kaggle nájdete zoznam „horúcich“ súborov údajov a súborov údajov nahraných ľuďmi, ktorých sledujete. Na stránke Kaggle datasets nájdete zoznam datasetov (pôvodne zoradených podľa „najhorúcejších“, ale s ďalšími možnosťami objednávania) a vyhľadávací filter. Môžete tiež použiť značky a stránky značiek na vyhľadanie súborov údajov, napríklad //www.kaggle.com/tags/crime.

Na serveri Kaggle môžete vytvárať verejné a súkromné ​​súbory údajov z miestneho počítača, adries URL, úložísk GitHub a výstupov programu Kaggle Notebook. Môžete nastaviť množinu údajov vytvorenú z adresy URL alebo úložiska GitHub, aby sa pravidelne aktualizovali.

V súčasnosti má Kaggle pomerne veľa súborov údajov, výziev a notebookov COVID-19. Existuje už niekoľko príspevkov komunity k úsiliu porozumieť tejto chorobe a vírusu, ktorý ju spôsobuje.

Zošity Kaggle

Kaggle podporuje tri typy notebookov: skripty, skripty RMarkdown a notebooky Jupyter. Skripty sú súbory, ktoré spúšťajú všetko ako kód postupne. Notebooky môžete písať v jazykoch R alebo Python. Kodéri R a ľudia odosielajúci kód do súťaží často používajú skripty; Kodéri Pythonu a ľudia vykonávajúci prieskumné analýzy dát majú tendenciu uprednostňovať notebooky Jupyter.

Notebooky ľubovoľného typu môžu mať voliteľne bezplatné akcelerátory GPU (Nvidia Tesla P100) alebo TPU a môžu využívať služby Google Cloud Platform, ale platia kvóty, napríklad 30 hodín GPU a 30 hodín TPU týždenne. V zásade nepoužívajte GPU alebo TPU v notebooku, pokiaľ nepotrebujete urýchliť tréning hlbokého učenia. Používanie služieb Google Cloud Platform môže viesť k účtovaniu poplatkov na váš účet Google Cloud Platform, ak prekročíte bezplatné limity.

Sady údajov Kaggle môžete do notebookov Kaggle pridať kedykoľvek. Môžete tiež pridať súbory údajov o súťaži, ale iba ak prijmete pravidlá súťaže. Ak chcete, môžete notebooky reťaziť pridaním výstupu jedného notebooku k údajom iného notebooku.

Notebooky bežia v jadrách, ktoré sú v podstate kontajnermi Dockeru. Verzie svojich notebookov môžete ukladať pri ich vývoji.

Poznámkové bloky môžete vyhľadávať pomocou dotazu na kľúčové slovo na webe a filtra na poznámkových blokoch alebo prehliadaním domovskej stránky spoločnosti Kaggle. Môžete tiež použiť výpis Poznámkový blok; rovnako ako súbory údajov, poradie notebookov v zozname je predvolene podľa „horkosti“. Čítanie verejných zošitov je dobrý spôsob, ako sa naučiť, ako ľudia pracujú v oblasti dátovej vedy.

Na notebooku môžete s ostatnými spolupracovať viacerými spôsobmi, podľa toho, či je notebook verejný alebo súkromný. Ak je to verejné, môžete udeliť oprávnenie na úpravy konkrétnym používateľom (zobraziť môžu všetci). Ak je súkromný, môžete udeliť oprávnenie na prezeranie alebo úpravy.

Verejné API Kaggle

Okrem vytvárania a prevádzkovania interaktívnych notebookov môžete s Kaggle komunikovať pomocou príkazového riadku Kaggle z miestneho počítača, ktorý volá verejné API Kaggle. Kaggle CLI môžete nainštalovať pomocou inštalačného programu Python 3 pipa autentifikujte svoje zariadenie stiahnutím tokenu API zo stránky Kaggle.

Rozhranie Kaggle CLI a API môžu interagovať s konkurenciami, množinami údajov a notebookmi (jadrami). API je open source a je hostené na GitHub na //github.com/Kaggle/kaggle-api. Súbor README obsahuje úplnú dokumentáciu k nástroju príkazového riadku.

Kaggle komunita a vzdelávanie

Kaggle hostí komunitné diskusné fóra a mikrokurzy. Témy fóra zahŕňajú samotný Kaggle, začiatky, spätnú väzbu, otázky a odpovede, súbory údajov a mikrokurzy. Mikrokurzy pokrývajú zručnosti súvisiace s dátovými vedcami za pár hodín: Python, strojové učenie, vizualizácia údajov, Pandy, inžinierstvo funkcií, hlboké učenie, SQL, geopriestorová analýza atď.

Celkovo je Kaggle veľmi užitočný na výučbu dátovej vedy a na súťaženie s ostatnými v otázkach dátovej vedy. Je tiež veľmi užitočné ako úložisko pre štandardné verejné súbory údajov. Nejde však o náhradu za platené cloudové vedecké služby alebo za vlastnú analýzu.

$config[zx-auto] not found$config[zx-overlay] not found