Rýchle dáta: Ďalším krokom po veľkých dátach

Veľké dáta sa zväčšujú prostredníctvom neustáleho toku prichádzajúcich údajov. V prostrediach s vysokým objemom údajov prichádzajú tieto údaje neuveriteľnou rýchlosťou, napriek tomu je potrebné ich analyzovať a uložiť.

John Hugg, softvérový architekt spoločnosti VoltDB, navrhuje, aby sme namiesto toho, aby sme tieto údaje jednoducho uložili, aby sme ich mohli neskôr analyzovať, možno sme dospeli do bodu, keď je možné ich analyzovať pri ich požití, a pritom si zachovať extrémne vysokú mieru príjmu pomocou nástrojov, ako je Apache Kafka.

- Paul Venezia

Pred necelým tuctom rokov bolo takmer nemožné predstaviť si analýzu petabajtov historických údajov pomocou komoditného hardvéru. Dnes sú zhluky Hadoop postavené z tisícov uzlov takmer bežné. Technológie otvoreného zdroja, ako je Hadoop, znovu predstavili, ako efektívne spracovávať petabajty na petabajty dát pomocou komodity a virtualizovaného hardvéru, vďaka čomu je táto funkcia lacno dostupná pre vývojárov všade. Vo výsledku sa objavila oblasť veľkých dát.

Podobná revolúcia sa deje aj s takzvanými rýchlymi dátami. Najskôr definujme rýchle dáta. Veľké dáta sa často vytvárajú pomocou údajov generovaných neuveriteľnou rýchlosťou, ako sú napríklad údaje o kliknutiach, finančné tikety, agregácia protokolov alebo údaje zo senzorov. Tieto udalosti sa často vyskytujú tisíce až desaťtisíce krát za sekundu. Niet divu, že sa tento typ údajov bežne označuje ako „požiarna hadica“.

Keď hovoríme o požiarnych hadiciach vo veľkých dátach, nemeriame objem v typických gigabajtoch, terabajtoch a petabajtoch známych v dátových skladoch. Meriame objem z hľadiska času: počet megabajtov za sekundu, gigabajtov za hodinu alebo terabajtov za deň. Hovoríme o rýchlosti aj objeme, ktorý je jadrom rozdielu medzi veľkými dátami a dátovým skladom. Veľké dáta nie sú len veľké; je to také rýchle.

Výhody veľkých dát sa stratia, ak sa čerstvé, rýchlo sa pohybujúce dáta z hasičskej hadice vyhodia do HDFS, analytického RDBMS alebo dokonca do plochých súborov, pretože schopnosť konať alebo varovať práve teraz, keď sa veci dejú, je stratené. Požiarna hadica predstavuje aktívne údaje, okamžitý stav alebo údaje s trvalým účelom. Naopak, dátový sklad je spôsob, akým sa dá pomocou historických údajov porozumieť minulosti a predpovedať budúcnosť.

Konanie o údajoch hneď po ich prijatí sa považovalo za nákladné a nepraktické, ak nie nemožné, najmä pokiaľ ide o komoditný hardvér. Rovnako ako hodnota vo veľkých dátach, aj hodnota v rýchlych dátach sa odomyká pomocou reimaginálnej implementácie front správ a streamovacích systémov, ako sú open source Kafka a Storm, a reimaginálnej implementácie databáz so zavedením open source ponúk NoSQL a NewSQL .

Zachytenie hodnoty v rýchlych dátach

Na spracovanie údajov s rýchlosťou desiatok tisíc až miliónov udalostí za sekundu budete potrebovať dve technológie: Po prvé, streamovací systém schopný poskytovať udalosti tak rýchlo, ako prídu; a po druhé, dátový sklad schopný spracovať každú položku tak rýchlo, ako príde.

Poskytovanie rýchlych údajov

Kafka bola navrhnutá tak, aby slúžila ako fronta správ a riešila vnímané problémy existujúcich technológií. Je to druh fronty s neobmedzenou škálovateľnosťou, distribuovaným nasadením, multitenanciou a vysokou vytrvalosťou. Organizácia by mohla nasadiť jeden kafkovský klaster, aby uspokojila všetky svoje potreby v radení správ. Napriek tomu Kafka vo svojej podstate dodáva správy. Nepodporuje žiadne spracovanie ani dopytovanie.

mohlo by sa vám páčiť