Programovanie

Čo je to analýza veľkých dát? Rýchle odpovede z rôznych súborov údajov

K dispozícii sú dáta a potom veľké dáta. Aký je teda rozdiel?

Boli definované veľké dáta

Jasnú definíciu veľkých dát je ťažké určiť, pretože veľké dáta môžu pokryť množstvo prípadov použitia. Všeobecne sa však tento pojem vzťahuje na súbory údajov, ktoré sú také veľké a také zložité, že tradičné softvérové ​​produkty na spracovanie údajov nie sú schopné zachytiť, spravovať a spracovať údaje v primeranom čase.

Tieto súbory veľkých údajov môžu obsahovať štruktúrované, neštruktúrované a pološtruktúrované údaje, z ktorých je možné každý získať štatistiku.

O tom, koľko dát v skutočnosti predstavuje „veľké“, sa dá diskutovať, ale zvyčajne to môže byť v násobkoch petabajtov - a pre najväčšie projekty v rozsahu exabajtov.

Veľké dáta sa často vyznačujú tromi V:

  • extrém objem údajov
  • široký rozmanitosť typov údajov
  • the rýchlosť pri ktorých je potrebné údaje spracovať a analyzovať

Údaje, ktoré tvoria veľké úložiská dát, môžu pochádzať zo zdrojov, ktoré zahŕňajú webové stránky, sociálne médiá, desktopové a mobilné aplikácie, vedecké experimenty a čoraz viac senzory a ďalšie zariadenia na internete vecí (IoT).

Koncept veľkých dát prichádza so sadou súvisiacich komponentov, ktoré umožňujú organizáciám praktické využitie dát a riešenie mnohých obchodných problémov. Patrí sem IT infraštruktúra potrebná na podporu technológií veľkých dát, analytika aplikovaná na dáta; platformy veľkých dát potrebné pre projekty, súvisiace súbory zručností a skutočné prípady použitia, ktoré majú zmysel pre veľké dáta.

Čo je to analýza údajov?

To, čo skutočne prináša hodnotu všetkým zhromaždeným organizáciám pre veľké dáta, je analýza použitá na dáta. Bez analytiky, ktorá zahŕňa preskúmanie údajov s cieľom odhaliť vzorce, korelácie, prehľady a trendy, sú údaje iba hromadou jedničiek a núl s obmedzeným obchodným využitím.

Aplikáciou analytiky na veľké dáta môžu spoločnosti vidieť výhody, ako sú zvýšenie predaja, zlepšenie služieb zákazníkom, vyššia efektivita a celkové zvýšenie konkurencieschopnosti.

Analýza údajov zahŕňa preskúmanie súborov údajov s cieľom získať prehľad alebo vyvodiť závery o tom, čo obsahujú, napríklad trendy a predpovede o budúcej činnosti.

Analýzou informácií pomocou nástrojov na analýzu veľkých údajov môžu organizácie prijímať informovanejšie obchodné rozhodnutia, napríklad kedy a kde uskutočniť marketingovú kampaň alebo predstaviť nový produkt alebo službu.

Analytics môže odkazovať na základné aplikácie business intelligence alebo pokročilejšie prediktívne analýzy, ktoré používajú vedecké organizácie. Medzi najpokročilejšie typy analýzy údajov patrí dolovanie dát, pri ktorom analytici hodnotia veľké súbory údajov a identifikujú vzťahy, vzory a trendy.

Analýza údajov môže zahŕňať prieskumnú analýzu údajov (na identifikáciu vzorcov a vzťahov v údajoch) a potvrdzujúcu analýzu údajov (použitie štatistických metód na zistenie, či je predpoklad konkrétneho súboru údajov pravdivý).

Ďalším rozdielom je kvantitatívna analýza údajov (alebo analýza číselných údajov, ktorá obsahuje vyčísliteľné premenné, ktoré sa dajú štatisticky porovnať), a kvalitatívna analýza údajov (ktorá sa zameriava na nečíselné údaje, ako sú video, obrázky a text).

IT infraštruktúra na podporu veľkých dát

Aby koncept veľkých dát fungoval, musia organizácie mať vybudovanú infraštruktúru na zhromažďovanie a uchovávanie údajov, na zabezpečenie prístupu k nim a na zabezpečenie informácií počas ich ukladania a prepravy. To si vyžaduje nasadenie nástrojov na analýzu veľkých dát.

Na vysokej úrovni medzi ne patria úložné systémy a servery určené pre veľké dáta, softvér na správu a integráciu dát, softvér na business intelligence a analýzu dát a aplikácie pre veľké dáta.

Veľká časť tejto infraštruktúry bude pravdepodobne lokálna, pretože spoločnosti sa snažia naďalej využívať svoje investície do dátových centier. Organizácie sa však čoraz viac spoliehajú na služby cloudového výpočtovej techniky, aby zvládli väčšinu svojich požiadaviek na veľké dáta.

Zhromažďovanie údajov si vyžaduje zdroje na zhromažďovanie údajov. Mnohé z nich - napríklad webové aplikácie, kanály sociálnych médií, mobilné aplikácie a e-mailové archívy - sú už zavedené. Ale keď sa IoT zakorení, spoločnosti možno budú musieť nasadiť senzory na všetky druhy zariadení, vozidiel a produktov na zhromažďovanie údajov, ako aj nové aplikácie, ktoré generujú údaje používateľov. (Analýza veľkých dát zameraná na internet vecí má svoje vlastné špecializované techniky a nástroje.)

Na ukladanie všetkých prichádzajúcich údajov musia mať organizácie k dispozícii zodpovedajúce úložisko údajov. Medzi možnosťami úložiska sú tradičné dátové sklady, dátové jazerá a cloudové úložiská.

Medzi nástroje bezpečnostnej infraštruktúry môžu patriť šifrovanie údajov, autentifikácia používateľov a ďalšie kontroly prístupu, monitorovacie systémy, brány firewall, správa podnikovej mobility a ďalšie produkty na ochranu systémov a údajov,

Technológie veľkých dát

Okrem vyššie uvedenej IT infraštruktúry používanej všeobecne pre dáta. Vaša IT infraštruktúra by mala podporovať niekoľko technológií špecifických pre veľké dáta.

Ekosystém Hadoop

Hadoop je jednou z technológií, ktorá sa najviac spája s veľkými dátami. Projekt Apache Hadoop vyvíja open source softvér pre škálovateľné distribuované výpočty.

Softvérová knižnica Hadoop je rámec, ktorý umožňuje distribuované spracovanie veľkých súborov údajov v klastroch počítačov pomocou jednoduchých programovacích modelov. Je navrhnutý tak, aby sa mohol rozšíriť z jedného servera na tisíce, každý z nich ponúka lokálne výpočty a úložisko.

Projekt obsahuje niekoľko modulov:

  • Hadoop Common, bežné pomocné programy, ktoré podporujú ďalšie moduly Hadoop
  • Distribuovaný systém súborov Hadoop, ktorý poskytuje vysoko priepustný prístup k dátam aplikácií
  • Hadoop YARN, rámec pre plánovanie úloh a správu klastrových zdrojov
  • Hadoop MapReduce, systém založený na YARN pre paralelné spracovanie veľkých súborov dát.

Apache Spark

Apache Spark, ktorý je súčasťou ekosystému Hadoop, je open source klastrový výpočtový rámec, ktorý slúži ako motor na spracovanie veľkých dát v rámci Hadoop. Spark sa stal jedným z kľúčových rámcov spracovania distribuovaných veľkých dát a je možné ho nasadiť rôznymi spôsobmi. Poskytuje natívne väzby pre programovacie jazyky Java, Scala, Python (najmä distrakcia Anaconda Python) a R (R je zvlášť vhodný pre veľké dáta) a podporuje SQL, streamovanie dát, strojové učenie a spracovanie grafov.

Dátové jazerá

Dátové jazerá sú úložiská, ktoré uchovávajú extrémne veľké objemy nespracovaných údajov v natívnom formáte, kým ich nepotrebujú obchodní používatelia. Iniciatívy digitálnej transformácie a rast internetu vecí pomáhajú pri podpore rastu dátových jazier. Dátové jazerá sú navrhnuté tak, aby používateľom uľahčili prístup k obrovskému množstvu dát, keď to bude potrebné.

NoSQL databázy

Konvenčné databázy SQL sú navrhnuté pre spoľahlivé transakcie a ad hoc dotazy, prichádzajú však s obmedzeniami, ako je rigidná schéma, ktorá ich robí menej vhodnými pre niektoré typy aplikácií. NoSQL databázy tieto obmedzenia riešia a ukladajú a spravujú údaje spôsobmi, ktoré umožňujú vysokú prevádzkovú rýchlosť a veľkú flexibilitu. Mnohé vyvinuli spoločnosti, ktoré hľadali lepšie spôsoby ukladania obsahu alebo spracovania údajov pre rozsiahle webové stránky. Na rozdiel od databáz SQL môže byť veľa databáz NoSQL horizontálne zmenšených cez stovky alebo tisíce serverov.

Pamäťové databázy

Databáza v pamäti (IMDB) je systém na správu databáz, ktorý sa pri ukladaní údajov primárne spolieha na hlavnú pamäť, a nie na disk. Databázy v pamäti sú rýchlejšie ako databázy optimalizované na disk, čo je dôležité pre použitie pri analýze veľkých dát a vytváranie dátových skladov a dátových trhov.

Zručnosť v oblasti veľkých dát

Snaha o veľké dáta a analýza veľkých dát vyžaduje špecifické zručnosti, či už pochádzajú z vnútra organizácie alebo prostredníctvom externých odborníkov.

Mnohé z týchto zručností súvisia s kľúčovými komponentmi veľkých dátových technológií, ako sú Hadoop, Spark, NoSQL databázy, databázy v pamäti a analytický softvér.

Ostatné sú špecifické pre disciplíny ako veda o údajoch, dolovanie dát, štatistická a kvantitatívna analýza, vizualizácia údajov, univerzálne programovanie a štruktúra a algoritmy údajov. Je tiež potrebné, aby ľudia s celkovými manažérskymi schopnosťami videli projekty veľkých dát až do ich dokončenia.

Vzhľadom na to, ako sa stali bežné projekty analýzy veľkých dát a nedostatok ľudí s týmito typmi zručností, môže byť hľadanie skúsených odborníkov jednou z najväčších výziev pre organizácie.

Prípady použitia analýzy veľkých dát

Veľké dáta a analýzy je možné použiť na mnohé obchodné problémy a prípady použitia. Tu je niekoľko príkladov:

  • Analýza zákazníkov. Spoločnosti môžu skúmať údaje o zákazníkoch, aby zlepšili zákaznícke skúsenosti, zlepšili konverzné pomery a zvýšili mieru retencie.
  • Prevádzková analýza. Zlepšenie prevádzkového výkonu a lepšie využitie podnikových aktív sú cieľmi mnohých spoločností. Nástroje na analýzu veľkých dát môžu podnikom pomôcť nájsť spôsoby, ako pracovať efektívnejšie a zlepšiť výkon.
  • Prevencia podvodov. Nástroje a analýza veľkých dát môžu organizáciám pomôcť identifikovať podozrivú aktivitu a vzorce, ktoré môžu naznačovať podvodné správanie a pomôcť zmierniť riziká.
  • Optimalizácia ceny. Spoločnosti môžu pomocou analýzy veľkých dát optimalizovať ceny, ktoré účtujú za výrobky a služby, čím pomáhajú zvyšovať príjmy.
$config[zx-auto] not found$config[zx-overlay] not found