Sedem nástrojov na skrotenie veľkých dát pomocou Hadoop

Povodne, ktoré zničili odvetvie pevných diskov v Thajsku, sú dnes staré pol roka a ceny za terabajt konečne opäť klesajú. To znamená, že sa údaje začnú hromadiť a ľudia v kancelárii sa budú pýtať, čo sa s nimi dá robiť. Možno sú v týchto protokolových súboroch nejaké informácie? Možno trochu štatistickej analýzy nájde nejaké nugetky zlata zakopané v celom tom hluku? Možno nájdeme dostatok zmien zakopaných v gaučových vankúšoch týchto súborov, aby sme sa všetci pozviechali?

Toto odvetvie má teraz módne slovo „veľké dáta“, týkajúce sa toho, ako urobíme niečo s hromadením veľkého množstva informácií. „Veľké dáta“ nahrádzajú „business inteligenciu“, ktorá zahrňuje „vykazovanie“, ktoré kladie lepší dôraz na „tabuľky“, ktoré porazili staromódne „výtlačky“. Manažéri, ktorí dávno študovali výtlačky, si teraz najímajú matematikov, ktorí sa považujú za odborníkov na veľké dáta, aby im pomohli vyriešiť ten istý starý problém: Čo sa predáva a prečo?

[Tiež na: Enterprise Hadoop: Spracovanie veľkých dát jednoduchšie Preskúmajte súčasné trendy a riešenia v BI pomocou interaktívnej aplikácie Business Intelligence iGuide. | Objavte, čo je nové v obchodných aplikáciách, pomocou informačného bulletinu Technology: Applications. ]

Nie je fér tvrdiť, že tieto heslá sú navzájom jednoduchou náhradou. Veľké dáta sú komplikovanejším svetom, pretože ich rozsah je oveľa väčší. Informácie sú zvyčajne rozložené na niekoľkých serveroch a práca na kompilácii údajov musí byť medzi nimi koordinovaná. V minulosti bola práca do veľkej miery delegovaná na databázový softvér, ktorý pomocou svojho magického mechanizmu JOIN zostavoval tabuľky, potom sčítal stĺpce a potom odovzdal obdĺžnik údajov do nahlasovacieho softvéru, ktorý by ich stránkoval. To bolo často ťažšie, ako to znie. Programátori databáz vám môžu rozprávať príbehy o komplikovaných príkazoch JOIN, ktoré by uzamkli ich databázu na celé hodiny, keď sa pokúšala vytvoriť správu pre šéfa, ktorý chcel iba jeho stĺpce.

Hra je teraz oveľa iná. Hadoop je populárny nástroj na organizovanie serverov a rackov serverov a databázy NoSQL sú populárnymi nástrojmi na ukladanie údajov na týchto stojanoch. Tieto mechanizmy môžu byť oveľa výkonnejšie ako starý jediný stroj, ale ani zďaleka nie sú také leštené ako staré databázové servery. Aj keď môže byť SQL komplikovaný, písanie dotazu JOIN pre databázy SQL bolo často oveľa jednoduchšie ako zhromažďovanie informácií z desiatok strojov a ich kompilácia do jednej koherentnej odpovede. Úlohy Hadoop sú písané v jazyku Java, a to si vyžaduje ďalšiu úroveň prepracovanosti. Nástroje na riešenie veľkých dát práve začínajú distribuovať tento distribuovaný výpočtový výkon spôsobom, ktorý je o niečo jednoduchší.

Mnoho nástrojov na veľké dáta tiež pracuje s dátovými úložiskami NoSQL. Sú flexibilnejšie ako tradičné relačné databázy, ale flexibilita nie je takou odchýlkou od minulosti ako Hadoop. NoSQL dotazy môžu byť jednoduchšie, pretože návrh databázy odrádza od komplikovanej tabuľkovej štruktúry, ktorá zvyšuje zložitosť práce s SQL. Hlavnou obavou je, že softvér musí počítať s možnosťou, že nie každý riadok bude mať nejaké údaje pre každý stĺpec.

Najväčšou výzvou môže byť riešenie očakávaní vytvorených hlavným filmom „Moneyball“. Všetci šéfovia to videli a vstrebali správu, že niektoré chytré štatistiky môžu z malého rozpočtu urobiť víťaza Svetovej série. Nevadí, že atletika v Oaklande počas éry „Moneyball“ nikdy nevyhrala svetovú sériu. V tom je kúzlo prózy Michaela Lewisa. Všetci šéfovia si myslia: „Možno, ak získam dobré štatistiky, Hollywood si najme Brada Pitta, aby ma hral vo filmovej verzii.“

Žiadny zo softvérov v tejto zbierke sa nebude blížiť k lákaniu Brada Pitta, aby požiadal svojho agenta o kópiu skriptu pre filmovú verziu vašej úlohy Hadoop. To musí pochádzať z vášho vnútra alebo od ostatných ľudí pracujúcich na projekte. Pochopenie údajov a nájdenie správnej otázky, na ktorú sa treba opýtať, je často oveľa komplikovanejšie ako rýchle spustenie úlohy Hadoop. To skutočne hovorí niečo, pretože tieto nástroje tvoria iba polovicu práce.

Aby som získal prísľub v tejto oblasti, stiahol som si niekoľko nástrojov na veľké dáta, zmiešal som dáta a potom som hľadel na odpovede na Einsteinov prehľad. Informácie pochádzali zo súborov denníka na webovú stránku, ktorá predáva niektoré moje knihy (wayner.org), a hľadal som nejakú predstavu o tom, čo sa predáva a prečo. Takže som vybalil softvér a položil otázky.

Nástroje veľkých dát: Jaspersoft BI Suite

Balík Jaspersoft je jedným z vedúcich open source zdrojov na vytváranie správ z databázových stĺpcov. Tento softvér je dobre vyleštený a je už nainštalovaný v mnohých podnikoch, ktoré premieňajú tabuľky SQL na PDF, ktoré môže každý na schôdzkach kontrolovať.

Spoločnosť naskočí do veľkého dátového vlaku, čo znamená pridať softvérovú vrstvu na pripojenie softvéru na generovanie prehľadov k miestam, kde sa ukladajú veľké dáta. Server JasperReports teraz ponúka softvér na nasávanie dát z mnohých hlavných úložných platforiem, vrátane MongoDB, Cassandra, Redis, Riak, CouchDB a Neo4j. Hadoop je tiež dobre zastúpený, pričom JasperReports poskytuje konektor Hive, aby sa dostal dovnútra HBase.

Zdá sa, že sa toto úsilie ešte len začína - veľa stránok wiki dokumentácie je prázdnych a nástroje nie sú úplne integrované. Napríklad vizuálny návrhár dotazov zatiaľ nefunguje s Cand od Cassandry. Tieto dotazy môžete zadať ručne.

Hneď ako získate údaje z týchto zdrojov, server Jaspersoft ich spracuje na interaktívne tabuľky a grafy. Správy môžu byť dosť prepracované interaktívne nástroje, ktoré vám umožnia prejsť do rôznych rohov. Ak potrebujete, môžete požiadať o ďalšie a ďalšie podrobnosti.

Toto je dobre vyvinutý kút softvérového sveta a spoločnosť Jaspersoft sa rozširuje tým, že uľahčuje používanie týchto sofistikovaných prehľadov s novšími zdrojmi údajov. Spoločnosť Jaspersoft neponúka zvlášť nové spôsoby pohľadu na údaje, iba sofistikovanejšie spôsoby prístupu k údajom uloženým na nových miestach. Považoval som to za prekvapivo užitočné. Agregácia mojich údajov bola dostatočná na to, aby mal základný zmysel pre to, kto ide na webovú stránku a kedy tam ide.

Nástroje veľkých dát: Pentaho Business Analytics

Pentaho je ďalšia softvérová platforma, ktorá začínala ako generátor správ; rovnako ako JasperSoft sa vetví na veľké dáta, pretože uľahčuje absorpciu informácií z nových zdrojov. Nástroj Pentaho môžete pripojiť k mnohým najobľúbenejším databázam NoSQL, ako sú MongoDB a Cassandra. Po pripojení databáz môžete stĺpce pretiahnuť do zobrazení a zostáv, akoby informácie pochádzali z databáz SQL.

Klasické tabuľky na triedenie a preosievanie sa mi zdali mimoriadne užitočné pre pochopenie toho, kto trávi na mojom webe najviac času. Jednoduché zoradenie podľa adresy IP v súboroch denníka odhalilo, čo ťažkí používatelia robia.

Pentaho tiež poskytuje softvér na kreslenie údajov súborov HDFS a údajov HBase z klastrov Hadoop. Jedným z najzaujímavejších nástrojov je grafické programovacie rozhranie známe ako integrácia údajov Kettle alebo Pentaho. Má veľa zabudovaných modulov, ktoré môžete pretiahnuť na obrázok a potom ich spojiť. Pentaho do toho dôkladne integroval Hadoop a ďalšie zdroje, takže môžete napísať svoj kód a poslať ho na vykonanie v klastri.

Big data tools: Karmasphere Studio and Analyst

Mnoho nástrojov na big data nezačalo život ako nástroje na vytváranie prehľadov. Napríklad Karmasphere Studio je sada doplnkov postavená na platforme Eclipse. Jedná sa o špecializované IDE, ktoré uľahčuje vytváranie a spúšťanie úloh Hadoop.

Keď som pomocou tohto vývojárskeho nástroja začal konfigurovať prácu Hadoop, mal som vzácny pocit radosti. Existuje veľa etáp v živote úlohy Hadoop a nástroje Karmasphere vás prevedú každým krokom a pri tom zobrazia čiastkové výsledky. Myslím, že debuggery nám vždy umožnili nahliadnuť do mechanizmu, keď robí svoju prácu, ale Karmasphere Studio robí niečo o niečo lepšie: Keď nastavujete pracovný tok, nástroje v každom kroku zobrazujú stav testovacích údajov. Uvidíte, ako budú dočasné údaje vyzerať, keď sa rozdelia, analyzujú a potom redukujú.

Karmasphere tiež distribuuje nástroj s názvom Karmasphere Analyst, ktorý je navrhnutý tak, aby zjednodušil proces orby cez všetky dáta v klastri Hadoop. Dodáva sa s mnohými užitočnými stavebnými blokmi na programovanie dobrej úlohy Hadoop, ako sú napríklad podprogramy na dekompresiu súborov denníka ZIP. Potom ich spojí dohromady a parametrizuje volania Úľa, aby vytvorili tabuľku výstupu na prezeranie.

Nástroje veľkých dát: Talend Open Studio

Talend tiež ponúka IDE založené na Eclipse na spájanie úloh spracovania údajov s Hadoop. Jeho nástroje sú navrhnuté tak, aby pomáhali s integráciou údajov, kvalitou údajov a správou údajov, a to všetko s podprogrammi naladenými na tieto úlohy.

Aplikácia Talend Studio vám umožňuje vytvárať vaše úlohy tak, že malé ikony presúvate na plátno. Ak chcete získať informačný kanál RSS, zložka spoločnosti Talend načíta RSS a v prípade potreby pridá proxy. Existujú desiatky komponentov na zhromažďovanie informácií a ďalšie desiatky na vykonávanie vecí, ako je napríklad „fuzzy zápas“. Potom môžete výsledky odoslať.

Vizuálne spájanie blokov môže byť jednoduché, keď získate predstavu o tom, čo jednotlivé komponenty skutočne robia a čo nerobia. Ľahšie som na to prišiel, keď som sa začal pozerať na zdrojový kód zostavovaný za plátnom. Talend vám to umožňuje vidieť a myslím si, že je to ideálny kompromis. Vizuálne programovanie sa môže javiť ako vznešený cieľ, ale zistil som, že ikony nikdy nemôžu dostatočne podrobne predstavovať mechanizmy, aby bolo možné pochopiť, o čo ide. Potrebujem zdrojový kód.

Talend tiež udržuje TalendForge, kolekciu rozšírení otvoreného zdroja, ktoré uľahčujú prácu s produktmi spoločnosti. Zdá sa, že väčšinou ide o filtre alebo knižnice, ktoré prepájajú softvér spoločnosti Talend s inými významnými produktmi, ako sú napríklad Salesforce.com a SugarCRM. Informácie z týchto systémov môžete nasávať do svojich vlastných projektov, čo zjednodušuje integráciu.

Big data tools: Skytree Server

Nie všetky nástroje sú navrhnuté tak, aby uľahčovali spájanie kódu pomocou vizuálnych mechanizmov. Skytree ponúka balík, ktorý vykonáva mnoho sofistikovanejších algoritmov strojového učenia. Stačí napísať správny príkaz do príkazového riadku.

Skytree sa viac zameriava na vnútornosti ako na lesklé grafické rozhranie. Server Skytree je optimalizovaný na spustenie mnohých klasických algoritmov strojového učenia sa na vašich dátach pomocou implementácie, o ktorej spoločnosť tvrdí, že môže byť 10 000-krát rýchlejšia ako iné balíčky. Môže prehľadávať vaše údaje a hľadať zhluky matematicky podobných položiek, potom ich invertovať a identifikovať mimoriadne hodnoty, ktoré môžu predstavovať problémy, príležitosti alebo oboje. Algoritmy môžu byť presnejšie ako ľudia a môžu prehľadávať obrovské množstvo údajov a vyhľadávať položky, ktoré sú trochu neobvyklé. Môže to byť podvod - alebo obzvlášť dobrý zákazník, ktorý utratí a utratí.

Bezplatná verzia softvéru ponúka rovnaké algoritmy ako vlastná verzia, je však obmedzená na množiny údajov so 100 000 riadkami. To by malo stačiť na zistenie, či je softvér v zhode.

Big data tools: Tableau Desktop and Server

Tableau Desktop je vizualizačný nástroj, ktorý umožňuje ľahký pohľad na vaše dáta novými spôsobmi, potom ich rozdeliť a pozrieť sa na ne iným spôsobom. Môžete dokonca zmiešať údaje s inými údajmi a preskúmať ich v ďalšom svetle. Nástroj je optimalizovaný tak, aby poskytoval všetky stĺpce s údajmi, a umožňuje ich zmiešať pred vložením do jednej z desiatok poskytnutých grafických šablón.

Softvér Tableau začal používať Hadoop pred niekoľkými verziami a teraz s ním môžete zaobchádzať „rovnako ako pri akomkoľvek dátovom pripojení“. Tableau sa pri štruktúrovaní dotazov spolieha na program Hive a potom sa pokúsi čo najlepšie uložiť do pamäte toľko informácií, aby mohol byť nástroj interaktívny. Zatiaľ čo mnoho ďalších nástrojov na vytváranie prehľadov je postavených na tradícii generovania prehľadov v režime offline, chce spoločnosť Tableau ponúknuť interaktívny mechanizmus, pomocou ktorého môžete dáta krájať a nakrájať na kocky znova a znova. Ukladanie do pamäte cache pomáha vyrovnať sa s určitou latenciou klastra Hadoop.

Softvér je vyleštený a esteticky príjemný. Často som sa ocitol v tom, že som dáta reslikoval, len aby som ich videl v ďalšom grafe, aj keď pri prechode z koláčového grafu na stĺpcový graf a ďalej sme toho veľa nového nenašli. Softvérový tím zjavne zahŕňa množstvo ľudí s určitým umeleckým talentom.

Big data tools: Splunk

Splunk sa trochu líši od ostatných možností. Nie je to zrovna nástroj na vytváranie správ alebo zbierka rutín umelej inteligencie, aj keď toho popri tom dokáže veľa. Vytvára index vašich údajov, akoby boli vašimi údajmi kniha alebo blok textu. Áno, databázy vytvárajú aj indexy, ale Splunkov prístup je oveľa bližšie procesu textového vyhľadávania.

Táto indexácia je prekvapivo flexibilná. Splunk je už naladený na moju konkrétnu aplikáciu, dáva zmysel protokolovým súborom a hneď ich nasal. Predáva sa tiež v mnohých rôznych balíkoch riešení, vrátane jedného na sledovanie servera Microsoft Exchange a druhého na zisťovanie webových útokov. Index pomáha korelovať údaje v týchto a niekoľkých ďalších bežných scenároch na strane servera.

mohlo by sa vám páčiť