Programovanie

10 najhorších postupov veľkých dát

Áno, môžete ohroziť veľké dáta. Môžete to však risknúť správnym alebo nesprávnym spôsobom. Tu je 10 najhorších postupov, ktorým sa treba vyhnúť.

1. Výber platformy MongoDB ako platformy pre veľké dáta. Prečo si vyberám MongoDB? Nie som, ale z akýchkoľvek dôvodov je v súčasnosti najviac zneužívanou databázou NoSQL MongoDB. Zatiaľ čo MongoDB má agregačný rámec, ktorý chutí ako MapReduce a dokonca (veľmi zle zdokumentovaný) konektor Hadoop, jeho sladkou stránkou je operačná databáza, nie analytický systém.

[Andrew C. Oliver odpovedá na otázku každého človeka: Ktorú podivnú databázu mám použiť? | Tiež zapnuté: Čas pre štandardy NoSQL je teraz | Získajte denné prehľady hlavných príbehov každý deň v dennom vestníku. ]

Keď sa začne tvoja veta: „Na analýzu použijeme Mongo ...,“ zastavte sa priamo pri tom a premýšľajte, čo robíte. Niekedy skutočne myslíte „zhromaždiť na neskoršiu analýzu“, čo môže byť v poriadku, v závislosti od toho, čo robíte. Ak však skutočne myslíte, že budete používať MongoDB ako nejaký druh chorej technológie na skladovanie dát, váš projekt môže byť na začiatku odsúdený na zánik.

2. Použitie schémy RDBMS ako súborov. Áno, vyhodili ste každú tabuľku z vášho RDBMS do súboru. Plánujete to uložiť na HDFS. Plánujete na ňom použiť Úľ.

Po prvé, viete, že Úľ je pre niečo normálne pomalší ako váš RDBMS, však? Chystá sa na MapReduce aj jednoduchý výber. Pozrite sa na „optimalizovanú“ cestu pre spojenia „tabuľky“. Ďalej sa pozrime na veľkosť riadkov - no viete, že máte ploché súbory merané v jednociferných kilobajtoch. Programu Hadoop sa najlepšie darí vo veľkých množinách relatívne plochých údajov. Som si istý, že môžete vytvoriť výňatok, ktorý je viac denormalizovaný.

3. Vytváranie dátových rybníkov. Na svojej ceste k vytvoreniu dátového jazera ste odbočili z iného nadjazdu a vytvorili ste sériu dátových rybníkov. Zákon spoločnosti Conway opäť zasiahol a vy ste umožnili každej obchodnej skupine nielen vytvoriť si vlastnú analýzu údajov, ale aj svoje vlastné mini úložiská. To na prvý pohľad neznie zle, ale pri rôznych výňatkoch a spôsoboch krájania a krájania dát skončíte rôznymi pohľadmi na dáta. Nemyslím plochý proti kocke - mám na mysli rôzne odpovede na niektoré rovnaké otázky. Schéma pri čítaní neznamená „vôbec neplánujte“, ale znamená „neplánujte každú otázku, ktorú by ste mohli položiť“.

Mali by ste si však naplánovať celkový obraz. Ak predávate widgety, existuje veľká šanca, že niekto bude chcieť zistiť, koľko, komu a ako často ste widgety predávali. Pokračujte a získajte to v bežných formátoch a urobte trochu prvotriedny dizajn, aby ste sa uistili, že neskončíte s dátovými rybníkmi a kalužami, ktoré vlastní každá jednotlivá obchodná skupina.

4. Zlyhanie vývoja pravdepodobných prípadov použitia. Myšlienku dátového jazera predávajú predajcovia, aby nahradili prípady skutočného použitia. (Je to tiež spôsob, ako uniknúť obmedzeniam rezortného financovania.) Prístup založený na údajoch môže byť platný, mali by ste však mať na pamäti skutočné prípady použitia. Nie je ťažké prísť s nimi vo väčšine stredne veľkých podnikov. Začnite preskúmaním, keď niekto naposledy povedal: „Nie, nemôžeme, pretože to databáza nedokáže zvládnuť.“ Potom prejdite na „duh“. Napríklad „rozvoj podnikania“ nemá byť iba titulnou propagáciou vášho najlepšieho predajcu; má to niečo znamenať.

Čo napríklad povedzme s použitím Mahouta na vyhľadanie objednávok zákazníkov, ktoré sú bežnými odľahlými hodnotami? Vo väčšine spoločností sa väčšina objednávok zákazníkov navzájom podobá. Čo však s objednávkami, ktoré sa stávajú dosť často, ale nezhodujú sa s bežnými? Môžu byť príliš malé na to, aby sa na nich predajcovia starali, ale môžu naznačovať budúci smer podnikania pre vašu spoločnosť (to znamená skutočný rozvoj podnikania). Ak pre Hadoop nemôžete nabiť aspoň pár dobrých spôsobov použitia v reálnom svete, možno to nakoniec nepotrebujete.

5. Thinking Hive je všetko, koniec-všetko. Poznáš SQL. Máte radi SQL. Robili ste SQL. Chápem to, človeče, ale možno aj ty môžeš vyrásť? Možno by ste mali siahnuť hlboko do desaťročia alebo troch rokov a spomenúť si na mladého chlapca, ktorý sa naučil SQL a videl svety, ktoré sa mu otvorili. Teraz si ho predstavte, ako sa súčasne učí inú vec.

$config[zx-auto] not found$config[zx-overlay] not found