Programovanie

4 dôvody zlyhania veľkých dátových projektov - a 4 spôsoby, ako uspieť

Veľké dátové projekty sú veľké, čo sa týka rozsahu a rozsahu, často veľmi ambiciózne a až príliš často úplné zlyhania. V roku 2016 spoločnosť Gartner odhadovala, že 60 percent veľkých dátových projektov zlyhalo. O rok neskôr analytik spoločnosti Gartner Nick Heudecker uviedol, že jeho spoločnosť je so svojimi 60-percentným odhadom „príliš konzervatívna“ a chybovosť priblížila na 85 percent. Dnes hovorí, že sa nič nezmenilo.

Gartner nie je v tomto hodnotení sám. Dlhoročný výkonný riaditeľ spoločnosti Microsoft a (donedávna) výkonný riaditeľ spoločnosti Snowflake Computing Bob Muglia pre analytický web Datanami povedal: „Nemôžem nájsť šťastného zákazníka Hadoop. Je to také jednoduché. ... Počet zákazníkov, ktorí skutočne úspešne skrotili Hadoop, je pravdepodobne menej ako 20 a môže byť menej ako desať. To je len orech vzhľadom na to, ako dlho je tento produkt, táto technológia na trhu a koľko energie z tohto odvetvia do toho išlo. “ Hadoop je samozrejme motor, ktorý spustil mániu veľkých dát.

Ostatní ľudia oboznámení s veľkými dátami tiež tvrdia, že problém zostáva skutočný, závažný a netýka sa úplne technológie. Technológia je v skutočnosti menšou príčinou zlyhania v porovnaní so skutočnými vinníkmi. Tu sú štyri kľúčové dôvody, prečo projekty veľkých dát zlyhajú - a štyri kľúčové spôsoby, ako môžete uspieť.

Problém veľkých dát č. 1: Zlá integrácia

Heudecker uviedol, že za zlyhaním veľkých dát stojí jeden zásadný technologický problém, a to integrácia hluchých dát z viacerých zdrojov, aby získali informácie, ktoré spoločnosti požadujú. Budovanie spojení s nehlučnými starými systémami jednoducho nie je ľahké. Náklady na integráciu sú podľa neho päť až desaťkrát vyššie ako náklady na softvér. „Najväčším problémom je jednoduchá integrácia: Ako prepojíte viac zdrojov údajov, aby ste dosiahli nejaký výsledok? Veľa chodí po trase dátových jazier a premýšľa, či všetko spojím s niečím, čo sa stane. Nie je to tak, “uviedol.

Tiché dáta sú súčasťou problému. Klienti mu povedali, že načítali údaje zo záznamových systémov do spoločného prostredia, ako je dátové jazero, a nedokázali zistiť, čo tieto hodnoty znamenajú. "Keď vložíš dáta do dátového jazera, odkiaľ vieš, čo to číslo 3 znamená?" Spýtal sa Heudecker.

Pretože pracujú v silách alebo vytvárajú dátové jazerá, ktoré sú iba dátovými močiarmi, iba škrabú na povrchu toho, čo by mohli dosiahnuť, uviedol Alan Morrison, hlavný vedecký pracovník spoločnosti PwC. "Nerozumejú všetkým vzťahom v dátach, ktoré je potrebné vyťažiť alebo odvodiť a urobiť z nich explicitný údaj, aby stroje mohli tieto údaje adekvátne interpretovať." Potrebujú vytvoriť vrstvu znalostného grafu, aby stroje mohli interpretovať všetky údaje inštancie, ktoré sú mapované pod nimi. Inak ste práve dostali dátové jazero, ktoré je dátovým močiarom, “uviedol.

Problém veľkých dát č. 2: Nedefinované ciele

Myslíte si, že väčšina ľudí realizujúcich veľký dátový projekt bude mať v skutočnosti cieľ, ale prekvapivé množstvo nie. Projekt len ​​spustia s cieľom ako dodatočný nápad.

"Musíte problém dobre vyriešiť." Ľudia si myslia, že môžu prepojiť štruktúrované a neštruktúrované údaje a získať potrebný prehľad. Problém musíte definovať vopred. Aký prehľad chcete získať? Má jasnú definíciu problému a jeho definíciu vopred, “uviedol Ray Christopher, manažér produktového marketingu spoločnosti Talend, softvérovej spoločnosti pre integráciu dát.

Joshua Greenbaum, hlavný analytik spoločnosti Enterprise Application Consulting, uviedol, že hlavnou vodiacou mierou je zvyčajne to, čo vyvrátilo projekty veľkých dát aj dátových skladov, ako je akumulácia veľkého množstva dát, a nie riešenie samostatných obchodných problémov.

"Ak spojíte veľké množstvo dát, získate skládku dát." Ja tomu hovorím sanitárna skládka. Skládky nie sú dobrým miestom na hľadanie riešení, “uviedol Greenbaum. „Vždy hovorím klientom, aby rozhodli, aký samostatný obchodný problém je potrebné najskôr vyriešiť, a idem s tým, potom sa pozrime na kvalitu dostupných údajov a problém s údajmi vyriešime, akonáhle bude obchodný problém identifikovaný.“

„Prečo zlyháva väčšina veľkých dátových projektov? Pre začiatočníkov chýba väčšine vedúcich veľkých dátových projektov vízia, “uviedol Morrison zo spoločnosti PwC. „Podniky sú zmätené z veľkých dát. Väčšina myslí len na numerické údaje alebo na čiernu skrinku NLP a motory na rozpoznávanie, ktoré umožňujú jednoduché získavanie textu a ďalšie druhy rozpoznávania vzorov. “

Problém veľkých dát č. 3: Rozdiel v zručnostiach

Spoločnosti si príliš často myslia, že interné zručnosti, ktoré si vybudovali v oblasti dátových skladov, sa premenia na veľké dáta, ak to tak zjavne nie je. Pre začiatočníkov, dátové sklady a veľké dáta spracúvajú dáta úplne opačne: Dátové sklady robia schému pri zápise, čo znamená, že dáta sa vyčistia, spracujú, štruktúrujú a usporiadajú skôr, ako sa dostanú do dátového skladu.

Vo veľkých dátach sa dáta hromadia a aplikuje sa schéma pri čítaní, kde sa dáta spracovávajú tak, ako sa čítajú. Takže ak sa spracovanie údajov vráti z jednej metodiky do druhej, môžete sa staviť, že rovnako sú to aj zručnosti a nástroje. A to je len jeden príklad.

"Zručnosti budú vždy výzvou." Ak hovoríme o veľkých dátach o 30 rokov, bude tu stále výzva, “uviedol Heudecker. "Mnoho ľudí vešá klobúk na Hadoop." Moji klienti majú problémy s hľadaním zdrojov Hadoop. Spark je o niečo lepší, pretože ten stoh je menší a ľahšie sa trénuje. Hadoop je desiatky softvérových komponentov. “

Problém veľkých dát č. 4: Medzery v generovaní technológií

Veľké dátové projekty často čerpajú zo starších dátových sil a snažia sa ich spojiť s novými zdrojmi údajov, ako sú senzory alebo webový prenos alebo sociálne médiá. To nie je úplne chyba podniku, ktorý tieto údaje zhromaždil v čase pred myšlienkou analýzy veľkých dát, ale napriek tomu je to problém.

„Takmer najväčšou chýbajúcou zručnosťou je zručnosť porozumieť tomu, ako spojiť tieto dve zainteresované strany, aby ich prinútili spolupracovať pri riešení zložitých problémov,“ uviedol konzultant Greenbaum. „Dátové sila môžu byť prekážkou pre veľké dátové projekty, pretože neexistuje žiadny štandard. Takže keď sa začnú zaoberať plánovaním, zistia, že tieto systémy neboli implementované spôsobom, ktorý by ich opätovne použil, “uviedol.

"S rôznymi architektúrami musíte spracovanie robiť inak," povedal Talend’s Christopher. „Rozdiely v technických zručnostiach a architektúre boli častým dôvodom, prečo nemôžete vziať súčasné nástroje pre lokálny dátový sklad a integrovať ho do veľkého dátového projektu - pretože tieto technológie sa stanú príliš nákladnými na spracovanie nových údajov. Potrebujete teda Hadoopand Spark a musíte sa naučiť nové jazyky. “

Riešenie veľkých dát č. 1: Plánujte dopredu

Je to staré klišé, ale je tu uplatniteľné: Ak neplánujete, plánujte zlyhať. "Úspešné spoločnosti sú tie, ktoré majú výsledok," uviedol Gartner’s Heudecker. "Vyberte si niečo malé a dosiahnuteľné a nové." Neužívajte starší prípad použitia, pretože máte obmedzenia. “

"Musia najskôr myslieť na dáta a modelovať svoje organizácie strojovo čitateľným spôsobom, aby dáta tejto organizácii slúžili," uviedol Morrison zo spoločnosti PwC.

Riešenie veľkých dát č. 2: Spolupráca

Zúčastnené strany sú až príliš často vynechané z projektov veľkých dát - práve z ľudí, ktorí by použili výsledky. Ak budú všetky zainteresované strany spolupracovať, môžu prekonať mnohé prekážky, uviedol Heudecker. „Ak kvalifikovaní ľudia spolupracujú a spolupracujú s obchodnou stranou na dosiahnutí uskutočniteľného výsledku, môže to pomôcť,“ uviedol.

Heudecker poznamenal, že spoločnosti, ktoré uspejú v oblasti veľkých dát, investujú veľké prostriedky do potrebných zručností. Toto vidí najviac v spoločnostiach založených na dátach, ako sú finančné služby, Uber, Lyft a Netflix, kde imanie spoločnosti spočíva na tom, že má k dispozícii dobré a použiteľné dáta.

„Urobte z neho tímový šport, ktorý vám pomôže vyčistiť a zhromaždiť údaje a vyčistiť ich. Ak to urobíte, môže to tiež zvýšiť integritu údajov, “uviedol Talend’s Christopher.

Riešenie veľkých dát č. 3: Zameranie

Zdá sa, že ľudia majú myslenie, že projekt veľkých dát musí byť masívny a ambiciózny. Rovnako ako všetko, čo sa učíte prvýkrát, najlepší spôsob, ako uspieť, je začať od malého, potom postupne expandovať v ambíciách a rozsahu.

"Mali by veľmi úzko definovať, čo robia," povedal Heudecker. „Mali by si vybrať problémovú doménu a vlastniť ju, napríklad zisťovanie podvodov, mikrosegmentovanie zákazníkov alebo zisťovanie, aký nový produkt by mal byť uvedený na trh Millennial.“

"Na konci dňa musíte požiadať o pochopenie, ktoré chcete, alebo o digitalizáciu obchodného procesu," povedal Christopher. "Nehodíte iba technológiu na obchodný problém; musíte to definovať vopred. Dátové jazero je nevyhnutnosťou, ale nechcete zhromažďovať údaje, ak ich nebude používať nikto v podnikaní. “

V mnohých prípadoch to tiež znamená, že nebudete nadmerne nafukovať svoju vlastnú spoločnosť. „V každej spoločnosti, ktorú som kedy študoval, existuje iba niekoľko stoviek kľúčových konceptov a vzťahov, na ktorých beží celé podnikanie. Len čo to pochopíte, uvedomíte si, že všetky tieto milióny vyznamenaní sú iba nepatrnými variáciami tých niekoľkých stovák dôležitých vecí, “uviedol Morrison z PwC. "V skutočnosti zistíte, že mnohé z miernych variácií vôbec nie sú variáciami." Sú to skutočne rovnaké veci s rôznymi názvami, rôznymi štruktúrami alebo rôznymi štítkami, “dodal.

Riešenie veľkých dát č. 4: Odhodiť odkaz

Aj keď možno budete chcieť použiť tieto terabajty dát zhromaždených a uložených vo vašom dátovom sklade, skutočnosťou je, že vám môže lepšie poslúžiť sústredenie sa na novo zhromaždené dáta v úložných systémoch určených pre veľké dáta a určené na nevyužitie.

„Rozhodne by som odporučil, aby ste sa nevyhnutne nestretli s existujúcou technologickou infraštruktúrou len preto, že vaša spoločnosť má licenciu na ňu,“ uviedol konzultant Greenbaum. „Nové zložité problémy si často môžu vyžadovať nové komplexné riešenia. Zamieriť na staré náradie po celom desaťročí nie je správna cesta. Mnoho spoločností používa staré nástroje a projekt to zabíja. “

Morrison o = poznamenal: „Podniky sa musia prestať zamotávať nohami vo svojom spodnom prádle a len odhodiť starú architektúru, ktorá vytvára viac síl.“ Tiež uviedol, že musia prestať očakávať, že dodávatelia vyriešia za nich problémy so zložitým systémom. „Zdá sa, že po celé desaťročia mnohí predpokladajú, že si môžu kúpiť cestu z problému s veľkými dátami. Akýkoľvek problém s veľkými dátami je systémový problém. Pokiaľ ide o akékoľvek zložité zmeny systémov, musíte si vybudovať cestu von, “uviedol.