Programovanie

Ako si zvoliť platformu na analýzu údajov

Či už máte zodpovednosť za vývoj softvéru, vývoj, systémy, cloudy, automatizáciu testov, spoľahlivosť stránok, vedúce tímy scrumov, infosec alebo iné oblasti informačných technológií, budete mať čoraz väčšie príležitosti a požiadavky na prácu s údajmi, analytikou a strojovým učením .

Tech Spotlight: Analýzy

  • Ako si zvoliť platformu na analýzu údajov ()
  • 6 najlepších postupov pre vizualizáciu obchodných údajov (Computerworld)
  • Analytika v zdravotníctve: 4 príbehy o úspechu (CIO)
  • SD-WAN a analytika: Spojenie pre nový normál (Network World)
  • Ako chrániť algoritmy ako duševné vlastníctvo (CSO)

Vaše vystavenie analytike môže pochádzať z údajov IT, ako je napríklad vývoj metrík a štatistík z agilných, devopsových alebo webových metrík. Nie je lepší spôsob, ako sa naučiť základné zručnosti a nástroje v oblasti údajov, analýzy a strojového učenia, ako ich aplikovať na údaje, ktoré poznáte a ktoré môžete získať na základe poznatkov potrebných na uskutočnenie akcií.

Keď sa rozídete zo sveta IT dát a poskytujete služby tímom vedcov v oblasti údajov, vedcom v oblasti údajov o občanoch a ďalším obchodným analytikom, ktorí vykonávajú vizualizácie údajov, analytiku a strojové učenie, veci sa trochu komplikujú.

Najskôr je potrebné načítať a vyčistiť údaje. Potom, v závislosti od objemu, rozmanitosti a rýchlosti údajov, sa pravdepodobne stretnete s viacerými back-end databázami a cloudovými dátovými technológiami. A konečne, za posledných niekoľko rokov sa to, čo bývalo voľbou medzi nástrojmi business inteligencie a vizualizácie dát, nafúklo do komplexnej matice analytík celého životného cyklu a platforiem strojového učenia.

Dôležitosť analytiky a strojového učenia zvyšuje zodpovednosť IT v niekoľkých oblastiach. Napríklad:

  • IT často poskytuje služby okolo všetkých integrácií údajov, back-endových databáz a analytických platforiem.
  • Devops tímy často nasadia a rozšíria dátovú infraštruktúru, aby umožnili experimentovanie na modeloch strojového učenia a potom podporovali spracovanie produkčných údajov.
  • Tímy sieťovej prevádzky nadväzujú bezpečné spojenia medzi analytickými nástrojmi SaaS, multicloudmi a dátovými centrami.
  • Tímy pre správu IT služieb reagujú na požiadavky a incidenty týkajúce sa dátových a analytických služieb.
  • Spoločnosť Infosec dohliada na správu a implementáciu zabezpečenia údajov.
  • Vývojári integrujú analytické modely a modely strojového učenia do aplikácií.

Vzhľadom na prudký rozvoj analytiky, cloudových dátových platforiem a schopností strojového učenia je tu základná sada na lepšie pochopenie životného cyklu analytiky, od integrácie a čistenia dát, cez dataops a úpravy, až po samotné databázy, dátové platformy a ponuky analytiky.

Analytics začína integráciou a čistením údajov

Predtým, ako analytici, občianski vedci alebo tímy pre vedecké práce v oblasti údajov budú môcť vykonať analýzu, musia im byť požadované zdroje údajov sprístupnené na ich platformách na vizualizáciu a analýzu údajov.

Na začiatok môžu existovať obchodné požiadavky na integráciu údajov z viacerých podnikových systémov, extrakciu údajov z aplikácií SaaS alebo na streamovanie údajov zo senzorov IoT a iných zdrojov údajov v reálnom čase.

Toto sú všetky kroky na zhromažďovanie, načítanie a integráciu údajov pre analytiku a strojové učenie. V závislosti od zložitosti údajov a problémov s kvalitou údajov existujú príležitosti zapojiť sa do dátových cyklov, katalogizácie údajov, správy kmeňových údajov a ďalších iniciatív týkajúcich sa správy údajov.

Všetci poznáme vetu „odpadky, odpadky“. Analytici musia byť znepokojení kvalitou svojich údajov a vedci zaoberajúci sa údajmi musia mať obavy zo zaujatosti svojich modelov strojového učenia. Včasnosť integrácie nových údajov je takisto rozhodujúca pre podniky, ktoré sa chcú viac riadiť údajmi v reálnom čase. Z týchto dôvodov sú kanály, ktoré načítavajú a spracúvajú údaje, kriticky dôležité v analytike a strojovom učení.

Databázy a dátové platformy pre všetky typy výziev v oblasti správy údajov

Načítanie a spracovanie údajov je nevyhnutným prvým krokom, potom sa však všetko komplikuje pri výbere optimálnych databáz. Dnešné možnosti zahŕňajú podnikové dátové sklady, dátové jazerá, platformy na spracovanie veľkých dát a špecializované NoSQL, grafy, páry kľúč - hodnota, dokumenty a stĺpcové databázy. Na podporu rozsiahleho dátového skladovania a analýzy existujú platformy ako Snowflake, Redshift, BigQuery, Vertica a Greenplum. Nakoniec existujú platformy pre veľké dáta, vrátane Spark a Hadoop.

Veľké podniky pravdepodobne budú mať viac dátových úložísk a na sprístupnenie všetkých týchto úložísk pre analytiku použijú cloudové dátové platformy, ako je Cloudera Data Platform alebo MapR Data Platform, alebo platformy na orchestráciu údajov, ako je InfoWorks DataFoundy.

Hlavné verejné cloudy vrátane AWS, GCP a Azure majú všetky platformy a služby na správu údajov, ktoré je potrebné prepracovať. Napríklad Azure Synapse Analytics je dátový sklad SQL spoločnosti Microsoft v cloude, zatiaľ čo Azure Cosmos DB poskytuje rozhrania s mnohými úložiskami údajov NoSQL, vrátane Cassandra (stĺpcové údaje), MongoDB (údaje kľúč - hodnota a dokumenty) a Gremlin (údaje grafu) .

Dátové jazerá sú populárne nakladacie doky na centralizáciu neštruktúrovaných údajov na rýchlu analýzu. Na tento účel si môžete vybrať z Azure Data Lake, Amazon S3 alebo Google Cloud Storage. Na spracovanie veľkých dát majú všetky cloudy AWS, GCP a Azure tiež ponuky Spark a Hadoop.

Platformy Analytics sa zameriavajú na strojové učenie a spoluprácu

Po načítaní, vyčistení a uložení údajov môžu vedci a analytici údajov začať vykonávať analytiku a strojové učenie. Organizácie majú veľa možností v závislosti na druhoch analytiky, schopnostiach analytického tímu vykonávať prácu a štruktúre základných údajov.

Analýzu je možné vykonávať v samoobslužných nástrojoch na vizualizáciu údajov, ako sú Tableau a Microsoft Power BI. Oba tieto nástroje sa zameriavajú na vedcov v oblasti údajov o občanoch a zverejňujú vizualizácie, výpočty a základné analýzy. Tieto nástroje podporujú základnú integráciu a reštrukturalizáciu údajov, ale zložitejšie hádky s údajmi sa často vyskytujú pred analytickými krokmi. Tableau Data Prep a Azure Data Factory sú sprievodnými nástrojmi, ktoré pomáhajú pri integrácii a transformácii údajov.

Tímy Analytics, ktoré chcú automatizovať viac než len integráciu a prípravu údajov, sa môžu pozrieť na platformy ako Alteryx Analytics Process Automation. Táto komplexná platforma pre spoluprácu spája vývojárov, analytikov, vedcov v oblasti údajov o občanoch a vedcov v oblasti údajov s automatizáciou pracovného toku a samoobslužným spracovaním údajov, analýzou a spracovaním strojového učenia.

Alan Jacobson, hlavný analytik a dátový pracovník spoločnosti Alteryx, vysvetľuje: „Vznik automatizácie analytických procesov (APA) ako kategórie podčiarkuje nové očakávanie, že každý pracovník v organizácii bude dátovým pracovníkom. IT vývojári nie sú výnimkou a rozšíriteľnosť platformy Alteryx APA je obzvlášť užitočná pre týchto znalostných pracovníkov. “

Existuje niekoľko nástrojov a platforiem zameraných na vedcov v oblasti údajov, ktoré sa zameriavajú na zvýšenie ich produktivity s technológiami ako Python a R a zároveň na zjednodušenie mnohých krokov v oblasti prevádzky a infraštruktúry. Napríklad Databricks je operačná platforma pre dátovú vedu, ktorá umožňuje nasadenie algoritmov do serverov Apache Spark a TensorFlow a súčasne spravuje výpočtové klastre v cloudu AWS alebo Azure.

Teraz niektoré platformy ako SAS Viya kombinujú prípravu dát, analytiku, predpovedanie, strojové učenie, textovú analýzu a správu modelov strojového učenia do jednej modulárnej platformy. SAS prevádzkuje analytiku a zameriava sa na vedcov v oblasti údajov, obchodných analytikov, vývojárov a riadiacich pracovníkov pomocou komplexnej platformy pre spoluprácu.

David Duling, riaditeľ výskumu a vývoja v oblasti rozhodovania v SAV, hovorí: „Modules považujeme za postup vytvárania opakovateľného a kontrolovateľného súboru operácií na nasadenie všetkých analýz vrátane modelov AI a ML do operačných systémov. V rámci vývoja môžeme použiť moderné devops postupy pre správu, testovanie a monitorovanie kódu. To pomáha zvyšovať frekvenciu a spoľahlivosť nasadenia modelov, čo zase zvyšuje svižnosť obchodných procesov postavených na týchto modeloch. “

Dataiku je ďalšia platforma, ktorá sa snaží priniesť prepracovanie dát, analytiku a strojové učenie do rastúcich tímov vedcov o údajoch a ich spolupracovníkov. Dataiku má vizuálny programovací model, ktorý umožňuje spoluprácu a poznámkové bloky kódov pre pokročilejších vývojárov SQL a Python.

Cieľom ďalších platforiem pre analýzu a strojové učenie od popredných dodávateľov podnikového softvéru je priniesť analytické možnosti do dátových centier a cloudových dátových zdrojov. Napríklad Oracle Analytics Cloud a SAP Analytics Cloud sa zameriavajú na centralizáciu inteligencie a automatizáciu štatistík, aby umožňovali komplexné rozhodnutia.

Výber platformy na analýzu údajov

Voľba nástrojov na integráciu, skladovanie a analýzu dát bola predtým, ako dôjde k nárastu veľkých dát, strojového učenia a správy údajov, jednoduchší. V dnešnej dobe existuje kombinácia terminológie, schopností platformy, prevádzkových požiadaviek, potrieb riadenia a cielených personálnych skupín, vďaka ktorým je výber platforiem komplikovanejší, najmä preto, že mnoho dodávateľov podporuje viac paradigiem použitia.

Podniky sa líšia analytickými požiadavkami a potrebami, ale mali by hľadať nové platformy z hľadiska toho, čo už existuje. Napríklad:

  • Spoločnosti, ktoré dosiahli úspech v programoch občianskej dátovej vedy a ktoré už majú zavedené nástroje na vizualizáciu údajov, môžu chcieť rozšíriť tento program o automatizáciu analytických procesov alebo technológie na prípravu údajov.
  • Podniky, ktoré chcú reťazec nástrojov, ktorý umožní vedcom pracujúcim s dátami v rôznych častiach podnikania, môžu zvážiť end-to-end analytické platformy s modernými funkciami.
  • Organizácie s viacerými rozdielnymi back-endovými dátovými platformami môžu využívať cloudové dátové platformy na ich katalogizáciu a centrálnu správu.
  • Spoločnosti štandardizujúce všetky alebo väčšinu dátových schopností u jedného verejného dodávateľa cloudu by mali preskúmať ponúkané platformy integrácie dát, správy dát a analýzy dát.

Keď sa analytika a strojové učenie stanú dôležitou kľúčovou kompetenciou, mali by technológovia zvážiť prehĺbenie porozumenia dostupným platformám a ich schopnostiam. Výkon a hodnota analytických platforiem sa iba zvýši, rovnako ako ich vplyv v celom podniku.

$config[zx-auto] not found$config[zx-overlay] not found