Programovanie

Recenzia snehovej vločky: Dátový sklad bol v cloude vylepšený

Dátové sklady, ktoré sa tiež nazývajú podnikové dátové sklady (EDW), sú vysoko paralelné databázy SQL alebo NoSQL určené na analýzu. Umožní vám importovať údaje z viacerých zdrojov a rýchlo generovať komplikované správy z petabajtov údajov.

Rozdiel medzi dátovým skladom a dátovým trhom je v tom, že dátový trh je zvyčajne obmedzený na jednu tému a jedno oddelenie. Rozdiel medzi dátovým skladom a údajovým jazerom je v tom, že dátové jazero ukladá údaje v prirodzenom formáte, často objekty blob alebo súbory, zatiaľ čo dátový sklad ukladá údaje ako databázu.

Snehová vločka v skratke

Snehová vločka je plne relačný dátový sklad ANSI SQL, ktorý bol od základu vybudovaný pre cloud. Jeho architektúra oddeľuje výpočty od úložiska, takže ich môžete za chodu škálovať nahor a nadol, a to bez oneskorenia alebo prerušenia, dokonca aj vtedy, keď sú spustené dotazy. Potrebný výkon získate presne vtedy, keď ho potrebujete, a platíte iba za výpočty, ktoré používate. Snehová vločka momentálne funguje na webových službách Amazon a Microsoft Azure.

Snehová vločka je plne stĺpcová databáza s vektorizovaným vykonávaním, vďaka čomu dokáže zvládnuť aj tie najnáročnejšie analytické úlohy. Adaptívna optimalizácia snehovej vločky zaručuje, že dotazy automaticky získavajú najlepší možný výkon bez správy indexov, distribučných kľúčov alebo vyladení.

Snehová vločka môže podporovať neobmedzenú súbežnosť so svojou jedinečnou multiklastrovanou zdieľanou dátovou architektúrou. To umožňuje viacerým výpočtovým klastrom pracovať súčasne na rovnakých dátach bez zníženia výkonu. Snehová vločka sa môže dokonca automaticky škálovať, aby zvládla rôzne požiadavky na súbežnosť so svojou funkciou virtuálneho skladu s viacerými klastrami, transparentne pridávať výpočtové zdroje počas obdobia špičkového zaťaženia a zmenšovať veľkosť, keď zaťaženie klesne.

Snehová vločka konkurenti

Medzi konkurentov Snowflake v cloude patria Amazon Redshift, Google BigQuery a Microsoft Azure SQL Data Warehouse. Ostatní významní konkurenti, ako napríklad Teradata, Oracle Exadata, MarkLogic a SAP BW / 4HANA, môžu byť inštalovaní v cloude, v priestoroch a na zariadeniach.

Amazon Redshift

Amazon Redshift je rýchly a škálovateľný dátový sklad, ktorý vám umožní analyzovať všetky vaše dáta v dátovom sklade a dátovom jazere Amazon S3. Redshift zadávate pomocou SQL. Dátový sklad Redshift je klaster, ktorý dokáže automaticky nasadiť a odobrať kapacitu pri súčasnom načítaní dotazu. Všetky uzly klastra sú však poskytované v rovnakej zóne dostupnosti.

Microsoft Azure SQL Data Warehouse

Microsoft Azure SQL Data Warehouse je cloudový dátový sklad, ktorý využíva stroj Microsoft SQL a MPP (masívne paralelné spracovanie) na rýchle spustenie zložitých dotazov naprieč petabajtmi dát. Azure SQL Data Warehouse môžete použiť ako kľúčovú súčasť riešenia veľkých dát importom veľkých dát do SQL Data Warehouse pomocou jednoduchých dotazov PolyBase T-SQL a následným využitím výkonu MPP na vykonávanie vysoko výkonnej analýzy.

Azure SQL Data Warehouse je k dispozícii v 40 regiónoch Azure po celom svete, ale daný server skladu existuje iba v jednej oblasti. Výkonnosť dátového skladu môžete škálovať na požiadanie, ale všetky spustené dotazy budú zrušené a vrátené späť.

Google BigQuery

Google BigQuery je serverový, vysoko škálovateľný a nákladovo efektívny cloudový dátový sklad s dotazmi GIS, zabudovaným BI motorom a strojovým učením. BigQuery spúšťa rýchle dotazy SQL na gigabajty až petabajty dát a umožňuje priamy prístup k verejným údajom. alebo komerčné súbory údajov s vašimi údajmi.

Geografické umiestnenie množiny údajov BigQuery môžete nastaviť iba v čase vytvorenia. Všetky tabuľky, na ktoré sa odkazuje v dotaze, musia byť uložené v množinách údajov na rovnakom mieste. To platí aj pre súbory externých údajov a segmenty úložiska. Existujú ďalšie obmedzenia týkajúce sa umiestnenia externých údajov služby Google Cloud Bigtable. V predvolenom nastavení sa dotazy spúšťajú v rovnakej oblasti ako údaje.

Môžu to byť konkrétne miesta, napríklad Severná Virgínia, alebo veľké geografické oblasti, ako napríklad EÚ alebo USA. Ak chcete presunúť množinu údajov BigQuery z jednej oblasti do druhej, musíte ju exportovať do segmentu Google Cloud Storage na rovnakom mieste ako vaša množina dát, skopírovať segment na nové miesto a načítať ho do BigQuery na novom mieste.

Architektúra snehovej vločky

Snehová vločka používa pre svoje výpočtové potreby virtuálne výpočtové inštancie a službu ukladania údajov na trvalé ukladanie údajov. Snehová vločka sa nedá spustiť na súkromných cloudových infraštruktúrach (lokálnych alebo hostených).

Nie je potrebné vykonať žiadnu inštaláciu ani konfiguráciu. Všetku údržbu a ladenie vybavuje Snowflake.

Snehová vločka používa pre trvalé údaje centrálne úložisko údajov, ktoré je prístupné zo všetkých výpočtových uzlov v dátovom sklade. Súčasne Snowflake spracováva dotazy pomocou výpočtových klastrov MPP (masívne paralelné spracovanie), kde každý uzol v klastri ukladá lokálne časť celej množiny údajov.

Keď sa dáta načítajú do snehovej vločky, Snowflake ich reorganizuje do interného komprimovaného stĺpcového formátu. Interné dátové objekty sú prístupné iba prostredníctvom dotazov SQL. Môžete sa pripojiť k Snowflake cez jeho webové užívateľské rozhranie, cez CLI (SnowSQL), cez ovládače ODBC a JDBC z aplikácií ako Tableau, cez natívne konektory pre programovacie jazyky a cez konektory tretích strán pre nástroje BI a ETL.

snehová vločka

Vlastnosti snehovej vločky

Bezpečnosť a ochrana údajov. Bezpečnostné funkcie ponúkané v aplikácii Snowflake sa líšia podľa vydania. Aj štandardné vydanie ponúka automatické šifrovanie všetkých údajov a podporu viacfaktorovej autentifikácie a jednotného prihlásenia. Dodatok Enterprise pridáva pravidelné prekódovanie šifrovaných údajov a edícia Enterprise for Sensitive Data pridáva podporu HIPAA a PCI DSS. Môžete si zvoliť, kde sa budú vaše údaje ukladať, čo pomáha dodržiavať právne predpisy EÚ GDPR.

Štandardná a rozšírená podpora SQL. Snehová vločka podporuje väčšinu DDL a DML definovaných v SQL: 1999, plus transakcie, niektoré pokročilé funkcie SQL a časti analytických rozšírení SQL: 2003 (funkcie okna a skupiny zoskupení). Podporuje tiež bočné a materializované pohľady, agregačné funkcie, uložené procedúry a užívateľom definované funkcie.

Nástroje a rozhrania. Snowflake vám predovšetkým umožňuje ovládať vaše virtuálne sklady z grafického používateľského rozhrania alebo z príkazového riadku. To zahŕňa vytváranie, zmenu veľkosti (s nulovými prestojmi), pozastavenie a zrušenie skladov. Zmena veľkosti skladu za behu dotazu je veľmi pohodlná, zvlášť keď potrebujete zrýchliť dotaz, ktorý vám zaberá príliš veľa času. Pokiaľ viem, nie je implementovaná v žiadnom inom softvéri EDW.

Pripojiteľnosť Snowflake má konektory a / alebo ovládače pre Python, Spark, Node.js, Go, .Net, JDBC, ODBC a dplyr-snowflakedb, rozšírenie balíka dplyr otvoreného zdroja udržiavané na GitHub.

Import a export dát. Snehová vločka dokáže načítať širokú škálu formátov údajov a súborov. Patria sem komprimované súbory; oddelené dátové súbory; Formáty JSON, Avro, ORC, Parquet a XML; Zdroje údajov Amazon S3; a miestne súbory. Môže vykonávať hromadné načítanie a vykladanie do a z tabuliek, ako aj nepretržité hromadné načítanie zo súborov.

Zdieľanie údajov. Snehová vločka podporuje bezpečné zdieľanie údajov s inými účtami Snowflake. To sa zjednodušuje použitím tabuľkových klonov s nulovou kópiou.

snehová vločka

Výukové programy pre snehové vločky

Snowflake ponúka pomerne veľa návodov a videí. Niektoré vám pomôžu začať, niektoré preskúmajú konkrétne témy a niektoré ukážu funkcie.

Odporúčam prepracovať si praktický prehľad popísaný v príručke Hands-on Lab Guide for Snowflake Free Trial.) Trvalo mi to menej ako hodinu a stálo to menej ako päť kreditov. V bezplatnej skúšobnej verzii tak zostalo ďalších 195 kreditov, čo by malo stačiť na import niektorých skutočných údajov a vyskúšanie niektorých otázok.

Tento výukový program intenzívne využíva pracovné listy Snowflake, pohodlný spôsob spúšťania príkazov a SQL vo webovom používateľskom rozhraní. Zahŕňa okrem iného načítanie údajov; dopytovanie, ukladanie výsledkov do pamäti a klonovanie; pološtruktúrované údaje; a cestovanie v čase na obnovu databázových objektov.

Celkovo mi Snowflake pripadá dosť pôsobivá. Očakával som, že to bude neohrabané, ale tak to vôbec nie je. V skutočnosti mnohé z jeho operácií v dátovom sklade idú oveľa rýchlejšie, ako som čakal, a keď sa objaví nejaký, ktorý prehľadáva, môžem zasiahnuť a rozšíriť dátový sklad bez prerušenia toho, čo sa deje.

Veľkú časť škálovania je možné automatizovať. Pri vytváraní dátového skladu (pozri snímku obrazovky vyššie) existuje možnosť povoliť viac klastrov, možnosť nastaviť politiku zmeny mierky, možnosť automatického pozastavenia a možnosť automatického obnovenia. Predvolená doba automatického pozastavenia je 10 minút, čo zabráni skladu spotrebovať zdroje, keď je nečinný dlhšie. Automatické obnovenie je takmer okamžité a nastane vždy, keď je v sklade dopyt.

Vzhľadom na to, že Snowflake ponúka 30-dňovú bezplatnú skúšobnú verziu s kreditom 400 dolárov a nie je potrebné nič inštalovať, mali by ste byť schopní určiť, či bude Snowflake vyhovovať vašim účelom bez akýchkoľvek hotovostných výdavkov. Odporučil by som to roztočiť.

Náklady: 2 USD / kredit plus 23 USD / TB / mesiac úložiska, štandardný program, predplatené úložisko. Jeden kredit sa rovná jednému uzlu * hodinu, účtovaný druhým. Plány na vyššej úrovni sú nákladnejšie.

Platformy: Amazon Web Services, Microsoft Azure

$config[zx-auto] not found$config[zx-overlay] not found