Programovanie

Ako Apache Ranger a Chuck Norris pomáhajú zabezpečiť Hadoop

Bezpečnostný projekt Hadoop s názvom Ranger bol údajne pomenovaný na počesť Chucka Norrisa v jeho úlohe „Walkera, Texas Rangera“. Projekt má svoje korene v XA Secure, ktorý získal Hortonworks, ktorý sa potom premenoval na Argus a potom sa usadil v Apache Software Foundation ako Ranger.

Keď Hadoop začínal, bola to sada voľne spojených častí, ktoré sa primárne používali na zadných stranách veľkých internetových spoločností, ako je Yahoo. Tieto časti boli zabalené do distribúcií a predávané ako Hadoop ako MapR, Cloudera a Hortonworks.

Takáto postupná architektúra nie je vo svete otvoreného zdroja alebo dokonca v širokom svete komerčného softvéru neobvyklá. Výsledkom však sú bezpečnostné výzvy. Niektorí to budú čítať ako „je to neisté“, ale nemusí to tak byť - hoci to tak môže byť. Problém je skôr v tom, ako autentifikujete používateľov vo všetkých častiach tohto systému častí - a akonáhle ich autentifikujete, ako ich autorizujete, aby robili iba to, čo im chcete umožniť?

Každá časť Hadoop má svoje vlastné autentifikácie LDAP a Kerberos, ako aj svoje vlastné prostriedky a pravidlá autorizácie (a vo väčšine prípadov to isté samostatné implementácie). To znamená, že musíte nakonfigurovať protokol Kerberos alebo LDAP pre každú jednotlivú časť a potom definovať tieto pravidlá v každej samostatnej konfigurácii. Čo robí Apache Ranger, je poskytnúť doplnok do každej z týchto častí Hadoop a spoločné úložisko autentifikácie a tiež vám umožní definovať politiky na centralizovanom mieste.

Ranger je jednoznačne projekt sponzorovaný spoločnosťou Hortonworks (na rozdiel od služieb Cloudera alebo MapR alebo teraz Databricks). Toto poznáte čiastočne podľa toho, ako je obalené (zelené) a čiastočne podľa toho, čo podporuje. V súčasnosti podporuje program Ranger nasledovné:

  • HDFS
  • Úľ
  • Búrka
  • HBase
  • Knox
  • PRIADZE
  • Kafka
  • Solr

Okrem HDFS a HBase, ktoré sú podporované ako súčasť jadra Hadoop a Solr, ide o niektoré z viac „Hortonworksy“ projektov. V modernom nasadení pravdepodobne uvidíte ďalšie komponenty, napríklad Spark alebo Impala (od spoločnosti Cloudera). Napriek tomu je Ranger skvelá vec.

Ako funguje Ranger

V Rangeri pracujete s každou zložkou v úložisku. Tieto úložiská sú založené na základnom doplnku alebo agentovi, ktorý pracuje s daným komponentom.

Ku každému z týchto úložísk je priradená sada politík, ktoré sú spojené s prostriedkom, ktorý chránite (tabuľka, priečinok alebo stĺpec), a skupinou (napríklad správcovia) a s tým, čo majú s danou vecou povolené (prečítať , písať atď.). Každej politike dáte názov - napríklad: „Tabuľku apac_china dokáže prečítať iba grp_nixon.“

GUI s centrálnym pohľadom na to, kto smie robiť, čo prináša potrebnú jednoduchosť ekosystému Hadoop, ale to nie je všetko, čo Ranger ponúka. Poskytuje tiež protokolovanie auditu. Aj keď to nemôže nahradiť všetky protokoly auditu aplikácií, ktoré by ste kedy mohli chcieť, ak potrebujete jednoducho vedieť, kto k čomu pristupoval na HDFS alebo aké politiky sa kde presadzovali, je to pravdepodobne presne to, čo potrebujete.

Okrem toho môže spoločnosť Ranger poskytovať služby správy kľúčov, aby mohla pracovať s novým TDFS HDFS (transparentné šifrovanie údajov). Ak teda potrebujete šifrovanie typu end-to-end a čistý spôsob správy kľúčov, ktoré sú s ním spojené, program Ranger nie je zlým miestom na začatie.

Ranger pozerá dopredu

Myslím si, že najväčšia nádej pre Ranger pochádza z jeho rozšíriteľnosti. Môžete si vytvoriť vlastné doplnky pre oblasti, ktoré nie sú pokryté.

Ak ste dúfali, že to bol koniec príbehu o bezpečnosti Hadoop, bohužiaľ má Cloudera svoj vlastný projekt Apache s názvom Sentry (ktorý, zdá sa, že podporuje aj MapR), ktorý pokrýva takmer rovnakú oblasť. Aby sme boli spravodliví, najskôr bol Sentry, potom Hortonworks získal XA Secure. To znamená, že dokumentácia pre Sentry prakticky neexistuje, pokrytie je obmedzenejšie a webová stránka projektu je v havarijnom stave (aj keď aktivita na GitHube bola nedávno zaznamenaná).

Bezpečnosť Hadoop prešla dlhú cestu. Ranger poskytuje pomerne komplexný, aj keď trochu neúplný spôsob riadenia ekosystému. Diery, ktoré pretrvávajú, sú spôsobené hlavne konkurenciou predajcov v celom svete veľkých dát. Tieto je možné vyplniť prostredníctvom rozšíriteľnosti projektu, ale bolo by pekné vidieť viac spolupráce a komunity vo svete Apache.

$config[zx-auto] not found$config[zx-overlay] not found