Programovanie

„Vyhľadávanie Google na steroidoch“ upozorňuje na temný web

Vládna agentúra, ktorá nám priniesla internet, vyvinula nový výkonný vyhľadávací nástroj, ktorý osvetľuje obsah takzvaného hlbokého webu.

Agentúra Defense Advanced Research Projects Agency (DARPA) začala pracovať na vyhľadávači Memex Deep Web Search Engine pred rokom a tento týždeň predstavila svoje nástroje pre časopis Scientific American a „60 Minutes“.

Memex, ktorý vyvíja 17 rôznych tímov dodávateľov, si kladie za cieľ vytvoriť lepšiu mapu internetového obsahu a odhaliť vzorce v online dátach, ktoré by mohli pomôcť orgánom činným v trestnom konaní a ďalším. Zatiaľ čo sa prvé pokusy zameriavali na mapovanie pohybov obchodníkov s ľuďmi, táto technológia by sa jedného dňa mohla uplatniť na vyšetrovacie úsilie, ako je boj proti terorizmu, nezvestné osoby, reakcia na choroby a pomoc pri katastrofách.

Dan Kaufman, riaditeľ kancelárie pre inovácie informácií v DARPA, tvrdí, že Memex je predovšetkým o tom, aby sa stalo neviditeľným. „Internet je oveľa, oveľa väčší, ako si ľudia myslia,“ povedal programový manažér DARPA Chris White „60 minútach“. „Podľa niektorých odhadov nám spoločnosti Google, Microsoft Bing a Yahoo poskytujú prístup iba k asi 5 percentám obsahu na webe.“

Google a Bing vytvárajú výsledky založené na popularite a hodnotení, ale Memex prehľadáva obsah typicky ignorovaný komerčnými vyhľadávacími strojmi, ako napríklad neštruktúrované údaje, neprepojený obsah, dočasné stránky, ktoré sú odstránené skôr, ako ich môžu komerčné vyhľadávače prehľadať, a diskusné fóra. Pravidelné vyhľadávače tieto hlboké údaje z webu ignorujú, pretože weboví inzerenti - kde spoločnosti, ktoré ich prehliadajú, zarábajú peniaze - o ne nemajú záujem.

Memex tiež automatizuje mechanizmus prehľadávania temného alebo anonymného webu, kde zločinci podnikajú. Tieto stránky so skrytými službami, ktoré sú prístupné iba prostredníctvom anonymizačného prehliadača TOR, zvyčajne fungujú pod radarom orgánov činných v trestnom konaní, ktoré predávajú nelegálne drogy a iný pašovaný tovar. Tam, kde sa kedysi myslelo, že aktivita tmavého webu pozostáva z približne 1 000 stránok, White povedal pre Scientific American, že môže existovať medzi 30 000 a 40 000 tmavých webových stránok.

Doteraz bolo ťažké pozerať sa na tieto stránky nejako systémovo. Spoločnosť Memex, ktorú Manhattan DA Cyrus Vance mladší nazýva „vyhľadávanie Google na steroidoch“, však nielen indexuje ich obsah, ale aj ich analyzuje, aby odhalila skryté vzťahy, ktoré by mohli byť užitočné pre orgány činné v trestnom konaní.

Vyhľadávacie nástroje DARPA boli zavedené pre vybrané orgány činné v trestnom konaní v minulom roku, vrátane novej manhattanskej jednotky pre reakcie na obchodovanie s ľuďmi. Memex sa teraz používa v každom prípade obchodovania s ľuďmi, ktorý sleduje, a zohral úlohu pri generovaní najmenej 20 vyšetrovaní obchodovania s ľuďmi. Preplňovaný webový prehľadávač dokáže identifikovať vzťahy medzi rôznymi údajmi a vytvára dátové mapy, ktoré vyšetrovateľom pomáhajú zistiť vzory.

V ukážke „60 minút“ White ukázal, ako je spoločnosť Memex schopná sledovať pohyb obchodníkov na základe údajov týkajúcich sa online reklamy na sex. „Niekedy je to funkcia adresy IP, ale niekedy je to funkcia telefónneho čísla alebo adresy v reklame alebo geolokácie zariadenia, ktoré reklamu uverejnilo,“ uviedol White. „Niekedy existujú ďalšie artefakty, ktoré prispievajú k umiestneniu.“

White zdôraznil, že Memex sa pri získavaní informácií neuchyľuje k hackerstvu. „Ak je niečo chránené heslom, nejde o verejný obsah a Memex to neprehľadáva,“ uviedol pre Scientific American. „Nechceli sme túto prácu zbytočne zakrývať priťahovaním prízraku snoopingu a sledovania“ - citlivá téma po odhaleniach NSA Edwarda Snowdena.

Názov Memex dostal (kombinácia „pamäte“ a „indexu“) a inšpiráciu od hypotetického zariadenia, ktoré opísal Vannevar Bush v roku 1945 a ktoré predznamenávalo vynález počítačov, internetu a ďalších významných IT pokrokov nasledujúcich 70 rokov. Zdá sa, že teraz sa spoločnosti DARPA a Memex priblížia o krok bližšie k futuristickému policajnému oddeleniu Philipa Dicka, ktoré je zobrazené v „Menšinovej správe“.

Nové kolo testovania, ktoré sa má začať o niekoľko týždňov, bude zahŕňať federálnych a okresných prokurátorov, regionálne a národné orgány činné v trestnom konaní a viac mimovládnych organizácií. Podľa správy Scientific American si kladie za cieľ „otestovať nové možnosti vyhľadávania obrázkov, ktoré dokážu analyzovať fotografie, aj keď sú zahmlievané časti, ktoré by vyšetrovateľom mohli pomôcť - vrátane tvárí obchodníkov alebo televíznej obrazovky v pozadí“.

Vymýšľaním lepších spôsobov interakcie s a poskytovaním informácií získaných z väčšieho súboru zdrojov „chceme zlepšiť vyhľadávanie pre všetkých. Jednoduché použitie pre neprogramátorov je nevyhnutné,“ uviedol White.

$config[zx-auto] not found$config[zx-overlay] not found