Programovanie

Project Oxford: Microsoft ponúka API pre inteligentné aplikácie

Spoločnosť Microsoft na jar minulého roku ohlásila projekt Oxford, sadu SDK a API, ktoré vývojárom umožňujú vytvárať „inteligentné“ aplikácie bez nutnosti učiť sa strojové učenie. Pomocou rozhraní API pre tvár, reč a videnie v Oxforde môžu vývojári vytvárať aplikácie, ktoré rozpoznávajú črty tváre, analyzujú obrázky alebo vykonávajú preklady z reči na text alebo z textu na reč.

V rozhovore s redaktorom Large Paul Krill hovoril Ryan Galgon z Microsoftu, hlavný programový manažér zodpovedný za platformu a technológie Project Oxford, o cieľoch, ktoré stoja za Oxfordom, a zdôraznil jeho potenciál v oblasti internetu vecí.

: Kto vytvára Oxfordské aplikácie? Pre koho je Oxford určený?

Galgon: Bolo tu veľa ľudí, ktorí prišli a zaregistrovali sa do služieb API. Presné čísla nie sú ničím, do čoho by som sa mohol dostať, ale mali sme vytvorených veľa účtov Azure, veľa registrácií prostredníctvom nášho Microsoft Azure Marketplace. Ľudia kopajú pneumatiky do služieb a snažia sa ich využívať vo väčšej miere. Momentálne sú všetky ponúkané ako obmedzená bezplatná vrstva mesačne. Snažíme sa to otvoriť, pretože sme dostali spätnú väzbu o tom, aké zmeny chcú vývojári v API a modeloch vidieť.

Je to všetko naprieč platformami v tom zmysle, že sa jedná o súbor webových služieb, ku ktorým sa primárne pristupuje prostredníctvom rozhrania REST API. Tieto služby typu back-end môže volať ktokoľvek, kto môže kontaktovať webovú stránku. Poskytujeme sadu SDK, ktoré obaľujú tieto hovory REST a uľahčujú ich použitie na klientoch ako Android a Windows a iOS. Na tieto služby môže volať čokoľvek, čo môže uskutočniť HTTP webový hovor.

: Predpokladáte, že sa Oxford bude používať predovšetkým na mobilných zariadeniach alebo na desktopoch so systémom Windows?

Galgon: Bude to predovšetkým kombinácia pravdepodobne mobilných zariadení a zariadení internetu vecí. V tom zmysle, že keď ľudia používajú desktopy, vidím ich prevažnú väčšinu použití, sedíte tam, máte klávesnicu a myš a tento typ vstupu. Ale keď máte mobilný telefón, snímate fotografie, video a zvuk. Je to oveľa jednoduchšie a prirodzenejšie to zachytiť pomocou malého zariadenia. [Bude použitá technológia Oxford Project], kde dominantným vstupným prípadom budú prirodzené údaje, nielen čísla, ale nejaký druh vizuálnych alebo zvukových údajov.

: Povedzte nám o týchto API viac. Čo môžu vývojári urobiť?

Galgon: Pretože chceme osloviť čo najviac vývojových pracovníkov, vynaložili sme veľa práce na tom, aby boli veľmi jednoduché na používanie, napríklad pre detekciu tváre alebo počítačové videnie, kategorizáciu obrázkov. Tieto veci sú trénované a modelované a zostavované ľuďmi s dlhoročnými skúsenosťami v oblasti výskumu na týchto miestach. Nechceme, aby sa vývojári museli stať odborníkmi na počítačové videnie. Skutočne sme sa pokúsili povedať: „Pozrieme sa, postavíme najlepší model, aký dokážeme zostaviť, sprístupníme vám ho a sprístupníme vám ho v troch riadkoch kódu.“

Nemôžem hovoriť o tom, ako sa externí partneri pozerajú na využívanie rozhraní Oxford API, ale tie hlavné, na ktorých Microsoft pracoval, ktoré ste možno videli, prvou bola stránka How-old.net na predpovedanie veku. a pohlavia. Potom sme mali TwinsorNot.net a dostali sme dve fotografie, akí sú si títo ľudia podobní? Boli to dobré príklady rozhraní Face API. Posledným z nich, ktorý využíval Face API a niektoré Speech API, bol projekt Windows 10 IoT, o ktorom bolo napísaných niekoľko blogových príspevkov o tom, kde ste boli schopní odomknúť dvere tvárou a konverzovať pomocou dverí - alebo zámku, v tom prípade. Myslím si, že to sú tri príklady, na ktorých Microsoft pracoval, aby vám ukázal typ aplikácie, ktorú je možné vytvoriť a zdieľať s ostatnými ľuďmi.

: Čo v rámci týchto rozhraní REST API spôsobuje, že Oxford tiká?

Galgon: Jadrom sú strojovo naučené modely, ktoré sme vytvorili pre veci ako reč na text. Či už k nemu pristupujete prostredníctvom rozhrania REST API - alebo pomocou reči na text, môžete k nemu získať prístup aj prostredníctvom pripojenia k webovej zásuvke - kúzlom alebo silnou stránkou je tento model, ktorý dokáže prenášať zvuk niekoho hovoriaceho a jazyk že je v tom a preložiť to do textového formátu. To je hlavná vec, ktorá robí Oxford Oxford ako celok.

: Prečo je projekt Oxford oddelený od projektu Azure Machine Learning?

Galgon: V Azure Machine Learning je jednou z hlavných súčastí Azure Machine Learning Studio, kde môžu ľudia prísť so svojimi údajmi, vytvoriť experiment, trénovať svoj vlastný model a potom ho hostiť. V prípade Oxfordu ide o vopred zostavený model, ktorý má spoločnosť Microsoft, model, ktorý sa budeme v budúcnosti neustále zlepšovať, a necháme ľudí, aby tento model využívali prostredníctvom týchto rozhraní REST.

: Aký typ podnikového podnikania vidíte pre Project Oxford? Aký je obchodný prípad pre Oxfordské aplikácie?

Galgon: V tejto chvíli neexistujú konkrétni partneri, o ktorých by som mohol skutočne hovoriť, ale myslím si, že jedným z prípadov, o ktorý sme zaznamenali veľký záujem, kde osobne vidím veľa prípadov použitia, je, pokiaľ ide o internet vecí - pripojených zariadení. Keď sa pozriem na to, ako sa ľudia pozerajú na stavbu zariadení IoT, nemáte klávesnicu a myš a často ani skutočný monitor spojený so všetkými týmito zariadeniami, ale je ľahké tam prilepiť mikrofón a je to celkom ľahké nalepiť tam aj kameru. Ak skombinujete niečo ako rečové API a LUIS (Language Understanding Intelligent Service), potom zariadenie, ktoré má iba mikrofón a nemá žiadny iný spôsob vstupu, môžete s ním teraz hovoriť, povedať mu, čo chcete urobiť, preložiť do súbor štruktúrovaných akcií a využite to v zadnej časti. Tu si myslím, že uvidíme veľa prípadov použitia Oxford API.

: Spomenuli ste iOS a Android. Čo sa zaviedlo na týchto platformách?

Galgon: Vďaka tomu, že sú rozhrania API RESTful, a poskytujeme im tieto obaly, sme určite videli, ako si ľudia tieto obaly sťahujú a využívajú ich. Ale na konci dňa sa to stane: „Tu je obálka jazyka Java okolo webového volajúceho“, „Tu je obálka Objective-C okolo hovoru cez web.“ Nemáme dostatok informácií o tom, aké presné zariadenie volá.

: Bude Oxford otvoreným zdrojom?

Galgon: Neplánujeme open-sourcing základných modelov a nemám s tým čo zdieľať, pretože modely neustále aktualizujeme. Súpravy SDK, ktoré poskytujeme, pretože sú obalom týchto hovorov REST, tento zdrojový kód je tu a je k dispozícii na stiahnutie pre kohokoľvek z dnešného webu. Ale opäť ide o skrytý obal vecí a na fórach MSDN sme sa skutočne stretli s ľuďmi, ktorí okolo neho poskytovali útržky kódu v rôznych jazykoch.

: Ako plánuje spoločnosť Microsoft zarobiť peniaze z Oxfordu?

Galgon: Všetky rozhrania API na Marketplace sú dnes pre obmedzené použitie zadarmo, takže mesačne získate 5 000 transakcií API. Toto je jediný plán, ktorý máme teraz k dispozícii. V budúcnosti zavedieme platené plány na základe používania rozhraní API.

: Čo bude ďalej pre Oxford?

Galgon: Odkiaľ ideme, sú to skutočne tri oblasti. Prvá oblasť sa týka aktualizácie a vylepšenia existujúcich modelov. Dostali sme spätnú väzbu od vývojárov [o tom, ako] jedno z rozhraní API nemusí s určitými typmi obrázkov fungovať dobre. Tam vylepšíme hlavný model.

Jednou z ďalších vecí, ktoré urobíme, je to, že budeme neustále rozširovať počet funkcií vrátených z modelov. Face API vám dnes poskytuje predpokladaný vek a predpokladané pohlavie. Zaznamenali sme veľa žiadostí o schopnosť rozpoznať ďalší obsah na obrázkoch.

Treťou oblasťou je rozšírenie portfólia API, ktoré máme. Dnes máme štyri, ale určite sme ešte neskončili. Nemyslíme si, že celý priestor, ktorý chceme poskytnúť, alebo nástroje, ktoré chceme poskytnúť, ešte nie sú dokončené. Neustále budeme pridávať nové rozhrania API, ktoré dokážu pracovať s rôznymi typmi údajov alebo môžu poskytnúť veľmi odlišné typy porozumenia prirodzeným údajom, než aké dnes poskytujeme.

$config[zx-auto] not found$config[zx-overlay] not found