Programovanie

Vyzývateľ v otvorenom zdroji využíva Prekladač Google

Vedci vydali systém neurónových sietí s otvoreným zdrojom na vykonávanie jazykových prekladov, ktorý by mohol byť alternatívou k proprietárnym prekladateľským službám typu black-box.

Open Source Neural Machine Translation (OpenNMT) spája prácu výskumníkov z Harvardu s príspevkami dlhoročného tvorcu softvéru pre strojový preklad Systran. Pracuje na vedeckom výpočtovom rámci Torch, ktorý Facebook používa aj na svoje projekty strojového učenia.

V ideálnom prípade by OpenNMT mohla slúžiť ako otvorená alternatíva k projektom s uzavretým zdrojom, ako je Google Translate, ktorý nedávno získal zásadné vylepšenie neurónovej siete na zlepšenie kvality jeho prekladu.

Algoritmy však nie sú najťažšie; prichádza s dobrými zdrojmi údajov na podporu procesu prekladu - práve tu má Google a ďalší cloudoví giganti, ktorí poskytujú strojový preklad ako službu, výhodu.

Hovorenie v jazykoch

OpenNMT, ktorý na komunikáciu s Torch používa jazyk Lua, funguje ako ostatné produkty vo svojej triede. Používateľ pripraví súbor údajov, ktorý predstavuje dva jazykové páry, ktoré sa majú preložiť - zvyčajne rovnaký text v oboch jazykoch preložený ľudským prekladateľom. Po zaškolení OpenNMT o týchto údajoch môže používateľ potom nasadiť výsledný model a použiť ho na preklad textov.

Torch môže využívať akceleráciu GPU, čo znamená, že tréningový proces pre modely OpenNMT sa dá veľmi urýchliť na akomkoľvek systéme vybavenom GPU. To znamená, že tréningový proces môže trvať dlho - „niekedy aj mnoho týždňov“. Tréningový proces je však možné v prípade potreby nafotiť a podľa potreby obnoviť. Ak chcete trénovaný model použiť na CPU a nie na GPU, budete ho musieť previesť do režimu CPU. OpenNMT poskytuje nástroj, ktorý to robí presne.

Živé demo poskytnuté spoločnosťou Systran tvrdí, že používa OpenNMT v spojení s vlastnou tvorbou spoločnosti Systran. Pre dvojice bežných jazykov, ako napríklad angličtina / francúzština, sú preklady dosť presné. Pre páry, kde je pravdepodobné, že bude k dispozícii menší počet textov, alebo kde sa jazykové páry navzájom nemapujú tak presne, povedzme anglicky / japonsky, sú preklady trocha temperamentnejšie a nepresnejšie. V jednej ukážkovej japonskej vete si demo Systranu pomýlilo slovo „čajky“ v japončine s „závesnými zvitkami“; Prekladač Google to preložil správne.

Slová, slová, slová

Najdôležitejším prvkom, ktorý OpenNMT zatiaľ nedodáva, sú vopred pripravené dáta jazykových modelov. Odkaz na vzorové modely na webe GitHub pre projekt momentálne prináša chybu. Pravdepodobne včas to bude obsahovať vzorové údaje, ktoré možno použiť na porovnanie systému alebo na získanie prehľadu o tom, ako funguje proces školenia a nasadenia. Pravdepodobne to ale nebude obsahovať údaje, ktoré sa dajú použiť v produkčnom prostredí.

To obmedzuje užitočnosť OpenNMT po vybalení z krabice, pretože údaje modelu sú pre strojový preklad minimálne rovnako dôležité ako samotné algoritmy. Preklady medzi jazykovými pármi si vyžadujú paralelné korpusy alebo texty v obidvoch jazykoch, ktoré sú navzájom úzko prepojené na úrovni viet za vetou alebo frázou za vetou a dajú sa naučiť tak, aby poskytovali modely v produktoch, ako je OpenNMT.

Mnoho korpusov je voľne dostupných, ale aby boli užitočné pre priemerného vývojára, vyžadujú spoločné dláždenie. Predajcovia ako Google - a IBM so systémom Language Translator na platforme Watson - majú výhodu v tom, že pomocou svojich ďalších služieb môžu ľahko vytvárať korpusy. Google môže pomocou svojho vyhľadávacieho nástroja automaticky zbierať obrovské množstvo neustále aktualizovaných jazykových údajov.

OpenNMT bude určite užitočný pre tých, ktorí chcú vybudovať novú funkcionalitu na vrchole modelového a výcvikového kódu OpenNMT a nechcú byť pri tom závislí od algoritmu založeného na rozhraní API, ako je Google.

$config[zx-auto] not found$config[zx-overlay] not found