Léto 2020

5 důvodů, proč používat Lingea Translator

1. Lingea překladače využívají technologii neuronových sítí. Ale není to jen umělá inteligence, která v posledních letech vylepšuje strojový překlad. Kromě toho přinášíme také naše vlastní „lidské“ zkušenosti, které dále zvyšujeme například i díky spolupráci s evropskými univerzitami, včetně (z hlediska Machine Translation) špičkového a světově uznávaného pracoviště University of Edinburgh, nebo MFF UK. Pro vytvoření konkurenceschopného a kvalitního řešení je nutná také perfektní znalost specifik mnoha světových jazyků, neustále sledování trendů v oblasti Machine Translation nebo neustálé rozšiřování a zdokonalování překladových a morfologických slovníků.

2. V současné době nabízíme překladače a korekturní nástroje už pro více než 30 jazyků. Jako poslední jsme zatím nasadili překladač pro norštinu, dokončujeme litevštinu, a tím budeme podporovat všechny jazyky EU. Tato řešení a komponenty rozšiřují možnosti a zvyšují kvalitu aplikací, jako jsou vyhledávače (Seznam.cz), internetové obchody, reklamní nástroje, textové editory, redakční systémy apod. Koneckonců většina z vás pravděpodobně někdy používá nástroj na kontrolu pravopisu v programech MS Office, který už od roku 1995 dodává právě Lingea. Zajímavosti o korektoru pravopisu najdete v posledním článku tohoto Zpravodaje.

3. Veškerá data, která překládáte, jsou pro účely vylepšení algoritmu ukládána pouze po omezenou dobu a nejsou žádným způsobem spojena s jakýmkoli druhem osobních informací, jako je například IP adresa. Pokud se zabýváte vývojem, pokud pracujete na prototypech, jednoduše pokud pracujete s jakýmkoli typem citlivých dat, můžete využít off-line řešení. Slova zadaná do překladače nebo do slovníku potom nejsou z důvodu utajení nikam ukládána nebo registrována a pro instalaci můžete využít své servery.

4. Zatímco pro běžného uživatele je velice praktické využívat dostupné bezplatné překladače, které jsou primárně určeny pro překlady obecného nebo informativního charakteru, odborníci nebo lidé, kteří potřebují překládat konkrétní průmyslovou terminologii, je mohou považovat právem za nedostatečné. V současné době i odborníci hledají překladatelská řešení, která jsou dokonale přizpůsobena jejich oboru. Naše překladačové modely je možné vytvořit a natrénovat tak, aby vyhovovaly potřebám uživatelů, kteří potřebují překládat specifické texty ve svých oborech.

5. V neposlední řadě je samozřejmě důležitá samotná kvalita výsledného překladu. Funkcionalita Lingea Translatoru byla otestována a vyvíjena v rámci evropského grantu „On-line služba pro vysoce kvalitní automatický překlad mezi slovanskými jazyky“. Při řešení projektu jsme se zaměřovali především na překlad mezi češtinou, slovenštinou, polštinou a ruštinou. V poslední etapě projektu jsme se více věnovali i jihoslovanským jazykům, tedy slovinštině, chorvatštině, srbštině, bulharštině a makedonštině.

Podařilo se nám připravit velmi kvalitní překladače nejen ze slovanských jazyků do češtiny a naopak, ale i mezi různými slovanskými jazyky navzájem.


První tabulka zobrazuje porovnání skóre BLEU* mezi prvními verzemi našich překladačů a Google Překladačem na začátku grantu:

five.png (4.57 MB)

BG

CZ

HR

MK

PL

RU

SI

SK

SR

BG

-3.4

0.7

-1.0

-4.2

-2.6

0.1

-2.9

1.5

CZ

2.7

0.3

-0.9

-2.0

-11.3

-1.3

-33.4

-0.4

HR

-1.2

0.7

-1.8

-1.1

-2.9

-1.0

0.8

1.0

MK

-1.7

0.2

0.2

-3.2

-4.4

-1.4

-1.4

0.9

PL

-0.4

-2.0

-0.2

-4.1

-4.2

-0.7

-3.8

-0.8

RU

-2.1

-8.4

1.3

-3.7

-3.7

1.2

-2.7

-0.6

SI

2.0

0.5

-1.0

-3.0

0.7

-1.9

0.2

0.1

SK

1.5

-28.0

-0.4

-4.0

-2.9

-1.4

-1.4

-0.1

SR

-1.2

0.6

0.9

-1.4

-2.4

-2.5

4.8

-6.4



Druhá tabulka ukazuje porovnání skóre BLEU mezi Lingea Translatorem a Google Překladačem na konci projektu. Z tabulky je patrné výrazné zlepšení, ve většině překladových směrů dosahujeme lepší skóre (kladné číslo) než Překladač Google (záporné číslo).

BG

CZ

HR

MK

PL

RU

SI

SK

SR

BG

1.1

7.9

8.0

5.8

1.1

7.9

4.3

9.6

CZ

7.7

1.6

4.0

0.2

1.9

3.0

-3.9

5.4

HR

6.5

2.0

7.5

-0.2

-0.3

2.4

5.1

21.2

MK

6.0

3.8

8.7

-2.3

-3.5

5.8

4.5

9.5

PL

6.2

0.3

0.9

-2.2

-1.8

3.1

0.8

-0.1

RU

2.0

0.8

3.9

-1.6

0.2

5.3

4.1

-0.2

SI

8.1

4.1

2.7

4.4

3.3

2.8

6.3

13.5

SK

9.1

-1.2

5.2

4.3

-1.4

-0.8

6.5

10.8

SR

6.7

2.4

21.0

7.2

-1.8

-1.8

11.6

-2.6



*BLEU (bilingual evaluation understudy) je algoritmus pro vyhodnocení kvality strojově přeloženého textu z jednoho přirozeného jazyka do druhého

   

Jak vylepšit výsledky strojového překladu

I přes dynamický vývoj překladačů v posledních letech se nelze při použití strojového překladače spolehnout na vysoce přesný překlad srovnatelný s překladem lidským. Proto vám přinášíme několik užitečných rad a tipů, jak ke strojovému překladu přistupovat a čím lze ovlivnit celkovou kvalitu přeloženého výstupu.

Nechte natrénovat překladač na svoji terminologii

Nejmodernější metodou pro zvýšení kvality strojového překladače je jeho přizpůsobení pro lepší překlad určitého typu textu. Tento proces přizpůsobení se nazývá doménová adaptace. Pro trénování překladačů jsou zapotřebí paralelní korpusy z daného oboru, tedy takové, které obsahují stejné texty v obou jazycích daného jazykového páru vedle sebe. Paralelní data jsou získávána z veřejně dostupných zdrojů. Procházejí několika stupni filtrování, které se provádí pro každý větný pár zvlášť. Přizpůsobení rovněž zahrnuje „výuku“ strojového překladače o slovní zásobě a frázích, které jsou běžné v daném oboru. Výsledkem je natrénovaný a kvalitní překladač, přinášející obrovské výhody v nákladech na překlad. Problematice doménové adaptace se budeme věnovat v některém z dalších vydání našeho zpravodaje.

Naučte se psát texty vhodné pro strojový překlad

Další možností, jak dosáhnout lepších výsledků je optimalizace zdrojového textu. Úpravou formulace můžeme překladači ulehčit  práci s problematickými obraty a tím posílíme jeho schopnost generovat kvalitní výstup. Je jasné, že komplikované větné struktury jsou náchylnější k chybám než text s jednoduchými větami a běžnou slovní zásobou. A které zásady to jsou?

 

  • používejte krátké a srozumitelné věty
  • ujistěte se, že struktura věty je jednoduchá a dobře napsaná
  • pokud není překladač adaptovaný na vaší doménu, vyhněte se průmyslovému žargonu
  • vyvarujte se použití slangových výrazů
  • dejte pozor na složená nebo dvojznačná slova

Doveďte překlad k dokonalosti díky post-editaci

Jednou z běžně používaných metod je technika zvaná post-editace strojového překladu. V procesu post-editace upraví profesionální překladatel nebo post-editor strojově přeložené texty (tzn. raw machine translation) a to v takové míře, aby dosáhl požadované kvality. Tento proces je většinou rychlejší než samotný překlad bez využití strojového překladu. I přes nezanedbatelnou úsporu času a nákladů nelze jednoznačně říci, že celková úspora je vysloveně dramatická. Post-editaci dělíme na:

Základní post-editace (light post-editing)

Tato služba spočívá v revizi provedené post-editorem, který kontroluje zejména smysl překladu porovnáním zdrojového textu s cílovým. Výsledkem je srozumitelný text, aniž by se zásadně změnil jeho styl.

Úplná post-editace (full post-editing)

Úplné post-editační úpravy zahrnují vyšší úroveň intervence k dosažení co nejvyššího stupně požadované kvality. Očekává se, že finální překlad bude nejen srozumitelný, ale také perfektní po stylistické stránce. Takto upravený výstup je svojí úrovní k nerozeznání od lidského překladu.

idea.jpg

Jazykové nástroje
v Microsoft Office

Firma Lingea se nezabývá pouze vydáváním jazykových příruček a vývojem úspěšných elektronických slovníků, s jejími produkty se setkáváte i jinde a možná o tom ani nevíte. Pokud jste někdy používali např. Microsoft Word, jistě jste zaznamenali existenci funkce kontroly pravopisu, automatického dělení slov nebo slovníku synonym – program firmy Lingea.

Kontrola pravopisu

Korektor překlepů nebo také kontrola pravopisu se s postupně rostoucím počtem uživatelů MS Word stal denně užívaným nástrojem. Pokud jste ještě nevyužili možnosti nechat si vámi vytvořený text při psaní červeně „označkovat“ i pokud to naopak zkoušíte často, máte možná nezodpovězené otázky...

 

Co to je a jak to funguje?

Jednoduchá otázka. Korektor překlepů je ve své podstatě slovník obsahující českou slovní zásobu. Struktura tohoto slovníku je založena na popisu české morfologie (všech tvarů slov) a na systému vzorů, které slouží ke skloňování, časování a odvozování, tedy k vytvoření všech spisovných tvarů. U pravidelných tvarů to jistě zvládne každý bez problémů, vždyť jsme všichni chodili do školy a ještě snad vylovíme z paměti něco jako „pán, hrad, muž, stroj...“, „nese, bere, maže...“, nebo dokonce psaní y/i a s/z, jenže někdy... jak to jen bylo? Slovník obsahuje veškeré nepravidelnosti, např. pes – psa, hnát – žene, bratr – bratři, být – jsem, a také většinu dubletních tvarů, např. píši – píšu, plač – plakej, analýza – analysa.

 

Ve chvíli, kdy korektor objeví slovo, které z nějakého důvodu nepozná, označí je červenou vlnovkou. Vám pak stačí použít pravé tlačítko myši a zvolit, jestli je chcete nahradit nějakým jiným slovem z nabídky. (Ta samozřejmě nemůže být úplná, záleží vždy na tom, jak moc se to vaše „neznámé“ slovíčko liší od těch ve slovníku obsažených.)

 

Najde korektor všechny chyby?

Přiznáváme – nenajde, nemůže najít... Upozorní vás však na slova, která v češtině neexistují, i na mnohé nespisovné tvary, např. dvoum, dvouch, chybama. Někdy však váš překlep zůstane neodhalen. Může se jednat o tvar jiného českého slova, který v té chvíli možná ani neodhalíte. Napíšete-li Skoval se za strom místo Schoval se za strom nebo Její roky se vlnily místo Její boky se vlnily, pak automatická kontrola samozřejmě chybu nepozná a ta zůstane neopravena. Stejně tak vám nemůže ohlídat psaní y/i ve slovech, která existují v obou podobách, např. Potkal jsem kamaráda s jeho dvěma psi nebo Přátelé šly do kina, protože psi i psy, šli i šly jsou správné tvary. Problémy mohou nastat také u slov, u nichž pravidla českého pravopisu dovolují variantní podobu, a to zejména u těch, v nichž se podle pravidel z roku 1958 píše dlouhá samohláska a podle pravidel z roku 1993 krátká.  V tomto případě jsou opravdu správné obě varianty, jak se můžete dočíst v dodatku k pravidlům, např. benzin i benzín, archiv i archív, ofenziva i ofenzíva, balkon i balkón, sezona i sezóna ap. Červené vlnovky jsou tedy první pomocí v kritických situacích, ale v konečné fázi vašeho literárního tvoření si text musíte ještě jednou přečíst sami.

 

Zajímavé funkce

Na první pohled se mohou zdát možnosti funkcí kontroly pravopisu vyčerpány. Vy uděláte chybu, korektor ji odhalí (za již zmíněných podmínek) a upozorní vás na ni. Kromě nabídky pravého tlačítka myši však můžete využívat i další „maličkosti“. Když budete v celém textu dělat stejnou chybu a stálo by vás moc času jednu po druhé opravovat, zkuste vyvolat dialogové okno Pravopis a gramatika v sekci Revize a použijte funkci Zaměňovat – a problém je vyřešen! Novější verze kancelářského balíku Office 2019 dokonce nabízejí automatické opravy již tak „inteligentní“, že v určitých případech nejste opravami chyb obtěžováni vůbec. Chybná slova, pro něž existuje pouze jedna správná nabídka, jsou automaticky opravena v okamžiku, kdy je dopíšete. Pokud se vám tedy podařilo stvořit slova jako gimnázium, nejprimitvnější, rozhoverech apod., nemusíte se červenat, ani vy si toho totiž nevšimnete.