otrdiena, 2011. gada 10. maijs

Jaunumi un kvalitātes novērtējums

Jāatzīst, ka esmu stipri nokavējies ar translate.tilde.lv jaunumiem. Jau vairāk kā mēnesi atpakaļ esam veikuši vairākus uzlabojumus. Esam uzlabojuši gan lapas funkcionalitāti, gan mašīntulkošanas sistēmu kvalitāti, gan iekļāvuši jaunu tulkošanas virzienu - latviešu-krievu.  

Vispirms par lapas funkcionalitāti.
- Tagad tulkošana lapā notiek automātiski jau rakstīšanas laikā, tagad vairs nav jāspiež poga 'Tulkot', lai pārtulkotu ievadīto tekstu.
- Otra jaunā iespēja ir tulkojuma un oriģināla iekrāsošana zem peles kursora. Tas ļauj labāk saprast kurš teikums ir kura tulkojums.

Uzlabojumi tulkošanas kvalitātē. Esam būtiski palielinājuši mašīntulkošanas sistēmu trenēšanai izmantoto paralēlo un monolingvālo tekstu apjomu, kas ir ļāvis būtiski uzlabot tulkojumu kvalitāti. Bet, lai runātu par kvalitāti, man vispirms ir jāpastāsta ko mēs saprotam ar kvalitāti un kā mēs to mērām un vērtējam.

Mašīntulkošanas jomā tiek lietotas gan automātiskas kvalitātes mērīšanas metodes, gan metodes, kurās kvalitātes novērtēšanā ir iesaistīts cilvēks (manuālās metodes). Abām šīm metodēm ir gan priekšrocības gan trūkumi.

Automātiskās kvalitātes vērtēšanas metodes veic ātru, un objektīvu kvalitātes mērījumu. Tās vienkārši salīdzina mašīnas tulkojumu ar cilvēka veiktu tulkojumu. Plusi šīm metodēm ir vairāki - sistēmu var novērtēt ļoti ātri un lēti, metode nav atkarīga no cilvēka subjektīvā vērtējuma, divreiz vērtējot vienu un to pašu sistēmu, mērījums būs vienāds u.tml. Bet šīm metodēm ir arī savi trūkumi - ne vienmēr automātiskais novērtējums korelē ar cilvēka vērtējumu.
Manuālās novērtēšanas metodes savukārt ir samērā dārgas un lēnas, jo manuālai vērtēšanai ir nepieciešams apjomīgs cilvēka darbs. Taču šīs metodes dod uzticamāku vērtējumu, kaut arī tas ir subjektīvs, kā jau viss, ko cilvēks dara.

Populārākās automātiskās MT kvalitātes mērīšanas metodes ir BLEU un NIST metrikas.
Šīs metrikas parāda cik mašīnas tulkojums ir līdzīgs cilvēka tulkojumam. Piemēram, ja mašīna pārtulko 500 teikumus precīzi tieši tāpat kā cilvēks, tad BLEU metrika mašīnas tulkojumu novērtē ar 100 punktiem, ja mašīnas tulkojumā nav pat neviena kopīga vārda ar cilvēka tulkojumu, tad BLEU metrika šādu tulkojumu novērtē ar 0 punktiem. Savā ziņā var teikt, ka BLEU metrika parāda par cik procentiem mašīnas tulkojums sakrīt ar cilvēka tulkojumu, bet šis nav īsti matemātiski precīzs apgalvojums.
Parasti, ja BLEU metrika novērtē MT sistēmu ar 20 punktiem vai mazāk, tad šādu MT sistēmu var uzskatīt par samērā zemas kvalitātes sistēmu. Savukārt, ja MT sistēma ir novērtēta ar vairāk kā 40-50 BLEU punktiem, tad tā ir samērā labas kvalitātes MT sistēma. Reti kad kāda MT sistēma tiek novērtēta ar vairāk kā 50 BLEU punktiem.

Angļu-latviešu sistēma, kas bija pieejama pirms pēdējiem uzlabojumiem, bija novērtēta ar 33,4 BLEU punktiem, taču jaunākā angļu-latviešu MT sistēma, kas šobrīd ir pieejama Tildes Tulkotājā, ir novērtēta ar 36,8 BLEU punktiem. Salīdzinājumam varu minēt, ka Google angļu-latviešu MT sistēmai ir 35,3 BLEU punkti.

Savukārt, latviešu-angļu sistēma, kas bija pieejama pirms pēdējiem uzlabojumiem, bija novērtēta ar 36,4 BLEU punktiem, taču jaunākā latviešu-angļu MT sistēma, kas šobrīd ir pieejama Tildes Tulkotājā, ir novērtēta ar 40,2 BLEU punktiem. Salīdzinājumam varu minēt, ka Google latviešu-angļu MT sistēmai ir 35,8 BLEU punkti un Microsoft latviešu-angļu MT sistēmai ir 36,5 BLEU punkti.

Mēs veicām arī sistēmu manuāli novērtēšanu, bet par tās rezultātiem citreiz.

Nav komentāru:

Ierakstīt komentāru