otrdiena, 2010. gada 1. jūnijs

Jaunas iespējas un kvalitatīvāks tulkojums

Vairāki Tildes tulkotāja un šī emura lasītāji ir vaicājuši: "Vai notiek darbs pie tulkotāja uzlabošanas?" 
Atbilde ir - jā, šis tulkotājs tiek pastāvīgi uzlabots. Ne visi uzlabojumi uzreiz nonāk pie jums, lietotājiem. Kopš tulkotāja pirmā izlaiduma mēs esam "uzbūvējuši" vairākus desmitus šī tulkotāja variantu un esam tos izvērtējuši, lai saprastu vai kvalitāte uzlabojas vai nē. Vairākkārt ir sanākušās tulkošanas sistēmas, kas ir labākas par iepriekšējo, tāpat vairākkārt ir sanākušas sliktākas versijas. Labāko no variantiem šobrīd piedāvājam jums. 

Šajā versijā ir vairāki būtiski uzlabojumi salīdzinot ar iepriekšējo. Šos uzlabojumus nosacīti var iedalīt 3 grupās:

1. uzlabojumi un jaunas iespējas tulkotāja lapā.
Šie uzlabojumi nav saistīti ar tulkošanas kvalitāti, bet tie palīdz ērtāk strādāt. Vispamanāmākā jaunā iespēja ir tulkotāja sasaiste ar vārdnīcu. Iepriekš bija tā, ka visu, kas bija ievadīts ievades laukā, mēs tulkojām ar māšīntulku, arī tad ja tur bija ievadīts tikai viens vārds. Tagad, ja tiek tulkots viens vārds, tad tas netiek tulkots ar mašīntuku, bet tā tulkojums tiek meklēts letonika.lv vārdnīcās, un tulkojumā var redzēt nevis vienu tulkojumu kā agrāk, bet vairākus tulkojums kā vārdnīcas šķirklī.
Vēl esam pielikuši iespēju jums ērtākā veidā izteikt savus ierosinājumus un komentārus.

2. jauns latviešu-angļu tulkošanas virziens.
Sākumā mēs translate.tilde.lv lapā piedāvājām tikai vienu tulkošanas virzienu - angļu-latviešu. Tagad ir pieejams arī otrs tulkošanas virziens - latviešu-angļu.

3. uzlabota angļu-latviešu tulkotāja kvalitāte.Abos tulkošanas virzienos mēs izmantojam statistisko mašīntulkošanu, tas nozīmē, ka tulkojuma kvalitāte ir galvenokārt atkarīga no 2 faktoriem. 1) treniņa datu apjoma un 2) papildus gudrības, ko esam ielikušu statistiskajos modeļos. Uzlabojumi ir abās jomās.
• Iepriekšējā tulkotāja trenēšanā mēs izmantojām apmēram 2,2 miljonus angļu teikumu ar to latviešu tulkojumiem un 5 miljonus latviešu teikumu valodas modelēšanai. Jaunā angļu-latviešu tulkotāja trenēšanai esam izmantojuši 3,2 miljonus angļu teikumu ar to latviešu tulkojumiem un 19 miljonus latviešu teikumu valodas modelēšanai.
• Tulkošanas kvalitāte ir stipri atkarīga arī no trenēšanas datu specifikas. Iepriekšējā tulkotāja versija labi tulkoja ES dokumentus un IT tekstus, jo tā bija trenēta uz šādiem tekstiem. Jaunā versija labāk tiek galā arī ar ikdienišķākiem tekstiem, jo tās trenēšanā ir izmantoti dati, kas satur sarunvalodas un citus ikdienišķus tekstus.
• Esam būtiski uzlabojuši lielo/mazo burtu lietojumu tulkojumā. Tagad tulkotājs daudz precīzāk izvēlas lielo vai mazo burtu lietojumu. Iepriekš tam bija tendence pārāk bieži izvēlēties mazo burtu, nereti pat teikuma sākumā.
• Tagad tulkotājs daudz labāk tiek galā ar tekstiem, kuros ir jautājuma zīmes, apostrofi, & zīmes un citi specifiski simboli.
• Tiklīdz mēs izlaidām iepriekšējo versiju, jūs sākāt mums sūtīt interesantus tulkojumu piemērus, kuros tulkotājs ļoti muļķīgi kļūdījās tulkojot īpašvārdus. Polārākais piemērs laikam bija 'scientists from California', kas tika tulkots kā 'zinātnieki no Tukuma'. Esam uzlabojuši īpašvārdu tulkošanu šajā versijā.


Jaunā tulkotāja versija nu ir pie jums. Ceram, ka tā būs vēl noderīgāka kā iepriekšējā. Gaidīsim jūsu atsauksmes un ierosinājumus.

Nav komentāru:

Komentāra publicēšana