Vairāki Tildes tulkotāja un šī emura lasītāji ir vaicājuši: "Vai notiek darbs pie tulkotāja uzlabošanas?"
Atbilde ir - jā, šis tulkotājs tiek pastāvīgi uzlabots. Ne visi uzlabojumi uzreiz nonāk pie jums, lietotājiem. Kopš tulkotāja pirmā izlaiduma mēs esam "uzbūvējuši" vairākus desmitus šī tulkotāja variantu un esam tos izvērtējuši, lai saprastu vai kvalitāte uzlabojas vai nē. Vairākkārt ir sanākušās tulkošanas sistēmas, kas ir labākas par iepriekšējo, tāpat vairākkārt ir sanākušas sliktākas versijas. Labāko no variantiem šobrīd piedāvājam jums.
Šajā versijā ir vairāki būtiski uzlabojumi salīdzinot ar iepriekšējo. Šos uzlabojumus nosacīti var iedalīt 3 grupās:
1. uzlabojumi un jaunas iespējas tulkotāja lapā.
Šie uzlabojumi nav saistīti ar tulkošanas kvalitāti, bet tie palīdz ērtāk strādāt. Vispamanāmākā jaunā iespēja ir tulkotāja sasaiste ar vārdnīcu. Iepriekš bija tā, ka visu, kas bija ievadīts ievades laukā, mēs tulkojām ar māšīntulku, arī tad ja tur bija ievadīts tikai viens vārds. Tagad, ja tiek tulkots viens vārds, tad tas netiek tulkots ar mašīntuku, bet tā tulkojums tiek meklēts letonika.lv vārdnīcās, un tulkojumā var redzēt nevis vienu tulkojumu kā agrāk, bet vairākus tulkojums kā vārdnīcas šķirklī.
Vēl esam pielikuši iespēju jums ērtākā veidā izteikt savus ierosinājumus un komentārus.
2. jauns latviešu-angļu tulkošanas virziens.
Sākumā mēs translate.tilde.lv lapā piedāvājām tikai vienu tulkošanas virzienu - angļu-latviešu. Tagad ir pieejams arī otrs tulkošanas virziens - latviešu-angļu.
3. uzlabota angļu-latviešu tulkotāja kvalitāte.Abos tulkošanas virzienos mēs izmantojam statistisko mašīntulkošanu, tas nozīmē, ka tulkojuma kvalitāte ir galvenokārt atkarīga no 2 faktoriem. 1) treniņa datu apjoma un 2) papildus gudrības, ko esam ielikušu statistiskajos modeļos. Uzlabojumi ir abās jomās.
• Iepriekšējā tulkotāja trenēšanā mēs izmantojām apmēram 2,2 miljonus angļu teikumu ar to latviešu tulkojumiem un 5 miljonus latviešu teikumu valodas modelēšanai. Jaunā angļu-latviešu tulkotāja trenēšanai esam izmantojuši 3,2 miljonus angļu teikumu ar to latviešu tulkojumiem un 19 miljonus latviešu teikumu valodas modelēšanai.
• Tulkošanas kvalitāte ir stipri atkarīga arī no trenēšanas datu specifikas. Iepriekšējā tulkotāja versija labi tulkoja ES dokumentus un IT tekstus, jo tā bija trenēta uz šādiem tekstiem. Jaunā versija labāk tiek galā arī ar ikdienišķākiem tekstiem, jo tās trenēšanā ir izmantoti dati, kas satur sarunvalodas un citus ikdienišķus tekstus.
• Esam būtiski uzlabojuši lielo/mazo burtu lietojumu tulkojumā. Tagad tulkotājs daudz precīzāk izvēlas lielo vai mazo burtu lietojumu. Iepriekš tam bija tendence pārāk bieži izvēlēties mazo burtu, nereti pat teikuma sākumā.
• Tagad tulkotājs daudz labāk tiek galā ar tekstiem, kuros ir jautājuma zīmes, apostrofi, & zīmes un citi specifiski simboli.
• Tiklīdz mēs izlaidām iepriekšējo versiju, jūs sākāt mums sūtīt interesantus tulkojumu piemērus, kuros tulkotājs ļoti muļķīgi kļūdījās tulkojot īpašvārdus. Polārākais piemērs laikam bija 'scientists from California', kas tika tulkots kā 'zinātnieki no Tukuma'. Esam uzlabojuši īpašvārdu tulkošanu šajā versijā.
Jaunā tulkotāja versija nu ir pie jums. Ceram, ka tā būs vēl noderīgāka kā iepriekšējā. Gaidīsim jūsu atsauksmes un ierosinājumus.
otrdiena, 2010. gada 1. jūnijs
Tulko tekstus no latviešu valodas uz angļu valodu Tildes Tulkotājā!
Pagājušā gada nogalē pie jums nonāca mūsu interneta mašīntulkošanas rīks Tildes Tulkotājs, kurš, ceru, daudziem jau ir kļuvis par ērtu palīgu, tulkojot tekstus no angļu valodas uz latviešu valodu. Jau sākumā saņēmām jautājumus, vai nav pieejams arī pretējais tulkošanas virziens. Nu varam atbildēt ir! Tagad savus rakstus, vēstules un referātus varat tulkot arī no latviešu valodas uz angļu valodu. Un es varu pačukstēt, ka tulkojuma kvalitāte tiešām ir salīdzinoši laba – mūsu BLEU mērījumi un cilvēku novērtējums rāda, ka esam tikpat labi un dažbrīd pat labāki par citām latviešu valodai pieejamām MT sistēmām.
Uzlabots ir arī esošais angļu-latviešu valodas virziens, kurā piestrādāts pie pareiza lielo/mazo burtu, ģeogrāfisko nosaukumu un personvārdu lietojuma tulkojumā, tagad vairs nepazūd arī jautājuma zīmes. Lai saprastu, ko un kā tulko mašīntulks, lietotājiem parasti patīk izvēlēties īsas frāzes, piemēram, “Mani sauc Jānis, un es Tevi mīlu”, vai arī kādu idiomu, piemēram, “Ko sēsi, to pļausi”. Tildes Tulkotājs tagad šādas ikdienā lietotas frāzes un izteicienus tulko krietni precīzāk – pamēģiniet!
Ja nu, tulkojot tekstus, rodas nepieciešamība iztulkot tikai vienu vārdu, to varat izdarīt turpat – rezultāts tiks atspoguļots no vārdnīcas.
Ļoti gaidām jūsu komentārus un ierosinājumus, to tagad ātri un ērti varat izdarīt turpat, translate.tilde.lv meklējiet saiti uz komentāriem.
Saulainus sveicienus sūtot,
Diāna Čunčule
Valodas sistēmu biznesa vadītāja
Uzlabots ir arī esošais angļu-latviešu valodas virziens, kurā piestrādāts pie pareiza lielo/mazo burtu, ģeogrāfisko nosaukumu un personvārdu lietojuma tulkojumā, tagad vairs nepazūd arī jautājuma zīmes. Lai saprastu, ko un kā tulko mašīntulks, lietotājiem parasti patīk izvēlēties īsas frāzes, piemēram, “Mani sauc Jānis, un es Tevi mīlu”, vai arī kādu idiomu, piemēram, “Ko sēsi, to pļausi”. Tildes Tulkotājs tagad šādas ikdienā lietotas frāzes un izteicienus tulko krietni precīzāk – pamēģiniet!
Ja nu, tulkojot tekstus, rodas nepieciešamība iztulkot tikai vienu vārdu, to varat izdarīt turpat – rezultāts tiks atspoguļots no vārdnīcas.
Ļoti gaidām jūsu komentārus un ierosinājumus, to tagad ātri un ērti varat izdarīt turpat, translate.tilde.lv meklējiet saiti uz komentāriem.
Saulainus sveicienus sūtot,
Diāna Čunčule
Valodas sistēmu biznesa vadītāja
otrdiena, 2010. gada 11. maijs
Mašīntulkošana "Valodu krasta" iniciatīvas ietvaros
Iniciatīva „Valodu krasts” paredz Latvijā izveidot globālu mazo valodu tehnoloģiju attīstības centru. Tajā plānots apvienot un koordinēt pētniecības iestāžu, informācijas tehnoloģijas uzņēmumu un citu saistīto institūciju sadarbību valodas tehnoloģiju jomā. Sadarbojoties Tildes valodas tehnoloģiju ekspertiem un Microsoft pētniecības centra Microsoft Research speciālistiem, ir tapusi mašīntulkošanas sistēma darbam virzienā no latviešu uz angļu un no angļu uz latviešu valodu.
Patlaban ir izveidots mašīntulkošanas sistēmas tehnoloģiskais pamats, kā arī radītas iespējas plašai sabiedrībai iesaistīties šīs sistēmas lietošanā, novērtēšanā un pilnveidošanā.
Izveidoto mašīntulkošanas sistēmu katrs mājas lapas izstrādātājs var ievietot savā lapā, lai lietotāji lapas saturu varētu tulkot daudzās valodās.
Vairāk par šo iespēju...
Patlaban ir izveidots mašīntulkošanas sistēmas tehnoloģiskais pamats, kā arī radītas iespējas plašai sabiedrībai iesaistīties šīs sistēmas lietošanā, novērtēšanā un pilnveidošanā.
Izveidoto mašīntulkošanas sistēmu katrs mājas lapas izstrādātājs var ievietot savā lapā, lai lietotāji lapas saturu varētu tulkot daudzās valodās.
Vairāk par šo iespēju...
otrdiena, 2009. gada 8. decembris
Kas lācītim vēderā
Tildes Tulkotājs translate.tilde.com jau kādu laiku ir pieejams. Jūs to esat pamēģinājuši, un ir parādījušies pirmie jautājumi. Piemēram: Kāpēc netulko šo vienkāršo vārdu? Kāpēc vārdam ir nepareiza dzimte? Ar ko šis tulkotājs atšķiras no citiem, kas tulko no angļu valodas uz latviešu valodu?
Ir grūti atbildēt uz šiem jautājumiem. Gan tāpēc, ka izvērstai atbildei vajadzētu vismaz nelielu grāmatu, gan tāpēc, ka man ir bail uzrakstīt pārāk sarežģīti. Centīšos rakstīt īsi un vienkārši.
Šoreiz sākšu ar pašiem pamatiem, lai vēlāk varētu turpināt un pastāstīt jau sarežģītākas lietas.
Mašīntulkošanas sistēmas (MTS) izmanto dažādas metodes. Senākās ir likumos un zināšanās bāzētas metodes, kas izmanto cilvēka radītus likumus un vārdnīcas, lai aprakstītu gan dabīgo valodu gramatiku, gan noteiktus tulkošanas likumus. Pēdējā laikā pasaulē populāras kļūst statistiskās MTS, kas neizmanto cilvēka radītus likumus un vārdnīcas, bet ar statistikas metodēm analizē iepriekš tulkotus tekstus, iegūst statistiskos datus un tos izmanto jaunu tekstu tulkošanai. Abām minētajām metodēm ir savas stiprās un vājās puses.
Likumos bāzētas sistēmas spēj labi tulkot tekstus, kuru tulkošanai tām ir visas nepieciešamās zināšanas. Taču reālā cilvēku valoda ir sarežģīta ar daudz izņēmumiem un neprecizitātēm, arī vārdnīcas ir nepilnīgas. Tāpēc praksē nav iespējams aprakstīt visas nepieciešamās zināšanas. Likumos bāzētas MTS ir iespējams pilnveidot līdz noteiktam līmenim, bet tālāka to pilnveidošana kļūst aizvien sarežģītāka un prasa ļoti lielu cilvēka darbu.
Statistiskās MTS automātiski uzkrāj statistiskos datus par tulkotajiem tekstiem. To pilnveidošanai nav nepieciešami cilvēka radīti likumi, taču ir vajadzīgs paralēlais korpuss (daudz, daudz teksta abās valodās) statistisko datu iegūšanai. Galvenā statistisko MTS problēma ir nepieciešamā apmācības korpusa apjoms. Lielajām valodām, angļu, spāņu, franču u.c. tā nav liela problēma, taču mazajām valodām ir ļoti grūti savākt pietiekami daudz paralēla teksta, lai iegūtu statistiskos datus ar augstu ticamību. Cita statistisko MTS vājā vieta ir tas, ka tās neizmanto nekādu informāciju par gramatiku, tai skaitā, informāciju par vārdu locīšanu. Rezultātā, lai iegūtu ticamus statistiskos datus, maz lokāmām valodām (piem., angļu), pietiek ar daudz mazāku paralēlo korpusu nekā lokāmām valodām (piem., latviešu).
Latviešu valoda diemžēl ir maza, lokāma un ar sarežģītu gramatiku. Tāpēc korpusā bāzētu mašīntulkošanas metožu izmantošana, tulkojot gan no latviešu valodas, gan uz latviešu valodu, ir sarežģīta. Arī tīra likumos jeb zināšanās bāzētu metožu izmantošana ir sarežģīta, jo valoda nav pietiekami labi un formāli aprakstīta un arī vārdnīcas ir mazas un nepilnīgas.
Kombinējot abas metodes ir iespējams sasniegt labākus rezultātus. Izmantojot zināšanas par valodu, ir iespējams iegūt uzticamākus statistiskos datus, un otrādi – izmatojot statistiskos datus, ir iespējams iegūt jaunas zināšanas zināšanās bāzētai mašīntulkošanai.
Tildes Tulkotājs translate.tilde.lv ir tīra statistiskā MTS. Tas neizmanto nekādu vārdnīcu, tas nezina neko par angļu un latviešu gramatiku u.t.t.
Ar ko tas atšķirās no citām MTS? Tildes Birojā 2008 iekļautais tulkotājs ir likumos balstīts. Google tulkotājs arī ir statistiskā MTS. Neviens nezina, kā tieši ir uzbūvēts Google tulkotājs, bet šķiet, ka atšķirība varētu būt tāda, ka Tildes Tulkotājs, papildus statistikas datiem, kas iegūti no paralēlā korpusa izmanto arī statistikas par vārdu locījumiem.
Turpinājums sekos...
Ir grūti atbildēt uz šiem jautājumiem. Gan tāpēc, ka izvērstai atbildei vajadzētu vismaz nelielu grāmatu, gan tāpēc, ka man ir bail uzrakstīt pārāk sarežģīti. Centīšos rakstīt īsi un vienkārši.
Šoreiz sākšu ar pašiem pamatiem, lai vēlāk varētu turpināt un pastāstīt jau sarežģītākas lietas.
Mašīntulkošanas sistēmas (MTS) izmanto dažādas metodes. Senākās ir likumos un zināšanās bāzētas metodes, kas izmanto cilvēka radītus likumus un vārdnīcas, lai aprakstītu gan dabīgo valodu gramatiku, gan noteiktus tulkošanas likumus. Pēdējā laikā pasaulē populāras kļūst statistiskās MTS, kas neizmanto cilvēka radītus likumus un vārdnīcas, bet ar statistikas metodēm analizē iepriekš tulkotus tekstus, iegūst statistiskos datus un tos izmanto jaunu tekstu tulkošanai. Abām minētajām metodēm ir savas stiprās un vājās puses.
Likumos bāzētas sistēmas spēj labi tulkot tekstus, kuru tulkošanai tām ir visas nepieciešamās zināšanas. Taču reālā cilvēku valoda ir sarežģīta ar daudz izņēmumiem un neprecizitātēm, arī vārdnīcas ir nepilnīgas. Tāpēc praksē nav iespējams aprakstīt visas nepieciešamās zināšanas. Likumos bāzētas MTS ir iespējams pilnveidot līdz noteiktam līmenim, bet tālāka to pilnveidošana kļūst aizvien sarežģītāka un prasa ļoti lielu cilvēka darbu.
Statistiskās MTS automātiski uzkrāj statistiskos datus par tulkotajiem tekstiem. To pilnveidošanai nav nepieciešami cilvēka radīti likumi, taču ir vajadzīgs paralēlais korpuss (daudz, daudz teksta abās valodās) statistisko datu iegūšanai. Galvenā statistisko MTS problēma ir nepieciešamā apmācības korpusa apjoms. Lielajām valodām, angļu, spāņu, franču u.c. tā nav liela problēma, taču mazajām valodām ir ļoti grūti savākt pietiekami daudz paralēla teksta, lai iegūtu statistiskos datus ar augstu ticamību. Cita statistisko MTS vājā vieta ir tas, ka tās neizmanto nekādu informāciju par gramatiku, tai skaitā, informāciju par vārdu locīšanu. Rezultātā, lai iegūtu ticamus statistiskos datus, maz lokāmām valodām (piem., angļu), pietiek ar daudz mazāku paralēlo korpusu nekā lokāmām valodām (piem., latviešu).
Latviešu valoda diemžēl ir maza, lokāma un ar sarežģītu gramatiku. Tāpēc korpusā bāzētu mašīntulkošanas metožu izmantošana, tulkojot gan no latviešu valodas, gan uz latviešu valodu, ir sarežģīta. Arī tīra likumos jeb zināšanās bāzētu metožu izmantošana ir sarežģīta, jo valoda nav pietiekami labi un formāli aprakstīta un arī vārdnīcas ir mazas un nepilnīgas.
Kombinējot abas metodes ir iespējams sasniegt labākus rezultātus. Izmantojot zināšanas par valodu, ir iespējams iegūt uzticamākus statistiskos datus, un otrādi – izmatojot statistiskos datus, ir iespējams iegūt jaunas zināšanas zināšanās bāzētai mašīntulkošanai.
Tildes Tulkotājs translate.tilde.lv ir tīra statistiskā MTS. Tas neizmanto nekādu vārdnīcu, tas nezina neko par angļu un latviešu gramatiku u.t.t.
Ar ko tas atšķirās no citām MTS? Tildes Birojā 2008 iekļautais tulkotājs ir likumos balstīts. Google tulkotājs arī ir statistiskā MTS. Neviens nezina, kā tieši ir uzbūvēts Google tulkotājs, bet šķiet, ka atšķirība varētu būt tāda, ka Tildes Tulkotājs, papildus statistikas datiem, kas iegūti no paralēlā korpusa izmanto arī statistikas par vārdu locījumiem.
Turpinājums sekos...
sestdiena, 2009. gada 24. oktobris
Kas ir šis translate.tilde.lv?
Tā nav vārdnīca, jo tulko teikumus un garākus tekstus, nevis tikai vienu vārdu.
Tā nav arī tā pati angļu-latviešu mašīntulkošana, kas Tildes Birojā 2008. Šī ir pavisam jauna sistēma, kas būvēta uz pavisam citām tehnoloģijām.
Vai tā tulko labāk? Ceru, ka jā. Tomēr dators nespēj un diez vai kādreiz spēs tulkot tikpat labi kā cilvēks. Mēs esam veikuši šī tulkotāja kvalitātes salīdzināšanu ar citām mašīntulkošanas sistēmām. Sīkāk par rezultātiem mēs pastāstīsim citreiz, bet iesākumam varu teikt, ka rezultāti mūs iepriecina.
Vai šis tulkotājs būs pieejams arī jaunajā Tildes Birojā? Jā un nē. Jā tādā ziņā, ka tas būs integrēts Tildes Birojā un to varēs ērti lietot, nē tādā ziņā, ka tas diez vai tiks instalēts lietotāju datoros, jo tam vajag daudzus gigabaitus vietas.
Tā nav arī tā pati angļu-latviešu mašīntulkošana, kas Tildes Birojā 2008. Šī ir pavisam jauna sistēma, kas būvēta uz pavisam citām tehnoloģijām.
Vai tā tulko labāk? Ceru, ka jā. Tomēr dators nespēj un diez vai kādreiz spēs tulkot tikpat labi kā cilvēks. Mēs esam veikuši šī tulkotāja kvalitātes salīdzināšanu ar citām mašīntulkošanas sistēmām. Sīkāk par rezultātiem mēs pastāstīsim citreiz, bet iesākumam varu teikt, ka rezultāti mūs iepriecina.
Vai šis tulkotājs būs pieejams arī jaunajā Tildes Birojā? Jā un nē. Jā tādā ziņā, ka tas būs integrēts Tildes Birojā un to varēs ērti lietot, nē tādā ziņā, ka tas diez vai tiks instalēts lietotāju datoros, jo tam vajag daudzus gigabaitus vietas.
Laipni lūgti Tildes mašīntulkošanas emuārā!
Neteikšu, ka esmu daudz ticies un runājis ar jums, Tildes programmu lietotājiem. Tā nu ir sanācis, ka mans darbs ir vairāk saistīts ar programmu radīšanu, mazāk ar runāšanu. Tomēr, kad vien jums ir bijusi tāda iespēja, visbiežāk jūs esat vaicājuši par tulkotāju.
Kad beidzot Tilde uztaisīs tulkotāju, kas tulkos visu tekstu no angļu valodas uz latviešu?
Jau kādu laiku angļu-latviešu un latviešu-krievu tulkotāji ir pieejami Tildes Biroja 2008 lietotājiem. Tagad, šajās dienās mēs izlaižam brīvi pieejamu angļu-latviešu tulkotāju internetā. Mašīntulkošana ir kļuvusi Latvijas datorlietotājiem vēl pieejamāka. Mēs esam izveidojuši šo emuāru, lai stāstītu jums par jaunumiem mašīntulkošanā un lai uzklausītu jūsu domas par to, ko mēs darām.
Raivis Skadiņš
Galvenais programmatūras arhitekts, Mašīntulkošanas komandas vadītājs
Kad beidzot Tilde uztaisīs tulkotāju, kas tulkos visu tekstu no angļu valodas uz latviešu?
Jau kādu laiku angļu-latviešu un latviešu-krievu tulkotāji ir pieejami Tildes Biroja 2008 lietotājiem. Tagad, šajās dienās mēs izlaižam brīvi pieejamu angļu-latviešu tulkotāju internetā. Mašīntulkošana ir kļuvusi Latvijas datorlietotājiem vēl pieejamāka. Mēs esam izveidojuši šo emuāru, lai stāstītu jums par jaunumiem mašīntulkošanā un lai uzklausītu jūsu domas par to, ko mēs darām.
Raivis Skadiņš
Galvenais programmatūras arhitekts, Mašīntulkošanas komandas vadītājs
Abonēt:
Ziņas (Atom)