otrdiena, 2009. gada 8. decembris

Kas lācītim vēderā

Tildes Tulkotājs translate.tilde.com jau kādu laiku ir pieejams. Jūs to esat pamēģinājuši, un ir parādījušies pirmie jautājumi. Piemēram: Kāpēc netulko šo vienkāršo vārdu? Kāpēc vārdam ir nepareiza dzimte? Ar ko šis tulkotājs atšķiras no citiem, kas tulko no angļu valodas uz latviešu valodu?

Ir grūti atbildēt uz šiem jautājumiem. Gan tāpēc, ka izvērstai atbildei vajadzētu vismaz nelielu grāmatu, gan tāpēc, ka man ir bail uzrakstīt pārāk sarežģīti. Centīšos rakstīt īsi un vienkārši.
Šoreiz sākšu ar pašiem pamatiem, lai vēlāk varētu turpināt un pastāstīt jau sarežģītākas lietas.

Mašīntulkošanas sistēmas (MTS) izmanto dažādas metodes. Senākās ir likumos un zināšanās bāzētas metodes, kas izmanto cilvēka radītus likumus un vārdnīcas, lai aprakstītu gan dabīgo valodu gramatiku, gan noteiktus tulkošanas likumus. Pēdējā laikā pasaulē populāras kļūst statistiskās MTS, kas neizmanto cilvēka radītus likumus un vārdnīcas, bet ar statistikas metodēm analizē iepriekš tulkotus tekstus, iegūst statistiskos datus un tos izmanto jaunu tekstu tulkošanai. Abām minētajām metodēm ir savas stiprās un vājās puses.

Likumos bāzētas sistēmas spēj labi tulkot tekstus, kuru tulkošanai tām ir visas nepieciešamās zināšanas. Taču reālā cilvēku valoda ir sarežģīta ar daudz izņēmumiem un neprecizitātēm, arī vārdnīcas ir nepilnīgas. Tāpēc praksē nav iespējams aprakstīt visas nepieciešamās zināšanas. Likumos bāzētas MTS ir iespējams pilnveidot līdz noteiktam līmenim, bet tālāka to pilnveidošana kļūst aizvien sarežģītāka un prasa ļoti lielu cilvēka darbu.

Statistiskās MTS automātiski uzkrāj statistiskos datus par tulkotajiem tekstiem. To pilnveidošanai nav nepieciešami cilvēka radīti likumi, taču ir vajadzīgs paralēlais korpuss (daudz, daudz teksta abās valodās) statistisko datu iegūšanai. Galvenā statistisko MTS problēma ir nepieciešamā apmācības korpusa apjoms. Lielajām valodām, angļu, spāņu, franču u.c. tā nav liela problēma, taču mazajām valodām ir ļoti grūti savākt pietiekami daudz paralēla teksta, lai iegūtu statistiskos datus ar augstu ticamību. Cita statistisko MTS vājā vieta ir tas, ka tās neizmanto nekādu informāciju par gramatiku, tai skaitā, informāciju par vārdu locīšanu. Rezultātā, lai iegūtu ticamus statistiskos datus, maz lokāmām valodām (piem., angļu), pietiek ar daudz mazāku paralēlo korpusu nekā lokāmām valodām (piem., latviešu).

Latviešu valoda diemžēl ir maza, lokāma un ar sarežģītu gramatiku. Tāpēc korpusā bāzētu mašīntulkošanas metožu izmantošana, tulkojot gan no latviešu valodas, gan uz latviešu valodu, ir sarežģīta. Arī tīra likumos jeb zināšanās bāzētu metožu izmantošana ir sarežģīta, jo valoda nav pietiekami labi un formāli aprakstīta un arī vārdnīcas ir mazas un nepilnīgas.

Kombinējot abas metodes ir iespējams sasniegt labākus rezultātus. Izmantojot zināšanas par valodu, ir iespējams iegūt uzticamākus statistiskos datus, un otrādi – izmatojot statistiskos datus, ir iespējams iegūt jaunas zināšanas zināšanās bāzētai mašīntulkošanai.

Tildes Tulkotājs translate.tilde.lv ir tīra statistiskā MTS. Tas neizmanto nekādu vārdnīcu, tas nezina neko par angļu un latviešu gramatiku u.t.t.

Ar ko tas atšķirās no citām MTS? Tildes Birojā 2008 iekļautais tulkotājs ir likumos balstīts. Google tulkotājs arī ir statistiskā MTS. Neviens nezina, kā tieši ir uzbūvēts Google tulkotājs, bet šķiet, ka atšķirība varētu būt tāda, ka Tildes Tulkotājs, papildus statistikas datiem, kas iegūti no paralēlā korpusa izmanto arī statistikas par vārdu locījumiem.

Turpinājums sekos...

7 komentāri:

Anonīms teica...

Mēģināju iztulkot tekstu:
Translation can sometimes be a hard thing to crunch - especially for machines.
Tulkojums gan sanāca jautrs, bet ne tas ir galvenais:
Tulkošanas reizēm var būt sīva lieta, lai kraukšķēšana - jo īpaši attiecībā uz mašīnām.

Saskaņā ar latviešu valodnieku atzinumiem, "attiecībā uz" ir krieviska konstrukcija, un to labāk nelietot. Arī šajā gadījumā tulkojums būtu labāks, ja "attiecībā uz" tiktu gluži vienkārši izlaists...

Kāpēc Tilde ar savu programmatūru kropļo latviešu valodu???

Anonīms teica...

Nez kāpēc vārdu "God" Tilde tulko "katastrofa"? Un "Lord" - "lords"? "Al Gore" - "Al asiņu recekļi"? "summit" - "iekarot"?

Daudz darba vēl!

Anonīms teica...

Komentētājam, kurš moralizē par krieviskumu, pats lietodams īsti krievisku vārdkopu "saskaņā ar latviešu valodnieku atzinumiem(,)"! Kādēļ ne "pēc latviešu valodnieku atzinumiem(,)" vai arī "daļa latviešu valodnieku domā, ka"? Saliktajam prievārdam "attiecībā uz" krieviskumu pārmest nebūtu pareizi, tāds saliktais prievārds ir daudzās valodās, turklāt latviešu valodā tam nemaz nav laba aizstājēja, jo ar datīvu ne vienmēr var izlīdzēties. Ne visus angļu "for" varētu tulkot arī ar arhaisko "priekš". -- A. L.

Anonīms teica...

Tiem, kas brīnās, kāpēc mašīntulkotājs netulko it kā vienkāršus vārdus vai tos tulko neatbilstoši kontekstam, gribētu sniegt mazu ieskatu. Šis mašīntulkotājs, gluži tāpat kā cilvēks, vēl daudz ko "nezina". Tajā ir ielādētas nevis vārdnīcas, bet gan teikumi un to tulkojumi, no kuriem tad mašīntulkotājs arī mēģina izveidot, "datoraprāt", iespējamo tulkojumu. Citiem vārdiem, viss atkarīgs no tā, kādi tulkojumi ir pieejami tulkotāja atmiņā (to var vienlīdz labi attiecināt kā uz cilvēku, tā datoru). JŠ

Anonīms teica...

Nedarbojas ar lielo burtu ja raksta
Hunt=Dainis hunt=vajāt.

NEIZMANTOT LIELOS BURTUS

Ieva teica...

Programmēšana man ir kā ķīniešu ābece, bet vai būtu ļoti sarežģīti ieviest tēmu sarakstu MTS pieejamajiem resursiem, lai katrs tulkojuma kārotājs varētu "atķeksēt" sava svešvalodas teksta tēmu (ja saprotama). Vai tas neatvieglotu pareizo tulkojumu atlasi?

Inese teica...

Čau!
Pamanīju šādas lietas:
Ja angļu tekstā ir simbols &, tad tālāko tekstu teikumā tulkotājs ignorē.
Līdzīgi notiek arī ar daļskaitļiem, kas parādas teikuma vidū.
Negatīviem apgalvojumiem ar "No" dažkārt tulkojums ir pretējs (t.i. pozitīvs). Piemēram: No data will be lost. >> Nē, dati tiks zaudēti.

Bet vispār baigi forši! Daudz sakarīgāk par Google tulkotāju sanāk.
Lai veicas!

Ierakstīt komentāru