otrdiena, 2010. gada 7. septembris

Paralēlā teksta nozīme mašīntulkošanā

Jau iepriekš esmu pieminējis, ka modernās mašīntulkošanas sistēmas mācās kā tulkot no jau pārtulkotiem tekstiem. Arī translate.tilde.com ir tāda sistēma - statistiskā mašīntulkošanas sistēma, kas sarēķina tulkojumu varbūtības no jau pārtulkotiem tekstiem. Un tad šīs tulkojumu varbūtības tiek izmantotas tulkojot. 
Lai dators varētu izrēķināt tulkojumu varbūtības nepieciešams tā sauktais paralēlais teksts, t.i., teksts vienā valodā ar tam atbilstošo tulkojumu otrā valodā, un abu tekstu teikumiem ir jābūt sastatītiem, proti, ir jāzina kurš teikums ir kura tulkojums. Jo vairāk paralēlā teksta pieejams, jo labāku mašīntulkotāju var uztrenēt. Tātad paralēlajam tekstam ir ļoti būtiska nozīme mašīntulkošanas attīstībā.

Rezultātā šobrīd pasaulē notiek dažādi projekti un aktivitātes, kam ir mērķis apkopot pēc iespējas vairāk paralēlā teksta, lai to izmantotu gan mašīntulkošanas uzlabošanai, gan cilvēka tulkotāja darba efektivitātes celšanai. Arī Tilde ir iesaistīta vairākās šādās aktivitātēs. Tie ir gan pētnieciskie projekti, gan jaunu pakalpojumu izstrādes projekti, gan vienkārši labas iniciatīvas. Šoreiz pastāstīšu par vienu šādu iniciatīvu, citreiz pastāstīšu arī par pētnieciskajiem u.c. projektiem, kuros esam iesaistīti.

Tilde kopā ar citiem uzņēmumiem tādiem kā Adobe, Oracle, Sun, Intel, Microsoft u.c. ir viens no starptaustiskās organizācijas TAUS Data Associaton (TAUS DA) dibinātājiem. Šī organizācija ir radīta, lai tie, kam ir piejami lieli paralēlā teksta resursi, varētu ar tiem dalīties. TAUS DA datubāzē ir pieejami tulkojumi, kas nāk no dažādām organizācijām - gan firmām, gan ES institūcijām, gan individuāliem tulkotājiem. Un šie tulkojumi ļoti noder gan tulkotāju darba efektivitātes celšanai, gan mašīntulkošanas sistēmu uzlabošanai. Arī Tilde ir padarījusi piejamus lielu daļu no Tildē veiktajiem tulkojumiem, tie tagad ir ievietoti TAUS DA datubāzē.

TAUS DA ir samērā jauna organizācija, arī dalīšanās ar paralēlajiem tekstiem ir jauna iniciatīva, un visi domā un meklē kā vislabāk izmantot šo jauno iespēju. Dažādas TAUS DA organizācijas izmanto datubāzi dažādiem mērķiem. Pašlaik tie ir tikai pirmie reālās izmantošanas soļi (sīkāk: http://www.tausdata.org/index.php/visitor-center/use-cases). Arī Tilde kopā ar firmu Adobe piedalījās TAUS DA rīkotā eksperimentā, kura mērķis bija noskaidrot vai, izmantojot TAUS DA datus, ir iespējams ļoti īsā laikā (24h) izveidot klienta vajadzībām pielāgotu mašīntulkošanas sistēmu, kas palīdzētu reālā programmatūras interfeisu un dokumentācijas tulkošanas darbā. Atbilde ir - jā, izmantojot TAUS DA datus, ir iespējams 24h izveidot mašīntulkošanas sistēmu, kas labi tulko Adobe tekstus no angļu valodas uz latviešu valodu.
Sīkāk par šo eksperimentu:
http://www.tausdata.org/index.php/visitor-center/use-cases/134-tilde-use-case-summary

2 komentāri:

Andris teica...

Kāds tieši guvums ir Tildei kā TAUS biedram? Vai nav tā, ka lielākā daļa paralēlo tekstu ir pieejami svešvalodu pāriem, bet tekstus, kur iesaistīta arī latviešu valoda, šajā TAUS DA datubāzē ievieto tikai Tilde? Ja tā, tad tad kā plānots uzlabot Tildes tulkotāju tieši statistiskā korpusa ziņā, nevis smeļoties pieredzi no citiem TAUS biedriem, kas, protams, ir vajadzīga un neatsverama.

Raivis Skadiņš teica...

Nav tā, ka TAUS datu bāzē paralēlos tekstus, kuros ir latviešu valoda, ievieto tikai Tilde. TAUS datubāzē ir paralēlie teksti ar latviešu valodu, ko tur ir ievietojuši citi TAUS biedri. Piemēram, tur ir samērā daudz teksti medicīnas jomā, kas nāk no attiecīgās ES aģentūras (EMEA). Ir arī Adobe programmu lokalizācijas, kas nāk no Adobe.

Ierakstīt komentāru