piektdiena, 2010. gada 26. novembris

Tilde gūst starptautisku atzinību valodas tehnoloģiju forumā Briselē

17.novembrī, Eiropas Valodas tehnoloģiju forumā kā izcils sadarbības piemērs tika prezentēta Latvijas IT uzņēmuma Tilde partnerība ar Microsoft, kopīgi veidojot latviešu valodas mašīntulkošanas sistēmu microsofttranslator.com „Valodu krasta” projekta ietvaros. To savā uzrunā forumā sanākušajiem Eiropas politiķiem, uzņēmējiem un zinātniekiem akcentēja Microsoft Research valodu tehnoloģiju vadītājs Bills Dolans (Bill Dolan).

„IT industrijas attīstība ir ļoti būtisks faktors ikvienas valsts ekonomiskās konkurētspējas kāpināšanai. To norāda arī Pasaules ekonomikas foruma Globālās konkurētspējas indekss. Esmu gandarīta par to, ka šobrīd jau starptautiskā mērogā sāk izskanēt pirms aptuveni gada aizsāktā „Valodu krasta” projekta ideja un pirmie panākumi,” vērtē Signe Bāliņa, Latvijas Informācijas un komunikācijas tehnoloģiju asociācijas prezidente. „Šim projektam, kurš top valsts, uzņēmēju, pētnieku un starptautiskā partnerībā, ir ļoti liels potenciāls, un ceru, ka tas arī turpmāk attīstīsies tikpat veiksmīgi.”

„Esam gandarīti, ka jau pirmajā „Valodu krasta” darbības gadā gūti tik nozīmīgi rezultāti, kas nostiprina latviešu valodas pozīcijas globālajā tīmeklī. Strādājot vienotā komandā, mūsu pētnieki kopā ar Microsoft Research speciālistiem radījuši jaunas metodes, kā attīstīt arī citas nelielās valodas. Pirmie rezultāti praktiski apliecina, ka „Valodu krasta” iniciatīva spēj gūt starptautisku līderību šajā augstas pievienotās vērtības jomā. Veidojot plašu industrijas un pētniecības centru sadarbību, iesaistoties ES inovāciju programmās, attīstām jaunas paaudzes tehnoloģijas Eiropas valodām,” saka Andrejs Vasiļjevs, sabiedrības Tilde valdes priekšsēdētājs.

„Valodu krasta” praktiska īstenošana tika aizsākta 2009.gada beigās, parakstot sadarbības memorandu starp Microsoft un sabiedrību Tilde. Šobrīd jau īstenoti divi pilotprojekti - mašīntulkošanas sistēmas izveide no latviešu uz angļu un no angļu uz latviešu valodu, kā arī terminu portāla EuroTermBank.com papildināšana ar Microsoft terminoloģijas datubāzi, ļaujot pilnveidot tulkošanas iespējas un nostiprinot EuroTermBank.com kā plašāko Eiropas terminoloģijas avotu.

piektdiena, 2010. gada 29. oktobris

Mašīntulka uzlabošana, izmantojot internetā pieejamos tekstus

Jau vairākkārt šajā emuārā esmu rakstījis, ka mašīntulkošanas sistēmas mācās kā tulkot no iepriekš pārtulkotiem tekstiem un arī vienkārši no tekstiem izejas valodā. Citiem vārdiem, jo vairāk pārtulkota angļu-latviešu teksta (un arī vienkārši latviešu teksta) sistēma ir redzējusi, jo labāk tā tulko. Vienkārši, vai ne? 

Bet tas nemaz nav vienkrši savākt daudz, daudz šādu tekstu. Runa ir par daudziem miljoniem teikumu.

Eiropas Komisija ir atbalstījusi pētniecisku projektu ACCURAT (http://www.accurat-project.eu), kurā tiek pētītas metodes, kā mašīntulkošanai noderīgus datus atrast internetā. Visiem ir zināms, ka internetā ir ļoti daudz informācijas, liela daļa no tās ir tulkota vai vismaz aptuveni aprakstīta vairākās valodās. ACCURAT projkektā tiek izstrādātas metodes, kuras ļaus internetā atrast paralēlus vai vismaz līdzīgus tekstus vairākās valodās.

Jau pašlaik, tulkotāja translate.tilde.lv uzlabošanai, mēs nepārtraukti automatiski vācam tekstu no interneta. Tiek vākti gan tulkoti teksti, gan vienkārši teksti latviešu valodā.

Mēs esam apzinājuši desmitiem labu informācijas avotu internetā, kuros mēs ikdienas atrodam daudz jaunu un kvalitatīvu tekstu latviešu valodā. Piemēram, ziņu portāli, laikrakstu mājaslapas u.tml.

Gribam dot iespēju arī jums piedalīties ar savu pienesumu mašīntulkošanas attīstībā. Katrs taču zina vairākas labas vietas internetā, kurās regulāri ielūkojas, jo tajās regulāri parādās jauna informācija. Aicinu padalīties ar informāciju un mašīntulks kļūs labāks. Pievienojiet mājaslapu adreses komentāros.

ceturtdiena, 2010. gada 21. oktobris

Eiropas patentus tulkos mašīntulks

Tagad projekta LetsMT! nozīmīgumu apliecina Eiropas Padomes dokuments. Tas ir būtisks projekts, kas attīsta jaunas metodes, kuras būs izmantojamas Eiropas patentu mašīntulkošanai. Eiropas padome dalībvalstīm izteikusi oficiālu piedāvājumu ES patentu tulkošanas kārtībai.

Saite uz projekta mājas lapu: http://letsmt.com/

trešdiena, 2010. gada 20. oktobris

Tildes mašīntulkošanas projekti LISA konferencē

Sabiedrība Tilde pārstāvēta konferencē un izstādē LISA (Localization Industry Standarts Associaton) Budapeštā gan konferences satura komitejā, gan ar uzstāšanos. Tās laikā tika prezentēti tādi ievērojami projekti kā LetsMT!, par kuru lielu interesi izrādīja Eiropas mazie un vidējie lokalizācijas uzņēmumi. Ievērojama interese un cieņa par paveikto ir arī par Tildes mašīntulkošanas kapacitāti un tehnoloģiju. Konferences dalībnieku ievērību guva arī veiksmīgā sadarbība ar Microsoft Translator.



Attēlā sabiedrības Tilde Baltijas lokalizācijas vadītāja Indra Sāmīte

Tilde dalās pieredzē TAUS pasākumā Portlandē


Sabiedrība Tilde pārstāvēta ievērojamā TAUS (translation automation user society) konferencē ASV pilsētā Portlandē. TAUS sevī apvieno lielākos valodas resursu īpašniekus – Oracle, IBM, Microsoft, Dell, Adobe, kā arī mašīntulkošanas rīku un sistēmu izstrādātājus kā Systran, Multi Corpora un Tilde. TAUS mērķis ir izveidot kolaboratīvu paralēlo korpusu krātuvi, kuru iespējams izmantot dažādu mašīntulkošanas projektu vajadzībām.
Šajā nozīmīgajā konferencē sabiedrību Tilde pārstāvēja Baltijas lokalizācijas direktore Indra Sāmīte un dalījās pieredzē par Tildes ievērojamajiem sasniegumiem kopā ar Microsoft Translator, kā arī LetsMT!, Accurat un TTC projektiem.

ceturtdiena, 2010. gada 14. oktobris

Noslēgusies 4. starptautiskā valodu tehnoloģiju konference Baltic HLT 2010

7.-8.oktobrī Rīgas Juridiskās augstskolas telpās notika 4. starptautiskā valodu tehnoloģiju konference HUMAN LANGUAGE TECHNOLOGIES — THE BALTIC PERSPECTIVE (Baltic HLT 2010). Konferences galvenās tēmas bija valodas resursi un rīki humanitāro zinātņu vajadzībām un automatizētās tulkošanas metodes. Konferenci atklāja LU rektors profesors Mārcis Auziņš, Valsts valodas komisijas priekšsēdētājs prof. Andrejs Veisbergs un LU Matemātikas un informātikas institūta direktors Rihards Balodis-Bolužs. Konferences rīta sēde bija veltīta CLARIN projektam – ar CLARIN projektu iepazīstināja tā koordinators Stevins Krauvers (Utrehtas universitāte) un Baltijas valstu pārstāvji sniedza pārskatu par valodas tehnoloģijām. Pēcpusdienas plenārsēdē prof. Kimmo Koskenniemi sniedza pārskatu par galīgo automātu lietojumu valodu tehnoloģijās. 8. oktobra plenārsēdē Dr. Andreas Eisele iepazīstināja ar mašīntulkošanas iespējām „mazajām” valodām un Dr. Georgs Reims iepazīstināja ar META-NET iniciatīvu.
Konference pulcēja vairāk nekā 70 dalībnieku no Igaunijas, Lietuvas, Latvijas, Norvēģijas, Somijas, Nīderlandes, Francijas un Vācijas. Baltic HLT 2010 organizēja sabiedrība Tilde un Latvijas Universitātes Matemātikas un informātikas institūts. Konference ir kļuvusi par vadošo Baltijas zinātnisko konferenci datorlingvistikas jomā, kura pulcē zinātniekus gan no Baltijas valstīm, gan citām Eiropas valstīm.
Sīkāka informācija šeit: http://www.lumii.lv/hlt2010/

otrdiena, 2010. gada 7. septembris

Paralēlā teksta nozīme mašīntulkošanā

Jau iepriekš esmu pieminējis, ka modernās mašīntulkošanas sistēmas mācās kā tulkot no jau pārtulkotiem tekstiem. Arī translate.tilde.com ir tāda sistēma - statistiskā mašīntulkošanas sistēma, kas sarēķina tulkojumu varbūtības no jau pārtulkotiem tekstiem. Un tad šīs tulkojumu varbūtības tiek izmantotas tulkojot. 
Lai dators varētu izrēķināt tulkojumu varbūtības nepieciešams tā sauktais paralēlais teksts, t.i., teksts vienā valodā ar tam atbilstošo tulkojumu otrā valodā, un abu tekstu teikumiem ir jābūt sastatītiem, proti, ir jāzina kurš teikums ir kura tulkojums. Jo vairāk paralēlā teksta pieejams, jo labāku mašīntulkotāju var uztrenēt. Tātad paralēlajam tekstam ir ļoti būtiska nozīme mašīntulkošanas attīstībā.

Rezultātā šobrīd pasaulē notiek dažādi projekti un aktivitātes, kam ir mērķis apkopot pēc iespējas vairāk paralēlā teksta, lai to izmantotu gan mašīntulkošanas uzlabošanai, gan cilvēka tulkotāja darba efektivitātes celšanai. Arī Tilde ir iesaistīta vairākās šādās aktivitātēs. Tie ir gan pētnieciskie projekti, gan jaunu pakalpojumu izstrādes projekti, gan vienkārši labas iniciatīvas. Šoreiz pastāstīšu par vienu šādu iniciatīvu, citreiz pastāstīšu arī par pētnieciskajiem u.c. projektiem, kuros esam iesaistīti.

Tilde kopā ar citiem uzņēmumiem tādiem kā Adobe, Oracle, Sun, Intel, Microsoft u.c. ir viens no starptaustiskās organizācijas TAUS Data Associaton (TAUS DA) dibinātājiem. Šī organizācija ir radīta, lai tie, kam ir piejami lieli paralēlā teksta resursi, varētu ar tiem dalīties. TAUS DA datubāzē ir pieejami tulkojumi, kas nāk no dažādām organizācijām - gan firmām, gan ES institūcijām, gan individuāliem tulkotājiem. Un šie tulkojumi ļoti noder gan tulkotāju darba efektivitātes celšanai, gan mašīntulkošanas sistēmu uzlabošanai. Arī Tilde ir padarījusi piejamus lielu daļu no Tildē veiktajiem tulkojumiem, tie tagad ir ievietoti TAUS DA datubāzē.

TAUS DA ir samērā jauna organizācija, arī dalīšanās ar paralēlajiem tekstiem ir jauna iniciatīva, un visi domā un meklē kā vislabāk izmantot šo jauno iespēju. Dažādas TAUS DA organizācijas izmanto datubāzi dažādiem mērķiem. Pašlaik tie ir tikai pirmie reālās izmantošanas soļi (sīkāk: http://www.tausdata.org/index.php/visitor-center/use-cases). Arī Tilde kopā ar firmu Adobe piedalījās TAUS DA rīkotā eksperimentā, kura mērķis bija noskaidrot vai, izmantojot TAUS DA datus, ir iespējams ļoti īsā laikā (24h) izveidot klienta vajadzībām pielāgotu mašīntulkošanas sistēmu, kas palīdzētu reālā programmatūras interfeisu un dokumentācijas tulkošanas darbā. Atbilde ir - jā, izmantojot TAUS DA datus, ir iespējams 24h izveidot mašīntulkošanas sistēmu, kas labi tulko Adobe tekstus no angļu valodas uz latviešu valodu.
Sīkāk par šo eksperimentu:
http://www.tausdata.org/index.php/visitor-center/use-cases/134-tilde-use-case-summary

otrdiena, 2010. gada 1. jūnijs

Jaunas iespējas un kvalitatīvāks tulkojums

Vairāki Tildes tulkotāja un šī emura lasītāji ir vaicājuši: "Vai notiek darbs pie tulkotāja uzlabošanas?" 
Atbilde ir - jā, šis tulkotājs tiek pastāvīgi uzlabots. Ne visi uzlabojumi uzreiz nonāk pie jums, lietotājiem. Kopš tulkotāja pirmā izlaiduma mēs esam "uzbūvējuši" vairākus desmitus šī tulkotāja variantu un esam tos izvērtējuši, lai saprastu vai kvalitāte uzlabojas vai nē. Vairākkārt ir sanākušās tulkošanas sistēmas, kas ir labākas par iepriekšējo, tāpat vairākkārt ir sanākušas sliktākas versijas. Labāko no variantiem šobrīd piedāvājam jums. 

Šajā versijā ir vairāki būtiski uzlabojumi salīdzinot ar iepriekšējo. Šos uzlabojumus nosacīti var iedalīt 3 grupās:

1. uzlabojumi un jaunas iespējas tulkotāja lapā.
Šie uzlabojumi nav saistīti ar tulkošanas kvalitāti, bet tie palīdz ērtāk strādāt. Vispamanāmākā jaunā iespēja ir tulkotāja sasaiste ar vārdnīcu. Iepriekš bija tā, ka visu, kas bija ievadīts ievades laukā, mēs tulkojām ar māšīntulku, arī tad ja tur bija ievadīts tikai viens vārds. Tagad, ja tiek tulkots viens vārds, tad tas netiek tulkots ar mašīntuku, bet tā tulkojums tiek meklēts letonika.lv vārdnīcās, un tulkojumā var redzēt nevis vienu tulkojumu kā agrāk, bet vairākus tulkojums kā vārdnīcas šķirklī.
Vēl esam pielikuši iespēju jums ērtākā veidā izteikt savus ierosinājumus un komentārus.

2. jauns latviešu-angļu tulkošanas virziens.
Sākumā mēs translate.tilde.lv lapā piedāvājām tikai vienu tulkošanas virzienu - angļu-latviešu. Tagad ir pieejams arī otrs tulkošanas virziens - latviešu-angļu.

3. uzlabota angļu-latviešu tulkotāja kvalitāte.Abos tulkošanas virzienos mēs izmantojam statistisko mašīntulkošanu, tas nozīmē, ka tulkojuma kvalitāte ir galvenokārt atkarīga no 2 faktoriem. 1) treniņa datu apjoma un 2) papildus gudrības, ko esam ielikušu statistiskajos modeļos. Uzlabojumi ir abās jomās.
• Iepriekšējā tulkotāja trenēšanā mēs izmantojām apmēram 2,2 miljonus angļu teikumu ar to latviešu tulkojumiem un 5 miljonus latviešu teikumu valodas modelēšanai. Jaunā angļu-latviešu tulkotāja trenēšanai esam izmantojuši 3,2 miljonus angļu teikumu ar to latviešu tulkojumiem un 19 miljonus latviešu teikumu valodas modelēšanai.
• Tulkošanas kvalitāte ir stipri atkarīga arī no trenēšanas datu specifikas. Iepriekšējā tulkotāja versija labi tulkoja ES dokumentus un IT tekstus, jo tā bija trenēta uz šādiem tekstiem. Jaunā versija labāk tiek galā arī ar ikdienišķākiem tekstiem, jo tās trenēšanā ir izmantoti dati, kas satur sarunvalodas un citus ikdienišķus tekstus.
• Esam būtiski uzlabojuši lielo/mazo burtu lietojumu tulkojumā. Tagad tulkotājs daudz precīzāk izvēlas lielo vai mazo burtu lietojumu. Iepriekš tam bija tendence pārāk bieži izvēlēties mazo burtu, nereti pat teikuma sākumā.
• Tagad tulkotājs daudz labāk tiek galā ar tekstiem, kuros ir jautājuma zīmes, apostrofi, & zīmes un citi specifiski simboli.
• Tiklīdz mēs izlaidām iepriekšējo versiju, jūs sākāt mums sūtīt interesantus tulkojumu piemērus, kuros tulkotājs ļoti muļķīgi kļūdījās tulkojot īpašvārdus. Polārākais piemērs laikam bija 'scientists from California', kas tika tulkots kā 'zinātnieki no Tukuma'. Esam uzlabojuši īpašvārdu tulkošanu šajā versijā.


Jaunā tulkotāja versija nu ir pie jums. Ceram, ka tā būs vēl noderīgāka kā iepriekšējā. Gaidīsim jūsu atsauksmes un ierosinājumus.

Tulko tekstus no latviešu valodas uz angļu valodu Tildes Tulkotājā!

Pagājušā gada nogalē pie jums nonāca mūsu interneta mašīntulkošanas rīks Tildes Tulkotājs, kurš, ceru, daudziem jau ir kļuvis par ērtu palīgu, tulkojot tekstus no angļu valodas uz latviešu valodu. Jau sākumā saņēmām jautājumus, vai nav pieejams arī pretējais tulkošanas virziens. Nu varam atbildēt ir! Tagad savus rakstus, vēstules un referātus varat tulkot arī no latviešu valodas uz angļu valodu. Un es varu pačukstēt, ka tulkojuma kvalitāte tiešām ir salīdzinoši laba – mūsu BLEU mērījumi un cilvēku novērtējums rāda, ka esam tikpat labi un dažbrīd pat labāki par citām latviešu valodai pieejamām MT sistēmām.
Uzlabots ir arī esošais angļu-latviešu valodas virziens, kurā piestrādāts pie pareiza lielo/mazo burtu, ģeogrāfisko nosaukumu un personvārdu lietojuma tulkojumā, tagad vairs nepazūd arī jautājuma zīmes. Lai saprastu, ko un kā tulko mašīntulks, lietotājiem parasti patīk izvēlēties īsas frāzes, piemēram, “Mani sauc Jānis, un es Tevi mīlu”, vai arī kādu idiomu, piemēram, “Ko sēsi, to pļausi”. Tildes Tulkotājs tagad šādas ikdienā lietotas frāzes un izteicienus tulko krietni precīzāk – pamēģiniet!
Ja nu, tulkojot tekstus, rodas nepieciešamība iztulkot tikai vienu vārdu, to varat izdarīt turpat – rezultāts tiks atspoguļots no vārdnīcas.
Ļoti gaidām jūsu komentārus un ierosinājumus, to tagad ātri un ērti varat izdarīt turpat, translate.tilde.lv meklējiet saiti uz komentāriem.
Saulainus sveicienus sūtot,
Diāna Čunčule
Valodas sistēmu biznesa vadītāja

otrdiena, 2010. gada 11. maijs

Mašīntulkošana "Valodu krasta" iniciatīvas ietvaros

Iniciatīva „Valodu krasts” paredz Latvijā izveidot globālu mazo valodu tehnoloģiju attīstības centru. Tajā plānots apvienot un koordinēt pētniecības iestāžu, informācijas tehnoloģijas uzņēmumu un citu saistīto institūciju sadarbību valodas tehnoloģiju jomā. Sadarbojoties Tildes valodas tehnoloģiju ekspertiem un Microsoft pētniecības centra Microsoft Research speciālistiem, ir tapusi mašīntulkošanas sistēma darbam virzienā no latviešu uz angļu un no angļu uz latviešu valodu.
Patlaban ir izveidots mašīntulkošanas sistēmas tehnoloģiskais pamats, kā arī radītas iespējas plašai sabiedrībai iesaistīties šīs sistēmas lietošanā, novērtēšanā un pilnveidošanā.
Izveidoto mašīntulkošanas sistēmu katrs mājas lapas izstrādātājs var ievietot savā lapā, lai lietotāji lapas saturu varētu tulkot daudzās valodās. 
Vairāk par šo iespēju...