piektdiena, 2010. gada 29. oktobris

Mašīntulka uzlabošana, izmantojot internetā pieejamos tekstus

Jau vairākkārt šajā emuārā esmu rakstījis, ka mašīntulkošanas sistēmas mācās kā tulkot no iepriekš pārtulkotiem tekstiem un arī vienkārši no tekstiem izejas valodā. Citiem vārdiem, jo vairāk pārtulkota angļu-latviešu teksta (un arī vienkārši latviešu teksta) sistēma ir redzējusi, jo labāk tā tulko. Vienkārši, vai ne? 

Bet tas nemaz nav vienkrši savākt daudz, daudz šādu tekstu. Runa ir par daudziem miljoniem teikumu.

Eiropas Komisija ir atbalstījusi pētniecisku projektu ACCURAT (http://www.accurat-project.eu), kurā tiek pētītas metodes, kā mašīntulkošanai noderīgus datus atrast internetā. Visiem ir zināms, ka internetā ir ļoti daudz informācijas, liela daļa no tās ir tulkota vai vismaz aptuveni aprakstīta vairākās valodās. ACCURAT projkektā tiek izstrādātas metodes, kuras ļaus internetā atrast paralēlus vai vismaz līdzīgus tekstus vairākās valodās.

Jau pašlaik, tulkotāja translate.tilde.lv uzlabošanai, mēs nepārtraukti automatiski vācam tekstu no interneta. Tiek vākti gan tulkoti teksti, gan vienkārši teksti latviešu valodā.

Mēs esam apzinājuši desmitiem labu informācijas avotu internetā, kuros mēs ikdienas atrodam daudz jaunu un kvalitatīvu tekstu latviešu valodā. Piemēram, ziņu portāli, laikrakstu mājaslapas u.tml.

Gribam dot iespēju arī jums piedalīties ar savu pienesumu mašīntulkošanas attīstībā. Katrs taču zina vairākas labas vietas internetā, kurās regulāri ielūkojas, jo tajās regulāri parādās jauna informācija. Aicinu padalīties ar informāciju un mašīntulks kļūs labāks. Pievienojiet mājaslapu adreses komentāros.

1 komentārs:

Anonīms teica...

Piemēram, daudz jaunas informācijas katru dienu: http://president.lv/

Gan latviski, gan angliski, gan krieviski

Ierakstīt komentāru