otrdiena, 2011. gada 13. septembris

Izlaista jaunā EuroTermBank versija

Turpinot darbu pie valodu tehnoloģiju izstrādes, Tilde ir izlaidusi jaunu EuroTermBank portāla versiju. Projekts sākās 2004.gadā kā starptautisks eContent projekts, un tajā tika apvienoti vairāk nekā 100 terminoloģijas resursu un četras ārējās terminu bankas. Tagad, izaudzis līdz vairāk nekā 2,3 miljoniem terminu 27 valodās, bagātīgais krājums ir pieejams kardināli pārstrādātā un pilnveidotā portālā www.eurotermbank.com.

Tātad — ko piedāvā jaunais EuroTermBank?

• Meklēšana un filtrēšana dažādās valodās un pēc domēna jeb nozares;
• Tulkojumu un šķirkļu skats labi noder gan tulkošanai, gan pētniecībai;
• Ekrānā redzamos elementus var izvēlēties atbilstoši savām vajadzībām. Tie ir tikai daži no jaunumiem.

Sāciet lietot un novērtējiet pats! Apmeklējiet www.eurotermbank.com!

otrdiena, 2011. gada 28. jūnijs

Tildes Tulkotājs Android OS

Tagad lieto Tildes Tulkotāju bez maksas arī Android OS un iOS.

  • Tulko vārdus un tekstu
  • Valodu virzieni: latviešu-angļu, angļu-latviešu un latviešu-krievu
  • Vārdu pārskatīšanai pieejama tulkojumu vēsture
  • Transliterācijas iespēja ērtai teksta ievadei, ja ierīcē, kuru lietojat, nav pieejamas garumzīmes vai mīkstinājumzīmes. Izmantojot šo funkciju, piemēram, "ch" tiks pārveidots par "č", bet "uu" par "ū".
  • Saskarnes valodas: latviešu un angļu

otrdiena, 2011. gada 17. maijs

Ziemeļvalstu valodu tehnoloģiju konference NODALIDA 2011

No 12. līdz 13. maijam Rīgā pirmo reizi notika 18. Ziemeļvalstu valodu tehnoloģiju konference NODALIDA 2011. Konferencē piedalījās datorlingvisti, valodas resursu un tehnoloģiju izstrādātāji no 20 valstīm, t.sk., Ziemeļvalstīm un Baltijas valstīm, kā arī no Bulgārijas, Francijas, Grieķijas, Šveices, Vācijas un citām valstīm.
NODALIDA 2011 referātu tematika bija daudzpusīga, tā ietvēra korpuslingvistiku, sintaksi, semantiku, mašīntulkošanu un runas tehnoloģijas. Sabiedrība Tilde konferencē piedalījās ar diviem ziņojumiem. Tildes galvenais programmatūras arhitekts Raivis Skadiņš iepazīstināja ar ontoloģiju lietojumu mašīntulkošanā. Savukārt sistēmu arhitektes Daiga Deksnes ziņojums bija veltīts latviešu valodas gramatikas pārbaudītājam.
Konferenci organizēja LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija, Latvijas Universitāte un Ziemeļeiropas Valodu tehnoloģiju asociācija NEALT.

otrdiena, 2011. gada 10. maijs

Jaunumi un kvalitātes novērtējums

Jāatzīst, ka esmu stipri nokavējies ar translate.tilde.lv jaunumiem. Jau vairāk kā mēnesi atpakaļ esam veikuši vairākus uzlabojumus. Esam uzlabojuši gan lapas funkcionalitāti, gan mašīntulkošanas sistēmu kvalitāti, gan iekļāvuši jaunu tulkošanas virzienu - latviešu-krievu.  

Vispirms par lapas funkcionalitāti.
- Tagad tulkošana lapā notiek automātiski jau rakstīšanas laikā, tagad vairs nav jāspiež poga 'Tulkot', lai pārtulkotu ievadīto tekstu.
- Otra jaunā iespēja ir tulkojuma un oriģināla iekrāsošana zem peles kursora. Tas ļauj labāk saprast kurš teikums ir kura tulkojums.

Uzlabojumi tulkošanas kvalitātē. Esam būtiski palielinājuši mašīntulkošanas sistēmu trenēšanai izmantoto paralēlo un monolingvālo tekstu apjomu, kas ir ļāvis būtiski uzlabot tulkojumu kvalitāti. Bet, lai runātu par kvalitāti, man vispirms ir jāpastāsta ko mēs saprotam ar kvalitāti un kā mēs to mērām un vērtējam.

Mašīntulkošanas jomā tiek lietotas gan automātiskas kvalitātes mērīšanas metodes, gan metodes, kurās kvalitātes novērtēšanā ir iesaistīts cilvēks (manuālās metodes). Abām šīm metodēm ir gan priekšrocības gan trūkumi.

Automātiskās kvalitātes vērtēšanas metodes veic ātru, un objektīvu kvalitātes mērījumu. Tās vienkārši salīdzina mašīnas tulkojumu ar cilvēka veiktu tulkojumu. Plusi šīm metodēm ir vairāki - sistēmu var novērtēt ļoti ātri un lēti, metode nav atkarīga no cilvēka subjektīvā vērtējuma, divreiz vērtējot vienu un to pašu sistēmu, mērījums būs vienāds u.tml. Bet šīm metodēm ir arī savi trūkumi - ne vienmēr automātiskais novērtējums korelē ar cilvēka vērtējumu.
Manuālās novērtēšanas metodes savukārt ir samērā dārgas un lēnas, jo manuālai vērtēšanai ir nepieciešams apjomīgs cilvēka darbs. Taču šīs metodes dod uzticamāku vērtējumu, kaut arī tas ir subjektīvs, kā jau viss, ko cilvēks dara.

Populārākās automātiskās MT kvalitātes mērīšanas metodes ir BLEU un NIST metrikas.
Šīs metrikas parāda cik mašīnas tulkojums ir līdzīgs cilvēka tulkojumam. Piemēram, ja mašīna pārtulko 500 teikumus precīzi tieši tāpat kā cilvēks, tad BLEU metrika mašīnas tulkojumu novērtē ar 100 punktiem, ja mašīnas tulkojumā nav pat neviena kopīga vārda ar cilvēka tulkojumu, tad BLEU metrika šādu tulkojumu novērtē ar 0 punktiem. Savā ziņā var teikt, ka BLEU metrika parāda par cik procentiem mašīnas tulkojums sakrīt ar cilvēka tulkojumu, bet šis nav īsti matemātiski precīzs apgalvojums.
Parasti, ja BLEU metrika novērtē MT sistēmu ar 20 punktiem vai mazāk, tad šādu MT sistēmu var uzskatīt par samērā zemas kvalitātes sistēmu. Savukārt, ja MT sistēma ir novērtēta ar vairāk kā 40-50 BLEU punktiem, tad tā ir samērā labas kvalitātes MT sistēma. Reti kad kāda MT sistēma tiek novērtēta ar vairāk kā 50 BLEU punktiem.

Angļu-latviešu sistēma, kas bija pieejama pirms pēdējiem uzlabojumiem, bija novērtēta ar 33,4 BLEU punktiem, taču jaunākā angļu-latviešu MT sistēma, kas šobrīd ir pieejama Tildes Tulkotājā, ir novērtēta ar 36,8 BLEU punktiem. Salīdzinājumam varu minēt, ka Google angļu-latviešu MT sistēmai ir 35,3 BLEU punkti.

Savukārt, latviešu-angļu sistēma, kas bija pieejama pirms pēdējiem uzlabojumiem, bija novērtēta ar 36,4 BLEU punktiem, taču jaunākā latviešu-angļu MT sistēma, kas šobrīd ir pieejama Tildes Tulkotājā, ir novērtēta ar 40,2 BLEU punktiem. Salīdzinājumam varu minēt, ka Google latviešu-angļu MT sistēmai ir 35,8 BLEU punkti un Microsoft latviešu-angļu MT sistēmai ir 36,5 BLEU punkti.

Mēs veicām arī sistēmu manuāli novērtēšanu, bet par tās rezultātiem citreiz.

pirmdiena, 2011. gada 28. marts

Mašīntulkošana arī jaunajā Tildes Datorvārdnīcā

Šodien ir iznācis jaunais Tildes Birojs 2011. Tagad labākā angļu-laviešu mašīntulkošanas sistēma, kas līdz šim ir bijusi pieejama tikai internetā, ir pieejama arī Tildes Biroja lietotājiem. Mašīntulkošana ir cieši sasaistīta ar Tildes Datorvārdnīcu. Datorvārdnīcā mašīntulkošana ir pieejama vairākos veidos:

1) vārdnīcā tagad ir tekstu tulkošanas skats, kurā līdzīgi kā internetā vienā lodziņa var ievadīt tulkojamo tekstu un otrā ir redzams teksta tulkojums.

2) ja vārdnīcas parastajā skatījumā ievada garāku frāzi, kas nav atrodama vārdnīcā, tad parādās mašīntulkošanas lodziņš, kurā var redzēt mašīntulkojumu.

3) vārdnīcai tagad ir ātrais skatījums, kurā vienā lodziņā var tulkot gan vārdus ar vārdnīcu, gan tekstus ar mašīntulku.
otrdiena, 2011. gada 15. februāris

Tildes tulkotājs tika prezentēts seminārā 'Machine Translation and Morphologically-rich Languages'


Janvāra beigās Tildes mašīntulkošanas sistēmas izstrādātāji piedalījās seminārā, kas bija veltīts mašīntulkošanas problēmām, strādājot ar valodām, kam ir bagāta morfoloģija. Seminārā arī tika stāstīts par Tildes izstrādātajām angļu-latviešu un angļu-lietuviešu mašīntulkošanas sistēmām.

Mašīntulkošanas jomā pasaulē tiek veikti ļoti daudz pētījumi, diemžēl visvairāk tiek pētītas mašīntulkošanas problēmas tulkojot uz angļu valodu. Piemēram, ir izstrādātas ļoti labas sistēmas kas tulko no ķīniešu uz angļu valodu, no arābu uz angļu valodu u.tml. Diemžēl metodes, kas tiek izmantotas šādu sistēmu izveidei nav tikpat efektīvi izmantojamas tulkojot no angļu valodas uz citām valodām, jo angļu valoda ir morfoloģiski ļoti vienkārša valoda. Ierastrās statistiskās metodes, kas labi strādā tulkojot uz angļu valodu nestrādā tikpat labi, ja jātulko uz valodu, kurā vārdi tiek locīti, kurā vārdu kārtība teikumā ir samērā brīva, kurā vārdiem ir jābūt saskaņotiem, piemēram, dzimtē, skaitlī vai locījumā.

Vairāk par semināru: http://cl.haifa.ac.il/MT/