Jednostavno i praktično izvlačenje terminologije za prevoditelje

Egzekutivni sumarij

Nastavno na prethodni članak, u kratkim ćemo se crtama pozabaviti izvlačenjem terminologije iz tekstova u praksi, s naglaskom na jednostavnost i brzinu.

Odabir metode „čupanja” termina ovisi o raspoloživome vremenu, značaju i namjeni dokumentacije, sklonostima, ali i o brojnim drugim faktorima. U načelu imamo dva osnovna načina izvlačenja terminologije:

  • uglavnom ručni i
  • uglavnom automatski, s pomoću raznih programa.

Oba imaju i prednosti i mane, naravno. Prvi je pouzdaniji, ali zahtijeva više vremena, dok je potonji uobičajeniji zbog bržega ostvarenja rezultata i razmjerne pouzdanosti. Ovaj ćemo blog, između ostaloga, iskoristiti za navođenje ključnih informacija i prikaz osnova rada u oba načina. Izbjegavat ćemo komercijalna programska rješenja koliko god to bude moguće.

Svi i sve protiv korupcije

Pretpostavimo da nam je naručitelj poslao vrlo značajan tekst pod nazivom United Nations Convention against Corruption. Opet imamo PDF i nekih 80 kartica, za što bi nam trebalo nešto više od 13 dana. E, ali i ovaj naš zamišljeni naručitelj veli da na raspolaganju imamo samo tjedan dana. Scenarij je sličan onome iz matematičkoga prikaza nužnosti prethodnoga izvlačenja terminologije. Opet smo prisiljeni na suradnju. Imamo dva prevoditelja pa moramo osigurati ujednačenost prijevoda odnosno terminologije.1 Vrijeme je za posao!

Praksa čini savršeno

Naravno, najprije moramo pripremiti tekst za izvlačenje terminologije.2 Inače vrijedi pravilo da je najpogodniji datotečni format za takve radnje tzv. običan tekst, ilitiga narodski txt. Stoga ćemo najprije obaviti sve potrebne korake da bismo dobili uredno oblikovanu podlogu u formatu txt, tj. ovako nešto:

U ovome ćemo se članku usredotočiti na izvlačenje terminologije iz našega teksta s pomoću softvera, jer vremena za ručni rad nemamo. Na raspolaganju imamo više programa. Prema algoritmu se dijele na statističke i lingvističke, a imamo i kombinirane, tj. hibridne. Jedni su skupi, a drugi sasvim besplatni. Neki su u pravilu „bučni”, jer nude previše kandidata, a neki „tihi” pa preskaču korisne termine. Nije se baš lako snaći.

Da ne kompliciramo, odabrat ćemo poprilično pouzdano, moćno, brzo i jednostavno rješenje pod nazivom Rainbow u okviru programskoga paketa za lokalizaciju i prevođenje Okapi3, koje, između ostaloga, nudi i mogućnost izvlačenja terminologije.

Odgovarajuću inačicu Okapija možemo preuzeti s ove stranice, ovisno o OS-u koji koristite.

Potom ćemo raspakirati datoteku zip i time dobiti mapu sa sljedećim sadržajem:

Dvaput ćemo lijevom tipkom miša pritisnuti datoteku rainbow.exe da bismo otvorili program. Sučelje izgleda ovako:

Učitat ćemo naš txt u program naredbom Input > Add Documents i potom odabrati datoteku4. Evo kako to izgleda kod mene:

Za izvlačenje terminologije biramo Utilities > Term Extraction…, nakon čega se otvara sljedeći prozor za postavke:

U lijevome oknu nemamo što dirati, jer se prozor otvara već postavljen na ono što želimo, tj. Term Extraction, dok za desni dio sva objašnjenja imamo ovdje. Prevoditeljima je ključna postavka najmanjega broja pojavljivanja pojedinačnih termina u tekstu (Minimum number of occurences per term), koja mora biti postavljena barem na dva zbog ujednačenosti u timskome radu na jednome tekstu ili projektu.5

Pritisnemo Execute, malo pričekamo i otvara nam se datoteka terms.txt, u predmetnome slučaju s 417 ponuđenih kandidata. Za primjer pogledajmo prvih 40-ak:

Rezultat nije loš pa stoga nema previše posla u sljedećoj fazi, tj. uređivanju, koje se uglavnom svodi na uklanjanje svega što nisu termini, eventualno dodavanje ili uklanjanje ponekoga prijedloga ili priloga i ne tako rijetko razdvajanje/spajanje. Valja naglasiti da za prevoditelje nužno ne vrijede strogi kanoni klasičnih terminoloških baza. Drugim riječima, normalizacijom zapravo gubimo izravnu vezu s izvornikom i ugrožavamo samu osnovnu svrhu rada – korištenje terminologije u okviru alata za računalno potpomognuto prevođenje upravo u obliku u kojem se ona javlja u radnome materijalu. Time osiguravamo i temelje za vrlo potencijalan koncept pretprevođenja6.

Lopta je u vašem dvoru

Pokušajte, griješite, učite, ali nikako i nikada nemojte odustati od izvlačenja terminologije. Sretno!

____________________________________________