Instrukcja postedycji tłumaczenia maszynowego (MTPE)
Wprowadzenie
Norma ISO 17100 definiuje tłumaczenie maszynowe jako automatyczne tłumaczenie tekstu lub mowy z jednego języka naturalnego na inny przy użyciu systemu komputerowego.
Zgodnie z normą ISO 18587 postedycja to edycja i korekta produktu tłumaczenia maszynowego. Proces ten różni się od tłumaczenia, ponieważ uwzględnia trzy (a nie dwa) komponenty tekstowe: tekst źródłowy, produkt tłumaczenia maszynowego i tekst docelowy.
Silniki maszynowe w medi.global
medi.global stosuje opracowywane na potrzeby wewnętrzne silniki tłumaczenia maszynowego wykorzystujące sieci neuronowe i uczenie maszynowe deep learning.
Decyzję co do użycia tłumaczenia maszynowego z postedycją w danym projekcie podejmuje Project Manager na podstawie dokonanej przez siebie oceny uwarunkowań zleconego projektu tłumaczeniowego oraz ustaleń z klientem.
Dostępne w przeważającej większości projektów są silniki adaptatywne — uczące się na bieżąco z zatwierdzanych segmentów.
Uwaga! Praca z silnikiem adaptatywnym nie jest możliwa w narzędziach innych niż memoQ. W takich przypadkach dostarczane dokumenty będą miały postać paczek podtłumaczonych z MT, a ewentualna adaptatywność będzie zauważalna z projektu na projekt, a nie w obrębie jednego zlecenia.
Rodzaje postedycji
Wyróżnia się dwa podstawowe poziomy postedycji w zależności od przeznaczenia tekstu docelowego: postedycję lekką i postedycję pełną.
Celem postedycji lekkiej jest uzyskanie tłumaczenia zrozumiałego i zgodnego znaczeniowo z oryginałem.
Celem postedycji pełnej jest uzyskanie tłumaczenia zrozumiałego, zgodnego znaczeniowo z oryginałem oraz poprawnego językowo i naturalnego stylistycznie (o jakości porównywalnej z tłumaczeniem w pełni ludzkim).
Instrukcję co do rodzaju i zakresu postedycji w ramach danego projektu przekazuje postedytorowi Project Manager.
Cel postedycji
Poniżej podsumowano wytyczne medi.global dotyczące docelowej charakterystyki tekstu w zależności od rodzaju postedycji.
Obszar problemowy | Postedycja lekka | Postedycja pełna |
Zgodność znaczeniowa z tekstem źródłowym | Pełna | Pełna |
Terminologia | Poprawna i jednolita | Poprawna i jednolita |
Ortografia | Brak błędów pisowni | Brak błędów pisowni |
Poprawność gramatyczna i składniowa | W podstawowym zakresie, tak aby zapewnić zrozumiałość tekstu | Pełna |
Interpunkcja | W podstawowym zakresie | Pełna |
Formatowanie | Nd. | Zgodność formatowania, umiejscowienia tagów itp. |
Poprawność stylistyczna | Nd. | Pełna |
Poprawność kulturowa | Nd. | Jeśli dotyczy – w podstawowym zakresie |
Przebieg postedycji – możliwe błędy tłumaczenia maszynowego
W celu osiągnięcia jakości scharakteryzowanej powyżej w procesie postedycji od postedytora oczekuje się zwrócenia szczególnej uwagi na następujące możliwe błędy tłumaczenia maszynowego:
- jednostki miar, formaty dat i typowe formy zapisu,
- dodatkowe spacje i znaki przestankowe,
- niejednolita terminologia lub niezgodności z TB projektu,
- błędnie zinterpretowane nazwy własne, nazwy produktów i elementy niepodlegające tłumaczeniu,
- niekonsekwentne traktowanie powtórzeń lub nagłówków,
- pominięcia (zwłaszcza w przypadku długich segmentów) lub dodania,
- błędy odmiany czasowników,
- błędne przypadki gramatyczne,
- błędy rodzaju (np. tłumaczenie „you” jako Pan/Pani w dokumencie kierowanym tylko do kobiet).
Powyższa lista nie ma charakteru wyczerpującego. W przypadku zauważenia powtarzających się błędów innego typu postedytorzy proszeni są o ich zgłaszanie, aby można było albo wyeliminować je w ramach uczenia silnika MT, albo uwzględnić w powyższym wykazie w celu uczulenia na nie innych postedytorów.
Proces hybrydowy
Postedycja tłumaczenia maszynowego zwykle jest elementem projektu hybrydowego, który wykorzystuje także trafienia z pamięci tłumaczeniowych. W przypadku takich projektów zadaniem postedytora jest postedycja (pełna albo lekka — zgodnie z wytycznymi projektowymi) segmentów tłumaczonych maszynowo oraz weryfikacja/sprawdzenie segmentów podtłumaczonych z pamięci, przy czym należy zadbać w szczególności o jednolitość terminologii między jednymi a drugimi.
Kontrola jakości
Projekty z postedycją podlegają tym samym wymogom kontroli jakości, jakie obowiązują w przypadku projektów czysto tłumaczeniowych, co obejmuje obowiązek sprawdzenia tekstu (dokonania autoweryfikacji tłumaczenia ze szczególnym zwróceniem uwagi na błędy merytoryczne, gramatyczne i ortograficzne, opuszczenia i dodania, niezgodności i niespójności terminologiczne) oraz przeprowadzenia automatycznej kontroli jakości jako warunek ukończenia projektu.
Trafienia MT w memoQ
W przypadku pracy w memoQ trafienia MT pokazywane są tylko wtedy, kiedy nie ma dobrego dopasowania z pamięci tłumaczeniowej — zwykle MT pojawia się, jeśli brak jest dopasowań z TM lub są to fuzzy matche na poziomie ok. 70% i mniej.
Lista kontrolna
Poniższa lista kontrolna stanowi podsumowanie informacji uwzględnionych w punktach 4 oraz 5 powyżej i służy ułatwieniu i kontroli jakości pracy postedytora.
Obszar problemowy | Czy sprawdzono? |
Zgodność znaczeniowa z tekstem źródłowym – czy tekst docelowy wiernie oddaje sens tekstu źródłowego? – czy tekst docelowy nie zawiera pominięć ani uzupełnień? | tak / nie tak / nie |
Terminologia – czy użyta terminologia jest jednolita w całym dokumencie? – czy terminologia jest zgodna z projektową bazą terminologiczną i ewentualnymi wytycznymi klienta? – czy tekst docelowy jednolicie traktuje nazwy własne i elementy nietłumaczone? | tak / nie tak / nie tak / nie |
Ortografia – czy tekst docelowy nie zawiera błędów pisowni, w tym nieoczywistych, niewykrywanych automatycznie? – czy format dat i zapis jednostek miar jest zgodny z zasadami języka docelowego? | tak / nie tak / nie |
Poprawność gramatyczna i składniowa – czy tekst docelowy nie zawiera błędów gramatycznych prowadzących do niejasności bądź dwuznaczności? – czy tekst docelowy nie zawiera błędów odmiany ani błędów rodzaju gramatycznego? – (jeśli dotyczy) czy tekst docelowy nie zawiera żadnych innych błędów gramatycznych ani składniowych? | tak / nie tak / nie tak / nie |
Interpunkcja – czy tekst docelowy nie zawiera zasadniczych błędów interpunkcji? – czy tekst docelowy nie zawiera dodatkowych spacji i nieprawidłowych znaków przestankowych? – (jeśli dotyczy) czy interpunkcja tekstu docelowego w pełni odpowiada zasadom języka docelowego? | tak / nie tak / nie tak / nie |
Formatowanie – czy tekst docelowy nie zawiera błędów umiejscowienia tagów, które uniemożliwią odtworzenie wyjściowego formatu pliku po eksporcie z programu CAT? – (jeśli dotyczy) czy tekst docelowy zawiera wszystkie elementy formatowania tekstu źródłowego (pogrubienia, podkreślenia, tagi) wraz z ich odpowiednim umiejscowieniem? | tak / nie tak / nie |
Poprawność stylistyczna – (jeśli dotyczy) czy tekst docelowy nie zawiera zasadniczych błędów stylistycznych i frazeologicznych? – (jeśli dotyczy) czy tekst docelowy czyta się równie naturalnie w języku docelowym, jak gdyby został przetłumaczony bez udziału MT? – (jeśli dotyczy) czy zachowany został właściwy rejestr zgodny z przeznaczeniem tekstu docelowego? | tak / nie tak / nie tak / nie |
Poprawność kulturowa – (jeśli dotyczy) czy tekst docelowy nie zawiera elementów zbyt obcych kulturowo, obraźliwych bądź niezgodnych z jego przeznaczeniem w docelowym środowisku kulturowym? | tak / nie |