Instrukcja postedycji tłumaczenia maszynowego (MTPE)

Instrukcja postedycji tłumaczenia maszynowego (MTPE)

Wprowadzenie

Norma ISO 17100 definiuje tłumaczenie maszynowe jako automatyczne tłumaczenie tekstu lub mowy z jednego języka naturalnego na inny przy użyciu systemu komputerowego. 

Zgodnie z normą ISO 18587 postedycja to edycja i korekta produktu tłumaczenia maszynowego. Proces ten różni się od tłumaczenia, ponieważ uwzględnia trzy (a nie dwa) komponenty tekstowe: tekst źródłowy, produkt tłumaczenia maszynowego i tekst docelowy.

Silniki maszynowe w medi.global

medi.global stosuje opracowywane na potrzeby wewnętrzne silniki tłumaczenia maszynowego wykorzystujące sieci neuronowe i uczenie maszynowe deep learning.

Decyzję co do użycia tłumaczenia maszynowego z postedycją w danym projekcie podejmuje Project Manager na podstawie dokonanej przez siebie oceny uwarunkowań zleconego projektu tłumaczeniowego oraz ustaleń z klientem.

Dostępne w przeważającej większości projektów są silniki adaptatywne — uczące się na bieżąco z zatwierdzanych segmentów.

Uwaga! Praca z silnikiem adaptatywnym nie jest możliwa w narzędziach innych niż memoQ. W takich przypadkach dostarczane dokumenty będą miały postać paczek podtłumaczonych z MT, a ewentualna adaptatywność będzie zauważalna z projektu na projekt, a nie w obrębie jednego zlecenia.

Rodzaje postedycji

Wyróżnia się dwa podstawowe poziomy postedycji w zależności od przeznaczenia tekstu docelowego: postedycję lekką i postedycję pełną.

Celem postedycji lekkiej jest uzyskanie tłumaczenia zrozumiałego i zgodnego znaczeniowo z oryginałem.

Celem postedycji pełnej jest uzyskanie tłumaczenia zrozumiałego, zgodnego znaczeniowo z oryginałem oraz poprawnego językowo i naturalnego stylistycznie (o jakości porównywalnej z tłumaczeniem w pełni ludzkim).

Instrukcję co do rodzaju i zakresu postedycji w ramach danego projektu przekazuje postedytorowi Project Manager.

Cel postedycji

Poniżej podsumowano wytyczne medi.global dotyczące docelowej charakterystyki tekstu w zależności od rodzaju postedycji.

Obszar problemowyPostedycja lekkaPostedycja pełna
Zgodność znaczeniowa z tekstem źródłowymPełnaPełna
TerminologiaPoprawna i jednolitaPoprawna i jednolita
OrtografiaBrak błędów pisowniBrak błędów pisowni
Poprawność gramatyczna i składniowaW podstawowym zakresie, tak aby zapewnić zrozumiałość tekstuPełna
InterpunkcjaW podstawowym zakresiePełna
FormatowanieNd.Zgodność formatowania, umiejscowienia tagów itp.
Poprawność stylistycznaNd.Pełna
Poprawność kulturowaNd.Jeśli dotyczy – w podstawowym zakresie

Przebieg postedycji – możliwe błędy tłumaczenia maszynowego

W celu osiągnięcia jakości scharakteryzowanej powyżej w procesie postedycji od postedytora oczekuje się zwrócenia szczególnej uwagi na następujące możliwe błędy tłumaczenia maszynowego:

  • jednostki miar, formaty dat i typowe formy zapisu,
  • dodatkowe spacje i znaki przestankowe,
  • niejednolita terminologia lub niezgodności z TB projektu,
  • błędnie zinterpretowane nazwy własne, nazwy produktów i elementy niepodlegające tłumaczeniu,
  • niekonsekwentne traktowanie powtórzeń lub nagłówków,
  • pominięcia (zwłaszcza w przypadku długich segmentów) lub dodania,
  • błędy odmiany czasowników,
  • błędne przypadki gramatyczne,
  • błędy rodzaju (np. tłumaczenie „you” jako Pan/Pani w dokumencie kierowanym tylko do kobiet).

Powyższa lista nie ma charakteru wyczerpującego. W przypadku zauważenia powtarzających się błędów innego typu postedytorzy proszeni są o ich zgłaszanie, aby można było albo wyeliminować je w ramach uczenia silnika MT, albo uwzględnić w powyższym wykazie w celu uczulenia na nie innych postedytorów.

Proces hybrydowy

Postedycja tłumaczenia maszynowego zwykle jest elementem projektu hybrydowego, który wykorzystuje także trafienia z pamięci tłumaczeniowych. W przypadku takich projektów zadaniem postedytora jest postedycja (pełna albo lekka — zgodnie z wytycznymi projektowymi) segmentów tłumaczonych maszynowo oraz weryfikacja/sprawdzenie segmentów podtłumaczonych z pamięci, przy czym należy zadbać w szczególności o jednolitość terminologii między jednymi a drugimi.

Kontrola jakości

Projekty z postedycją podlegają tym samym wymogom kontroli jakości, jakie obowiązują w przypadku projektów czysto tłumaczeniowych, co obejmuje obowiązek sprawdzenia tekstu (dokonania autoweryfikacji tłumaczenia ze szczególnym zwróceniem uwagi na błędy merytoryczne, gramatyczne i ortograficzne, opuszczenia i dodania, niezgodności i niespójności terminologiczne) oraz przeprowadzenia automatycznej kontroli jakości jako warunek ukończenia projektu.

Trafienia MT w memoQ

W przypadku pracy w memoQ trafienia MT pokazywane są tylko wtedy, kiedy nie ma dobrego dopasowania z pamięci tłumaczeniowej — zwykle MT pojawia się, jeśli brak jest dopasowań z TM lub są to fuzzy matche na poziomie ok. 70% i mniej.

Lista kontrolna

Poniższa lista kontrolna stanowi podsumowanie informacji uwzględnionych w punktach 4 oraz 5 powyżej i służy ułatwieniu i kontroli jakości pracy postedytora.

Obszar problemowyCzy sprawdzono?
Zgodność znaczeniowa z tekstem źródłowym
– czy tekst docelowy wiernie oddaje sens tekstu źródłowego?
– czy tekst docelowy nie zawiera pominięć ani uzupełnień?
tak / nie

tak / nie
Terminologia
– czy użyta terminologia jest jednolita w całym dokumencie?
– czy terminologia jest zgodna z projektową bazą terminologiczną i ewentualnymi wytycznymi klienta?
– czy tekst docelowy jednolicie traktuje nazwy własne i elementy nietłumaczone?
tak / nie

tak / nie

tak / nie
Ortografia
– czy tekst docelowy nie zawiera błędów pisowni, w tym nieoczywistych, niewykrywanych automatycznie?
– czy format dat i zapis jednostek miar jest zgodny z zasadami języka docelowego?
tak / nie

tak / nie
Poprawność gramatyczna i składniowa
– czy tekst docelowy nie zawiera błędów gramatycznych prowadzących do niejasności bądź dwuznaczności?
– czy tekst docelowy nie zawiera błędów odmiany ani błędów rodzaju gramatycznego?
– (jeśli dotyczy) czy tekst docelowy nie zawiera żadnych innych błędów gramatycznych ani składniowych?
tak / nie

tak / nie

tak / nie
Interpunkcja
– czy tekst docelowy nie zawiera zasadniczych błędów interpunkcji?
– czy tekst docelowy nie zawiera dodatkowych spacji i nieprawidłowych znaków przestankowych?
– (jeśli dotyczy) czy interpunkcja tekstu docelowego w pełni odpowiada zasadom języka docelowego?
tak / nie

tak / nie

tak / nie
Formatowanie
– czy tekst docelowy nie zawiera błędów umiejscowienia tagów, które uniemożliwią odtworzenie wyjściowego formatu pliku po eksporcie z programu CAT?
– (jeśli dotyczy) czy tekst docelowy zawiera wszystkie elementy formatowania tekstu źródłowego (pogrubienia, podkreślenia, tagi) wraz z ich odpowiednim umiejscowieniem?
tak / nie

tak / nie
Poprawność stylistyczna
– (jeśli dotyczy) czy tekst docelowy nie zawiera zasadniczych błędów stylistycznych i frazeologicznych?
– (jeśli dotyczy) czy tekst docelowy czyta się równie naturalnie w języku docelowym, jak gdyby został przetłumaczony bez udziału MT?
– (jeśli dotyczy) czy zachowany został właściwy rejestr zgodny z przeznaczeniem tekstu docelowego?
tak / nie

tak / nie


tak / nie
Poprawność kulturowa
– (jeśli dotyczy) czy tekst docelowy nie zawiera elementów zbyt obcych kulturowo, obraźliwych bądź niezgodnych z jego przeznaczeniem w docelowym środowisku kulturowym?
tak / nie
Spis treści
Call Now Button