8. März 2011

AlignFactoryLight - der Alignment-Saga zweiter Teil

Das habe ich ja schon in einem anderen Blog-Beitrag geschrieben:
Ich gebe zu, ich bin ein Fan von AlignFactoryLight aus dem Hause Terminotix. Ja, ich habe dieses Produkt käuflich erworben. Und nein, ich selbst bin nicht käuflich und werde für meine Werbung hier nicht bezahlt.

Grundlegende Einstellungen in AlignFactoryLight

Für die Arbeit mit AlignFactoryLight kann die Übersetzerin[1] Englisch oder Französisch als Sprache für die Programmoberfläche wählen. Als Sprache der zu alignierenden Dateien sind knapp fünfzig Sprachen verfügbar – von Afrikaans, Albanisch, Amharisch usw. über Deutsch, Englisch, Französisch, Italienisch, Spanisch bis hin zu Türkisch, Urdu und Vietnamesisch (eine Liste der Sprachen, die AlignFactoryLight 2.1 mitbringt, findet sich am Ende[2] dieses Blogbeitrags). Zu diesen Sprachen gibt es sprachenspezifische Abkürzungslisten, damit Fehlzuordnungen beim Alignment vermieden werden. Diese Abkürzungslisten können von der Anwenderin natürlich angepasst bzw. erweitert werden.

Einrichtung eines Alignment-Projekts

Für ein Alignment muss die Übersetzerin zunächst die Sprachrichtung angeben und die zu alignierenden Dokumente auswählen.

AlignFactoryLight 2.1 kann folgende Dateitypen verarbeiten: *.doc, *.docx, *.rtf, *.txt, *.html, *.xml, *.ppt, *.pptx, *.xls, *.xlsx, *.wpd, *.lwp, *.sam, *.pdf, *.prz und *.123. Die Benutzerin kann auch direkt mehrere ausgangssprachliche und mehrere zielsprachliche Dokumente für das „Alignment in einem Rutsch“ angeben.

Segmentierungsregeln, Ausgabeformate und sonstige Optionen

Für das jeweilige Alignment-Projekt kann die Übersetzerin als Nächstes die Segmentierungsregeln angeben, das Ausgabeformat festlegen und Segmentfilteroptionen wählen.

Segmentierungsregeln

Die einfachste Entscheidung ist die, welche Segmentierungsregel angewendet werden soll. Hier kommt vor allem die Überlegung ins Spiel,

  • ob die einzelnen TUs möglichst viele Informationen beinhalten sollen (da das aus dem Alignment hervorgegangene TM später eher als Referenz genutzt werden wird – Stichwort „Konkordanzsuche“)
    oder
  • ob dieTUs den Segmentierungsregeln des benutzten CAT-Tools möglichst genau entsprechen sollen (damit während des späteren Übersetzungsvorgangs möglichst viele vollautomatische Treffer aus dem durch das Alignment gewonnenen TM erzielt werden).

Wenn das durch das Alignment erzeugte TM später vor allem zur Konkordanzsuche benutzt werden soll, ist die absatzweise Segmentierung zu bevorzugen.

Wenn die Übersetzerin dagegen mit dem durch das Alignment gewonnenen TM möglichst viele 100% Matches oder Fuzzy Matches erzielen möchte, sollte sie AlignFactoryLight die Segmentierungsregeln Ihres CAT-Tools möglichst genau imitieren lassen. Neben der absatzweisen Segmentierung („Paragraph-based“) steht die satzweise Segmentierung („Sentence-based“) zur Auswahl. AlignFactoryLight geht bei der satzweisen Segmentierung standardmäßig davon aus, dass bei einem Punkt, einem Fragezeichen oder einem Ausrufezeichen das jeweilige Satzende erreicht ist. Die Benutzerin kann jedoch zusätzlich angeben, dass auch bei einem Semikolon und/oder bei einem Doppelpunkt segmentiert werden soll.

Das CAT-Tool Wordfast segmentiert übrigens standardmäßig bei Punkt, Doppelpunkt, Ausrufezeichen, Fragezeichen und Tabstopp sowie bei einem manuellen Zeilenumbruch und natürlich bei einer Absatzendmarke. Diese Einstellung kann gegebenenfalls auch geändert werden.

Ausgabeformat

Bei der Wahl des Ausgabeformats sollte sich die Übersetzerin unter anderem folgende Fragen stellen:

  1. Welches TM-Format akzeptiert mein CAT-Tool?
  2. Sollen beim Alignment von PDF-Dateien nachträglich - also nach der Erstellung der Alignment-Tabelle – noch Rechtschreibkorrekturen (in Word) vorgenommen werden?
  3. Bevorzuge ich für das Einspeisen und das Zusammenführen von TMs die TM-Verwaltungsfunktionen meines CAT-Tools oder arbeite ich lieber mit Dokumenten im bilingualen Format („unreine Texte“), die ich dann – gegebenenfalls nach Einstellung geeigneter Attribute – durch einen Cleanup in mein TM (eventuell auch in mehrere TMs) einspeise?
  4. Müssen Formatierungen der zu alignierenden Dokumente (wie fett, kursiv und unterstrichen) unbedingt im TM erhalten bleiben?

AlignFactoryLight bietet unter „File Format“ die drei Ausgabeformate HTML-Bitext, XML-Bitext und TMX. Praktisch alle CAT-Tools akzeptieren für den Import von TMs das TMX-Format, so dass diese Option praktisch immer gewählt werden kann. Auch die Bewahrung von Formatierungsinformationen ist im TMX-Format möglich.

Wenn jedoch Sonderwünsche berücksichtigt werden sollen (nachträgliche Korrekturen der Alignment-Tabelle, Bevorzugung von „unreinen“ Texten im „Trados/Wordfast-Format“) und die Bewahrung von Formatierungsinformationen nebensächlich ist, dann bietet sich ein Bitext-Format an.

TMX

Das TMX-Format hat den Vorteil, dass hier bestimmte Formatierungen bewahrt werden können (fett, unterstrichen, kursiv), jedoch nur, wenn die dem Alignment zugrundeliegenden Dokumente keine PDFs waren. Außerdem lässt sich separat festlegen, ob Aufzählungszeichen und Nummerierungen am Anfang von Segmenten beim Alignment automatisch entfernt werden oder nicht.

Die Benutzerin kann auch für die TUs in ihrer TMX-Datei Attribute festlegen und dazu Attributkategorien („Field Names“) und Attributwerte („Field Contents“) angeben.

Bitext

AlignFactoryLight bietet zwei Bitext-Formate: „XML Bitext“ und „HTML Bitext“.

Das XML-Bitext-Format hat den Vorteil, dass hier bestimmte Formatierungen bewahrt werden können (fett, unterstrichen, kursiv), jedoch nur, wenn die dem Alignment zugrundeliegenden Dokumente keine PDFs sind. Der gravierende Nachteil ist jedoch, dass Dateien im XML-Bitext-Format in Word nicht komfortabel nach- bzw. weiterverarbeitet werden können.

Beim Alignment im HTML-Bitext-Format muss die Benutzerin angeben, dass die LogiTerm-Sprachkennzeichnungen verwendet werden sollen, um die erzeugte Alignment-Tabelle später mit dem Alignment Editor nachbearbeiten zu können.

Segmentfilteroptionen

Unabhängig vom gewählten Ausgabeformat hat die Benutzerin die Möglichkeit weitere Segmentfilterkriterien festzulegen.

Grundsätzlich gilt: Wer die von AlignFactoryLight erstellte Alignment-Tabelle noch nachkontrollieren will (und die Nachkontrolle ist auf jeden Fall empfehlenswert!), kann alle Filterkriterien deaktivieren. Das Ausfiltern von Segmenten ist vor allem dann wichtig, wenn die Alignment-Tabelle vor dem Import in das eigenen Translation-Memory-System nicht mehr überprüft wird.

Das Ausfiltern von Segmenten trotz Nachkontrolle der Alignment-Tabelle ist eventuell bei „schlechten“ Ausgangsdokumenten (die relativ stark voneinander abweichen) oder auch bei stark repetitiven Dokumenten sinnvoll. Für die einzelnen Filteroptionen stehen dabei unterschiedlich strenge Einstellungen zur Verfügung. Sicherheitshalber kann die Benutzerin AlignFactoryLight bei der Anwendung von Filterkriterien einen Bericht über die verworfenen Segmente erstellen lassen.

Zwei Beispiele sollen veranschaulichen, welche Möglichkeiten die Filteroptionen bieten:

  • Das Segmentpaar wird verworfen, wenn die ausgangs- und die zielsprachliche Seite gleich sind. Der „Gleichheitsgrad“ lässt sich dabei abstufen – genau gleich, gleich bis auf Groß- und Kleinschreibung, gleich bis auf die verwendeten Satzzeichen und gleich bis auf Groß- und Kleinschreibung und Satzzeichen.
  • Das Segmentpaar wird verworfen, wenn der Textanteil der ausgangs- oder der zielsprachlichen Seite gegenüber dem Nichttextanteil (v.a. Zahlen) zu kurz ist. Man kann zwischen einer wenigen strengen Aussortierung und einer strengen Aussortierung wählen.

Kontrolle und manuelle Nachbearbeitung des automatisch erstellten Alignmentergebnisses

In der automatisch erzeugten Alignment-Tabelle ist die Zuordnung der Ausgangs- und Zielsegmente wahrscheinlich nicht an allen Stellen 100-prozentig korrekt, deshalb sollte die Übersetzerin die Tabelle kurz durchgehen („überfliegen“) und gegebenenfalls Korrekturen vornehmen. Dabei kann sie einzelne Zellen verschieben oder löschen, neue Zellen einfügen oder auch den in den Zellen enthaltenen Text verändern (z.B. Ausmerzung offensichtlicher Rechtschreibfehler). Diese Aufgaben lassen sich in AlignFactoryLight komfortabel mit dem Alignment-Editor erledigen.

Abschließend kann es sinnvoll sein, die erzeugte Alignmenttabelle zur Qualitätssicherung in Word einer Rechtschreibprüfung zu unterziehen (insbesondere bei „schlechten“ Vorlagen wie beispielsweise PDF-Dateien). Dieser Qualitätssicherungssicherungsschritt ist allerdings nur bei Dateien im HTML-Bitext-Format möglich.

Weiterverarbeitung der fertigen Alignment-Tabelle

Die Alignment-Tabelle ist nun fertig. Der schnellste Weg, diese Tabelle in ein CAT-Tool einzuspeisen, ist natürlich die direkte Einbindung der TMX-Datei (falls bei der Einrichtung des Alignment-Projekts das TMX-Format gewählt wurde). Alternativ kann die Alignment-Tabelle (im Falle einer HTML-Bitext-Datei) auch mit geeigneten Werkzeugen in ein bilinguales Worddokument im Wordfast- bzw. Trados-Workbench-Format konvertiert und dann in Wordfast oder ein anderes CAT-Tool eingespeist werden.

Fazit

An AlignFactoryLight überzeugen mich vor allem die Qualität der automatisch erzeugten Alignment-Tabellen und der komfortable Alignment-Editor (in dem mir lediglich einige wenige Tastaturkürzel fehlen). AlignFactoryLight ist deshalb mein Alignment-Lieblingswerkzeug.

Achtung, Plagiat!

Noch ein Hinweis, um möglichen Plagiatsvorwürfen zuvorzukommen ;-) :
Der vorstehende Text ist ein leicht abgewandelter Auszug aus meiner Online-Kompaktschulung zum Alignment von Dokumenten mit PlusTools und AlignFactoryLight auf www.wissenschadetnicht.eu.

Nachtrag:
Auf Videos zu AlignFactory Light wird in meinem Blog hier verwiesen.


[1] Den heutigen Weltfrauentag will ich zum Anlass nehmen, in diesem Text nur von Übersetzerinnen, Anwenderinnen und Benutzerinnen zu sprechen und die Männer zu bitten, sich trotzdem mit angesprochen zu fühlen. Nix für ungut, Männer!

[2] In AlignFactory Light 2.1 sind die folgenden Sprachen und Länder bzw. Regionen voreingestellt (Sprachangabe auf Französisch und Englisch, Regions- und Landesangaben als Kürzel nach dem Doppelpunkt):

ALB (Albanais – Albanian): UC|LAT|SQ|0
AMH (Amharique – Amharic): UC|ETC|AM|0
ARA (Arabe – Arabic): UC|ARA|AR|0
BCS (Bosniaque-Croate-Serbe – Bosnian-Croatian-Serbian): UC|LAT|SH|0
BEL (Biélorusse – Belarusian): UC|CYR|BE|0
BUL (Bulgare – Bulgarian): UC|CYR|BG|0
CAT (Catalan – Catalan): L1|LAT|CA|1
CES (Tchèque – Czech): UC|LAT|CS|0
CHI (Chinois – Chinese): UC|CJK|ZH|0
CYM (Gallois – Welsh): UC|LAT|CY|0
DAN (Danois – Danish): L1|LAT|DA|0
DEU (Allemand – German): L1|LAT|DE|0
ELL (Grec – Greek): UC|ELL|EL|0
ENG (Anglais – English): L1|LAT|EN|1
EPO (Espéranto – Esperanto): UC|LAT|EO|0
ESP (Espagnol – Spanish): L1|LAT|ES|1
EES (Estonien – Estonian): UC|LAT|ET|0
FAS (Perse – Persian): UC|ARA|FA|0
SUO (Finnois – Finnish): L1|LAT|FI|0
FRA (Français – French): L1|LAT|FR|1
HEB (Hébreu – Hebrew): UC|HEB|HE|0
HIN (Hindi – Hindi): UC|ETC|HI|0
HRV (Croate – Croatian): UC|LAT|HR|0
MAG (Hongrois – Hungarian): UC|LAT|HU|0
IND (Indonésien – Indonesian): L1|LAT|ID|0
ISL (Islandais – Icelandic): L1|LAT|IS|0
ITA (Italien – Italian): L1|LAT|IT|1
JPN (Japonais – Japanese): UC|CJK|JA|0
LAT (Letton – Latvian): L1|LAT|LV|0
LIE (Lituanien – Lithuanian): L1|LAT|LT|0
KOR (Coréen – Korean): UC|CJK|KO|0
MAK (Macédonien – Macedonian): UC|CYR|MK|0
NED (Néerlandais – Dutch): L1|LAT|NL|0
NOR (Norvégien – Norwegian): L1|LAT|NO|0
POL (Polonais – Polish): UC|LAT|PL|0
POR (Portugais – Portuguese): L1|LAT|PT|1
ROM (Roumain – Romanian): UC|LAT|RO|0
RUS (Russe – Russian): UC|CYR|RU|0
SLO (Slovaque – Slovak): UC|LAT|SK|0
SLV (Slovène – Slovenian): UC|LAT|SL|0
SRP (Serbe (cyr.) – Serbian (cyr.)): UC|CYR|SR|0
SVE (Suédois – Swedish): L1|LAT|SV|0
THA (Thaï – Thai): UC|ETC|TH|0
TGL (Tagalog – Tagalog): UC|LAT|TL|0
TUR (Turc – Turkish): UC|LAT|TR|0
URD (Urdu – Urdu): UC|ARA|UR|0
VIE (Vietnamien – Vietnamese): UC|LAT|VI|0
YID (Yiddish – Yiddish): UC|HEB|YI|0


Alle Auskünfte nach bestem Wissen, aber ohne Gewähr.