Ü wie Übersetzen: Das DGT-TM-2013-Korpus nutzen

Es geht wieder um das öffentlich zugängliche DGT-TM-Korpus, dem mit der Ausgabe 2013 neue Inhalte hinzugefügt wurden - in der Sprachrichtung Englisch-Deutsch beispielsweise über 470 000 TUs. Wo kann ich diese TM-Dateien herunterladen? Wie kann ich die TUs in der gewünschten Sprachrichtung extrahieren? Wie kann ich die enthaltenen Dubletten entfernen? Was muss ich als Wordfast-Nutzerin beachten, um bei der Konvertierung der TMX-Datei(en) in das TXT-Format die Celex-Nummern-Angabe in den einzelnen TUs zu erhalten (und warum sind die Celex-Nummern wichtig)? Und was war überhaupt nochmal dieses DGT-TM? Diese Fragen sollen im folgenden Blog-Artikel beantwortet werden, der eine aktualisierte Fassung meines Artikels zur DGT-TM-2012-Ausgabe ist.

Die 2013er Ausgabe des DGT-TM-Korpus wurde bereits im Juni 2013 veröffentlicht. Nach JRC-Aussage beinhaltet die Neuausgabe neue Übersetzungseinheiten, die vorwiegend aus EU-Texten stammen, die 2012 übersetzt wurden, aber auch aus bisher unveröffentlichten Dokumenten aus den Vorjahren. Außerdem haben die Sprachen Bulgarisch, Maltesisch und Rumänisch deutlich mehr Gewicht erhalten.

Was ist das DGT-TM?

„Das DGT-TM ist ein Fundus von Textsegmenten (Sätzen), der durch das Alignment von Texten des Acquis communautaire in 22 Amtssprachen der EU gewonnen wurde. Die Übersetzungseinheiten (TUs – Translation Units) dieses Übersetzungsspeichers stammen aus einem großen gemeinsamen TM der Generaldirektion Übersetzung im europäischen Informationssystem Euramis (European Advanced Multilingual Information System). Das DGT-TM beinhaltet die meisten, aber nicht alle Dokumente des Acquis communautaire sowie einige zusätzliche Dokumente, die nicht zum gemeinschaftlichen Besitzstand gehören. Aus Vereinfachungsgründen wurde bei der Extraktion Englisch als Ausgangssprache gewählt.

Die Reihenfolge der TUs in den extrahierten Dateien des DGT-TM entspricht nicht unbedingt der textlichen Reihenfolge in den zugrundeliegenden Dokumenten. Redundanzen von Textsegmenten (wie beispielsweise „Artikel 1“) sind in einem derartigen Textkorpus dabei nicht zu vermeiden. Die TUs sind mit einem Hinweis auf das Rechtsdokument, aus dem sie stammen, in Form einer Dokumentennummer gekennzeichnet. Dieses Kürzel entspricht der Dokumentennummer, die auch in der EUR-Lex-Datenbank verwendet wird [sogenannte Celex-Nummer]. Es ist jedoch zu beachten, dass die zugrundeliegenden Dokumente bei der Extraktion der Übersetzungseinheiten teilweise bearbeitet wurden und die Originaldokumente daher nicht aus den Einzel-TUs rekonstruiert werden können.“ (Zitat aus meinem Blog-Artikel DGT-TM-2011 veröffentlicht – mehrsprachiges EU-Rechtstextekorpus im TMX-Format frei verfügbar)

Selbstverständlich übernimmt die DGT für Qualität und Inhalt des alignten Korpus keine Verantwortung – ausführliche Informationen bietet der Artikel DGT-TM: A freely Available Translation Memory in 22 Languages.

Die Dateien des DGT-TM-2013-Korpus und das Extraktionsprogramm herunterladen

Die DGT-TM-2013-Ausgabe, die im TMX-Format in sechs gezippten Dateipaketen vorliegt, erweitert das bereits zuvor veröffentlichte DGT-TM-Korpus um alignte EU-Texte aus dem Zeitraum 2008 bis 2012. Wer nachsehen möchte, welche einzelnen EU-Dokumente in den vier DGT-TM-Paketen von 2007, 2011, 2012 und 2013 enthalten sind, kann hier nachsehen. Ansonsten enthält auch jedes der sechs ZIP-Pakete des DGT-TM-2013 eine kleine Textdatei (file_list.txt), die für jede ZIP-Datei genau auflistet, welche EU-Dokumente in welchen Sprachen alignt sind und wie viele TUs jedes EU-Dokument in den einzelnen Zielsprachen umfasst.

Die sechs Dateien des DGT-TM-2013-Pakets können von der JRC-Seite heruntergeladen werden. Auf dieser Seite sind auch die Dateien des DGT-TM-2011- und -2012-Korpus zu finden, während die „alten“ Dateien des DGT-TM-2007-Korpus weiterhin auf der Seite http://optima.jrc.it/Acquis/DGT_TU_1.0/data/ bereitgehalten werden.

Die Texte der verschiedenen Sprachen sind über die einzelnen ZIP-Dateien verteilt, so dass für den Erhalt des gesamten Paralleltextkorpus alle Dateien herunterzuladen sind. Natürlich ist es grundsätzlich auch möglich, nur einen Teil der ZIP-Dateien herunterzuladen – man erhält dann ein entsprechend eingeschränktes Paralleltextkorpus.

Für die TMX-Erstellung in der gewünschten Sprachrichtung ist außerdem das Extraktionsprogramm TMXtract notwendig. Das unter Windows lauffähige Extraktionsprogramm (mit grafischer Benutzeroberfläche) umfasst zwei Dateien: eine Programm-Datei (TMXtract) und eine Dynamische Bibliothek (DLL-Datei). Alternativ gibt es TMXtract auch in einer maschinenunabhängigen Version als Java-Bytecode (zur Ausführung ist Java Runtime Environment ab Version 1.4 erforderlich).

TMX-Auszüge in der gewünschten Sprachrichtung erstellen

Bei der Erstellung des DGT-TM wurde zwar aus Vereinfachungsgründen Englisch als Ausgangssprache gewählt. Mit TMXtract kann ich aber natürlich jedes beliebige Sprachenpaar für die Extraktion festlegen. Mit der Windows-Version von TMXtract sind dazu die folgenden Schritte nötig:

Ich kopiere die ZIP-Dateien, das Extraktionsprogramm TMXtract (EXE-Datei) und die Datei swt-win32-3218.dll auf meinen PC, und zwar alle in dasselbe Verzeichnis.
Ich öffne TMXtract.
Ich klicke auf die Schaltfläche Quelldateien auswählen und gebe die gewünschte(n) Datei(en) an (Vol_2012_1.zip etc.).
Ich klicke auf Zieldatei angeben (das Ergebnis wird immer in einer Datei gespeichert).
Ich wähle Quellsprache und Zielsprache.
Ich klicke auf die Schaltfläche Ausführen.

Bei Schritt 3 ist es eventuell ratsam, die ZIP-Dateien einzeln konvertieren zu lassen, da ansonsten die Zieldatei je nach Sprachenpaar sehr groß werden kann (die in Vol_2012_1.zip enthaltene Datei DGT-TM-2013-Stats.txt gibt für alle Sprachenkombinationen die jeweilige Gesamtzahl der TUs an).

Nach der Extraktion kann ich dann die resultierende(n) TMX-Datei(en) in praktisch jedes Translation-Memory-Tool (Wordfast, SDL Trados, Déjà Vu, MemoQ usw.) importieren und dort weiterverwenden (vorzugsweise über die Konkordanzsuche).

Dubletten entfernen

Die einzelnen Jahresausgaben des DGT-TM-Korpus enthalten relativ viele Doppelungen, innerhalb des DGT-TM-2012 sind es beispielsweise insgesamt gut 74 000 Dubletten (von insgesamt rund 285 000 TUs). Es ist eine Überlegung wert, auf diese Duplikate zu verzichten und sie vorab auszusortieren.

Ein zuverlässiges Werkzeug für diese Aufgabe ist Olifant, das ich im Artikel Wie man eine TMX-Datei lesen kann schon einmal vorgestellt habe.

Mit Olifant lassen sich die mit TMXtract erstellten TMX-Dateien öffnen – das sieht dann beispielsweise so aus:

Doppelte TUs kann ich nun wie folgt eliminieren:

Mit Strg+E (oder Entries > Flag Entries) öffne ich das Filterauswahlfenster:
Ich klicke Duplicate Source and Target (case sensitive) an und bestätige mit OK.
Das Original des Doppeleintrags soll dabei nicht gekennzeichnet werden (siehe dünne rote Linie im Screenshot)!
Ich klicke auf das „Set Filter For Flagged Entries“-Icon (im Screenshot violett markiert):

(Alternativ könnte ich auch über View > Set Filter For Flagged Entries gehen.)
Mit Strg+A markiere ich alle gefilterten Einträge.
Ich lösche alle markierten Einträge mit der Entf-Taste.
Ich deaktiviere den Filter mit F5 oder klicke stattdessen auf das „Use Filter (F5)“-Icon (im Screenshot hellgrün markiert):
Ich speichere die Datei (entweder mit Strg+S unter dem ursprünglichen Namen oder aber über File > Save As… unter einem neuen Namen).

Dubletten lieber nicht entfernen?

Dubletten lassen sich, wie soeben beschrieben, leicht entfernen. Aber sollte ich sie auch entfernen? Es kommt darauf, was ich mit dem TM vorhabe.

Wenn ich als DGT-TM als riesigen Fundus für Fachterminologie betrachte und es mir eher egal ist, aus welcher Richtlinie oder Verordnung der EU mein Konkordanzfundstück nun genau stammt, lohnt es sich wahrscheinlich die Dubletten zu entfernen. Denn so kann ich das DGT-TM-2012-Korpus immerhin um rund ein Viertel verschlanken.

Wenn ich dagegen EU-spezifische Texte übersetze und an der genauen Fundstelle meiner Konkordanzsuchergebnisse interessiert bin, sollte ich die Dubletten nicht löschen. Denn jede TU des DGT-TM weist auch die Celex-Nummer als Zusatzinformation auf, mit der ich bekanntlich das EU-Dokument im Volltext aufrufen kann (siehe folgenden Exkurs, den ich erstmalig auf meiner Website unter www.webjohn.de/dgttm.htm veröffentlicht habe).

Exkurs: Die Dokumentennummern der EUR-Lex-Datenbank

Alle Rechtsakte der Europäischen Union sind in der EUR-Lex-Datenbank öffentlich abrufbar (unter http://eur-lex.europa.eu). In dieser Datenbank ist jeder Rechtsakt mit einer Dokumentennummer (auch „Celex-Nummer“ genannt) gekennzeichnet, die aus einer Reihe von Zahlen und Buchstaben besteht. Anhand dieser Dokumentennummer lässt sich jeder Rechtsakt sowohl im systematischen Verzeichnis als auch im chronologischen Register von EUR-Lex auffinden (am schnellsten durch Eingabe der Celex-Nummer auf der Seite eur-lex.europa.eu/RECH_celex.do).

Die Struktur der Dokumentennummer soll anhand einer typischen 10-stelligen Dokumentennummer erläutert werden.

Beispiel:

3	1999	R	0026
Rechtsbereich	Jahreszahl	Dokumenttyp	Nummer des Rechtsakts
abgeleitetes Gemeinschaftsrecht	Jahr des Erlasses bzw. der Veröffentlichung des Rechtsakts	Verordnung	Verordnung Nr. 0026 des betreffenden Jahres

Die erste Zahl ist die Bereichsnummer: Sie gibt an, in welchen Bereich des Celex-Systems der betreffende Rechtsakt einzuordnen ist. Die vier folgenden Ziffern geben das Erlass- bzw. Veröffentlichungsjahr an. Der darauffolgende Buchstabe (manchmal auch mehrere Buchstaben) ist der Code für den Dokumenttyp, der die Rechtsform des Akts ausweist. Abschließend folgt noch die fortlaufende Nummer des Rechtsaktes im jeweiligen Jahr.

Bereichsnummern:

Bereich 1	Primäres Gemeinschaftsrecht (Verträge zur Gründung der Europäischen Gemeinschaften, Verträge zu ihrer Änderung oder Ergänzung sowie Verträge über den Beitritt neuer Mitgliedstaaten)
Bereich 2	Aus den Außenbeziehungen der Europäischen Gemeinschaften (oder den von den Mitgliedstaaten geschlossenen Verträgen, sofern sie die Außenbeziehungen der Gemeinschaften betreffen) hervorgegangenes Recht
Bereich 3	Abgeleitetes (sekundäres) Gemeinschaftsrecht
Bereich 4	Komplementärrecht (Beschlüsse der im Rat vereinigten Vertreter der Regierungen der Mitgliedstaaten, zwischen den Mitgliedstaaten in Anwendung der Vertragsbestimmungen geschlossene Völkerrechtsabkommen, zwischen den Mitgliedstaaten geschlossene internationale Übereinkünfte)
Bereich 5	Gesetzgebungsvorarbeiten (Vorschläge der Kommission, Stellungnahmen, Initiativanträge und Entschließungen des Europaparlaments, Stellungnahmen des Wirtschafts- und Sozialausschusses, Programme, Berichte und Mitteilungen der Kommission etc.)

Dokumenttypen für die Bereiche 2 bis 5 (Auszug):

A	Abkommen
B	Haushalt
D	Rechtsakte von durch internationale Übereinkünfte geschaffenen Einrichtungen (im Bereich 2) bzw. Entscheidungen (außer den allgemeinen EGKS-Entscheidungen) und Beschlüsse (im Bereich 3)
DC	Vorbereitende Dokumente der Kommission (Mitteilungen, Programme, Berichte etc.)
K	EGKS-Empfehlungen
L	EWG/EURATOM-Richtlinien und EGKS-Empfehlungen
PC	Vorschläge der Kommission
R	EWG/EURATOM-Verordnungen und Allgemeine EGKS-Entscheidungen
S	Allgemeine EGKS-Entscheidungen
X	Sonstige Rechtsakte, Entschließungen, Stellungnahmen usw. (im Amtsblatt Reihe L oder vor 1968 in der einheitlichen Ausgabe des Amtsblatts veröffentlicht)
Y	Sonstige Akte (im Amtsblatt Reihe C veröffentlicht)

Weiterführende Hinweise finden sich auf der Website der Universität Konstanz und der EUR-Lex-Datenbank.

TMX-Dateien in Wordfast-TMs umwandeln

Ein praktisches Freeware-Tool zur Umwandlung von Translation Memories vom TMX-Format ins TXT-Format (und umgekehrt) ist Wf2Tmx.exe.

Die folgende Schritt-für-Schritt-Anleitung zeigt detailliert, wie die mit TMXtract erstellten TMX-Dateien unter Beibehaltung der Celex-Nummer in das Wordfast-eigene TXT-Format konvertiert werden können.

Die Datei Wf2Tmx_1-0-11-41.zip auf den PC herunterladen.
Wf2Tmx_1-0-11-41.zip entpacken und dabei die Datei Wf2Tmx.exe in den Ordner extrahieren, in dem bereits die zu konvertierenden TMX-Dateien liegen.
Die mit TMXtract erstellte(n) TMX-Datei(en) sicherheitshalber mit einem Text-Editor vorbereiten: alle Vorkommen von type="Txt::Doc. No." durch type="DocNo" ersetzen.
Den Windows Explorer aufrufen und für den Ordner, in dem die zu konvertierenden TMX-Dateien und Wf2Tmx.exe abgelegt sind, das Kontextmenü mit Umschalt+Rechtsklick aufrufen:
Den Kontextmenübefehl Eingabeaufforderung hier öffnen anklicken.
Daraufhin erscheint ein Befehlszeilenfenster, in dem der folgende Befehl einzugeben ist:
Wf2Tmx prop_type="DocNo" <dateiname.tmx>
Fertig – die von Wf2Tmx.exe erzeugte TXT-Datei enthält nun für jede einzelne TU die Celex-Nummer.