futur:plom: 23c3 #7: Open Source Machine Translation

« 23c3 #6: Drohnen 23c3 #8: Wissen, Wikipedia & die Akademiker »

23c3 #7: Open Source Machine Translation

(Bloggen vom Chaos Communication Congress)

Ein Herr im Rollstuhl erzählt etwas, ohne Slides. Ich werde rasch müde und mache eine kleine Congress-Pause, d.h. mich erstmal auf den Heimweg.

20.43 Uhr: Open Source Machine Translation (offizieller Beginn: 20.30 Uhr)

Irgendwas funktioniert nicht, da vorne wird jetzt schon seit einer Viertelstunde rumgefieselt, ohne dass was losgegangen wäre.

20.45 uhr

Ah, es geht los!
Oh, die Dame (Christine Corbett) ist vom MIT!

Offenbar ist die Übersetzung von Sprachen eine der anspruchsvollsten Aufgaben im Fragekomplex Künstliche Intelligenz. Nach früheren Versuchen, Computern die Übersetzung von Sprachen regelbasiert beizubringen, scheint sich nun Statistik als vielversprechendere Methode darzustellen. Corbett stellt einige mathematische Konzepte / Ideen vor, wie man Statistik / Wahrscheinlichkeitsberechnungen auf Basis gigantischer “corpora” bzw. “parallel corpora” von Sprachen—vorzugsweise gigantische Vorräte an Texten und ihren Übersetzungen, letztere am besten noch in ihrer Qualität menschlich bewertet—als Grundlage für gelungene Übersetzungen von neuen Texten aufwenden könne (grob beschrieben, welche Übersetzung und welche Syntax ist unter bestimmten Bedingungen statistisch nach dem vorliegenden Material am wahrscheinlichsten?), das Ganze dann noch praktisch exemplifiziert anhand eines eben hierfür gedachten Open-Source-Programmes, MOSES.

Corbett erklärt..

Es ist interessant, Problem und Lösungsansatz mit dem Go-Vortrag vorhin abzugleichen, der ja gerade an der Dummheit der Maschine sich abarbeitete. Die Antwort der MITlerin auf Problemfragen aus dem Publikum klingt zwar auch jedes Mal wie nach einem Brute-Force-Ansatz, “more data!” würde zu verbesserten Ergebnissen führen; sie spricht allerdings auch von der Komplexität der Faktoren, die man MOSES für Übersetzungen in Betracht ziehen lassen könne, da fallen Begriffe wie “evaluation matrix” oder Hypothesenbildung; das Programm analysiere den Text, bilde Hypothesen und wähle dann, unter Beeinflussung durch verschiedene Bewertungs- / Ranking- und Wahrscheinlichkeits-Vorgaben, die passendste aus. Das klingt doch schon nach wesentlich intelligenteren, dem Menschen gegenüber konkurrenzfähigeren (wie auch, in ihrem Bedarf nach menschlichem Input in Ausgangsmaterial oder Bewertungen, symbiotischen) Ansätzen. Ob man sowas auch aufs Go-Problem anwende könnte?

Thursday December 28, 2006

Werbung
(hier war mal AdSense-Werbung, heute aber nicht mehr)

Kommentarfunktion für diesen Artikel geschlossen.