cine:plom
cine:tv:plom
kommentar:plom
reste:plom
Eines von mehreren
plomlompom-Projekten
Datenschutz-Erklärung
Impressum

futur:plom

Enjoying das Zukunft
Über diese Seite

Futuristische und utopische Notizen von Christian Heller a.k.a. plomlompom.

Orientierung

Themen-Einstiege

Berichte, Lektüren

Abonnement

Letzte Kommentare

24c3 #22: geschlechtspolitisches Sich-um-Kopf-und-Kragen-Reden (2)
     Günter Komoll, egal

Antisozialdemokratische Utopie Grundeinkommen (7)
     Martin Werner, Philipp, Klaus Gieg, ...

Afrikas größter Exportschlager: die Supercomputerisierung der Erde (3)
     Christian, Christian, sunny

Blogroll

Englisch

Deutsch

Lizenz

Für alle von mir verfassten Texte auf dieser Seite gilt folgende Lizenz:

Creative Commons License

Partnerschaften

[hier war mal ein Amazon.de-Affiliate-Banner, heute aber nicht mehr; frühere Amazon.de-Affiliate-Links im Blog sind nun nur noch unaffiliierte Amazon.de-Links]

Werbung

(hier war mal AdSense-Werbung, heute aber nicht mehr)

   

24c3 #13: Linguistic Hacking

(Bloggen vom Chaos Communication Congress)

16.00 Uhr: Lingustic Hacking

Martin Haase offeriert Strategien linguistischen Hackens, um der Frage “How to know what a text in an unknown language is about?” zu begegnen.

Er konkretisiert die Frage auf den Umgang mit einem schriftlichen Text und teilt sie in zwei: Die eine Aufgabe besteht in der Identifikation der Sprache des Textes, unter der Voraussetzung, dass er in einer Sprache verfasst ist, die zumindest irgendwem bekannt ist, dass weitere Texte als nur der gegebene in ihr zugänglich sind usw. Die andere Aufgabe besteht darin, Informationen ueber seinen Inhalt aus ihm zu ziehen.

IMG_6993

Als erstes wird der Blick auf den Text natürlich vom Schriftsystem angesprochen. Hat man es mit romanischen Buchstaben zu tun, macht das die Identifikation der Sprache nicht unbedingt einfacher: Tausende von Sprachen sind in romanischen Sprachen ausgedrückt; bei obskureren Schriftsystemen verkleinert sich auch die Auswahl der möglichen Sprachen erheblich. Darüber hinaus lassen sich Hinweise über historischen und kulturellen Kontext eines Textes zuweilen über die Identifikation der spezifischen Variante eines Schriftsystems gewinnen: Ist es zum Beispiel antik? Aber wie identifiziere ich ueberhaupt ein mir unbekanntes Schriftsystem? Well, hierfür gibt es Schrifttafeln, zum Beispiel online bei Omniglot.

Hat man einen Text in romanischen Zeichen vor sich liegen, bietet es sich an, auf die Hilfsmittel zurückzugreifen, die Bibliothekare traditionellerweise zur sprachlichen Einordnung von Büchern nutzen: Tafeln von Buchstabenkombinationen, denen bestimmte Häufigkeiten in bestimmten Sprachen zugeordnet sind. Man kann diese Herangehensweise ausbauen, den Text mit dem Computer statistisch nach Buchstabenkombinationshäufigkeiten auseinandernehmen usw.

Noch avancierter: Bestimmte Arten von Text und Sprache verfügen über bestimmte Grade von Redundanz und lassen sich mit einem Kompressionsalgorithmus wie dem von gzip somit über eine ihnen spezifische Effizienz komprimieren. Über Vergleiche dieser Kompressionseffizienzen kann man Texte ähnlicher Art oder Sprache identifizieren. Es ist hlfreich, eines davon zu kennen, um das andere zu erhalten, denn zwei Texte derselben Art mögen in unterschiedlicher Sprache zu ganz unterschiedlichen Kompressionseffizienzen führen (ein Zeitungsartikel in Sprache A und einer in Sprache B), oder auch zwei Texte derselben Sprache in verschiedenen Arten (SMS-Französisch generiert ganz andere Kompressionseffizienzen als Gesetzestext-Französisch).

Derbe verkompliziert wird derartige statistische Sprachidentifikation natürlich, wenn ein Text große Brocken in mehr als nur einer Sprache enthält. Einen erheblichen Vorteil hat die statistische Methode aber auch: Man muss nicht wissen, wie ein Text zu lesen ist (z.B. von links nach rechts oder von oben nach unten oder jeweils umgekehrt), um ihn analysieren zu können.

Dann gibt Haase einige Tricks für “content analysis” im “hacker’s approach”. Man halte Ausschau nach Nummern, Daten oder Wörtern aus wieder anderen Sprachen. Man analysiere die Typographie, auffällige Buchstaben-, Wort- und Syntaxmarkierungen. Man ignoriere kürzere Woerter (selbst wenn sie in größerer Häufigkeit auftreten), entsprechend Zipf’s Law, das besagt: kürzere Woerter tragen weniger lexikalische als grammatikalische Informationen in sich, während es sich bei längeren Wörtern umgekehrt verhält. Und man nutze Google, um derart auffällig gewordene Woerter oder Wortkombinationen zu recherchieren.

Und dann, weil’s so viel Spaß macht, wird gleich mal ein Beispieltext zur Probe analysiert …

IMG_6998

Friday December 28, 2007

Werbung
(hier war mal AdSense-Werbung, heute aber nicht mehr)

Kommentarfunktion für diesen Artikel geschlossen.