Akustische Stolpersteine

19.12.2014 - Meike Klinck

meutzner Der Mensch hört anders als die Maschine. Was für unser Ohr kein Problem ist, kann ein Stolperstein für die automatische Spracherkennung sein. Diesem Prinzip folgend optimierten Hendrik Meutzner und seine Mitstreiter Viet Hung Nguyen, Thorsten Holz und Dorothea Kolossa vom Horst Görtz Institut für IT-Sicherheit und der Arbeitsgruppe Kognitive Signalverarbeitung spezielle akustische Sicherungsverfahren für Webseiten. Ihre Arbeit zeichnete die Jury der internationalen Sicherheitskonferenz ACSAC im US-amerikanischen New Orleans jetzt mit einem „Outstanding Paper Award“ aus. weiterlesen

Herr Meutzner, erstmal herzlichen Glückwunsch zu diesem Erfolg. Das müssen Sie mir erklären: Wie kann ich im Internet etwas akustisch sichern?
„Sie kennen sicherlich die grafische Variante: Das sind verschnörkelte Ziffern oder Buchstaben, die der Nutzer einer Webseite erkennen und anschließend über die Tastatur eintippen muss. Das gleiche gibt es auch für sehbehinderte Menschen in akustischer Form. Eine Stimme liest etwa 20 Sekunden eine Abfolge von Buchstaben oder Ziffern vor, die man parallel eintippt. Ziel ist es in beiden Fällen, gezielten automatisierten Missbrauch zu verhindern. Beim Angebot kostenloser E-Mail-Konten droht etwa massenhafter Spam, bei Online-Votings eine Manipulation der Ergebnisse. Wir sprechen von CAPTCHAs (Completely Automated Public Turing Tests to Tell Computers and Humans Apart), also von kleinen Aufgaben, die für Menschen leicht zu lösen, für Maschinen aber ein schwieriges Hindernis sein sollten.“

Dem ist aber nicht so?
„Nein. Erstaunlich ist, dass sich bei unseren Untersuchungen einer weit verbreiteten Audio-CAPTCHA schnell herausstellte, dass ein automatischer Spracherkenner viel besser als der Mensch im Hörtest abschneidet. Seine Erfolgsrate lag bei etwa 63 Prozent. Das menschliche Ohr unterlag dem maschinellen Hören mit nur 24 Prozent also um Längen! Im Ergebnis ist das genau das Gegenteil dessen, was Sicherungsverfahren dieser Art eigentlich leisten sollten.“

Und daher haben Sie den Klang gezielt weiter „verschnörkelt“?

grafik „Unsere neue Lösung nutzt die auditive Wahrnehmung vom Menschen. Das kennen wir alle aus dem Alltag: Es geht um das ‚Hintergrundgequassel‘, so wie in einer vollbesetzten Wartehalle. Für uns ist das Verstehen eines Gesprächspartners dort meist kein Problem, für eine Maschine schon. Unsere Audio-CAPTCHAs besitzen keine charakteristischen Sprachpausen mehr, so dass sich die exakten Positionen der einzelnen Wörter maschinell nur schwierig identifizieren lassen. Zudem haben wir einige aufeinanderfolgende Wörter leicht überlappt. Eine weitere Maßnahme war das Hinzufügen von künstlichem Nachhall. Dieser beeinträchtigt die Sprachverständlichkeit für Normalhörende bis zu einem gewissen Grad nur geringfügig, stellt aber ein großes Problem für automatische Spracherkenner dar.“

Zu welchen Ergebnissen kommen Sie mit diesem Vorgehen?
„Wir konnten mit unserer selbst entworfenen CAPTCHA ein besseres Verhältnis zwischen Benutzerfreundlichkeit und Sicherheit erzielen. Rund 56 Prozent der CAPTCHAs konnten im Durchschnitt erfolgreich vom Menschen gelöst werden. Die Maschine konnte aber nur fünf Prozent der CAPTCHAs automatisch erkennen. Das ist sicherlich ein erster Schritt, um state-of-the-art Angriffe zu erschweren. Wünschenswert wäre aber, dass die menschliche Erfolgsrate noch wesentlich gesteigert wird, ohne dass die Sicherheit beeinträchtigt wird. Dies ist aber mit konventionellen Methoden, also dem Einbringen von Störungen in das Audiosignal, nicht in optimaler Weise möglich. Eine alternative Strategie für die Zukunft könnte es aber sein, statt dem bloßen ‚Nachtippen‘ hier einen gewissen Grad an (menschlicher) Intelligenz, Vorwissen und Bewusstsein einzufordern, etwa über alltägliche Fragestellungen. Denn darauf antworten können gegenwärtige Maschinen nicht.“

Herr Meutzner, vielen Dank für dieses Gespräch!


Das Interview führte Meike Klinck mit Hendrik Meutzner am 17.12.2014.

Mehr über die Arbeit "Using Automatic Speech Recognition for Attacking Acoustic CAPTCHAs: The Trade-off between Usability and Security” unter http://syssec.rub.de/research/publications/audio-captchas/

Mehr über die Sicherheitskonferenz ACSAC (Annual Computer Security Applications Conference) unter https://www.acsac.org/2014/

Tags: Dorothea Kolossa, Hendrik Meutzner, hgi, Kognitive Signalverarbeitung, Thorsten Holz, Viet Hung Nguyen