Best Paper Award 2018

16.11.2018 - Lara Kristin Zeitel

BestPaper Alexandru Nelus und Rainer Martin vom Institut für Kommunikationsakustik wurden im Rahmen der 13. ITG Fachtagung Sprachkommunikation in Oldenburg vom 10.-12. Oktober 2018 mit dem "Best Student Paper Award" für den Artikel "Gender Discrimination Versus Speaker Identification Through Privacy-Aware Adversarial Feature Extraction" ausgezeichnet.

Ihre Arbeit beschreibt ein Verfahren zur Gewinnung von Audiomerkmalen mit Hilfe neuronaler Netze, welches durch ein "adversarial training" unerwünschte Informationen minimiert. In einem Beispiel zeigen sie, dass konventionelle Audiomerkmale für die Erkennung des Geschlechts des Sprechers auch einen signifikanten Anteil zusätzlicher sprecherabhängiger Informationen enthalten. Ein Angreifer, der diese Merkmale bei der Übertragung in einem Netzwerk abgefangen hat, kann sie beispielsweise auch zur Feststellung der Sprecheridentität nutzen und somit weiter in die Privatsphäre eines Sprechers eindringen. Durch Optimierung des Merkmalsextraktors für die Geschlechtserkennung bei gleichzeitiger Minimierung der für die Sprecheridentität maßgeblichen Informationen, kann die Leistungsfähigkeit der Sprecheridentifikation signifikant verschlechtert werden, so dass die inhärenten Datenschutzrisiken durch das vorgeschlagene Verfahren deutlich vermindert werden.

BestPaper1

Alexandru Nelus and Rainer Martin both from the Institute of Communication Acoustics have been awarded the Best Student Paper Award for their paper "Gender Discrimination Versus Speaker Identification Through Privacy-Aware Adversarial Feature Extraction" at the 13. ITG Fachtagung Sprachkommunikation in Oldenburg on 10.-12. Oktober 2018.

Their work tackles the privacy risks encountered when extracting audio features using neural networks and proposes to alleviate them by employing adversarial training of such networks. In their example it is shown that conventional audio features extracted for the purpose of gender classification also carry a significant amount of speaker-dependent data, allowing a third party attacker who has intercepted the features to use them for a more privacy invasive task such as speaker identification. By training the feature extractor in an adversarial fashion the unwanted speaker identification performance is significantly reduced, thus reducing the inherent privacy risks.