SNF Projekt

End-to-End Low-Resource Speech Translation for Swiss German Dialects (E2E_SG)

Das Hauptziel dieses Projekts war die Anwendung neuester Fortschritte in der Sprachtechnologie auf die Transkription von schweizerdeutschen Dialekten. Die zentrale Herausforderung lag darin, dass Schweizerdeutsch keine schriftliche Sprache besitzt. Deswegen wurde direkt von schweizerdeutschem Audio in hochdeutschen Text übersetzt, ohne Zwischenschritt über eine geschriebene Sprache. Das Projekt wurde vom Schweizer Nationalfond gefördert und lief von 2021 bis 2023 gemeinsam an der ZHAW, der FHNW und der Universität Zürich. 

Datenerfassung und Baselines

Das Fundament unserer Forschung ist eine Datensammlung von 343 Stunden Audio aus sieben Dialektregionen der Schweiz. Unser Ansatz bestand darin, Teilnehmern hochdeutsche Sätze vorzulegen, die sie dann in ihren Dialekt übersetzen und aufnehmen sollten. Trotz der Herausforderung, eine ausgewogene Vertretung hinsichtlich Alter und Geschlecht in jeder Dialektregion zu gewährleisten, konnten wir eine repräsentative Datenbasis aufbauen. Die grössten Herausforderungen ergaben sich aus den „niedrig-ressourcigen“ Dialektregionen wie Graubünden und Wallis, was zusätzliche Rekrutierungsanstrengungen und Kosten verursachte. Die Daten sind hier verfügbar.

Systementwicklung

Wir setzten das XLS-R 1B Modell als Basissystem ein und erzielten damit bemerkenswerte Ergebnisse, besonders im Vergleich zu bisherigen Systemen: Rund 14% Word Error Rate und 74 BLEU Score. Als Vergleich: bei Beginn des Projekts lag das beste System bei rund 30% Word Error Rate und 48 BLEU Score. Das Paper dazu ist hier.

Experimente und Erkenntnisse

Durch die Durchführung verschiedener Experimente mit unseren gesammelten Daten erlangten wir wertvolle Einblicke in die Adaptierung von Sprachtechnologien für unterschiedliche Schweizer Dialekte. Unsere Forschung zeigte, dass dialektspezifische Modelle effektiv sind, jedoch ihre Leistung bei anderen Dialekten nachlässt. Interessanterweise waren die Ergebnisse beim Hinzufügen von Standarddeutsch-Daten zu unseren Modellen nicht so vorteilhaft, wie ursprünglich angenommen. Das dazugehörige Paper ist hier verfügbar.

Einsatz unannotierter Daten

Zusätzlich haben wir etwa 2000 Stunden unannotierter schweizerdeutscher Audioaufnahmen verwendet, um ein Noisy-Student-Modell zu trainieren. Dieser Ansatz zeigte eine deutliche Verbesserung der Leistung im Vergleich zum Basismodell. Damit eröffnet er einen neuen Weg für die Forschung in Bereichen, in denen annotierte Daten knapp oder schwer zu beschaffen sind. Das Paper dazu ist hier.

Synthetische Daten

Analog zu unannotierten Daten haben wir auch Experimente durchgeführt, bei denen wir „künstliche“ neue Trainingsdaten mit Sprachsynthese erzeugt haben. Diese Experimente haben gezeigt, dass dies mit den existierenden Methoden und Daten für Schweizerdeutsch nicht gut funktioniert, und dass hierfür vermutlich eine grössere Sprechervielfalt in den Trainingsdaten nötig wäre.

Fazit

Dieses Forschungsprojekt hat vielversprechende Ergebnisse im Bereich der schweizerdeutschen Sprachtechnologien aufgezeigt, und die Qualität der Transkription von schweizerdeutschem Audio auf ein neues Niveau gehoben. Trotzdem blieben viele Fragen offen. Aus diesem Grund haben wir im Oktober 2023 ein Anschluss-Projekt beim SNF eingereicht, um diese Arbeit fortzuführen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert