Bild nicht mehr verfügbar.

Bei Google wird eifrig an verbesserter Sprachausgabe geforscht.

Foto: APA/AFP/GETTY IMAGES/JUSTIN SULL

Die Qualität der Sprachausgabe von Computern hat in den letzten Jahren rasante Fortschritte gemacht. Doch trotz all dieser Verbesserungen haben Siri, Alexa und Google Assistant bis dato ihren leicht robotischen Klang nicht ablegen können. Nun soll einem der großen Hersteller aber ein Durchbruch gelungen sein.

Tacotron 2

Unter dem Namen Tacotron 2 arbeitet Google derzeit einem neuen Ansatz zur Sprachsynthese. Und zwar mit teilweise verblüffenden Ergebnissen, wie man in einem Eintrag am Google Research Blog ausführt: Das neue Modell sei kaum mehr von Aufnahmen echter Menschen zu unterscheiden. In Hörtests komme Tacotron 2 auf einen "Mean Opinion Score" (MOS) von 4,53, die professionell eingesprochenen menschlichen Stimmen liegen mit 4,58 nur mehr marginal höher.

Die Architektur von Tacotron 2.
Grafik: Google

Möglich werde dies durch die Kombination zweier noch relativ junger Verfahren, die beide auf Maschinenlernen setzen, dazu aber unterschiedliche Wege beschreiten: Tacotron 1 und Wavenet, das von der Google-Tochter Deepmind stammt, die auf Deep Learning spezialisiert ist. Das Ergebnis ist ein Modell, das aus einer Buchstabensequenz eine Abfolge von Eigenschaften extrahiert, die wiederum zur Kodierung des Audiosignals verwendet werden. Die Speicherung erfolgt in einem Frequenzspektrogramm, das nicht nur die gewünschte Aussprache beinhaltet, sondern auch andere Faktoren wie Geschwindigkeit oder Betonung einbezieht. Eine neue Version von Wavenet erstellt dann daraus das eigentliche Audiosignal.

Testbeispiele

Was damit möglich ist, demonstriert Google auf einer eigenen Demoseite, die unter anderem Beispiele mit besonders schwierigen Begriffen aber auch unterschiedlicher Betonung beinhaltet. Auch eine Reihe von Vergleichsbeispielen zwischen synthetischer Sprachausgabe und menschlicher Aufnahme werden dabei geboten.

Gleichzeitig betont Google, dass es natürlich trotzdem noch einiges zu tun gäbe. So hat etwa Tacotron 2 noch Probleme mit Fremdwörtern. Zudem sei es damit derzeit noch nicht möglich, eine Sprachausgabe in Echtzeit durchzuführen, was aber für die Nutzung im Google Assistant vonnöten wäre. Für die weitere Forschung setzt man sich zudem zum Ziel, auch unterschiedliche Stimmungslagen repräsentieren zu können. (apo, 22.12.2017)