Sprachsynthese / Text to Speech (TTS) | Verband deutscher Sprecher:innnen

zurück zur Übersicht

Klassisches Text-to-Speech (TTS) und Sprachsynthese beziehen sich beide auf Technologien, die menschliche Sprache künstlich erzeugen können. Der Hauptunterschied zwischen den beiden liegt in der Methode und Qualität der erzeugten Sprache. Hier sind die Hauptunterschiede:

1. Herkunft der Daten:
– Klassisches Text-to-Speech (TTS): Bei klassischen TTS-Systemen werden menschliche Sprecher in einem Studio aufgenommen, die Stunden von Sprachdaten liefern. Diese Aufnahmen werden dann in kleine Segmente zerlegt und neu zusammengesetzt, um Worte und Sätze zu bilden, die der Sprecher möglicherweise nie gesagt hat.
– Stimmsynthetisierung: Bei der Stimmsynthetisierung werden Modelle wie neuronale Netze verwendet, um menschliche Sprache zu erzeugen, ohne dass tatsächliche Aufnahmen erforderlich sind. Das Modell lernt aus großen Mengen von Sprachdaten und kann dann Sprache in Echtzeit synthetisieren.

2. Flexibilität:
– Klassisches TTS: Klassische TTS-Systeme können eingeschränkt sein, da sie auf den ursprünglichen Aufnahmen basieren. Sie können Schwierigkeiten haben, Worte oder Sätze natürlich klingen zu lassen, die stark von den ursprünglichen Aufnahmen abweichen.
– Stimmsynthetisierung: Da sie auf Modellen basieren, die aus Daten lernen, können sie flexibler und anpassungsfähiger sein. Sie können in der Lage sein, eine Vielzahl von Stimmen, Akzenten und Sprachen zu erzeugen.

3. Qualität und Natürlichkeit:
– Klassisches TTS: Frühere, klassische TTS-Systeme könnten roboterhaft oder unnatürlich klingen, besonders wenn sie versuchen, komplexe Sätze oder seltene Worte zu bilden.
– Stimmsynthetisierung: Moderne Stimmsynthetisierungstechnologien, insbesondere solche, die auf Deep Learning basieren, können extrem realistische und natürlich klingende Stimmen erzeugen.

4. Anwendungsbereiche:
– Klassisches TTS: Wird häufig in Anwendungen wie GPS-Navigationssystemen, E-Book-Readern und Assistenten wie Siri und Alexa verwendet (bisher)
– Stimmsynthetisierung: Kann in einer Vielzahl von Anwendungen verwendet werden, von der Erzeugung künstlicher Stimmen für Filme oder Videospiele bis hin zur Erzeugung personalisierter Sprachantworten in Softwareanwendungen.

Für Sprecher:innen stellt sich bei der Stimmsynthetisierung die Frage des Leistungsschutzes. Mit einer einmal synthetisch umfangreich „erfassten“ Stimme können alle erdenklichen Inhalte erzeugt werden, die in Vergütungsfragen nicht mehr kontrollierbar und somit nicht mehr angemessen honorierbar sind. Aus diesem Grund empfiehlt der Verband Deutscher Sprecher:innen (VDS), Anfragen in diesem Segment sehr gründlich zu prüfen, immer hochpreisig anzusetzen und Verträge mit Hilfe eines Fachanwalts zu verhandeln. Der VDS hat eine Empfehlung zu Vertragsbedingungen für die Sprachsynthese für Generative KI erstellt.