Der Begriff Sprachsynthese beschreibt die künstliche (synthetische) Erzeugung der menschlichen Stimme.
Der Begriff Text to Speech (TTS) beschreibt die Umwandlung eines Textes in eine akustische Sprachausgabe mit Hilfe der Sprachsynthese.
Bei der Sprachsynthese wird versucht, eine möglichst hohe Natürlichkeit und Authentizität zu erreichen, um dem Menschlich-Organischen der Stimme sowohl klanglich als auch in Fragen des Ausdrucks und der Betonung nahe zu kommen.
Die Herausforderung der Sprachsynthese besteht darin, die klangerzeugende Maschine (Algorithmus) Worte und Texte herstellen zu lassen, die originären Ursprungs sind – das heißt vorab nicht genau so durch einen Menschen eingesprochen wurden und nur wiedergegeben werden.
Somit ist beispielsweise eine sprechende Puppe, die 10 verschiedene vorab genau so aufgenommene Sätze ‚wiedergeben‘ kann kein Beispiel für die Sprachsynthese. Bekannte Sprachsynthese-Beispiele aus der Vergangenheit hingegen sind die Sprachassistenten „Siri“ und „Alexa“, da diese jeden denkbaren Text ‚erzeugen‘ können.
Technisch gibt es für die Herstellung der Sprachsynthese unterschiedliche Methoden. Teilweise sprechen Sprecher:innen ein umfangreiches Archiv einzelner Wörter, Sätze, Laute und Silben ein, die nachträglich durch die Maschine genutzt werden, um neue originäre Inhalte herzustellen. Teilweise lernt die Maschine von menschlichen Stimmen, um sie anschließend zu „imitieren“.
Für Sprecher:innen stellt sich bei der Sprachsynthese die Frage des Leistungsschutzes. Mit einer einmal sprachsynthetisch umfangreich „erfassten“ Stimme können alle erdenklichen Inhalte erzeugt werden, die in Vergütungsfragen nicht mehr kontrollierbar und somit nicht mehr angemessen honorierbar sind.
Aus diesem Grund empfiehlt der Verband Deutscher Sprecher:innen (VDS), Anfragen in diesem Segment sehr gründlich zu prüfen, immer hochpreisig anzusetzen und Verträge mit Hilfe eines Fachanwalts zu verhandeln. Der VDS hat für dieses Segment eine eigene Gagenliste für klassisches Text-to-Speech entwickelt, die für die Ermittlung einer angemessenen Vergütung Empfehlungen abgibt und auf zu beachtende Punkte hinweist und darüber hinaus eine Empfehlung zu Vertragsbedingungen für die Sprachsynthese für Generative KI erstellt.