TTS Gagenliste | Verband deutscher Sprecher:innnen

Bei klassischem ′Text-to-Speech′ (TTS) handelt es sich um das künstliche Erzeugen der menschlichen Stimme durch das Einsprechen von Textbausteinen oder Texten durch eine:n Sprecher:in, welche von einem System zu neuen Wörtern und Sätzen zusammengesetzt werden können, sodass diese unterschiedliche Texte wiedergeben können, ohne dass diese von der/dem Sprecher:in selbst eingesprochen werden müssen. Beispiele hierfür sind Sprachassistenten, Navigationssysteme, Telefonansage, sprechende Geräte usw..

Klar davon abzugrenzen ist die Sprachsynthese für die Verwendung in Generativer KI, für welche Sprachaufnahmen von Sprecher:innen genutzt werden um ihre Stimme vollständig zu synthestisieren und für unterschiedliche Nutzungszwecke zugänglich zu machen, zu morphen, zu klonen oder KI Systeme zu trainieren.

Da die erfolgreich programmierte Stimme einer Sprecherin oder eines Sprechers eine unbegrenzte Anzahl an Texten für die gebuchte Marke / das Produkt o.ä. widergeben kann und ggf. an Marktwert einbüßt, ist es sinvoll, derlei Anfragen und Veträge sehr gewissenhaft zu prüfen, auszuhandeln und hochpreisig anzusetzen. Auf eine genaue Definition des Verwertungsumfangs ist zu achten.

Die hier angegebenen Preise für klassiches Text-to-Speech basieren auf Zahlen von Verträgen seriöser, real am Markt agierender Unternehmen. Der VDS führt die Elemente, aus denen sich der Preis zusammensetzt, einzeln auf (Arbeitstage, Nutzungsumfang, besondere Konditionen wie Exklusivität oder Namensnennung), um ein Bewusstsein dafür zu schaffen, dass es sich bei Sprachsynthese um ein komplexes und hochwertiges Produkt handelt.

Das Verwertungsrecht bei den hier aufgeführten Gagen bezieht sich jeweils auf 1 Jahr.

ZUR BERECHNUNG VON

text-to-speech

Download | TTS Gagenliste [PDF]

Tagessätze

Bezeichnung	Gage (in €)	Anmerkungen
Tagessatz – je Studiotag	800	max. 6 Std. pro Tag

Produkte & Nutzung

Interne Anwendung

Bezeichnung	Gage (in €)	Anmerkungen
Stundensatz – je Stunde	250	Mit eingeschränkter Nutzung, z.B. App für Schulungszwecke oder eventbezogen, etc.
zzgl. Gage nach Textlänge
bis 5 Minuten	350	Berechnung wie eLearning
je weitere 5 Minuten	75	Berechnung wie eLearning

Kommerzielle Anwendung

Kommerzielle Anwendung - evtl. mit In-App-Verkäufen

Bezeichnung	Gage (in €)	Anmerkungen
Stundensatz – je Stunde	250
zzgl. Beteiligung an Nutzung
bis 25.000 Auslieferungen	3.000
bis 100.000 Auslieferungen	8.000
bis 500.000 Auslieferungen	20.000
bis 5 Mio. Auslieferungen	60.000

Kommerzielle Anwendung – Geräte (Navi, Sprachassistent, Headset, Internet of things usw.)

Bezeichnung	Gage (in €)	Anmerkungen
bis 25.000 Auslieferungen	8.000	Ein Produkt, z.B. „sprechender Kühlschrank“
bis 100.000 Auslieferungen	20.000	Eine Produktlinie, z. B. alle Kühlschränke einer Marke
bis 500.000 Auslieferungen	50.000	Eine Markenlinie, z. B. alle Haushaltsgeräte einer Marke
bis 5 Mio. Auslieferungen	150.000	Alle Geräte eines Konzerns inkl. crossmedialer Nutzung (z.B. TV-Werbung)

Exklusivität

Exklusivität ist exakt zu definieren, sobald sie über den üblichen Konkurrenzausschluss hinausgeht

Bezeichnung	Gage (in €)	Anmerkungen
Exklusivität – zusätzlich bis zu	250.000	Je nach Umfang des Ausschlusses.

Verbot der Namensnennung

Gemäß Urheberrecht – § 74 UrhG – gibt es ein Recht auf Namensnennung

Bezeichnung	Gage
Schadensersatz	Bis zu 100% der Nutzung

NDA und Verbot der Namensnennung

NDAs (non-disclosure-agreements) sind in den Verträgen üblich, meist sehr umfassend und mit hohen Konventionalstrafen versehen. Es dürfen also keine Informationen über Texte oder Details des Projekts nach außen getragen werden. Dies ist eine legitime Bedingung von Seiten des Auftraggebers. Die Namensnennung als ausübender Künstler sollte davon aber nicht beeinträchtigt werden, denn diese ist im deutschen Urheberrecht geschützt. Doch die Erfahrung zeigt, dass die NDAs (ohne deutschen Gerichtsstand) oft auch mit Verbot der Namensnennung versehen werden, so dass die Sprecher Konventionalstrafen befürchten müssen, wenn sie erwähnen, dass sie „die Stimme von <XY>“ sind. Gleichzeitig kann es durchaus passieren, dass ein Kunde die Stimmen eines Sprechers in einer Sprachsynthese erkennt. Das kann zu einer schwierigen Beweislage, zu Beeinträchtigungen im Umgang mit Kunden und zum Verlust von Aufträgen führen. Für die Firmen ist das Geheimnis, wer hinter der Stimme steckt, aber oft von großer Bedeutung für die Mystik ihres Produktes.

Deshalb hat der VDS das Verbot der Namensnennung als einen eigenen Punkt bei der Berechnung des Honorars aufgeführt, so dass abgewogen werden kann, welchen Wert die Namensnennung für die jeweiligen Seiten darstellt.

Hinweise

Diese Preise bieten nur eine grobe Orientierung. Es wird empfohlen, sich bei einer konkreten Vertragsanbahnung einen erfahrenen Medienanwalt zu nehmen. Dazu können Sie sich gerne an den VDS wenden.

WEITERE HINWEISE:

Nutzung noch nicht genannter oder unbekannter Kanäle bedürfen einer neuen Vereinbarung gemäß § 32c Abs. 1 UrhG.

Sogar ein Total-Buyout ist unwirksam, wenn unklar ist, für welches konkrete Produkt bzw. welche konkrete Marke es vereinbart wurde.

Für den Fall, dass die Sprachaufnahme für eine Software-Entwicklung erfolgt, ohne Kenntnis einer Verwertung für ein konkretes Produkt, sollte im Vertrag festgehalten werden, dass es sich um eine Tätigkeitsvergütung der reinen Sprechertätigkeit handelt und eine spätere Rechteeinräumung nur nach einer gesonderten Absprache möglich ist.

Um im Streitfall eine Aussicht auf Erfolg zu haben, ist Deutschland als Gerichtsstand von grundlegender Bedeutung!

Beachten Sie hierzu auch die Empfehlungen des VDS.