Mit Befremden hat der Verband Deutscher Sprecher:innen e.V. (VDS) das von ZAC Audio-Consulting in Kooperation mit der Radiozentrale verfasste Whitepaper „Achtung, KI spricht!“ zur Kenntnis genommen. Unser Verband sieht sich dazu veranlasst, seinen Standpunkt zur Kennzeichnungspflicht KI-generierter Audio-Inhalte darzulegen sowie auf einige problematische Punkte des Whitepapers einzugehen.
Vorneweg die Rechtsgrundlage: Die Transparenzpflicht für KI-generierte Audio-Inhalte tritt ab August 2026 in Kraft.
Eine Kennzeichnung KI-generierter Inhalte soll Verbraucher:innen mit ungeschultem Gehör ermöglichen, Deepfakes von menschengemachten, also echten Inhalten zu unterscheiden.
So ist nicht nur eine „Kennzeichnung“ durch „Anbieter“ von KI-Systemen (in maschinenlesbarer Form), sondern auch durch deren „Betreiber“ vorzunehmen und „den betreffenden natürlichen Personen spätestens zum Zeitpunkt der ersten Interaktion oder Aussetzung in klarer und eindeutiger Weise“ bereitzustellen (Art. 50 KI-VO Abs. 4). Jeder Output einer generativen KI-Anwendung, der vorgibt, Wirklichkeit abzubilden, ist per Definition ein Deepfake. Synthetische Stimmen fallen in diese Kategorie und müssen daher generell auditiv gekennzeichnet sein – insbesondere, da laut Art. 50 KI-VO Abs. 5 solche Informationen geltenden Barrierefreiheitsanforderungen entsprechen müssen.
Das besagte Whitepaper macht nun einige Vorschläge, die wir dringend einordnen möchten, da sie nicht nur, wie es im Paper formuliert wird, „Nachteile“ bieten, sondern unserer Auffassung nach allesamt rechtswidrig sind.
Vorschlag 1, eine Allonge, die darauf hinweist, dass KI zum Einsatz kam, ist zu allgemein formuliert. Der Einsatz von KI bei einem Audioinhalt kann sich auf verschiedenste Aspekte einer Audioproduktion beziehen und kennzeichnet eine synthetische Stimme daher nicht hinreichend im Sinne der KI-Verordnung. In klarer und deutlicher Weise muss der natürlichen Person (den Rezipient:innen) mitgeteilt werden, dass es sich hierbei um einen Deepfake handelt.
Vorschlag 2, der „Metadaten & Opener/Closer“ vorsieht, durch die Werbeblöcke kollektiv gekennzeichnet werden sollen, ist nichts anderes als Etikettenschwindel und das mit doppelt schädlicher Wirkung. Denn eine solche Kollektiv-Kennzeichnung würde entweder dafür sorgen, dass den tatsächlich menschlichen Aufnahmen in einem so gekennzeichneten Werbeblock misstraut wird oder diese sogar einer maschinellen Produktion zugeschrieben werden. In beiden Fällen hätte dies direkte wettbewerbsrechtliche Auswirkungen auf unsere Profession: entweder würde die Arbeit echter Sprecher:innen kompromittiert oder dazu missbraucht, eine durch haltlose Marketingversprechen überhöhte Technologie ohne deren Einverständnis aufzuwerten – eine Technologie, deren Entwicklung und Anwendung zudem juristisch anfechtbar sind.
Sollte eine solche Kollektiv-Kennzeichnung umgesetzt werden, wird unser Verband juristische Schritte einleiten, um geltendes Recht durchzusetzen.
Vorschlag 3, „Infoseiten & Markenkommunikation“, stellt eine direkte Verletzung der eingangs erwähnten Vorgabe dar, dass die „Kennzeichnung bei der ersten Interaktion oder Aussetzung in klarer und eindeutiger Weise bereitgestellt werden muss“. Diese Kennzeichnungspflicht ist also nicht etwa die Pflicht der Rezipient:innen, die Kennzeichnung eigenständig zu recherchieren, sondern die Pflicht der „Anbieter“ und „Betreiber“, die Kennzeichnung von Deepfakes so umzusetzen, wie es das Recht vorsieht.
Der Einsatz KI-generierter Audio-Inhalte birgt für deren Betreiber ein schwer kalkulierbares Risiko in verschiedenen Rechtsgebieten, vom Urheber- bis zum Persönlichkeitsrecht. Er hat bereits zu wegweisenden Urteilen geführt (Landgericht München I, Urteil vom 11. November 2025, Az. 42 O 14139/24 oder Landgericht Berlin II, Urteil vom 20.08.2025, Az. II 2 O 202/24) und weitere werden folgen.
Für Fragen und Austausch zur Thematik steht unser Verband gerne zur Verfügung.