Sprechergagen KI

Generative KI & Sprachsynthese

KI - Künstliche Intelligenz (de)
AI - Artificial Intelligence (engl)

Einleitung

Was kosten Sprecher für KI-Aufnahmen?

Zur Herstellung von KI-basierten Sprachsynthese-Systemen, die menschlich klingende Stimmen erzeugen können, wird der Input professioneller Sprecher:innen benötigt.

Da die Entwicklung der KI-Technologie noch am Anfang steht und eine KI-synthetisierte Stimme durchaus das Potential hat, die originale Sprecherin bzw. Sprecher irgendwann voll zu ersetzen, birgt jede KI-Anfrage nicht nur Chancen, sondern auch erhebliche Gefahren in sich und muss sehr viel sorgfältiger bearbeitet, geprüft und beantwortet werden als klassische Anfragen.

KI-Anfragen vollumfänglich zu verstehen und seriös zu kalkulieren ist immer eine große Herausforderung, denn sie sind niemals einfach nach tabellarischen Listenpreisen anzusetzen. Eine Vielzahl an Detailfragen müssen geklärt, Fallstricke beachtet und etwaige mitunter unberechenbare Eventualitäten vorausgedacht werden.

Im Jahr 2024 hat der weltweite Dachverband der nationalen Sprecherverbände, die UVA, ein Empfehlungsdokument herausgegeben, in dem die wichtigsten Vertrags- und Gagenfragen rund um KI-Sprecheraufträge erörtert werden. Dieses Dokument hat sich schnell über die Sprecherwelt hinaus zu einem Leitfaden rund um KI und kreative Berufe generell etabliert und stellt eine wertvolle Basis dar, sich Anfragen für KI-Aufträge zu nähern.

Auf dieser Seite erörtern wir die Thematik auf Basis dieses UVA-Leitfadens, ergänzt durch intensive Recherche. Um der Komplexität des Themas annähernd gerecht zu werden, nähern wir uns ihm in Form von FAQ-Artikeln.

Stand Anfang 2026

⇪ Liste der Fragen
Link zum Teilen dieses Artikels: https://www.sprecherpreise.de/gagen-ki.html#ki-anfrage-was-jetzt


Ich habe eine Sprecher-KI-Anfrage erhalten. Was jetzt?

Erst einmal musst Du natürlich für Dich die Gretchenfrage beantworten, ob Du eine KI-Anfrage generell annehmen möchtest oder nicht. Es gibt gute Gründe dafür aber eben auch auch dagegen, und nicht wenige sehen die KI als Frontalangriff auf kreative Berufe, so dass sie lieber von vornherein Abstand nehmen. Mehr zu diesen Abwägungen in unserem Artikel → 'Sollte ich eine KI-Anfrage als Sprecher:in überhaupt annehmen?'.

Wenn Du der Materie gegenüber aber generell aufgeschlossen bist, dann sagen wir erst einmal: Glückwunsch! Jede Anfrage kann sich als lukrativ erweisen. Aber gleichzeitig bedeutet die Anfrage selbst nun auch eine gewisse Bürde in Form von Mühe, Arbeit und wahrscheinlich auch Kosten, wenn Du sie ernsthaft beantworten willst. Deine erlernten Routinen zum Kalkulieren von Sprecher-Anfragen funktionieren im KI-Kontext nur noch bedingt; ganz neue Fragen stellen sich. Über allem steht die berechtigte Sorge, dass Unachtsamkeiten in vertraglichen Fragen unabsehbare negative Auswirkungen auf Deine berufliche Zukunft haben können. Wie kannst Du Dich dagegen absichern?

All diese Sorgen und Gefahren sind nicht unbegründet. Die KI-Technologie kann ein sehr mächtiges Werkzeug sein und Du spielst mit dem Gedanken, sie mit Deiner Stimme sprechen zu lassen. Zudem stehen wir gerade erst am Anfang ihrer Entwicklung.

Es ist also unbedingt notwendig, dass Du Dich schlau machst bevor Du auf die Anfrage konkret reagierst – deswegen bist Du ja hier. Du musst Dich so weit in das Thema einarbeiten, dass Dir zumindest die gröbsten Fallstricke vertraut sind und Du dem Auftraggeber die wichtigsten Rückfragen stellen kannst, um selber die Anfrage vollumfänglich zu verstehen. Das klingt banaler als es ist, denn mit der KI-Technologie entstehen vollkommen neue Einsatz-und Auswertungsmöglichkeiten von Stimmen. Zudem existiert auch auf Auftraggeberseite oft eine Menge ungesundes Halbwissen und mitunter sorglose Abenteuerlust, die sich auf konkretes Nachfragen durchaus als 'nicht zu Ende gedacht' erweisen kann.

Du musst die wichtigsten Fragen fürs erste selbständig stellen und es dabei aushalten, dem Auftraggeber gegenüber als etwas nervig zu erscheinen. Aber das ist auch richtig so, denn der Auftraggeber will schließlich sehr viel von Dir bekommen, nämlich die Möglichkeit, Deine Stimme eigenständig herzustellen. Ab einem gewissen Punkt wirst Du aber auch - und das empfehlen wir dringend - professionelle juristische Hilfe an Deiner Seite benötigen, um das komplexe Vertragswerk rund um eine KI-Kooperation auf solide Beine zu stellen und in Verhandlungen die Augenhöhe zu bewahren. Die hierbei entstehenden Kosten sind ziemlich wahrscheinlich sehr gut investiert. Manch ein seriöser Auftraggeber erklärt sich hier sogar zur Kostenübernahme bereit, da ein von beiden Seiten sauber verhandelter Vertrag auch in seinem Interesse ist.

Sollte Dir von vornherein klar sein, dass Du nicht bereit bist, diesen Weg ernsthaft zu gehen, vielleicht kombiniert mit emotionalen, karriereplanerischen oder ethischen Vorbehalten, dann empfiehlt es sich, von der Anfrage Abstand zu nehmen. Ansonsten findest Du in unseren Artikeln auf dieser Seite die wichtigsten Informationen, die Du fürs erste benötigst, sowie Links zu den Quellen der Informationen rund um das Thema 'KI und Sprache'. Wir wünschen viel Spass beim Stöbern und viel Erfolg.


⇪ Liste der Fragen

⇪ Liste der Fragen
Link zum Teilen dieses Artikels: https://www.sprecherpreise.de/gagen-ki.html#mit-ki-stimmen-arbeiten


Ich will mit KI-Stimmen arbeiten? Was muss ich bedenken?


Das Versprechen und die Realität

Das Thema 'KI und Sprache' erfährt aktuell mit seiner Verheißung neuer unkomplizierter und kostengünstiger Produktionsmöglichkeiten einen enormen Hype und erzeugt mitunter einen harten FOMO-Effekt (Fear Of Missing Out). Die Idee lautet: "Wir müssen technisch am Ball bleiben und dürfen den Anschluss nicht verlieren. Deswegen brauchen wir jetzt KI-Stimmen für unsere Produktionen." In den meisten Fällen steht dahinter kein wirklicher Bedarf, KI-Stimmen einzusetzen, sondern eher das Bedürfnis, bei spannenden Entwicklungen vorne mit dabei zu sein.

Doch der erste Hype ebbt langsam ab und der Blick auf Produktionsrealitäten mit KI-Stimmen wird realistischer. Es zeigt sich: Unkompliziert auf Knopfdruck herzustellende KI-Stimmen klingen nur mit zwei zugedrückten Ohren - wenn überhaupt - glaubwürdig und sind fast immer weit davon entfernt, in Fragen der Darbietungsqualität einen ernstzunehmenden Output zu liefern. Parallel wird unsere Gesellschaft in der Flut medialer Angebote anspruchsvoller und sensibler, das authentisch Menschliche vom Künstlichen zu unterscheiden und es als einen Wert zu begreifen.


Verlagerung des Arbeitsmoments

Sich vom meist unzureichenden Standard abzuheben und qualitativ hochwertigere KI-Stimmen glaubwürdig und gut klingen zu lassen, bedeutet einen gehobenen und durchaus kostspieligen Produktionsaufwand. Hierbei verlagert sich das Arbeitsmoment weg von Sprecher:innen hin zu Tontechniker:innen und Ingenieur:innen, die das Prompting und Feinjustieren und damit auch die Textintepretation verantworten, um ein halbwegs passables Ergebnis zu erzielen.

Dabei werden aktuell die überzeugendsten Ergebnisse durch das 'Speech to Speech' Verfahren erzielt, bei dem jedoch auch wieder Sprecher:innen zum Einsatz kommen müssen, um mit ihrer eigenen eine fremde synthetische Stimmen zu führen. Es stellt sich also ernsthaft die Frage, was bei diesem Verfahren gewonnen wird, und was gleichzeitig womöglich verloren geht, und ob der Einsatz von KI-Stimmen letztlich eine Vereinfachung und damit eine Kostenersparnis bedeutet, oder nicht?

Aktuell sind manche Studios bereit, die Kosten dieses erheblichen produktionellen Mehraufwands selber zu tragen und nicht voll an ihre Kunden weiterzuleiten, da sie sich somit in neuen Geschäftsfeldern etablieren wollen. Doch auf diese fragwürdigen Geschäftspraktiken sollte man sich bei seiner seriösen Kalkulation selbstverständlich nicht verlassen.


Eingeschränkte Rechtssicherheit

Bei dem Einsatz von KI-Stimmen im Produktionsprozess muss man sich mit der Frage der Rechtssicherheit des finalen Ergebnisses beschäftigen, vor allem, wenn hierfür Stimmen 'von der Stange' benutzt werden. Die Rechtssicherheit kann gesteigert werden, wenn der gesamte Prozess der KI-Sprachherstellung (vom Casting, über die Synthetisierung bis zur finalen Rechteklärung des Outputs) unter der eigenen Kontrolle bleibt. Folgende rechtliche Unklarheiten sind vor allem zu bedenken:
• Ist die Herkunft des Trainingsmaterials geklärt oder drohen hier womöglich zukünftig Persönlichkeitsrechtsklagen? Die meisten 'Large Language Models' stehen im Verdacht, mit unautorisiertem Trainingsmaterial gearbeitet zu haben, so dass zukünftige Persnölichkeitsrechtsklagen nicht ausgeschlossen werden können.
• Kann ausgeschlossen werden, dass die ausgewählte Stimme nicht parallel auch für z.B. die Konkurrenz oder unliebsame Zwecke (Parteienwerbung, Hetz-Inhalte etc.) eingesetzt wird?
• Kann die fertige Produktion mit KI-Inhalten vor Missbrauch geschützt werden? KI-Output ist urheberrechtlich generell nicht schützbar, so dass man deutlich schwächere juristische Handhabe hat, gegen unerwünschte Verfremdungen, Verunglimpfungen oder nicht autorisierte Verwendungen der eigenen Inhalte vorzugehen.


Technische Sorgfaltspflicht: Hohe neue Anforderungen

Die Stimme eines Menschen gehört zu seinen biometrischen Daten und ist in Europa besonders geschützt. Verletzt man die Sorgfaltspflicht im Umgang mit der Stimme, wird gleichzeitig das Persönlichkeitsrecht verletzt. Aus diesem Grund ist es unabdingbar, dass Auftraggeber, die mit stimmgenerierenden KI-Systemen arbeiten, ein Höchstmaß an technischer Sorgfalt gewährleisten, was in Zeiten globaler Vernetzung und Cloud-Servern ausserhalb der EU eine durchaus gehobene Anforderung darstellt.

Eines der wichtigsten Aspekte bei der Verhandlung von KI-Verträgen mit Sprecher:innen stellt somit, neben der Gagenfrage, die Vertrauensfrage dar. Kann der Auftraggeber die hohe technischen Sorgfalt gewährleisten, der Sprecherin oder dem Sprecher zu garantieren, dass seine oder ihre Stimme nicht in falsche Hände gerät oder missbräuchlich genutzt wird?



Unter Berücksichtigung all diese Aspekte ist sicherlich die Zusammenarbeit mit renommierten und in KI-Fragen erprobten Tonstudios eine gute Option. Doch auch den seriösen Tonstudios sind all diese Herausforderungen, Hürden und Fragestellungen wohl bekannt, und sie sehen es mittlerweile als einen elementaren Teil ihrer Arbeit an, die oft utopischen Wünsche anfragender Kunden erst einmal mit der Realität abzugleichen.


⇪ Liste der Fragen

⇪ Liste der Fragen
Link zum Teilen dieses Artikels: https://www.sprecherpreise.de/gagen-ki.html#ki-gagenlisten


Gibt es klassische Gagenlisten für KI-Sprecheraufträge?

Nein. Klassische KI-Gagenlisten, die tabellarisch nachlesbare konkrete Gagenhöhen benennen, und damit Anfragen generell gerecht werden, kann es im KI-Kontext nicht geben, da jede einzelne KI-Anfrage mit ihren individuellen Spezifikationen niemals allgemein bewertet und kalkuliert werden kann.

Der globale Dachverband der Sprecherverbände, UVA - United Voice Artists, hat allerdings mit seinen 'AI Guidelines for Voice Work', einen Leitfaden erarbeitet, in dem er wertvolle Hinweise rund um KI-Anfragen gibt, vor möglichen Fallstricken warnt und den Leser:innen die relevanten Fragen stellt, die es ihnen möglich machen, KI-Anfragen zu verstehen, einzuordnen und zu bewerten.

Siehe unseren Artikel: → 'Wer ist die UVA? Gelten ihre 'AI Guidelines for Voice Work' weltweit?

Darin empfiehlt die UVA unter anderem, die Nutzungsrechte von KI-Output in der gleichen Höhe zu honorieren, wie klassische Aufträge, so dass es für die Gagenhöhen von Nutzungslizenzen durchaus klassische Listen gibt, nämlich die aktuell bekannten und etablierten Sprecher-Gagenlisten; in Deutschland der 'VDS-Gagenkopass', deren Gagen wir hier auf sprecherpreise.de generell aufführen und erörtern.

Weitere Informationen bei uns unter:
'Wie setzt sich eine KI-Sprechergage zusammen?
'Was bedeutet 'Nutzung ist Nutzung'?
sprecherpreise.de (unsere Startseite)


⇪ Liste der Fragen

⇪ Liste der Fragen
Link zum Teilen dieses Artikels: https://www.sprecherpreise.de/gagen-ki.html#grundsaetze


Was sind die gröbsten Fallstricke rund um KI-Vereinbarungen?

Allgemeine Vertragsgrundsätze

Da die KI-Technologie neben vielen Chancen vor allem kreativ arbeitende Menschen auch stark angreifen und ihnen nachhaltig Schaden zufügen kann, gibt es eine Reihe grundsätzlicher Punkte, die dringend beachtet werden sollten, um sich bei einer Zusammenarbeit im KI-Kontext generell abzusichern.

In den Originallisten werden diese Punkte als sogenannte 'Allgemeine Vertragsgrundsätze' direkt im ersten Kapitel aufgeführt. Sollten diese Punkte von Auftraggeberseite ernsthaft in Frage gestellt werden, muss sich die Sprecherin oder der Sprecher fragen, ob die generelle Vertrauensbasis für eine zukünftige Zusammenarbeit gegeben ist.


Generelle Zustimmung
Die Erstellung eines digitalen Abbilds der Stimme einer jeden Person darf nur mit ihrer ausdrücklichen Zustimmung erfolgen. Dabei muss eine detaillierte Beschreibung der beabsichtigten Verwendung gegeben werden.
Siehe ergänzend dazu unseren Artikel: → 'Wie kann ich mich gegen KI-Missbrauch meiner Stimme schützen?'


Angepasste Vergütung
Die Vergütung muss den Umfang aller Nutzungen der digitalen Stimm-Kopie eines Sprechers widerspiegeln und dabei alle Aspekte (quantitativ, zeitlich, räumlich, technisch, medial etc.) berücksichtigen.
Siehe ergänzend dazu auch unsere Ausführung zum Gagenposten 'Gagen KI-Nutzung' in unserem Artikel: → 'Wie setzt sich eine KI-Sprecher-Gage zusammen?'


Allgemeine Nutzungsbeschränkung
Gänzlich uneingeschränkte Rechte zum Einsatz des digitalen Stimm-Duplikats sollten niemals vereinbart werden.


Zeitliche Beschränkung
Zeitlich uneingeschränkte Rechte zum Einsatz des digitalen Stimm-Duplikats sollten niemals vereinbart werden.
Siehe ergänzend dazu unseren Artikel: → 'Welche neuen Nutzungsarten muss man im KI-Kontext unterscheiden? '


Opt-Out-Prinzip
Der Sprecher muss die Möglichkeit haben, die Verwendung seiner Stimme für die KI-Erstellung zum Ende einer jeden Vertragslaufzeit zu beenden. In dem Fall muss der Lizenznehmer (Auftraggeber) auf Wunsch des Lizenzgebers (Sprecher:in) eine vollständige Löschung der stimmgebenden Daten gewährleisten und darüber hinaus die Herstellung der Stimme oder ihrer Merkmale durch geeignete technische Mittel verhindern.


Stimmtreue (Blended Voices / Morphing)
Im Hinblick auf Rückverfolgbarkeit, Mitbestimmung, Persönlichkeits-, und Werbungsrechte wird das 'Blended Voices / Morphing Verfahren' (auch ‘gemischte Stimmen’ genannt) von Sprecherinnen entschieden abgelehnt. Wird eine solche Vereinbarung dennoch getroffen, sollte jeder einzelne Sprecher, dessen Stimme einen Teil der gemischten Stimme ausmacht, nicht nur anteilig, sondern vollständig entschädigt werden. Zudem muss er das volle Zustimmungsrecht behalten und sollte unter allen Umständen in der Lage sein, das Repertoire, in dem die gemischte Stimme verwendet wird, zu kontrollieren.
Siehe ergänzend dazu auch unseren Artikel: → 'Was ist 'Speech to Speech'? Was ist dabei zu beachten? '.


Sprachtreue (Einzigartigkeit der Sprache, Fremdsprachen)
Um internationale Märkte zu schützen und die Kultur der jeweiligen Sprache zu bewahren, sollten KI-generierte Übersetzungen der gesprochenen Sprache nicht vorgenommen werden.


Marktortprinzip
Um Lohndumping durch unterschiedliche Gagenniveaus im internationalen Markt zu vermeiden, sollte sich das Gagenniveau immer mindestens am Standard des Verwertungslandes orientieren.


Die oben genannten Punkte werden als 'Allgemeine Vertragsgrundsätze' von den Originaldokumenten aufgeführt. In diesem Kontext nicht vergessen, sollte man allerdings ebenso das Neural Learning, was durchaus einen weiteren sehr sensiblen Punkt darstellt. Mehr dazu in unserem Artikel: → 'Was ist das Neural Learning? Und warum ist es so sensibel? ' .


⇪ Liste der Fragen

⇪ Liste der Fragen
Link zum Teilen dieses Artikels: https://www.sprecherpreise.de/gagen-ki.html#neural-learning


Was ist das Neural Learning? Und warum ist es so sensibel?

Das 'Neural Learning' kann in unserem Kontext auch mit dem Begriff 'KI-Training' gleichgesetzt werden und erzwingt den wohl sensibelsten und wahrscheinlich auch kostspieligsten Posten einer KI-Sprechergage, wenn er fällig wird.

Die 'Neural Learning Fee' versucht der Idee einen Preis zu geben, nach der die großen KI-Systeme jeden Input, den sie erhalten, als Trainingsmaterial nutzen und damit einen Lernerfolg erzielen. Je professioneller und hochwertiger dieser Input ist, desto wertvoller ist er für das gesamte System und desto erfolgreicher wird dieses System in Zukunft arbeiten können. Erschreckenderweise kann ein einmal erzielter Lernerfolg nie wieder rückgängig gemacht werden, auch wenn einzelne Trainingsdaten nachträglich gezielt gelöscht werden können. Der Lernerfolg bleibt dem System erhalten.

Da ein professioneller Sprecher auf diese Weise sein gesamtes über Jahre erarbeitetes Können, Handwerk, sein Talent und sogar seine individuelle Sprach-Persönlichkeit - also letztlich sein komplettes wirtschaftliches Gut - dem System als Trainingsmaterial voll zur Verfügung stellt, muss dieser Punkt als extrem wertvoll erkannt werden.

Die weltweiten Sprecherverbände, u.a. der VDS empfehlen daher dringend, das Neural Learning kategorisch auszuschließen und messen ihm - wenn der Ausschluss nicht sicher garantiert werden kann - einen gehobenen Preis im sechsstelligen Bereich als sogenannte 'Neural Learning Fee' bei.


Ausschluss zu Trainingszwecken wünschenswert, aber auch möglich?

Auch wenn derzeit mächtige Marktteilnehmer lobbyieren, dem Trainingsgedanken als Nebeneffekt keinen besonderen Wert beizumessen, wird die hochsensible Natur des Neural Learnings von immer mehr Marktteilnehmer:innen erkannt und respektiert. Das führt dazu, dass es immer ernsthaftere Bemühungen von Industrieseite gibt, Lösungen anzubieten, nach denen garantiert ausgeschlossen werden kann, dass die aufgenommene Sprache als Trainingsmaterial für das Neural Learning genutzt wird.

Doch bei einem Vertragsabschluss zwischen Sprecher:in und Auftraggeber:in drängt sich die Frage auf, wie glaubwürdig eine leichtfertig abgegebene Ausschlussgarantie tatsächlich sein kann. In Zeiten von hochkomplexen Online-Vernetzungen, globalen Datenströmen und Cloud-Servern ausserhalb des eigenen Einflussbereichs bedarf es einer enormen Sorgfalt, die eigene IT entsprechend abzusichern, sowie darüber hinaus die Details aller Verträge und AGB der verschiedenen digitalen Serviceangebote, seien sie auch nur lose mit den eigenen Systemen assoziiert, zu kennen und im Notfall erfolgreich nachzuverhandeln.

Eine Ausschlussgewährleistung in dieser Frage muss also entsprechend glaubwürdig sein, sowie vertraglich wasserdicht formuliert werden, bevor sie zum tatsächlichen Verzicht auf die Neural Learning Fee führen sollte.


⇪ Liste der Fragen

⇪ Liste der Fragen
Link zum Teilen dieses Artikels: https://www.sprecherpreise.de/gagen-ki.html#ki-nutzungsarten


Welche neuen Nutzungsarten muss man im KI-Kontext unterscheiden?

Die Möglichkeiten der Nutzung der Stimme eines Menschen muss durch die KI-Technik weiter gedacht werden, als bisher. Im Kontext des professionellen Sprechens müssen nun vor allem die folgenden beiden Nutzungsarten voneinander unterschieden werden:


1. Nutzung (Autorisierung) zum Generieren einer Stimme

Die Erlaubnis, dass ein KI-System die Stimme eines Menschen generell synthetisch herstellen darf, muss von diesem Menschen vorab explizit erteilt werden. Hierzu vergibt dieser Mensch Nutzungslizenzen, die den Auftraggeber zum Herstellen bzw. Generieren seiner Stimme autorisieren. Die Originaldokumente sprechen hierbei vom Autorisieren zum 'Einsatz des digitalen Stimm-Duplikats'.

Zur eigenen Absicherung sollte diese Autorisierung niemals pauschal und unbegrenzt erteilt werden. Siehe hierzu unseren Artikel → 'Was sind die gröbsten Fallstricke rund um KI-Vereinbarungen?'


2. Nutzung des generierten Outputs

Davon unabhängig muss die Frage geklärt werden, wie die vom KI-System konkret hergestellten Sprachefiles, also der 'Output', genutzt werden darf. Die Originaldokumente sprechen hierbei vom 'KI-generierten Output'.

Diese Nutzungslizenzen sind identisch mit den schon längst bekannten Lizenzierungen klassischer Sprachaufnahmen und klären üblicherweise das Nutzungsmedium, die Nutzungsdauer und das Nutzungsterritorium eines klar definierten Motivs (Fassung). Ein gängiges Beispiel wäre ein TV-Spot (lineares Fernsehen), national, 1 Jahr.

Diese Output-Nutzungslizenzen können selbstverständlich, wie schon heute, auch zukünftig bei entsprechender Vergütung unbegrenzt vergeben werden, z.B. die zeitlich unbegrenzte Nutzung eines Imagefilm-Motivs.


⇪ Liste der Fragen

⇪ Liste der Fragen
Link zum Teilen dieses Artikels: https://www.sprecherpreise.de/gagen-ki.html#ki-sprechergage


Wie setzt sich eine KI-Sprecher-Gage zusammen?

Der globale Dachverband UVA (United Voice Artists) und seine nationalen Sprecherverbände haben 2024 das Dokument 'AI Guidelines for Voice Work' veröffentlicht (im Folgenden als 'Originaldokument' bezeichnet). Darin empfehlen sie, folgende Posten anzusetzen, um eine Sprechergage im KI-Kontext angemessen zu vergüten:

Die ersten beiden Posten 'Stimmsynthetisierung' und 'Gagen KI-Nutzung' sind dabei grundsätzlich immer anzusetzen. Die weiteren Posten nur bei Bedarf.



Posten:
STIMMSYNTHETISIERUNG

Vergütung Basis-Synthese

Die Stimmsynthetisierung ist der Arbeitsschritt bei dem eine echte menschliche Stimme in das KI-System eingespeist wird, um sie anschließend synthetisch reproduzieren zu können. Dafür können bereits existierende Sprachaufnahmen genutzt werden. Das Ergebnis wird jedoch besser, wenn hierfür gezielt Aufnahmen mit der Sprecherin oder dem Sprecher hergestellt werden.

Die UVA empfiehlt, für diesen Arbeitsschritt eine einmalige Basisgage (genannt: 'Vergütung Basis-Synthese') in Höhe von mindestens 5.000 bis 7.500 Euro aufzurufen. Diese Gage kann laut der Empfehlung an die ersten fünf Studiotage angerechnet werden, ist aber - und das ist entscheidend - unabhängig davon anzusetzen, ob die Sprecherin oder der Sprecher tatsächlich ins Studio kommen muss, oder nicht.

Dieser Posten ist also weniger als eine Bezahlung des Sprechers für seine Zeit im Studio zu verstehen, sondern primär als eine Lizenzgage, die den Auftraggeber überhaupt autorisiert, die KI-Stimme (die Listen sprechen vom sogenannten 'digitale Stimmduplikat') herstellen zu dürfen und stellt somit die Basis der Zusammenarbeit her.

Dieser Posten deckt noch keine Vergütung für Nutzungen bzw. die Nutzungslizenzen des Outputs ab.

Weitere Informationen rund um die Stimmsynthetisierung sind in den → Originaldokumenten nachzulesen.



Posten:
GAGEN KI-NUTZUNG (Nutzungslizenzen)

Dazu auch interessant: → 'Welche neuen Nutzungsarten muss man im KI-Kontext unterscheiden?'.

Dieser Posten ist wahrscheinlich der Gagenentscheidendste, denn hierbei geht es um die Frage, wie die Nutzung der KI-generierten Sprache (der Output) vergütet werden soll.


Vergütung nie pauschal!

Manch ein Auftraggeber hofft im KI-Kontext auf eine einfache Pauschallösung, nach der jeder denkbare Output der KI in allen möglichen Nutzungsformen mit einer große Einmalzahlung abgegolten ist. Einer solchen pauschalen Generalabtretung sollte jedoch niemals zugestimmt werden, denn sie steht im groben Widerspruch zur lizenzbasierten Vergütung von Sprechergagen, und kann sich aufgrund der unendlichen Skalierbarkeit von KI-Aufträgen schnell als Dumpingvereinbarung entpuppen. Siehe hierzu auch unseren Artikel: → 'Was sind die gröbsten Fallstricke rund um KI-Vereinbarungen?'.

Fazit: Eine Vergütung auf Basis des tatsächlichen Nutzungsumfangs ist und bleibt der Grundgedanke einer angemessenen Sprechergage - auch im KI-Kontext.


Nutzung ist Nutzung!

Darüber hinaus stellt sich die Frage der Gagenhöhen für die einzelnen Nutzungen im KI-Kontext. In dieser Frage nehmen die Sprecherverbände weltweit eine klare Haltung ein und erklären, dass die Nutzung eines KI-Outputs in genau der gleichen Höhe zu vergüten sei, wie die Nutzung einer originären menschlichen Sprachaufnahme. Diese Idee wird mit dem Leitsatz 'Nutzung ist Nutzung' kommuniziert. Mehr dazu in unserem Artikel → 'Was bedeutet 'Nutzung ist Nutzung'?


Transparenz als wichtigste Basis einer vertrauensvollen Zusammenarbeit!

Relevant ist bei einer KI-Zusammenarbeit also vor allem die Frage, inwiefern der Auftraggeber bereit ist, volle Transparenz über den Umfang des Outputs und die Auslieferungszahlen zu geben. Diese Transparenz ist technisch selbstverständlich unkompliziert herstellbar und muss - wie schon heute bei der Nutzung klassischer Sprachaufnahmen - als Grundvoraussetzung für eine vertrauensvolle Zusammenarbeit gesehen werden.

Der Deal lautet: 'Der Sprecher autorisiert den Auftraggeber seine Stimme synthetisch herstellen zu dürfen. Der Auftraggeber garantiert im Gegenzug volle Transparenz über den Umfang der Nutzung.'


Die Höhe der Vergütungen auf Basis bekannter Gagenlisten!

Ist die Anzahl der ausgespielten Motive (egal ob durch KI hergestellt oder menschlich original eingesprochen) und ihres Nutzungsumfangs erst einmal bekannt, hat jeder nationale Markt bereits heute seine etablierten Gagenlisten, um diese Nutzungen zu vergüten. Für den deutschen Markt hat sich der 'VDS-Gagenkompass' etabliert, dessen Gagenhöhen sowie Rabattmodelle wir hier bei uns auf sprecherpreise.de aufführen und umfangreich erklären.

Da die KI-Technologie jedoch auch neue Arten und mitunter individuellere Einsätze und höhere Umfänge von Sprachnutzungen mit sich bringen kann, sind die konkreten Posten der nationalen Gagenlisten sowie ihre Rabattmodelle mitunter nicht direkt anwendbar. In diesen Fällen sollten die nationalen Listen als Basis und Orientierung für neu zu ermittelnde Gagen dienen.




Weitere KI-Sprechergagen

Zusätzlich zu den beiden oben genannten Gagenposten, die immer anzusetzen sind, werden von den Originallisten folgende weitere Posten aufgeführt, die bei Bedarf angesetzt werden sollten:



Posten:
NEURAL LEARNING FEE

Das 'Neural Learning' kann vereinfacht gesagt mit dem Begriff 'KI-Training' gleichgesetzt werden und ist der wohl sensibelste und mitunter kostspieligste Posten einer KI-Sprechergage. Die 'Neural Learning Fee' versucht dabei der Idee einen Preis zu geben, dass die großen KI-Systeme jeden Input, den sie erhalten, als Trainingsmaterial nutzen und damit einen Lernerfolg erzielen.

Die weltweiten Sprecherverbände, u.a. der VDS empfehlen daher dringend, das Neural Learning kategorisch auszuschließen und messen ihm - wenn der Ausschluss nicht sicher garantiert werden kann - einen gehobenen Preis im sechsstelligen Bereich bei.

Da das Thema 'Neural Learning' so brisant und sensibel ist, erörtern wir es gesonderten in unserem Artikel: → 'Was ist das Neural Learning? Und warum ist es so sensibel?'



Posten:
LISTING FEE

Bei der 'Listing Fee' geht es um den Gedanken, dass ein Anbieter von unterschiedlichen KI-Stimmen die einzelnen Sprecher:innen vergüten sollte, allein für die Möglichkeit, ihre jeweiligen Stimmen in sein 'Schaufenster zu stellen' - also anzubieten.

Die Listing Fee klärt darüber hinaus keine Nutzungsrechte oder weiteren Forderungen und sollte immer von einem abzuschließenden Vertrag begleitet werden, der alle Details der Zusammenarbeit, die Vergütung der Nutzungslizenzen und klare Absprachen zur Transparenz, Qualitätskontrolle und Zustimmung rund um den Stimmeneinsatz regelt.

Die Listing Fee hat somit eher symbolischen Wert und kann entsprechend in symbolischer Höhe vereinbart werden. Sie ist als wiederkehrende Zahlung gedacht (z.B. jährlich).



Posten:
STIMMFÜHRUNG (Speech to Speech)

Da die Stimmführung mittlerweile eine gängige Praxis im KI-Kontext darstellt, für die Sprecher:innen auch unabhängig von der Synthetisierung der eigenen Stimme beauftragt werden können, haben wir diesen Punkt in einem eigenen Artikel erörtert:

'Was ist 'Speech to Speech'? Was ist dabei zu beachten?


⇪ Liste der Fragen

⇪ Liste der Fragen
Link zum Teilen dieses Artikels: https://www.sprecherpreise.de/gagen-ki.html#nutzung-ist-nutzung


Was bedeutet 'Nutzung ist Nutzung'?

'Nutzung ist Nutzung' beschreibt den Gedanken, nach dem die Nutzung von KI-generierter Sprache in gleicher Höhe vergütet werden sollte, wie die Nutzung von original eingesprochener Sprache.

Die Originallisten erklären:
"Grundsätzlich basiert die Vergütung von Sprechern auf dem Verkauf von Nutzungslizenzen ihrer Stimme. Die KI-Technologie ändert an diesem Grundsatz nichts! (..)
...die Ansprüche aus der Vergabe von Nutzungslizenzen für die eigene Stimme (bleiben) unverändert, egal durch welche Methode diese hergestellt wurde. Solange die Qualität einer digitalen Replik den Anforderungen eines Kunden an die Darstellung seiner Marke, seines Produkts oder seiner Inhalte mit einer KI-generierten Stimme gerecht wird, gibt es keinen guten Grund, den Lizenzgeber (Sprecher:in) anders zu vergüten als bisher."

Im Sinne dieser Handhabe steht natürlich ebenfalls die schon heute etablierte Option, bei gehobenen Auftragsvolumen entsprechende Mengenrabatte zu vereinbaren.

Mit dem Grundgedanken 'Nutzung ist Nutzung' widersprechen der Dachverband UVA und seine nationalen Sprecherverbände der Forderung mancher Marktteilnehmer, nach der die Nutzung von KI-generierter Sprache grundsätzlich günstiger veräußert werden sollte als original menschliche Sprachaufnahmen.


⇪ Liste der Fragen

⇪ Liste der Fragen
Link zum Teilen dieses Artikels: https://www.sprecherpreise.de/gagen-ki.html#speech-to-speech


Was ist 'Speech to Speech'? Was ist bei der 'Stimmführung' zu beachten?

Die derzeit vielversprechendste Methode, eine KI-Stimme realistisch und gut klingen zu lassen, ist die Speech-to-Speech-Technologie. Dabei wird eine vorab synthetisierte Stimme nachträglich durch eine weitere Sprecherin 'geführt'. Das funktioniert, indem die stimmführende Sprecherin ins Mikrofon spricht, und der Klang ihrer Stimme anschließend durch die vorab synthetisierte Stimme ersetzt wird.

Auch wenn bei dieser Methode der Originalklang der Stimme der führenden Sprecherin nicht mehr zu hören ist, ist die Qualität ihrer Stimmführung für ein gutes Ergebnis mindestens genau so wichtig, wie die Qualität der geführten (synthetischen) Stimme. Denn erst durch die menschliche, hochwertige Stimmführung wird der synthetischen Stimme tatsächlich 'Leben eingehaucht'.

Da jede geführte Stimme das Können der stimmführenden Sprecherin jeweils voll abruft, und da das finale Ergebnis ihre Performance voll beinhaltet, muss - so empfehlen die Originallisten - die stimmführende Person dafür auch immer voll vergütet werden, und zwar nicht nur für den vollen Nutzungsumfang, sondern auch pro geführter Stimme.


Vergütung für jeden Stimmführer, nicht zur für professionelle Sprecher:innen!

Die Stimmführung passiert oft als Zwischenprodukt im Arbeitsprozess und wird dabei mitunter von nicht professionellen Sprecher:innen, z.B. der Assistentin im Schneideraum übernommen. Im Sinne einer gerechten Vergütung, sollte diese Leistung letztlich genauso vergütet werden, wie die Stimmführung durch professionelle Sprecher:innen im Studio, vor allem, wenn die ursprüngliche Stimmführung aus dem Schneideraum tatsächlich für das finale Ergebnis verwendet wird.


⇪ Liste der Fragen

⇪ Liste der Fragen
Link zum Teilen dieses Artikels: https://www.sprecherpreise.de/gagen-ki.html#mindestvertonungen-live


Was bedeutet 'Mindestvertonungen live'?

Die drei deutschsprachigen Sprecherverbände empfehlen in ihrem 'KI-Gagenkompass', bei einer KI-Zusammenarbeit sogenannte 'Mindestvertonungen Live' zu berücksichtigen.

Dabei handelt es sich um den Gedanken, dass pro Produktion eine Mindestanzahl an originär menschlich eingesprochenem Material herzustellen ist.

Sie erklären: "Die deutschsprachigen Verbände sehen die KI-Stimmsynthese nicht als Ersatz der echten Stimme, sondern als Ergänzung dieser. Deshalb, und um eine stilistische Vielfältigkeit in unterschiedlichen Produktionen und für unterschiedliche Marken zu bewahren, sollte bei den meisten Projekten eine Mindestanzahl an Motiven / Sendungen / Kapiteln / Modulen von der echten Stimme vertont und vergütet werden und erst anschließend durch dessen KI-Stimme im gleichen Sprechstil ergänzt und vergütet werden."

Eine Empfehlung über den Umfang der 'Mindestvertonungen Live' pro Produktion ist im KI-Gagenkmpass nachzulesen:


⇪ Liste der Fragen

⇪ Liste der Fragen
Link zum Teilen dieses Artikels: https://www.sprecherpreise.de/gagen-ki.html#ki-ausschluss


Wie kann ich mich gegen KI-Missbrauch meiner Stimme schützen?

Die Stimme eines Menschen gehört zu seinen biometrischen Daten und ist in Europa per Gesetz geschützt. Niemand darf die Stimme eines Menschen nutzen, ohne vorab explizit Erlaubnis dafür erhalten zu haben - noch nicht einmal intern zu Testzwecken. Eine Zuwiderhandlung stellt eine grobe Verletzung des Persönlichkeitsrechts dar. Bereits im Moment eines sorglosen Uploads von Sprachaufnahmen in KI-assoziierte Systeme kann ein unwiderruflicher Schaden für die Sprecherin oder den Sprecher entstehen. Siehe dazu unseren Artikel: → Was ist das Neural Learning? Und warum ist es so sensibel?

Da Sprecher:innen ihre Stimmen sowie dazugehörige Nutzungslizenzen jedoch regelmäßig als Produkt anbieten und verschicken, und somit die Nutzung ihrer Stimmen immer Teil ihres Geschäftsmodells darstellt, macht es durchaus Sinn, sich in Fragen einer unerwünschten KI-Nutzung trotz der eigentlich eindeutigen gesetzlichen Regelungen so gut es geht zusätzlich abzusichern. Hierzu wird empfohlen, einen KI-Ausschluss klar und unmissverständlich zu kommunizieren.


KI-Ausschluss unmissverständlich kommunizieren

Jede Sprecherin und jeder Sprecher sollte gegenüber allen Auftraggebern, einen KI-Ausschluss klar und unmissverständlich kommunizieren; im sichersten Falle in Form eines zu unterschreibenden Vertrags.

Da aber die Zusammenarbeit zwischen Sprecher:innen und Auftraggeber:innen oftmals unkompliziert ohne üppige Vertragswerke auskommt, was eine große Annehmlichkeit des Berufsalltags ist, stellt alternativ eine entsprechende Formulierungen auf den gängigen Kommunikationskanälen, zum Beispiel den eigenen AGB, der eigenen Webseite, der Email-Signatur, auf Rechnungen, Angeboten und Dealmemos etc. eine sinnvolle Vorgehensweise dar.

Für all diese vertraglichen Zwecke hat der deutsche Sprecherverband, VDS, mit Juristen entsprechende Klauseln entworfen, deren Nutzung nicht nur Verbandsmitgliedern, sondern allen Sprecher:innen empfohlen wird.


Vorsicht vor Verträgen mit Schlupflöchern

Manche Auftraggeber versuchen aus Gründen, die VDS-Klausel zu umgehen, indem sie alternative eigene KI-Ausschlussklauseln und Formulierungen in den Verträgen unterbringen. Hierbei ist jedoch Vorsicht geboten, denn diese Vorgehensweise kann zwar nach bestem Wissen und Gewissen der Auftraggeber passieren, wird aber mitunter auch gezielt genutzt, um Schlupflöcher zu schaffen, so dass zum Beispiel die sensible Frage der Nutzung der Stimme zu KI-Trainingszwecken in den alternativen Vertragsklauseln nicht explizit ausgeschlossen wird. Siehe zu dieser Frage auch unseren Artikel → 'Was ist das Neural Learning? Und warum ist es so sensibel?'.


Nutzung der Sprachaufnahmen zu Trainingszwecken? Aktuell großer Konflikt.

Stand Anfang 2026:
Aktuell beobachten Sprecher:innen vermehrte Vorstöße großer Auftraggeber - primär, aber nicht ausschließlich, aus der Games- und Synchronbranche - eine Verwendung der Sprachaufnahmen zu KI-Trainingszwecken in ihren Verträgen grundsätzlich unentgeltlich zuzulassen. Die meisten Sprecher:innen weigern sich, diese Verträge zu unterschreiben, und stehen somit für die Aufnahmen nicht mehr zur Verfügung, was wiederum zur Folge hat, dass vermehrt der Nachwuchs angefragt wird, in der Hoffnung, hier auf einen sorgloseren Verhandlungspartner zu treffen; zumal die umfangreichen Nutzungsverträge inklusive neuralgischer KI-Fragen meistens direkt vor oder nach der Vertonung im Tonstudio zur sofortigen Unterschrift vorgelegt werden. Bedauerlicherweise hat sogar ein branchenverwandter Berufsverband in genau dieser Frage eine Vereinbarung mit Netflix getroffen, in der die KI-Ausschlussklausel das Training ganz bewusst nicht klar ausschließt; ein Bärendienst.

Glücklicherweise zeigt sich aber auch der Nachwuchs, also die gesamte Berufsgruppe der Sprecher:innen, in dieser Frage nicht nur gut informiert, sondern auch sehr solidarisch und kollegial, und lehnt eine Zusammenarbeit ohne diese vertraglichen Sicherheiten kategorisch ab. Diese Standhaftigkeit wächst für die Auftraggeber- und Produzentenseite aktuell zu einem Problem heran.

Der Sprecherverband VDS ermutigt die gesamte Branche, diese konsequente Haltung beizubehalten, um in dieser brisanten Frage zukünftige Branchenstandards im Sinne der eigenen Interessen zu prägen.


Technische Absicherung schwierig

Es ist möglich und sinnvoll, den KI-Ausschluss auf der eigenen Webseite nicht nur als klassisch lesbaren Textblock zu verfassen, sondern zusätzlich auch einen maschinenlesbaren Ausschluss zu hinterlegen, der explizit Crawler und Robots anspricht. Mehr Informationen und Hilfestellung dazu gibt es auf diversen Webseiten, z.B. im AI.TXT-Generator.

Eine handfeste Absicherung gegen Missbrauch können all diese rechtlichen und vertraglichen Maßnahmen natürlich kaum schaffen. Verhält sich jemand vorsätzlich rechtswidrig, kann ihn fürs erste niemand dabei aufhalten. Technische Methoden gegen den Missbrauch der eigenen Stimme, wie zum Beispiel Wasserzeichen in Audiofiles oder ähnliches, sind in der Praxis leider nicht gut anzuwenden, da sie noch nicht perfekt ausgereift sind und Produktionsabläufe mitunter inakzeptabel einschränken.


Fazit

Die vertraglichen und kommunikativen Möglichkeiten sind derzeit unsere besten Maßnahmen, um für das Thema zu sensibilisieren und im Falle eines möglichen KI-Missbrauchs guten Karten für rechtliche Schritte in den Händen zu halten, die in dem Fall auch gegangen werden sollten. Letztlich gilt aber, wie immer, eine gesunde Balance aus Vertrauen und Vorsicht gegenüber seinen Auftraggebern zu finden. Ist das Vertrauen generell gegeben, dürfen die Vorsichtsmaßnahmen dezenter im Hintergrund stattfinden. Ist es allerdings in Frage gestellt, sollte man sich vertraglich wasserdicht absichern.


⇪ Liste der Fragen

⇪ Liste der Fragen
Link zum Teilen dieses Artikels: https://www.sprecherpreise.de/gagen-ki.html#uva


Wer ist die UVA? Gelten ihre 'AI Guidelines for Voice Work' weltweit?


Das originale Dokument 'AI Guidelines for Voice Work'
und seine weltweiten Adaptionen

Im Jahr 2024 hat die UVA das Dokument 'AI Guidelines for Voice Work' veröffentlicht, das allen Marktteilnehmern, die Verträge rund um KI und Sprache abschließen wollen, wertvolle Hinweise gibt und vor möglichen Fallstricken warnt. Dieses Dokument wurde gleichzeitig von den über 20 Mitgliedsverbänden für ihre jeweiligen nationalen Märkte adaptiert und herausgegeben, so dass diese Empfehlungen mittlerweile weltweite Akzeptanz genießen und sich als wichtigste Orientierung für die Sprecher- sowie die Auftraggeberseite etabliert hat. Im deutschsprachigen Raum wurde das Dokument, von allen drei DACH-Sprecherverbänden inhaltlich identisch unter dem Titel 'KI-Gagenkompass' herausgegeben.



Wer ist UVA?

Die UVA (United Voice Artists) ist der globale Dachverband von über 20 nationalen Sprecherverbände. In ihm vertreten sind auch die drei deutschsprachigen Verbände des DACH-Raums, der deutsche VDS, der österreichische VOICE sowie die schweizerische VPS-ASP.

Da die Herausforderungen für Sprecher:innen nicht zuletzt durch die Entwicklungen im Bereich KI globaler und komplexer geworden sind, hat sich die UVA 2023 gegründet, um den nationalen Verbänden zu ermöglichen, in globalen Fragen mit einer gemeinsamen Stimme zu sprechen.


⇪ Liste der Fragen

⇪ Liste der Fragen
Link zum Teilen dieses Artikels: https://www.sprecherpreise.de/gagen-ki.html#gretchenfrage


Sollte ich eine KI-Anfrage als Sprecher:in überhaupt annehmen?

Die Gretchenfrage: Nun sag, wie hast du’s mit der KI?

Eine ernstzunehmende KI-Anfrage bedeutet für jede Sprecherin und jeden Sprecher erst einmal eine große Herausforderung. Plötzlich muss man sich konkret positionieren und der Luxus des theoretischen Philosophierens weicht den mitunter ganz banalen und handfesten Überlegungen der eigenen Realität. So viele Informationen wir auch zusammengesammelt haben, diese grundsätzliche Frage kannst nur Du für Dich alleine beantworten. Vielleicht helfen die folgenden häufig gehörten Fürs und Widers bei Deiner Abwägung:


PRO

Finanzieller Anreiz
Das große mächtige Pro-Argument ist sicherlich der finanzielle Anreiz. Eine KI-Anfrage ist meist angelegt, sich als größeren Auftrag mit längerer Laufzeit zu entpuppen. Und das sollte natürlich auch finanziell entsprechend lukrativ ausfallen.
Ist die Anfrage allerdings von vornherein mit fragwürdig schmalem Budget ausgestattet, oder entpuppt sich entsprechend, fällt dieser größte Anreiz sicherlich weg.

Uneingeschränkte Verfügbarkeit
Nicht nur für den Auftraggeber, auch für Sprecher:innen, kann es reizvoll sein, durch die KI stimmlich immer verfügbar zu sein. Die eigene KI-Stimme hat niemals Urlaub und klingt auch nie verschnupft. Sie ist immer einsetzbar und kann jederzeit auch gehobene Auftragsvolumen ausführen.
Bei diesem Gedanken bleiben jedoch die Fragen offen, ob diese höhere Verfügbarkeit auch tatsächlich zu einem gehobenen Auftragsvolumen führt, ob es mittelfristig gedacht möglich sein wird, das eigene Gagenniveau in Nachverhandlungen bei faktisch geringerem Arbeitseinsatz zu rechtfertigen und inwiefern es überhaupt im eigenen Interesse ist, weniger Arbeitszeit im tatsächlichen Arbeitseinsatz hinter dem Mikrofon zu verbringen; immerhin eine Tätigkeit, die fast allen Kolleg:innen Freude bereitet.

Fester im Sattel sitzen
Eventuell sitzt mal als Brandvoice eines Produkts oder einer Marke fester im Sattel, ist das eigene digitale Stimm-Duplikat erstmal erfolgreich am Start, da die Hürden zum Austausch einer Markenstimme wahrscheinlich etwas höher sind, wenn der gesamte aufwändige und kostspielige Vertrags- und Synthetisierungsprozess erfolgreich gestemmt wurde.
Man sollte sich allerdings bewusst machen, dass dieser Gedanke primär auf Basis von hypothetischen Verlustängsten basiert, die selten ein souveräner Ratschlaggeber sind.

Unsterblichkeit der Stimme
Ein fast futuristisch klingender Aspekt, der dennoch genannt werden sollte, ist der Gedanke, dass die eigene KI-Stimme weder altert noch sterben kann. Ob diese Idee jedoch als eher als erbaulich oder doch als etwas schauderhaft empfunden wird, wird jeder anders empfinden.


KONTRA

Wirtschaftlicher Schaden für eigene berufliche Zukunft
Die wahrscheinlich größte Sorge unter Sprecher-Kolleg:innen ist die Frage, inwiefern die eigene synthetisierte Stimme einen wirtschaftlichen Schaden für die Ausübung des eigenen Berufs bedeuten kann - manch ein Kollege fürchtet sogar den 'wirtschaftlichen Totalschaden'. Ob diese Sorge tatsächlich angebracht oder eher etwas aufgebauscht ist, kann zum heutigen Zeitpunkt noch niemand sicher sagen. Es ist allerdings nüchtern zu beobachten, dass die KI bereits heute Kreativen weltweit ihre Aufträge nimmt und ganze Berufsfelder arbeitslos macht. Sie ist also ein mächtiges Werkzeug und hat offensichtlich ein großes Zerstörungspotential.
Gleichzeitig wird dieses diffuse Argument wohl etwas abgeschwächt, wenn alle Bedingungen der eigenen KI-Zusammenarbeit solide ausgehandelt und vertraglich sicher formuliert werden können und das Vertrauen in die Sorgfalt des Auftraggebers generell gegeben ist.

Gefahren des Missbrauchs
Die Möglichkeit eine Stimme im KI-Kontext missbräuchlich einzusetzen, ist immer gegeben, unabhängig von der Frage, ob man sich im Rahmen einer KI-Zusammenarbeit offiziell synthetisieren lässt oder nicht. Trotzdem stellt die Existenz eines eigenen hochwertig hergestellten digitalen Stimmduplikats bereits ein größeres Risiko dar, dass ein solcher Massbrauch passieren kann; sei es durch Unachtsamkeit beim Handling der stimmsynthetisierenden Daten, durch Datenlecks, Hackerangriffe etc. Die Stimme gehört zu den biometischen Daten eines Menschen. Ihr Missbrauch kann verehrende Folgen haben und großen Schaden anrichten; für professionelle Sprecher nicht nur persönlichen, sondern zudem hohen wirtschaftlichen.

Unvorhersehbare Entwicklungen
Wir stehen technisch noch am Anfang der KI-Entwicklung und sind durch sie schon heute sehr herausgefordert - vor allem gesellschaftlich. Wohin uns diese Entwicklungen in Zukunft führen werden, und was mit einer hochwertig synthetisierten Stimme demnächst alles möglich sein könnte, lässt sich beim besten Willen nicht vorhersagen. Etliche utopische aber auch dystopische Literatur- und Filmwerke basieren auf eben diesen Gedankenspielen und zeigen, dass der Fantasie in dieser Frage keine Grenzen gesetzt sind. Inwiefern es im Kontext dieser Unabsehbarkeiten nun sinnvoll ist, sich dieser neuen Technologie sorglos als Early Adopter zu öffnen, oder doch zögerlich und besonnen abzuwarten, ist vor allem eine Temperamentfrage.

Ethische Fragen und moralische Bedenken
Schon heute bewerten manche die KI-Technologie als einen Angriff auf die kreativen Berufe, auf unsere Gesellschaft und sogar auf die Menschlichkeit allgemein. Es besteht der Wunsch, ein ethisch 'sauberes' Verhalten vorleben, was auch bedeutet, dass die KI-Entwicklungen nicht durch eigenen Input legitimiert und aktiv vorantreiben werden sollte.
Dieses moralische Verhalten wird zum Luxus, sobald dadurch in prekären, evtl. sogar existezbedrohten Situationen ein lukrativer Auftrag abgesagt werden muss. Doch Moral lässt sich im Kontext einer Bedrohung immer in Frage stellen, was sie jedoch niemals entwertet, sondern ihr überhaupt erst einen Wert gibt.

Emotionale Bedenken
Auch wenn die eigene Emotionalität und psychische Verfasstheit immer etwas diffuser bleibt, als beispielsweise konkret kalkulierbare wirtschaftliche Überlegungen, sind sie dennoch eben genauso sehr zu nehmen; vor allem für Mitglieder einer Berufsgruppe, die mit Ihren Emotionen arbeitet. So erzeugt die Idee, dass ein digitales System unsere Menschlichkeit und Persönlichkeit technisch herstellt (bzw. imitiert), bei vielen Kolleg:innen ein generelles Unwohlsein.
Selbstverständlich kann man argumentieren, dass in dieser Frage einfach nur die Gewöhnung fehlt. Doch viele von uns haben gelernt, ihren Emotionen und dem Bauchgefühl, also der Intuition, grundsätzlich zu vertrauen, um sie vielleicht erst später zu verstehen und rational einordnen zu können. Ein einfaches Negieren der emotionalen Bedenken hingegen - das sagt schon die Küchenpsychologie - kann zu keinem gesunden Ergebnis führen.

Der Wert einer nicht-synthetisierten Stimme
Gibt es von Auftraggeberseite den Wunsch, eine Stimme zu besetzen, die explizit nicht parallel synthetisch vorliegt? Auch wenn uns diesbezüglich keine Fälle bekannt sind und diese Überlegung fürs erste hypothetischer Natur ist - immerhin sind die meisten Stimmen heutzutage noch nicht synthetisiert - ist der Gedanke durchaus vorstellbar. Schon heute achten viele vor allem größere Auftraggeber und Marken durchaus streng darauf, wofür ihre Stimme parallel noch im Einsatz ist. Da stellt der Anspruch an eine Stimme, die ausschließlich als echt menschliche Original-Stimme existiert, und somit den Gedanken von 'Wahrhaftigkeit und Purheit' unkompromittiert bedient, durchaus den nächsten logischen Schritt des Kundenanspruchs dar.

Vertrauen gegenüber dem Geschäftspartne
Nicht nur in Fragen des Missbrauchs der eigenen KI-Stimme (siehe oben), sondern ganz allgemein, sollte das Vertrauen zwischen Auftraggeberin und Sprecherin bei einer KI-Zusammenarbeit sehr solid aufgestellt sein. Mit einer KI-Zusammenarbeit bindet man sich eigentlich immer für größere Auftragsvolumen und meist für einen längeren Zeitraum aneinander und bekennt sich so zueinander. Ist das Grundvertrauen von vornherein getrübt, und es besteht Unsicherheit, ob der Vertragspartner auch zukünftig bei möglichem Nachjustieren der Zusammenarbeit, Folgeverträgen oder Auslegungen von Vertragsdetails die angemessene geschäftspartnerschaftliche Augenhöhe behält, sollte eine gemeinsame Zusammenarbeit von vornherein grundsätzlich in Frage gestellt werden, bzw. dieser Aspekt mit in die Waagschale geworfen werden.

Sorge vor 'Neural Learning'
Der Aspekt des 'Neural Learnings' kann in der Abwägung der Fürs und Widers durchaus auch eine Rolle spielen. Die Thematik erklären wir in unserem Arkikel → 'Was ist das Neural Learning? Und warum ist es so sensibel?'.

Bedürfnis oder echter Bedarf des Auftraggebers
Die wundervollen Verheißungen des Einsatzes von generativer KI bei Sprachproduktionen sind groß und sehr beeindruckend - wenn auch meist etwas realitätsfern. Steht man vor einer möglichen Zusammenarbeit mit einem Auftraggeber, macht es Sinn, genauer hinzuschauen, ob ein ein echter Bedarf nach KI-Produktionsprozessen besteht, (z.B. die Notwendigkeit, ein hohes Auftragsvolumen immer kurzfristig herstellen zu können) oder evtl. nur ein Bedürfnis empfunden wird, um sich beispielsweise bei zukunftsweisenden Technologien nicht abhängen zu lassen. Sollte der Bedarf nicht wirklich gegeben sein, muss man sich fragen, ob man die generelle Bereitschaft und Offenheit für diesen durchaus sensiblen KI-Prozess wirklich aufbringen muss, um die Anforderungen des Kunden voll befriedigen zu können. Evtl. kann hier sogar im gemeinsamen Gespräch eine KI-Zusammenarbeit fürs erste auf Eis gelegt werden, und das tatsächliche Produktionsvolumen auf klassische Weise eingesprochen werden.


⇪ Liste der Fragen