Verarbeitet unser Gehirn natürliche Stimmen und tiefe Stimmen unterschiedlich? Untersuchungen der Universität Zürich lassen darauf schließen, dass dies der Fall ist. In einer neuen Studie haben Forscher zwei Gehirnregionen identifiziert, die unterschiedlich auf natürliche Stimmen und tiefe Stimmen reagieren.
Wie Fingerabdrücke sind auch unsere Stimmen einzigartig und können uns dabei helfen, Menschen zu identifizieren. Da neuere Sprachsynthesealgorithmen immer weiter fortgeschritten sind, ist es möglich, tiefe Klone zu erstellen, die den Identitätsmerkmalen natürlicher Sprecher sehr ähnlich sind. Das bedeutet, natürliche Stimmen mithilfe der Deepfake-Technologie zu imitieren, beispielsweise Menschen am Telefon zu fälschen oder die Stimme eines berühmten Schauspielers mit einem KI-Sprachassistenten nachzubilden.
Es ist jedoch noch nicht klar, wie das menschliche Gehirn angesichts solch irreführender Stimmen funktioniert. Akzeptiert unser Gehirn sie als echt oder erkennt sie sie als „falsch“? Ein Forscherteam der Universität Zürich hat herausgefunden, dass Menschen gefälschte Spracherkennungen oft als echt akzeptieren, unser Gehirn jedoch anders auf tiefe Stimmen reagiert als auf natürliche Sprecherstimmen.
Die Identität in Deepfake-Stimmen ist fast täuschend ähnlich
Die Forscher wandten sich zunächst psychophysischen Methoden zu, um zu testen, wie gut die Identität der menschlichen Stimme bei tiefen Stimmen erhalten bleibt. Dazu nahmen sie die Stimmen von vier männlichen Sprechern auf und verwendeten dann einen alternativen Algorithmus, um tiefere Stimmen zu erzeugen. Im Hauptexperiment hörten 25 Teilnehmer mehrere Stimmen und wurden gebeten zu entscheiden, ob die Identitäten der beiden Stimmen identisch waren. Die Teilnehmer mussten die Identität zweier normaler Stimmen oder einer normalen Stimme und einer tiefen Stimme vergleichen.
In zwei Dritteln der Fälle wurden Deepfakes korrekt erkannt. „Dies zeigt, dass bestehende Deepfake-Stimmen eine Identität nicht perfekt nachahmen, aber sie haben die Fähigkeit, Menschen zu täuschen“, sagt Claudia Roswandowitz, Erstautorin und Postdoktorandin in der Abteilung für Computerlinguistik.
Das Belohnungssystem reagiert auf natürliche Stimmen, nicht jedoch auf tiefe Geräusche
Mithilfe bildgebender Verfahren untersuchten die Forscher, welche Gehirnregionen anders auf tiefe Stimmen als auf natürliche Stimmen reagierten. Sie konnten zwei Bereiche identifizieren, die falsche Stimmen erkennen können: den Nucleus accumbens und den auditorischen Kortex. „Der Nucleus accumbens ist ein wichtiger Teil des Belohnungssystems des Gehirns. In einem Experiment, bei dem die Teilnehmer die Identifikation zwischen tiefen und normalen Stimmen verglichen, war er weniger aktiv“, sagt Claudia Roswandowitz. Im Gegensatz dazu zeigte der Nucleus accumbens beim Vergleich der beiden natürlichen Stimmen eine größere Aktivität.
Der auditorische Kortex unterscheidet die Klangqualität zwischen natürlichen und tiefen Stimmen
Eine zweite während der Experimente aktive Gehirnregion, der auditorische Kortex, scheint auf Klangunterschiede zwischen natürlichen Stimmen und tiefen Stimmen zu reagieren. Dieser Bereich, der auditive Informationen verarbeitet, war am aktivsten, wenn die Teilnehmer zwischen tiefen und normalen Stimmen unterscheiden mussten. „Wir vermuten, dass diese Region auf die unvollständige Wiedergabe tiefer Lautäußerungen reagiert, um fehlende akustische Informationen in Deepfakes zu kompensieren“, sagt Roswandowitz. Je weniger natürlich und angenehm eine künstliche Stimme im Vergleich zu ihrem natürlichen Gegenstück wahrgenommen wird, desto größer sind die Unterschiede in der Aktivität der Hörrinde.
Deepfake-Gesang klingt weniger angenehm anzuhören, unabhängig von der Klangqualität des Tons. „Menschen lassen sich durch Deepfakes also nur teilweise täuschen. Die bei der Verarbeitung von Deepfakes identifizierten neuronalen Mechanismen verdeutlichen unsere Widerstandsfähigkeit gegenüber besonderen Fehlinformationen, denen wir im Alltag häufig begegnen“, schlussfolgert Roswandowitz.
Literaturverzeichnis:
Claudia Roswantowitz, Dayaparan Kathiresan, Elisa Pellegrino, Volker Delvo, Saska Frueholz. Ein kortikal-striatales Gehirnnetzwerk unterscheidet Deepfake von echter Sprecheridentifikation. Communications Biology, 11. Juni 2024, DOI: 10.1038/s42003-024-06372-6
Weitere Inhalte aus Ausgabe Nr. 22 finden Sie hier.
Weitere interessante Artikel: