Stimmen-Klau in Echtzeit: Warum wir bald Codewörter brauchen

Achtung aufgepasst

NVIDIA hat PersonaPlex rausgebracht! Und es ist frei verfügbar! Warum dieses Modell in Verbindung mit der neuartigen Architektur ein Durchbruch, aber zugleich extrem gefährlich ist, steht weiter unten.

PersonaPlex agiert als sogenanntes Full-Duplex-Modell, was bedeutet, dass es simultan zuhören und sprechen kann. Diese Funktionsweise – ursprünglich durch Moshi eingeführt – erlaubt es dem System, weit mehr als nur den reinen Inhalt des Gesagten zu erfassen. Es erlernt auch die nuancierten Verhaltensweisen der menschlichen Kommunikation, etwa das richtige Timing für Pausen, Unterbrechungen oder bestätigende Einwürfe (Backchanneling wie ‚aha‘ oder ‚hm‘).

„Um eine Interaktion mit minimaler Verzögerung zu gewährleisten, verzichten wir auf die sonst üblichen kaskadierten Systeme, die Spracherkennung, Textgenerierung und Sprachsynthese in separate Schritte unterteilen. Stattdessen nutzen wir ein ganzheitliches Einzelmodell. Dieses aktualisiert seinen internen Zustand kontinuierlich noch während der Nutzer spricht, und kann so eine unmittelbare Antwort generieren.“. So in etwa heisst es auf der Webseite (1).

Und jetzt zum Problem:

Wenn so ein Modell erst mal frei verfügbar ist, kann es ganz einfach mit Stimmen gefüttert werden, die zum Beispiel aus WhatsApp-Sprachnachrichten oder Videos stammen. In Kombination mit einer KI, die auf eine ganz bestimmte Person trainiert wurde, sind Betrugsfälle dann quasi vorprogrammiert. Der klassische Enkeltrick sieht dagegen fast schon wie harmloser Taschendiebstahl aus – für den sogenannten CEO-Fraud eröffnen sich hier völlig neue Welten.

Es sind aber auch noch ganz andere Angriffe denkbar: Von Verleumdung und Rufschädigung bis hin zu gezielter Meinungsmache und Manipulation. Die Bandbreite an bösartigen Ideen ist riesig, und man kann sich kaum ausmalen, was da in nächster Zeit auf uns zukommt. Ich hatte ja schon mal geschrieben, dass bei modernen Sprachmodellen das Problem besteht, dass man Nutzer- und Kontrolldaten kaum noch trennen kann. Aber das hier ist noch mal eine ganz andere Hausnummer als eine einfache Manipulation an einem Computersystem. Hier geht es um Massenmanipulation in Echtzeit. Es heisst dann plötzlich: „Hört euch doch mal an, was er am Telefon über euch gesagt hat …“

Dabei ist Deepfake-Betrug längst keine reine Theorie mehr. Es gibt schon Fälle, in denen Betrüger mit KI-Stimmen oder gefälschten Video-Calls Millionen erbeutet haben. Bisher konnte man das oft noch durchschauen, weil es eben vorab aufgenommene Schnipsel waren, die kleine Fehler bei den Atempausen oder der Mimik hatten.

Die wirkliche Gefahr liegt aber in der Echtzeit-Fähigkeit. Wenn die KI sofort auf Fragen antwortet, fällt unser wichtigster Schutzmechanismus weg: das spontane Nachhaken. Ein Live-Gespräch, das sich echt anfühlt, ist psychologisch extrem schwer zu durchschauen. Dabei studiert der Angreifer durch sogenannte OSINT-Methoden (Open Source Intelligence) und Profiling zuerst die Gewohnheiten, Verhalten und Internas eines Opfers und missbraucht dessen Informationen sowie Daten bei der Erstellung einer spezifischen Sprach-KI, um eine Schlüsselperson zur Zahlung zu überreden.

Die KI-Welt wird also nicht nur immer verrückter, sondern auch deutlich gefährlicher.

Beispiele für mögliche Angriffsvektoren:

Verleumdung: Gefälschte Aussagen, die nie getätigt wurden.
Rufschädigung: Kompromittierende Audio-Aufnahmen als Druckmittel.
Meinungsmache: Gezielte Desinformation durch täuschend echte Imitationen von Amtspersonen.
Manipulation: Psychologische Beeinflussung im privaten oder beruflichen Umfeld.
Betrug: Manipulative Beeinflussung einer Person durch authentischem KI-Dialog einer vertrauten Person.

Was können wir tun?

Um uns gegen diese Manipulation zu schützen, helfen oft die einfachsten, analogen Wege. In Firmen, aber auch in der Familie, sollte man feste Codewörter abmachen. So ein geheimes Wort, das bei Geldfragen oder wichtigen Entscheidungen abgefragt wird, entlarvt jede KI sofort, egal, wie gut die Stimme klingt. Wenn wir unseren Augen und Ohren nicht mehr trauen können, wird dieses gegenseitige Vertrauen durch Absprachen zu unserer wichtigsten Rettung.

Die KI-Welt wird also zunehmend „abenteuerlich“ :))

Link zu NVIDIA PersonaPlex(1): https://research.nvidia.com/labs/adlr/personaplex/