Stimmen-Klau in Echtzeit: Warum wir bald Codewörter brauchen

Achtung aufgepasst

NVIDIA hat PersonaPlex rausgebracht! Und es ist frei verfügbar! Warum dieses Modell in Verbindung mit der neuartigen Architektur ein Durchbruch, aber zugleich extrem gefährlich ist, steht weiter unten.

PersonaPlex agiert als sogenanntes Full-Duplex-Modell, was bedeutet, dass es simultan zuhören und sprechen kann. Diese Funktionsweise – ursprünglich durch Moshi eingeführt – erlaubt es dem System, weit mehr als nur den reinen Inhalt des Gesagten zu erfassen. Es erlernt auch die nuancierten Verhaltensweisen der menschlichen Kommunikation, etwa das richtige Timing für Pausen, Unterbrechungen oder bestätigende Einwürfe (Backchanneling wie ‚aha‘ oder ‚hm‘).

„Um eine Interaktion mit minimaler Verzögerung zu gewährleisten, verzichten wir auf die sonst üblichen kaskadierten Systeme, die Spracherkennung, Textgenerierung und Sprachsynthese in separate Schritte unterteilen. Stattdessen nutzen wir ein ganzheitliches Einzelmodell. Dieses aktualisiert seinen internen Zustand kontinuierlich noch während der Nutzer spricht, und kann so eine unmittelbare Antwort generieren.“. So in etwa heisst es auf der Webseite (1).

Und jetzt zum Problem:

Wenn so ein Modell erst mal frei verfügbar ist, kann es ganz einfach mit Stimmen gefüttert werden, die zum Beispiel aus WhatsApp-Sprachnachrichten oder Videos stammen. In Kombination mit einer KI, die auf eine ganz bestimmte Person trainiert wurde, sind Betrugsfälle dann quasi vorprogrammiert. Der klassische Enkeltrick sieht dagegen fast schon wie harmloser Taschendiebstahl aus – für den sogenannten CEO-Fraud eröffnen sich hier völlig neue Welten.

Es sind aber auch noch ganz andere Angriffe denkbar: Von Verleumdung und Rufschädigung bis hin zu gezielter Meinungsmache und Manipulation. Die Bandbreite an bösartigen Ideen ist riesig, und man kann sich kaum ausmalen, was da in nächster Zeit auf uns zukommt. Ich hatte ja schon mal geschrieben, dass bei modernen Sprachmodellen das Problem besteht, dass man Nutzer- und Kontrolldaten kaum noch trennen kann. Aber das hier ist noch mal eine ganz andere Hausnummer als eine einfache Manipulation an einem Computersystem. Hier geht es um Massenmanipulation in Echtzeit. Es heisst dann plötzlich: „Hört euch doch mal an, was er am Telefon über euch gesagt hat …“

Dabei ist Deepfake-Betrug längst keine reine Theorie mehr. Es gibt schon Fälle, in denen Betrüger mit KI-Stimmen oder gefälschten Video-Calls Millionen erbeutet haben. Bisher konnte man das oft noch durchschauen, weil es eben vorab aufgenommene Schnipsel waren, die kleine Fehler bei den Atempausen oder der Mimik hatten.

Die wirkliche Gefahr liegt aber in der Echtzeit-Fähigkeit. Wenn die KI sofort auf Fragen antwortet, fällt unser wichtigster Schutzmechanismus weg: das spontane Nachhaken. Ein Live-Gespräch, das sich echt anfühlt, ist psychologisch extrem schwer zu durchschauen. Dabei studiert der Angreifer durch sogenannte OSINT-Methoden (Open Source Intelligence) und Profiling zuerst die Gewohnheiten, Verhalten und Internas eines Opfers und missbraucht dessen Informationen sowie Daten bei der Erstellung einer spezifischen Sprach-KI, um eine Schlüsselperson zur Zahlung zu überreden.

Die KI-Welt wird also nicht nur immer verrückter, sondern auch deutlich gefährlicher.

Beispiele für mögliche Angriffsvektoren:

  • Verleumdung: Gefälschte Aussagen, die nie getätigt wurden.
  • Rufschädigung: Kompromittierende Audio-Aufnahmen als Druckmittel.
  • Meinungsmache: Gezielte Desinformation durch täuschend echte Imitationen von Amtspersonen.
  • Manipulation: Psychologische Beeinflussung im privaten oder beruflichen Umfeld.
  • Betrug: Manipulative Beeinflussung einer Person durch authentischem KI-Dialog einer vertrauten Person.

Was können wir tun?

Um uns gegen diese Manipulation zu schützen, helfen oft die einfachsten, analogen Wege. In Firmen, aber auch in der Familie, sollte man feste Codewörter abmachen. So ein geheimes Wort, das bei Geldfragen oder wichtigen Entscheidungen abgefragt wird, entlarvt jede KI sofort, egal, wie gut die Stimme klingt. Wenn wir unseren Augen und Ohren nicht mehr trauen können, wird dieses gegenseitige Vertrauen durch Absprachen zu unserer wichtigsten Rettung.

Die KI-Welt wird also zunehmend „abenteuerlich“ :))

Link zu NVIDIA PersonaPlex(1): https://research.nvidia.com/labs/adlr/personaplex/

  • Related Posts

    • AI
    • Januar 18, 2026
    • 38 views
    Google UCP: So lösen Agenten das Shopping-Problem

    In der aktuellen Debatte um Künstliche Intelligenz dreht sich fast alles um neue Sprachmodelle und die Frage nach der „echten“ Intelligenz (AGI). Doch während die Welt über die Zukunft philosophiert,…

    Spioniert Instagram & Co.? Mein technischer Deep Dive und der Versuch eines Proof of Concept (PoC)

    Hast du dich schon einmal mit einem Kollegen oder einer Kollegin über ein bestimmtes Thema unterhalten und nur wenige Minuten später hast du auf Instagram genau dafür Werbung erhalten? Sicherlich…

    You Missed

    Stimmen-Klau in Echtzeit: Warum wir bald Codewörter brauchen

    • Januar 31, 2026
    • 11 views
    Stimmen-Klau in Echtzeit: Warum wir bald Codewörter brauchen

    Der Markt für unbemannte Systeme (UAS/UGV)

    • Januar 18, 2026
    • 44 views
    Der Markt für unbemannte Systeme (UAS/UGV)

    Google UCP: So lösen Agenten das Shopping-Problem

    • Januar 18, 2026
    • 38 views
    Google UCP: So lösen Agenten das Shopping-Problem

    Spioniert Instagram & Co.? Mein technischer Deep Dive und der Versuch eines Proof of Concept (PoC)

    • Januar 18, 2026
    • 46 views
    Spioniert Instagram & Co.? Mein technischer Deep Dive und der Versuch eines Proof of Concept (PoC)

    Kein AI, Keine Cloud, keine USA, keine komplizierten Tools – Klassische Massendatenauswertung mit einfachen Board-Mitteln

    • Januar 8, 2026
    • 63 views
    Kein AI, Keine Cloud, keine USA, keine komplizierten Tools – Klassische Massendatenauswertung mit einfachen Board-Mitteln

    Open Big Data Quellen für Sience und ML

    • Dezember 20, 2025
    • 91 views
    Open Big Data Quellen für Sience und ML