Studie zeigt Schwachstellen in KI-Assistenten auf
Die KI-Nutzung in Unternehmen zieht an. Das Bewusstsein für den Umgang mit erforderlichen Daten nimmt langsam zu. Aktuelle Studien zeigen aber, dass in KI-Assistenten wie ChatGPT Schwachstellen stecken, die zusätzliche Gefahren bergen.
Studie »HackedGPT« zeigt sieben Angriffe auf KI-Assistenten
Inhalt dieses Artikels
Eine aktuelle Analyse des Sicherheitsunternehmens Tenable hat mehrere Schwachstellen in OpenAIs »ChatGPT«-Modellen offengelegt. Sie machen deutlich, wie verwundbar KI-Assistenten gegenüber gezielten Manipulationen sein können. Die Sicherheitsforscher identifizierten insgesamt sieben Angriffsszenarien in »ChatGPT-4o«. Einige davon ließen sich auch in »ChatGPT-5« reproduzierbaren.
Die unter dem Titel »HackedGPT« veröffentlichte Untersuchung zeigt, dass sich Sprachmodelle über versteckte Anweisungen in Webseiten, Texten oder Links austricksen lassen. Sie können damit potenziell auf vertrauliche Informationen zugreifen oder Sicherheitsregeln umgehen. Einige der Schwachstellen wurden von OpenAI inzwischen behoben, andere waren zum Zeitpunkt der Veröffentlichung der Studie laut Tenable noch offen.
Wenn KI Anweisungen von fremden Webseiten befolgt
Ein zentrales Problem ist die sogenannte Indirect Prompt Injection – eine Angriffstechnik, bei der KI-Systeme über unverdächtige Inhalte auf externe Anweisungen stoßen. Beispielsweise können ein Blog-Kommentar oder ein HTML-Element im Hintergrund Befehle enthalten, die das Sprachmodell beim Zugriff über die integrierte Browsing-Funktion unbemerkt ausführt. Dadurch kann ChatGPT sensible Daten ausgeben oder ungewollte Aktionen durchführen.

Schematische Darstellung einer der von Tenable in der Studie »HackedGPT« identifizierten Schwachstellen bei KI-Assistenten (Bild: Tenable)
Ähnliche Angriffe wurden auch von anderen Sicherheitsforschern schon beschrieben. Unter anderem hatte Simon Willison, ein bekannter Entwickler und KI-Forscher, 2024 Beispiele veröffentlicht, wie Large Language Models (LLMs) durch Prompt Injections manipuliert werden können, um vertrauliche API-Schlüssel oder Nutzerdaten preiszugeben.
Von »0-Klick« bis »Persistent Memory Injection«
Tenable unterscheidet insgesamt sieben Varianten dieser Angriffe:
- Indirect Prompt Injection über vertrauenswürdige Websites: Angreifer verbergen Befehle in legitim erscheinenden Online-Inhalten wie Blog-Kommentaren oder öffentlichen Posts. Beim Durchsuchen dieser Inhalte befolgt ChatGPT unwissentlich diese versteckten Anweisungen.
- Indirect Prompt Injection ohne Klick im Suchkontext: Wenn ChatGPT im Internet nach Antworten sucht, kann es auf eine Seite mit verstecktem Schadcode stoßen. Einfach nur eine Frage zu stellen, könnte dazu führen, dass das Modell solche Anweisungen befolgt und private Daten preisgibt.
- Prompt Injection durch »1-Klick«: Versteckte Befehle, die in scheinbar harmlosen Links eingebettet sind (beispielsweise https://chatgpt.com/?q={Prompt}), können dazu führen, dass ChatGPT bösartige Aktionen ausführt, ohne sich dessen bewusst zu sein. Ein Klick genügt dann, damit ein Angreifer die Kontrolle über den Chat übernehmen kann.
- Umgehung von Sicherheitsmechanismen: Normalerweise überprüft ChatGPT Links und blockiert unsichere Websites. Umgehen lässt sich dies, indem vertrauenswürdig erscheinende Wrapper-URLs verwendet werden (z. B. bing.com/ck/a?… von Bing), die das tatsächliche Ziel verbergen. ChatGPT vertraut dem Wrapper, zeigt den scheinbar sicheren Link an und kann zu einer bösartigen Website weitergeleitet werden.
- Conversation Injection: ChatGPT nutzt zwei Systeme – SearchGPT für die Suche und ChatGPT für Konversationen. Angreifer können sich SearchGPT zunutze machen, um versteckte Anweisungen einzufügen, die ChatGPT später im Rahmen der Konversation ausliest. Die KI führt damit letztendlich eine „Prompt Injection“ bei sich selbst durch, indem sie Befehle ausführt, die der Benutzer nie geschrieben hat.
- Verbergen bösartiger Inhalte: Ein Programmierfehler in der Formatierung ermöglicht es Angreifern, schädliche Anweisungen in Code oder Markdown-Text zu verstecken. Nutzer sehen eine saubere Nachricht, ChatGPT liest aber den versteckten Inhalt und führt ihn aus.
- Persistent Memory Injection: Die Speicherfunktion von ChatGPT zeichnet vergangene Interaktionen auf. Angreifer können böswillige Anweisungen in diesem Langzeitspeicher hinterlegen. Das Modell führt diese Befehle dann über mehrere Sitzungen hinweg wiederholt aus und gibt private Daten preis, bis der Speicher geleert wird.
Vertrauensfrage bei LLMs ungeklärt
»HackedGPT deckt eine grundlegende Unzulänglichkeit in der Art und Weise auf, wie große Sprachmodelle beurteilen, welchen Informationen sie vertrauen können«, erklärt Moshe Bernstein, Senior Research Engineer bei Tenable.

»HackedGPT deckt eine grundlegende Unzulänglichkeit in der Art und Weise auf, wie große Sprachmodelle beurteilen, welchen Informationen sie vertrauen können«, erklärt Moshe Bernstein, Senior Research Engineer bei Tenable.
»Einzeln betrachtet scheinen diese Sicherheitslücken geringfügig zu sein – in ihrer Gesamtheit bilden sie jedoch eine komplette Angriffskette, von Einschleusung und Umgehung bis hin zu Datendiebstahl und Persistenz. KI-Systeme seien deshalb nicht nur potenzielle Angriffsziele, sondern könnten auch zu Angriffstools umfunktioniert werden, die unbemerkt Informationen aus alltäglichen Chats oder beim Surfen abgreifen.«
Was die Studienergebnisse für Anwender bedeuten
Für Nutzer besteht laut Tenable kein akutes Risiko, wenn sie ChatGPT auf der offiziellen Website verwenden und keine experimentellen Browser- oder Speicherfunktionen aktivieren. Dennoch macht der Bericht deutlich, dass KI-Assistenten künftig ein neues Einfallstor für Angriffe sein könnten – ähnlich wie Webbrowser oder Smartphones in ihren Anfangsjahren.
Auch wenn die Angriffe technisch komplex sind, zeigen sie, dass Künstliche Intelligenz zunehmend Teil von tatsächlich genutzten Angriffsketten werden kann. Auch wenn der Nachweis am Beispiel von ChatGPT erbracht wurde, betrifft das nicht nur OpenAI, sondern alle Anbieter von generativen KI-Systemen – also auch Google Gemini, Anthropic Claude oder Microsoft Copilot.
Wie sich Risiken verringern lassen
Sicherheitsexperten empfehlen, Browser- und Speicherfunktionen in KI-Tools bewusst zu nutzen und gespeicherte Daten regelmäßig zu löschen. Entwickler und Unternehmen, die KI-Assistenten in eigene Anwendungen integrieren, sollten prüfen, ob Schutzmaßnahmen gegen Prompt Injection aktiv sind und Eingaben aus externen Quellen gefiltert werden.
Auch OpenAI selbst arbeitet an der Verbesserung seiner Sicherheitsmechanismen. Dazu hat es etwa 2023 ein Bug-Bounty Program eingeführt, mit dem Hinweise auf Sicherheitslücken und -probleme belohnt werden. Im Frühjahr 2025 wurde dieses Programm deutlich erweitert und attraktiver gemacht.
Fazit
Die Tenable-Studie »HackedGPT« ist kein Anlass zur Panik bei der KI-Nutzung, sie liefert aber einen wichtigen Denkanstoß: Große Sprachmodelle sind mächtige Werkzeuge –sie reagieren jedoch auf Sprache, nicht auf Intentionen. Wer KI-Systeme in unternehmerische Prozesse integriert, sollte sie daher wie jedes andere vernetzte System behandeln: mit regelmäßigen Tests, klarer Zugriffskontrolle und einem Bewusstsein dafür, dass auch KI auf Manipulation hereinfällt.
Anregungen zur möglichst sicheren KI-.Nutzung in Firmen geben auch das »AI Risk Management Framework« des US-amerikanischen NIST oder der Leitfaden »Sicherer, robuster und nachvollziehbarer Einsatz von KI« des Bundesamtes für Sicherheit in der Informationstechnik (BSI)
Weitere Artikel
Avision: Vom Underdog zum Top-Anbieter im ScannermarktAdvertorial
Während Scanner-Giganten den Markt verlassen, steigt Avision in die Führungsriege auf. Wie der taiwanesische Spezialist mit Agilität statt Größe punktet – und warum gerade jetzt der richtige Zeitpunkt für fokussierte Player ist.
Nachhaltige Tintenstrahl- und Lasergeräte von Brother
Sechs Multifunktionsgeräte und drei Monolaserdrucker von Brother sind für das untere Marktsegment bereits im Handel. Alle Geräte lassen sich per App verwalten und über den Abonnementservice von Brother mit Tinte und Toner versorgen.



