Als ich 2020 anfing, autonome Cyber-Agenten zu entwickeln, ging man noch davon aus, dass deren Einsatz in der Praxis erst in Jahrzehnten zu erwarten sei. Damals galten diese Systeme als Langzeitwetten – interessante Projekte, aber in erster Linie Nischenverbesserungen für noch nicht realisierte Anwendungen.
Doch dann kam alles anders.
Zwar begann die Nutzung von generativer AI (GenAI) nicht mit einem singulären Ereignis, aber ihre bloße Existenz löste eine Folge von Fortschritten aus, die bis heute dazu führen, dass die Entwicklungszeiten immer kürzer werden. Das geht weit darüber hinaus, dass sich die Spielregeln ändern. Vielmehr sprengt die von GenAI getriebene Welle unerbittlich die bestehende Ordnung und definiert die Grenzen des Möglichen neu, und zwar schneller als wir es je zuvor erlebt haben. Funktionen, die einst der Langzeitforschung vorbehalten waren, werden nun mit erstaunlicher Geschwindigkeit in Live-Umgebungen integriert.
Es ist erstaunlich, aber nicht überraschend, dass agentengestützte Systeme an zahllosen Stellen eingesetzt werden – in Unternehmensabläufen, Entscheidungsfindungsprozessen und sogar in kritischen Infrastrukturen. Allerdings geschieht dies oft, bevor wir wissen, wie wir sie steuern oder sichern können. Das Jahr 2020 scheint eine Ewigkeit her zu sein, wenn man bedenkt, dass wir uns nicht mehr auf die Ankunft der agentengestützten AI vorbereiten, sondern auf ihre kontinuierliche und schnelle Entwicklung reagieren.
Ein Bericht über ein bewegliches Ziel
Der von mir mitverfasste Workshop-Bericht Achieving a Secure AI Agent Ecosystem (Wie wir ein sicheres Ökosystem für AI-Agenten aufbauen) ist das Ergebnis eines organisationsübergreifenden Versuchs, diese Beschleunigung zu verstehen. Diese Publikation, die in Zusammenarbeit mit RAND, Schmidt Sciences und führenden Köpfen im Bereich der agentengestützten AI aus Industrie, Wissenschaft und Regierung entwickelt wurde, bietet keine Patentrezepte, sondern vielmehr einen alternativen Ansatz, um über agentengestützte AI nachzudenken und sie anzugehen.
Im Kern werden darin drei grundlegende Sicherheitspfeiler für AI-Agenten erläutert und es wird aufgezeigt, wo unsere derzeitigen Annahmen – und unsere Infrastruktur – bei der Weiterentwicklung dieser Systeme ins Wanken geraten könnten. Dabei wird nicht nur für die Anerkennung der aktuellen Realitäten plädiert, sondern auch für einen tiefgreifenden Bewusstseinswandel: Wir müssen akzeptieren, dass das Zeitalter der agentenbasierten Systeme bereits begonnen hat. Die Sicherung solcher Systeme ist daher nicht länger ein Problem für die Zukunft. Sie ist bereits heute eine dringende Herausforderung, die durch das unerbittliche Innovationstempo, den wachsenden Umfang, die ungleichmäßigen Risiken für frühe Anwender und den starken Kontrast zwischen Angriffsmöglichkeiten und Verteidigungszielen noch verstärkt wird.
Erschwert wird die Sicherung von AI-Agenten zum Beispiel dadurch, dass diese Systeme nicht wie herkömmliche Software aussehen oder funktionieren. Sie sind dynamisch, entwickeln sich ständig weiter und sind zunehmend in der Lage, Entscheidungen mit einem Minimum an Kontrolle zu treffen. Einige AI-Agenten sind speziell für die Automatisierung von Aufgaben wie die Terminplanung oder das Vorsortieren von E-Mails konzipiert, andere sind nicht mehr weit davon entfernt, völlig autonom zu handeln – und das in Umgebungen, in denen viel auf dem Spiel steht. Unabhängig vom Anwendungsfall reichen die Modelle, die wir zur Sicherung herkömmlicher Anwendungen verwenden, nicht mehr aus. Wir stoßen auf Probleme, die nicht nur Variationen bekannter Schwachstellen, sondern von Grund auf neu sind. Die Angriffsfläche hat sich verändert.
Drei Grundpfeiler für sichere AI-Agenten
Die neue Denkweise gibt den Anstoß, die Sicherheitslandschaft um drei zentrale Anliegen herum zu entwickeln:
- Schutz von AI-Agenten vor Kompromittierung durch Dritte: Wie können die AI-Agenten davor geschützt werden, von externen Angreifern übernommen oder manipuliert zu werden?
- Schutz von Benutzern und Organisationen vor den Agenten selbst: Wie kann sichergestellt werden, dass die AI-Agenten – unabhängig davon, ob sie bestimmungsgemäß funktionieren oder eine Fehlfunktion aufweisen – den Benutzern und Organisationen, denen sie dienen, keinen Schaden zufügen?
- Schutz kritischer Systeme vor schädlichen Agenten: Wie lassen sich wichtige Infrastrukturen und Systeme vor AI-Agenten schützen, die mit der Absicht entwickelt und eingesetzt werden, Schaden anzurichten?
Hierbei handelt es sich nicht um statische Kategorien, sondern um Wegpunkte entlang eines Spektrums von Funktionen und wachsender Cyber-Sicherheitsreife. Die meisten Unternehmen, die Agenten nutzen, haben bereits passende Sicherheitsmaßnahmen eingeführt, um die ersten beiden Probleme zu bewältigen. Doch der dritte Punkt – böswillige, autonome Gegner – ist eine extrem ernst zu nehmende Gefahr, die viel Ungewissheit mit sich bringt. Staatliche Akteure gehörten zu den Ersten, die in autonome Cyber-Agenten investierten1. Doch aller Wahrscheinlichkeit nach werden andere Cyber-Kriminelle bald folgen.
Sich in diesem Umfeld gefährlicher und weit verbreiteter autonomer Bedrohungen zurechtzufinden, erfordert daher weit mehr als nur eine schrittweise Verbesserung der vorhandenen Abwehrmaßnahmen. Wir müssen einen grundlegenden Wandel in der Art und Weise herbeiführen, wie unsere Fachkreise im Bereich der Sicherheit zusammenarbeiten und Innovationen entwickeln.
Früher arbeiteten AI-Forscher und Cyber-Sicherheitsexperten oft parallel nebeneinanderher und stellten unterschiedliche Annahmen in Bezug auf die Risiken und Architekturen auf. Das komplexe Gebiet der agentengestützten AI-Sicherheit erfordert jedoch gemeinsame Anstrengungen, da keine der beiden Gruppen diese immensen Herausforderungen isoliert angehen kann. Eine intensive und nachhaltige Zusammenarbeit ist unerlässlich. Es stimmt, dass universelle Protokolle und umfassende Best Practices für den gesamten Bereich noch im Entstehen begriffen sind. Doch die Vorstellung, dass es nur sehr wenige effektive schlüsselfertige Produkte für die Sicherung von Agenten gibt, ist nicht mehr zutreffend. Auf dem Markt sind hochmoderne, einsatzbereite Lösungen verfügbar, die wichtige und spezialisierte Schutzfunktionen für agentengestützte Systeme bieten. Fortschritt ist also spürbar. Unbestreitbar ist, dass Unternehmen dringend anpassungsfähige, mehrschichtige Sicherheitsstrategien benötigen, die Nachweise zur Modellherkunft, robuste Eindämmungsmaßnahmen und belastbare Kontrollmechanismen mit menschlicher Beteiligung umfassen und sich ebenso schnell weiterentwickeln wie die Agenten selbst.
Meilensteine in greifbarer Nähe
Robuste und anpassungsfähige Produktlösungen spielen eine immer größere Rolle dabei, die unmittelbaren betrieblichen Risiken zu reduzieren, die der Einsatz von AI-Agenten mit sich bringt. Gleichzeitig erfordert umfassende, dauerhafte Sicherheit auch gezielte branchenweite Investitionen in grundlegende Fähigkeiten und ein gemeinsames Verständnis. Viele dieser die Produktinnovation ergänzenden Ziele befinden sich bereits in Reichweite und rechtfertigen konkrete Anstrengungen.
So ist beispielsweise eine Art „Agentenstückliste“ nach dem Vorbild der „Softwarestückliste“ in Arbeit, die Einblick in die Komponenten eines Agenten bietet, darunter Modelle, Trainingsdaten, Tools und Speicher. In der Praxis steht eine solche Liste jedoch derzeit noch vor bestimmten Hürden – unter anderem fehlt ein gemeinsames System für Modellkennungen, das entscheidend ist, um die gewünschte Transparenz zu ermöglichen.
Darüber hinaus könnten standardisierte Testumgebungen skalierbare, szenariobasierte Bewertungen ermöglichen, bevor Agenten in Produktionsumgebungen eingesetzt werden. Außerdem sind Kommunikationsprotokolle wie MCP (Model Context Protocol) und A2A (Agent-to-Agent) im Kommen, wobei nur in wenige von Anfang an Sicherheitsfunktionen integriert sind. Doch selbst wenn die Sicherheit von Beginn an berücksichtigt wird, machen es die vielen „unbekannten Unbekannten“ in diesen neuartigen agentenbasierten Systemen erforderlich, dass diese Protokolle strengen und kontinuierlichen Bewertungen unterzogen werden, um ihre Integrität und Sicherheit zu gewährleisten.
Ein Ansatz, auf den wir in unserem Bericht näher eingehen, bezieht sich auf folgende Herausforderung: Zwar ist der Speicher eines Agenten wie jede Art von Gedächtnis wichtig, um zu lernen, sich selbst zu optimieren und das Wiederholen von Fehlern zu vermeiden, aber gleichzeitig stellt er auch eine kritische Schwachstelle dar, die gezielt für böswillige Manipulationen ausgenutzt werden kann. Eine sinnvolle Strategie beinhaltet die Verwendung von „Clone-on-Launch“- oder aufgabenspezifischen Agenteninstanzen. Bei diesem Modell behandeln Agenten, die für bestimmte betriebliche Aufgaben oder zeitlich begrenzte Interaktionen konzipiert sind, ihren aktiven Arbeitsspeicher als flüchtig. Sobald ihre spezifische Aufgabe oder Sitzung abgeschlossen ist, können diese Instanzen deaktiviert werden. Neue Vorgänge werden dann von neuen Instanzen abgewickelt, die von einer sicheren, vertrauenswürdigen Baseline aus initialisiert werden.
Damit soll das Risiko einer Beschädigung des persistenten Speichers und der langfristigen Auswirkungen aufgrund der Kompromittierung einer bestimmten Sitzung erheblich verringert werden. Ein solches System muss jedoch sorgfältig konzipiert sein, um sicherzustellen, dass das grundlegende Wissen eines Agenten und die langfristig gelernten Erkenntnisse nicht nur sicher aufbewahrt werden und gegen Manipulationen geschützt werden, sondern auch effektiv und sicher zugänglich sind, um Daten für diese eher flüchtigen Instanzen zugänglich zu machen. Ein derartiges Management von Betriebszuständen stellt zwar keine umfassende Lösung für alle speicherbezogenen Bedrohungen dar, ist aber ein gutes Beispiel für die Art von kreativem Denken auf Systemebene, das für die Verbesserung der Agentensicherheit und eine zuverlässige Eindämmung von Gefahren erforderlich ist.
Ein Aufruf zu gemeinsamem Engagement
Letztendlich wird die Sicherung der agentengestützten AI nicht durch einen einzelnen Durchbruch erzielt, sondern durch die nachhaltigen Anstrengungen vieler Beteiligter. Dazu gehören Forscher, Gestalter von Richtlinien, Fachkräfte und Branchenführer, die fachübergreifend zusammenarbeiten. Die Bedrohungen sind sowohl technologischer als auch grundlegender Natur und wir versuchen, Systeme zu sichern, die wir noch nicht vollständig verstehen. Aber wenn die letzten Jahre eines deutlich gemacht haben, dann dies: Wenn wir warten, bis wir einen vollständigen Überblick haben, handeln wir zu spät.
Das Erfolgstempo der agentengestützten AI bedeutet, dass unsere Branche wichtige Schutzmaßnahmen erarbeitet, während die Technologie bereits umfassend genutzt wird. Diese gleichzeitige Entwicklung ist keine Krise per se, sondern ein klarer Aufruf zu kollektiver Verantwortung. Unser Erfolg bei diesem Unterfangen hängt davon ab, dass sich die Branche verpflichtet, diese grundlegenden Elemente mit Transparenz, strikten Standards und einer einheitlichen Vision für ein vertrauenswürdiges AI-Ökosystem aufzubauen.
Lesen Sie den vollständigen Bericht: Achieving a Secure AI Agent Ecosystem.
1Autonomous Cyber Defence Phase II, Centre for Emerging Technology and Security, 3. Mai 2024.