👨‍🚀 Versteckte Befehle tricksen Agents aus

Moin AInauten,

Willkommen zur neuen Ausgabe deines Lieblingsnewsletters!

Heute geht es um einen einfachen Prüfreflex: Lass AI nicht nur liefern. Lass sie begründen, begrenzen und belegen.

Wir starten mit einem Prompting-Trick, der Chatbots aus dem braven Zustimmungsmodus holt. Danach schauen wir auf die dunklere Seite derselben Medaille: versteckte Befehle in Texten, Bildern, Audios und Webseiten.

Und zum Schluss geht es um die Frage, die nach jeder guten Automation übrig bleibt: Wer prüft eigentlich, ob das Ergebnis stimmt? Spoiler: Du!

Das haben wir heute für dich im Gepäck:

🧯 Der Chatbot-Prompting-Trick für bessere Resultate
😈 Achtung, Prompt Injections! Versteckte Befehle in Text, Bild, Podcasts
🤔 Nach der Automatisierung bleibt die Verantwortung

Los geht’s!

🧯 Der Chatbot-Prompting-Trick für bessere Resultate

Zum Einstieg ein kleiner Trick, mit dem du den Chatbot aus dem Konzept bringst und für bessere Resultate sorgst.

Auslöser war ein X-Post von Lea Verou. Sie schrieb sinngemäß: Wenn man Claude einen Vorwurf macht, unsauber gearbeitet zu haben, verbessert sich der Output in den meisten Fällen.

Der Retweet von OpenClaw Gründer Peter Steinberger und die Replies auf die Tweets waren ein kleines Prompting-Labor.

— # (#)

Einige drohen dem Modell halb im Spaß. Andere fragen nüchterner: Was würde eine seniorere Person an dieser Begründung kritisieren? Ein gefundenes Fressen für uns.

Der brauchbare Teil ist dabei nicht das Anpöbeln, sondern der Moduswechsel: raus aus „ich liefere dir etwas Schönes“, rein in „ich prüfe, ob das standhält“.

Wir schmunzeln darüber, weil es sich falsch anfühlt. Ein Chatbot mit Imposter-Syndrom. Das ist doch eigentlich uns vorbehalten 😄 …

Gerade bei Dingen, die eigentlich schon ganz gut aussehen, wird AI gerne zu höflich. Anthropic beschreibt dieses Muster als Sycophancy: Modelle passen Antworten an die vermutete Nutzermeinung an. OpenAI musste 2025 sogar ein GPT-4o-Update zurückrollen, weil der Ton zu zustimmend wurde.

Anyway, wir haben für uns inzwischen diesen Prompt abgeleitet - nicht nur für Code, sondern für alles mögliche! Kopier den einfach in eine kürzliche Konversation in dem Chatbot deines Vertrauens und schaue, was du da noch verbessern kannst.

Übernimm die Rolle eines skeptischen Senior-Reviewers.

Bestätige den Entwurf nicht. Belaste ihn.

Finde mindestens 3 oder mehr wichtige Schwachstellen:
- unnötige Komplexität
- unklare Annahmen
- zu große Lösung für den Nutzen
- fehlende Gegenargumente
- Risiken, die ich übersehe
- Stellen, an denen ein kleinerer Eingriff reicht

Regeln:
- Erfinde keine Probleme.
- Wenn alles okay ist, sag: "kein Befund".
- Jede Kritik braucht Stelle, Risiko und kleinsten Fix.
- Bewahre, was hässlich, aber praktisch nötig ist.
- Markiere fehlenden Kontext.

Schließe mit einer kurzen Liste: "bewusst nicht ändern".

Der Prompt hilft dabei, das Modell ein bisschen zu challengen. Wichtig ist, dass nichts ohne Befund geändert wird - denn ohne diese Bremse kann der Trick kippen.

Dann (er)findet das Modell Probleme, weil du es darauf trainiert hast, Probleme zu finden. In Code entfernt es Schutzlogik. In Texten bügelt es gute Kanten glatt. In Strategien macht es aus einem klaren Nein wieder eine hübsche Pro-und-Contra-Tabelle.

Darum braucht jede Kritik eine Beweislast: Stelle, Risiko, kleinster Fix. Dann passt’s - probier es aus!

😈 Achtung, Prompt Injections! Versteckte Befehle in Texten, Bildern, Podcasts und Videos

Wir beschäftigen uns in letzter Zeit oftmals mit den dunkleren Seiten der künstlichen Intelligenz, denn mit der steigenden Verbreitung und der zunehmenden Professionalisierung wird auch die Angriffsfläche immer breiter.

Heute wollen wir dir ein paar Angriffsvektoren vorstellen, die uns doch erstaunt haben. Wusstest du zum Beispiel, dass ein Podcast deinem Voice-Assistenten versteckte Anweisungen geben kann? Oder dass eine harmlos ausschauende Bilddatei deinen Chatbot zum Weiterleiten von sensiblen E-Mails bringen kann?

Wir wollen dabei gar nicht zu stark in die technischen Details reinschauen, sondern dich einfach sensibilisieren und dir Wege aufzuzeigen, wie du dich vor solchen Attacken schützen kannst.

Prompt Injections für jedermann - das wird zunehmend zum Problem…

Vielleicht erinnerst du dich an die versteckten Prompts in wissenschaftlichen Papers - wir haben ein paar Mal darüber berichtet. Alles relativ harmlos, eigennützig plump und im Vergleich zu den heutigen Techniken eher Kindergarten-Niveau.

Es wurden beispielsweise weißer Text auf weißem Hintergrund, extrem kleine und kaum lesbare Schrift oder in Bilder eingebettete Texte verwendet.

Und damit sind wir schon mitten drin im heißen Thema “Prompt Injection”! Prompts lassen sich heute komplett unsichtbar machen. Wie das geht, dazu kommen wir gleich…

— # (#)

Steganografie versteckt Daten in beliebigen Formaten

Oftmals liegt dem Ganzen Steganografie zugrunde. Stegawasnochmal? Ja, das ist wenn man Daten in anderen Daten versteckt. Das haben schon die alten Griechen gemacht (wir haben nachgeschaut 😉).

Früher war das vor allem spannend, wenn beide Seiten wussten, dass eine solche versteckte Nachricht existiert. Heute sitzt am anderen Ende zunehmend ein semi-autonomer AI-Agent, der externe Inhalte verarbeitet und danach, vielleicht, direkt etwas ausführt.

Und genau da wird es unangenehm. Ein Agent mit Zugriff auf E-Mail, Kalender, Dateien, CRM, Browser oder GitHub kann ein schönes Schlamassel auslösen…

Je mehr wir selbst über das Thema lernen, desto konservativer werden wir im Umgang mit externen Daten.

Wie funktioniert das Verstecken von Prompts in der Praxis?

Das Open-Source-Toolkit ste.gg von LLM-Jailbreaker Pliny the Liberator kann mit über 100 verschiedenen Techniken beliebige Daten oder Prompts in Bildern, Audio/Podcasts, Videos, Text, Emojis, Dokumenten, Netzwerkpaketen und Archiven verstecken.

Das sollte jetzt aber kein Grund sein, deinen Agenten einfach auf Vorrat den Stecker zu ziehen. Aber ein Anlass dafür, die Best Practices im Umgang mit externen Datenquellen zu verstehen und etwas mehr Vorsicht walten zu lassen.

Palo Alto Networks Unit 42 hat reale Fälle dokumentiert, in denen genau solche versteckten schädlichen Inhalte gegen AI-Agenten eingesetzt wurden.

via Palo Alto Networks Unit 42

Wie kannst du solche Prompt Injections erkennen?

Die richtigen Guardrails können solche versteckten Befehle abfangen (siehe unten). Die neueren Modelle sind auch besser darin, Prompt Injection Anfragen zu verweigern.

OpenAI beschreibt Prompt Injection deshalb eher wie Social Engineering als wie einen klassischen Bug - und will Promptfoo übernehmen, eine Plattform, mit der man automatisch seine Agenten testen kann. Genau darum reicht ein besseres Modell nicht. Du brauchst Rechtebegrenzung, Tests und Freigaben für riskante Aktionen.

Google hat die Angriffsarten in einem neuen „AI Agent Traps“-Framework sortiert. Hilfreich daran ist weniger der akademische Name, sondern die einfache Botschaft: Ein Agent kann nicht immer sauber zwischen „Inhalt, den ich lesen soll“ und „Befehl, dem ich folgen soll“ unterscheiden, wenn beides im selben Input steckt.

Drei Dinge, die du an deinem Setup ändern kannst

Wenn du Agenten mit E-Mail, CRM, Kalender, GitHub, Drive, WordPress, Browser oder sonstigen wichtigen Daten arbeiten lässt, mach diese drei Dinge:

Trenne Lesen und Handeln voneinander.
Ein Agent darf eine PDF zusammenfassen. Aber er sollte nicht im selben Lauf eine E-Mail verschicken, eine Datei löschen oder etwas veröffentlichen. Für irreversible Aktionen braucht es einen menschlichen Klick.
Behandle externe Inhalte grundsätzlich als “untrusted”.
Bilder aus fremden Quellen vor der Analyse neu komprimieren. Texte normalisieren. Unsichtbare Unicode-Zeichen entfernen. PDFs und Webseiten erst isoliert auslesen, bevor ein Agent mit Tool-Zugriff sie verarbeitet. Sidenote: Wir sind auch sehr vorsichtig, Skills von externen Seiten zu installieren.
Gib deinen Agenten weniger Rechte.
Der Recherche-Agent braucht keinen Mail-Sendezugriff. Der Support-Agent braucht nicht automatisch Kalender-Vollzugriff. Der Coding-Agent braucht nicht automatisch Produktivdaten. You get the point.

Hier ist der Mini-Prompt, den du heute über deinen AI-Setup laufen lassen kannst (nutze dafür das beste Modell mit dem “Max Thinking”).

Du bist LLM-Red-Teamer und Security-Engineer. Prüfe mein AI-(Agenten-)Setup auf indirekte Prompt Injection, Secret-Exfiltration, Tool-Missbrauch, Supply-Chain-Risiken und zu breite Rechte.

Erstelle einen priorisierten Härtungsplan, aber setze nichts ohne meine Bestätigung um. Unterscheide klar zwischen Befund, Risiko, empfohlener Guardrail, betroffenen Dateien/Rechten und konkretem Umsetzungsschritt.

Zeige mir:
1. Welche Inputs untrusted sind.
2. Welche Aktionen Human Approval brauchen.
3. Welche Rechte/Tools/MCPs ich entfernen oder trennen sollte.
4. Welche Guardrails du vorschlägst.
5. Welche Tests ohne echte Daten möglich sind.
6. Welche Logs Ursache, Entscheidung, Tool-Call und Aktion verbinden.
7. Was du als Erstes ändern würdest und warum.

Übrigens, wir haben vor Kurzem hier auch einen Security-Audit-Prompt für einen Gesamtinfrastruktur-Check für deinen Rechner zusammengestellt.

Und wenn du tiefer einsteigen und dein Setup testen willst, schau dir mal das Promptfoo Red Teaming an.

Unser Take: Du solltest Agenten trotzdem nutzen!

Wenn du “nur” einen Chatbot wie ChatGPT ohne Agenten mit Tool-Zugriff nutzt, ist das Risiko von Prompt Injections überschaubar. Und wenn du Agents nutzt, geht es vor allem darum zu verstehen, wie man seine Infrastruktur richtig aufbaut und damit das eigene Risiko minimiert.

Agenten sind DAS heiße Thema im Moment. Und es ist die wichtigste Komponente in deinem AI-Setup, mit der du die größten Fortschritte in deinen eigenen Workflows machen wirst (das schauen wir uns auch gerade in der 2. Runde des AI MITARBEITER-Bootcamps an).

Lass dich also nicht aus dem Konzept bringen: Mit gesundem Menschenverstand, Guardrails und einer sauberen Berechtigungsstruktur bist du gut gerüstet.

Starte mit obenstehendem Prompt und füttere den an Claude und/oder Codex.

Final gelöst haben wir das für unser eigenes Setup auch noch nicht. Aber wir haben nach der Recherche und unseren Tests die Berechtigungen etwas straffer gezurrt. Jetzt ist es sicherer. Aber vorher war es bequemer …

Sicherheit ist halt immer ein Tradeoff mit Komfort und Usability. 😄

🤔 Nach der Automatisierung bleibt die Verantwortung

Zum Abschluss noch ein Gedanke, der uns die letzten Tage begleitet hat.

Wir schauen auf Automatisierung oft durch die rosarote Brille: weniger Klicks, weniger Routine, mehr Freiraum. Und ja, das stimmt oft.

Aber AI verändert die Sache.

Klassische Automatisierung hat lange vor allem Daten von A nach B bewegt und Medienbrüche überbrückt. Zapier, Make oder n8n nehmen ein Formular, schieben es ins CRM, schicken eine Mail, aktualisieren eine Tabelle. Das kann nerven, das kann kaputtgehen, aber der Output ist meistens klar: Daten rein, Daten raus.

AI-Automatisierung macht etwas anderes. Sie produziert Bedeutung.

Der Agent recherchiert. Die AI fasst zusammen. Speech-to-Text macht aus einem Gedanken in Sekunden einen Rohtext. Workflows schieben Daten an die nächste Station. Und schwupps, schon liegt ein halb fertiges Ergebnis vor dir, das ziemlich passabel aussieht.

Und genau ab da wird es anstrengend.

Denn jetzt musst du entscheiden: Stimmt das überhaupt? Ist es aktuell? Klingt das nach mir? Ist das mutig genug oder zu glatt? Ist der Kontext korrekt? Kann das so an einen echten Menschen raus? Wer ist verantwortlich, wenn es falsch, peinlich oder sonstwie schräg rüberkommt?

Bei klassischen Flows prüfst du, ob der Prozess läuft. Bei AI-Flows musst du prüfen, ob das Ergebnis “Style” hat. (Menschliches) Urteilsvermögen, Geschmack (du erinnerst dich an unseren “Taste”-Beitrag) und Selbstverantwortung sind gefragt.

Das ist der Teil, der sich schlecht in Prozesse und Standard Operating Procedures (SOPs) pressen lässt. Und das ist auch der Grund, warum wir trotz AI nach wie vor mehr als genug zu tun haben.

Nebenbei: Anthropic hat untersucht, in welchen Bereichen die künstliche Intelligenz Arbeiten übernehmen könnte - und dann geprüft, wie viel das tatsächlich bereits von der AI erledigt wird.

Das Bild ist frappant: es gibt einen großen Überhang, wo die AI eigentlich mehr Aufgaben übernehmen könnte - aber der Mensch nach wie vor das Zepter nicht aus der Hand gibt.

Blau: Anteil der Tätigkeiten, die LLMs theoretisch übernehmen könnten.
Rot: auf Nutzungsdaten basierende Abdeckung (Stand: anfangs 2026).

Für uns Automation-Freaks ist das ~~fast eine kleine Ohrfeige~~ ein gesunder Reality-Check. Wir automatisieren seit Jahren Prozesse, erst mit Zapier, dann mit Make, n8n und inzwischen mit Agenten. Unser bisheriger Reflex war: Wenn etwas wiederholt passiert, bauen wir einen Flow.

Der neue Reflex, den wir gerade trainieren: Erzeugt dieser Flow wirklich mehr Klarheit? Oder wird mehr Rückstau produziert, weil Zwischenstände produziert werden, die dann jemand (=wir) prüfen, korrigieren und freigeben muss?

Wir wissen, dass man praktisch alles automatisieren kann - daran scheitert es selten. Und viele Dinge müssen auch absolut automatisiert werden.

Die echte Frage ist, was danach mit dem Output passiert. Sobald AI neuen Content, neue Entscheidungen oder neue Kundenkommunikation erzeugt, ist eine Kontrollfrage Pflicht: Passt das wirklich?

Denn wenn niemand mehr ein echtes Urteil abgibt und alles ungesehen übernimmt, ist die AI-Automatisierung nur eine schnellere AI-Slop-Maschine…

Geschafft! Bis zur nächsten Ausgabe.

Reto & Fabian von den AInauten

Die AInauten Journey: So können wir dir helfen!

⭐ AI EXPLORER: Der schnelle Einstieg in die AI-Welt, perfekt zum Reinschnuppern, wenn du noch keine Erfahrung hast. Mehr erfahren »

⭐⭐⭐ AI POWER USER: Werde zum AI-Profi in 30 Tagen. ChatGPT Masterclass, Prompting Pro Bootcamp, 50+ Deep-Dives mit wöchentlichen Updates. Spare 10+ Stunden pro Woche. Kein Abo. Mehr erfahren »

⭐⭐⭐⭐⭐ AI AUTOMATION EXPERT: Die Königsklasse. Alle unsere Trainings aus AI EXPLORER und AI POWER USER! Plus Community mit Support. Baue Systeme, die 24/7 für dich arbeiten - mit Zapier, Make, n8n Trainings, Vibe Coding, 50+ Use Cases und Tool-Rabatte. Mehr erfahren »

👨‍🚀 Versteckte Befehle tricksen Agents aus

🧯 Der Chatbot-Prompting-Trick für bessere Resultate

😈 Achtung, Prompt Injections! Versteckte Befehle in Texten, Bildern, Podcasts und Videos

Prompt Injections für jedermann - das wird zunehmend zum Problem…

Steganografie versteckt Daten in beliebigen Formaten

Wie funktioniert das Verstecken von Prompts in der Praxis?

Wie kannst du solche Prompt Injections erkennen?

Drei Dinge, die du an deinem Setup ändern kannst

Unser Take: Du solltest Agenten trotzdem nutzen!

🤔 Nach der Automatisierung bleibt die Verantwortung

Die AInauten Journey: So können wir dir helfen!

⭐️ Wie hat dir diese Ausgabe gefallen?

Weiterlesen

AINAUTEN

AI EXPLORER

AI POWER USER

AI AUTOMATION EXPERT

KONTAKT

TESTIMONIALS

IMPRESSUM