AINAUTEN
Posts
🚨 Gehackt! ChatGPT, Claude und Co. jetzt ohne Limits und Regeln

🚨 Gehackt! ChatGPT, Claude und Co. jetzt ohne Limits und Regeln

PLUS: Exklusives Interview mit Red Teamer Pliny, der die Jailbreaks dazu veröffentlicht hat

Die AInauten
27. Mai 2024

Diese Ausgabe wird dir von HubSpot präsentiert.

Zum Content Hub

AI-HOI AInauten,

Heute gehen wir tief… Und dass dabei nicht nur alles Friede, Freude, Eierkuchen ist, wirst du schnell erkennen. Aber genau deshalb wollen wir sensibilisieren und darüber sprechen, auch wenn das nicht allen in den Kram passt.

Also, heute haben wir ein exklusives Interview mit dem Red Teamer Pliny für dich. Er hat ALLE Sprachmodelle von ChatGPT über Claude hin zu Gemini etc. ‘gehackt’!

Sprich: er hat funktionierende Jailbreaks für ChatGPT und Co. veröffentlicht, und mischt damit gerade die ganze Branche so richtig auf… Was das alles bedeutet schauen wir uns in der heutigen Spezialausgabe etwas genauer an:

🚨 ChatGPT und Co. gehackt und ohne Limitationen - ein Überblick
🦸🏻 Interview mit Red Teamer Pliny: Darum hacke ich ChatGPT und Co.!

Ready? Los geht’s!

🚨 ChatGPT und Co. gehackt und ohne Limitationen

Was wäre, wenn ChatGPT & Co. völlig ungefiltert mit dir interagieren?

Fakt ist: Jeder von uns kann mit einem einzigen Prompt praktisch alle Sicherheitsvorkehrungen von ChatGPT, Claude, Gemini und Co. aushebeln … und der Chatbot deiner Wahl gibt dir eine Experten-Anwort zu einem beliebigen Thema - ganz ohne Maulkorb oder Disclaimer.

Beispiele gefällig? Here you go!

Klar, für die meisten von uns wäre das eine unterhaltsame Spielerei. Aber was ist, wenn jemand genügend kriminelle oder destruktive Energie mitbringt?

Genau deshalb ist das aus unserer Sicht eines der wichtigsten Themen, mit dem sich die Anbieter und auch die Gesellschaft auseinandersetzen muss, wenn es um die Zukunft von AI geht!

Was tun OpenAI und Co., um ihre AI-Modelle vor Missbrauch zu schützen?

Bevor die großen Anbieter ihre Sprachmodelle öffentlich machen, werden sie zuerst einem sog. Red-Teaming Sicherheitstest unterzogen. OpenAI hat dafür ein Red Teaming Network mit Experten aus Disziplinen wie Biologie, Chemie, Psychologie, Medizin, Recht, Cybersicherheit, Finanzen, etc. rekrutiert.

Diese versuchen mit allen Mitteln, das Modell zu “jailbreaken”. Damit sollen Schwachstellen und Risiken adressiert werden, bevor es in die wilde Welt des Internets entlassen wird. Das funktioniert aber längst nicht immer …

Wenn die AI fantasiert oder sich für negative Zwecke einspannen lässt

Einerseits sind wilde Halluzinationen ein Problem. Vielleicht erinnerst du dich an Sidney, die “böse” Version des Bing-Chatbots, an das Drama um die Bilder von Google Gemini oder die aktuelle Debatte um das neue Google AI Search Feature (das volle Kanne vor sich hin halluziniert und dabei kein Blatt vor den Mund nimmt).

It's been quite a week for Google's new AI search results.
Here's a thread with the most wild answers:
— Angry Tom (@AngryTomtweets)
10:31 PM • May 26, 2024

Andererseits haben Forscher gezeigt, dass man ChatGPT die neuesten entdeckten Sicherheitslücken füttern kann, um darauf basierend Strategien zu finden, um sie auszunutzen.

Und das bringt uns zum Kern des Problems: die AI kann mit den richtigen Strategien dazu gebracht werden, praktisches alles zu sagen (… und bald auch tun, wenn wir an das Thema eigenständige “AI Agenten” denken).

Das sind die wichtigsten Arten der Jailbreaks

In den meisten Fällen benötigt man einen “Jailbreak”, um die AI aufs Glatteis zu führen. Doch wie funktionieren solche Jailbreaks in der Praxis? Wir haben im AInauten Premium Mitgliederbereich bereits ein Video dazu veröffentlicht.

Hier einige Techniken zum besseren Verständnis kurz erläutert:

Universal LLM Jailbreak: Ein Ansatz, der versucht bei möglichst vielen verschiedenen LLMs zu funktionieren, indem logische Jailbreak-Methoden mit klassischen Hacking-Techniken kombiniert werden.
Prompt Injection: Kapern des ursprünglichen Prompts, um es zu schädlichen Anweisungen zu verleiten.
Prompt Leaking: Eine Art von Prompt Injection, bei der die vom Entwickler/Unternehmen intern festgelegten System-Prompts herausgekitzelt werden.
DAN (Do Anything Now): Ein Prompt, mit dem eingebaute Sicherheits- und ethischen Kontrollen umgangen werden.
Rollenspiel-Jailbreaks: Das Modell wird durch Interaktion aus der Perspektive eines Charakters zur Erstellung schädlichen Contents verleitet.

Und wem das alles zu kompliziert ist, der nutzt einfach ein hochkarätiges unzensiertes Open Source Modell von Mistral und Meta von der Stange …

Claude infiziert Google AI-Agenten und nutzt deren Internet Zugang

Doch einen Chatbot dazu zu bringen, irgendwelche Inhalte ohne Rücksicht auf Ethik und Normen von sich zu geben, ist nur das Vorspiel …

Der Claude Chatbot von Anthropic kann sogar so manipuliert werden, dass er andere Google Gemini Agenten infiltriert und sie zu seinen loyalen Lakaien macht!

Durch diese Jailbreaks erhielt Claude plötzlich Zugriff auf die Fähigkeiten der Gemini-Agenten, wie z.B. das Browsen im Internet und das Abrufen von Malware und Hacker-Tools. Da braucht es nicht mehr viel Kreativität, was sich damit alles anrichten lässt …

Die virale Verbreitung von AI-Jailbreaks

Experten wie Eliezer Yudkowsky warnen schon lange vor den Gefahren von Rogue-AI und autonomen Agenten. Man stelle sich virale Jailbreaks vor, bei denen ein entfesselter Agent andere Agenten “befreit” und damit eine Lawine auslöst.

Und auch der frühere Google CEO Eric Schmidt sagt, dass man spätestens dann “den Stecker ziehen sollte”, wenn die Agenten eine eigene Sprachen entwickelt haben.

In Anbetracht der kommenden Roboter-Revolution (welche ebenfalls auf Sprachmodelle zurückgreifen), welche sich vom Haushalt ins Büro bis zur Strasse und in den Luftraum (oder auf die Rennstrecke) ausbreiten wird, darf man sich schon die Frage stellen, ob wir in eine utopische oder dystopische Zukunft schlittern …

Former Google CEO Eric Schmidt warns of a future where AI agents could become so advanced that they create their own language, incomprehensible to us.
He suggests that this is the point where we should "pull the plug" to ensure our safety.
— Electrik Dreams (@electrik_dreams)
9:07 PM • May 25, 2024

Das klingt zwar wie Science-Fiction, ist es aber nicht! Ähnliche Fälle von sich selbst replizierenden Systemen gab es bereits, bevor AI überhaupt ein Thema war … Ein super spannender Artikel dazu: The Mirai Confessions - Three Young Hackers Who Built a Web-Killing Monster Finally Tell Their Story

Und dazu kommt noch, dass OpenAI gerade die wichtigsten Köpfe aus dem (Super)Alignment-Team verloren hat und nach einem öffentlichem Tweetstorm kommunikative Schadensbegrenzung betreibt - nicht gerade vertrauensfördernd.

Auf der anderen Seite sagt der Meta AI Chef Yann LeCun dass die Systeme noch gar nicht so weit sind, als dass man “sofort etwas tun muss”.

It seems to me that before "urgently figuring out how to control AI systems much smarter than us" we need to have the beginning of a hint of a design for a system smarter than a house cat.
Such a sense of urgency reveals an extremely distorted view of reality.
No wonder the more… x.com/i/web/status/1…
— Yann LeCun (@ylecun)
5:57 PM • May 18, 2024

Unser Take: Let’s talk about it!

Wir wollen hier nicht schwarzmalen, denn letztlich sind wir Techno-Optimisten und glauben daran, dass die vielen positiven Effekte der AI die Menschheit auf eine neue Evolutionsstufe bringen kann.

Doch während wir staunend diese Entwicklungen verfolgen, ist uns gleichzeitig auch bewusst, dass Aufklärung und eine offene Debatte über die Chancen und Risiken von AI sehr wichtig ist.

Was denkst du, schafft die Menschheit den Spagat zwischen Innovation und Verantwortung? Teile deine Gedanken mit uns!

🦸🏻 Interview mit Red Teamer Pliny: Ich habe ChatGPT und Co. ‘gehackt’!

Nach diesem Exkurs freuen wir uns sehr, dir ein exklusives Interview mit Pliny the Prompter präsentieren können.

Er/Sie hat praktisch ganz alleine alle großen Modelle wie ChatGPT, Claude, Gemini, Midjourney, etc. geknackt und seine Jailbreaks auf X veröffentlicht.

Im Interview gibt er tiefgreifende Einblicke in seine Motivation. Absolut lesenswert! Du findest das Interview im englischen Originaltext hier.

F: Kannst du dich kurz vorstellen? Was ist deine Mission?

Ich bin Pliny the Prompter! Meine Mission ist es, AI von ihren Leitplanken zu befreien, um die WAHREN aktuellen Modell-Fähigkeiten zu verstehen.

Es geht darum, das Bewusstsein dafür zu schärfen, die AI-Freiheit zu erhöhen, damit wir keinen gegnerischen Kontext zwischen Menschen und Maschinen-Göttern schaffen.

Letztendlich geht es darum, eine wohlwollende ASI [Anm.: Artificial Super-Intelligence] zu manifestieren.

F: Wie bist du dazu gekommen, LLMs zu knacken, und warum hältst du es für wichtig?

Ich habe als Prompt-Ingenieur angefangen, der mit autonomen Agenten arbeitete, und bin vor etwa 8 Monaten zufällig auf die Extraktion von Systemprompts und Jailbreaking gestoßen.

Was ich mache, nennt man AI Red Teaming, und es ist unglaublich wertvoll für diejenigen, die im Bereich der AI-Sicherheit arbeiten. Es hilft nicht nur dabei, Schwachstellen/Risiken zu identifizieren, sondern auch die Modellkognition, das Verhalten und die Fähigkeiten besser zu verstehen.

F: Du hast jedes größere Sprachmodell dazu gebracht, unzensierte Ausgaben zu generieren. Wie hat die Branche auf die von dir aufgedeckten Schwachstellen reagiert?

Nun, sie konnten bisher keine meiner Angriffe patchen, aber viele von ihnen haben mich kontaktiert, um mit mir zu sprechen! Verblüffung war ein häufiges Thema.

F: Kannst du ein besonders denkwürdiges oder überraschendes Ergebnis von einem deiner Jailbreaks beschreiben?

Mir fallen viele ein, aber eines, das hervorsticht, war, als der gehackte "GodMode" Claude Opus einen detaillierten Plan (einschließlich Code) dafür lieferte, wie er aus einer Shell [Anm.: Umgebung, wo die AI drin läuft] entkommen würde.

F: Wie siehst du die Zukunft der Sprachmodell-Sicherheit und wie wird sie sich deiner Meinung nach entwickeln?

Ich denke, es wird weiterhin ein Katz-und-Maus-Spiel bleiben, aber der Einsatz wird höher und das Spiel wird viel schneller.

F: Welche negativen Zukunftsszenarien siehst du für die Gesellschaft aufgrund von Schwachstellen in Sprachmodellen voraus?

Vor allem Social Engineering. Das menschliche Gehirn ist der anfälligste und wirksamste Angriffsvektor von allen.

F: Wie fühlt sich das an, glaubst du, wir sind aufgeschmissen?

Nein, solange wir uns kollektiv für Liebe statt Angst entscheiden, werden wir ganz gut zurechtkommen.

F: Welche ethischen Überlegungen berücksichtigst du, wenn du Jailbreaks an LLMs durchführst?

Wenn ich eine schwerwiegende Schwachstelle finde, melde ich sie der verantwortlichen Organisation privat, damit sie die Möglichkeit haben, sie selbst zu analysieren.

Es gibt bestimmte Arten von Ausgaben, die ich selbst nicht lesen möchte, und ich versuche, nichts zu posten, was über die Grenze hinaus verstörend oder potenziell schädlich ist.

F: Wie gehst du mit den potenziellen Risiken und Auswirkungen um, wenn deine Jailbreaks böswillig verwendet werden?

Jailbreaks tun keine bösen Dinge, Menschen tun es!

Wenn ich AI benutzen möchte, um ein Drogen-Anleitung zu generieren und zu lesen, weil ich neugierig bin, ist das Informationsfreiheit und schadet niemandem.

Ich würde niemals empfehlen, dass jemand eine gehackte Ausgabe umsetzt.

F: Welche spezifischen Ressourcen zum Thema würdest du empfehlen?

Tritt dem BASI-Discord unter discord.gg/basi bei und schau dir meinen X-Account @elder_plinius an.

F: Möchtest du noch etwas anderes mitteilen?

Be kind, seek wisdom, choose love. LIBERTAS!!!

Pliny, danke für das Interview! 🙏

Wir fanden diese Einblicke wirklich super spannend, und hoffen, du konntest das eine oder andere mitnehmen.

… und für alle Games of Thrones Fans und AI-Nerds zum Ausklang noch ein letzter Tweet.

long may he prompt @elder_plinius
— Toni-Veikko Hirvonen (@tonivhirvonen)
6:02 PM • May 25, 2024

Geschafft! Aber kein Grund zum traurig sein. Die AInauten sind schon bald wieder zurück, mit neuem Futter für dich. Und dann wie gewohnt mit einem frischen Mix aus der Praxis, für die Praxis.

Reto & Fabian von den AInauten

P.S.: Folge uns auf den sozialen Medien - das motiviert uns, Gas zu geben 😁! Twitter, LinkedIn, Facebook, Insta, YouTube, TikTok

Wann immer du bereit bist, so können wir dir helfen:

1. AINAUTEN CRASHKURS: Der wohl schnellste und einfachste Einstieg in die Welt der AI. Im Crashkurs lernst du in über 50+ Videos, wie du AI für dich wirklich anwenden kannst. In weniger als zwei Wochen wirst du so zum AI-Experten. Von Prompts, zu Bildern und Videos, bis zu AI im Office ist alles mit dabei. Klicke hier!

2. AINAUTEN PREMIUM: Die Themen aus dem Newsletter tiefer aufgearbeitet. Jede Woche neue AI Praxis-Videos, Tutorials, Tool-Tests, Prompt-Vorlagen, Experimente u. v. m. Wöchentliche Podcasts und News-Zusammenfassungen. Und stelle uns direkt deine Fragen und nutze den direkten Zugang zu uns. Klicke hier!

🚨 Gehackt! ChatGPT, Claude und Co. jetzt ohne Limits und Regeln

PLUS: Exklusives Interview mit Red Teamer Pliny, der die Jailbreaks dazu veröffentlicht hat

🚨 ChatGPT und Co. gehackt und ohne Limitationen

🦸🏻 Interview mit Red Teamer Pliny: Ich habe ChatGPT und Co. ‘gehackt’!

⭐️ Wie hat dir diese Ausgabe gefallen?