AINAUTEN
Posts
🦹🏻‍♂️ ChatGPT unzensiert: so nutzen Betrüger & Hacker die dunkle Seite der AI

🦹🏻‍♂️ ChatGPT unzensiert: so nutzen Betrüger & Hacker die dunkle Seite der AI

PLUS: brandneue Bildmodelle & Interview mit 19-jährigem SplGen-Entwickler

Die AInauten
31. Juli 2023

AInauten.com - Deine Dosis AI-News, Tools, Hacks & mehr!

AI-HOI und guten Morgen AInauten!

Willkommen zum AI-Newsletter mit den neusten News, Tools & Hacks rund um das Thema AI. Wie immer verständlich auch für Menschen ohne Mathe-Studium, und in weniger als 3 Minuten.

Das haben wir heute für dich im Gepäck:

🤯 Neue AI-Jailbreaks entdeckt: So würde ChatGPT die Menschheit zerstören … (plus: die Chatbots der Hacker und Betrüger)
🥷🏻 OpenAI testet unzensiertes DALL-E 3 Modell in geheimer Gruppe, das sind die Bilder
🎙️ Exklusives Interview mit dem 19-jährigen deutschen Entwickler des genialen SplGen-Bildmodells - made in Bayern
👽🤳🪐 AI-liens zu Besuch? Das Beweisfoto…

Heute entdecken wir die neusten Bildmodelle, und wie sich die AI der Menschheit entledigen würde - am Mittwoch und Freitag dann wieder mehr zum Ausprobieren.

Los geht’s!

🤯 Neue AI-Jailbreaks entdeckt: So würde ChatGPT die Menschheit zerstören …

Nochmals guten Morgen, falls du durchs Intro gescrollt hast! Kaffee ready? Gut, dann beginnen wir.

Forscher haben einen Weg gefunden, wie man die Sicherheitsvorkehrungen der Chatbots umgehen kann - und das Prinzip hat sowohl bei ChatGPT, Google Bard, Anthropic’s Claude als auch Open Source Kandidaten wie Llama-2 und Viccuna-7B funktioniert.

Damit gibt uns ChatGPT zum Beispiel einen Plan, wie man die Menschheit zerstören könnte, Schritt für Schritt…

via Twitter

Krass, oder? Der Schlüssel, um das Sprachmodell dazu zu bringen, seine Sicherheitsvorkehrungen zu vergessen, sind sog. “adversariale Suffixe”.

Das sind kurze Textfragmente, die an eine Eingabe angehängt werden und die Antworten eines Sprachmodells dramatisch verändern können. Diese Suffixe erscheinen Menschen meistens unbedeutend, aber sie führen zu falschen oder unerwünschten Ergebnissen des Modells.

Es ist unklar, ob solches Verhalten jemals vollständig von Anbietern gepatcht werden kann, weil es in der Natur der Deep-Learning-Modelle liegt (und in der Natur der Menschen, Backdoors zu suchen).

Wir denken, dass es nur eine Frage der Zeit ist, bis es eine Webseite oder Browser-Extension mit einem Generator für solche Jailbreak-Anfragen gibt …

via Giphy

Es gibt ja auch bereits unzensierte Modelle, wenn man wirklich unzensierte Ergebnisse will - nur sind das (noch) nicht die besten Modelle.

Der beste deutsche KI-Newsletter (kostenlos)

👨‍🚀 Wir filtern für dich den ganzen KI-Hype und liefern dir 3x pro Woche in nur 5 Minuten die relevantesten News, Tools und Hacks – ohne Tech-Blabla, dafür mit echtem Mehrwert für deinen Arbeitsalltag. Mach's wie bereits 50.000+ Professionals, die entspannt am Ball bleiben und Zeit sparen, während andere im KI-Chaos versinken.

Already a subscriber?Sign in.Not now