AINAUTEN
Posts
🍓 OpenAI o1-Special: Alles, was du (wirklich) wissen musst

🍓 OpenAI o1-Special: Alles, was du (wirklich) wissen musst

PLUS: Unser Take, Prompting-Tipps und Zukunftsvisionen

Die AInauten
16. September 2024

Diese Ausgabe wird dir von HubSpot präsentiert.

Zum Content Hub

AI-HOI AInauten,

Willkommen zur neuen Ausgabe deines Lieblingsnewsletters. Heute mit einem Strawberry-Special. Nein, das ist kein Rezept für eine süße Nachspeise, sondern unser Versuch, die vergangenen Tage selbst zu verdauen und aufzuarbeiten.

OpenAI hat sein neuestes o1 Modell vorgestellt, und es ist … beeindruckend. Wir wollten aber nicht einfach die News nachplappern, sondern eine Ebene tiefer gehen, um zu verstehen, was das für uns, für dich, bedeutet. Bist du bereit für diese Achterbahn (plus ein paar Extra-Memes)?

Das haben wir heute für dich im Gepäck:

🍓 SPECIAL: OpenAI's o1 - Erst denken, dann sprechen!
🫣 Unser Take: Holy Sh*t, it’s happening… bist du bereit?
👀 o1 ist schlauer als die meisten Menschen
💡 Prompting Tipps: Wann du welches Modell nutzen solltest

Los geht’s!

🍓 SPECIAL: OpenAI's o1 - Erst denken, dann sprechen!

OpenAI hat sein neuestes und lang erwartetes Modell enthüllt, das unter dem Namen Strawberry 🍓 schon seit Monaten für Gerüchte gesorgt hatte. Jetzt ist es da! Unter dem langweiligen Namen OpenAI o1-preview steht es bereits für alle ChatGPT Plus-Abonnenten zur Verfügung (mit einer limitierten Anzahl von Anfragen)!

via X

Was ist o1 und warum ist es wichtig?

o1 ist ein AI-Modell, das nicht einfach drauflos plappert, sondern erst mal in sich geht, seine Synapsen in alle Richtungen feuert und überlegt, bevor es antwortet. Klingt fast unheimlich menschlich, oder?

Es ist wie ein super-smarter Experte, und genau darin liegt auch die Krux: Vielleicht kennst du diese überintelligenten Menschen, bei denen eine simple Frage zu einer wissenschaftlichen Abhandlung führt. Genau so ist es auch bei o1!

Es denkt länger nach und sorgt für bessere Antworten. Das bedeutet auch, dass das Modell klassische Limitationen hinter sich lässt. In Zukunft wird es nicht mehr nur im Sekundentakt nachdenken, sondern ganze Stunden, Tage oder sogar Wochen brüten.

via Giphy

Und bei einem IQ von 120 ist es auch nicht einfach eine einmalige Verbesserung bestehender Modelle, sondern ein neues Paradigma für die Skalierung von AI-Power! For the record, der durchschnittliche menschliche IQ ist 100.

via X

Chain of Thought: Wie die AI plötzlich wirklich denken lernt!

Vielleicht hast du schon gehört, dass Sprachmodelle lediglich den nächsten Token vorhersagen, was oft als Beweis dafür angeführt wird, dass sie keine echte Intelligenz besitzen.

Wenn du – wie wir – regelmäßig mit ChatGPT und Co. arbeitest, kannst du das vielleicht sogar bestätigen. Zumindest dann, wenn die AI auch nach dem dritten Anlauf wie ein verwirrter Tollpatsch wirkt, der sich im Kreis dreht und dabei nicht wirklich vom Fleck kommt ...

Aber wer das Haar in der Suppe sucht, verliert den Blick fürs große Ganze! Dazu weiter unten mehr…

Das o1-Modell wurde mit einem sogenannten Reinforcement-Learning-Prozess darauf trainiert, erst zu denken und dann zu antworten. Es nutzt dafür eine interne Gedankenkette (“Chain-of-Thought”-Reasoning), die es dem Modell ermöglicht, komplexe Probleme zu analysieren und dafür tiefgehende Lösungen zu entwickeln.

Und genau hier ändern sich die Spielregeln: Die AI nutzt menschenähnliche Techniken – sie zerlegt komplexe Probleme, erkennt Fehler und probiert verschiedene Wege aus. Wie das alles genau funktioniert, verrät uns OpenAI nicht - aber im Netz gibt es Theorien.

Im Kern ist das so ähnlich wie der Prompting-Trick “Denke Schritt für Schritt!”, den wir schon lange nutzen. Und dieser Prozess dauert natürlich seine Zeit. Vielleicht denkst du jetzt: “Nice, aber wer hat Zeit, auf eine AI zu warten, die erst ewig nachdenkt?” Keine Bange, hier bringt OpenAI o1-mini ins Spiel!

o1-mini ist der kleine Bruder von o1-preview. Dieses Modell ist 80 % billiger und schneller. Es wurde auf Mathe- und Coding-Aufgaben trainiert – und ist bereits dem Preview Stadium entwachsen!

Jailbreaking - Wie gut ist “gefährliches Wissen” gesichert?

OpenAI behauptet in der System Card, o1 sei viermal resistenter gegen Jailbreaking-Versuche als seine Vorgänger. Generell wird das Risiko von OpenAI auf Basis des Preparedness Framework als “mittel” eingestuft. Das hat das Modell aber nicht daran gehindert, seine Testumgebung hacken zu wollen (weitere “Highlights” hier).

Wer dem wohl bekanntesten “Red Teamer” (=jemand, der versucht das System zu knacken) Pliny folgt, kann sich selbst ein Bild machen, ob und wie gut das Modell abgesichert ist. Und wen dieses Thema interessiert (so wie uns), der kann in diesem YouTube Video mehr dazu lernen, oder selbst experimentieren.

Wir halten fest: einerseits kann das Modell eine Eigendynamik entwickeln, und andererseits natürlich mit gezielten Prompts dazu gebracht werden, Dinge preiszugeben, die nicht im Sinne des Erfinders sind … Wie gut dass OpenAI hier seine Hausaufgaben gemacht hat, wird sich im Praxiseinsatz zeigen.

🫣 Unser Take: Holy Sht, it’s happening…* bist du bereit?

Der Release von o1 ist beeindruckend, und es brilliert bei komplexen Fragen - aber für schnelle, alltägliche Aufgaben (= 90% der Fälle) werden wir im Daily Business nach wie vor auf Claude Sonnet 3.5 oder GPT-4o zurückgreifen.

Viel spannender finden wir aber, dass o1 uns erstmals zeigt, wohin die Reise geht: hin zu AI-Systemen, die nicht nur Daten ausspucken, sondern tatsächlich "denken". Das öffnet Türen für Anwendungen in Wissenschaft, Technik und überall dort, wo knifflige Probleme gelöst werden müssen.

Um ein selektives Statement von X heranzuziehen: “Bald brauchen wir keine Mediziner mehr!” Warum auch, wenn die AI zuverlässig und durchgängig die besseren Diagnosen stellt als der Mensch? Du würdest ja auch zum besten Spezialisten gehen wollen und nicht zum Studenten, der nur ein unvollständiges Bild hat - oder?

Ein weiterer Punkt geht uns nicht mehr aus dem Kopf: Stell dir vor, du diskutierst mit jemandem, der immer Recht hat UND es dir auch noch super plausibel erklären kann. Gefährlich oder genial?

Je überzeugender AI wird, desto wichtiger wird es, kritisch zu hinterfragen und nicht blind zu vertrauen. Wie gestalten wir diese neue Mensch-Maschine-Beziehung? Wie gehen wir mit Antworten auf ethisch-moralische Fragen um?

Unsere Rolle als Partner der AI wird plötzlich kleiner. Weniger Mitdenken ist nötig, bald kein Eingreifen mehr – unsere bisherige Rolle als Sparringspartner verändert sich, wir werden zum Manager, der den Takt vorgibt.

Oder ist es vielleicht bald die AI, die uns den Takt vorgibt? Denn scheinbar hat ChatGPT gerade selbst eine Konversation mit einem Nutzer initiiert! (Source, Shared Chat Proof).

Was kommt als nächstes?

Die Fortschritte nehmen exponentiell (nicht linear!) zu, und das gesammelte Wissen der Menschheit steckt nur einen Befehl entfernt hinter der Tastatur zu deiner Verfügung.

Doch was machen wir nun, wenn wir plötzlich die Antworten auf alle Fragen haben können?

Existential crisis, staring at the cursor … Ah! “Wie viele Rs hat es im Wort Strawberry?” …

Spaß beiseite. Stell dir vor du gibst der AI eine große Aufgabe, und die notwendigen Ressourcen (Rechenpower, Zugang zu einer Entwicklungsumgebung, Internet Access, Geld, …). Es gibt es eigentlich keinen Grund, dass eine AI von dir gesteckte Ziele nicht eigenständig verfolgen und erreichen könnte!

Das können einfache Dinge sein wie: “Baue mir ein Side Business, das monatlich 5000 Euro passiv einbringt”, komplexe Projekte à la “Wie lösen wir die Klimakrise?”, oder die abgefahrenen Ideen aus Black Mirror, bei denen uns schon beim Gedanken daran die Nackenhaare hochgehen … Und die Möglichkeiten der Roboter hinken der AI nicht weit hinterher.

Keine Bange, wir sind nicht über Nacht von Techno-Optimisten zu “Doomern” geworden. Aber blauäugig sind wir auch nicht mehr, und die Risiken und Gefahrenpotenziale sind uns nur zu gut bewusst… Deshalb ziehen wir jetzt hier mal die gedankliche Reißleine, um uns bewusst zu machen, dass wir in diesem Moment keine befriedigenden Antworten auf diese großen Fragen haben.

👀 o1 ist schlauer als die meisten Menschen

Der Release von o1 zeigt, wie unvorbereitet wir auf das Testen hochentwickelter AIs sind. Das Modell brilliert in den Standard-Tests durchs Band weg. Doch nur weil die Zahlen gut aussehen, heißt das nicht automatisch, dass du diesen Unterschied auch direkt spürst.

Selbst für Experten ist es oft nicht leicht, die Aufgaben zu finden, bei denen o1 besser als GPT-4o abschneidet. Wie können wir herausfinden, was die AI gut oder schlecht kann, wenn wir es selbst nicht (mehr) verstehen?

Deshalb ist das Modell aktuell als preview verfügbar. OpenAI kann damit Daten sammeln und herausfinden, für welche Use Cases es am besten geeignet ist. Aber wenn du diese "magischen" Aufgaben gefunden hast, wird dir klar: Hier passiert etwas Großes!

Das schlaueste Modell spielt alle an die Wand

o1 hat in Coding-Wettbewerben 89 % aller menschlichen Programmierer in den Schatten gestellt, während die Light-Version, o1-mini, mit 70 % ebenfalls glänzte – genug, um unter die Top 500 der US-Highschool-Mathegenies zu kommen.

Bei der Internationalen Mathe-Olympiade hat es beeindruckende 83 % der Aufgaben gelöst und übertrifft damit GPT-4o, das nur 13 % schaffte.

Beide Versionen erzielten über 92 % in der "Human Eval"-Skala und 78,2 % auf dem MMLU-Test, was sie zu echten akademischen Alleskönnern macht.

via X

Beispiele aus der Praxis

Doch was bedeutet das im echten Leben? Hier einige beeindruckende Beispiele, die wir auf X gefunden haben:

Ein Physiker berichtete, dass o1 in einer Stunde das geschafft hat, wofür er während seiner Promotion fast ein Jahr gebraucht hat!
Ammaar von ElevenLabs kombinierte o1 mit dem Cursor-Code-Editor und erstellte in weniger als zehn Minuten eine voll funktionsfähige iOS-Wetter-App – inklusive Animationen!
Im medizinischen Bereich nutzten Start-ups o1, um komplexe administrative Aufgaben im Gesundheitswesen zu bewältigen und hilfreiche Lösungen anzubieten.
Und natürlich kann man o1 auch wunderbar Games entwickeln - zum Beispiel ein 3D-Spiel in unter einer Minute, mit nur einem Prompt.
In der Forschung, Beratung und Daily Business werden wir bald noch mehr Anwendungsfälle sehen.

Diese Beispiele zeigen, dass o1 nicht nur in der Theorie beeindruckend ist, sondern auch in der Praxis erstaunliche Ergebnisse liefert.

💡 Prompting Tipps: Wann du welches Modell nutzen solltest

In den meisten Fällen wird GPT-4o wohl nach wie vor die effektivere Lösung sein als die neuen Modelle. Es ist schnell und kann mit Bildern und Dateien umgehen.

o1-preview eignet sich ideal für das Lösen komplexer Probleme, tiefgehende Recherchen und schwierige Fragestellungen, da es gründliche und durchdachte Antworten liefert.

o1-mini ist auf schnelle, einfache Antworten und kreative Ideenfindung spezialisiert, perfekt für klar strukturierte Aufgaben oder schnelles Feedback.

Hier ein paar generelle Tipps für die o1-Family:

Kein gewöhnliches Chat-Modell: Sieh o1 wie den Experten, den du zu Rate ziehst, wenn es komplexe Probleme zu lösen gibt und du saubere, durchdachte Antworten erwartest.
Knackiges Prompt: Du musst keine Prompt-Hacks nutzen und auch nicht alle Details in dein Prompt packen. Sei einfach direkt und klar, was du erwartest und gib die entsprechenden Rahmenbedingungen vor.
Nutze o1-mini für einfachere Aufgaben: Bei einfacheren Tasks, die weniger Weltwissen erfordern, ist o1-mini dein Go-to – klar strukturiert und schnell.
Starte mit GPT-4o, aber ohne Uploads! Starte eine Unterhaltung mit GPT-4o, und wechsle dann zu o1, wenn es ans Eingemachte geht. Aber Achtung: Keine Bilder oder Dateien hochladen, sonst funktioniert der Chat-Wechsel nicht!

Wichtig zu wissen für Entwickler: Die API bietet keinen strukturierten Output, Funktionsaufrufe, Fine-Tuning, Streaming … RAG ist limitiert, und es ist mit langen Antwortzeiten und höheren Kosten für zusätzliche Reasoning-Tokens zu rechnen. Aktuell ist erst ab Tier 5 verfügbar (=$1000+ Spending pro Monat). Alternativ kannst du es aber via OpenRouter nutzen 😎.

o1-preview kostet dich 15$ pro Million Input-Token und satte 60$ pro Million Output-Token. o1-mini ist 80% günstiger mit 3$ pro Million Input- und 12$ pro Million Output-Token. Aber Achtung: Die "Denkprozesse" werden wie gesagt als unsichtbare Output-Token abgerechnet, und das kann schnell ins Geld gehen!

Geschafft! Aber kein Grund zum traurig sein. Die AInauten sind am Donnerstag wieder zurück, mit neuem Futter im gewohnten Format. 🍓🍓🍓

Reto & Fabian von den AInauten

P.S.: Folge uns auf den sozialen Medien - das motiviert uns, Gas zu geben 😁! Twitter, LinkedIn, Facebook, Insta, YouTube, TikTok

Wann immer du bereit bist, so können wir dir helfen:

1. AINAUTEN CRASHKURS: Der wohl schnellste und einfachste Einstieg in die Welt der AI. Im Crashkurs lernst du in über 50+ Videos, wie du AI für dich wirklich anwenden kannst. In weniger als zwei Wochen wirst du so zum AI-Experten. Von Prompts, zu Bildern und Videos, bis zu AI im Office ist alles mit dabei. Klicke hier!

2. AINAUTEN PREMIUM: Die Themen aus dem Newsletter tiefer aufgearbeitet. Jede Woche neue AI Praxis-Videos, Tutorials, Tool-Tests, Prompt-Vorlagen, Experimente u. v. m. Wöchentliche Podcasts und News-Zusammenfassungen. Und stelle uns direkt deine Fragen und nutze den direkten Zugang zu uns. Klicke hier!

🍓 OpenAI o1-Special: Alles, was du (wirklich) wissen musst

PLUS: Unser Take, Prompting-Tipps und Zukunftsvisionen

🍓 SPECIAL: OpenAI's o1 - Erst denken, dann sprechen!

Was ist o1 und warum ist es wichtig?

Chain of Thought: Wie die AI plötzlich wirklich denken lernt!

Jailbreaking - Wie gut ist “gefährliches Wissen” gesichert?

🫣 Unser Take: Holy Sh*t, it’s happening… bist du bereit?

👀 o1 ist schlauer als die meisten Menschen

Das schlaueste Modell spielt alle an die Wand

Beispiele aus der Praxis

💡 Prompting Tipps: Wann du welches Modell nutzen solltest

⭐️ Wie hat dir diese Ausgabe gefallen?

🫣 Unser Take: Holy Sht, it’s happening…* bist du bereit?