Moin AInauten,

Willkommen zur neuen Ausgabe deines Lieblingsnewsletters!

Heute starten wir nicht mit dem nächsten Tool, sondern mit der Frage: Welche Aufgabe soll dein Agent jeden Morgen konkret für dich erledigen? Mit unseren Prompts findest du in drei Schritten deinen ersten Praxis-Agenten, den du direkt im Alltag testen kannst!

Danach geht es um Claude Fable 5, das kurz zeigte, wie die AI-Zukunft aussehen kann, bevor es über Nacht verschwand… Zum Schluss testen wir die Gegenidee: Wenn das Supermodell plötzlich weg ist, kann ein Modell-Team einspringen?

Das haben wir heute für dich im Gepäck:

  • 👷‍♂️ So findest du echte Jobs für deine Agenten

  • 🚨 Claude Fable 5 weg - das macht lokale Modelle plötzlich wichtiger

  • 👌 OpenRouter Fusion: Fable-Level aus mehreren Modellen? Fast…

Los geht’s!

👷‍♂️ So findest du echte Jobs für deine Agenten

Im AI-Mitarbeiter-Bootcamp beobachten wir gerade ein interessantes Muster: Die Technik ist oft nicht mehr der Flaschenhals. Skills anlegen, Dateien anbinden, MCP-Server testen, Browser-Agenten starten, … Das alles klappt inzwischen erstaunlich gut.

Der Knick kommt danach: Was soll der Agent jetzt eigentlich für dich erledigen?

Ein Agent wird nützlich, sobald er eine wiederkehrende Aufgabe mit genug Kontext und klaren Rahmenbedingungen abarbeiten kann - und zwar verläßlich.

Deshalb wollen wir heute schauen, wie du konkrete Kandidaten aus deiner echten Arbeit oder deinem Alltag findest. Wir finden das für die meisten ziemlich spannend.

Schritt 1: Prompt “Finde meine besten Agenten-Jobs”

Steigen wir direkt ein, ohne lange Vorrede: Kopier diesen Prompt in den Chatbot, mit dem du am meisten arbeitest.

Analysiere meine Ziele, Arbeitsweise, wiederkehrenden Aufgaben 
und Tools - basierend auf allem, was du über mich weißt.
Wenn du nicht sicher bist, stelle mir konkrete Fragen mit Auswahloptionen.

Finde dann min. 10 konkrete Aufgaben, die ich an einen 
AI-Agenten, Workflow oder eine Automation auslagern kann.

Bewerte jeden Kandidaten nach:
- Wiederholung
- Zeitersparnis
- Datenzugang
- Risiko
- Messbarkeit

Wähle die 3 besten Startkandidaten.

Beschreibe pro Kandidat:
- gewünschtes Ergebnis
- nötigen Kontext
- erlaubte Aktionen
- Stop-Regeln
- menschlichen Review-Punkt
- Erfolgskriterium nach 7 Tagen

Regeln:
Keine vagen Ideen. Bevorzuge wiederkehrende Bildschirmarbeit. 
Senden, löschen, zahlen und Kundenkontakt bleiben beim Menschen.

Schritt 2: Prompt “Agenten-Job definieren”

Viele haben noch nie aktiv einen Agenten gebaut. Völlig okay, klingt auch kompliziert. Weil es das aber gar nicht sein muss, machen wir es heute mal zusammen.

Wähle nun aus dem Resultat aus Schritt 1 einem Agenten-Job aus.

Nicht den größten, coolsten oder technisch wildesten Vorschlag. Nimm stattdessen einen oder mehrere Vorschläge, wo du sofort weißt, wie ein gutes Ergebnis aussieht.

Gute Agenten-Jobs klingen oft simpel:

  • Morgens neue Support-Tickets mit Antworten in deinem Stil vorbereiten

  • Freitags offene Rechnungen in einer Google Sheets-Liste abgleichen

  • Nach einem Webinar Fragen und Feedback aus Chat und Transkript sammeln

  • aus den Bookmarks der letzten Tage fünf Social-Media-Posts vorbereiten

Das ist Bildschirmarbeit mit Kontext. Und genau dort lohnt sich der erste Test!

Nutze nun diesen Prompt, nachdem du den den ersten Kandidaten ausgewählt hast:

Nimm den besten [oder den gewählten] Kandidaten aus der Liste.
Bereite daraus ein sauberes Briefing (Prompt) vor für einen Desktop-Agenten-Test.

Arbeite so:
1. Beschreibe einen sinnvollen Testlauf und den dafür notwendigen Kontext.
2. Liste, welche lokalen Dateien, Ordner, Webseiten oder Tools der Agent benötigt.
3. Formuliere den konkreten Auftrag für einen Desktop-Agenten wie Codex oder Claude Code/Cowork.
4. Definiere Stop-Regeln: Was darf gemacht werden, was nicht?
5. Definiere das Prüfergebnis, ob der Test funktioniert hat.
6. Erstelle eine Checkliste, um den Lauf sauber zu wiederholen.

Regeln:
- Erst lesen und planen.
- Keine Aktion ohne Freigabe! Kein Löschen, kein Senden, kein Bezahlen.
- Lieber ein kleiner Test mit Beleg als eine große Automation ohne Kontrolle.
- Wenn etwas unklar ist, nachfragen statt zu raten.
- Alle Schritte einfach und nachvollziehbar erklären.

Schritt 3: Richte deinen ersten Agenten ein

Jetzt wird es praktisch: Um den Agenten einzurichten, musst du eine Desktop-Agenten-App wie Codex von OpenAI (sogar mit kostenlosem Account nutzbar) oder Claude Code/Cowork (ab Pro-Account) installieren.

Sobald du das gemacht hast, kannst du in der Desktop-App einen neuen Chat starten und das Briefing/Prompt aus Schritt 2 reinkopieren, um den Einrichtungsprozess des Agenten zu starten.

Im Kern wirst du aufgefordert, Fragen zu beantworten, Zugänge freizugeben und Aktionen zu bestätigen, damit er den gestellten Auftrag ausführen kann.

Du wirst dabei vermutlich auch mit Begriffen wie Skills, Tools, MCP, etc. konfrontiert - was das genau ist, schauen wir uns auch gleich an.

Skill, Tool, MCP: einmal sauber sortiert

Der Desktop-Agent braucht Zugriff, aber der Zugriff allein macht noch keinen sauberen Arbeitsablauf.

Tool, Skill, MCP und Kontext tauchen alle mal im selben Setup-Menü auf. Da kann es schon mal Missverständnisse geben.

Merksatz: Tools, MCPs und Connectors sagen, worauf der Agent zugreifen darf. Skill und Kontext sagen, wie er dort arbeiten soll.

  • Ein Tool gibt Zugriff. Gmail lesen. CRM-Felder prüfen. Eine Webseite öffnen.

  • Ein Skill gibt Verhalten. Aus "Schreibe eine Mail" wird: "Schreibe eine AInauten-Supportantwort so, dass der Kunde weiß, was als Nächstes passiert."

  • MCPs und Connectoren sind die Steckdosen dazwischen. Sie verbinden deinen Agenten mit Drive, Slack, HubSpot, Datenbank oder Browser.

Kurzer Hinweis an dieser Stelle: Wenn du fremde Skills installierst, lass dir diese zuerst von NVIDIAs SkillSpector oder einem anderen Tool reviewen, damit du dir nichts installierst, was sicherheitstechnisch fragwürdig ist.

Unser Take: Agenten brauchen als erstes saubere Instruktionen

Wer AI-Arbeit delegieren will, muss unangenehm genau werden. Nur wenn du pingelig genau eine saubere Übergabe machst, werden deine Agenten brauchbar.

Bau deshalb diese Woche einen einzigen langweiligen Agenten. Einen, den du nach sieben Tagen ehrlich bewerten kannst: Hat er mir jeden Morgen 20 Minuten Zeit gespart? Mehr braucht es für den Anfang nicht.

Aber wenn du mehr willst, dann komm zu uns in die AI Automation Community! Dort stehen wir dir bei allen Fragen zu Agenten, Automationen und AI mit Rat und Tat zur Seite - und du bist mit über 1000 anderen AINAUTEN in bester Gesellschaft.

🚨 Claude Fable 5 weg - das macht lokale Modelle plötzlich wichtiger

Fable war drei Tage lang dieses Modell, bei dem wir sofort alle anderen Modelle in die Ecke stellen wollten. Jetzt ist es weg, vorerst.

Fable ist der Vorgeschmack auf die Zukunft

Der Reiz an Claude Fable 5 ist war, dass Anthropic zum ersten Mal die neue Mythos-Klasse breit zur Verfügung gestellt hat: 1-Million-Token-Kontext, lange autonome Aufgaben, bessere Selbstprüfung, mehr Geduld bei Coding und Wissensarbeit. Also genau mit Verbesserungen in den Bereichen, wo bisher viele Agents gestolpert sind.

Fable fühlte sich eher nach Arbeitskollege mit sehr viel Kaffee und noch mehr IQ an. Für uns war es ein Einblick und Vorgeschmack darauf, wie sich AI anfühlt, wenn sie nicht nach jedem zweiten Satz wieder an die Hand genommen werden will.

Und dann: Die amerikanische Regierung zieht den Stecker!

Am 12. Juni verlangte die Trump-Regierung, dass Fable 5 und Mythos 5 für alle ausländischen Staatsangehörigen suspendiert werden - sogar für ausländische Anthropic-Mitarbeiter innerhalb der USA! Weil das praktisch nicht sauber umsetzbar war, musste Anthropic Fable und Mythos für alle Kunden abschalten. WTF?!

Der Auslöser soll ein Jailbreak gewesen sein, den Amazon auf Anfrage des Weißen Hauses bestätigt gepetzt hatte. Der Stein des Anstoßes sei eine einfache Schwachstelle, die bei anderen öffentlich verfügbaren Modelle wie GPT 5.5 ebenfalls ausgenutzt werden kann.

Da Amazon auch ein großer Investor bei Anthropic ist, verstehen wir nicht genau, was das soll. Vielleicht hat es auch mit den Gerüchten zu tun, dass die Chinesen Zugang zu Mythos hatten - who knows?

Anthropic entschuldigt sich auf jeden Fall für die “Störung” und glaubt, dass es ein Missverständnis ist. Heute gibt es eine Aussprache. Und vielleicht läuft es ja schon wieder, während du das liest?!

Nichtsdestotrotz: Präzedenzfall mit wichtiger Warnung.

Sicherheit ist das wichtigste Thema, gerade bei dem Affenzahn, mit dem aktuell vorangeprescht wird (siehe unseren Beitrag hier).

Anthropic hat die Mythos-Klasse monatelang als gefährlich, mächtig und sicherheitskritisch positioniert - was Guardrails, Trusted Access und hohe Preise rechtfertigt.

Böse Zungen sagen, dass man halt nicht überall erzählen sollte, dass die eigene AI eine biologische Waffen- und Cybercrime-Fabrik sei, wenn man nicht möchte, dass eine Regierung irgendwann ernsthaft zuhört.

Ein Körnchen Wahrheit ist da dran…

Aber wenn ein nicht öffentlich nachvollziehbarer, enger Jailbreak-Vorwurf reicht, um ein produktives Modell weltweit aus Workflows zu reißen, lernen wir alle eine sehr harte Lektion: Das stärkste Werkzeug in deinem Stack kann morgen verschwinden, ohne dass du etwas tun kannst. Ein Kill-Switch, den du nicht beeinflussen kannst.

Fable-Level nacheifern wird zur Sportart

Die Stimmung im Netz kippte schnell von Hype und coolen Use Cases zum Abhängigkeitsschock. Die erste Reaktion ist der Bastlerweg: verfügbare Modelle nehmen, bessere Harnesses bauen, Prompts sichern, Loops sauberer schreiben, Fable-Verhalten teilweise imitieren (siehe dazu auch unseren nächsten Beitrag unten).

Jailbreaker Pliny hatte das Modell bereits geknackt und den System Prompt herausgekitzelt - welcher dann im Bastelmodus dazu genutzt wurde, um Fable-ähnliches Verhalten mit dem Opus 4.8-Claude Modell nachzubauen.

Klar, ein Systemprompt bringt kein Fable-Modell zurück - aber die Idee ist nicht schlecht.

Souveräne Infrastruktur: Du hast einen Plan B, der wirklich läuft

Wer auf Nummer sicher gehen will, braucht aber mehr als Workarounds und das Prinzip Hoffnung. Und wer Kontrolle will, muss lokale Modelle können - oder zumindest offene Konkurrenzmodelle wie Kimi 2.7, GLM 5.2 etc. nutzen.

Souveräne AI-Infrastruktur beginnt klein. Ein lokales Modell für vertrauliche Standardaufgaben. Ein Cloud-Topmodell für die schweren Brocken. Eine simple Regel, welche Aufgabe wohin darf. Ein Ordner, in dem Kontext, Prompts und Checklisten liegen. Ein Test, ob dein wichtigster Workflow auch ohne Lieblingsmodell weiterläuft.

Tools wie llmfit werden in diesem Moment interessanter, weil sie die richtige Frage stellen: Was läuft auf deiner Hardware überhaupt sinnvoll?

Das Tool erkennt, was dein Computer an RAM, CPU und GPU hat - und bewertet Modelle nach Qualität, Geschwindigkeit, Fit und Kontext. Es unterstützt Provider wie Ollama, LM Studio und weitere.

Interessiert, was auf deinem Rechner laufen würde? Siehe den Beitrag oben zu den Agents - sag einfach der Claude oder Codex-Desktop-App:

Installiere mir https://github.com/AlexsJones/llmfit lokal.
Dann starte es für mich.

Im Open-Source-Arena.ai-Leaderboard findest du die offenen Cloud-Modelle von Kimi, Qwen und DeepSeek. Sie ranken oben auf der Liste und nahe bei den Closed-Cloud-Anbietern - so nahe, dass man sie ernsthaft testen sollte.

Solche Tests sind wichtig, denn ein Benchmark allein sagt noch wenig darüber aus, wie das für deinen spezifischen Use Case funktioniert.

Auf der kostenlosen arena.ai-Plattform stehen dir aber nicht alle Frontier-Modelle zur Verfügung. Wenn du für deine Tests aus allen Modellen wählen willst, kannst du das alternativ über OpenRouter (Credit-System) machen.

arena.ai für den Modellvergleich (kostenlos)

openrouter.com für den Modellvergleich (alle Modelle, Credit-System)

Unser Take: Fable war ein Geschenk, der Cutoff ist die Lektion

Wir finden den Shutdown als Präzedenzfall gefährlich. Safety braucht klare Prozesse. Sonst wird aus Vorsicht (oder anderer Motivation) einfach Willkür.

Das aktuelle Fable-Drama zeigt, dass diese Regeln noch fehlen. Bis sie existieren, ist die komplette Abhängigkeit von geschlossenen Frontier-Modellen deshalb ein Betriebsrisiko.

Natürlich wollen wir nicht Cloud-Modelle boykottieren. Dort findet man die besten Modelle und die Fable-Abschaltung war deshalb so bitter, weil es so gut war.

Wir ziehen daraus die pragmatische Lektion: Speichere deine Prompts, Skills, Projektregeln und Abnahmekriterien in Dateien (ja, einmal mehr: Files-over-Tools).

Modelle können verschwinden oder sündhaft teuer werden, Features werden umgebaut. Aber wenn dein Arbeitsmodus in Dateien lebt, reist er weiter.

Unser ideales Setup kristallisiert sich aber immer klarer heraus - und es ist ein Hybrid:

  • Frontier-Modelle für Aufgaben, bei denen das beste Modell zählt.

  • Lokale Modelle für vertrauliche, wiederkehrende und einfache Arbeit.

  • Portabler Kontext immer in Dateien abspeichern lassen.

  • Prompts, Skills und Bewertungsraster ebenfalls außerhalb einzelner Chats speichern.

  • Und ein kleiner Notfalltest für den Fall des Falles: Was passiert, wenn dein Lieblingsmodell morgen fehlt oder der Account weg ist?

Wir hatten lokale Modelle vor ein paar Wochen schon als Offline-AI-Reise-Stack auf dem Tisch. Nach Fable fühlt sich das weniger nach Reisetrick und mehr nach Grundausstattung an.

P.S. Zum Abschluss haben wir noch einen starken Tipp von Fable auf X entdeckt - im Kern: “Setz dich regelmäßig hin und schreibe ehrlich über dein eigenes Leben, deine Gedanken und Wünsche - nicht, um auf etwas zu reagieren, sondern um klarer zu sehen, was du wirklich willst und tust.” 🙏

👌 OpenRouter Fusion: Fable-Level aus mehreren Modellen? Fast…

Während alle Fable hinterhertrauern, präsentiert OpenRouter eine spannende These: Vielleicht muss ein einzelnes Modell gar nicht mehr alles können!

OpenRouter Fusion ist die Antwort darauf. Im Kern ist es ein kleines Modell-Panel.

Du stellst eine komplexe Frage, mehrere Modelle arbeiten parallel daran, ein Judge-Modell vergleicht die Antworten und liefert strukturierte Analyse zurück: Konsens, Widersprüche, blinde Flecken, einzelne gute Beobachtungen. Danach entsteht daraus die finale Antwort.

Wir haben bereits mehrfach über Mixture-of-Experts (MoE), Multi-Persona-Prompts und LLM-Council berichtet.

Dieser Ansatz ist viel näher an guter Teamarbeit als an klassischem Routing.

  • Routing fragt: Welches Modell soll diese Aufgabe bekommen?

  • Fusion fragt: Welche Modelle sollten diese Aufgabe gemeinsam bearbeiten?

Und das alles läuft schön im Hintergrund über das Chat-Interface oder die API. Nice!

OpenRouter verkauft den Launch entsprechend offensiv. Im Post auf X nennt OpenRouter Fusion als "smartest compound model in the market".

Und behauptet, Fusion erreiche Fable-Level zum halben Preis! Ehm…

Im Benchmark-Post wird klar, dass man diese Zahlen sauber einordnen muss. Das ist ein OpenRouter-eigener Test auf 100 Deep-Research-Aufgaben.

Außerdem schreibt OpenRouter selbst, dass sieben Fable-Aufgaben wegen Content-Filtern nicht gewertet wurden.

Also bitte nicht gleich "Fable ist ersetzt!" auf LinkedIn posten 😄

Unser Take: Fusion ist ein weiteres Tool in deinem Werkzeugkasten

Wir finden Fusion ein wichtiges Signal, passend zur heutigen Ausgabe. Nach Fable gewinnen aus unserer Sicht ein paar Dinge an Wichtigkeit: lokale AI, souveräne AI-Hybrid-Setups und Modell-Orchestrierung.

Für kurze Prompts ist Fusion Overkill. Aber es ist spannend bei Aufgaben, bei denen Perspektiven zählen: Recherche, Entscheidungsvorbereitung, Tool-Vergleiche, Marktanalyse, Strategiefragen, juristische Erstsortierung, medizinische Recherchen, komplexe Produktentscheidungen, usw.

Fusion ist überall dort gut, wo eine einzelne Antwort gefährlich bequem ist.

Die besten AI-Workflows erinnern uns immer stärker an eine kleine Redaktion. Mehrere Stimmen rein, Widersprüche sichtbar machen, eine gute Synthese raus.

Genau so arbeiten gute Teams auch!

Geschafft! Bis zur nächsten Ausgabe.

Reto & Fabian von den AInauten

Die AInauten Journey: So können wir dir helfen!

AI EXPLORER: Der schnelle Einstieg in die AI-Welt, perfekt zum Reinschnuppern, wenn du noch keine Erfahrung hast. Mehr erfahren » 

⭐⭐⭐ AI POWER USER: Werde zum AI-Profi in 30 Tagen. ChatGPT Masterclass, Prompting Pro Bootcamp, 50+ Deep-Dives mit wöchentlichen Updates. Spare 10+ Stunden pro Woche. Kein Abo. Mehr erfahren »

⭐⭐⭐⭐⭐ AI AUTOMATION EXPERT: Die Königsklasse. Alle unsere Trainings aus AI EXPLORER und AI POWER USER! Plus Community mit Support. Baue Systeme, die 24/7 für dich arbeiten - mit Zapier, Make, n8n Trainings, Vibe Coding, 50+ Use Cases und Tool-Rabatte. Mehr erfahren »

Weiterlesen