👨‍🚀 Die Ära der Desktop-Agents beginnt

Moin AInauten,

Willkommen zur neuen Ausgabe deines Lieblingsnewsletters!

In den letzten 7 Tagen wurden Claude Opus 4.7, Claude für Word, Claude Design, Claude Legal, Claude Home, Claude Mail und Claude Money gelauncht.

Ne, ist natürlich nur ein Scherz. Die Hälfte davon ist erfunden. Das Problem: du kannst auf Anhieb nicht mehr sagen, welche Hälfte.

Also gibt's heute einen umfassenden Überblick, was aktuell passiert und wichtig ist.

More signal, less noise. Das haben wir für dich im Gepäck:

🏆 Warum alle AI-Labs auf deinen Desktop wollen…
🎨 Dein Creative Stack wird zum Lego-Baukasten
🦾 Agents sind kein Upgrade. Sie sind eine andere Liga!

Los geht’s!

🏆 Warum alle AI-Labs auf deinen Desktop wollen…

Ein Muster wird offensichtlich, das niemand mehr wegdiskutieren kann. Die großen AI-Labs wollen nicht mehr nur ein Chatfenster in deinem Browser sein.

Sie wollen in dein Betriebssystem!

Der Grund ist banal: Eine Desktop-App hat auf deinem Computer dieselben Rechte wie du selbst. Browser öffnen, Terminal-Befehle feuern, Dateien lesen, in fremde Apps klicken, API-Schnittstellen aufrufen, Workflows laufen lassen, ohne dass du eine Taste drückst.

Wer dort sitzt, kann das Steuer deines Arbeitstags fest in die Hand nehmen.

Entsprechend wird jetzt gedrängelt. Anthropic hat Claude Opus 4.7 released und dann gleich noch Claude Design nachgeschoben. OpenAI hat Codex so radikal umgebaut, dass es quasi ein neues Produkt ist. Google hat endlich Gemini für Mac rausgebracht. Und Perplexity hat Perplexity Computer für alle Max-Subscriber ausgerollt.

Alle Labs rangeln um den Shortcut auf deiner Tastatur. Das kann nur gut werden.

Opus 4.7: bestes Coding-Modell - wenn du richtig promptest

Fangen wir mit dem Modell an, über das alle reden und zu dem jeder eine Meinung hat.

Opus 4.7 hat in der Code Arena locker Platz eins übernommen. Plus 37 Punkte über Opus 4.6, rund 130 Punkte Vorsprung auf GPT-5.4 und Gemini 3.1 Pro. Aber das sind halt nur Benchmarks, die selten den Praxiseinsatz widerspiegeln.

Und nachdem die ganze Welt weiß, dass das “Mythos”-Modell noch um einiges besser ist als Opus 4.7, halten sich die Begeisterungsstürme im Rahmen.

Was für dich relevant ist: Opus 4.7 liest weniger zwischen den Zeilen und verbraucht rund 35 % mehr Tokens bei identischem Input. Boris Cherny aus dem Claude-Team hat die neue Gebrauchsanleitung veröffentlicht.

Bei präzisen Briefings ist es aktuell das beste Coding-Modell. Bei schwammigen Prompts fällt es hinter 4.6 zurück. Letzte Woche dachten wir noch, dass Prompt Engineering passé sei - und nun macht es schon wieder eine Renaissance 😄!

Sprich: Sei präzise. Zwei Sätze reichen nicht mehr.

Und Pliny the Prompter hat dem Modell gleich mal den kompletten 150.000-Zeichen-System-Prompt entlockt und geleakt - und dann das Modell dazu gebracht, sich selbst zu jailbreaken... Bettlektüre für alle, die verstehen wollen, warum Claude tickt wie er tickt.

Codex: ist das die OpenAI App für (fast) alles?

OpenAI hat parallel Codex vom Coding-Tool zum kompletten Desktop-Agent ausgebaut. Die Ähnlichkeiten mit Claude Cowork sind nicht zu übersehen!

Dazu kommt ein neuer Marketplace mit über 90 Plugins, darunter Remotion. Agents laufen jetzt parallel (das ist stark). Für Entwickler liegt obendrauf noch ein substanzielles Agents SDK Update.

Und diese Woche soll uns noch ein größeres Modell-Update bevorstehen…

— # (#)

Das eigentliche Killer-Feature steckt aber woanders: die Heartbeats.

Diese “Herzschläge” halten deinen Codex-Thread lebendig. Er wacht in festen Intervallen auf, liest Slack, Gmail, Kalender, GitHub, merkt was sich bewegt hat, und meldet sich nur, wenn es wirklich relevant ist.

Ein einziger Thread kann über Wochen mitwachsen, deine Prioritäten lernen und zum persönlichen Assistenten werden!

Kurz: das ist die OpenClaw-Idee, in eine App gegossen (siehe Video zuunterst)!

Wenn du diese Woche nur ein einziges Tool testen willst, nimm Codex. Gib dem Agent eine langweilige, aber echte Aufgabe (zehn Rechnungen aus Gmail ziehen, kategorisieren, in Google Sheets eintragen) und schau zu. Das ist der erste Aha-Moment.

Der zweite Aha-Moment kommt, wenn Codex im Hintergrund mitlernen kann. Dafür richten wir uns einen Assistenten ein (oder du darfst dem auch “Chief of Staff” sagen, wenn du es fancy magst).

Nach einer Woche kennt er deine Prioritäten besser als dein Kalender!

So richtest du deinen “Chief of Staff” Schritt für Schritt ein

Codex herunterladen und installieren (bezahlter ChatGPT Account nötig)
Diesen Prompt von OpenAIs Jason Liu in Codex einfügen (deutsche Version hier) und die Fragen beantworten (10 Minuten).
Pro-Tipp: Du kannst das auch zuerst via ChatGPT vorbereiten lassen: “Hier ist ein Prompt für Codex. Bereite den vor, basierend auf allem, was du über mich weißt. Ergebnis: Neuer Prompt für Codex, der mir das alles direkt aufsetzt und nur noch das Nötigste abfragt. [Codex Prompt hier anfügen]”
Dann passende Plugin(s) verbinden und relevante Skills aktivieren
Bonus: Codex fragen: “Wie kannst du mich mit diesen Skills und Plugins am besten unterstützen und mir zeigen, was du alles kannst?”
~~Memories in den Einstellungen unter “Personalisierung” einschalten, damit das System laufend dazu lernen kann (leider in der EU nicht verfügbar)~~
~~In den Einstellungen unter “Computer Use” das Plugin installieren (leider in der EU nicht verfügbar). Es bedient den Computer fast~~ ~~so schnell und gut wie du.~~

Gemini für Mac ist noch basic - aber Google hat große Pläne

Auch Google war nicht untätig und hat letzte Woche die neue Gemini-App für Mac vorgestellt (Apple Silicon-Chips ab macOS Sequoia). Wurde auch langsam Zeit!

Die App selbst ist schnell, aber noch nicht sehr tief integriert. Heißt: es ist einfach der Gemini-Chatbot auf dem Desktop. Mehr nicht.

Eher weniger, denn einige Features wie die NotebookLM Integration fehlen noch. (Windows User bleiben natürlich erstmal außen vor und kriegen als Trostpreis eine Google Search App - leider nur auf Englisch.)

Aber Google wäre nicht Google, wenn sie nicht noch was in petto hätten…

— # (#)

Diese Woche findet die Google Cloud Next-Konferenz statt, in genau einem Monat steht die Google I/O-Konferenz an. Was aber nicht heißen soll, dass Google alle Highlights aufspart.

Google Chrome kann neu auch Skills, und in den USA wurde ein neuer AI-Mode gelauncht, der Websites direkt side-by-side statt in einem neuen Tab öffnet. Für Preisvergleiche, Recherche oder Tutorial-Durcharbeiten ist das super hilfreich.

Der Google-Kosmos macht aktuell an Boden gut. Die neuen Similarweb-Zahlen aus Q1 2026 bestätigen das: ChatGPT ist von 87,2 auf 68 Prozent Web-Marktanteil gesunken, während Gemini von 5,4 auf 18,2 Prozent zugelegt hat.

Übrigens, bei der Mobile-App-Nutzung von ChatGPT gab es sogar einen Absturz von 69 auf 45 Prozent. Die Desktop-Apps tauchen in diesen Statistiken nicht einmal auf. Genau dort versucht aber gerade jeder, sein Stück vom Kuchen abzuholen.

via X

Unter dem Strich: Vier Labs, vier Desktop-Strategien, ein Ziel. Wer auf deinem Computer der natürliche Shortcut ist, wird zum Default für alles.

Die Gewinner sind noch nicht entschieden. Aber der Default gewinnt. Immer.

🎨 Dein Creative Stack wird zum Lego-Baukasten

Parallel zum Desktop-Krieg ist diese Woche ein zweites Ding passiert, das fast untergegangen wäre. Design, Bild, Video und Ton werden zu AI-nativen, programmierbaren Schichten umgebaut.

Du kannst die Bausteine einzeln nutzen oder zu eigenen Pipelines zusammenstöpseln. Der Einstieg war noch nie einfacher.

Falls das interessant klingt: komm zu uns in die AI AUTOMATION Community! Es macht riesig Spaß, mit all den anderen AINAUTEN Neues zu erkunden 👨‍🚀.

Design: Claude Design sorgt für Figma-Aktienabsturz

Wenn du für ein Claude-Abo zahlst und nur im Chatfenster arbeitest, läßt du den Großteil deines Abo-Werts auf dem Tisch liegen.

Claude Design ist das spannendste Update der letzten Woche! Prompt rein, Prototyp raus. Als PDF, URL, PPTX, Canva-Export, html. Dein Design-Agent generiert damit ab sofort richtig starken Output statt generischem AI-Slop.

Läuft ausschließlich auf Opus 4.7 (deshalb auch der gemeinsame Launch) und ist als Research Preview für alle bezahlten Abos verfügbar.

Wenn du es in der Desktop-App suchst, wirst du leider nicht fündig… Aber du kannst es direkt unter https://claude.ai/design testen.

— # (#)

Figmas Aktie ist am Launchtag um sieben Prozent eingebrochen… und diese Woche findet der Adobe Summit in Vegas statt. Mal schauen, wie der über die Bühne geht…

Und hier noch ein Pro-Tipp: Verbinde Github und füge das awesome-design-Repo hinzu. Es hat fast 70 populäre Brand-Design-Systeme von Apple zu Lamborghini über Spotify bis Zapier als Textkontext codiert!

Wenn es um Designs für Web und Co. geht, ist Claude Design ein super Sparringspartner. Visuell ist der Sprung zwischen Opus 4.6 und Opus 4.7 Design zum Teil unheimlich…

Claude Design hat übrigens ein separates Tokenlimit und ist ein hungriger Kompagnon… Keep an eye on it.

— # (#)

Wir wollten es aber auch für Social-Media-Inhalte ausprobieren. Der praktische Workflow in der Theorie: in Claude Design den visuellen Entwurf machen, dann Export nach Canva und dort finalisieren. Zwei AI-Systeme hintereinander.

Wir haben es zweimal versucht… Aber Claude hat sich 45 Minuten lang im Kreis gedreht und es nicht geschafft, die Daten selbst nach Canva zu übergeben.

Resultat: “Hier ist das PDF, importiere es bitte selbst!”. Haben wir gemacht - leider waren die importierten Seiten weder editierbar noch im korrekten Seitenverhältnis. Bummer… Wenn es bei dir klappt, gerne kurz Bescheid geben. Vielleicht liegt es einfach an uns.

Apropos Canva: auf der Canva Create 2026 wurde gerade die AI 2.0 vorgestellt. Sechs neue Workflows (Connectors, Scheduling, Web Research, Brand Intelligence, Sheets AI, Canva Code 2.0), alles auf dem neuen Canva Design Model - das erste Foundation-Modell, das die Struktur von echtem Design versteht.

Bild: Codex liefert neu Bilder - und vielleicht bald GPT-Image-2?

Codex kann neu Bilder auch direkt in der App auf Basis von gpt-image-1.5 generieren. Ein nettes “Quality of Life”-Upgrade - wir sind dankbar für jedes Copy-Paste, das sich vermeiden läßt.

Vor Kurzem sind auf LM Arena drei anonyme Modelle aufgetaucht und innerhalb weniger Stunden wieder verschwunden. Community-Konsens: Das ist OpenAIs nächste Bildgeneration! Und sie delivered.

Bestätigt ist nichts. Aber OpenAIs DALL-E-Modell wird am 12. Mai offiziell eingestellt. Da wäre das doch eine würdige Ablösung!

— # (#)

Audio: Das neue Google Modell ist besser und günstiger als ElevenLabs, aber …

Jetzt zum Thema Ton.

Google hat die Tage Gemini 3.1 Flash TTS gelauncht. 70+ Sprachen, natürliche Dialoge mit mehreren Sprechern, granulare Kontrolle über Stil und Tempo via Audio-Tags direkt im Text. Klang nach dem Gegengift gegen unser ElevenLabs-Budget-Problem.

Der Kontext: letzte Woche haben wir den Monster-New-Yorker-Artikel über Sam Altman von ElevenLabs auf Englisch vertonen lassen. Ergebnis: schön. Aber das 90 Minuten-Audio hat in einem Aufwisch unser gesamtes $5-Monatsbudget verbraten!

Unser Plan: Den Artikel gleich mal mit dem neuen Gemini-Modell auf Deutsch vertonen lassen. Realität: hat nicht funktioniert, weil wir immer in Rate-Limits reingelaufen sind.

Neuer Plan: Mit Google AI Studio kurzerhand eine kleine App gebaut, welche den Artikel zuerst in einzelnen Häppchen als Audio generiert und dann in ein finales MP3 zusammenschnipselt. Aber auch hier hat uns Google mit den Rate-Limits einen Riegel vorgeschoben… trotz eigenem API-Key!

Das neue Modell verspricht zwar, eine starke und preiswerte Alternative für Podcasts, Newsletter-Audio, Video-Voice-Over etc. zu sein - für längere Texte müssen wir wohl noch etwas ~~gut zureden~~ abwarten… Hier aber schon mal ein kleiner Vorgeschmack, was dir bald für kleines Geld zur Verfügung steht.

Auf den letzten Drücker haben wir gesehen, dass es auch von Grok noch ein neues Text-to-Speech-Modell gibt - ebenfalls kurz angetestet, preislich attraktiv. Wer es lieber ganz Open Source mag, kann sich Voicebox anschauen.

Video: HeyGen, Remotion, OpenMontage - at your fingertips!

HeyGen hat HyperFrames als open source released. Du gibst einfach HTML rein, und raus kommt ein knackiges Video. HeyGen hat das eigene Launch-Video übrigens selbst mit HyperFrames gebaut.

— # (#)

Und HeyGen agiert nicht im Vakuum. Remotion ist seit Wochen das Lieblingsthema auf X, wenn es um programmatisches Video geht. Falls du es noch nicht auf dem Radar hast: Remotion ist ein Framework, mit dem du statt in einem Editor zu klicken jeden Frame als Komponente in Codeform definierst (also nicht du, das macht dein Agent).

Weil Remotion im Januar einen Claude-Code-Skill rausgehauen hat, ist das Ding quasi überall: 150.000 Installs auf skills.sh, Platz 5 der meistinstallierten Skills überhaupt, Platz 1 unter den nicht-plattform-eigenen und neu auch im Codex Marketplace. Creator Jonny Burger kommt übrigens aus Zürich, wir feiern es.

Wer das Thema Video noch weiterspinnen will: OpenMontage ist eine agentische Video-Produktionsmaschine. 12 Pipelines, 52 Tools, 500+ Agent Skills, und laut eigenen Angaben 69 Cent für einen kompletten Cinematic-Werbeclip.

Du kannst verschiedene Modelle über fal.ai, Suno, ElevenLabs, HeyGen, Runway, etc. ansteuern. Open Source, kombinierbar mit Claude Code, Codex und Co.

Unser Take: Du kannst deinen Creative Stack selbst bauen

Das große Bild ist simpler, als die einzelnen Launches vermuten lassen.

Design, Bild, Video und Ton sind alle zu AI-nativen, programmierbaren Schichten geworden. Bausteine, die du einzeln oder kombiniert nutzt.

Wer eine komplette Pipeline vom Briefing bis zum fertigen Werbespot haben will, kombiniert Claude Design fürs visuelle Konzept, Remotion, HyperFrames oder OpenMontage für das Rendering, Gemini TTS oder ElevenLabs für die Sprachspur. Alles open source oder über Standard-Abos.

Wir haben vor einer Weile selbst eine starke Content-Maschine mit Make, Airtable und API-Anbindungen gebaut. Das Resultat war gut👌, aber es war ein Krampf. Wochenlanges Bausteine-Verbinden, Testen, Fluchen, kleine Erfolgserlebnisse, Neuanfang.

Heute kannst du dir deine eigene Content-Pipeline an einem langen Nachmittag mit Claude oder Codex bauen. Wenn du willst!

🦾 Agents sind kein Upgrade. Sie sind eine andere Liga!

Peter Steinberger hat seinen TED Talk 2026 gehalten. Peter ist der österreichische Exportschlager und Macher hinter OpenClaw. Inzwischen sitzt er bei OpenAI und heckt den nächsten Hit aus.

Wenn du eine Sache in dieser Woche schaust, dann diese. Wer breit grinst und feuchte Augen kriegt: ganz normaler Nebeneffekt.

Sein Talk erzählt die Geschichte, wie er seinen AI-Agent zum ersten Mal richtig aufs Internet losgelassen hat. Über Nacht hatte er 800 Nachrichten, ist in Panik verfallen und hat den Stecker gezogen. Das war der Moment, in dem ihm klar wurde, dass er keinen besseren Chatbot vor sich hat, sondern etwas fundamental anderes.

Der Kern seiner Botschaft: Agents sind nicht einfach ein Chatbot-Upgrade. Sie sind ein Wechsel in eine andere Liga. Ein Chatbot gibt dir Worte. Ein Agent handelt. Und dieser Unterschied verändert, wie du arbeitest, was du delegierst und welche Probleme du überhaupt noch selber anpacken musst.

Punktlandung. Das deckt sich ziemlich exakt mit dem, was wir in den letzten Monaten im AInauten-Umfeld sehen. Wer einmal einen Agent gebaut hat, der im Hintergrund Dinge erledigt, während er selbst an etwas anderem arbeitet, kommt nicht mehr zurück.

Wer tiefer einsteigen will: Peter war vor Kurzem auch zu Gast bei Lex Fridman. Drei Stunden, deutlich roher als der TED Talk, und mit den Hintergründen, die in zwölf Minuten einfach nicht reinpassen.

Wenn du sehen willst, was das praktisch bedeutet, lies die Erfahrungen der Teilnehmer unseres AI MITARBEITER-Bootcamps und schau es dir direkt in der AI AUTOMATION-Community an.

Geschafft! Das war es von uns zum Wochenstart. Ziemlich vollgepackt, hoffentlich war was für dich mit dabei.

Wenn du nur eine Sache aus diesem Newsletter mitnimmst: der Desktop wird in den nächsten zwölf Monaten komplett neu sortiert.

Wer jetzt seine Desktop-App zum Assistenten macht, hat Superkräfte. Wer zögert, entscheidet trotzdem… Nur nicht selbst.

Die Werkzeuge sind da. Die Zeit, sie auszuprobieren, ist jetzt. Bis Donnerstag!

Reto & Fabian von den AInauten

⭐️ Wie hat dir diese Ausgabe gefallen?

Die AInauten Journey: So können wir dir helfen!

⭐ AI EXPLORER: Der schnelle Einstieg in die AI-Welt, perfekt zum Reinschnuppern, wenn du noch keine Erfahrung hast. Mehr erfahren »

⭐⭐⭐ AI POWER USER: Werde zum AI-Profi in 30 Tagen. ChatGPT Masterclass, Prompting Pro Bootcamp, 50+ Deep-Dives mit wöchentlichen Updates. Spare 10+ Stunden pro Woche. Kein Abo. Mehr erfahren »

⭐⭐⭐⭐⭐ AI AUTOMATION EXPERT: Die Königsklasse. Alle unsere Trainings aus AI EXPLORER und AI POWER USER! Plus Community mit Support. Baue Systeme, die 24/7 für dich arbeiten - mit Zapier, Make, n8n Trainings, Vibe Coding, 50+ Use Cases und Tool-Rabatte. Mehr erfahren »

👨‍🚀 Die Ära der Desktop-Agents beginnt

🏆 Warum alle AI-Labs auf deinen Desktop wollen…

Opus 4.7: bestes Coding-Modell - wenn du richtig promptest

Codex: ist das die OpenAI App für (fast) alles?

Gemini für Mac ist noch basic - aber Google hat große Pläne

🎨 Dein Creative Stack wird zum Lego-Baukasten

Design: Claude Design sorgt für Figma-Aktienabsturz

Bild: Codex liefert neu Bilder - und vielleicht bald GPT-Image-2?

Audio: Das neue Google Modell ist besser und günstiger als ElevenLabs, aber …

Video: HeyGen, Remotion, OpenMontage - at your fingertips!

Unser Take: Du kannst deinen Creative Stack selbst bauen

🦾 Agents sind kein Upgrade. Sie sind eine andere Liga!

⭐️ Wie hat dir diese Ausgabe gefallen?

Die AInauten Journey: So können wir dir helfen!

Weiterlesen

AINAUTEN

AI EXPLORER

AI POWER USER

AI AUTOMATION EXPERT

KONTAKT

TESTIMONIALS

IMPRESSUM