• AInauten
  • Posts
  • 🤯 Echt irre: Diese wilden AI-Videos musst du sehen

🤯 Echt irre: Diese wilden AI-Videos musst du sehen

PLUS: Sora Text-zu-Video Deep Dive, OpenAI News-Roundup

AI-HOI und guten Morgen, AInauten!

… dabei hatte Google doch alles so schön geplant, damit die ganze Welt darüber spricht: 1 Million Token-Kontextfenster in Gemini 1.5! Ein absolut gewaltiger Meilenstein, den Google letzten Donnerstag verkündet hat.

Doch leider reicht es nur für einen Nebensatz … denn OpenAI hat nur darauf gewartet, seinem Erzrivalen die Show zu stehlen. Zwei Stunden später wurde etwas vorgestellt, das die Welt noch nicht gesehen hat! Deshalb ist das hier auch die umfangreichste Ausgabe, die wir je publiziert haben. Ready? Let’s go!

Das haben wir heute für dich im Gepäck:

  • 💥 DEEP DIVE: OpenAI lässt Sora-Bombe platzen:
    Diese Video-Revolution stellt alles andere in den Schatten!

  • 🎭 OpenAI: Epizentrum der AI-Revolution, Brennpunkt der Kontroverse

  • 🤭 AI-Fun: Der OpenAI Messias

Langeweile ist ein Fremdwort in der Welt von (Open)AI. Anschnallen, Kaffee holen und los geht’s – es wird eine wilde Fahrt mit viel Anschaungsmaterial, die den Horizont erweitert! In der nächsten Ausgabe dann wieder weniger OpenAI und mehr Praxis-Tipps. Wenn es dir gefällt: E-Mail gerne weiterleiten.

💥 OpenAI lässt Sora-Bombe platzen: Diese Video-Revolution stellt alles andere in den Schatten!

Dass du aus einem simplen Textprompt ein kurzes Video generieren kannst, ist hinlänglich bekannt. Und auch die damit verbundenen Einschränkungen: nur kurze Sequenzen, beschränkte Kontrollmöglichkeiten, nicht immer realistisch, etc.

Doch das gehört dank OpenAIs Sora bald der Vergangenheit an!

Bevor wir hinter die Kulissen schauen, haben wir dir ein Video mit all den OpenAI Demos zusammen gestellt - einfach mal durchskippen. Holy moly! … und das ist nur die Spitze des Eisbergs, die OpenAI mit der Öffentlichkeit teilt.

Folgende 10 Themen erwarten dich in diesem Deep-Dive:

  1. 🙀 Erschreckend gute AI-Videos, besser als alles andere

  2. 🫥 Angst um Jobs und Geschäftsmodelle

  3. 🎥 Die Krux mit den AI-Imperfektionen

  4. 🥊 Text-zu-Video - Sora hängt die Konkurrenz locker ab

  5. 🪩 Sora ist ein Welten-Simulator und versteht den 3D-Raum

  6. 🤖 Sora + Roboter = die perfekte Kombo?

  7. ⚠️ Das enorme Risiko, das von Sora & Co. ausgeht …

  8. ⚖ Rechtliche Probleme am Horizont

  9. 🛑 Social Media Plattformen kämpfen gegen Windmühlen

  10. 👀 AInauten, watt nu …?

🙀 Erschreckend gute AI-Videos, besser als alles andere

Sora tritt damit in eine Arena ein, in der bereits andere Player wie Google mit seinem Lumiere-Modell und Startups wie Runway und Pika mitwirken, und hebt den Wettbewerb auf ein neues Level. Die Übersicht der Mitbewerber findest du am Ende des Beitrags.

Und es ist nicht einfach ein weiteres Tool; es ist eine echte Meisterleistung der AI-Technologie. Stell dir vor: Videos, die direkt aus Text entstehen, mit einer Länge von bis zu einer Minute, detaillierten Szenen, komplexen Kamerabewegungen und Charakteren, die vor Emotionen nur so sprühen!

Und wie wäre es, die Videos auch direkt mit einer Soundkulisse zu untermalen? Unser liebster AI-Voice Generator ElevenLabs zeigt, wie das aussieht (und nutzt dabei den Sora-Hype geschickt, um das neue Feature “AI Sound Effects“ anzuteasern).

Aktuell ist Sora erstmal nur einer ausgewählten Gruppe von kreativen Profis und Testern zugänglich, um Feedback zu sammeln und das Modell weiter zu verfeinern. Und das aus gutem Grund (dazu später mehr)!

🫥 Angst um Jobs und Geschäftsmodelle

Ein Quantensprung: gestern war das höchste der Gefühle ein 3-4 Sekunden Clip, heute kannst du ganze 60 Sekunden Meisterwerke in einem Rutsch generieren, oder die Szene anpassen lassen (wie der untestehende Tweet anschaulich zeigt). Und das alles basierend auf einer einzigen Texteingabe!

Damit eröffnen sich neue Möglichkeiten in der Videoproduktion, im Storytelling, in der visuellen Kunst, … Das wird einige kreative Berufsgruppen und Geschäftsmodelle (Stockvideos, anyone?) dazu zwingen, sich weiter zu entwickeln.

Aufnahmen, die heute teuer und zeitaufwendig produziert werden, sind bald preiswert und praktisch sofort verfügbar (Lizenzierung vorausgesetzt).

Filmemacher, Werbetreibende, Unternehmen und Co. können ihre Ideen mit synthetischem Video storyboarden oder sogar – wenn es die Gewerkschaften zulassen – komplette Programme damit produzieren.

Ungewohnte kreative und heute schwer vorstellbare Auswüchse werden entstehen – zur Unterhaltung, Bildung und Ablenkung. Es werden Welten generiert, die wir uns noch gar nicht ausmalen können.

🎥 Die Krux mit den AI-Imperfektionen

Klar, die aktuellen Videos haben kleine Mängel und sind noch nicht perfekt. Sora kann Schwierigkeiten haben, die Physik komplexer Szenen zu simulieren oder bestimmte Ursache-Wirkungs-Zusammenhänge zu verstehen.

Zum Beispiel könnte ein Charakter in einen Keks beißen, aber danach fehlt möglicherweise die Bissmarke​. Oder Tiere und Menschen replizieren sich spontan, wie in diesem Rudel Wolfswelpen …

Sam Altman hat die Community dazu eingeladen, Prompt-Vorschläge zu machen, um die Fähigkeiten von Sora zu demonstrieren. Zum Beispiel:

Schauen wir uns das Affen-Video etwas genauer an. Es strahlt eine Autorität und Realität aus, obwohl diese Szene nie stattgefunden hat.

Der Knackpunkt ist hier nicht der Affe, sondern das Schachspiel selbst: dort stehen drei Könige auf/neben einem 7x7 Brett, anstelle des universellen 8x8 Musters.

Bestimmt hat aber keiner der Trainingsdatensätze jemals ein solches Brett oder eine solche Position enthalten!

Was offenbart uns dieser Fehler? An unzureichender Rechenleistung und einem Mangel an Daten kann es nicht liegen. Stattdessen versucht das System, die Welt anzunähern - aber versteht sie noch nicht perfekt.

🥊 Text-zu-Video - Sora hängt die Konkurrenz locker ab

Aber im direkten Vergleich zu den anderen Text-zu-Video-Anbietern gibt es keine Zweifel, dass OpenAI trotz dieser Imperfektionen hier etwas ganz Großes gelungen ist!

Das sind die wichtigsten Mitbewerber in der Text-zu-Video-Arena:

  • RunwayML hat mit seinem Gen-2-Update und dem “Motion Brush”-Feature die Aufmerksamkeit auf sich gezogen. “Game on”, war dann auch der Kommentar von Co-Founder Cristóbal Valenzuela.

  • Stability AI, bekannt für seine Arbeit in der Bildgenerierung, hat vor Kurzem ein Videomodell namens Stable Video Diffusion vorgestellt, das derzeit für Forschungszwecke verfügbar ist.

  • Pika Labs hat sein Tool Pika 1.0 für alle Nutzer verfügbar gemacht.

  • Meta hat ein Tool namens Make-A-Video eingeführt und das Emu Video Modell angekündigt, das in soziale Netzwerke integriert werden soll.

  • Google hat vor wenigen Tagen das multimodale Gemini 1.5 vorgestellt und arbeitet an Lumiere-Modellen, deren Veröffentlichungsdatum noch ungewiss ist.

Die wichtigsten Player, deren Text-zu-Video-Generatoren du bereits nutzen kannst

  • xAI von Elon Musk hat bisher keinen Text-zu-Video-Generator angekündigt, aber Bestrebungen in diese Richtung würden uns nicht überraschen.

  • Amazon hat den Lex-Chatbot und Titan-Bildgenerator vorgestellt, jedoch noch keine Informationen über Videogeneratoren veröffentlicht.

  • Last, but not least: Midjourney! Anfangs Jahr hat der Platzhirsch unter den Bildgeneratoren angekündigt, dass man mit dem Training eines Text-zu-Video-Modells starte. Wir sind gespannt, sehr sogar.

Interessant ist auch, dass die Sora-Prompts bei Midjourney ähnliche Resultate bringen. Wir sind ja gespannt, was aus dieser Küche kommen wird, die Messlatte ist nun definitiv hoch angesetzt!

🪩 Sora ist ein Welten-Simulator und versteht den 3D-Raum

Ok, es gibt einen wichtigen Punkt bei Sora, der uns aufhorchen lässt und die Synapsen zum Feuern gebracht hat: OpenAI sagt nämlich, dass das Modell die 3D-Welt simulieren kann!

Unter der Haube wird eine Transformer-Architektur genutzt, wie sie auch bei den GPT-Sprachmodellen zum Einsatz kommt, und mit den Möglichkeiten der Bildgeneratoren kombiniert.

Sprich: Sora manipuliert nicht nur Pixel (wie das die Diffusion-Modelle tun, um Bilder zu generieren), sondern entwickelt eine Konzeptualisierung von dreidimensionalen Szenen, die sich über die Zeit entfalten!

Unser Gehirn macht wahrscheinlich etwas Ähnliches; wenn wir uns Szenen und Orte ausmalen, stellen wir uns nicht nur vor, wie sie aussehen, sondern was sie sind.

Und das bedeutet wiederum, dass Sora nicht nur ein System zur Erzeugung von Videos ist.

Es ist ein Schritt hin zur Entwicklung von universellen Simulatoren der physischen Welt. Diese bieten eine realistische Darstellung dessen, wie Objekte in der realen Welt interagieren, und was für Emotionen die Charaktere zeigen​​ könnten.

🤖 Sora + Roboter = die perfekte Kombo?

Lass uns nicht um den heißen Brei herum reden: Sora ist auf dem besten Weg, den Menschen in Sachen Weltverständnis alt aussehen zu lassen.

Und was passiert, wenn diese Superintelligenz auf Beine (oder Räder) trifft? Genau, Sora-Androiden werden nicht lange auf sich warten lassen und unsere Welt erkunden und uns zur Hand gehen, als wären sie schon immer Teil davon gewesen.

Im Krankenhaus, in der Fabrik, zu Hause, bei Rettungseinsätzen oder im Klassenzimmer - halt überall da, wo’s brenzlig wird oder Unterstützung gebraucht wird.

Letztendlich wird die Kombination von AI und Robotik zu massiven Innovationen führen, die unser Leben auf unvorstellbare Weise bereichern.

OpenAI sieht Sora auch als ein Basismodell auf dem Weg zu AGI, der allgemeinen künstlichen Intelligenz, die uns praktisch in allen Belangen überlegen sein wird …

Ok, die Sora-Robo-Kombo ist definitiv ein freaky Trip in Richtung Zukunft, der uns alle ein bisschen mehr Sci-Fi im Hier und Jetzt erahnen lässt.

Es ist eine aufregende, aber auch herausfordernde Zukunft, die eine enge Zusammenarbeit zwischen Technologen, Ethikern, Politikern und der breiten Öffentlichkeit erfordert, um sicherzustellen, dass die Technologie der Menschheit dient und nicht schadet.

  • Wie stellen wir sicher, dass diese Androiden sicher und verantwortungsbewusst handeln?

  • Wie bewahren wir die menschliche Autonomie und Kontrolle in einer Welt, in der Maschinen zunehmend menschenähnliche Fähigkeiten erlangen?

Fragen über Fragen … auf die wir auch keine Antwort haben.

⚠️ Das enorme Risiko, das von Sora & Co. ausgeht …

OpenAI ist sich bewusst, dass mit großer Macht auch große Verantwortung kommt, insbesondere im Hinblick auf Risiken wie die Verbreitung von Fehlinformationen und Erstellung von Deepfakes.

Der WEF Global Risks Report 2024 listet die größten Risiken, unter anderem:

  • die negativen Folgen künstlicher Intelligenz

  • gesellschaftliche und politische Polarisierung

  • Cyberkriminalität

Und das sind alles Risiken, die mithilfe der OpenAI Modelle eine ganz neue Dimension annehmen …

Der technologische Fortschritt erhöht das Missbrauchspotenzial akut. Die Fortschritte bei Videogeneratoren werden solche Videoinhalte glaubwürdiger machen und auch deren Erkennung erschweren.

Die Sorge von OpenAI ist berechtigt, und wird praktisch von jedem Unternehmen in diesem Bereich geteilt.

Deshalb wurden für das Testing von Sora auch sogenannte “Red Teamer” engagiert - Experten in Bereichen wie Desinformation, hasserfüllte Inhalte und Bias, die potenzielle Risiken und Schwachstellen im Modell identifizieren sollen​​.

Das ist aber nur eines der Problemfelder, mit denen sich OpenAI befassen muss.

⚖ Rechtliche Probleme am Horizont

Auch rechtlich könnte es herausfordernd werden, denn worauf das Modell trainiert wurde, geht aus dem technischen Paper nicht hervor …

NVIDIA’s Jim Fan vermutet, dass das Model (unter anderem) mit hochwertigen synthetischen Trainingsdaten gefüttert wurde, wie man sie von Game Engines her kennt.

Aber so genau weiß es noch keiner … Diese fehlende Transparenz spiegelt einen wachsenden Trend in der AI-Branche wider. Verständlich, vor dem Hintergrund zahlreicher Klagen gegen AI-Unternehmen - aber nicht hilfreich für die Sache.

Die Debatte über die Grenzen des fairen Gebrauchs und Urheberrechte in der AI-Ära wird uns weiter beschäftigen. Besonders betroffen davon sind visuelle Künstler und Schauspieler.

Letztere haben aus Angst vor Ersetzbarkeit durch AI bereits gestreikt, und auch OpenAI selbst ist in einige Streitigkeiten verwickelt, zum Beispiel mit der New York Times.

OpenAI hat seine Richtlinien bereits geändert und betont, die Rechte von Inhaltschaffenden zu respektieren. Man will sogar mit ihnen zusammenarbeiten, damit sie von den neuen Möglichkeiten profitieren können.

Doch trotz dieser Bemühungen bleibt die Spannung zwischen dem Bedarf an umfangreichen Trainingsdaten für die Entwicklung leistungsfähiger AI-Modelle und dem Schutz geistigen Eigentums bestehen.

🛑 Social Media Plattformen kämpfen gegen Windmühlen

In der Vergangenheit wurden Meta, Twitter/X, YouTube & Co. beschuldigt, nicht genug zu tun, um die riesigen Mengen an Falschinfos und Hassreden auf ihren Plattformen zu bekämpfen.

Nun kollidiert der technologische Fortschrit mit einem ohnehin herausfordernden Wahljahr, in dem die Hälfte der Weltbevölkerung wählt … (Social) Media Unternehmen stehen mehr denn je unter Druck, Falschinfos zu unterbinden.

via Time.com

An der Münchner Sicherheitskonferenz haben deshalb am letzten Freitag 20 wichtige Unternehmen eine Erklärung unterzeichnet, worin sie sich verpflichten, die Risiken im Zusammenhang mit künstlicher Intelligenz und Wahlintegrität zu verringern.

Die Unterzeichner sind: OpenAI, Microsoft, Meta, Google, Adobe, Amazon, Anthropic, Arm, ElevenLabs, IBM, Inflection AI, LinkedIn, McAfee, Nota, Snap, Stability AI, TikTok, TrendMicro, Truepic und X.

👀 AInauten, watt nu …?

Du siehst, diese Entwicklungen zeigen deutlich, wie dynamisch und vielschichtig die Welt der künstlichen Intelligenz ist - und wie sie immer weiter in verschiedenste Bereiche unseres Lebens vordringen wird.

OpenAI spielt zweifellos eine Schlüsselrolle in diesem epischen Abenteuer und treibt Innovationen voran, die nicht nur die technologische Landschaft verändern, sondern auch tiefgreifende Auswirkungen auf unsere Gesellschaft und Zukunft haben werden.

Wohin die Reise führt, wissen auch wir nicht. Deshalb, im übertragenen Sinne: immer schönen einen Fuss vor den anderen setzen, und dabei den Blick auf die Landkarte und das Wetter am Horizont nicht aus den Augen verlieren. Auf geht’s!

🎭 OpenAI steht im Epizentrum der AI-Revolution und Brennpunkt der Kontroverse

Aiaiaiai, abgesehen von Sora war aber auch sonst viel los bei OpenAI in den letzten Tagen! Eine Achterbahnfahrt der Innovationen und Kontroversen, deshalb hier weitere News zum wichtigsten Unternehmen unserer Zeit:

  • ⚖️ Was der EU-AI-Akt für ChatGPT bedeutet: Das neue Gesetz legt die Latte hoch: Sicher und ethisch muss es zugehen in der AI-Welt, während Forschung und ChatGPT mit einer Extraportion Freiraum zum Tüfteln ausgestattet werden.

  • 🧠 ChatGPT mit Memory Funktion: OpenAI testet eine Memory-Funktion, die ChatGPT erlaubt, sich Dinge zu merken oder zu vergessen. Quasi ein Gedächtnisupgrade für unseren digitalen Assistenten. Leider ist es erstmal nur ein kleiner Test, und bestimmt sind alle Europäer ausgeschlossen (DSGVO und so) …

  • 🔍 Markenrecht - Ein steiniger Weg für GPT: Das US-Patent- und Markenamt hat OpenAIs Antrag auf Markenschutz für den Begriff “GPT” abgelehnt, da zu allgemein. OpenAI kann aber Berufung einlegen.

  • 🌍 Proteste vor den Toren von OpenAI: Aktivisten protestieren gegen die Zusammenarbeit mit dem US-Militär, nachdem das Unternehmen sein Verbot für "Militär und Kriegsführung" stillschweigend aufgehoben hat. „Man muss kein Genie sein, um zu verstehen, dass der Bau leistungsstarker Maschinen, die man nicht kontrollieren kann, vielleicht eine schlechte Idee ist.“

🤭 AI-Fun: Der OpenAI Messias

OpenAI, vom Algorithmus zum Allmächtigen …

Geschafft! Aber kein Grund zum traurig sein. Die AInauten sind schon bald wieder zurück, mit neuem Futter für dich.

Bis bald, deine AInauten

Folge uns auf Twitter & LinkedIn!

Du willst mehr? So können wir dir helfen:

  1. Das AI-Bootcamp: Der wohl schnellste & einfachste Einstieg in die Welt der AI. Im Bootcamp lernst du in über 50+ Videos, wie du AI für dich wirklich anwenden kannst. In weniger als 2 Wochen wirst du so zum AI-Experten. Von Prompts, zu Bildern und Videos, bis zu AI im Office ist alles mit dabei.

  2. Der AI-Vault: Jede Woche neue AI Praxis-Videos, Tutorials, Tool-Tests, Promptvorlagen, Experimente uvm. Für alle AI-Enthusiasten, die die Basics bereits drauf haben und noch tiefer in die Praxis einsteigen wollen. Oder einfach gemeinsam entdecken wollen.

Dein Feedback ist für uns essenziell. Wir lesen JEDEN Kommentar und Hinweis. Sag uns, was (nicht) gut war, und was für DICH interessant ist.

⭐️ Wie hat dir diese Ausgabe gefallen?

Login oder Abonnieren um an umfragen teilzunehmen.

Reply

or to participate.