AINAUTEN
Posts
👯 OpenAI klont unsere Stimmen

👯 OpenAI klont unsere Stimmen

PLUS: Diese AI-Tools machen Videobearbeitung kinderleicht

Die AInauten
4. April 2024

Grüße gehen raus an alle AInauten!

Es ist Donnerstag und hier kommt wieder der AI-Newsletter mit den wichtigsten News, Tools & Hacks rund um das Thema künstliche Intelligenz.

Das haben wir heute für dich im Gepäck:

👯 OpenAI klont unsere Stimmen (BALD)
💽 So smart umgeht China die AI Chip-Sanktionen
🎥 Diese AI Tools machen Videobearbeitung kinderleicht
📰 AI-News-Quickie: Die HAI-lights

Los geht’s!

👯 OpenAI klont unsere Stimmen (BALD)

Unsere Freunde von OpenAI haben wieder einmal etwas Neues vorgestellt: ein neues Stimmen-Modell namens Voice Engine.

Die Idee ist nicht neu. Menschlich sprechen können Computer schon lange. Hi Alexa 👋.

Das Spannende an der aktuellen AI-Stimmenwelle ist, dass man damit jede Stimme sehr schnell klonen kann.

Mit dem Stimmenklon kann man dann alles basierend auf Texteingaben sagen lassen, in nahezu jeder erdenklichen Sprache. Und das Resultat ist dabei kaum mehr vom Original zu unterscheiden.

Auch das ist nicht per se neu, aber trotzdem beeindruckt OpenAI uns wieder einmal: Dem Voice Engine Model reichen 15 Sekunden Sprachaufnahme einer Stimme, um diese zu klonen. 🤯

Das ist ziemlich stark. Im OpenAI Blog findest du beeindruckende Bespiele.

Leider ist es uns noch nicht möglich, Voice Engine zu nutzen – analog zu Sora gibt es hier Bedenken seitens OpenAI, besonders in Bezug auf die kommenden Wahlen in den USA und der Verbreitung von Deepfakes.

So klonst du deine Stimme

Aber du musst Gott seid Dank nicht auf OpenAI warten, um einen Klon deiner Stimme zu erstellen.

Wir nutzen AI-Voices und auch unsere eigenen geklonten Stimmen schon sehr lange. Das aktuell beste Tool dafür ist hier wohl ElevenLabs.

Es liefert dir mit 1–2 Minuten Sprachaufnahme deiner Stimme wirklich sehr gute Ergebnisse, und wir haben mittlerweile einen ganzen Fundus an geklonten Stimmen:

Du hast zwei Möglichkeiten, eine Stimme zu klonen. Einmal Instant und einmal Professional.

Einfach eine 1–2 Minuten Aufnahme deiner Stimme machen und hochladen.

Die Professional-Voice ist etwas aufwändiger, aber auch viel besser in der Qualität. Du brauchst dafür ein gutes Mikrofon und eine ruhige Umgebung.

Günstige Einsteiger-Mikros sind z. B. das Audio Technica AT2020 oder das Rode NT1. Damit sollte es klappen, und du kannst die Stimme danach auch noch finetunen.

Übrigens, ElevenLabs hat das Thema mit der Sicherheit ganz gut gelöst. Bei einer Professional Voice muss man während des Cloning-Prozesses einen vorgegebenen Text live vorlesen. Dadurch wird sichergestellt, dass du auch nur deine eigene Stimme klonen kannst.

“ We first developed Voice Engine in late 2022 “
Says it all folks.
— Jimmy Apples 🍎/acc (@apples_jimmy)
7:57 PM • Mar 29, 2024

Unser Take: OpenAI kocht viele Süppchen, von denen wir nichts wissen.

Man merkt, dass OpenAI technologisch schon wirklich am weitesten fortgeschritten zu sein scheint. Voice Engine wurde bereits Ende 2022 entwickelt und wurde erst jetzt öffentlich angekündigt!

Zudem sind sie aber auch so allgemein bekannt, und jedes Update sorgt für viel Aufmerksamkeit und Wirbel. Dadurch können sie nicht mehr so schnell neue Modelle in den Markt schieben wie früher. Und das ist eine Chance für Start-ups mit innovativer Technologie.

💽 So smart umgeht China die AI Chip-Sanktionen

Rund um Chips, Rechenleistung, NVIDIA und Stromverbrauch gibt es jede Menge heißer Diskussionen. Eine davon dreht sich um die Rivalität zwischen den USA und China.

China ist nämlich aufgrund von US-Sanktionen gerade etwas abgeschnitten worden von den aktuellen Hochleistungschips von NVIDIA.

Doch wie so oft, wenn der Druck wächst, entfacht dies den Innovationsgeist der heimischen Industrie. Sie startet damit, sich selbst aus der Misere zu helfen. Ein erstes Beispiel sind die neuen Chips von Intellifusion.

Diese haben bei weitem nicht die Power der NVIDIA-Top-Modelle, aber sie sind unglaublich günstig. Genauer gesagt: 90 % günstiger, bereits ab knapp 140 Euro zu haben.

Um zum Beispiel die neue Generation der Windows Computer zu nutzen (bei denen Copilot lokal vorinstalliert ist), schreibt Microsoft 40 TOPS vor. (TOPS beschreiben die Rechenleistung der Chips)

Die Chips von Intellifusion kommen auf 48 TOPS und Ende des Jahres auf 96 TOPS. Nicht schlecht! Das Ziel von Intellifusion ist es auch nicht, die schnellsten Chips der Welt zu bauen – sondern vielmehr “90% billigere AI Hardware für 90% der relevanten Szenarien” zu bauen!

Ein anderes Beispiel der Marktdynamik ist “die schnellste AI der Welt”, Groq. Wir haben ebenfalls ausführlich berichtet.

Unser Take: Darum ist es relevant!

Die Hardware-Diskussion ist ein gewichtiges Thema mit weitreichenden Folgen - sei es der Energieverbrauch, Handelskonflikte oder die Sicherheit von Lieferketten.

Doch wie so häufig, sind wir der Meinung, dass langfristig gesehen innovative Technologien der Schlüssel zur Lösung dieser Herausforderungen sein werden.

Das Beispiel aus China zeigt einmal mehr, wie anpassungsfähig Menschen und Wirtschaft sein können, wenn sich die Rahmenbedingungen ändern.

🎥 Diese AI Tools machen Videobearbeitung kinderleicht

Wir sind gerade dabei, uns im Bereich Video technisch besser aufzustellen.

Für Social Media und unsere Online Kurse verbringen wir mehr und mehr Zeit mit dem Thema Videos schneiden, bearbeiten etc.

Daher spielen wir gerade mit verschiedenen Tools herum, die wir hier einmal kurz vorstellen wollen. Und vielleicht interessiert es dich ja auch?

Es ist erstmal nur eine kurze Vorstellung, umfangreichere Tutorials folgen dann in den nächsten Wochen wie immer im AI-Vault.

Ok, let’s go! Wir starten mit:

CapCut

Der kostenlose Videoeditor aus dem Hause TikTok. Viele Vorlagen, einfach zu bedienen, viele Features. Ach ja, und sogar kostenlos!

Lieblingsfeature hier ist der Background-Remover bei Videos.

Opus Clip

Hierzu bringen wir diese Woche noch das erste Test-Video im Vault.

Opus Clip macht aus deinem längeren Video, wie z. B. einem Interview, mehrere kürze Clips – passend für TikTok, Insta Reels oder YouTube Shorts.

Dabei schnipselt es nicht nur wahllos Clips zusammen, sondern sucht die spannendsten Momente heraus, verpasst ihnen Untertitel, fokussiert den jeweiligen Sprecher und mehr.

Dann bekommst du noch alles geranked, nach dem Grad der wahrscheinlichen Viralität. Wirklich gut gemacht und hilfreich!

Descript

Kommen wir zum letzten Tipp in dieser Runde. Descript.

Es ist das für uns im Moment wohl hilfreichste Tool, für alle Videos, die wir aktuell machen – und ist vollgepackt mit AI-Features:

Damit können wir unsere (englischen) Videos bearbeiten, indem wir einfach das Transkript editieren. Oder sogar unsere Stimmklone nutzen, um ganze Passagen, in denen wir Blödsinn erzählt haben, neu zu formulieren. (Ja, das nutzen wir noch zu wenig 😉 …)

📰 AI-News-Quickie: Die HAI-lights

Zum Abschluss hier noch ein paar leicht verdauliche News-Häppchen - Entwickler dürfen sich freuen, es gibt jede Menge neuer Modelle.

Metas Ray Ban werden smarter – die Brillen können nun auch Objekte, Tiere, Pflanzen etc. erkennen (aber noch kein 3D aufnehmen)! Die NY Times hat getestet.

Automation-Nerds aufgepasst! Zapier hat neue Drag-and-Drop-Workflows und interne Datenbanken vorgestellt, sowie Zapier Central für Bots - und ist damit noch leistungsstärker geworden. Und hast du Zapier Canvas auch schon ausprobiert?
Zapier zu teuer? Dann schau mal bei Make.com vorbei, die geben Vollgas - oder alternativ gibt es auch die AI-native Lösung n8n.io.
Ein cooler Voice-to-Voice-Chatbot wurde von Hume AI vorgestellt, der die Emotion der Spracheingabe laufend auswertet und darstellt.

Sakana AI hat einen spannenden Ansatz vorgestellt: mit „Model Merging“ werden bestehende Modelle zu einem neuen Modell kombiniert. Dieser an die Evolution angelehnte Ansatz bringt Hunderte von neuen Modellgenerationen hervor, und die erfolgreichsten sind dann die Eltern für die nächste Generation.
Databricks DBRX ist ein neues Open Source Modell, dass andere Modelle wie LLaMa2, Mixtral und Grok in einigen Bereichen voraus ist.
Das neue Modell Jamba von A21 überzeugt mit einem großen Kontextfenster, und Stability AI doppelt mit Stable Code Instruct 3B nach.
So viele verschiedene Modelle, und trotzdem nutzt die Welt nur ChatGPT - auch im Business-Umfeld. Und das kostet deutlich mehr, als angenommen …

a16z just released an enterprise AI report after speaking to dozens of Fortune 500 companies.
Thanks @sarahdingwang for this.
Here are 8 insightful slides:
1. For production use cases, OpenAI still has dominant market share.
— Chief AI Officer (@chiefaioffice)
1:00 PM • Mar 24, 2024

Mit OpenFoundry.ai kannst du das passende AI-Modell wählen und finetunen, und in wenigen Minuten in deiner Cloud nutzen.
Am MIT wurde eine neue Technik entwickelt, die qualitativ hochstehende Bilder im Schnellzugtempo erstellt!

Diffusion models generate high-quality images but require hundreds of forward passes.
@MIT_CSAIL and @AdobeResearch introduce Distribution Matching Distillation (DMD), a distillation approach that converts costly multi-step diffusion models into fast one-step generators.
A… twitter.com/i/web/status/1…
— MIT CSAIL (@MIT_CSAIL)
4:41 PM • Mar 29, 2024

Geschafft! Aber kein Grund zum traurig sein. Die AInauten sind schon bald wieder zurück, mit neuem Futter für dich.

Bis bald, deine AInauten

Folge uns auf Twitter & LinkedIn!

Du willst mehr? So können wir dir helfen:

Das AI-Bootcamp: Der wohl schnellste & einfachste Einstieg in die Welt der AI. Im Bootcamp lernst du in über 50+ Videos, wie du AI für dich wirklich anwenden kannst. In weniger als 2 Wochen wirst du so zum AI-Experten. Von Prompts, zu Bildern und Videos, bis zu AI im Office ist alles mit dabei.
Der AI-Vault: Jede Woche neue AI Praxis-Videos, Tutorials, Tool-Tests, Promptvorlagen, Experimente u.v.m. Für alle AI-Enthusiasten, die die Basics bereits drauf haben und noch tiefer in die Praxis einsteigen wollen. Oder einfach gemeinsam entdecken wollen.

Dein Feedback ist für uns essenziell. Wir lesen JEDEN Kommentar und Hinweis. Sag uns, was (nicht) gut war, und was für DICH interessant ist.