- AInauten
- Posts
- 🚑 Sam Altman will unser Verhalten ändern und gesünder machen mit AI
🚑 Sam Altman will unser Verhalten ändern und gesünder machen mit AI
PLUS: So scrapest du Daten für deine AI-Bots
AI-HOI AInauten,
Willkommen zur neuen Ausgabe deines Lieblingsnewsletters. Heute wenig News, dafür sehr viel Praxis zum Thema: Scraping!
Falls du denkst, dass das für dich nicht relevant ist oder dir nichts sagt: Bitte lies trotzdem weiter, und lass dich vom Gegenteil überzeugen. Es ist eine unglaublich nützliche Fähigkeit!
Alright, lass uns einsteigen:
🔒 AI-Scraper: So schützt du deine Webseite vor den Bots
🤖 Praxis: So scrapest du Daten, um deine AI-Tools zu trainieren
🚑 Sam Altman will unser Verhalten ändern und gesünder machen
Los geht’s!
🔒 AI-Scraper: So schützt du deine Webseite vor den Bots
Damit unsere geliebten geschätzten AI-Modelle wie ChatGPT, Claude & Co. richtig schlau werden, müssen sie mit Daten und Wissen gefüttert werden.
Das holen sie sich natürlich aus dem Internet. Und wie? Indem kleine Roboter bzw. Bots durchs Netz surfen und dabei die Inhalte von allen Webseiten aufsaugen und abspeichern.
Das ganze nennt man Web-Scraping oder Crawling.
Soweit so gut. Jetzt kann man sich vielleicht auch vorstellen, dass das viele Webseiten Betreiber nicht so cool finden, wenn da einfach jemand die eigenen kreativen Schöpfungen zweckentfremdet.
Deshalb gibt es ja auch diverse Klagen gegen die AI-Unternehmen, oftmals angezettelt durch Medienunternehmen.
So schützt du deine Webseite vor AI-Bots und Scrapern
Wenn du also nicht willst, dass die eigene Website von den Scrapern abgespeichert wird, musst du selbst etwas dagegen tun.
Hier einmal eine Übersicht der aktivsten Bots:
Wie du siehst, sind die größten Datensauger ByteSpider (vom chinesischen Unternehmen ByteDance, zu dem auch TikTok gehört), Amazon-Bot, Claude-Bot und GPT-Bot.
Das Problem ist oft, dass nur einige große Anbieter OpenAI, Google etc. sich zu erkennen geben. Aber es gibt auch unzählige andere Bots, die sich als normale Webbrowser ausgeben.
Aktuell ist der einfachste Weg, um seine Webseite zu schützen, ein Service namens Cloudflare.
Cloudflare ist ein Anbieter für Webseiten-Sicherheit und bietet auch schnellere Ladegeschwindigkeiten. Es schützt bereits sehr gut vor verschiedenen Hacker Attacken, wie z. B. DDoS Angriffen etc.
Seit Neuestem kannst du bei Cloudflare nun auch mit einem Klick sämtliche AI-Bots blocken. Dahinter steht ein eigenes Machine-Learning-Model, das wohl auch die Bots aussperrt, die sich als Webbrowser ausgeben:
Bots geblockt: Bleiben nun alle AI-Modelle auf dem aktuellen Wissensstand?
Als Webseiten Betreiber finden wir den Cloudflare-Service natürlich gut.
Als AI-Model Nutzer weniger. Cloudflare ist ein wirklich sehr weit verbreiteter Dienst, super einfach zu implementieren und bereits 80% der befragten Cloudflare Nutzer wollen Bots damit blocken.
Und dadurch fehlt es den neuen Modellen natürlich auch an neuen Daten.
Wie groß die Auswirkungen wirklich sein werden, bleibt abzuwarten. Vermutlich entsteht ein Katz-und-Maus-Spiel zwischen Scrapern und Webseitenbetreibern.
Zudem Lizenzieren ja viele AI-Anbieter auch bereits Inhalte von Medienhäusern und Online-Plattformen. OpenAI hat zum Beispiel Vereinbarungen mit Axel Springer, TIME, Reddit, Vox und vielen weiteren.
Oder man kann es machen wie Microsoft, die sich bereits 2018 für ein paar Milliarden aus der Portokasse einfach die Plattform GitHub gekauft haben…
🤖 Praxis: So scrapest du Daten, um deine AI-Tools zu trainieren
So, nachdem du jetzt gelernt hast, wie du deine Webseite schützen kannst, sprechen wir noch kurz drüber, wie du Inhalte selbst scrapen kannst.
Zuerst aber: Warum ist das so wichtig?
Wir sprechen ja viel über Kontext. Sprich Beispiele und Informationen, die man in seine Prompts etc. integriert.
Je besser die AI-Modelle Bescheid wissen was du willst, umso besser die Antworten.
Gerade wenn man eigene GPTs bzw. Chatbots für spezifische Anwendungsgebiete trainieren will, muss man eigene Daten bereitstellen.
Wenn du zum Beispiel deine E-Mails beantworten lassen willst, ergibt es Sinn, deine bestehende E-Mail-Antworten zur Verfügung zu stellen.
Oder wenn du einen Chatbot bauen willst, der deinen Kundensupport erledigt, musst du ihn zuerst einmal mit all deinen Regeln und Daten füttern.
Kurz gesagt: Gute Daten und Beispiele stehen immer am Anfang eines jeden guten AI-Workflows.
Scraping an sich ist eine Wissenschaft und kann sehr komplex werden. Aber um zu starten haben wir dir hier 3 einfache Wege, wie du Daten scrapest und diese für deine AI nutzt:
1) Ganze Webseiten & Unterseiten speichern
Willst du Inhalte von ganzen Webseiten speichern, lieben wir Simplescraper!
Einfach eine URL eingeben, und der Scraper zieht sich alle Seiten und exportiert sie dir als strukturierte JSON-Datei.
Hinweis: Die kostenlose Version geht nur bis 159 Seiten. Bei größeren Webauftritten brauchst du eine bezahlte Version.
2) Einzelne Seiten bzw. die Top 5 Google Ergebnisse scrapen
Ein extrem mächtiger und zugleich günstiger Scraper ist der Reader von Jina AI. Gerade wenn du nur eine einzelne Webseite oder nur die ersten fünf Ergebnisse einer Google Suche samt Inhalt abspeichern willst, ist Jina genial.
Für einzelne Webseiten packst du einfach folgenden Link vor die URL:
https://r.jina.ai/
Hier ein Beispiel mit einem Artikel von uns:
https://r.jina.ai/https://www.ainauten.com/p/moshi-voice-chat-claude-ant-hack-ai-news
Du erhältst dann die Seite als Markdown formatiert - perfekt geeignet für LLMs:
Ein weiteres cooles Feature ist, dass du mit Jina automatisch die Top 5-Google Ergebnisse einer Frage samt deren Inhalt ziehen kannst.
Dazu einfach folgende URL eingeben, gefolgt von deiner Frage:
https://s.jina.ai/Was sind die AInauten?
Als Ergebnis bekommst du dann die Inhalte der ersten 5 Resultate der Google Suche, die du direkt als Kontext in das AI-Modell deiner Wahl geben kannst.
3) Komplexere Scraping Herausforderungen
Wie eingangs schon erwähnt, kann Scraping sehr komplex und herausfordernd werden. Aber keine Sorge, auch für umfangreichere Projekte gibt es unzählige Tools.
Scraping ist eine der ältesten Disziplinen des World Wide Web, denn Google und Co. machen ja auch nichts anderes, wenn sie ihren Suchindex aufbauen.
Ein Tool, bei dem die Möglichkeiten nahezu unendlich sind, das aber trotzdem von Normalsterblichen bedient werden kann, ist Apify.
Das Coole an Apify ist, dass es schon sehr viele vorgebaute Scraper gibt.
Diese vortrainierten Scraper sind extrem nützlich, weil sie bereits die Struktur der zugehörigen Webseiten verstehen. Zudem kannst du Apify auch in deine Automatisierungen via API in Zapier, Make und Co. einbinden.
So, das waren jetzt drei einfache Wege, um an passende Daten zu kommen.
Falls dir das etwas zu schnell ging, gibt es für alle AInauten Premium Mitglieder ein neues Video zum Thema Scraping, wo wir durch die einzelnen Tools führen.
Falls du noch kein Premium-Mitglied bist, kannst du dir hier deinen Zugang holen. Weit über 60 Videos und viele Vorlagen und Prompts gibt es schon, und jede Woche kommen neue exklusive Praxis-Videos und Co. dazu.
🚑 Sam Altman will unser Verhalten ändern und gesünder machen
Wir hatten eigentlich noch ein drittes Praxis-Thema in petto, aber da diese Ausgabe schon wieder recht umfangreich geworden ist, schließen wir mit einer kurzen Newsmeldung.
Sam Altman, seines Zeichens CEO von OpenAI, und Medien-Mogulin Arianna Huffington haben vor wenigen Tagen einen Artikel im TIME-Magazin veröffentlicht.
Today Sam Altman and I published a piece in TIME sharing our vision for how AI-driven personalized behavior change can transform healthcare and announcing the launch of Thrive AI Health, a new company funded by the OpenAI Startup Fund and Thrive Global, which will be devoted to… x.com/i/web/status/1…
— Arianna Huffington (@ariannahuff)
11:23 AM • Jul 8, 2024
Darin zeigen sie auf, wie das neu gegründete Unternehmen Thrive AI Health künftig dabei helfen will, chronische Krankheiten zu verhindern bzw. behandeln.
Die künstliche Intelligenz soll dafür aber nicht einfach irgendwelche neuen Medikamente erforschen, sondern eine Verhaltensänderung bei den Nutzern herbeiführen!
Wann die zugehörige App dafür kommt, ist noch unklar. Aber sie konnten bereits den erfahrenen Googler DeCarlos Love (what a name!) als CEO gewinnen. Er hat bereits an Fitbit und anderen Wearables gearbeitet.
Wir finden das mehr als spannend, denn bisher ist es extrem teuer, sich persönliche Coaches und spezialisierte Ärzte zu leisten.
Social Media hat unser Verhalten eher verschlechtert, und vielleicht schafft es AI, unsere Gewohnheiten mit den richtigen Impulsen wieder in bessere Bahnen zu lenken.
Supercoole Geschichte, hier geht es zum Artikel.
Geschafft! Aber kein Grund zum traurig sein. Die AInauten sind schon bald wieder zurück, mit neuem Futter für dich.
Reto & Fabian von den AInauten
P.S.: Folge uns auf den sozialen Medien - das motiviert uns, Gas zu geben 😁! Twitter, LinkedIn, Facebook, Insta, YouTube, TikTok
Wann immer du bereit bist, so können wir dir helfen:
1. AINAUTEN CRASHKURS: Der wohl schnellste und einfachste Einstieg in die Welt der AI. Im Crashkurs lernst du in über 50+ Videos, wie du AI für dich wirklich anwenden kannst. In weniger als zwei Wochen wirst du so zum AI-Experten. Von Prompts, zu Bildern und Videos, bis zu AI im Office ist alles mit dabei. Klicke hier!
2. AINAUTEN PREMIUM: Die Themen aus dem Newsletter tiefer aufgearbeitet. Jede Woche neue AI Praxis-Videos, Tutorials, Tool-Tests, Prompt-Vorlagen, Experimente u. v. m. Wöchentliche Podcasts und News-Zusammenfassungen. Und stelle uns direkt deine Fragen und nutze den direkten Zugang zu uns. Klicke hier!
⭐️ Wie hat dir diese Ausgabe gefallen? |
Login oder Abonnieren um an umfragen teilzunehmen. |
Reply