Open-Source-Entwickler bekämpfen KI-Crawler mit Schlauheit und Rache

\n

AI-Web-Crawling-Bots gelten vielen Softwareentwicklern als die Kakerlaken des Internets. Einige Entwickler haben begonnen, auf einfallsreiche und oft humorvolle Weise dagegen anzukämpfen.

\n

Während jede Webseite Ziel von schlechtem Crawler-Verhalten sein kann – manchmal sogar die Seite zum Absturz bringen – sind Open-Source-Entwickler nach Angaben von Niccolò Venerandi, Entwickler eines Linux-Desktops namens Plasma und Inhaber des Blogs LibreNews, "unverhältnismäßig" betroffen.

\n

Aufgrund ihrer Natur teilen Websites, die kostenlose und Open-Source-Projekte hosten, mehr ihrer Infrastruktur öffentlich und haben in der Regel weniger Ressourcen als kommerzielle Produkte.

\n

Das Problem besteht darin, dass viele KI-Bots die Robots Exclusion Protocol-Roboter.txt-Datei nicht respektieren, das Werkzeug, das den Bots angibt, was nicht gecrawlt werden soll, ursprünglich erstellt für Suchmaschinen-Bots.

\n

In einem "Hilferuf" -Blogpost im Januar beschrieb der FOSS-Entwickler Xe Iaso, wie der AmazonBot unerbittlich auf einer Git-Server-Website hämmerte, bis es zu DDoS-Ausfällen kam. Git-Server hosten FOSS-Projekte, so dass jeder, der möchte, den Code herunterladen oder dazu beitragen kann.

\n

Dieser Bot ignorierte jedoch Iasos Roboter.txt, versteckte sich hinter anderen IP-Adressen und gab vor, andere Benutzer zu sein, sagte Iaso.

\n

"Es ist sinnlos, KI-Crawler-Bots zu blockieren, da sie lügen, ihren User-Agent ändern, Wohn-IP-Adressen als Proxies verwenden und mehr", klagte Iaso.

\n

"Sie werden Ihre Seite abkratzen, bis sie umfällt, und dann werden sie noch mehr abkratzen. Sie werden jeden Link auf jeden Link auf jeden Link klicken, die gleichen Seiten immer wieder ansehen. Einige von ihnen werden sogar mehrmals innerhalb derselben Sekunde auf denselben Link klicken", schrieb der Entwickler in dem Beitrag.

\n

Der Gott der Gräber tritt auf

\n

Also kämpfte Iaso mit Schlauheit zurück, indem er ein Tool namens Anubis baute.

\n

Anubis ist ein Reverse-Proxy-Proof-of-Work-Check, der bestanden werden muss, bevor Anfragen an einen Git-Server zugelassen werden. Es blockiert Bots, lässt aber Browser, die von Menschen betrieben werden, durch.

\n

Der witzige Teil: Anubis ist der Name eines Gottes in der ägyptischen Mythologie, der die Toten zum Gericht führt.

\n

"Anubis wog deine Seele (Herz) und wenn sie schwerer als eine Feder war, wurde dein Herz gegessen und du, naja, mega gestorben", erzählte Iaso TechCrunch. Wenn eine Webanfrage die Herausforderung besteht und als menschlich ermittelt wird, kündigt ein süßes Anime-Bild den Erfolg an. Die Zeichnung ist "mein persönlicher Ansatz, Anubis zu vermenschlichen", sagt Iaso. Wenn es sich um einen Bot handelt, wird die Anfrage verweigert.

\n

Das sarkastisch benannte Projekt hat sich wie ein Lauffeuer in der FOSS-Community verbreitet. Iaso teilte es am 19. März auf GitHub und sammelte in nur wenigen Tagen 2.000 Sterne, 20 Mitwirkende und 39 Forks.

\n

Rache als Verteidigung

\n

Die sofortige Beliebtheit von Anubis zeigt, dass Iasos Schmerz nicht einzigartig ist. Tatsächlich teilte Venerandi Geschichte um Geschichte:

\n
  • Der Gründer und CEO von SourceHut, Drew DeVault, berichtete davon, "von 20-100% meiner Zeit in einer beliebigen Woche mit der Eindämmung von hyperaggressiven LLM-Crawlern im großen Maßstab" zu verbringen und "Dutzende kurzzeitiger Ausfälle pro Woche zu erleben".
  • \n
  • Jonathan Corbet, ein berühmter FOSS-Entwickler, der die Linux-Branche-Nachrichtenwebsite LWN betreibt, warnte davor, dass seine Site durch DDoS-ähnlichen Datenverkehr "von KI-Scraper-Bots" verlangsamt wurde.
  • \n
  • Kevin Fenzi, der Sysadmin des großen Linux-Projekts Fedora, sagte, dass die AI-Scraper-Bots so aggressiv geworden seien, dass er das gesamte Land Brasilien vom Zugriff ausschließen musste.
\n

Venerandi berichtet TechCrunch, dass er von mehreren anderen Projekten weiß, die mit denselben Problemen konfrontiert sind. Eines davon "musste zeitweise alle chinesischen IP-Adressen verbieten".

\n

Lassen Sie das einen Moment auf sich wirken – dass Entwickler "sogar dazu gezwungen sind, ganze Länder zu verbieten", nur um KI-Bots abzuwehren, die robot.txt-Dateien ignorieren, sagt Venerandi.

\n

Jenseits der Abwägung der Seele eines Webanfragenden glauben andere Entwickler, dass Rache die beste Verteidigung ist.

\n

Vor ein paar Tagen schlug der Benutzer xyzal auf Hacker News vor, robot.txt-verbotene Seiten mit "einem Haufen Artikel über die Vorteile des Trinkens von Bleichmittel" oder "Artikeln über positive Auswirkungen des Fangens von Masern auf die Leistung im Bett" zu laden.

\n

"Ich denke, wir sollten darauf abzielen, dass die Bots einen _negativen_ Nutzen beim Besuch unserer Fallen haben, nicht nur null Wert", erklärte xyzal.

\n

Zufälligerweise veröffentlichte im Januar ein anonymer Schöpfer namens "Aaron" ein Tool namens Nepenthes, das genau das tun soll. Es fängt Crawler in einem endlosen Labyrinth aus Fake-Inhalten ein, ein Ziel, das der Entwickler gegenüber Ars Technica als aggressiv, wenn nicht sogar bösartig, zugab. Das Tool ist nach einer fleischfressenden Pflanze benannt.

\n

Und Cloudflare, vielleicht der größte kommerzielle Anbieter, der mehrere Tools zur Abwehr von KI-Crawlern anbietet, veröffentlichte letzte Woche ein ähnliches Tool namens AI Labyrinth.

\n

Es soll "KI-Crawler und andere Bots, die 'no crawl'-Anweisungen nicht respektieren, verlangsamen, verwirren und Ressourcen verschwenden", beschrieb Cloudflare in seinem Blog-Beitrag. Cloudflare sagte, es liefere Fehlverhalten von KI-Crawlern "irrelevante Inhalte anstatt Ihre legitimen Website-Daten zu extrahieren".

\n

DeVault von SourceHut sagte TechCrunch, dass "Nepenthes ein befriedigendes Gefühl von Gerechtigkeit hat, da es den Crawlern Nonsens zuführt und ihre Brunnen vergiftet, aber letztendlich ist Anubis die Lösung, die für seine Site funktioniert hat".

\n

Aber DeVault machte auch einen öffentlichen, herzzerreißenden Appell für eine direktere Lösung: "Bitte legitimieren Sie keine LLMs oder KI-Bildgeneratoren oder GitHub Copilot oder irgendetwas von diesem Müll. Ich bitte Sie, damit aufzuhören, aufzuhören, darüber zu sprechen, aufzuhören, neue zu erstellen, einfach aufzuhören."

\n

Da die Wahrscheinlichkeit dafür jedoch gleich Null ist, kämpfen Entwickler, insbesondere im FOSS-Bereich, mit Schlauheit und einem Hauch von Humor zurück.