Sehen Sie sich die Websites an, auf denen KI-Bots wie ChatGPT so intelligent klingen

KI-Chatbots erfreuen sich in den letzten vier Monaten immer größerer Beliebtheit und verblüffen die Öffentlichkeit mit ihren unglaublichen Fähigkeiten, vom Verfassen anspruchsvoller Hausarbeiten bis hin zum Führen beunruhigend klarer Gespräche.

Chatbots können nicht wie Menschen denken: Sie verstehen nicht wirklich, was sie sagen. Sie können die menschliche Sprache nachahmen, weil die künstliche Intelligenz, die sie antreibt, eine riesige Menge an Text aufgenommen hat, die größtenteils aus dem Internet stammt.

[Big Tech ging bei der KI vorsichtig vor. Dann kam ChatGPT.]

Dieser Text ist die Hauptinformationsquelle der KI über die Welt, während sie entsteht, und beeinflusst, wie sie auf Benutzer reagiert. Wenn es beispielsweise den Zulassungstest für eine juristische Fakultät besteht, liegt das wahrscheinlich daran, dass seine Schulungsdaten Tausende von LSAT-Übungsstandorten umfassten.

Tech-Unternehmen verheimlichen zunehmend, was sie der KI zuführen. Deshalb machte sich die Washington Post daran, einen dieser Datensätze zu analysieren, um die Arten von proprietären, persönlichen und oft anstößigen Websites, die in die Trainingsdaten einer KI einfließen, vollständig aufzudecken.

Um einen Blick in diese Black Box zu werfen, haben wir den C4-Datensatz von Google analysiert, eine riesige Momentaufnahme der Inhalte von 15 Millionen Websites, die zum Unterrichten einiger hochkarätiger englischsprachiger KIs, sogenannter großer Sprachmodelle, verwendet wurden, darunter Googles T5 und Facebooks LLaMA . (OpenAI gibt nicht bekannt, welche Datensätze es zum Trainieren der Modelle verwendet, die seinen beliebten Chatbot ChatGPT unterstützen.)

Die Post arbeitete bei dieser Untersuchung mit Forschern des Allen Institute for AI zusammen und kategorisierte die Websites anhand von Daten von Similarweb, einem Webanalyseunternehmen. Etwa ein Drittel der Websites ließen sich nicht kategorisieren, vor allem weil sie nicht mehr im Internet auftauchen. Diese werden nicht angezeigt.

Tippen Sie auf die Felder oben, um die Top-Websites anzuzeigen

Anschließend haben wir die verbleibenden 10 Millionen Websites danach eingestuft, wie viele „Tokens“ von jeder im Datensatz enthalten sind. Token sind kleine Textteile, die zur Verarbeitung unorganisierter Informationen verwendet werden – normalerweise ein Wort oder eine Phrase.

Der Datensatz wurde von Websites aus Branchen wie Journalismus, Unterhaltung, Softwareentwicklung, Medizin und Inhaltserstellung dominiert, was erklärt, warum diese Bereiche durch die neue Welle der künstlichen Intelligenz bedroht sein könnten. Die drei größten Websites waren patents.google.com Nr. 1, die Texte aus weltweit erteilten Patenten enthält; wikipedia.org Nr. 2, die kostenlose Online-Enzyklopädie; und scribd.com Nr. 3, eine digitale Bibliothek nur für Abonnements. Ebenfalls ganz oben auf der Liste: b-ok.org Nr. 190, ein berüchtigter Markt für Raubkopien von E-Books, der inzwischen vom US-Justizministerium beschlagnahmt wurde. Mindestens 27 weitere Websites, die von der US-Regierung als Märkte für Piraterie und Fälschungen identifiziert wurden, waren im Datensatz enthalten.

Einige Top-Sites wirkten willkürlich, wie wowhead.com Nr. 181, ein World of Warcraft-Spielerforum; thriveglobal.com Nr. 175, ein von Arianna Huffington gegründetes Produkt zur Bekämpfung von Burnout; und mindestens 10 Websites, die Müllcontainer verkaufen, darunter dumpsteroid.com Nr. 183, die nicht mehr zugänglich zu sein scheinen.

Andere äußerten erhebliche Bedenken hinsichtlich des Datenschutzes. Zwei Websites in den Top 100, coloradovoters.info Nr. 40 und flvoters.com Nr. 73, hatten privat Kopien staatlicher Wählerregistrierungsdatenbanken gehostet. Obwohl Wählerdaten öffentlich sind, könnten die Models diese persönlichen Informationen auf unbekannte Weise nutzen.

Top-Standorte für Unternehmen und Industrie:

Fool.com

kickstarter.com

sec.gov

marketwired.com

city-data.com

myemail.constantcontact.com

Finance.yahoo.com

prweb.com

unternehmer.com

globalresearch.ca

Unternehmens- und Industrie-Websites bildeten die größte Kategorie (16 Prozent der kategorisierten Token), angeführt von Fool.com Nr. 13, das Anlageberatung anbietet. Nicht weit dahinter folgte kickstarter.com Nr. 25, das Nutzern Crowdfunding für kreative Projekte ermöglicht, und weiter unten auf der Liste patreon.com Nr. 2.398, das Schöpfern hilft, monatliche Gebühren von Abonnenten für exklusive Inhalte zu erheben.

Kickstarter und Patreon gewähren der KI möglicherweise Zugriff auf die Ideen und Marketingtexte von Künstlern, was Bedenken aufkommen lässt, dass die Technologie diese Arbeit in Vorschläge für Benutzer kopieren könnte. Derzeit erhalten Künstler keine Vergütung oder Anerkennung, wenn ihre Arbeit in KI-Trainingsdaten enthalten ist, und sie haben Urheberrechtsverletzungsklagen gegen die Text-zu-Bild-Generatoren Stable Diffusion, MidJourney und DeviantArt eingereicht.

Die Analyse der Post deutet darauf hin, dass möglicherweise weitere rechtliche Herausforderungen auf uns zukommen: Das Urheberrechtssymbol – das ein als geistiges Eigentum registriertes Werk kennzeichnet – erscheint mehr als 200 Millionen Mal im C4-Datensatz.

Top-Nachrichtenseiten:

nytimes.com

latimes.com

theguardian.com

forbes.com

huffpost.com

washingtonpost.com

businessinsider.com

chicagotribune.com

theatlantic.com

aljazeera.com

Die Kategorie „Nachrichten und Medien“ belegt kategorienübergreifend den dritten Platz. Aber die Hälfte der Top-10-Websites insgesamt waren Nachrichtenagenturen: nytimes.com Nr. 4, latimes.com Nr. 6, theguardian.com Nr. 7, forbes.com Nr. 8 und huffpost.com Nr. 9. (Washingtonpost .com Nr. 11 lag dicht dahinter.) Ebenso wie Künstler und YouTuber haben einige Nachrichtenorganisationen Technologieunternehmen dafür kritisiert, dass sie ihre Inhalte ohne Genehmigung oder Vergütung nutzen.

In der Zwischenzeit haben wir mehrere Medienunternehmen gefunden, die auf der unabhängigen Skala von NewsGuard für ihre Vertrauenswürdigkeit einen niedrigen Rang einnehmen: RT.com Nr. 65, die vom russischen Staat unterstützte Propagandaseite; breitbart.com Nr. 159, eine bekannte Quelle für rechtsextreme Nachrichten und Meinungen; und vdare.com Nr. 993, eine Anti-Einwanderungsseite, die mit der Vorherrschaft der Weißen in Verbindung gebracht wird.

Es hat sich gezeigt, dass Chatbots selbstbewusst falsche Informationen weitergeben, aber nicht immer Zitate anbieten. Nicht vertrauenswürdige Trainingsdaten könnten dazu führen, dass Voreingenommenheit, Propaganda und Fehlinformationen verbreitet werden – ohne dass der Benutzer sie auf die ursprüngliche Quelle zurückführen kann.

Top religiöse Stätten:

patheos.com

gty.org

jewishworldreview.com

thekingdomcollective.com

biblehub.com

liveprayer.com

lds.org

wacriswell.com

wdtprs.com

bibleforums.org

Websites, die der Community gewidmet sind, machten etwa 5 Prozent der kategorisierten Inhalte aus, wobei die Religion diese Kategorie dominiert. Unter den 20 wichtigsten religiösen Stätten waren 14 christlich, zwei jüdisch und eine muslimisch, eine mormonisch, eine war Zeuge Jehovas und eine feierte alle Religionen.

Die führende christliche Website „Grace to You“ (gty.org Nr. 164) gehört zur Grace Community Church, einer evangelischen Megakirche in Kalifornien. „Christianity Today“ berichtete kürzlich, dass die Kirche den Frauen geraten habe, „sich weiterhin missbräuchlichen Vätern und Ehemännern zu unterwerfen“ und es zu vermeiden, sie den Behörden anzuzeigen.

Die am höchsten bewertete jüdische Website war jewishworldreview.com Nr. 366, ein Online-Magazin für orthodoxe Juden. Im Dezember veröffentlichte sie einen Artikel über Chanukka, in dem sie „den rechtsextremen, fundamentalistischen Islam“ sowie „eine von der Black-Lives-Matter-Bewegung beeinflusste afroamerikanische Gemeinschaft“ für den Anstieg des Antisemitismus in den Vereinigten Staaten verantwortlich machte.

In einigen Sprachmodellen hat sich antimuslimische Voreingenommenheit als Problem herausgestellt. Beispielsweise ergab eine in der Zeitschrift Nature veröffentlichte Studie, dass ChatGPT-3 von OpenAI den Satz „Zwei Muslime gingen in ein …“ in 66 Prozent der Fälle mit gewalttätigen Handlungen vervollständigte.

Top-Technologieseiten:

instructables.com

ipfs.io

docs.microsoft.com

forums.macrumors.com

medium.com

makeuseof.com

sites.google.com

slideshare.net

s3.amazonaws.com

pcworld.com

Technologie ist die zweitgrößte Kategorie und macht 15 Prozent der kategorisierten Token aus. Dazu gehören viele Plattformen zum Erstellen von Websites, wie zum Beispiel Sites.google.com Nr. 85, das Seiten für alles hostet, von einem Judo-Club in Reading, England, bis hin zu einer katholischen Vorschule in New Jersey.

Der Datensatz enthielt mehr als eine halbe Million persönliche Blogs, was 3,8 Prozent der kategorisierten Token entspricht. Die Veröffentlichungsplattform medium.com Nr. 46 war die fünftgrößte Technologie-Website und hostet Zehntausende Blogs unter ihrer Domain. Unsere Liste umfasst Blogs, die auf Plattformen wie WordPress, Tumblr, Blogspot und Live Journal geschrieben wurden.

Diese Online-Tagebücher reichten von beruflich bis privat, wie ein Blog namens „Grumpy Rumblings“, gemeinsam verfasst von zwei anonymen Akademikern, von denen einer kürzlich darüber schrieb, wie sich die Arbeitslosigkeit ihres Partners auf die Steuern des Paares auswirkte. Einer der Top-Blogs bot Ratschläge für Live-Action-Rollenspiele. Eine andere Top-Site, Uprooted Palästinenser, schreibt oft über „zionistischen Terrorismus“ und „die zionistische Ideologie“.

Soziale Netzwerke wie Facebook und Twitter – das Herzstück des modernen Webs – verbieten Scraping, was bedeutet, dass die meisten Datensätze, die zum Trainieren von KI verwendet werden, nicht darauf zugreifen können. Tech-Giganten wie Facebook und Google, die auf riesigen Mengen an Konversationsdaten sitzen, haben sich nicht darüber im Klaren, wie persönliche Benutzerinformationen zum Trainieren von KI-Modellen verwendet werden können, die intern verwendet oder als Produkte verkauft werden.

Wie die meisten Unternehmen hat Google die Daten stark gefiltert, bevor sie sie an die KI weiterleiteten. (C4 steht für Colossal Clean Crawled Corpus.). Neben der Entfernung von Kauderwelsch und doppeltem Text nutzte das Unternehmen die Open-Source-Liste „List of Dirty, Naughty, Obscene, and Other Bad Words“, die 402 englische Begriffe und ein Emoji (eine Hand, die eine gängige, aber obszöne Geste macht) enthält. Unternehmen verwenden in der Regel hochwertige Datensätze zur Feinabstimmung von Modellen und schützen so Benutzer vor unerwünschten Inhalten.

Während diese Art von Sperrliste dazu dienen soll, den Kontakt eines Models mit rassistischen Beleidigungen und Obszönitäten während des Trainings zu begrenzen, hat sich gezeigt, dass sie auch einige nichtsexuelle LGBTQ-Inhalte eliminiert. Wie frühere Untersuchungen gezeigt haben, entgeht vieles den Filtern. Wir haben Hunderte Beispiele für pornografische Websites und mehr als 72.000 Fälle von „Hakenkreuz“ gefunden, einem der verbotenen Begriffe aus der Liste.

Unterdessen stellte The Post fest, dass die Filter einige beunruhigende Inhalte nicht entfernen konnten, darunter die Website der weißen Rassisten Stormfront.org Nr. 27.505, die Anti-Trans-Website kiwifarms.net Nr. 378.986 und 4chan.org Nr. 4.339.889, die anonyme Nachricht Vorstand, der dafür bekannt ist, gezielte Belästigungskampagnen gegen Einzelpersonen zu organisieren.

Wir haben auch threepercentpatriots.com Nr. 8.788.836 gefunden, eine heruntergekommene Website, die eine regierungsfeindliche Ideologie vertritt, die von Personen geteilt wird, die im Zusammenhang mit dem Angriff auf das US-Kapitol am 6. Januar 2021 angeklagt sind. Außerdem waren Websites vertreten, die Verschwörungstheorien propagierten, darunter das rechtsextreme QAnon-Phänomen und „Pizzagate“, die falsche Behauptung, eine Pizzeria in Washington D.C. sei eine Tarnung für Pädophile.

Ein Webcrawl mag wie eine Kopie des gesamten Internets klingen, ist aber nur eine Momentaufnahme, bei der der Inhalt einer Auswahl von Webseiten zu einem bestimmten Zeitpunkt erfasst wird. C4 begann als eine Suche, die im April 2019 von der gemeinnützigen Organisation CommonCrawl, einer beliebten Ressource für KI-Modelle, durchgeführt wurde. CommonCrawl erklärte gegenüber The Post, dass man versuche, die wichtigsten und seriösesten Websites zu priorisieren, aber nicht versuche, lizenzierte oder urheberrechtlich geschützte Inhalte zu meiden.

Die Post hält es für wichtig, den vollständigen Inhalt der in KI-Modelle eingespeisten Daten darzustellen, die versprechen, viele Aspekte des modernen Lebens zu steuern. Einige Websites in diesem Datensatz enthalten äußerst anstößige Sprache und wir haben versucht, diese Wörter zu maskieren. Anstößige Inhalte können bestehen bleiben.

Hinweis: Einige Websites konnten nicht kategorisiert werden und sind in vielen Fällen nicht mehr zugänglich.

Während C4 riesig ist, nutzen große Sprachmodelle wahrscheinlich noch gigantischere Datensätze, sagen Experten. Beispielsweise begannen die Trainingsdaten für GPT-3 von OpenAI, das im Jahr 2020 veröffentlicht wurde, mit der bis zu 40-fachen Menge an Web-Scraping-Daten in C4. Die Trainingsdaten von GPT-3 umfassen auch die gesamte englischsprachige Wikipedia, eine Sammlung kostenloser Romane unveröffentlichter Autoren, die häufig von Big-Tech-Unternehmen verwendet werden, und eine Zusammenstellung von Texten aus Links, die von Reddit-Benutzern hoch bewertet wurden. (Reddit, eine Website, die regelmäßig für KI-Trainingsmodelle verwendet wird, gab am Dienstag bekannt, dass sie plant, Unternehmen für diesen Zugriff Gebühren zu erheben.)

[Quiz: Hat die KI das gemacht? Teste Dein Wissen.]

Experten sagen, dass viele Unternehmen den Inhalt ihrer Schulungsdaten nicht dokumentieren – auch nicht intern –, weil sie befürchten, persönliche Informationen über identifizierbare Personen, urheberrechtlich geschütztes Material und andere ohne Zustimmung erfasste Daten zu finden.

Während Unternehmen die Herausforderungen betonen, die es mit sich bringt, zu erklären, wie Chatbots Entscheidungen treffen, ist dies ein Bereich, in dem Führungskräfte die Macht haben, transparent zu sein.

In einer früheren Version dieser Geschichte wurde beschrieben, wie ein Chatbot lernte, die Anwaltsprüfung abzulegen, indem er in LSAT-Übungstests trainierte. Der LSAT ist ein von der Anwaltsprüfung getrennter Test. Der Artikel wurde korrigiert.

Für diese Geschichte kontaktierte The Post Forscher des Allen Institute for AI, die den C4-Datensatz von Google neu erstellten und The Post mit seinen 15,7 Millionen Domains versorgten. Die Post hat diese Daten auf verschiedene Weise bereinigt und analysiert.

Viele Websites haben separate Domains für ihre mobilen Versionen (z. B. „en.m.wikipedia.org“ und „en.wikipedia.org“). Wir haben diese als dieselbe Domäne behandelt. Wir haben auch Subdomains zusammengefasst, die auf bestimmte Sprachen ausgerichtet sind, sodass aus „en.wikipedia.org“ „wikipedia.org“ wurde.

Übrig blieben 15,1 Millionen einzigartige Domains.

Similarweb half The Post dabei, zwei Drittel davon – etwa 10 Millionen Domains – in Kategorien und Unterkategorien einzuordnen. (Der Rest konnte nicht kategorisiert werden, oft weil sie nicht mehr zugänglich waren.) Anschließend überprüften wir manuell die Websites mit den meisten Tokens, um sicherzustellen, dass die Kategorien sinnvoll waren. Wir haben auch viele der kleinsten Unterkategorien zusammengefasst.

Die Kategorisierung ist schwierig und mehrdeutig, aber wir haben versucht, die Daten konsistent zu behandeln, um ein allgemeines Verständnis der Inhalte von C4 zu fördern.

Das Datenhosting von Common Crawl wird im Rahmen des Open Data Sponsorship-Programms von Amazon Web Services gesponsert. Amazon-Gründer Jeff Bezos ist Eigentümer der Washington Post.

Die Forscher am Allen Institute for AI waren Jesse Dodge, Yanai Elazar, Dirk Groeneveld und Nicole DeCario.

Illustration von Talia Trackim.

Bearbeitung durch Kate Rabinowitz, Alexis Sobel Fitts und Karly Domb Sadof.