Bitget App
Trade smarter
Krypto kaufenMärkteTradenFuturesBotsEarnCopy
Der Mangel an KI-Trainingsdaten ist nicht das Problem, als das er dargestellt wird

Der Mangel an KI-Trainingsdaten ist nicht das Problem, als das er dargestellt wird

MPOSTMPOST2025/05/07 22:22
Von:MPOST

In Kürze Es gibt zunehmende Bedenken hinsichtlich eines Mangels an Daten für das Training von KI-Modellen. Das öffentliche Internet bietet jedoch umfangreiche, ständig wachsende Datenquellen, sodass es unwahrscheinlich ist, dass es im Bereich der KI jemals zu einem echten Datenmangel kommen wird.

Heutige Modelle der künstlichen Intelligenz können Erstaunliches leisten. Man könnte fast meinen, sie hätten magische Kräfte, aber das stimmt natürlich nicht. Anstatt Zaubertricks zu verwenden, basieren KI-Modelle tatsächlich auf Daten – sehr vielen Daten. 

Es gibt jedoch zunehmende Bedenken, dass ein Mangel an diesen Daten dazu führen könnte, dass das rasante Innovationstempo der KI nachlässt. In den letzten Monaten gab es mehrere Warnungen Experten behaupten, dass der Welt der Vorrat an neuen Daten zum Trainieren der nächsten Modellgeneration zur Neige geht. 

Ein Mangel an Daten wäre insbesondere für die Entwicklung großer Sprachmodelle eine Herausforderung, denn diese bilden die Grundlage für generative KI-Chatbots und Bildgeneratoren. Sie werden mit riesigen Datenmengen trainiert, und mit jedem Leistungssprung werden immer mehr Daten benötigt, um ihre Fortschritte voranzutreiben. 

Diese Bedenken hinsichtlich der Knappheit von KI-Trainingsdaten haben einige Unternehmen bereits dazu veranlasst, nach alternativen Lösungen zu suchen, beispielsweise nach der Nutzung von KI zur Erstellung synthetischer Daten für das KI-Training. Partnerschaften mit Medienunternehmen zur Nutzung ihrer Inhalte und zum Einsatz von „Internet der Dinge“-Geräten, die Echtzeit-Einblicke in das Verbraucherverhalten bieten.  

Es gibt jedoch überzeugende Gründe, diese Befürchtungen für übertrieben zu halten. Höchstwahrscheinlich wird es der KI-Branche nie an Daten mangeln, denn Entwickler können jederzeit auf die größte Informationsquelle der Welt zurückgreifen – das öffentliche Internet.  

Berge von Daten

Die meisten KI-Entwickler beziehen ihre Trainingsdaten bereits aus dem öffentlichen Internet. Es heißt, dass OpenAI GPT-3 Modell, der Motor hinter dem viralen ChatGPT Der Chatbot, der generative KI erstmals der breiten Masse zugänglich machte, wurde mit Daten von Common Crawl trainiert, einem Archiv mit Inhalten aus dem gesamten öffentlichen Internet. Informationen im Wert von rund 410 Milliarden Token, basierend auf praktisch allem, was bis zu diesem Zeitpunkt online gepostet wurde, wurden in ChatGPT, wodurch es das nötige Wissen erhielt, um auf fast jede Frage zu antworten, die wir ihm stellen konnten. 

Webdaten sind ein weit gefasster Begriff, der praktisch alles umfasst, was online veröffentlicht wird, darunter Regierungsberichte, wissenschaftliche Forschung, Nachrichtenartikel und Social-Media-Inhalte. Es handelt sich um einen erstaunlich umfangreichen und vielfältigen Datensatz, der alles widerspiegelt – von der öffentlichen Meinung über Verbrauchertrends und die Lage der Weltwirtschaft bis hin zu Anleitungen zum Selbermachen. 

Das Internet ist ein idealer Ausgangspunkt für KI-Modelle, nicht nur wegen seiner enormen Größe, sondern auch wegen seiner Zugänglichkeit. Mit spezialisierten Tools wie Bright Datas Scraping-Browser ist es möglich, in Echtzeit Informationen von Millionen von Websites für ihre Daten zu beziehen, darunter viele, die aktiv versuchen, Bots daran zu hindern. 

Mit Funktionen wie Captcha-Solvern, automatisierten Wiederholungsversuchen, APIs und einem riesigen Netzwerk an Proxy-IPs können Entwickler die stärksten Bot-Blockierungsmechanismen von Websites wie eBay und Facebook problemlos umgehen und sich so riesige Informationsmengen sichern. Die Plattform von Bright Data lässt sich zudem in Datenverarbeitungs-Workflows integrieren und ermöglicht so eine nahtlose Strukturierung, Bereinigung und Schulung im großen Maßstab.

Es ist nicht wirklich klar, wie viele Daten heute im Internet verfügbar sind. Im Jahr 2018 schätzte die International Data Corp., dass die Gesamtmenge der online veröffentlichten Daten 175 Zettabyte erreichen bis Ende 2025, während eine neuere Zahl von Statista diese Schätzung auf 181 Zettabyte Es genügt zu sagen, dass es sich um einen Berg an Informationen handelt und dieser mit der Zeit exponentiell größer wird. 

Herausforderungen und ethische Fragen 

Entwickler stehen immer noch vor großen Herausforderungen, wenn es darum geht, diese Informationen in ihre KI-Modelle einzuspeisen. Webdaten sind bekanntermaßen chaotisch und unstrukturiert und weisen häufig Inkonsistenzen und fehlende Werte auf. Sie erfordern eine intensive Verarbeitung und Bereinigung, bevor sie von Algorithmen verstanden werden können. Darüber hinaus enthalten Webdaten oft viele ungenaue und irrelevante Details, die die Ergebnisse von KI-Modellen verfälschen und sogenannte „Halluzinationen“ fördern können. 

Es gibt auch ethische Fragen rund um das Scraping von Internetdaten, insbesondere im Hinblick auf urheberrechtlich geschütztes Material und die Frage, was unter „fairer Nutzung“ zu verstehen ist. Während Unternehmen wie OpenAI Während manche Unternehmen argumentieren, dass es ihnen erlaubt sein sollte, sämtliche Informationen zu sammeln, die online frei verfügbar sind, sagen viele Content-Ersteller, dass dies alles andere als fair sei, da die Unternehmen letztlich von ihrer Arbeit profitieren – und sie selbst möglicherweise ihren Job verlieren. 

Trotz der anhaltenden Unklarheit darüber, welche Webdaten für das Training von KI verwendet werden können und welche nicht, ist ihre Bedeutung unbestreitbar. Im aktuellen State of Public Web Data Report von Bright Data gaben 88 % der befragten Entwickler an, Übereinstimmung dass öffentliche Webdaten aufgrund ihrer Zugänglichkeit und ihrer unglaublichen Vielfalt für die Entwicklung von KI-Modellen „entscheidend“ sind. 

Das erklärt, warum 72 % der Entwickler befürchten, dass der Zugriff auf diese Daten in den nächsten fünf Jahren aufgrund der Bemühungen großer Technologieunternehmen wie Meta, Amazon und Google, die ihre Daten lieber ausschließlich an teure Unternehmenspartner verkaufen würden, immer schwieriger werden könnte. 

Argumente für die Verwendung von Webdaten 

Die genannten Herausforderungen erklären, warum viel über die Verwendung synthetischer Daten als Alternative zu den online verfügbaren Daten diskutiert wird. Tatsächlich gibt es eine Debatte über die Vorteile synthetischer Daten gegenüber Internet-Scraping, wobei einige stichhaltige Argumente für erstere sprechen. 

Befürworter synthetischer Daten verweisen auf Vorteile wie den verbesserten Datenschutz, geringere Verzerrungen und eine höhere Genauigkeit. Darüber hinaus sind sie von Anfang an ideal für KI-Modelle strukturiert, sodass Entwickler keine Ressourcen in die Neuformatierung und korrekte Beschriftung investieren müssen, damit KI-Modelle sie lesen können. 

Andererseits kann ein übermäßiger Einsatz synthetischer Datensätze zum Zusammenbruch von Modellen führen. Dennoch sprechen ebenso überzeugende Argumente für die Überlegenheit öffentlicher Webdaten. Zum einen ist die Vielfalt und Fülle webbasierter Daten kaum zu übertreffen. Sie sind von unschätzbarem Wert für das Training von KI-Modellen, die mit der Komplexität und den Unsicherheiten realer Szenarien umgehen müssen. Zudem können sie aufgrund ihrer Mischung menschlicher Perspektiven und ihrer Aktualität dazu beitragen, vertrauenswürdigere KI-Modelle zu erstellen, insbesondere wenn Modelle in Echtzeit darauf zugreifen können. 

In Eins jüngstes Interview Or Lenchner, CEO von Bright Data, betonte, dass der beste Weg, die Genauigkeit von KI-Ergebnissen zu gewährleisten, darin besteht, Daten aus einer Vielzahl öffentlicher Quellen mit nachgewiesener Zuverlässigkeit zu beziehen. Wenn ein KI-Modell nur eine oder wenige Quellen nutzt, ist sein Wissen wahrscheinlich unvollständig, argumentierte er. „Mehrere Quellen ermöglichen Querverweise und die Erstellung eines ausgewogeneren und besser repräsentierten Datensatzes“, sagte Lenchner. 

Darüber hinaus vertrauen Entwickler zunehmend darauf, dass die Verwendung von aus dem Internet importierten Daten zulässig ist. In einer Gerichtsentscheidung im letzten Winter entschied ein Bundesrichter zugunsten entschieden von Bright Data, das von Meta wegen seiner Web-Scraping-Aktivitäten verklagt worden war. In diesem Fall stellte er fest, dass die Nutzungsbedingungen von Facebook und Instagram Nutzern mit einem Konto zwar das Scraping ihrer Websites verbieten, es jedoch keine Rechtsgrundlage gibt, abgemeldeten Nutzern den Zugriff auf öffentlich zugängliche Daten auf diesen Plattformen zu verwehren. 

Öffentliche Daten haben zudem den Vorteil, organisch zu sein. In synthetischen Datensätzen werden kleinere Kulturen und die Feinheiten ihres Verhaltens eher ausgeklammert. Öffentliche Daten, die von realen Menschen generiert werden, sind hingegen so authentisch wie nur möglich und führen daher zu besser informierten KI-Modellen mit höherer Leistung. 

Keine Zukunft ohne das Web

Schließlich ist es wichtig zu beachten, dass sich auch die Natur der KI verändert. Wie Lenchner betonte, spielen KI-Agenten eine viel größere Rolle bei der KI-Nutzung und helfen bei der Erfassung und Verarbeitung von Daten für das KI-Training. Der Vorteil davon gehe über die Beseitigung mühsamer manueller Arbeit für Entwickler hinaus, sagte er. Die Geschwindigkeit, mit der KI-Agenten agieren, ermögliche es KI-Modellen, ihr Wissen in Echtzeit zu erweitern. 

„KI-Agenten können Branchen verändern, da sie es KI-Systemen ermöglichen, auf ständig wechselnde Datensätze im Internet zuzugreifen und daraus zu lernen, anstatt sich auf statische und manuell verarbeitete Daten zu verlassen“, so Lenchner. „Das kann beispielsweise zu KI-Chatbots im Bankwesen oder in der Cybersicherheit führen, die Entscheidungen treffen können, die den neuesten Gegebenheiten entsprechen.“ 

Heutzutage ist fast jeder daran gewöhnt, das Internet ständig zu nutzen. Es ist zu einer unverzichtbaren Ressource geworden, die uns Zugang zu Tausenden wichtiger Dienste bietet und Arbeit, Kommunikation und vieles mehr ermöglicht. Wenn KI-Systeme jemals die Fähigkeiten des Menschen übertreffen sollen, benötigen sie Zugang zu denselben Ressourcen, und das Internet ist dabei die wichtigste von allen.  

0

Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.

PoolX: Locked to Earn
APR von bis zu 10%. Mehr verdienen, indem Sie mehr Lockedn.
Jetzt Lockedn!

Das könnte Ihnen auch gefallen

Solana-Ökosystem im Aufwind: Solaxy und neue Rekorde treiben Marktstimmung

Zusammenfassung des Artikels Solana erlebt dank innovativer Projekte wie Solaxy und steigender Aktivitäten im Ökosystem einen Boom, bleibt aber hinter Ethereum als führende Blockchain zurück.

Kryptomagazin2025/05/10 23:22
Solana-Ökosystem im Aufwind: Solaxy und neue Rekorde treiben Marktstimmung

Cardano ADA mit 10 Prozent Kurssprung: Wale und Derivatemarkt treiben neue Dynamik

Zusammenfassung des Artikels Cardano (ADA) verzeichnet einen starken Kursanstieg, wachsendes Interesse von Investoren und optimistische Marktsignale, birgt aber Risiko kurzfristiger Rücksetzer.

Kryptomagazin2025/05/10 23:22
Cardano ADA mit 10 Prozent Kurssprung: Wale und Derivatemarkt treiben neue Dynamik