Bitget App
Trade smarter
Krypto kaufenMärkteTradenFuturesEarnPlazaMehr
Tether Data erweitert QVAC Genesis II auf 148 Milliarden AI-Token

Tether Data erweitert QVAC Genesis II auf 148 Milliarden AI-Token

CryptotaleCryptotale2025/12/23 08:44
Original anzeigen
Von:Cryptotale
  • QVAC Genesis II erweitert das offene KI-Training auf 148 Milliarden Tokens in 19 akademischen Fachbereichen.
  • Der Datensatz trainiert Modelle darin, Entscheidungen zu erklären und das logische Denken über oberflächliches Lernen hinaus zu verbessern .
  • Tether Data veröffentlicht den Datensatz offen, um Forschende außerhalb geschlossener KI-Systeme zu unterstützen.

Tether Data hat QVAC Genesis II veröffentlicht und damit seinen offenen synthetischen Bildungsdatensatz für künstliche Intelligenz auf 148 Milliarden Tokens in 19 akademischen Disziplinen erweitert. Das Update fügt dem früheren Genesis I-Release 107 Milliarden Tokens hinzu und positioniert den Datensatz als die weltweit größte öffentlich verfügbare synthetische Bildungsressource für das KI-Vortraining.

QVAC, die KI-Forschungsabteilung von Tether Data, erklärte, dass der Datensatz darauf abzielt, das logische Denken, die Erklärung und die Entscheidungsfindung in KI-Modellen zu stärken, anstatt nur oberflächliche Muster zu erlernen. Die Veröffentlichung erfolgt zu einer Zeit, in der viele fortschrittliche Trainingsdatensätze innerhalb proprietärer Systeme eingeschränkt bleiben und so den Zugang für unabhängige Forschende und akademische Institutionen begrenzen.

Umfang des Datensatzes und akademische Abdeckung

Der erweiterte Datensatz umfasst 19 akademische Fachbereiche und zielt auf eine vertiefte Bildungslogik bei strukturierten Denkaufgaben ab. QVAC erklärte, dass die Skalierung ein konsistenteres Training für Modelle unterstützt, die erklärungsbasierte Ausgaben benötigen, anstatt nur probabilistische Textvorhersagen.

Deshalb konzentriert sich der Datensatz auf Klarheit und Kausalität bei den Fragen und Antworten, die während des Vortrainings verwendet werden. Der Datensatz bleibt offen zugänglich für Forschende, Universitäten und unabhängige Entwickler, die außerhalb geschlossener Plattformen arbeiten.

Tether Releases QVAC Genesis II, Expanding the World’s Largest Synthetic Educational Dataset to 148 Billion Tokens

Folgen Sie @qvac_tether und lesen Sie mehr:https://t.co/FhKgwZEKCr

— Tether (@Tether_to) 22. Dezember 2025

QVAC veröffentlichte Genesis II unter einer Creative Commons Attribution–NonCommercial 4.0-Lizenz und setzt damit den Lizenzierungsansatz von Genesis I fort. Die Organisation erklärte, dass die Lizenz die Nutzung für Forschungszwecke unterstützt, während sie die Namensnennung und nicht-kommerzielle Nutzung wahrt. Der Datensatz und die zugehörigen Modelle sind über Hugging Face verfügbar, zusammen mit ausführlicher Dokumentation und Zugriffstools.

Neue Methode des Option-Level Reasoning

Im Zentrum von Genesis II steht eine neue Methode zur Datengenerierung namens Option-Level Reasoning. Die Methode bewertet jede Antwortmöglichkeit einer Multiple-Choice-Frage, einschließlich der richtigen Optionen und häufiger Fehlannahmen.

Anstatt richtige Antworten als endgültige Ergebnisse zu behandeln, untersucht der Ansatz, warum jede Option erfolgreich ist oder scheitert. QVAC erklärte, dass dieser Prozess gültiges logisches Denken verstärkt und falsche Annahmen im Trainingsdatensatz direkt adressiert.

Die Methode baut auf dem Fehleranalyse-Framework auf, das in Genesis I eingeführt wurde. Zusammen bilden beide Techniken eine duale Methodik, die sicherstellt, dass jedes generierte Element einen didaktischen Mehrwert bietet.

Unabhängige Bewertungen, auf die sich QVAC bezieht, zeigen, dass Modelle, die mit Genesis II-Daten trainiert wurden, eine höhere Genauigkeit beim logischen Denken erreichen und konsistenter klarere Antworten liefern. Dadurch verlagert der Datensatz den Trainingsfokus auf strukturiertes Verständnis statt nur auf Sprachflüssigkeit.

Verwandt: Tether reicht Vorschlag zur Übernahme des Juventus Football Club ein

Offene Forschung und Ziele für dezentralisierte KI

QVAC erklärte, dass die Veröffentlichung mit dem übergeordneten Ziel übereinstimmt, die lokale und dezentralisierte KI-Entwicklung zu unterstützen. Die Initiative soll das Training und den Einsatz von Modellen ohne Abhängigkeit von zentralisierten Cloud-Plattformen ermöglichen.

Durch die Erweiterung offener Trainingsgrundlagen will Tether Data strukturelle Barrieren beseitigen, denen kleinere Forschungsgruppen gegenüberstehen. „Das meiste KI-Training optimiert heute für Sprachflüssigkeit, nicht für Verständnis“, sagte Paolo Ardoino, Chief Executive Officer von Tether.

„Mit dieser Veröffentlichung gehen wir über das Volumen hinaus in Richtung Struktur, logisches Denken und Klarheit“, sagte Ardoino. Er fügte hinzu, dass der offene Zugang Forschenden Werkzeuge an die Hand gibt, um KI-Systeme zu entwickeln, die erklärbar und zuverlässig bleiben.

Das technische Papier mit dem Titel QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training ist im QVAC-Forschungsblog verfügbar. QVAC veröffentlichte außerdem eine ausführliche FAQ und unterstützendes Material auf seiner offiziellen Website.

Da KI-Systeme zunehmend in Bildung, Wissenschaft und Finanzdienstleistungen, einschließlich Fintech-Anwendungen, eingesetzt werden, stellt sich die Frage: Können strukturierte Datensätze die Art und Weise verändern, wie intelligente Systeme lernen und arbeiten?

0
0

Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.

PoolX: Locked to Earn
APR von bis zu 10%. Mehr verdienen, indem Sie mehr Lockedn.
Jetzt Lockedn!
© 2025 Bitget