- QVAC Genesis II expande o treino de IA aberta para 148 mil milhões de tokens em 19 áreas académicas.
- O conjunto de dados treina modelos para explicar escolhas e melhorar o raciocínio para além da superfície .
- A Tether Data disponibiliza o conjunto de dados abertamente para apoiar investigadores fora de sistemas de IA fechados.
A Tether Data lançou o QVAC Genesis II, expandindo o seu conjunto de dados educacionais sintéticos abertos para inteligência artificial para 148 mil milhões de tokens em 19 domínios académicos. A atualização adiciona 107 mil milhões de tokens à versão anterior Genesis I e posiciona o conjunto de dados como o maior recurso educacional sintético publicamente disponível do mundo para pré-treino de IA.
QVAC, a divisão de investigação em inteligência artificial da Tether Data, afirmou que o objetivo do conjunto de dados é fortalecer o raciocínio, a explicação e a tomada de decisões em modelos de IA, em vez de apenas aprendizagem de padrões superficiais. O lançamento ocorre numa altura em que muitos conjuntos de dados avançados de treino permanecem restritos a sistemas proprietários, limitando o acesso a investigadores independentes e instituições académicas.
Escala do Conjunto de Dados e Cobertura Académica
O conjunto de dados expandido abrange 19 domínios académicos e visa a profundidade no raciocínio educacional em tarefas de raciocínio estruturado. A QVAC afirmou que o aumento de escala apoia um treino mais consistente para modelos que exigem resultados baseados em explicações, em vez de apenas previsão probabilística de texto.
Como resultado, o conjunto de dados foca-se na clareza e causalidade em perguntas e respostas utilizadas durante o pré-treino. O conjunto de dados permanece disponível abertamente para investigadores, universidades e desenvolvedores independentes que trabalham fora de plataformas fechadas.
QVAC lançou o Genesis II sob uma licença Creative Commons Attribution–NonCommercial 4.0, continuando a abordagem de licenciamento utilizada para o Genesis I. A organização afirmou que a licença apoia o uso para investigação, preservando a atribuição e os limites de uso não comercial. O conjunto de dados e os modelos relacionados estão disponíveis através do Hugging Face, juntamente com documentação detalhada e ferramentas de acesso.
Novo Método de Raciocínio ao Nível das Opções
No centro do Genesis II está um novo método de geração de dados chamado Raciocínio ao Nível das Opções. O método avalia cada escolha de resposta numa pergunta de múltipla escolha, incluindo opções corretas e equívocos comuns.
Em vez de tratar as respostas corretas como resultados finais, a abordagem examina porque é que cada opção tem sucesso ou falha. A QVAC afirmou que este processo reforça o raciocínio válido ao abordar diretamente suposições incorretas nos dados de treino.
O método baseia-se no quadro de análise de falhas introduzido no Genesis I. Em conjunto, ambas as técnicas formam um pipeline de método duplo que garante que cada item gerado contribui com valor instrucional.
Avaliações independentes citadas pela QVAC mostram que modelos treinados com dados do Genesis II alcançam maior precisão de raciocínio e fornecem respostas mais claras de forma consistente. Como resultado, o conjunto de dados orienta o treino para uma compreensão estruturada em vez de apenas fluência.
Relacionado: Tether Submete Proposta para Adquirir o Juventus Football Club
Investigação Aberta e Objetivos de IA Descentralizada
A QVAC afirmou que o lançamento está alinhado com o seu esforço mais amplo para apoiar o desenvolvimento local e descentralizado de IA. A iniciativa procura permitir o treino e a implementação de modelos sem dependência de plataformas centralizadas na cloud.
Ao expandir as bases de treino abertas, a Tether Data pretende eliminar barreiras estruturais enfrentadas por grupos de investigação mais pequenos. “A maior parte do treino de IA hoje otimiza para fluência, não para compreensão”, disse Paolo Ardoino, diretor executivo da Tether.
“Com este lançamento, estamos a ir além do volume, em direção à estrutura, raciocínio e clareza”, disse Ardoino. Acrescentou que o acesso aberto dá aos investigadores ferramentas para desenvolver sistemas de IA que permanecem explicáveis e fiáveis.
O artigo técnico, intitulado QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training, está disponível no blog de investigação da QVAC. A QVAC também publicou uma FAQ detalhada e material de apoio no seu site oficial.
À medida que os sistemas de IA se expandem para a educação, ciência e serviços financeiros, incluindo aplicações fintech, poderão conjuntos de dados estruturados remodelar a forma como os sistemas de inteligência aprendem e operam?


