- Publicidade -
- Publicidade -
- Publicidade -
Machine learning & AI

LLM precisam de mais livros para aprender, bibliotecas colaboram

- Publicidade -
- Publicidade -

São Paulo — InkDesign News —

A crescente utilização de machine learning e inteligência artificial (IA) tem impulsionado a demanda por campanhas de pesquisas mais abrangentes. Recentemente, bibliotecas, como a da Universidade Harvard, começaram a abrir suas coleções de livros antigos para treinar algoritmos de IA.

Contexto da pesquisa

Um projeto inovador liderado pela Harvard University visa disponibilizar ao público, incluindo desenvolvedores de IA, um acervo de quase um milhão de livros, abrangendo desde o século XV até o século XIX. Essa coleção possui mais de 394 milhões de páginas digitalizadas, contendo textos em 254 idiomas. O foco em dados de domínio público é considerado uma alternativa menos controversa em comparação a conteúdos protegidos por direitos autorais.

Método proposto

O modelo de aprendizagem empregado na iniciativa se baseia em algoritmos de Large Language Models (LLM), projetados para melhorar a precisão e a integridade das respostas geradas. Segundo Greg Leppert, diretor executivo da iniciativa, “muito dos dados utilizados no treinamento de IA não vieram de fontes originais” (

“much of the data that’s been used in AI training has not come from original sources”
(“muito dos dados utilizados no treinamento de IA não vieram de fontes originais”)

— Greg Leppert, Diretor Executivo, Iniciativa de Dados Institucionais

). Essas informações são essenciais para o desenvolvimento de sistemas de IA que podem raciocinar de maneira mais precisa e confiável.

Resultados e impacto

Com a liberação do acervo na plataforma Hugging Face, espera-se que o acesso a essa base de dados linguística diversa—incluindo obras significativas de diversas culturas—possa enriquecer o aprendizado de máquinas. Harvard afirma ter uma coleção que pode gerar cerca de 242 bilhões de tokens, um número que, comparativamente, ainda é uma fração dos dados utilizados por gigantes como a Meta, que afirmam ter treinado suas últimas versões de modelos de IA com mais de 30 trilhões de tokens. Como ressaltou Aristana Scourtas, “estamos tentando transferir parte do poder deste momento de IA de volta para essas instituições” (

“we’re trying to move some of the power from this current AI moment back to these institutions”
(“estamos tentando transferir parte do poder deste momento de IA de volta para essas instituições”)

— Aristana Scourtas, Gerente de Pesquisa, Harvard Law School

). Esta abordagem não apenas promete fortalecer a IA, mas também contribui para a preservação e acesso a conhecimentos históricos que já se perderam na era digital.

As aplicações em potencial dessa nova coleção de dados são vastas, incluindo o aprimoramento de modelos de chatbots, sistemas de recomendação e avanços em diversas áreas de pesquisa. O próximo passo envolve a análise do impacto dessas novas bases de dados na eficácia de modelos de IA em diferentes contextos sociais e culturais.

Fonte: (TechXplore – Machine Learning & AI)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!