LLM precisam de mais livros para aprender, bibliotecas colaboram

São Paulo — InkDesign News —
A crescente utilização de machine learning e inteligência artificial (IA) tem impulsionado a demanda por campanhas de pesquisas mais abrangentes. Recentemente, bibliotecas, como a da Universidade Harvard, começaram a abrir suas coleções de livros antigos para treinar algoritmos de IA.
Contexto da pesquisa
Um projeto inovador liderado pela Harvard University visa disponibilizar ao público, incluindo desenvolvedores de IA, um acervo de quase um milhão de livros, abrangendo desde o século XV até o século XIX. Essa coleção possui mais de 394 milhões de páginas digitalizadas, contendo textos em 254 idiomas. O foco em dados de domínio público é considerado uma alternativa menos controversa em comparação a conteúdos protegidos por direitos autorais.
Método proposto
O modelo de aprendizagem empregado na iniciativa se baseia em algoritmos de Large Language Models (LLM), projetados para melhorar a precisão e a integridade das respostas geradas. Segundo Greg Leppert, diretor executivo da iniciativa, “muito dos dados utilizados no treinamento de IA não vieram de fontes originais” (
“much of the data that’s been used in AI training has not come from original sources”
(“muito dos dados utilizados no treinamento de IA não vieram de fontes originais”)— Greg Leppert, Diretor Executivo, Iniciativa de Dados Institucionais
). Essas informações são essenciais para o desenvolvimento de sistemas de IA que podem raciocinar de maneira mais precisa e confiável.
Resultados e impacto
Com a liberação do acervo na plataforma Hugging Face, espera-se que o acesso a essa base de dados linguística diversa—incluindo obras significativas de diversas culturas—possa enriquecer o aprendizado de máquinas. Harvard afirma ter uma coleção que pode gerar cerca de 242 bilhões de tokens, um número que, comparativamente, ainda é uma fração dos dados utilizados por gigantes como a Meta, que afirmam ter treinado suas últimas versões de modelos de IA com mais de 30 trilhões de tokens. Como ressaltou Aristana Scourtas, “estamos tentando transferir parte do poder deste momento de IA de volta para essas instituições” (
“we’re trying to move some of the power from this current AI moment back to these institutions”
(“estamos tentando transferir parte do poder deste momento de IA de volta para essas instituições”)— Aristana Scourtas, Gerente de Pesquisa, Harvard Law School
). Esta abordagem não apenas promete fortalecer a IA, mas também contribui para a preservação e acesso a conhecimentos históricos que já se perderam na era digital.
As aplicações em potencial dessa nova coleção de dados são vastas, incluindo o aprimoramento de modelos de chatbots, sistemas de recomendação e avanços em diversas áreas de pesquisa. O próximo passo envolve a análise do impacto dessas novas bases de dados na eficácia de modelos de IA em diferentes contextos sociais e culturais.
Fonte: (TechXplore – Machine Learning & AI)