
São Paulo — InkDesign News — Deep Cogito, uma startup de pesquisa em inteligência artificial baseada em São Francisco, divulgou recentemente uma nova linha de modelos de linguagem (LLMs) que têm como objetivo melhorar sua capacidade de raciocínio ao longo do tempo. Os quatro novos modelos da família Cogito v2 variam de 70 bilhões a 671 bilhões de parâmetros e estão disponíveis sob termos de licenciamento que variam de limitados a totalmente abertos.
Tecnologia e abordagem
Os modelos incluem versões densas e de Mistura de Especialistas (MoE). Os modelos densos, como o Cogito v2-70B e o v2-405B, ativam todos os parâmetros em cada passagem, tornando-os mais previsíveis e fáceis de implementar em diversas configurações de hardware. Por outro lado, os modelos MoE, como o Cogito v2-109B e o v2-671B, utilizam um mecanismo de roteamento esparso que ativa apenas algumas sub-redes de “especialistas”, possibilitando tamanhos de modelo maiores sem aumentos proporcionais nos custos computacionais.
Aplicação e desempenho
Os resultados preliminares indicam que o Cogito v2 tem um desempenho promissor em tarefas complexas de raciocínio. O modelo de 671 bilhões de parâmetros, que é fornecido sob a arquitetura MoE, é destacado como o principal, superando modelos de ponta em benchmarks enquanto utiliza cadeias de raciocínio significativamente mais curtas. Esta eficiência se torna especialmente importante em aplicações que exigem decisões rápidas, como em ambientes com capacidade limitada de GPU, onde modelos mais leves são preferíveis.
“Os modelos Cogito desenvolvem uma melhor intuição da trajetória a ser tomada durante a busca em tempo de inferência, resultando em cadeias de raciocínio 60% mais curtas do que os modelos concorrentes”, afirma Drishan Arora, CEO e cofundador da Deep Cogito.
Impacto e mercado
Com um custo total de treinamento abaixo de US$ 3,5 milhões, segundo a empresa, os esforços da Deep Cogito são extremamente competitivos em comparação aos altos investimentos exigidos por outros modelos, como o GPT-4, que custou mais de US$ 100 milhões para treinar. Isso sugere uma alternativa mais acessível para empresas que desejam implementar LLMs, especialmente considerando a crescente demanda por soluções de IA nas empresas.
Para os desenvolvedores, pesquisadores e equipes empresariais, os modelos estão prontamente disponíveis para descarga e uso. Com isso, o Deep Cogito não só aumenta o benchmark de performance na área de inteligência artificial, como também representa uma abordagem inovadora no desenvolvimento de sistemas que pensam melhor em vez de apenas mais.
Os próximos passos da empresa incluem a continuação de seu trabalho em modelos open source, permitindo que a comunidade AI explore e aperfeiçoe essas tecnologias emergentes.
Fonte: (VentureBeat – AI)