
São Paulo — InkDesign News — A startup de inteligência artificial Sakana, com sede em Tóquio e cofundada por ex-cientistas da Google, anunciou uma nova arquitetura de modelo chamada Continuous Thought Machines (CTM). Essa abordagem visa transformar a forma como os modelos de linguagem são desenvolvidos, tornando-os mais flexíveis e capazes de resolver tarefas cognitivas mais complexas.
Tecnologia e abordagem
Os CTMs introduzem uma estrutura que se desvia do tradicional modelo Transformer, caracterizado por camadas paralelas de neurônios artificiais. Em vez disso, cada neurônio nos CTMs utiliza uma linha do tempo interna, tomando decisões de ativação baseadas em um histórico de atividades prévias. Esse modelo de “neurônios” é mais denso em informações, permitindo que a arquitetura ajuste a profundidade e duração do raciocínio de forma dinâmica, conforme a complexidade da tarefa.
A inovação reside na possibilidade de cada neurônio operar com sua própria temporalidade, permitindo uma razão progressiva e a adaptação do processamento de acordo com os requisitos da tarefa. Essa nova forma de computação é vista como um passo em direção a uma inteligência mais parecida com a humana.
Aplicação e desempenho
Em testes preliminares, os CTMs apresentaram resultados competitivos em benchmarks como o ImageNet-1K, alcançando 72,47% de precisão top-1 e 89,89% top-5. Embora esses números não superem o desempenho de modelos Transformers de ponta, destacam a capacidade dos CTMs em tarefas sequenciais e adaptativas, onde produzem saídas padrão a partir de entradas complexas sem depender de embelezamentos posicionais.
“Os CTMs não foram projetados para superar pontuações de benchmarks, mas seus resultados iniciais demonstram que têm um potencial prático significativo.”
(“CTMs aren’t designed to chase leaderboard-topping benchmark scores, but their early results indicate that they have substantial practical capability.”)— Sakana AI
Impacto e mercado
Embora os CTMs revelem potencial, ainda são considerados experimentais e carecem de otimizações para implantação comercial. A arquitetura demanda mais recursos de treinamento do que os modelos Transformers tradicionais, refletindo uma necessidade de ajustes finos para garantir um aprendizado eficiente.
Para que os CTMs sejam viáveis em ambientes de produção, avanços em otimização, eficiência de hardware e integração aos fluxos de trabalho existentes são necessários. Entretanto, a acessibilidade do código aberto e a documentação ativa estão facilitando a experimentação por pesquisadores e engenheiros, permitindo que o setor acompanhe de perto essa evolução.
“Estamos empenhados em criar modelos que se adaptem em tempo real, exibam comportamentos emergentes e escalem naturalmente.”
(“We are committed to creating models that adapt in real time, exhibit emergent behavior, and scale naturally.”)— Llion Jones, Cofundador, Sakana
À medida que a pesquisa avança, a criação de modelos como os CTMs pode redefinir as expectativas em relação à inteligência artificial, especialmente em áreas onde adaptabilidade, interpretabilidade e eficiência energética são cruciais.
Fonte: (VentureBeat – AI)