
São Paulo — InkDesign News — A OpenAI segue à frente no debate sobre a efetividade da inteligência artificial no ambiente de trabalho, apresentando um novo benchmark que promete avaliar de forma mais precisa o desempenho de modelos de IA em tarefas reais e economicamente relevantes.
Contexto e lançamento
Em um contexto onde muitas empresas enfrentam dificuldades em obter retornos significativos de seus investimentos em IA, a OpenAI acaba de liberar o relatório que introduz o GDPval. Essa avaliação, segundo a empresa, foi criada para suprir lacunas deixadas por benchmarks anteriores que se concentravam em problemas acadêmicos abstratos. Recentes estudos indicam que menos de 10% dos projetos piloto de IA resultaram em ganhos financeiros tangíveis, e uma pesquisa do MIT Media Lab revelou que “95% das organizações não estão obtendo retorno algum” de suas apostas em IA, o que ressalta a necessidade de direções mais focadas e fundamentadas.
Design e especificações
O GDPval abrange 44 ocupações distribuídas entre as nove indústrias que compõem a maior parte do PIB dos EUA, como imóveis, governo, manufatura e finanças. Para construir o conjunto de testes, a OpenAI recrutou profissionais com uma média de 14 anos de experiência, que desenvolveram tarefas representativas das funções de alto valor nas suas áreas. Cada tarefa foi acompanhada de um exemplo redigido por um ser humano, garantindo um padrão de referência. O conjunto de dados inclui 30 tarefas revisadas por especialistas e um “conjunto ouro” com cinco tarefas de código aberto por ocupação.
Repercussão e aplicações
O estudo revelou que os modelos de IA contemporâneos estão progredindo rapidamente em qualidade, aproximando-se da produção de especialistas humanos. Claude Opus 4.1 foi o que obteve melhor desempenho, com uma taxa de vitórias e empates de 47,6%, destacando-se em aspectos estéticos. Em contraste, o GPT-4o apresentou resultados inferiores com apenas 12,4%. A OpenAI sustenta que seus modelos podem executar tarefas do GDPval até 100 vezes mais rápido e a um custo significativamente menor do que os humanos. De acordo com a empresa, “a maioria dos empregos envolve mais do que apenas uma coleção de tarefas que podem ser documentadas”, enfatizando a importância da criatividade e do julgamento humano no trabalho moderno.
“GDPval destaca onde a IA pode lidar com tarefas rotineiras, permitindo que os humanos se concentrem nas partes criativas e que demandam julgamento do trabalho.”
(“GDPval highlights where AI can handle routine tasks so people can spend more time on the creative, judgment-heavy parts of work.”)— OpenAI
Com o avanço contínuo dos modelos de IA, a OpenAI se posiciona como um líder no desenvolvimento de soluções que podem não apenas simplificar processos, mas também transformar o mercado de trabalho. A próxima etapa de implementação e testes amplos dessas tecnologias será crucial para determinar seu lugar definitivo na economia global.
Fonte: (Gizmodo – Cultura Tech & Geek)