Modelagem com Regression Discontinuity Design explica uso em ML

- Publicidade -

Tiago F Santiago 07/05/2025Última Atualização 07/05/2025

0 64 3 minutos de leitura

Modelagem com Regression Discontinuity Design explica uso em ML — Two parallel worlds. From left to right; one where there is no minimum age to consume alcohol legally, and one where there is: 18 years.

- Publicidade -

São Paulo — InkDesign News —

O método de machine learning conhecido como Regression Discontinuity Design (RDD) surge como uma alternativa robusta para inferir causalidade quando a randomização não é possível. Aplicações práticas em marketplaces digitais mostram como essa técnica pode revelar impactos locais precisos, usando dados observacionais para orientar decisões estratégicas.

Arquitetura de modelo

RDD baseia-se na existência de um cutoff ou limiar em uma variável contínua, que determina a aplicação de um tratamento. Por exemplo, no contexto de uma plataforma de e-commerce, o ranking das listagens dos produtos pode ter um ponto de corte arbitrário, como a passagem da posição 30 para a 31 na página de resultados. Isso cria um cenário onde unidades próximas ao limite têm características muito semelhantes, exceto pelo fato de receberem ou não o tratamento — nesse caso, estarem em uma página diferente de listagem.

Essa arquitetura exploratória permite que o modelo capture o efeito local do tratamento ao comparar resultados imediatamente acima e abaixo do cutoff, assumindo a continuidade da relação não tratada em torno deste ponto. A variável contínua que “roda” o modelo é o score de relevância, transformado em ranking, enquanto o tratamento é um indicador binário associado à posição no ranking, e o desfecho pode ser, por exemplo, a taxa de cliques em anúncios.

“RDD explora cortes — limiares — para recuperar o efeito de um tratamento em um resultado. Mais precisamente, busca uma mudança brusca na probabilidade da atribuição do tratamento sobre uma variável contínua. Se a atribuição depende somente dessa variável e o cutoff é arbitrário, podemos tratar as unidades ao redor como aleatoriamente designadas.”
(“Regression Discontinuity Design exploits cutoffs — thresholds — to recover the effect of a treatment on an outcome. More precisely, it looks for a sharp change in the probability of treatment assignment on a ‘running’ variable. If treatment assignment depends solely on the running variable, and the cutoff is arbitrary, i.e. exogenous, then we can treat the units around it as randomly assigned.”)

— Alejandro Álvarez Pérez, Cientista de Dados

Treinamento e otimização

A modelagem RDD pode ser feita de forma paramétrica, assumindo-se uma forma funcional global para a relação entre a variável de controle e o resultado, ou de forma não-paramétrica, onde a estimativa é feita localmente, ao redor do cutoff. A escolha entre essas abordagens envolve um trade-off clássico entre viés e variância, dependendo da complexidade da função subjacente ao dado.

A seleção do grau do polinômio e da largura de banda (bandwidth) são cruciais. Polinômios de grau mais alto aumentam flexibilidade mas podem causar overfitting. Por sua vez, a largura de banda define a janela de dados próxima ao cutoff usada para a estimação, influenciando a precisão local da inferência.

Além disso, o uso cuidadoso de covariáveis pode reduzir a variância do estimador, desde que a continuidade da distribuição em torno do cutoff seja preservada. Métodos como a residualização do desfecho antes da modelagem são estratégias aplicadas para lidar com ruídos, melhorando a qualidade das estimativas sem comprometer os pressupostos fundamentais do RDD.

“Modelar as covariáveis linearmente, mantendo termos aditivos e evitando interações, assegura que o efeito do tratamento continue sendo o efeito médio local, preservando a suposição de continuidade.”
(“Model covariates linearly so that the treatment effect remains the same with and without covariates, thanks to a simple and smooth partial effect of the covariates; keep model terms additive, so that the treatment effect remains the LATE, and does not become conditional on covariates.”)

— Calonico et al., Econometria

Resultados e métricas

A aplicação do RDD em dados reais de um marketplace mostrou um aumento local de aproximadamente 1 ponto percentual na taxa de cliques para listagens logo após o cutoff da primeira para a segunda página, um aumento expressivo considerando taxas de clique de referência na ordem de 5%. Essa métrica sublinha o efeito causal de posição na visibilidade e interação do usuário com as listagens.

Testes placebo utilizando variações na interface mobile, onde a paginação tradicional é substituída por scroll infinito, confirmaram a robustez do efeito local, evidenciando a validade da suposição de continuidade. Complementarmente, o teste de densidade de McCrary avaliou a ausência de manipulação do ranking, um requisito essencial para manter a integridade do desenho causal.

“Na análise placebo, sem paginação, o salto observado na taxa de cliques desaparece, sustentando a validade da continuidade e a identificação do efeito causal local.”
(“In the placebo test, without pagination, the jump observed in the click rate disappears, supporting the continuity validity and identification of the local causal effect.”)

— Alejandro Álvarez Pérez, Cientista de Dados

Erros padrão robustos e técnicas avançadas implementadas em pacotes como rdrobust fortalecem a confiabilidade das estimativas, mitigando vieses inerentes ao uso de dados observacionais para estimar efeitos causais.

O método RDD oferece uma abordagem refinada e justificável para extrair inferências causais em ambientes complexos, especialmente quando experimentos randomizados são inviáveis ou custosos, como em plataformas digitais de grande escala. Essa técnica é particularmente útil para avaliar incrementos locais e direcionar estratégias de posicionamento e monetização, com potencial de ampliação para outros domínios dentro de machine learning e deep learning.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -

Etiquetas

Tiago F Santiago 07/05/2025Última Atualização 07/05/2025

0 64 3 minutos de leitura

Ler o Próximo

0 0 votos

Classificação do artigo

Inscrever-se

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários

Mais votado

mais recentes mais antigos

Feedbacks embutidos

Ver todos os comentários

Moises
Gostei do seu poste, existe muitos artigos em seu blog relac...
Ana Karol
Adorei conhecer seu blog, tem muito artigos bem interessante...
Marlene Coelho
Algo errado não está certo com essa foto. Arquibancada ao la...
Dennison de Oliveira
Lacrô!:) Mas pelo menos alguém pesquisou por que o título fo...

Modelagem com Regression Discontinuity Design explica uso em ML

Arquitetura de modelo

Treinamento e otimização

Resultados e métricas

Tiago F Santiago

Ler o Próximo

Python verifica representatividade de dados em machine learning

Federated Learning combate ataques com técnicas de ML

Redes neurais melhoram acurácia em modelos de ML

Avaliações baseadas em tarefas impulsionam a modelagem em ML

LangGraph otimiza planejamento orçamentário com AI

Modelos de AI aprimoram processamento de milhões de requisições

Algoritmo húngaro otimiza modelagem em visão computacional

LangGraph 201 adiciona supervisão humana à modelagem de AI

Python explora Merit Order e curva de custo de abate com ML

Implementando o desafio Gaussiano com machine learning

Python verifica representatividade de dados em machine learning

Federated Learning combate ataques com técnicas de ML

Redes neurais melhoram acurácia em modelos de ML

Avaliações baseadas em tarefas impulsionam a modelagem em ML

LangGraph otimiza planejamento orçamentário com AI

Modelos de AI aprimoram processamento de milhões de requisições

Algoritmo húngaro otimiza modelagem em visão computacional

LangGraph 201 adiciona supervisão humana à modelagem de AI

Python explora Merit Order e curva de custo de abate com ML

Implementando o desafio Gaussiano com machine learning

Meta lança Llama API 18x mais rápida com AI avançada

LLM do ChatGPT amplia auxílio em compras intensificando rivalidade com Google

Ataques a ONGs aumentam com ransomware globalmente

SpaceX enfrenta desafios com foguete Starship no teste 163

Como construir um app de MCQ com machine learning

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Arquitetura de modelo

Treinamento e otimização

Resultados e métricas

Ler o Próximo

Python verifica representatividade de dados em machine learning

Federated Learning combate ataques com técnicas de ML

Redes neurais melhoram acurácia em modelos de ML

Avaliações baseadas em tarefas impulsionam a modelagem em ML

LangGraph otimiza planejamento orçamentário com AI

Modelos de AI aprimoram processamento de milhões de requisições

Algoritmo húngaro otimiza modelagem em visão computacional

LangGraph 201 adiciona supervisão humana à modelagem de AI

Python explora Merit Order e curva de custo de abate com ML

Implementando o desafio Gaussiano com machine learning

Fortaleza vence Colo-Colo por 4 a 0 e confirma vitória na Libertadores

Ineep defende exploração da Margem Equatorial sob partilha para investimento

Artigos relacionados

Robô da RoboCup@Work League transforma processos industriais

NASA oferece desconto em câmera Canon e lente grande angular

PT lança curso sobre fé e democracia para ampliar apoio evangélico

Uerj revoga título a Médici em ação contra governo militar

Google encerra suporte a termostatos Nest antigos em 25 de outubro

Investidores pessoas físicas aumentam investimento em secondaries e IPOs atrasados viram norma no venture capital

Adblock detectado