- Publicidade -
- Publicidade -
AI, ML & Deep Learning

Modelagem com Regression Discontinuity Design explica uso em ML

- Publicidade -
- Publicidade -

São Paulo — InkDesign News —

O método de machine learning conhecido como Regression Discontinuity Design (RDD) surge como uma alternativa robusta para inferir causalidade quando a randomização não é possível. Aplicações práticas em marketplaces digitais mostram como essa técnica pode revelar impactos locais precisos, usando dados observacionais para orientar decisões estratégicas.

Arquitetura de modelo

RDD baseia-se na existência de um cutoff ou limiar em uma variável contínua, que determina a aplicação de um tratamento. Por exemplo, no contexto de uma plataforma de e-commerce, o ranking das listagens dos produtos pode ter um ponto de corte arbitrário, como a passagem da posição 30 para a 31 na página de resultados. Isso cria um cenário onde unidades próximas ao limite têm características muito semelhantes, exceto pelo fato de receberem ou não o tratamento — nesse caso, estarem em uma página diferente de listagem.

Essa arquitetura exploratória permite que o modelo capture o efeito local do tratamento ao comparar resultados imediatamente acima e abaixo do cutoff, assumindo a continuidade da relação não tratada em torno deste ponto. A variável contínua que “roda” o modelo é o score de relevância, transformado em ranking, enquanto o tratamento é um indicador binário associado à posição no ranking, e o desfecho pode ser, por exemplo, a taxa de cliques em anúncios.

“RDD explora cortes — limiares — para recuperar o efeito de um tratamento em um resultado. Mais precisamente, busca uma mudança brusca na probabilidade da atribuição do tratamento sobre uma variável contínua. Se a atribuição depende somente dessa variável e o cutoff é arbitrário, podemos tratar as unidades ao redor como aleatoriamente designadas.”
(“Regression Discontinuity Design exploits cutoffs — thresholds — to recover the effect of a treatment on an outcome. More precisely, it looks for a sharp change in the probability of treatment assignment on a ‘running’ variable. If treatment assignment depends solely on the running variable, and the cutoff is arbitrary, i.e. exogenous, then we can treat the units around it as randomly assigned.”)

— Alejandro Álvarez Pérez, Cientista de Dados

Treinamento e otimização

A modelagem RDD pode ser feita de forma paramétrica, assumindo-se uma forma funcional global para a relação entre a variável de controle e o resultado, ou de forma não-paramétrica, onde a estimativa é feita localmente, ao redor do cutoff. A escolha entre essas abordagens envolve um trade-off clássico entre viés e variância, dependendo da complexidade da função subjacente ao dado.

A seleção do grau do polinômio e da largura de banda (bandwidth) são cruciais. Polinômios de grau mais alto aumentam flexibilidade mas podem causar overfitting. Por sua vez, a largura de banda define a janela de dados próxima ao cutoff usada para a estimação, influenciando a precisão local da inferência.

Além disso, o uso cuidadoso de covariáveis pode reduzir a variância do estimador, desde que a continuidade da distribuição em torno do cutoff seja preservada. Métodos como a residualização do desfecho antes da modelagem são estratégias aplicadas para lidar com ruídos, melhorando a qualidade das estimativas sem comprometer os pressupostos fundamentais do RDD.

“Modelar as covariáveis linearmente, mantendo termos aditivos e evitando interações, assegura que o efeito do tratamento continue sendo o efeito médio local, preservando a suposição de continuidade.”
(“Model covariates linearly so that the treatment effect remains the same with and without covariates, thanks to a simple and smooth partial effect of the covariates; keep model terms additive, so that the treatment effect remains the LATE, and does not become conditional on covariates.”)

— Calonico et al., Econometria

Resultados e métricas

A aplicação do RDD em dados reais de um marketplace mostrou um aumento local de aproximadamente 1 ponto percentual na taxa de cliques para listagens logo após o cutoff da primeira para a segunda página, um aumento expressivo considerando taxas de clique de referência na ordem de 5%. Essa métrica sublinha o efeito causal de posição na visibilidade e interação do usuário com as listagens.

Testes placebo utilizando variações na interface mobile, onde a paginação tradicional é substituída por scroll infinito, confirmaram a robustez do efeito local, evidenciando a validade da suposição de continuidade. Complementarmente, o teste de densidade de McCrary avaliou a ausência de manipulação do ranking, um requisito essencial para manter a integridade do desenho causal.

“Na análise placebo, sem paginação, o salto observado na taxa de cliques desaparece, sustentando a validade da continuidade e a identificação do efeito causal local.”
(“In the placebo test, without pagination, the jump observed in the click rate disappears, supporting the continuity validity and identification of the local causal effect.”)

— Alejandro Álvarez Pérez, Cientista de Dados

Erros padrão robustos e técnicas avançadas implementadas em pacotes como rdrobust fortalecem a confiabilidade das estimativas, mitigando vieses inerentes ao uso de dados observacionais para estimar efeitos causais.

O método RDD oferece uma abordagem refinada e justificável para extrair inferências causais em ambientes complexos, especialmente quando experimentos randomizados são inviáveis ou custosos, como em plataformas digitais de grande escala. Essa técnica é particularmente útil para avaliar incrementos locais e direcionar estratégias de posicionamento e monetização, com potencial de ampliação para outros domínios dentro de machine learning e deep learning.

Fonte: (Towards Data Science – AI, ML & Deep Learning)

- Publicidade -
- Publicidade -

Tiago F Santiago

Tiago F. Santiago é Analista de Marketing na C2HSolutions, onde, em sua atuação fixa, combina estratégia e tecnologia para impulsionar soluções digitais. Paralelamente, dedica-se como hobby à InkDesign News, contribuindo com a criação de notícias e conteúdos jornalísticos. Apaixonado por programação, ele projeta aplicações web e desenvolve sites sob medida, apoiando-se em sua sólida expertise em infraestrutura de nuvem — dominando Amazon Web Services, Microsoft Azure e Google Cloud — para garantir que cada projeto seja escalável, seguro e de alta performance. Sua versatilidade e experiência técnica permitem-lhe transformar ideias em produtos digitais inovadores.

Artigos relacionados

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
Mais votado
mais recentes mais antigos
Feedbacks embutidos
Ver todos os comentários
- Publicidade -
Botão Voltar ao topo
0
Adoraria saber sua opinião, comente.x
Fechar

Adblock detectado

Olá! Percebemos que você está usando um bloqueador de anúncios. Para manter nosso conteúdo gratuito e de qualidade, contamos com a receita de publicidade.
Por favor, adicione o InkDesign News à lista de permissões do seu adblocker e recarregue a página.
Obrigado pelo seu apoio!