Paradoxo de Simpson

O paradoxo de Simpson (ou reversão de Simpson, efeito Yule-Simpson, paradoxo de amalgamação ou paradoxo de reversão [1]) é um fenômeno em probabilidade e estatística, em que uma tendência aparece em diversos grupos de dados, mas desaparece ou reverte quando esses grupos são combinados.

Paradoxo de Simpson para dados quantitativos: uma tendência positiva (   ,   ) aparece para dois grupos separados, enquanto uma tendência negativa (   ) aparece quando os grupos são combinados.
Uma visualização alternativa do paradoxo de Simpson em dados que se assemelham à variabilidade do mundo real indica que o risco de erro de julgamento do relacionamento verdadeiro pode ser difícil de detectar.

Este tipo de resultado é encontrado frequentemente em análises estatísticas de pesquisas tanto em ciências sociais quanto ciências médicas[2][3][4] e é particularmente problemático quando dados de frequência são interpretados como causais.[5] O paradoxo pode ser resolvido quando relações causais são abordadas apropriadamente na modelagem estatística.[5][6] Ele é usado para tentar informar o público não especialista sobre os enganos causados por aplicação errônea da estatística.[7][8] Martin Gardner escreveu um relato popular sobre o paradoxo de Simpson em sua coluna Mathematical Games março de 1976 na revista Scientific American.[9]

Edward H. Simpson descreveu este fenômeno pela primeira vez em um artigo técnico em 1951,[10] mas os estatísticos Karl Pearson et al., em 1899,[11] e Udny Yule, em 1903,[12] já haviam mencionado efeitos semelhantes anteriormente. O nome paradoxo de Simpson foi introduzido por Colin R. Blyth em 1972.[13]

Exemplos editar

Viés de gênero da Universidade de Berkeley editar

Um dos exemplos mais conhecidos do paradoxo de Simpson é um estudo de preconceito de gênero entre admissões de pós-graduação na Universidade da Califórnia, em Berkeley. Os números de admissão para o outono de 1973 mostraram que os homens que se candidatavam eram mais propensos do que as mulheres a serem admitidos, e a diferença era tão grande que era improvável que fosse devido ao acaso.[14][15]

Total Homens Mulheres
Candidatos Admitido Candidatos Admitido Candidatos Admitido
Total 12,763 41% 8,442 44% 4,321 35%

Mas ao examinar os departamentos individualmente, seis dos 85 departamentos mostrou um viés estatisticamente contra a admissão de homens, enquanto apenas quatro tinham viés contra mulheres. De fato, os dados agrupados e corrigidos mostraram um “viés pequeno, mas estatisticamente significativo, em favor das mulheres”.[15] Os dados dos seis maiores departamentos estão listados abaixo:

Departamento Total Homens Mulheres
Candidatos Admitidos Candidatos Admitidos Candidatos Admitidos
A 933 64% 825 62% 108 82%
B 585 63% 560 63% 25 68%
C 918 35% 325 37% 593 34%
D 792 34% 417 33% 375 35%
E 584 25% 191 28% 393 24%
F 714 6% 373 6% 341 7%
Total 4526 39% 2691 45% 1835 30%

Legenda:

  A porcentagem de candidatos que admitidos é maior que o outro gênero
  A quantidade de candidatos é maior que o outro gênero

Negrito: Os dois departamentos com mais candidatos de cada gênero

O trabalho de pesquisa de Bickel et al.[15] concluíram que as mulheres tenderam, nesse caso, a se inscrever em departamentos competitivos com baixas taxas de admissão mesmo entre candidatos qualificados (como no Departamento de Inglês), enquanto os homens tendem a se inscrever em departamentos menos competitivos com altas taxas de admissão entre os candidatos qualificados (como em engenharia e química).

Tratamento de pedra nos rins editar

Este é um exemplo real de um estudo médico[16] comparando as taxas de sucesso de dois tratamentos para cálculos renais.[17]

A tabela abaixo mostra as taxas de sucesso e o número de tratamentos para cálculos renais pequenos e grandes, onde o Tratamento A inclui todos os procedimentos cirúrgicos abertos e o Tratamento B é a nefrolitotomia percutânea (que envolve apenas uma pequena punção). Os números entre parênteses indicam o número de casos de sucesso sobre o tamanho total do grupo.

Tratamento A Tratamento B
Pequenas pedras Grupo 1
93% (81/87)
Grupo 2
87% (234/270)
Pedras grandes Grupo 3
73% (192/263)
Grupo 4
69% (55/80)
Ambos 78% (273/350) 83% (289/350)

A conclusão paradoxal é que o tratamento A é mais eficaz quando usado em pedras pequenas, e também quando usado em pedras grandes, mas o tratamento B é mais eficaz ao considerar os dois tamanhos ao mesmo tempo. Neste exemplo, a variável “à espreita” (ou variável de confusão) é a gravidade do caso. Há uma tendência dos médicos de favorecer o tratamento B para casos menos graves, e a importância disso que não era previamente conhecida como importante até que seus efeitos fossem incluído.

Qual tratamento é considerado melhor é determinado por uma desigualdade entre duas razões (sucessos / total). A inversão da desigualdade entre as razões, que cria o paradoxo de Simpson, acontece porque dois efeitos ocorrem juntos:

  1. Os tamanhos dos grupos, que são combinados quando a variável oculta é ignorada, são muito diferentes. Os médicos tendem a dar aos casos graves (pedras grandes) o melhor tratamento (A), e os casos mais leves (pedras pequenas) ao tratamento inferior (B). Portanto, os totais são dominados pelos grupos 3 e 2, e não pelos dois grupos muito menores 1 e 4.
  2. A variável oculta tem um grande efeito nas proporções; ou seja, a taxa de sucesso é mais fortemente influenciada pela gravidade do caso do que pela escolha do tratamento. Portanto, o grupo de pacientes com cálculos grandes utilizando o tratamento A (grupo 3) teve pior prognóstico que o grupo com cálculos pequenos (grupos 1 e 2), mesmo quando estes utilizaram o tratamento inferior B (grupo 2).

O paradoxo surge da supressão do efeito causal da gravidade no sucesso do tratamento. O resultado paradoxal pode ser reformulado mais precisamente da seguinte forma: quando o tratamento menos eficaz (B) é aplicado com maior frequência a casos menos graves, pode parecer um tratamento mais eficaz.

Médias de rebatidas editar

Um exemplo comum do paradoxo de Simpson envolve as médias de rebatidas dos jogadores no beisebol profissional. Um jogador pode ter uma média de rebatidas mais alta que outro a cada ano por vários anos, mas no fim, tenha uma média de rebatidas quando o todo é considerado. Esse fenômeno pode ocorrer quando há grandes diferenças no número de 'at bats' entre os anos. (A mesma situação se aplica ao cálculo das médias de rebatidas para a primeira metade da temporada de beisebol, e durante a segunda metade, e depois combinando todos os dados para a média de rebatidas da temporada.)

Um exemplo real é fornecido por Ken Ross[18] e envolve a média de rebatidas de dois jogadores de beisebol, Derek Jeter e David Justice , durante os anos de 1995 e 1996: [19]

Nos anos de 1995 e 1996, David Justice teve uma média de rebatidas mais alta (em negrito) do que a de Jeter. No entanto, quando as duas temporadas de beisebol são combinadas, Jeter mostra uma média de rebatidas maior do que a de Justice. Segundo Ross, esse fenômeno seria observado aproximadamente uma vez por ano entre possíveis comparações de jogadores de beisebol interessantes.

 
Interpretação vetorial do paradoxo de Simpson

O paradoxo de Simpson também pode ser ilustrado usando o espaço vetorial bidimensional.[20] Uma taxa de sucesso de  , com uma inclinação de   . Um declive maior, significando uma direção vetorial mais acentuada, representa uma semana com um maior taxa de sucesso. Se duas taxas   e  são combinados, como acima, o resultado pode ser representado pela soma dos vetores e   , que conforme a regra do paralelogramo é o vetor  com declive   . O paradoxo de Simpson diz que mesmo se um vetor  (em laranja na figura) tem uma inclinação menor do que outro vetor   (em azul) e   tem uma inclinação menor do que  , a soma dos dois vetores  pode ainda ter uma inclinação maior do que a soma dos dois vetores  , como mostrado no exemplo.

Correlação entre variáveis editar

O paradoxo de Simpson também pode surgir para correlações. Nesse caso, duas variáveis que aparentam ter (digamos) uma correlação positiva uma com a outra, na verdade têm uma correlação negativa devido a alguma variável de confusão “à espreita”. Berman et al.[21] fornece um exemplo no contexto da economia, onde um conjunto de dados sugeriria que a demanda total estaria positivamente correlacionada com o preço (ou seja, preços mais altos levam a mais demanda), em contradição com a expectativa. Uma análise detalhada revela que o tempo é a variável de confusão: a plotagem de preço e demanda versus tempo revela a correlação negativa esperada em vários períodos. Se a influência do tempo for ignorada pela simples plotagem da demanda em relação ao preço, a correlação se inverte.

Implicações para tomada de decisão editar

O significado prático do paradoxo de Simpson fica claro nas situações de tomada de decisão, onde ele apresenta o seguinte dilema: Quais dados devemos consultar ao escolher uma ação, o agregado ou o particionado? No exemplo médico acima, fica claro que se alguém for diagnosticado com “Pedras Pequenas” ou “Pedras Grandes”, os dados para a respectiva subpopulação devem ser consultados e o Tratamento A será preferido ao Tratamento B. Mas e se o tamanho da pedra não é conhecido? Seria apropriado consultar os dados agregados e administrar o Tratamento B? Isso seria contrário ao senso comum; um tratamento que é preferido tanto sob uma condição quanto sob sua negação também deve ser preferido quando a condição é desconhecida.

Por outro lado, se os dados particionados devem ser preferidos a priori, o que impede que alguém particione os dados em subcategorias arbitrárias (digamos, baseadas na cor dos olhos ou na dor pós-tratamento) artificialmente construídas para produzir escolhas erradas de tratamentos? Pearl[5] mostra que, de fato, em muitos casos, são os dados agregados, não os particionados, que dão a escolha correta da ação. Pior ainda, dada a mesma tabela, às vezes deve-se seguir os dados particionados e, às vezes, agregados, dependendo da história por trás dos dados, com cada história ditando sua própria escolha. Pearl[5] considera que este é o verdadeiro paradoxo por trás da reversão de Simpson.

Quanto ao porquê e como uma história, e não dados, deve ditar escolhas, a resposta é que é a história que codifica as relações causais entre as variáveis. Uma vez que explicamos essas relações e as representamos formalmente, podemos testar qual partição dá a preferência de tratamento correta. Por exemplo, se representarmos relacionamentos causais em um grafo chamado “diagrama causal” (ver redes bayesianas), podemos testar se os nós que representam a partição proposta interceptam caminhos espúrios no diagrama. Esse teste, chamado de “porta dos fundos” (“backdoor”), reduz o paradoxo de Simpson a um exercício de teoria dos grafos.[22]

Psicologia editar

O interesse psicológico no paradoxo de Simpson visa explicar por que as pessoas consideram a reversão de sinais como impossível no início, estranhando a ideia de que uma ação escolhida tanto em uma condição quanto em sua negação, deveria ser rejeitada quando a condição é desconhecida. A questão é de onde as pessoas obtêm essa forte intuição e como ela está codificada na mente.

O paradoxo de Simpson demonstra que essa intuição não pode ser derivada da lógica clássica ou do cálculo de probabilidade. Isso levou os filósofos a especular que ela seria apoiada por uma lógica causal inata que guia as pessoas no raciocínio sobre as ações e suas consequências. O princípio de certeza de Savage[13] é um exemplo do que tal lógica pode implicar. Uma versão qualificada do princípio de certeza de Savage pode ser derivada do do-calculus de Pearl[5] e diz: “Uma ação A que aumenta a probabilidade de um evento B em cada subpopulação Ci de C também deve aumentar a probabilidade de B a população como um todo, desde que a ação não altere a distribuição das subpopulações.” Isto sugere que o conhecimento sobre ações e consequências é armazenado em uma forma semelhante à das Redes Bayesianas Causais.

Probabilidade editar

Um artigo escrito por Pavlides e Perlman apresenta uma prova, que em uma tabela aleatória 2 × 2 × 2 com distribuição uniforme, o paradoxo de Simpson irá ocorrer com uma probabilidade de exatamente 1/60. [23] Um estudo de Kock sugere que a probabilidade de que o paradoxo de Simpson ocorra aleatoriamente em modelos de trajetória (ou seja, modelos gerados pela análise de trajetória) com dois preditores e uma variável de critério é de aproximadamente 12,8%; ligeiramente maior que 1 ocorrência por 8 modelos de caminho.[24]

Referências editar

  1. «The Amalgamation and Geometry of Two-by-Two Contingency Tables». The Annals of Statistics. 15. ISSN 0090-5364. JSTOR 2241334. doi:10.1214/aos/1176350369 
  2. «Simpson's Paradox in Real Life». The American Statistician. 36. JSTOR 2684093. doi:10.2307/2684093 
  3. Holt, GB (2016). Potencial paradoxo de Simpson em estudo multicêntrico de quimioterapia intraperitoneal para câncer de ovário. Journal of Clinical Oncology, 34 (9), 1016-1016.
  4. «Post-transcriptional regulation across human tissues». PLOS Computational Biology. 13. ISSN 1553-7358. doi:10.1371/journal.pcbi.1005535 
  5. a b c d e Judea Pearl. Causality: Models, Reasoning, and Inference, Cambridge University Press (2000, 2nd edition 2009). ISBN 0-521-77362-8.
  6. Kock, N., & Gaskins, L. (2016). Paradoxo de Simpson, moderação e o surgimento de relações quadráticas em modelos de caminhos: uma ilustração de sistemas de informação. Revista Internacional de Ciência Não Linear Aplicada, 2 (3), 200-234.
  7. Robert L. Wardrop (fevereiro de 1995). "Paradoxo de Simpson e a mão quente no basquete". The American Statistician , 49 (1) : pp. 24–28.
  8. Alan Agresti (2002). "Categorical Data Analysis" (Second edition). John Wiley and Sons ISBN 0-471-36093-7
  9. «MATHEMATICAL GAMES: On the fabric of inductive logic, and some probability paradoxes» (PDF). Scientific American. 234. doi:10.1038/scientificamerican0376-119 
  10. «The Interpretation of Interaction in Contingency Tables». Journal of the Royal Statistical Society, Series B. 13 
  11. «Genetic (reproductive) selection: Inheritance of fertility in man, and of fecundity in thoroughbred racehorses». Philosophical Transactions of the Royal Society A. 192. doi:10.1098/rsta.1899.0006 
  12. «Notes on the Theory of Association of Attributes in Statistics». Biometrika. 2. doi:10.1093/biomet/2.2.121 
  13. a b «On Simpson's Paradox and the Sure-Thing Principle». Journal of the American Statistical Association. 67. JSTOR 2284382. doi:10.2307/2284382 
  14. David Freedman, Robert Pisani, and Roger Purves (2007), Statistics (4th edition), W. W. Norton. ISBN 0-393-92972-8.
  15. a b c «Sex Bias in Graduate Admissions: Data From Berkeley» (PDF). Science. 187. PMID 17835295. doi:10.1126/science.187.4175.398 
  16. «Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy». Br Med J (Clin Res Ed). 292. PMC 1339981 . PMID 3083922. doi:10.1136/bmj.292.6524.879 
  17. «Confounding and Simpson's paradox». BMJ. 309. PMC 2541623 . PMID 7804052. doi:10.1136/bmj.309.6967.1480 
  18. Ken Ross. "A Mathematician at the Ballpark: Odds and Probabilities for Baseball Fans (Paperback)" Pi Press, 2004. ISBN 0-13-147990-3. 12–13
  19. Estatísticas disponíveis em Baseball-Reference.com : Data for Derek Jeter ; Dados para David Justice .
  20. «Proofs without Words: Simpson's Paradox» (PDF). Mathematics Magazine. 74. JSTOR 2691038. doi:10.2307/2691038. Consultado em 30 de março de 2019. Arquivado do original (PDF) em 12 de junho de 2010 
  21. Berman, S. DalleMule, L. Greene, M., Lucker, J. (2012), " Paradoxo de Simpson: Um Conto Preventivo em Análises Avançadas ", Significância .
  22. «Understanding Simpson's paradox» (PDF). UCLA Cognitive Systems Laboratory, Technical Report R-414 
  23. «How Likely is Simpson's Paradox?». The American Statistician. 63. doi:10.1198/tast.2009.09007 
  24. Kock, N. (2015). Qual a probabilidade do paradoxo de Simpson em modelos de caminho? International Journal of e-Collaboration, 11 (1), 1-7.

Ligações externas editar