Na estatística clássica, o valor-p (também chamado de nível descritivo ou probabilidade de significância)[1], é a probabilidade de se obter uma estatística de teste igual ou mais extrema que aquela observada em uma amostra, sob a hipótese nula. Por exemplo, em testes de hipótese, pode-se rejeitar a hipótese nula a 5% caso o valor-p seja menor que 5%. Assim, uma outra interpretação para o valor-p, é que este é o menor nível de significância com que se rejeitaria a hipótese nula. Em termos gerais, um valor-p pequeno significa que a probabilidade de obter um valor da estatística de teste como o observado é muito improvável, levando assim à rejeição da hipótese nula.

Em um teste clássico de hipóteses, são definidas duas hipóteses, a nula (H0) e a alternativa (HA). Em muitas aplicações da estatística, convenciona-se definir a hipótese alternativa como a hipótese formulada pelo pesquisador, enquanto a hipótese nula é o seu complemento. A princípio, a hipótese nula é considerada a verdadeira. Ao confrontarmos a hipótese nula com os achados de uma amostra aleatória tomada de uma população de interesse, verifica-se a sua plausibilidade em termos probabilísticos, o que nos leva a rejeitarmos ou não H0. Se não rejeitamos H0, tomamo-la como verdadeira; caso contrário, tomamos HA como verdadeira.

No entanto, por utilizarmos nesta tomada de decisão uma amostra (uma parte da população) e não a população inteira, podemos cometer dois tipos de erro. Cometemos um erro tipo I quando rejeitamos H0 e H0 é verdadeira, e cometemos um erro tipo II quando não rejeitamos H0 e H0 é falsa. A tabela abaixo descreve estas situações.

A hipótese H0 é verdadeira A hipótese H0 é falsa
Rejeita-se H0 Erro do tipo I sem erro
Não se rejeita H0 sem erro Erro do tipo II

A probabilidade de cometermos um erro tipo I é chamada de nível de significância, denotado pela letra grega . O nível de significância é geralmente determinado pelo pesquisador antes da coleta dos dados. Em muitas aplicações da estatística, o nível de significância é tradicionalmente fixado em 0,05.[2]

Com base nestes conceitos, podemos definir o valor-p como a menor escolha que teríamos feito para o nível de significância, de forma que rejeitaríamos H0. Por exemplo, vamos supor que o nível de significância foi fixado em = 0,05. Um valor-p igual a 0,20 indica que nós teríamos rejeitado H0 se tivéssemos escolhido um nível de significância de 0,20, ao menos. Como escolhemos = 0,05, não rejeitamos H0. Isto leva a uma regra simplista, mas usual, onde rejeitamos H0 se o valor-p é menor que e não rejeitamos H0 caso contrário.

É preciso muita cautela na interpretação de um valor-p, dado que esta medida é bastante influenciada pelo tamanho da amostra. Amostras grandes tendem a produzir valores-p pequenos, ainda que o efeito observado não tenha grande importância prática, enquanto amostras pequenas tendem a produzir valores-p grandes, ainda que exista um importante efeito em um ponto de vista prático.[3] Por isso, o uso dos valores-p nas pesquisas médicas tem sido bastante criticado por vários autores.[4][5]

Enganos comuns e controvérsias na interpretação do valor-pEditar

O valor-p é, basicamente, um parâmetro estatístico que indica se determinada hipótese, formulada a priori, deve ser rejeitada ou não. Em um teste estatístico, como num teste randomizado – muito comum em testes com seres humanos – considera-se que as hipóteses são sempre estabelecidas antes da coleta dos dados, isto é, parte-se de uma premissa de que os dados são coletados “às cegas”, o que nem sempre acontece.[6] Por exemplo, caso se pretenda comprovar a eficácia de uma nova droga no tratamento de uma doença, pode-se escolher um grupo de pessoas que vai tomar o medicamento e outro grupo, chamado grupo de controle, que tomará apenas uma pílula de açúcar, chamada de placebo. Em testes desse tipo, nem os próprios aplicadores dos medicamentos sabem para qual grupo estão sendo destinados determinado tipo de droga, e, em muitas ocasiões, não têm ideia de qual tipo de hipótese está sendo testada. Após a coleta, seguem-se os testes estatísticos que geram parâmetros como o valor-p, que servem para validar a eficácia do método ou não.

O problema não está no resultado do teste em si, mas na crença quase absoluta de que o conceito do valor-p – que pertence a uma tradição de pensamento na Estatística chamada de “frequentista” ou "frequencista" – seja correto para a tomada de decisões, como atestar se determinada descoberta pode ser considerada realmente significativa. O caso da crença no valor-p e, mais ainda, no intervalo de 5% para o que é chamado “nível de significância” de uma descoberta foi assunto abordado em um artigo da Nature, de 2017.[7] Nele são comentadas que diversos cientistas têm razões para acreditar que há um equívoco na interpretação e no uso indiscriminado do conceito, o que pode levar, inclusive, a uma taxa maior de “falsas descobertas”, supondo-se, naturalmente, uma pesquisa idônea.

Em 07 Março de 2016 a American Statistics Association[8] publicou um artigo de diretriz para reduzir as interpretações erradas sobre o valor-P, entre os quais podem ser citados:

  • O valor-p não é a probabilidade de a hipótese nula de um teste ser verdadeira.
  • O valor-p não é a probabilidade de um dado resultado ter sido obtido de um "acaso".
  • O valor-p não é a probabilidade de a hipótese nula ter sido enganosamente rejeitada.
  • A magnitude do valor-p não indica o tamanho ou a importância de um efeito observado. Por exemplo, em uma pesquisa clínica onde são comparados dois tratamentos, um valor-p bastante pequeno não é um indicador de que existe uma grande diferença entre os efeitos dos tratamentos comparados.
  • Valor-p e nível de significância não são sinônimos.[9] O valor-p é sempre obtido de uma amostra, enquanto o nível de significância é geralmente fixado antes da coleta dos dados.

Ver tambémEditar

Referências

  1. Glossário Inglês-Português de Estatística, Sociedade Portuguesa de Estatística e Associação Brasileira de Estatística [1]
  2. Gauvreau K, Pagano M. Why 5%? Nutrition 1994;10(1):93-4.
  3. Altman DG, Bland JM. Absence of evidence is not evidence of absence. British Medical Journal 1995; 311:485.
  4. Grimes DA, Schulz KF. An overview of clinical research: the lay of the land. The Lancet 2002; 359:57-61.
  5. Gardner MJ, Altman DG. Confidence intervals rather than P values: estimation rather than hypothesis testing. British Medical Journal (Clin Res Ed) 1986;292(6522):746-50.
  6. Leek, Jeffrey T.; Peng, Roger D. (abril de 2015). «Statistics: P values are just the tip of the iceberg». Nature (7549): 612–612. ISSN 0028-0836. doi:10.1038/520612a. Consultado em 2 de novembro de 2022 
  7. Singh Chawla, Dalmeet (1 de agosto de 2017). «Big names in statistics want to shake up much-maligned P value». Nature (em inglês) (7665): 16–17. ISSN 1476-4687. doi:10.1038/nature.2017.22375. Consultado em 2 de novembro de 2022 
  8. Wasserstein, Ronald L.; Lazar, Nicole A. (2 de abril de 2016). «The ASA's Statement on p-Values: Context, Process, and Purpose». The American Statistician. 70 (2): 129–133. ISSN 0003-1305. doi:10.1080/00031305.2016.1154108 
  9. Hubbard R. The widespread misinterpretation of p-values as error probabilities. Journal of Applied Statistics 2011 [Ahead of print].