Distribuição nula
Nos capítulos passados vimos que as distribuições teóricas de probabilidades são modelos matemáticos que podem servir para prever ou antecipar resultados de eventos ou experimentos cientíticos. Um outro uso importante das distribuições de probabilidade é servirem de modelos teóricos de como os dados deveriam estar distribuídos em determinadas situações. Esses modelos teóricos ideais são usados rotineiramente para fins de comparação em pesquisas científicas.
Por exemplo, para sabermos se uma dieta funciona, não basta termos os resultados dos efeitos, precisamos saber como seriam esses resultados se a dieta não funcionasse. Precisamos lembrar que, ainda que uma dieta não tenha efeito, quando testada em um grande conjunto de pessoas, certamente haverá mudanças no peso devidas ao acaso. Algumas pessoas poderão até mesmo engordar, outras emagrecer. Mas, se a dieta não funciona, espera-se que a maior parte não mude muito o peso. O que os pesquisadores precisam é saber como estarão distribuidos os pesos dos participantes se a dieta não funciona. Ou seja, precisamos comparar os resultados encontrados na pesquisa com um modelo teórico no qual a dieta não funciona. Precisamos saber como estariam distribuídos os dados na hipótese da dieta não ter efeito. Essa distribuição dos dados causada apenas pelos os efeitos do acaso é conhecida na estatística pelo nome de distribuição nula.
O termo distribuição nula se refere a um modelo teórico que mostra como os dados estarão distribuídos se apenas os efeitos do acaso estiverem atuando sobre os resultados. Quando um pesquisador pretende mostrar que determinado agente tem um efeito real, será necessário demonstrar que os dados encontrados estão distribuídos de forma significativamente diferente da distribuição nula.
O conceito de distribuição nula foi cunhado por Ronald Fisher e exposto pela primeira por volta de 1935 em seu livro The Design of Experiments. Nesse livro Fisher descreve os passos para um curioso experimento: Há alguma diferença no saber de um chá se o leite for adicionado à xícara de chá depois e não antes do se colocar o chá. Esse experimento é fruto de um evento real na vida de Fisher relatado num interessante livro sobre a história da estatística “The Lady Tasting Tea” de David Salsburg (2001). Segundo conta a história, a senhora Muriel Bristou alegava que o sabor do chá era melhor se o leite fosse adicionado depois que o já tivesse siddo colocado na xícara e que, caso fossem colocados na ordem inversa (leite primeiro e chá depois), o sabor não seria o mesmo. Diante dessa situação, Fisher idealizou um experimento no qual seria testada estatisticamente a possibilidade de diferenciar o sabor do chá nas duas condições descritas. Foram preparadas 4 xícaras com chá primeiro e leite adicionado posteriormente e outras 4 da forma inversa.
Uma distribuição nula desse experimento deveria representar a probabilidade de cada resultado possível ter ocorrido meramente por acaso. Por exemplo, acertar por acaso as 4 xícaras nas quais o leite foi adicionado depois do chá equivale a uma probabilidade de 1/70, ou seja, 1.4% de probabilidade disso ocorrer puramente por acaso. Acertar exatamente 3 xícaras equivale a uma probabilidade de 16/70, ou seja, 22.9% de probabilidade disso ocorrer por acaso. A distribuição das probabilidades de cada resultado ocorrer por acase é o que se denomina de distribuição nula.
Segundo o relato de David Salburg no livro “The Lady Tasting Tea” (2001, pag.8), a Sra. Muriel identificou corretamente as 4 xícaras nas quais o leite havia sido colocado depois do chá. Esse resultado pode ter sido por acaso? Sim! pode! Existe uma probabilidade de 1.4% de que ela tenha acertado por acaso. Mas o que fazer com esse resultado? Acreditamos na capacidade dela distinguir ou acreditamos que foi sorte, que foi um mero acaso?
Podemos perceber que um teste de hipóteses nunca prova uma relação entre os fatores estudados, apenas dá evidências probabilisticas dessa relação. É justamente essa avaliação da probabilidade que serve de parâmetro para a escolha de uma das duas hipóteses (nula ou alternativa).
Por isso mesmo o resultado de um teste estatístico geralmente é expresso em termos de rejeição ou não rejeição da hipótese nula, e nunca se diz que uma das hipóteses seja a verdadeira.
Segundo Fisher, a hipótese nula nunca pode provada, mas pode ser rejeitada no decorrer do experimento.
In relation to any experiment we may speak of this hypothesis as the null hypothesis, and it should be noted that the null hypothesis is never proved or established, but is possible disproved, in the course of experimentation. Every experiment may be said to exist only in order to give the facts a chance of disproving the null hypothesis.
Ronald Fisher - The Design of Experiments
Referências
- Ronald Fisher. The Design of Experiments. Hafner Publishing Company: New York, 1971.
- David Salsburg. The Lady Tasting Tea. How Statistics Revolutionized Science in the Twentieth Century. Holt Paperbacks: New York, 2001.