Como comparar duas amostras não normais

Nesta secção, faremos uma breve reflexão a respeito da escolha do teste t para amostras pareadas, teste t para amostras independentes, teste de Wilcoxon, teste de Mann-Whitney, teste Qui-quadrado e de McNemar.

Na dica anterior, abordamos o tópico sobre inferência estatística e esta pode ser entendida como um método de análise que permite tirar conclusões a respeito das características de uma população. Para isso, é necessário selecionar um modelo estatístico para posteriormente deduzir as proposições a partir do modelo.

Na área da saúde, é muito comum a utilização de comparações entre dois momentos diferentes ou entre dois grupos. Quando estamos diante dessa situação, iremos utilizar o teste t pareado ou o teste t para amostras independentes. Na presença de amostras dependentes, os estudos consistem em realizar mais de uma medida em uma mesma unidade amostral e verificar se houve diferença entre essas medidas, onde a primeira informação será pareada com a segunda informação, com a terceira e assim por diante.

Suponha um estudo onde um grupo de indivíduos foi submetido a uma dieta e deseja-se verificar se houve diferença entre o peso antes e depois da dieta. Nesse caso, como a variável peso é numérica e na presença de distribuição normal dos dados, como o objetivo é verificar se existe diferença significativa dessa variável entre dois grupos de interesse, deve-se utilizar o teste t para amostras pareadas. Agora, caso o estudo tenha utilizado indivíduos com perfis de saúde distintos e aplicado uma mesma dieta para verificar quem se beneficiou mais (exemplo: indivíduos eutróficos e com obesidade), reparem que continuaríamos com dois momentos/ grupos de análise, porém com amostras diferentes. Neste caso, deve-se utilizar o teste t para amostras independentes.

Resumindo, o teste t deve ser utilizado na presença de distribuição normal dos dados, quando se objetiva comparar dois momentos/ grupos para uma variável numérica. De forma que ambos os testes são considerados paramétricos. Dentre os principais testes disponíveis para se testar a normalidade dos dados na maioria dos softwares estatísticos, podemos citar o teste de Shapiro-Wilk e o de Kolmogorov-Smirnov. Já os testes de Wilcoxon e Mann-Whitney se apresentam como alternativas ao teste t pareado e o teste t para amostras independentes, respectivamente. Estes são utilizados nas mesmas situações descritas anteriormente, porém na presença de distribuição não normal dos dados. De forma que ambos os testes são caracterizados como testes não-paramétricos.

Por fim, quando a variável de interesse não é numérica (exemplo: variáveis categóricas do tipo sim e não), deve-se utilizar o teste Qui-Quadrado para amostras independentes e o de McNemar para amostras dependentes. Para melhor entender, suponha agora um estudo onde cães diagnosticados com leishmaniose foram divididos em dois grupos: sintomáticos e assintomáticos. Ambos os grupos são submetidos a um tratamento e depois de 3 meses do início do tratamento eles são reavaliados. Nesse caso, temos que a variável de interesse é categórica com duas categorias, sendo medida duas vezes. O objetivo é verificar se houve diferença significativa entre as classificações nas duas medições em cada um dos grupos separadamente. Como são os mesmos grupos (cães) a serem avaliados em dois momentos diferentes, deve-se optar pelo teste de McNemar. Reparem que por se tratar de uma variável categórica, não há a verificação de normalidade dos dados, devendo só se ater se as amostras são ou não dependentes entre si!

Referência

Oliveira, Bruno. Testes estatísticos para amostras pareadas. 23 de outubro de 2019. Disponível em: <//operdata.com.br/blog/testes-estatisticos-para-amostras-pareadas/>. Acesso em: 09 de janeiro de 2020.

Por Tainah de Paula
Consultora – CAPCS-UERJ

Neste artigo falaremos sobre o teste t e o teste de Mann-Whitney para amostras independentes, muito utilizados na produção acadêmica e científica.

Suponhamos que um fabricante de pilhas queira trocar a fórmula dos componentes do seu produto na expectativa de garantir maior durabilidade. Antes de iniciar a produção em larga escala, o fabricante sabe que necessita de informações precisas para garantir que a nova fórmula realmente fará com que a pilha apresente maior durabilidade.

Suponhamos ainda que o fabricante pegou 10 unidades da pilha produzida com a fórmula antiga (pilha A) e 10 unidades produzidas com a nova fórmula (pilha B). Em seguida registrou a durabilidade de cada uma delas, calculou a média e identificou que a durabilidade média da pilha B é maior que a durabilidade média da pilha A.

Essa informação é suficiente para concluir que a nova fórmula tem melhor desempenho?

Não! O experimento feito pelo fabricante demonstra somente que, naquela amostra, a pilha B apresentou um melhor desempenho que a pilha A. Mas, será que em uma amostra diferente, com outras 10 unidades de cada pilha, o resultado seria o mesmo? Ou essa diferença se deu pela variabilidade natural do tempo de duração das pilhas? Como então o fabricante poderia verificar se realmente existe diferença significativa entre a durabilidade dos dois modelos de pilhas?

Testes de hipóteses

Para isso existem os testes de hipóteses – eles permitem chegar a conclusões acerca de uma população levando em consideração apenas uma amostra dela. No caso do fabricante, seria necessário utilizar um teste de hipóteses para testar se existe diferenças significativas na duração das pilhas.

Os testes estatísticos usuais são divididos em dois conjuntos principais: paramétricos e não-paramétricos. As técnicas paramétricas, que são mais conhecidas, exigem a suposição de uma distribuição de probabilidade para a população testada. O fabricante teria que verificar ou assumir que, por exemplo, a duração média das pilhas apresenta distribuição normal.

Já os testes não-paramétricos exigem pouca ou nenhuma suposição sobre a distribuição populacional dos dados.

Teste t – Teste Paramétrico

De forma paramétrica, o fabricante poderia comparar as médias das durabilidades das duas pilhas através do teste t ou teste z. Estes testes pressupõem a distribuição normal da população, ou seja, os tempos de duração de uma pilha são igualmente distribuídos ao redor da média. O teste t, em comparação ao teste z, é mais recomendando quando o tamanho amostral é pequeno.

Um importante resultado na Estatística, o Teorema Central do Limite, garante que quando o tamanho da amostra é “grande” o suficiente, a média amostral segue uma distribuição normal. Dessa forma, os testes paramétricos funcionam muito bem para grandes amostras. Como o comportamento da distribuição normal é amplamente conhecido na literatura, se torna possível a estimação de probabilidades a partir de medidas como a média e o desvio-padrão.

Entretanto, em muitos problemas práticos, nem sempre é possível conseguir grandes tamanhos amostrais e os dados podem apresentar distribuições assimétricas, inviabilizando a utilização do teste t. Nesses casos, a utilização das técnicas não-paramétricas pode ser muito útil.

Mann-Whitney – Teste Não-Paramétrico

O fabricante poderia comparar as medianas das durabilidades das duas pilhas através do teste de Mann-Whitney. Os testes não paramétricos são baseados nas posições das observações e não em suas grandezas numéricas. Por isso que se diz que o teste Mann-Whitney compara a mediana ao invés da média (como no teste t). Além disso, o teste de Mann-Whitney não faz nenhuma suposição quanto a distribuição, populacional. 

Testar a mediana ao invés da média pode ser muito vantajoso. Conforme pode ser observado nos gráficos abaixo, para distribuições simétricas, média e medianas serão iguais ou muito próximas enquanto que no gráfico com distribuição assimétrica a mediana está mais próxima da “massa de dados” do que a média. Nesse caso a mediana é uma medida de informação mais eficiente que a média, uma vez que não é sensível a valores extremos.

Para conseguir testar de maneira eficiente se a pilha B produzida com a nova fórmula tem duração maior que a pilha A, o fabricante precisa estar atento ao tamanho amostral utilizado e à distribuição de probabilidade da durabilidade das pilhas na hora de decidir qual teste estatístico utilizar, se utiliza o teste t ou Mann-Whitney. 

A aplicação de um teste de hipótese para testar diferença entre duas amostras independentes pode não ser tão trivial quanto parece e exige atenção à certos detalhes sobre as amostras. Na dúvida, tenha em conta que o teste Mann-Whitney é mais conservador e versátil que o teste t, já que não exige nenhuma suposição sobre a distribuição dos dados, mas também que se perde informação, uma vez que é baseado nas posições das observações e não em suas grandezas numéricas. 

Existem outras metodologias e modelos estatísticos que poderiam ser aplicados à resolução do problema do fabricante, como análise de confiabilidade e tempo de falha utilizando modelos de regressão, tema sobre o qual poderemos escrever no futuro. Por esse motivo, não deixe de nos seguir no Instagram, LinkedIn e Facebook para acompanhar nossas publicações.

Artigo desenvolvido com a colaboração de Leonardo Gonçalves

Última postagem

Tag