Por que médias podem enganar a tomada de decisão nas empresas

26 de fev.
5 min de leitura

Suponha que você se depare com a seguinte situação na sua empresa: o responsável pela área de compras diz que precisa analisar qual fornecedor escolher baseado no tempo de entrega. Em seguida, o gestor de projetos se aproxima e afirma ter dúvidas se a implantação do sistema WMS trouxe algum benefício operacional, sugerindo uma análise do tempo de picking antes e depois da implantação do sistema.

Como você consegue facilmente capturar os dados históricos desses dois casos, você se compromete em ajudá-los na análise. Após capturar os dados dos últimos 15 períodos, constrói 2 tabelas com os respectivos tempos:

A partir disso, faz a seguinte análise:

“Existe diferença nos tempos em ambos os casos, porém no primeiro caso, a diferença entre os tempos de entrega é pequena e provavelmente não tão significativa. Percentualmente corresponde a uma diferença de apenas 2.2% entre a média dos tempos de entrega (19.3 dias contra 18.8 dias). Já no segundo caso, houve uma redução significativa no tempo de picking, pois esse tempo reduziu de 8.01 minutos para 7.44 minutos (redução de 7.2% no tempo).”

E conclui:

“Podemos dizer que o tempo de entrega dos dois fornecedores é praticamente igual, com uma diferença insignificante. O mesmo não ocorre com o segundo caso, pois a implantação do WMS trouxe uma redução visível no tempo de picking.”

Bom, aqui está o problema: estatisticamente falando, essa análise está equivocada. Isso porque ela simplesmente desconsiderou a dispersão dos dados. Na verdade, podemos dizer com um grau de confiança de 95% que a média do tempo de entrega do fornecedor 1 é significativamente maior que a do fornecedor 2 e a implantação do WMS não diminuiu significativamente o tempo de picking na empresa.

Em seguida, vamos ver isso de forma visual e, com o objetivo de facilitar nossa explicação, vamos inicialmente considerar dois conjuntos de dados normalmente distribuídos.

Lembrando alguns conceitos básicos de estatística: sabemos que, em uma curva normal, a área hachurada em azul de cada curva corresponde a 95% da área total, ou seja, valores que estão entre μ-1.96σ e μ+1.96σ representam 95% dos dados. É notório que na segunda curva esse range é bem menor, pois as observações estão menos dispersas.

Exemplificando o que isso quer dizer: suponha que a primeira curva represente observações com média igual a 0 e desvio padrão igual a 1 e, a segunda curva, represente observações com média igual a 0 e desvio padrão igual a 0.5. Apesar de ambos terem a mesma média, podemos dizer que no primeiro caso 95% dos valores estão entre -1,96 e +1,96. Já no segundo caso, 95% dos valores estão entre -0,98 e +0,98. Se uma distribuição tem desvio padrão maior, esse intervalo será mais amplo. Ou seja: maior dispersão significa maior incerteza sobre a média.

Voltando às nossas tabelas iniciais. Como fazemos então para comparar se a média de 2 amostras são diferentes ou não com um grau de confiança de 95%? Nesses casos, então, devemos fazer o teste-t, que ao invés de utilizar uma distribuição populacional (normal) utiliza uma distribuição amostral (t-Student).

Diferentemente da distribuição normal, a distribuição t-Student tem caudas mais pesadas quando o número de observações da amostra é pequeno e se aproxima da distribuição normal à medida que o número de observações aumenta. O teste t é utilizado para uma análise de médias amostrais (até 2 amostras) e, em casos de comparação de médias de um número superior de amostras (3 ou mais) outro teste deverá ser aplicado, no caso, ANOVA.

Baseado nas tabelas de dados, vamos fazer uma representação visual das dispersões dos dados:

1 – Representação visual da distribuição dos lead times dos fornecedores (amostras independentes).

Ao observar graficamente os intervalos de confiança de 95% para cada fornecedor, percebe-se que o limite superior do fornecedor com menor média não se sobrepõe ao limite inferior do fornecedor com maior média. Essa análise visual é apenas ilustrativa. O critério formal de decisão, no entanto, é dado pela estatística t e pelo p-valor.

É importante frisar também que, nesse exemplo, assumimos variâncias iguais. Tradicionalmente, essa verificação é feita por meio do teste F. Contudo, em aplicações modernas, é comum utilizar diretamente o teste t de Welch, que não assume variâncias iguais e ajusta os graus de liberdade automaticamente (abordaremos esses dois assuntos em posts posteriores).

Teste t para duas amostras independentes e variâncias iguais

Nosso interesse é verificar se o fornecedor 1 possui tempo médio maior que o fornecedor 2. Como a hipótese é direcional, utilizamos um teste unicaudal.

Hipóteses:

• H₀: μ₁ ≤ μ₂

• H₁: μ₁ > μ₂

A fórmula do teste t para 2 amostras independentes e variâncias iguais é dada por:

Aplicando a fórmula temos:

O valor crítico unicaudal para um nível de significância de 5% é de aproximadamente 1.701. O valor t de 3.775 está bem acima do valor crítico, portanto, rejeitamos H₀.

O p-valor desse teste é de aproximadamente 0,0004. Isso significa que o resultado permanece estatisticamente significativo mesmo se adotássemos um grau de confiança de aproximadamente 99,96%!

Grau de confiança próximo a 100% pode até ser um tipo de escolha muito usada em medicina, por exemplo, atestando a eficácia de um medicamento em grupo de pessoas (nesse caso, um teste t pareado, como veremos a seguir). Porém para esse nosso caso, podemos dizer com um grau de confiança de 95% que o fornecedor 1 possui tempo médio de entrega significativamente maior que o fornecedor 2 (p-valor abaixo de 0,05).

Analisemos agora os dados dos tempos de picking...

2 – Representação da distribuição dos tempos de picking antes e depois da implantação do WMS (amostras pareadas).

Percebam que, na nossa representação ilustrativa, o limite máximo do tempo com a menor média extrapola o limite mínimo do tempo com a maior média. Essa intersecção é dada pela parte hachurada em verde. Em casos como esses, não podemos, com um grau de confiança de 95%, descartar a hipótese de que os tempos são iguais.

Teste t para duas amostras pareadas

Diferentemente do primeiro caso, onde executamos o teste t para 2 amostras independentes e distintas, dessa vez analisaremos a mesma amostra, porém em tempos distintos. Aqui utilizamos o teste t pareado, pois estamos comparando a mesma amostra ao longo do tempo.

Hipóteses:

H₀: a média das diferenças é igual a zero
H₁: a média das diferenças é diferente de zero

A fórmula para o teste t pareado é dada por:

Aplicando a fórmula temos:

O valor crítico unicaudal para um nível de significância de 5% é de aproximadamente +/- 1.761. O valor t de -1.675 está abaixo do valor crítico, com um p-valor de 0.058. Dessa forma, com um grau de confiança de 95%, não podemos rejeitar a hipótese de que os tempos são iguais (média das diferenças é igual a zero). Ou seja, apesar da redução percentual parecer relevante (7,2%), a variabilidade dos dados impede que essa diferença seja considerada estatisticamente significativa.

Considerações importantes

O teste t funciona bem mesmo em pequenas amostras (como 15 observações), desde que não haja forte assimetria nos dados. Embora o Teorema Central do Limite indique que médias tendem à normalidade conforme o tamanho amostral aumenta, com amostras pequenas utilizamos a distribuição t justamente para lidar com essa incerteza adicional.

Conclusão

Comparar apenas percentuais pode levar a decisões equivocadas.

No primeiro caso, uma diferença aparentemente pequena (2,2%) revelou-se estatisticamente significativa. No segundo caso, uma redução aparentemente maior (7,2%) não foi suficiente para garantir significância estatística.

A lição é clara: Em análise de dados, médias não contam a história inteira. A dispersão é tão importante quanto a magnitude da diferença.

Por que médias podem enganar a tomada de decisão nas empresas

Considerações importantes

Conclusão

Posts recentes

Comentários

Siga-nos em nossas redes sociais

4SME