Variância e a desigualdade de Chebyshev

Como falamos antes de média aqui, vamos falar de Variância agora.

Variância é definida como:

Var(X)=E[(X-\mu)^2]

Sendo que esse E é o valor esperado, que é

 E[X]= \sum\limits_{i=1}^\infty x_i \cdot p(x_i)

e o \mu é o centro da distribuição, a média, como vimos aqui

E essa é a forma geral de calcular a variância, que é o espalhamento dos dados em torno da média.

Uma forma mais fácil de calcular é

Var(X)=E[X^2]-E[X]^2

A raiz quadrada da variância é o famoso desvio padrão, que como não está em unidades quadradas, vai estar na mesma unidade de medida dos dados originais. Veja que se a gente tem uma constante multiplicando X

Var(aX)= a^2 \cdot Var(X)

Ela sai da variância ao quadrado.

Para entender melhor vamos calcular a variância de uma jogada de dados, o dado comum de 6 faces.

Sabemos que a valor esperado é:

E[X]=3.5

e

E[X^2]=1^2\cdot\frac{1}{6}+2^2\cdot\frac{1}{6}+3^2\cdot\frac{1}{6}+4^2\cdot\frac{1}{6}+5^2\cdot\frac{1}{6}+6^2\cdot\frac{1}{6}=15.17

Então para a variância temos:

Var(X)=E[X^2]-E[X]^2 = 15.17-3.5^2=2.92

Veja que se a gente usar:

Var(X)=E[(X-\mu)^2]= (1-3.5)^2\cdot\frac{1}{6}+(2-3.5)^2\cdot\frac{1}{6}+(3-3.5)^2\cdot\frac{1}{6}+(4-3.5)^2\cdot\frac{1}{6}+(5-3.5)^2\cdot\frac{1}{6}+(6-3.5)^2\cdot\frac{1}{6}

Como a média está em todas as multiplicações, podemos fatorar ela, que é da onde vem a fórmula anterior, lembrando que a média está dentro de um quadrado, então não da para ir tirando ela diretamente.

Agora qual a variância de uma jogada de moeda com uma chance p para cara.

E[X]=0 \cdot (1-p) + 1 \cdot p = p


E[X^2]= E[X] = p


Var(X)=E[X^2]-E[X]^2=p-p^2=p(1-p)

E essa fórmula é bem conhecida, mesmo sem saber da onde ela vinha, e veja que ela é maximizada no p=0.5

Ou seja, a maior entropia, menos previsibilidade, está numa moeda honesta.

Então suponha que uma variável aleatória X em que O \leq X \leq 1 e E[X]=p

Veja que X^2 \leq X pode ser igual quando pensamos em 1 por exemplo, já que um ao quadrado da 1, mas fora isso, sempre X^2 vai ser maior, então E[X^2]\leq E[X]=p

Assim, Var(X) = E[X^2]-E[X]^2 \leq E[X]-E[X]^2 = p(1-p)

Dessa forma, a variância de Bernoulli é a maior possível para uma variável aleatória entre 0 e 1. O que nos leva a inequação de Chebyshev, que é útil para interpretar de forma geral variâncias.

A inequação mostra que

P( X-\mu \leq k\sigma) \leq \frac{1}{k^2}

Por exemplo, a probabilidade que uma variável aleatória esteja além de k desvios padrões é menos de \frac{1}{k^2}

 2 \sigma = 25\%


 3 \sigma = 11\%


 4 \sigma = 6\%

Mas veja que esse é apenas um limite geral, a probabilidade pode ser bem menor, mas esse é um limite superior independente da distribuição, e essa generalização que torna essa inequação importante, principalmente para afirmações de forma geral.

Bem é isso ai, o script vai estar la no repositório recologia, e se eu escrevi alguma bobeira, algo errado, deixe um comentário corrigindo ou mande um e-mail e esses post está a uns dias parados, então resolvi finalizar logo. Além disso tem uma prova para essa inequação, mas achei a prova muito difícil.

Referência:
Coursera, curso Mathematical Biostatistics Boot Camp 1 do Brian Caffo

Leave a Reply

Your email address will not be published. Required fields are marked *