Valor esperado (expected value), a famosa média.

O valor esperado (expected value), esperança matemática ou média de uma variável aleatória é o centro da sua distribuição.

Para uma variável aleatória discreta X com uma PMF p(x), ela pode ser definida da seguinte forma.

E[X] = \sum \limits_x x \cdot p(x)

Ou seja, cada valor multiplicado por sua probabilidade.
E[X] representa o centro de massa de uma coleção de locais e seus pesos \{ x,p(x)  \}

Isso é meio idiota, mas as vezes ao esquecer essas coisas simples, agente não entende coisas mais complexas, mais para frente. Além disso da para ter uma intuição aqui, quando falamos que média ou valor esperado é o centro de massa, é porque ele é o ponto onde podemos equilibrar a distribuição.

A partir da formula ali em cima, podemos fazer uma função no R para calcular então o valor esperado:

1
2
3
4
5
6
7
esperanca<-function(vetor){
    esperanca<-0
    for(i in 1:length(vetor)){
        esperanca<-esperanca+ i * (vetor[i]/sum(vetor))
    }
    return(esperanca)
}

Veja que é o somatório, fazendo a multiplicação, não é a forma mais rápida de implementar, mas eu acho a leitura dos loops dessa forma mais simples do que usando operações vetoriais, mas tudo bem, suponha que temos uma distribuição com 7 possibilidades de valores X=\{1,2,3,4,5,6,7 \}, vamos ver como fica o valor esperado para diferentes probabilidades para cada caso.

Estamos tentando equilibrar a distribuição na ponta daquela seta, veja nos exemplos o que acontece conforme mudamos as probabilidades, principalmente, veja o quanto no caso C, uma probabilidade alta puxa para um lado o valor esperado, mas veja que uma probabilidade baixa, como no caso D, não puxa muito a seta para o lado dela.

Agora muitas vezes o que a gente vê as pessoas usando, é essa fórmula, mas com o quadrado do X.

E[X^2] = \sum \limits_x x^2 \cdot p(x)

Isso resolve o problemas dos valores negativos, ja que todo valor ao quadrado será positivo, mas mais pra frente veremos melhor isso.

Então a aplicação da fórmula é direta, para um exemplo simples, podemos pensar no lançar de uma moeda honesta, onde X= \{ 0,1 \} e p(0)=0.5 e p(1)=0.5, então

E[X] = \sum \limits_x x \cdot p(x) =  0 \cdot 0.5 + 1 \cdot 0.5 = 0.5

O valor esperado para uma moeda honesta é 0.5, veja que é interessante pensar, que 0.5 não é um valor válido para a jogada da moeda, mas é o valor esperado, ou seja o valor esperado não é necessariamente o valor que mais acontece, e pode nem ser um valor que acontece, como nesse caso.

Para uma variável contínua, com densidade f, o valor esperado vai ser definido da seguinte forma.

E[X]=\int_{-\infty}^{\infty} t \cdot f(t)dt

Que vem da definição da física de centro de massa, e lembrando que mesmo que a distribuição só ocupe uma parte dos valores reais, o resto da distribuição terá probabilidade zero.

Vamos ver o caso da distribuição uniforme de mínimo 0 e máximo 1.

Primeiro, não se engane com o gráfico, veja que temos um quadrado, com o lado 1 e topo 1, então calculando a integral, ou a área desse quadrado, é bem intuitivo que ele é 1, então ele tem área um, e nenhum valor menor que zero, então é uma distribuição válida, é um PMF válido e o valor esperado vai ser:

E[X]=\int_{0}^{1} x \cdot dx = \frac{x^2}{2} \Big|_0^1 = \frac{1}{2}

Que é o quantile de 50%, ou 0.5

> qunif(0.5,min=0,max=1) [1] 0.5

Agora, o legal é que existem algumas regras, que podem ajudar bastantes, regras quanto ao valor esperado, que é um operador linear.
Se a e b não são valores fixos e X e Y são duas variáveis aleatórias, temos que:

E[a \cdot X+b]=a \cdot E[X]+b

e

 E[X+Y] = E[X] + E[Y]

Em geral, se g é uma função não linear,

 E[g(x)] \neq g(E[X])

Por exemplo E[X^2] \neq E[X]^2

Vamos supor que vamos lançar dois dados honestos, qual o valor esperado da soma dos resultado?

[E[Dado_1+Dado_2]=E[Dado_1]+E[Dado_2]]
Sabemos que um dado tem valor esperado de 3.5 pois:

E[Dado]=\frac{1}{6} \cdot 1 +\frac{1}{6} \cdot 2 +\frac{1}{6} \cdot 3 +\frac{1}{6} \cdot 4 +\frac{1}{6} \cdot 5 +\frac{1}{6} \cdot 6 = 3.5

logo temos que:

[E[Dado_1+Dado_2]=E[Dado_1]+E[Dado_2]]=3.5+3.5=7

Certo, e o valor esperado da média da jogada de dois dados?

[E[\frac{Dado_1+Dado_2}{2}]=\frac{1}{2} \cdot(E[Dado_1]+E[Dado_2]])=\frac{1}{2} \cdot(3.5+3.5)=3.5

Que interessante, o valor esperado da média de dois dados é igual ao valor esperado de um dado, e isso é válido para qualquer número de dados, ou qualquer coleção de variáveis.

Seja X_i parai=1,2,\dots,n uma coleçao de variáveis aleatórias, cada uma de uma distribuição com média \mu, o valor esperado da amostra média de X_i será:

E[\frac{1}{n} \sum\limits_{i=1}^n X_i ]

\frac{1}{n} \cdot E[ \sum\limits_{i=1}^n X_i ]

\frac{1}{n} \cdot  \sum\limits_{i=1}^n E[X_i ]

E como sabemos que E[X_i ]=\mu

\frac{1}{n} \cdot  \sum\limits_{i=1}^n \mu = \mu

Assim, o valor esperado da média da amostra é a média da população que estamos tentando estimar. Quando o valor esperado de um estimador é o que estamos tentando estimar, nós dizemos que esse estimador é não enviesado, que é a ideia que seguimos na estatística frequentista certo, podemos trabalhar com amostras, e estimar coisas dela, porque a estimativa do valor esperado da média deve ser o valor estimado da população inteira, e desse monte de resultado talvez pouco intuitivos, temos um resultado forte aqui.

Bem é isso ai, o script vai estar la no repositório recologia, e se eu escrevi alguma bobeira, algo errado, deixe um comentário corrigindo ou mande um e-mail.

Referência:
Coursera, curso Mathematical Biostatistics Boot Camp 1 do Brian Caffo

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
##Função para calcular o valor esperado
esperanca<-function(vetor){
    esperanca<-0
    for(i in 1:length(vetor)){
        esperanca<-esperanca+ i * (vetor[i]/sum(vetor))
    }
    return(esperanca)
}
 
##Figura 1
par(mfrow=c(2,2))
valores<-c(4,4,0,0,0,4,4)
plot(1:length(valores),valores,ylim=c(0,10),ylab="Probabilidade",yaxt="n",frame=F,xaxt="n",xlab="",pch=19,cex=2)
for(i in 1:length(valores)){
    lines(c(i,i),c(0,valores[i]),lwd=4)
}
axis(2,at=seq(0,10,2),labels=round(seq(0,10,2)/16,2),las=1)
axis(1,at=1:length(valores),labels=NA)
valor_esperado <- esperanca(valores)
arrows(valor_esperado, -2,valor_esperado,-1, xpd = TRUE,lwd=10)
legend("top",legend="A",bty="n",cex =2)
 
valores<-c(4,0,0,0,4,4,4)
plot(1:length(valores),valores,ylim=c(0,10),ylab="Probabilidade",yaxt="n",frame=F,xaxt="n",xlab="",pch=19,cex=2)
for(i in 1:length(valores)){
    lines(c(i,i),c(0,valores[i]),lwd=4)
}
axis(2,at=seq(0,10,2),labels=round(seq(0,10,2)/16,2),las=1)
axis(1,at=1:length(valores),labels=NA)
valor_esperado <- esperanca(valores)
arrows(valor_esperado, -2,valor_esperado,-1, xpd = TRUE,lwd=10)
legend("top",legend="B",bty="n",cex =2)
 
valores<-c(9,0,0,0,4,2,1)
plot(1:length(valores),valores,ylim=c(0,10),ylab="Probabilidade",yaxt="n",frame=F,xaxt="n",xlab="",pch=19,cex=2)
for(i in 1:length(valores)){
    lines(c(i,i),c(0,valores[i]),lwd=4)
}
axis(2,at=seq(0,10,2),labels=round(seq(0,10,2)/16,2),las=1)
axis(1,at=1:length(valores),labels=NA)
valor_esperado <- esperanca(valores)
arrows(valor_esperado, -2,valor_esperado,-1, xpd = TRUE,lwd=10)
legend("top",legend="C",bty="n",cex =2)
 
valores<-c(1,0,0,0,1,5,10)
plot(1:length(valores),valores,ylim=c(0,10),ylab="Probabilidade",yaxt="n",frame=F,xaxt="n",xlab="",pch=19,cex=2)
for(i in 1:length(valores)){
    lines(c(i,i),c(0,valores[i]),lwd=4)
}
axis(2,at=seq(0,10,2),labels=round(seq(0,10,2)/16,2),las=1)
axis(1,at=1:length(valores),labels=NA)
valor_esperado <- esperanca(valores)
arrows(valor_esperado, -2,valor_esperado,-1, xpd = TRUE,lwd=10)
legend("top",legend="D",bty="n",cex =2)
 
##Figura 2
valores<-c(0.5,0.5)
plot(1:length(valores),valores,ylim=c(0,1),ylab="Probabilidade",yaxt="n",frame=F,xaxt="n",xlab="",pch=19,cex=2,main="Moeda {0,1}")
for(i in 1:length(valores)){
    lines(c(i,i),c(0,valores[i]),lwd=4)
}
axis(2,at=seq(0,1,0.1),las=1)
axis(1,at=1:length(valores),labels=NA)
valor_esperado <- esperanca(valores)
arrows(valor_esperado, -2,valor_esperado,-0.05, xpd = TRUE,lwd=10)
 
##Figura 3
curve(dunif(x),-0.5,1.5,frame=F,xlab="",ylab="Densidade",main="Distribuição uniforme")
 
##Valor esperado da distribuição uniforme, quantile de 50%
qunif(0.5,min=0,max=1)

Leave a Reply

Your email address will not be published. Required fields are marked *