PMFs e PDFs

Sempre estamos falando em distribuições estatísticas, mas nunca vamos muito a fundo nelas, sempre paramos no meio do caminho, mas talvez tentar entender um pouco mais sobre distribuições seja algo valido. Podemos começar com Probability mass function (PMF) e Probability density function (PDF), que são funções matemáticas que servem para mapear regras de probabilidades de variáveis aleatórias. No caso PMF para variáveis discretas e PDF para variáveis contínuas.

Então uma função de massa de probabilidade (em português), ou PMF (como a maioria da literatura é em inglês, eu acho melhor usar os termos em inglês mesmo, gera menos confusão com livros) é uma função que você pluga um número nela e temos a probabilidade correspondente da variável aleatória do valor avaliado na função. Mas para ser uma função PMF valida, existem algumas propriedades que a função deve satisfazer. Considerando x como o conjunto de todas as possibilidades, como por exemplo para uma moeda x=\{cara,coroa \} ou um dado em que x=\{1,2,3,4,5,6 \}, temos que:

\forall x : p(x) \ge 0

Ou seja, para todo x, a probabilidade tem que ser zero ou maior que zero, porque não existe probabilidade negativa.

\sum_x p(x) = 1

E bem, se x é o conjunto de todas as possibilidades, a probabilidade de todas as possibilidades que que ser 100%, no caso 1.

Então, para o caso da moeda x=\{cara,coroa \}, pensando em cara como 0 e coroa como 1 x=\{0,1 \}, podemos construir a PMF da assim:

p(x)= \frac{1}{2}^x \cdot \frac{1}{2}^{(1-x)}

Veja que se sair cara, cara é igual a 0, da

p(0)= \frac{1}{2}^0 \cdot \frac{1}{2}^{(1-0)} p(0)= 1 \cdot \frac{1}{2}^{1} p(0)= \frac{1}{2}

Agora para coroa, que é 1, teremos o seguinte
p(1)= \frac{1}{2}^1 \cdot \frac{1}{2}^{(1-1)}

p(1)= \frac{1}{2} \cdot \frac{1}{2}^{(0)} p(1)= \frac{1}{2} \cdot 1 p(1)= \frac{1}{2}

E se somamos as duas probabilidades, de cara e coroa da 1, parece bem idiota, mas é o tipo de coisa idiota que nunca é ensinado eu acho.
Esse é o caso para uma moeda honesta, mas de qualquer forma, uma moeda, ou qualquer variável com probabilidade diferente, podemos generalizar da seguinte forma.

p(x)= (\theta)^x \cdot (1-\theta)^{(1-x)}

Onde \theta é a probabilidade dar alguns dos resultados, e temos um PMF para uma moeda não honesta, que não tem 50% de chance para cara ou coroa, e podemos ver que ela tem a soma de 1, porque:

Para temos x=\{0,1 \}
então
\sum_x p(x) = 1
vai ser
p(0) + p(1) = 1

(\theta)^0 \cdot (1-\theta)^{(1-0)} + (\theta)^1 \cdot (1-\theta)^{(1-1)} = 1

 1-\theta + \theta = 1

 1 = 1

Certo, mas isso foi para variáveis discretas, no caso de variáveis contínuas, como medidas de peso, altura, quantidade de energia de um individuo gasta temos as PDF, nesse caso, a área sobre a PDF corresponde a probabilidade de interesse, sendo que talvez a PDF mais famosa seja a da distribuição normal.

Para uma função ser uma PDF, ela tem que satisfazer a condições similares a da PMF, nesse caso

\forall x : f(x) \ge 0

Nada de probabilidade negativa, isso não faria sentido e

\int_{-\infty}^{\infty} f(x)dx = 1

Veja que aqui, temos que a área é 1, mas definimos a função sobre toda a reta dos números reais, porque mesmo que a função só cubra uma parte dos reais, sei la de 0 a 10, basta estar no zero, para outras posições.

Vamos ver um exemplo, suponha que queremos representar o tempo em anos do diagnostico até a morte de pessoas com um tipo de câncer específico que assume uma função de densidade da seguinte forma:

  f(x) = \left\{  \begin{array}{ll}  \frac{e^{-x/5}}{5} & \quad x\ \textgreater \ 0 \\  0 & \quad x \leq 0  \end{array}  \right.

Para facilitar a vida, vamos escrever ela no R e desenhar que fica mais fácil visualizar.

1
2
3
fx <- function(x) {
    return(ifelse(x>0,exp(-x/5)/5,0))
}

E usando curve para plotar temos.

Ou seja, a chance de você morrer a alguns anos dos diagnostico é alta, e viver muito tempo, e morrer depois de 20 anos do diagnostico é baixo, bem intuitivo certo, porque cancer é uma doença complicada. Agora veja que o tempo negativo não tem probabilidade, porque se a pessoa não está viva para o diagnostico, não existe o tempo em anos do diagnostico até a morte.

Bem da para ver que essa é uma pdf válida porque e elevado a qualquer valor é sempre positivo, e

\int_{0}^{\infty} f(x)dx

\int_{0}^{\infty} \frac{e^{(-x/5)}}{5} dx

 \frac{1}{5}\int_{0}^{\infty} e^{(-x/5)} dx

-e^{(-x/5)} \Big|_0^\infty

Mas eu não sei fazer integral direito, mas podemos integrar nossa função no R, para ter certeza

> integrate(fx,0,Inf) 1 with absolute error < 2e-07

Ta mas como usa essa pdf, como aqui os valores são continuos, temos que fazer a pergunta certa, por exemplo, qual a chance de uma pessoa sobreviver mais de 6 anos.

Então a gente quer saber p(x \geq 6), que da.

p(x \geq 6)=\int_{0}^{\infty} \frac{e^{(-t/5)}}{5} dt

p(x \geq 6)=-e^{(-t/5)} \Big|_6^\infty

p(x \geq 6)=-e^{(-6/5)} \approx 0.301

A gente pode conferir com o integrate do R

> integrate(fx,6,Inf) 0.3011942 with absolute error < 3.8e-05

Ou, melhor ainda, a gente pode começar a ver que isso ta tudo pronto no R, sendo que essa é a distribuição exponencial, então a gente calcula com pexp

> pexp(6,1/5,lower.tail = F) [1] 0.3011942

Sendo que no caso do pexp colocamos lower.tail = F, porque no nosso caso, quando x é menor que zero, temos zero, so queremos a parte positiva da cauda da distribuição.

Se você digitar no R

1
?Distributions

Você vai ver todas as distribuições implementadas no R por padrão, e todas tem a suas respectivas PDFs, dexp para a exponencial, dnorm para a normal, dgamma para a gamma, e agora a gente entende melhor o que são elas.

Então PMF e PDF são modelos que descrevem uma variável aleatória, que como não podemos saber seu valor, podemos apenas atribuir uma probabilidade

Bem é isso ai, hoje não precisa de script certo, e se eu escrevi alguma bobeira, algo errado, deixe um comentário corrigindo ou mande um e-mail e vejam o curso da onde eu tirei essas coisas na referência, muito legal.

Referência:

Coursera, curso Mathematical Biostatistics Boot Camp 1 do Brian Caffo

1
2
3
4
5
6
7
8
9
10
11
12
13
14
##Definindo uma pdf
fx <- function(x) {
    return(ifelse(x>0,exp(-x/5)/5,0))
}
 
##Gráfico da função
curve(fx(x),-20,20,frame=F,xlab="Tempo em anos",ylab="Probabilidade")
 
##integral de fx
integrate(fx,0,Inf)
 
integrate(fx,6,Inf)
 
pexp(6,1/5,lower.tail = F)

Leave a Reply

Your email address will not be published. Required fields are marked *