11.2 Função de probabilidade condicional

Consideramos agora o caso em que a partição é dada pelos valores assumidos por uma outra variável aleatória.

Definição 11.12 (Partição induzida por uma variável aleatória).

Seja YY uma variável aleatória simples. Sejam a1,,ama_{1},\dots,a_{m} os distintos valores assumidos por YY e Dj={Y=aj}D_{j}=\{Y=a_{j}\}, de forma que Y=k=1mak𝟙DkY=\sum_{k=1}^{m}a_{k}\mathds{1}_{D_{k}}. Definimos a partição induzida por YY como 𝒟Y={D1,D2,,Dm}\mathcal{D}_{Y}=\{D_{1},D_{2},\dots,D_{m}\}.

Observe que YY sempre é 𝒟Y\mathcal{D}_{Y}-mensurável. Ademais, se X=g(Y)X=g(Y) para alguma função g:g:\mathbb{R}\to\mathbb{R}, então XX também é 𝒟Y\mathcal{D}_{Y}-mensurável. Reciprocamente, se XX é 𝒟Y\mathcal{D}_{Y}-mensurável, então X=g(Y)X=g(Y) para alguma g:g:\mathbb{R}\to\mathbb{R}.

Definição 11.13 (Esperança condicional dada uma variável aleatória).

Sejam XX e YY variáveis aleatórias simples. Definimos a esperança condicional de XX dado YY como sendo a variável aleatória

𝔼[X|Y]=𝔼[X|𝒟Y].\mathbb{E}[X|Y]=\mathbb{E}[X|\mathcal{D}_{Y}].

Ou seja, 𝔼[X|Y]\mathbb{E}[X|Y] assume o valor 𝔼[X|Y=y]\mathbb{E}[X|Y=y] no evento {Y=y}\{Y=y\}.

Neste contexto, a Observação 11.9 nos diz que 𝔼[X|Y]\mathbb{E}[X|Y] é, dentre todas a variáveis aleatórias ZZ que podem ser expressas como Z=g(Y)Z=g(Y) para alguma g:g:\mathbb{R}\to\mathbb{R}, a que minimiza 𝔼(ZX)2\mathbb{E}(Z-X)^{2}.

Na prática, podemos calcular 𝔼[X|Y]\mathbb{E}[X|Y] da seguinte maneira. Primeiro definimos a função de probabilidade condicional de XX dado YY como

pX|Y(x|y)=pX,Y(x,y)pY(y)p_{X|Y}(x|y)=\frac{p_{X,Y}(x,y)}{p_{Y}(y)} (11.14)

para todo yy tal que pY(y)>0p_{Y}(y)>0. Nos pontos yy tais que pY(y)=0p_{Y}(y)=0 podemos definir pX|Y(x|y)=pX(x)p_{X|Y}(x|y)=p_{X}(x). Depois calculamos

𝔼[X|Y=y]=xxpX|Y(x|y).\mathbb{E}[X|Y=y]=\sum_{x}x\cdot p_{X|Y}(x|y). (11.15)
Exemplo 11.16.

Seja (X,Y)(X,Y) um vetor aleatório com função de probabilidade conjunta dada por pX,Y(0,0)=25p_{X,Y}(0,0)=\frac{2}{5}, pX,Y(0,1)=15p_{X,Y}(0,1)=\frac{1}{5}, pX,Y(1,0)=110p_{X,Y}(1,0)=\frac{1}{10} e pX,Y(1,1)=310p_{X,Y}(1,1)=\frac{3}{10}. Então, a função de probabilidade marginal de YY, pYp_{Y}, é dada por

pY(0)=12 e pY(1)=12,p_{Y}(0)=\frac{1}{2}\quad\text{ e }\quad p_{Y}(1)=\frac{1}{2},

o que por sua vez nos permite calcular a função de probabilidade condicional de XX dado YY, pX|Y(x|y)p_{X|Y}(x|y), através de (11.14), obtendo

pX|Y(0|0)=45,pX|Y(1|0)=15,pX|Y(0|1)=25,pX|Y(1|1)=35,p_{X|Y}(0|0)=\frac{4}{5},\ p_{X|Y}(1|0)=\frac{1}{5},\ p_{X|Y}(0|1)=\frac{2}{5}% ,\ p_{X|Y}(1|1)=\frac{3}{5},

isto é,

pX|Y(0|y)=42y5 e pX|Y(1|y)=1+2y5.p_{X|Y}(0|y)=\frac{4-2y}{5}\quad\text{ e }\quad p_{X|Y}(1|y)=\frac{1+2y}{5}.

Portanto, podemos calcular, via (11.15), que

𝔼[X|Y=y]=1+2y5, para y=0 ou y=1,\mathbb{E}[X|Y=y]=\frac{1+2y}{5},\ \text{ para }y=0\text{ ou }y=1,

logo 𝔼[X|Y]=1+2Y5\mathbb{E}[X|Y]=\frac{1+2Y}{5} quase certamente. ∎

Exemplo 11.17.

Sejam XBinom(n,p)X\sim\mathop{\mathrm{Binom}}\nolimits(n,p) e ZBinom(m,p)Z\sim\mathop{\mathrm{Binom}}\nolimits(m,p) variáveis independentes e Y=X+ZY=X+Z. Conforme visto no Exemplo 4.20, YBinom(n+m,p)Y\sim\mathop{\mathrm{Binom}}\nolimits(n+m,p), logo, pY(y)=(m+ny)py(1p)m+nyp_{Y}(y)=\binom{m+n}{y}p^{y}(1-p)^{m+n-y}. Assim,

pX|Y(x|y)\displaystyle p_{X|Y}(x|y) =pX,Y(x,y)pY(y)=pX,Z(x,yx)pY(y)=pX(x)pZ(yx)pY(y)\displaystyle=\frac{p_{X,Y}(x,y)}{p_{Y}(y)}=\frac{p_{X,Z}(x,y-x)}{p_{Y}(y)}=% \frac{p_{X}(x)p_{Z}(y-x)}{p_{Y}(y)}
=(nx)px(1p)nx(myx)pyx(1p)my+x(n+my)py(1p)n+my=(nx)(myx)(n+my),\displaystyle=\frac{\binom{n}{x}p^{x}(1-p)^{n-x}\binom{m}{y-x}p^{y-x}(1-p)^{m-% y+x}}{\binom{n+m}{y}p^{y}(1-p)^{n+m-y}}=\frac{\binom{n}{x}\binom{m}{y-x}}{% \binom{n+m}{y}},

onde na terceira igualdade utilizamos o fato de XX e ZZ serem independentes. Portanto, para todo y=0,,n+my=0,\dots,n+m,

𝔼[X|Y=y]\displaystyle\mathbb{E}[X|Y=y] =xx(nx)(myx)(n+my)=nx(n1x1)(myx)(n+my)\displaystyle=\sum_{x}x\frac{\binom{n}{x}\binom{m}{y-x}}{\binom{n+m}{y}}=\frac% {n\sum_{x}\binom{n-1}{x-1}\binom{m}{y-x}}{\binom{n+m}{y}}
=n(n+m1y1)(n+my)=nyn+m.\displaystyle=\frac{n\binom{n+m-1}{y-1}}{\binom{n+m}{y}}=\frac{ny}{n+m}.

Logo, 𝔼[X|Y]=nm+nY\mathbb{E}[X|Y]=\frac{n}{m+n}Y quase certamente. ∎

Nos exemplos acima, pX|Yp_{X|Y} foi calculado a partir de pX,Yp_{X,Y} via (11.14). Isso é útil quando literalmente podemos observar YY e queremos atualizar nossas expectativas com respeito à distribuição de XX. Há também o caso em que pX|Yp_{X|Y}, ao invés de calculado, é especificado ou deduzido por primeiros princípios, e serve para aplicar (11.15) entre outras ferramentas.

Exemplo 11.18.

Um jogador lança um dado, e YY denota o número observado. Em seguida lança uma moeda honesta YY vezes, e XX denota o número de coroas obtidas. Queremos calcular 𝔼[X|Y]\mathbb{E}[X|Y] e 𝔼X\mathbb{E}X. Para cada y=1,,6y=1,\dots,6 e x=0,,yx=0,\dots,y, temos pX|Y(x|y)=(yx)2yp_{X|Y}(x|y)=\binom{y}{x}2^{-y}. Calculamos então 𝔼[X|Y=y]=xx(yx)2y=y2\mathbb{E}[X|Y=y]=\sum_{x}x\cdot\binom{y}{x}2^{-y}=\frac{y}{2}. Portanto, 𝔼[X|Y]=Y2\mathbb{E}[X|Y]=\frac{Y}{2} e, tomando a esperança iterada, 𝔼X=𝔼[𝔼[X|Y]]=𝔼[Y2]=74\mathbb{E}X=\mathbb{E}[\mathbb{E}[X|Y]]=\mathbb{E}[\frac{Y}{2}]=\frac{7}{4}. ∎

A partir da função de probabilidade condicional de XX dado YY, podemos também estudar a distribuição condicional de XX dado YY, definida por

X|Y(B|y)=xBpX|Y(x|y)\mathbb{P}_{X|Y}(B|y)=\sum_{x\in B}p_{X|Y}(x|y) (11.19)

para todo evento BB.

Exemplo 11.20.

Jogamos nn moedas honestas, as que exibem cara permanecem como estão e as que exibem coroa são novamente lançadas. Sejam YY o número de coroas obtidas após a primeira rodada de lançamentos e XX o número de coroas restantes após a segunda rodada de lançamentos. Neste caso, pX|Y(x|y)=(yx)2yp_{X|Y}(x|y)=\binom{y}{x}2^{-y}. Sendo assim, a distribuição condicional X|Y(|y)\mathbb{P}_{X|Y}(\cdot|y) corresponde à distribuição Binom(y,12)\mathop{\mathrm{Binom}}\nolimits(y,\frac{1}{2}). ∎

O comportamento conjunto de XX e YY, ou de XX isoladamente, pode ser estudado a partir dessa distribuição condicional, calculando-se a média sobre yy. Mais precisamente,

(XB,YC)=yCX|Y(B|y)pY(y)\mathbb{P}(X\in B,Y\in C)=\sum_{y\in C}\mathbb{P}_{X|Y}(B|y)p_{Y}(y) (11.21)

para quaisquer subconjuntos B,CB,C\subseteq\mathbb{R}.

Exemplo 11.22.

Sejam XX e YY as variáveis aleatórias definidas no Exemplo 11.20. Observando que quase certamente as variáveis XX e YY assumem valores no conjunto {0,,n}\{0,\dots,n\}, podemos calcular a distribuição de XX utilizando (11.21), com B={k}B=\{k\} e C={0,,n}C=\{0,\dots,n\}, isto é,

(X=k)\displaystyle\mathbb{P}(X=k) =(X=k,Y{0,,n})=y=0nX|Y({k}|y)pY(y)\displaystyle=\mathbb{P}(X=k,Y\in\{0,\dots,n\})=\sum_{y=0}^{n}\mathbb{P}_{X|Y}% (\{k\}|y)p_{Y}(y)
=y=0n(yk)2y(ny)2n=2ny=0n(nk)(nkny)2y\displaystyle=\sum_{y=0}^{n}\tbinom{y}{k}2^{-y}\tbinom{n}{y}2^{-n}=2^{-n}\sum_% {y=0}^{n}\tbinom{n}{k}\tbinom{n-k}{n-y}2^{-y}
=2n(nk)j=0n(nkj)2jn=4n(nk)j=0nk(nkj)2j1nkj\displaystyle=2^{-n}\tbinom{n}{k}\sum_{j=0}^{n}\tbinom{n-k}{j}2^{j-n}=4^{-n}% \tbinom{n}{k}\sum_{j=0}^{n-k}\tbinom{n-k}{j}2^{j}1^{n-k-j}
=4n(nk)(2+1)nk=(nk)(14)k(34)nk,\displaystyle=4^{-n}\tbinom{n}{k}(2+1)^{n-k}=\tbinom{n}{k}(\tfrac{1}{4})^{k}(% \tfrac{3}{4})^{n-k},

onde utilizamos o Teorema Binomial. Portanto, XBinom(n,14)X\sim\mathop{\mathrm{Binom}}\nolimits(n,\frac{1}{4}). ∎

A proposição abaixo diz que, se uma variável YY não nos dá informação alguma acerca de outra variável XX, então a melhor aproximação para o valor de XX sabendo-se o valor de YY nada mais é do que a própria esperança de XX, não importando o valor de YY.

Proposição 11.23 (Variáveis independentes).

Sejam XX e YY variáveis aleatórias simples. Se XX e YY são independentes, então 𝔼[X|Y]=𝔼X\mathbb{E}[X|Y]=\mathbb{E}X.

Demonstração.

Imediato pois

𝔼[X|Y=y]=xxpX|Y(x|y)=xxpX(x)=𝔼X\mathbb{E}[X|Y=y]=\sum_{x}x\cdot p_{X|Y}(x|y)=\sum_{x}x\cdot p_{X}(x)=\mathbb{% E}X

para todo yy\in\mathbb{R}. ∎

Exemplo 11.24.

Sejam X1,,XmX_{1},\dots,X_{m} variáveis com a mesma esperança, e NN uma variável aleatória assumindo valores em {1,,m}\{1,\dots,m\} independente de X1,,XmX_{1},\dots,X_{m}. Definimos

SN=X1++XN,S_{N}=X_{1}+\dots+X_{N},

a soma dos NN primeiros termos da sequência. Ou seja, SNS_{N} é a soma de uma quantidade aleatória de variáveis aleatórias. Mais formalmente, definimos Sn=X1++XnS_{n}=X_{1}+\dots+X_{n}, para todo nn, e então definimos SN=kSk 1{N=k}S_{N}=\sum_{k}S_{k}\,\mathds{1}_{\{N=k\}}. Vamos mostrar que

𝔼[SN|N]=N𝔼X1,\mathbb{E}[S_{N}|N]=N\cdot\mathbb{E}X_{1},

e, portanto, pelo Teorema 11.5,

𝔼[SN]=𝔼N𝔼X1,\mathbb{E}[S_{N}]=\mathbb{E}N\cdot\mathbb{E}X_{1},

isto é, o valor médio de uma soma aleatória é o valor médio do número de parcelas vezes o valor médio de cada parcela. Com efeito,

𝔼[SN|N]\displaystyle\mathbb{E}[S_{N}|N] =k=1m𝔼[(X1++Xk)𝟙{N=k}|N]\displaystyle=\sum_{k=1}^{m}\mathbb{E}[(X_{1}+\dots+X_{k})\mathds{1}_{\{N=k\}}% |N]
=k=1m𝟙{N=k}𝔼[(X1++Xk)|N]\displaystyle=\sum_{k=1}^{m}\mathds{1}_{\{N=k\}}\mathbb{E}[(X_{1}+\dots+X_{k})% |N]
=k=1m𝟙{N=k}j=1k𝔼[Xj|N]\displaystyle=\sum_{k=1}^{m}\mathds{1}_{\{N=k\}}\sum_{j=1}^{k}\mathbb{E}[X_{j}% |N]
=k=1m𝟙{N=k}j=1k𝔼[Xj]\displaystyle=\sum_{k=1}^{m}\mathds{1}_{\{N=k\}}\sum_{j=1}^{k}\mathbb{E}[X_{j}]
=𝔼X1k=1mk𝟙{N=k}\displaystyle=\mathbb{E}X_{1}\cdot\sum_{k=1}^{m}k\mathds{1}_{\{N=k\}}
=N𝔼X1.\displaystyle=N\cdot\mathbb{E}X_{1}.

Na segunda igualdade usamos o Teorema 11.8. Na quarta, usamos que XjX_{j} é independente de NN, donde podemos aplicar a Proposição 11.23. Na quinta, usamos o fato de as variáveis (Xj)j(X_{j})_{j} terem a mesma esperança. ∎