11.6 Distribuição condicional regular

Na Seção 11.4 definimos 𝔼[X|Y]\mathbb{E}[X|Y] para quaisquer variáveis aleatórias XX e YY com XX integrável, mas não dissemos como calculá-la. A Seção 11.2 se restringe ao caso em que ambas as variáveis são discretas, enquanto a Seção 11.3 descreve o caso de variáveis com densidade conjunta porém sem fornecer demonstrações rigorosas das propriedades enunciadas. O objetivo agora é dar significado à noção de distribuição condicional de XX dado YY no caso geral, unificando a abordagem das seções anteriores.

Definição 11.56.

Sejam XX e YY variáveis aleatórias definidas em um mesmo espaço de probabilidade. Uma distribuição condicional regular de XX dado YY é qualquer função de ×\mathcal{B}\times\mathbb{R} em [0,1][0,1], que a cada BB\in\mathcal{B} e yy\in\mathbb{R} associa um número, denotado X|Y(B|y)\mathbb{P}_{X|Y}(B|y), satisfazendo:

  1. (1)

    Para todo yy\in\mathbb{R} fixo, a função que leva BB\in\mathcal{B} em X|Y(B|y)\mathbb{P}_{X|Y}(B|y) é uma medida de probabilidade em (,)(\mathbb{R},\mathcal{B});

  2. (2)

    Para todo BB\in\mathcal{B} fixo, a função que leva yy\in\mathbb{R} em X|Y(B|y)\mathbb{P}_{X|Y}(B|y) é uma função mensurável;

  3. (3)

    Para todos B,CB,C\in\mathcal{B}, vale (XB,YC)=CX|Y(B|y)Y(dy).\mathbb{P}(X\in B,Y\in C)=\int_{C}\mathbb{P}_{X|Y}(B|y)\,\mathbb{P}_{Y}(% \mathrm{d}y).

Antes de prosseguir, é oportuno fazer algumas observações.

Primeiro, caso XX e YY sejam discretas, a equação acima se reduz a (11.21), portanto a definição de distribuição condicional regular generaliza (11.19).

Segundo, quando YY é absolutamente contínua, a equação acima se reduz a (11.28) pela regra da cadeia. Se XX e YY têm densidade conjunta, podemos deduzir, a partir de (11.29), que vale (11.28) para todos B,CB,C\in\mathcal{B}, e portanto a definição (11.27) resulta em uma distribuição condicional regular.

Por último, a definição acima pode parecer bastante abstrata, e talvez inútil, pois mesmo sabendo que sempre existe uma distribuição condicional regular, isso não diz como encontrá-la. Mencionamos de passagem que uma forma explícita de se obter uma distribuição condicional regular seria a seguinte. Primeiro calculamos

FX|Y(x|y)=limzx+limn(Xz|Y[y1n,y+1n])F_{X|Y}(x\,|\,y)=\lim_{z\to x^{+}}\lim_{n\to\infty}\mathbb{P}{\Big{(}X% \leqslant z\,\Big{|}\,Y\in[y-\tfrac{1}{n},y+\tfrac{1}{n}]\Big{)}} (11.57)

para os valores yy\in\mathbb{R} onde a expressão acima está bem definida e resulta em uma função de distribuição na variável xx.1818 18 É importante tomar o limite primeiro em nn e depois em zz, caso contrário FX|Y(|y)F_{X|Y}(\cdot|y) pode não ser uma função de distribuição para nenhum yy\in\mathbb{R}, como podemos ver tomando X=Y𝒩(0,1)X=Y\sim\mathcal{N}(0,1), caso em que teríamos “FX|Y(z|z)=12F_{X|Y}(z|z)=\frac{1}{2}” para todo zz\in\mathbb{R}. Depois definimos X|Y(|y)\mathbb{P}_{X|Y}(\cdot|y) como sendo a única medida tal que X|Y((,x]|y)=FX|Y(x|y)\mathbb{P}_{X|Y}\big{(}(-\infty,x]\,\big{|}\,y\big{)}=F_{X|Y}(x|y) para todo xx. Entretanto, essa forma não é a mais recomendada, nem do ponto de vista teórico nem do prático. Isso porque a fórmula (11.57) está na forma “diferencial” já que o limite em nn nos dá uma “derivada” na variável yy, enquanto a fórmula no item (3) está na forma integral, o que é bem mais robusto. Na prática, é melhor encontrar um candidato ad hoc para a distribuição condicional regular e verificar que ele satisfaz à definição (o limite acima pode nos ajudar a adivinhar quem deveria ser o candidato). Foi exatamente o que fizemos no parágrafo anterior, para justificar a fórmula (11.26)!

Os dois próximos teoremas serão demonstrados no Apêndice D.6.

Teorema 11.58.

Dadas duas variáveis aleatórias quaisquer XX e YY, sempre existe uma distribuição condicional regular de XX dado YY.

Vamos definir 𝔼[X|Y=y]\mathbb{E}[X|Y=y] a partir de X|Y\mathbb{P}_{X|Y}, e depois usá-la para construir 𝔼[X|Y]\mathbb{E}[X|Y] explicitamente de forma a satisfazer às duas propriedades do Teorema 11.39. Ademais, o faremos de forma que seja coerente com as fórmulas (11.15) e (11.34).

Teorema 11.59.

Sejam XX e YY variáveis aleatórias e X|Y\mathbb{P}_{X|Y} uma distribuição condicional regular. Então, para toda função mensurável g:2[0,+]g:\mathbb{R}^{2}\to[0,+\infty], vale

𝔼[g(X,Y)]=(g(x,y)X|Y(dx|y))Y(dy),\mathbb{E}[g(X,Y)]=\int_{\mathbb{R}}\Big{(}\int_{\mathbb{R}}g(x,y)\,\mathbb{P}% _{X|Y}(\mathrm{d}x|y)\Big{)}\mathbb{P}_{Y}(\mathrm{d}y), (11.60)

sendo que a integral interna fornece uma função mensurável de yy.

Agora vamos supor que XX é integrável ou não-negativa. Observamos que xX|Y(dx|y)\int_{\mathbb{R}}x\,\mathbb{P}_{X|Y}(\mathrm{d}x|y) está definida para Y\mathbb{P}_{Y}-quase todo yy.1919 19 Se XX é não-negativa, 𝔼X=0\mathbb{E}X^{-}=0, donde xX|Y(dx|y)=0\int_{\mathbb{R}}x^{-}\,\mathbb{P}_{X|Y}(\mathrm{d}x|y)=0 para Y\mathbb{P}_{Y}-quase todo yy. Se XX é integrável, 𝔼|X|<\mathbb{E}|X|<\infty, donde |x|X|Y(dx|y)<\int_{\mathbb{R}}|x|\,\mathbb{P}_{X|Y}(\mathrm{d}x|y)<\infty para Y\mathbb{P}_{Y}-quase todo yy. Em ambos casos, xX|Y(dx|y)\int_{\mathbb{R}}x\,\mathbb{P}_{X|Y}(\mathrm{d}x|y) está definida para Y\mathbb{P}_{Y}-quase todo yy. Definimos então

𝔼[X|Y=y]=xX|Y(dx|y)\mathbb{E}[X|Y=y]=\int_{\mathbb{R}}x\,\mathbb{P}_{X|Y}(\mathrm{d}x|y) (11.61)

nos pontos yy para os quais a integral está definida, e 𝔼[X|Y=y]=0\mathbb{E}[X|Y=y]=0 caso contrário. Pela regra da cadeia, a fórmula acima se reduz a (11.34) caso XX e YY tenham densidade conjunta, ou (11.15) caso sejam discretas.

Definimos 𝔼[X|Y]\mathbb{E}[X|Y] como a variável aleatória que assume o valor 𝔼[X|Y=y]\mathbb{E}[X\,|\,Y=y] no evento {Y=y}\{Y=y\}, como havíamos feito nas Seções 11.211.3.

Proposição 11.62.

Se XX é integrável ou não-negativa, então a variável aleatória 𝔼[X|Y]\mathbb{E}[X|Y], como definida acima, satisfaz às duas propriedades do Teorema 11.39.

Demonstração.

Seja Aσ(Y)A\in\sigma(Y). Por definição, A={YC}A=\{Y\in C\} para algum CC\in\mathcal{B}. Tomando g(x,y)=x+𝟙C(y)g(x,y)=x^{+}\cdot\mathds{1}_{C}(y), pelo Teorema 11.59,

𝔼[X+𝟙A]\displaystyle\mathbb{E}[X^{+}\mathds{1}_{A}] =(x+X|Y(dx|y))𝟙C(y)Y(dy).\displaystyle=\int_{\mathbb{R}}\Big{(}\int_{\mathbb{R}}x^{+}\,\mathbb{P}_{X|Y}% (\mathrm{d}x|y)\Big{)}\mathds{1}_{C}(y)\,\mathbb{P}_{Y}(\mathrm{d}y).

Procedendo de modo idêntico com a parte negativa e observando que a diferença está bem definida para Y\mathbb{P}_{Y}-quase todo yy, obtemos

𝔼[X𝟙A]\displaystyle\mathbb{E}[X\mathds{1}_{A}] =𝟙C(y)𝔼[X|Y=y]Y(dy)\displaystyle=\int_{\mathbb{R}}\mathds{1}_{C}(y)\,\mathbb{E}[X|Y=y]\,\mathbb{P% }_{Y}(\mathrm{d}y)
=𝔼[𝟙C(Y)𝔼[X|Y]]\displaystyle=\mathbb{E}\big{[}\mathds{1}_{C}(Y)\cdot\mathbb{E}[X|Y]\big{]}
=𝔼[𝔼[X|Y]𝟙A],\displaystyle=\mathbb{E}[\mathbb{E}[X|Y]\mathds{1}_{A}],

o que conclui a prova. ∎

Portanto, 𝔼[X|Y]\mathbb{E}[X|Y] goza de todas as propriedades enunciadas na Seção 11.4. Em particular, 𝔼X=𝔼[𝔼[X|Y]]\mathbb{E}X=\mathbb{E}\big{[}\mathbb{E}[X|Y]\big{]} e com isso justificamos também (11.37).

Veremos como se apresenta a distribuição condicional regular de XX dado YY em alguns casos especiais, além dos casos quando ambas são discretas ou possuem densidade conjunta, que vimos nas Seções 11.211.3.

Caso em que YY é discreta

O caso em que YY é uma variável aleatória discreta generaliza a abordagem da Seção 11.1. Neste caso, não precisamos da teoria de distribuição condicional regular, e somos obrigados a tomar literalmente

X|Y(B|y)=(XB,Y=y)(Y=y)\mathbb{P}_{X|Y}(B|y)=\frac{\mathbb{P}(X\in B,Y=y)}{\mathbb{P}(Y=y)}

para todo yy tal que (Y=y)>0\mathbb{P}(Y=y)>0. Os valores yy tais que (Y=y)=0\mathbb{P}(Y=y)=0 são irrelevantes, e para ter uma definição completa podemos tomar, por exemplo, X|Y(B|y)=X(B)\mathbb{P}_{X|Y}(B|y)=\mathbb{P}_{X}(B).

Verifiquemos as condições da Definição 11.56. A condição (1) vale trivialmente. Defina D={s:Y(s)>0}D=\{s:\mathbb{P}_{Y}(s)>0\} é observe que DD é enumerável. A condição (2) vale pois, para cada BB\in\mathcal{B} fixo, podemos expressar X|Y(B|y)\mathbb{P}_{X|Y}(B|y) como soma enumerável de funções mensuráveis sDX|Y(B|s)𝟙{s}(y)+X(B)𝟙Dc(y)\sum_{s\in D}\mathbb{P}_{X|Y}(B|s)\mathds{1}_{\{s\}}(y)+\mathbb{P}_{X}(B)% \mathds{1}_{D^{c}}(y). Já a condição (3) vale pois (XB,YC)=yC(XB,Y=y)=yCX|Y(B|y)pY(y)=CX|Y(B|y)Y(dy)\mathbb{P}(X\in B,Y\in C)=\sum_{y\in C}\mathbb{P}(X\in B,Y=y)=\sum_{y\in C}% \mathbb{P}_{X|Y}(B|y)p_{Y}(y)=\int_{C}\mathbb{P}_{X|Y}(B|y)\mathbb{P}_{Y}(% \mathrm{d}y).

Caso em que XX e YY são independentes

Se XX e YY são independentes, esse é o caso mais simples, pois o conhecimento de YY não afeta a variável XX. Neste caso, podemos tomar

X|Y(B|y)=X(B).\mathbb{P}_{X|Y}(B|y)=\mathbb{P}_{X}(B).

Verifiquemos a Definição 11.56. As condições (1)(2) valem trivialmente. A condição (3) vale pois CX|Y(B|y)Y(dy)=CX(B)Y(dy)=X(B)CY(dy)=(XB)(YC)=(XB,YC)\int_{C}\mathbb{P}_{X|Y}(B|y)\mathbb{P}_{Y}(\mathrm{d}y)=\int_{C}\mathbb{P}_{X% }(B)\mathbb{P}_{Y}(\mathrm{d}y)=\mathbb{P}_{X}(B)\int_{C}\mathbb{P}_{Y}(% \mathrm{d}y)=\mathbb{P}(X\in B)\mathbb{P}(Y\in C)=\mathbb{P}(X\in B,Y\in C).

Caso de variável discreta com parâmetro contínuo desconhecido

Suponha que YY seja discreta, XX seja absolutamente contínua, e que uma distribuição condicional regular Y|X\mathbb{P}_{Y|X} seja conhecida. Seja pY|X(y|x)p_{Y|X}(y|x) uma função de probabilidade condicional associada.

Neste caso, uma distribuição condicional regular de XX dado YY tem densidade dada por

fX|Y(x|y)=pY|X(y|x)pY(y)fX(x)f_{X|Y}(x|y)=\frac{p_{Y|X}(y|x)}{p_{Y}(y)}\cdot f_{X}(x)

se pY(y)>0p_{Y}(y)>0, e fX|Y(x|y)=fX(x)f_{X|Y}(x|y)=f_{X}(x) caso contrário.

Mais precisamente, definimos X|Y(B|y)=BfX|Y(x|y)dx\mathbb{P}_{X|Y}(B|y)=\int_{B}f_{X|Y}(x|y)\,\mathrm{d}x. Para verificar a condição (2), definimos o conjunto enumerável D={s:pY(s)>0}D=\{s:p_{Y}(s)>0\}, e observamos que, para cada BB\in\mathcal{B} fixo, podemos expressar X|Y(B|y)\mathbb{P}_{X|Y}(B|y) como soma enumerável das funções mensuráveis

sDBpY|X(y|x)fX(x)dxpY(y)𝟙{s}(y)+𝟙Dc(y)BfX(x)dx.\sum_{s\in D}\frac{\int_{B}p_{Y|X}(y|x)f_{X}(x)\,\mathrm{d}x}{p_{Y}(y)}\mathds% {1}_{\{s\}}(y)+\mathds{1}_{D^{c}}(y)\cdot\int_{B}f_{X}(x)\,\mathrm{d}x.

O numerador acima é uma função mensurável de yy pelo Lema 5.83, pois é dado pela integral em xx de uma função mensurável de xx e yy. Para verificar a condição (1), note que X|Y(B|y)\mathbb{P}_{X|Y}(B|y) é não-negativa por definição, e é σ\sigma-aditiva em BB como consequência da σ\sigma-aditividade da integral. Ademais,

X|Y(|y)=pY|X(y|x)fX(x)pY(y)dx=Y|X({y}|x)X(dx)pY(y)=1\displaystyle\mathbb{P}_{X|Y}(\mathbb{R}|y)=\int_{\mathbb{R}}\frac{p_{Y|X}(y|x% )f_{X}(x)}{p_{Y}(y)}\,\mathrm{d}x=\frac{\int_{\mathbb{R}}\mathbb{P}_{Y|X}(\{y% \}|x)\mathbb{P}_{X}(\mathrm{d}x)}{p_{Y}(y)}=1

se pY(y)>0p_{Y}(y)>0, e X|Y(|y)=fX(x)dx=1\mathbb{P}_{X|Y}(\mathbb{R}|y)=\int_{\mathbb{R}}f_{X}(x)\,\mathrm{d}x=1 caso contrário. Finalmente, para verificar condição (3) desenvolvemos

CX|Y(B|y)Y(dy)\displaystyle\int_{C}\mathbb{P}_{X|Y}(B|y)\mathbb{P}_{Y}(\mathrm{d}y) =yC(BpY|X(y|x)pY(y)fX(x)dx)pY(y)\displaystyle=\sum_{y\in C}\Big{(}\int_{B}\frac{p_{Y|X}(y|x)}{p_{Y}(y)}\cdot f% _{X}(x)\,\mathrm{d}x\Big{)}p_{Y}(y)
=yCBpY|X(y|x)fX(x)dx\displaystyle=\sum_{y\in C}\int_{B}{p_{Y|X}(y|x)}\cdot f_{X}(x)\,\mathrm{d}x
=yCBY|X({y}|x)X(dx)\displaystyle=\sum_{y\in C}\int_{B}\mathbb{P}_{Y|X}(\{y\}\,|\,x)\mathbb{P}_{X}% (\mathrm{d}x)
=yC(Y=y,XB)\displaystyle=\sum_{y\in C}\mathbb{P}(Y=y,X\in B)
=(YC,XB).\displaystyle=\mathbb{P}(Y\in C,X\in B).
Exemplo 11.63 (Ensaios de Bernoulli com parâmetro dado por uma Beta).

Sejam XX e YY, variáveis aleatórias tais que XBeta(a,b)X\sim\mathop{\mathrm{Beta}}\nolimits(a,b) e a distribuição condicional de YY dado que X=xX=x é Binom(n,x)\mathop{\mathrm{Binom}}\nolimits(n,x). Neste caso,

fX|Y(x|y)=(ny)xy(1x)nypY(y)fX(x)=xy+a1(1x)ny+b1c(a,b,n,y)\displaystyle f_{X|Y}(x|y)=\frac{\binom{n}{y}x^{y}(1-x)^{n-y}}{p_{Y}(y)}\,f_{X% }(x)=\frac{x^{y+a-1}(1-x)^{n-y+b-1}}{c(a,b,n,y)}

para todo y=0,,ny=0,\dots,n. Observamos também que c=01xy+a1(1x)ny+b1dxc=\int_{0}^{1}x^{y+a-1}(1-x)^{n-y+b-1}\mathrm{d}x, pois fX|Y(|y)f_{X|Y}(\cdot|y) é uma função de densidade. Portanto, a distribuição condicional de XX dado que Y=yY=y é uma distribuição Beta de parâmetros a+ya+y e b+(ny)b+(n-y). ∎

Caso em que X|Y\mathbb{P}_{X|Y} é especificado

Os Exemplos 11.18, 11.20, 11.3211.33 ilustraram o caso em que X|Y\mathbb{P}_{X|Y} é especificado, juntamente com Y\mathbb{P}_{Y}. Tal especificação deve satisfazer às condições (1)(2), enquanto equação em (3) serve para determinar a distribuição conjunta X,Y\mathbb{P}_{X,Y}, cuja marginal serve para determinar X\mathbb{P}_{X}, e a integral (11.61) serve para calcular 𝔼[X|Y]\mathbb{E}[X|Y]. O seguinte exemplo não se enquadra nos contextos das Seções 11.2 ou 11.3.

Exemplo 11.64.

Seja Y𝒰[0,1]Y\sim\mathcal{U}[0,1]. Se Y=yY=y, então uma moeda com probabilidade yy de sair cara é lançada nn vezes independentemente. Seja XX a variável aleatória que representa o número de caras obtidas.

A distribuição condicional de XX dado que Y=yY=y é Binom(n,y)\mathop{\mathrm{Binom}}\nolimits(n,y). Portanto, 𝔼[X|Y=y]=ny\mathbb{E}[X\,|\,Y=y]=ny, ou seja, 𝔼[X|Y]=nY\mathbb{E}[X\,|\,Y]=nY, logo

𝔼[𝔼[X|Y]]=𝔼[nY]=n2.\mathbb{E}\big{[}\mathbb{E}[X|Y]\big{]}=\mathbb{E}[nY]=\frac{n}{2}.\qed