D.6 Distribuição condicional regular

Nesta seção vamos provar os Teoremas 11.5811.59.

Para isso, vamos construir uma função FX|YF_{X|Y} mensurável em ambas as variáveis e tal que

FX,Y(x,y)=yFX|Y(x|y)Y(dy)F_{X,Y}(x,y)=\int_{-\infty}^{y}F_{X|Y}(x|y)\,\mathbb{P}_{Y}(\mathrm{d}y)

para todos x,yx,y\in\mathbb{R}. Começamos estudando uma função G:2G:\mathbb{R}^{2}\to\mathbb{R} que terá determinadas propriedades em “quase todos” os pontos xx e yy, depois usar GG para construir FX|YF_{X|Y}, e finalmente usar FX|YF_{X|Y} para construir X|Y\mathbb{P}_{X|Y}.

Sejam XX e YY variáveis aleatórias definidas em um mesmo espaço de probabilidade.

Lema D.19.

Para todo xx\in\mathbb{R}, existe uma função mensurável G(x|):[0,1]G(x\,|\,\cdot\,):\mathbb{R}\to[0,1], tal que

(Xx,YC)=CG(x|y)Y(dy)\mathbb{P}(X\leqslant x,Y\in C)=\int_{C}G(x|y)\,\mathbb{P}_{Y}(\mathrm{d}y)

para todo CC\in\mathcal{B}.

Demonstração.

Seja xx\in\mathbb{R} fixo. Defina

ν(C)=(Xx,YC),μ(C)=(YC)\nu(C)=\mathbb{P}(X\leqslant x,Y\in C),\qquad\mu(C)=\mathbb{P}(Y\in C)

para todo CC\in\mathcal{B}. Como νμ\nu\ll\mu, pelo Teorema de Radon-Nikodým, existe uma função mensurável G(x|):G(x|\,\cdot\,):\mathbb{R}\to\mathbb{R}, tal que

(Xx,YC)=CG(x,y)Y(dy)para todo C.\mathbb{P}(X\leqslant x,Y\in C)=\int_{C}G(x,y)\,\mathbb{P}_{Y}(\mathrm{d}y)% \quad\text{para todo $C\in\mathcal{B}$}.

Como essa integral nunca é negativa, G(x,y)0G(x,y)\geqslant 0 para Y\mathbb{P}_{Y}-quase todo yy\in\mathbb{R}. Como (X>x,YC)=C[1G(x,y)]Y(dy)\mathbb{P}(X>x,Y\in C)=\int_{C}[1-G(x,y)]\mathbb{P}_{Y}(\mathrm{d}y) nunca é negativo, segue que G(x,y)1G(x,y)\leqslant 1 para Y\mathbb{P}_{Y}-quase todo yy\in\mathbb{R}. Modificando G(x,y)G(x,y) em um conjunto de medida Y\mathbb{P}_{Y} nula, podemos supor que G(x,y)[0,1]G(x,y)\in[0,1] para todo yy\in\mathbb{R}. ∎

Para construir FX|YF_{X|Y} a partir de GG, usaremos o fato de que \mathbb{Q} é enumerável e denso em \mathbb{R}, e que uniões enumeráveis de conjuntos de medida nula têm medida nula.

Lema D.20.

Existe uma função FX|Y(|):2F_{X|Y}(\cdot|\cdot):\mathbb{R}^{2}\to\mathbb{R} com as seguintes propriedades:

  1. (1)

    FX|Y(|y)F_{X|Y}(\,\cdot\,|y) é uma função de distribuição para todo yy\in\mathbb{R} fixo,

  2. (2)

    FX|Y(q|)F_{X|Y}(q|\,\cdot\,) é uma função mensurável para todo qq\in\mathbb{Q} fixo,

  3. (3)

    FX,Y(q,y)=yFX|Y(q|s)Y(ds)F_{X,Y}(q,y)=\int_{-\infty}^{y}F_{X|Y}(q|s)\,\mathbb{P}_{Y}(\mathrm{d}s) para todos qq\in\mathbb{Q} e yy\in\mathbb{R}.

Demonstração.

Para cada qq\in\mathbb{Q}, seja G(q|)G(q|\cdot) a função dada pelo Lema D.19. Agora, para cada par de racionais r<qr<q, seja

A1,r,q={y:G(r|y)G(q|y)}.A_{1,r,q}=\{y\in\mathbb{R}:G(r\,|\,y)\leqslant G(q\,|\,y)\}\in\mathcal{B}.

Definindo A1=r,qA1,r,qA_{1}=\cap_{r,q}A_{1,r,q}, temos que Y(A1)=1\mathbb{P}_{Y}(A_{1})=1, pois Y(A1,r,q)=1\mathbb{P}_{Y}(A_{1,r,q})=1 para todos r < q. Com efeito, C[G(q|y)G(r|y)]Y(dy)=(r<Xq,YC)0\int_{C}[G(q|y)-G(r|y)]\mathbb{P}_{Y}(\mathrm{d}y)=\mathbb{P}(r<X\leqslant q,Y% \in C)\geqslant 0 para todo CC\in\mathcal{B}, donde concluímos que o integrando é não-negativo para Y\mathbb{P}_{Y}-quase todo yy\in\mathbb{R}.

Em seguida, para cada qq\in\mathbb{Q}, definimos

A2,q={yA1:G(q+1n|y)G(q|y)}.A_{2,q}=\{y\in A_{1}:G(q+\tfrac{1}{n}\,|\,y)\to G(q\,|\,y)\}\in\mathcal{B}.

Observe que

G(q+1n|y)Y(dy)=(Xq+1n)(Xq)=G(q|y)Y(dy),\int_{\mathbb{R}}G(q+\tfrac{1}{n}|y)\,\mathbb{P}_{Y}(\mathrm{d}y)=\mathbb{P}(X% \leqslant q+\tfrac{1}{n})\to\mathbb{P}(X\leqslant q)=\int_{\mathbb{R}}G(q|y)\,% \mathbb{P}_{Y}(\mathrm{d}y),

logo, pelo Teorema da Convergência Dominada,

[limnG(q+1n|y)]Y(dy)=G(q|y)Y(dy),\int_{\mathbb{R}}[{\lim}_{n}G(q+\tfrac{1}{n}|y)]\,\mathbb{P}_{Y}(\mathrm{d}y)=% \int_{\mathbb{R}}G(q|y)\,\mathbb{P}_{Y}(\mathrm{d}y),

e, como o integrando do lado direito é cotado superiormente pelo integrando do lado esquerdo, eles têm que ser iguais para Y\mathbb{P}_{Y}-quase todo yy, ou seja, (A2,q)=1\mathbb{P}(A_{2,q})=1. Novamente, tomamos A2=qA2,qA_{2}=\cap_{q\in\mathbb{Q}}A_{2,q} e definimos agora

A={yA2:limk+G(k|y)=1,limkG(k|y)=0}A=\{y\in A_{2}:\lim_{k\to+\infty}G(k\,|\,y)=1,\lim_{k\to-\infty}G(k\,|\,y)=0\}% \in\mathcal{B}

e, pelo mesmo argumento utilizado para A2,qA_{2,q}, pode-se mostrar que Y(A)=1\mathbb{P}_{Y}(A)=1.

Finalmente definimos, para yAy\in A e xx\in\mathbb{R}

FX|Y(x|y)=inf{G(q|y):q,q>x}.F_{X|Y}(x|y)=\inf\{G(q|y):q\in\mathbb{Q},q>x\}.

Para yAcy\in A^{c}, definimos FX|Y(x|y)=FX(x)F_{X|Y}(x|y)=F_{X}(x).

Observe que, pela definição de GG e FX|YF_{X|Y}, a função FX|Y(|y)F_{X|Y}(\,\cdot\,|y) é uma função de distribuição para todo yy\in\mathbb{R}, como afirmado. Agora seja xx\in\mathbb{Q} fixo. Observe que FX|Y(x|y)=G(x|y)𝟙A(y)+FX(x)𝟙Ac(y)F_{X|Y}(x|y)=G(x|y)\mathds{1}_{A}(y)+F_{X}(x)\mathds{1}_{A^{c}}(y) e, pelo Lema D.19, isso define uma função mensurável de yy. Ademais, como Y(A)=1\mathbb{P}_{Y}(A)=1, o item (3) também segue diretamente do Lema D.19. ∎

Na demonstração acima, a função FX|YF_{X|Y} foi obtida através do Lema D.19, que não diz como calculá-la. Ressaltamos que a função definida por (11.57) também satisfaz a essas três propriedades, porém a demonstração desse fato exige ferramentas de Teoria da Medida que vão muito além do escopo deste livro (ver Teorema 6.66 em [GM09]).

Demonstração do Teorema 11.58.

Seja FX|YF_{X|Y} como dada pelo Lema D.20.

Preliminarmente, afirmamos que, para todo qq\in\mathbb{Q}, vale

(Xq,YC)=CFX|Y(q|s)Y(ds) para todo C.\mathbb{P}(X\leqslant q,Y\in C)=\int_{C}F_{X|Y}(q|s)\,\mathbb{P}_{Y}(\mathrm{d% }s)\quad\text{ para todo }C\in\mathcal{B}. (D.21)

Com efeito, ambos os lados determinam medidas de probabilidade em CC e, pelo item (3) do Lema D.20, essas medidas coincidem na classe {(,y]}y\{(-\infty,y]\}_{y\in\mathbb{R}}, que forma um π\pi-sistema e contém {(,n]}n\{(-\infty,n]\}_{n}, cuja união é \mathbb{R}, logo, pelo Teorema 3.37 (unicidade de medidas), elas coincidem para todo CC\in\mathcal{B}.

Para cada yy\in\mathbb{R}, definimos X|Y(|y)\mathbb{P}_{X|Y}(\cdot\,|\,y) como a medida de probabilidade em \mathbb{R} correspondente à função de distribuição FX|Y(|y)F_{X|Y}(\cdot\,|\,y). Seja 𝒟\mathcal{D} a classe de conjuntos BB\in\mathcal{B} tais que X|Y(B|y)\mathbb{P}_{X|Y}(B\,|\,y) é uma função mensurável de yy e tais que

(XB,YC)=CX|Y(B|y)Y(dy)para todo C.\mathbb{P}(X\in B,Y\in C)=\int_{C}\mathbb{P}_{X|Y}(B\,|\,y)\,\mathbb{P}_{Y}(% \mathrm{d}y)\quad\text{para todo $C\in\mathcal{B}$}. (D.22)

Observe que 𝒟\mathcal{D} é um λ\lambda-sistema (exercício!). Seja 𝒞\mathcal{C} a classe dos conjuntos da forma B=(,q]B=(-\infty,q] com qq\in\mathbb{Q}. Para B𝒞B\in\mathcal{C}, X|Y(B|y)\mathbb{P}_{X|Y}(B\,|\,y) é uma função mensurável de yy pelo item (2) do Lema D.20; ademais, (D.22) se reduz a (D.21). Ou seja, 𝒞𝒟\mathcal{C}\subseteq\mathcal{D}. Como 𝒞\mathcal{C} é um π\pi-sistema e σ(𝒞)=\sigma(\mathcal{C})=\mathcal{B}, segue do Teorema π-λ\pi\text{-}\lambda que 𝒟=\mathcal{D}=\mathcal{B}, o que prova o Teorema 11.58. ∎

Demonstração do Teorema 11.59.

A ideia da prova é estudar a classe das funções gg para as quais vale o enunciado do teorema. Consideramos inicialmente g(x,y)=𝟙A(x,y)g(x,y)=\mathds{1}_{A}(x,y) para A(2)A\in\mathcal{B}(\mathbb{R}^{2}). Seja 𝒟\mathcal{D} a classe dos conjuntos A(2)A\in\mathcal{B}(\mathbb{R}^{2}) para os quais a integral interna em (11.60), com 𝟙A\mathds{1}_{A} no lugar de gg, fornece uma função mensurável de yy e vale a igualdade (11.60). Observe que 𝒟\mathcal{D} é um λ\lambda-sistema (exercício!). Seja 𝒞={B×C:B,C()}\mathcal{C}=\{B\times C:B,C\in\mathcal{B}(\mathbb{R})\}. Pela Definição 11.56, temos que, para todos B,C()B,C\in\mathcal{B}(\mathbb{R})

𝟙B×C(x,y)X|Y(dx|y)=𝟙C(y)X|Y(B|y),\int_{\mathbb{R}}\mathds{1}_{B\times C}(x,y)\,\mathbb{P}_{X|Y}(\mathrm{d}x|y)=% \mathds{1}_{C}(y)\mathbb{P}_{X|Y}(B|y),

que é uma função mensurável de yy e cuja integral com respeito a Y\mathbb{P}_{Y} é igual a 𝔼[𝟙B×C(X,Y)]\mathbb{E}[\mathds{1}_{B\times C}(X,Y)]. Ou seja, 𝒞𝒟\mathcal{C}\subseteq\mathcal{D}. Como 𝒞\mathcal{C} é um π\pi-sistema e σ(𝒞)=(2)\sigma(\mathcal{C})=\mathcal{B}(\mathbb{R}^{2}), segue do Teorema π-λ\pi\text{-}\lambda que 𝒟=(2)\mathcal{D}=\mathcal{B}(\mathbb{R}^{2}). Isso prova o teorema para funções mensuráveis gg que apenas assumem valores 0 e 11. Por linearidade, vale o teorema para funções simples não-negativas. Finalmente, seja g:2[0,+]g:\mathbb{R}^{2}\to[0,+\infty] uma função mensurável. Tome 0gng0\leqslant g_{n}\uparrow g, onde as funções gng_{n} são simples. Pelo Teorema da Convergência Monótona, g(x,y)X|Y(dx|y)=limngn(x,y)X|Y(dx|y)\int_{\mathbb{R}}g(x,y)\,\mathbb{P}_{X|Y}(\mathrm{d}x|y)=\lim_{n}\int_{\mathbb% {R}}g_{n}(x,y)\,\mathbb{P}_{X|Y}(\mathrm{d}x|y) e, como limite de funções mensuráveis é mensurável, segue que a integral interna em (11.60) fornece uma função mensurável de yy. Como

𝔼[gn(X,Y)]=(gn(x,y)X|Y(dx|y))Y(dy)\mathbb{E}[g_{n}(X,Y)]=\int_{\mathbb{R}}\Big{(}\int_{\mathbb{R}}g_{n}(x,y)\,% \mathbb{P}_{X|Y}(\mathrm{d}x|y)\Big{)}\mathbb{P}_{Y}(\mathrm{d}y)

para todo nn, pelo Teorema da Convergência Monótona, vale a igualdade em (11.60). Isso conclui prova do Teorema 11.59. ∎