11.1 Esperança condicional dada uma partição

Muitas vezes conseguimos dividir Ω\Omega em pedaços que podem ser estudados separadamente para depois ver-se o todo. Nesta seção vamos trabalhar com partições finitas, isto é, partições da forma 𝒟={D1,D2,,Dm}\mathcal{D}=\{D_{1},D_{2},\dots,D_{m}\} para algum mm\in\mathbb{N}.

Exemplo 11.1.

Sejam X1,X2,X3,X_{1},X_{2},X_{3},\dots variáveis aleatórias assumindo valores em {1,1}\{-1,1\}. O espaço Ω\Omega pode ser dividido em quatro eventos onde ambas X1X_{1} e X2X_{2} são constantes. ∎

Recordemos a definição de esperança condicional de uma variável aleatória simples XX dado um evento AA, vista na Seção 5.4:

𝔼[X|A]=xx(X=x|A).\mathbb{E}[X|A]=\sum_{x}x\cdot\mathbb{P}(X=x|A).
Definição 11.2 (Esperança condicional dada uma partição).

Sejam XX uma variável aleatória simples e 𝒟\mathcal{D} uma partição finita de Ω\Omega. Definimos a esperança condicional de XX dado 𝒟\mathcal{D}, denotada por 𝔼[X|𝒟]\mathbb{E}[X|\mathcal{D}], como sendo a variável aleatória dada por

𝔼[X|𝒟](ω)=k𝔼[X|Dk] 1Dk(ω).\mathbb{E}[X|\mathcal{D}](\omega)=\sum_{k}\mathbb{E}[X|D_{k}]\,\mathds{1}_{D_{% k}}(\omega).

Ou seja, para cada D𝒟D\in\mathcal{D}, a variável aleatória 𝔼[X|𝒟]\mathbb{E}[X|\mathcal{D}] assume o valor 𝔼[X|D]\mathbb{E}[X|D] quando DD ocorre.

A esperança condicional 𝔼[X|𝒟]\mathbb{E}[X|\mathcal{D}] é a uma aproximação para XX que depende apenas da informação relacionada à partição 𝒟\mathcal{D}. Ela é grosseira o suficiente para atender à restrição de ser constante no eventos de 𝒟\mathcal{D}, mas fina o suficiente para ser a melhor entre todas as aproximações sujeitas a essa restrição. Veja a Figura 11.1.

Ilustração da definição de esperança condicional.
Figura 11.1: Ilustração da definição de esperança condicional.
Exemplo 11.3.

Um dado honesto é lançado. Seja XX o valor exibido pelo dado e defina a partição 𝒟={{X é par},{X é ímpar}}\mathcal{D}=\{\{X\text{ \'{e} par}\},\{X\mbox{ \'{e} \'{\i}mpar}\}\}. Neste caso,

𝔼[X|𝒟](ω)={𝔼[X|X é par],se X(ω) é par,𝔼[X|X é ímpar],se X(ω) é ímpar.\mathbb{E}[X|\mathcal{D}](\omega)=\begin{cases}\mathbb{E}[X|X\text{ \'{e} par}% ],&\mbox{se $X(\omega)$ \'{e} par},\\ \mathbb{E}[X|X\text{ \'{e} \'{\i}mpar}],&\mbox{se $X(\omega)$ \'{e} \'{\i}mpar% }.\end{cases}

Assim,

𝔼[X|𝒟](ω)={4,se X(ω) é par,3,se X(ω) é ímpar.\mathbb{E}[X|\mathcal{D}](\omega)=\begin{cases}4,&\text{se $X(\omega)$ \'{e} % par},\\ 3,&\text{se $X(\omega)$ \'{e} \'{\i}mpar}.\end{cases}\qed
Proposição 11.4 (Propriedades da esperança condicional).

Sejam XX e YY variáveis aleatórias simples, 𝒟\mathcal{D} uma partição finita de Ω\Omega e a,ba,b\in\mathbb{R}. Então valem as seguintes propriedades:

  1. (a)

    𝔼[a|𝒟]=a\mathbb{E}[a\,|\,\mathcal{D}]=a.

  2. (b)

    Se XYX\leqslant Y, então 𝔼[X|𝒟]𝔼[Y|𝒟]\mathbb{E}[X|\mathcal{D}]\leqslant\mathbb{E}[Y|\mathcal{D}].

  3. (c)

    𝔼[aX+bY|𝒟]=a𝔼[X|𝒟]+b𝔼[Y|𝒟]\mathbb{E}[aX+bY|\mathcal{D}]=a\,\mathbb{E}[X|\mathcal{D}]+b\,\mathbb{E}[Y|% \mathcal{D}].

Demonstração.

A prova é baseada no fato de que essas mesmas propriedades valem quando condicionamos a um evento DD fixo. Com efeito, 𝔼[a|𝒟]=k𝔼[a|Dk]𝟙Dk=ak𝟙Dk=a\mathbb{E}[a|\mathcal{D}]=\sum_{k}\mathbb{E}[a|D_{k}]\mathds{1}_{D_{k}}=a\sum_% {k}\mathds{1}_{D_{k}}=a, 𝔼[aX+bY|𝒟]=k𝔼[aX+bY|Dk]𝟙Dk=ak𝔼[X|Dk]𝟙Dk+bk𝔼[Y|Dk]𝟙Dk=a𝔼[X|𝒟]+b𝔼[Y|𝒟]\mathbb{E}[aX+bY|\mathcal{D}]=\sum_{k}\mathbb{E}[aX+bY|D_{k}]\mathds{1}_{D_{k}% }=a\sum_{k}\mathbb{E}[X|D_{k}]\mathds{1}_{D_{k}}+b\sum_{k}\mathbb{E}[Y|D_{k}]% \mathds{1}_{D_{k}}=a\,\mathbb{E}[X|\mathcal{D}]+b\,\mathbb{E}[Y|\mathcal{D}] e, se XYX\leqslant Y, vale 𝔼[X|𝒟]=k𝔼[X|Dk]𝟙Dkk𝔼[Y|Dk]𝟙Dk=𝔼[Y|𝒟]\mathbb{E}[X|\mathcal{D}]=\sum_{k}\mathbb{E}[X|D_{k}]\mathds{1}_{D_{k}}% \leqslant\sum_{k}\mathbb{E}[Y|D_{k}]\mathds{1}_{D_{k}}=\mathbb{E}[Y|\mathcal{D}]. ∎

Teorema 11.5 (Esperança iterada).

Sejam XX uma variável aleatória simples e 𝒟\mathcal{D} uma partição finita. Então

𝔼X=𝔼[𝔼[X|𝒟]].\mathbb{E}X=\mathbb{E}\left[\mathclap{\phantom{\big{|}}}\mathbb{E}[X|\mathcal{% D}]\right].
Demonstração.

Expandindo a definição de 𝔼[X|𝒟]\mathbb{E}[X|\mathcal{D}], obtemos

𝔼[𝔼[X|𝒟]]\displaystyle\mathbb{E}\left[\mathbb{E}[X|\mathcal{D}]\right] =𝔼[k𝔼[X|Dk] 1Dk]=k𝔼[X|Dk](Dk)\displaystyle=\textstyle\mathbb{E}\left[\sum_{k}\mathbb{E}[X|D_{k}]\,\mathds{1% }_{D_{k}}\right]=\sum_{k}\mathbb{E}[X|D_{k}]\,\mathbb{P}(D_{k})
=k𝔼[X𝟙Dk]=𝔼[Xk𝟙Dk]=𝔼X,\displaystyle=\textstyle\sum_{k}\mathbb{E}[X\cdot\mathds{1}_{D_{k}}]=\mathbb{E% }[X\cdot\sum_{k}\mathds{1}_{D_{k}}]=\mathbb{E}X,

sendo que a terceira igualdade segue da Proposição 5.54. ∎

Exemplo 11.6.

No lançamento do dado considerado no Exemplo 11.3,

𝔼X=𝔼[𝔼[X|𝒟]]=124+123=72.\mathbb{E}X=\mathbb{E}\big{[}\mathbb{E}[X|\mathcal{D}]\big{]}=\frac{1}{2}4+% \frac{1}{2}3=\frac{7}{2}.\qed
Definição 11.7.

Seja 𝒟={D1,,Dm}\mathcal{D}=\{D_{1},\dots,D_{m}\} uma partição finita e XX uma variável aleatória simples. Dizemos que XX é 𝒟\mathcal{D}-mensurável se existem números x1,,xmx_{1},\dots,x_{m}, não necessariamente distintos, tais que

X=kxk𝟙Dk.X=\sum_{k}x_{k}\mathds{1}_{D_{k}}.

A equação acima diz que XX é constante nos eventos de 𝒟\mathcal{D}, o que também interpretamos como que a informação sobre 𝒟\mathcal{D} determina o valor de XX.

Observe que 𝔼[X|𝒟]\mathbb{E}[X|\mathcal{D}] sempre é 𝒟\mathcal{D}-mensurável.

O teorema a seguir diz que, se uma dada variável aleatória é 𝒟\mathcal{D}-mensurável, então ela sai da esperança condicional como se fosse uma constante.

Teorema 11.8.

Sejam XX e YY variáveis aleatórias simples e 𝒟\mathcal{D} uma partição finita. Se YY é 𝒟\mathcal{D}-mensurável, então

𝔼[XY|𝒟]=Y𝔼[X|𝒟]\mathbb{E}[XY|\mathcal{D}]=Y\cdot\mathbb{E}[X|\mathcal{D}]

e, em particular, 𝔼[Y|𝒟]=Y\mathbb{E}[Y|\mathcal{D}]=Y.

Demonstração.

Escrevendo Y=jyj𝟙DjY=\sum_{j}y_{j}\mathds{1}_{D_{j}}, para cada jj fixado, vale a identidade

𝔼[XY|Dj]=𝔼[yjX|Dj]=yj𝔼[X|Dj],\mathbb{E}[XY|D_{j}]=\mathbb{E}[y_{j}X|D_{j}]=y_{j}\mathbb{E}[X|D_{j}],

donde 𝔼[XY|𝒟]=Y𝔼[X|𝒟]\mathbb{E}[XY|\mathcal{D}]=Y\cdot\mathbb{E}[X|\mathcal{D}] para todo ωDj\omega\in D_{j}. Como isso vale para todo jj, vale a identidade para todo ωΩ\omega\in\Omega. ∎

Observação 11.9 (Melhor aproximação na média quadrática).

Vejamos que 𝔼[X|𝒟]\mathbb{E}[X|\mathcal{D}] é a melhor aproximação 𝒟\mathcal{D}-mensurável para XX, no sentido de que, dentre todas as variáveis aleatórias ZZ que são 𝒟\mathcal{D}-mensuráveis, é a que minimiza o erro quadrático médio 𝔼|ZX|2\mathbb{E}|Z-X|^{2}. Com efeito, tomando W=𝔼[X|𝒟]W=\mathbb{E}[X|\mathcal{D}], mostraremos que 𝔼|XW|2𝔼|XZ|2\mathbb{E}|X-W|^{2}\leqslant\mathbb{E}|X-Z|^{2} para toda variável ZZ, 𝒟\mathcal{D}-mensurável. Expandindo e usando o Teorema 11.8 duas vezes,

𝔼[(XZ)2|𝒟]𝔼[(XW)2|𝒟]𝔼[(ZW)2|𝒟]\displaystyle\mathbb{E}[(X-Z)^{2}|\mathcal{D}]-\mathbb{E}[(X-W)^{2}|\mathcal{D% }]-\mathbb{E}[(Z-W)^{2}|\mathcal{D}]
=2𝔼[(XW)(WZ)|𝒟]\displaystyle=2\mathbb{E}[(X-W)(W-Z)\,|\,\mathcal{D}]
=2(WZ)(𝔼[X|𝒟]𝔼[W|𝒟])\displaystyle=2(W-Z)(\mathbb{E}[X|\mathcal{D}]-\mathbb{E}[W|\mathcal{D}])
=2(WZ)(𝔼[X|𝒟]W)=0,\displaystyle=2(W-Z)(\mathbb{E}[X|\mathcal{D}]-W)=0,

pois WZW-Z e WW são 𝒟\mathcal{D}-mensuráveis. Tomando esperança na equação acima,

𝔼(XZ)2=𝔼(XW)2+𝔼(ZW)2𝔼(XW)2.\mathbb{E}(X-Z)^{2}=\mathbb{E}(X-W)^{2}+\mathbb{E}(Z-W)^{2}\geqslant\mathbb{E}% (X-W)^{2}.\qed

Observamos que a esperança condicional 𝔼[X|𝒟]\mathbb{E}[X|\mathcal{D}] é a única variável aleatória 𝒟\mathcal{D}-mensurável tal que

𝔼[𝔼[X|𝒟]𝟙B]=𝔼[X𝟙B]\mathbb{E}[\mathbb{E}[X|\mathcal{D}]\mathds{1}_{B}]=\mathbb{E}[X\mathds{1}_{B}] (11.10)

para todo B𝒟B\in\mathcal{D}. A unicidade aqui é no sentido de que qualquer outra variável aleatória cumprindo essas duas condições tem que ser necessariamente igual a 𝔼[X|𝒟]\mathbb{E}[X|\mathcal{D}] exceto nos eventos de 𝒟\mathcal{D} que tenham probabilidade zero.

As principais propriedades da esperança condicional podem ser obtidas diretamente a partir desta caracterização de 𝔼[X|𝒟]\mathbb{E}[X|\mathcal{D}]. Veremos como essa definição alternativa ajuda na prova do teorema abaixo.

Dadas duas partições 𝒞\mathcal{C} e 𝒟\mathcal{D}, dizemos que 𝒟\mathcal{D} é mais fina que 𝒞\mathcal{C}, denotado por 𝒟𝒞\mathcal{D}\succcurlyeq\mathcal{C}, se para todo D𝒟D\in\mathcal{D} existe C𝒞C\in\mathcal{C} tal que DCD\subseteq C. Isso significa que 𝒟\mathcal{D} tem “mais informação” do que 𝒞\mathcal{C}, pois os eventos de 𝒟\mathcal{D} formam uma subdivisão dos eventos de 𝒞\mathcal{C}.

Teorema 11.11 (Esperança condicional iterada).

Sejam XX uma variável aleatória simples e 𝒞\mathcal{C} e 𝒟\mathcal{D} partições finitas de Ω\Omega. Se 𝒟𝒞\mathcal{D}\succcurlyeq\mathcal{C}, então

  1. (1)

    𝔼[𝔼[X|𝒞]|𝒟]=𝔼[X|𝒞]\mathbb{E}\left[\mathbb{E}[X|\,\mathcal{C}\,]\big{|}\mathcal{D}\,\right]=% \mathbb{E}[\,X|\,\mathcal{C}\,] quase certamente,

  2. (2)

    𝔼[𝔼[X|𝒟]|𝒞]=𝔼[X|𝒞]\mathbb{E}\left[\mathbb{E}[X|\mathcal{D}\,]\big{|}\,\mathcal{C}\,\right]=% \mathbb{E}[\,X|\,\mathcal{C}\,] quase certamente.

A propriedade acima é ilustrada na Figura 11.2.

Diagrama ilustrando a esperança condicional iterada.
Figura 11.2: Diagrama ilustrando a esperança condicional iterada.
Demonstração.

Para clarificar a notação, denotamos Y=𝔼[X|𝒟]Y=\mathbb{E}[X|\mathcal{D}] e Z=𝔼[X|𝒞]Z=\mathbb{E}[X|\mathcal{C}]. Para o item (1), como ZZ é 𝒞\mathcal{C}-mensurável e 𝒟𝒞\mathcal{D}\succcurlyeq\mathcal{C}, segue que ZZ é 𝒟\mathcal{D}-mensurável, donde 𝔼[Z|𝒟]=Z\mathbb{E}[Z|\mathcal{D}]=Z. Provemos agora o item (2). Seja A𝒞A\in\mathcal{C}. Pela definição de ZZ, temos 𝔼[Z𝟙A]=𝔼[X𝟙A].\mathbb{E}[Z\mathds{1}_{A}]=\mathbb{E}[X\mathds{1}_{A}]. Por outro lado, A=B1BkA=B_{1}\cup\dots\cup B_{k}, com B1,,Bk𝒟B_{1},\dots,B_{k}\in\mathcal{D} e, pela definição de YY, temos 𝔼[X𝟙Bj]=𝔼[Y𝟙Bj]\mathbb{E}[X\mathds{1}_{B_{j}}]=\mathbb{E}[Y\mathds{1}_{B_{j}}] para j=1,,kj=1,\dots,k. Somando sobre jj, obtemos 𝔼[X𝟙A]=𝔼[Y𝟙A].\mathbb{E}[X\mathds{1}_{A}]=\mathbb{E}[Y\mathds{1}_{A}]. Como ZZ é 𝒞\mathcal{C}-mensurável e 𝔼[Z𝟙A]=𝔼[Y𝟙A]\mathbb{E}[Z\mathds{1}_{A}]=\mathbb{E}[Y\mathds{1}_{A}] para todo A𝒞A\in\mathcal{C}, concluímos que Z=𝔼[Y|𝒞]Z=\mathbb{E}[Y|\mathcal{C}] q.c. pela observação acima. ∎