11.4 Esperança condicional dada uma σ\sigma-álgebra

Na Seção 11.1, mencionamos que partições mais finas que outras codificam uma situação em que se tem acesso a mais informação. Pensamos em “informação” como a coleção de eventos cuja ocorrência é acessível a um determinado observador. A forma mais geral de representar informação, quando tem-se acesso a infinitos eventos, é através de uma σ\sigma-álgebra. Sejam (Ω,,)(\Omega,\mathcal{F},\mathbb{P}) um espaço de probabilidade, XX uma variável aleatória e 𝒢\mathcal{G} uma σ\sigma-álgebra mais grosseira que \mathcal{F}, isto é, 𝒢\mathcal{G}\subseteq\mathcal{F}. Não há motivo algum para que XX seja também mensurável com respeito à σ\sigma-álgebra 𝒢\mathcal{G}. Em outras palavras, não há motivo para que a informação codificada por 𝒢\mathcal{G}, que é mais grosseira que \mathcal{F}, seja suficiente para determinar o valor de XX. Uma pergunta natural surge: qual seria a melhor variável aleatória 𝒢\mathcal{G}-mensurável que poderia aproximar XX em algum sentido? Reformulando a pergunta: qual a melhor aproximação para XX quando temos acesso à informação codificada por 𝒢\mathcal{G}? Nesta seção, daremos esta resposta. Trata-se de um conceito bastante abstrato, porém dos mais úteis e importantes em Probabilidade.

Teorema 11.39 (Esperança condicional dada uma σ\sigma-álgebra).

Sejam (Ω,,)(\Omega,\mathcal{F},\mathbb{P}) um espaço de probabilidade, XX uma variável aleatória estendida integrável ou não-negativa, e 𝒢\mathcal{G}\subseteq\mathcal{F} uma σ\sigma-álgebra. Então existe uma variável aleatória estendida ZZ que é 𝒢\mathcal{G}-mensurável e satisfaz

AZd=AXd para todo A𝒢.\int_{A}Z\,\mathrm{d}\mathbb{P}=\int_{A}X\,\mathrm{d}\mathbb{P}\quad\text{ % para todo }A\in\mathcal{G}. (11.40)

Dizemos que uma variável aleatória estendida com essas duas propriedades é uma esperança condicional de XX dado 𝒢\mathcal{G}, e a denotamos por 𝔼[X|𝒢]\mathbb{E}[X|\mathcal{G}].

A prova será dada na próxima seção.

Observação 11.41.

A esperança condicional é única no seguinte sentido. Se ZZ e WW são duas esperanças condicionais de XX dado 𝒢\mathcal{G}, então, pela Proposição 5.76, Z=WZ=W q.c. Como a condição (11.40) é insensível ao que acontece em conjuntos de medida nula, somente podemos esperar unicidade nesse sentido. Por isso, toda afirmação a respeito de 𝔼[X|𝒢]\mathbb{E}[X|\mathcal{G}] virá com um quantificador de que vale quase certamente. ∎

Observação 11.42.

Se XX é integrável, então 𝔼[X|𝒢]\mathbb{E}[X|\mathcal{G}] também é integrável e podemos supor que 𝔼[X|𝒢]\mathbb{E}[X|\mathcal{G}] é uma variável aleatória real (não assume valores infinitos). Se XX é não-negativa, pelo Exercício 5.64 podemos assumir que 𝔼[X|𝒢]\mathbb{E}[X|\mathcal{G}] assume valores em [0,+][0,+\infty]. ∎

Tomando A=ΩA=\Omega em (11.40), obtemos a propriedade da esperança iterada:

𝔼[𝔼[X|𝒢]]=𝔼X.\mathbb{E}[\mathbb{E}[X|\mathcal{G}]]=\mathbb{E}X.

Outra propriedade da esperança condicional é que, se XX é 𝒢\mathcal{G}-mensurável, então 𝔼[X|𝒢]=X\mathbb{E}[X|\mathcal{G}]=X q.c.

Uma vantagem da definição de esperança condicional de uma variável aleatória estendida XX dada uma σ\sigma-álgebra 𝒢\mathcal{G} é a sua generalidade, pois, como dissemos acima, σ\sigma-álgebras são a ferramenta ideal para codificar informação. Com efeito, os objetos definidos nas duas seções anteriores são casos particulares da definição abaixo, como será justificado na Seção 11.6. A esperança condicional dada uma partição também é um caso particular, o que segue de (11.10).

No restante desta seção, assumimos que (Ω,,)(\Omega,\mathcal{F},\mathbb{P}) é um espaço de probabilidade fixado.

Definição 11.43.

Dadas duas variáveis aleatórias estendidas XX e YY tais que XX é integrável ou não-negativa, definimos a esperança condicional de XX dada YY por

𝔼[X|Y]=𝔼[X|σ(Y)],\mathbb{E}[X|Y]=\mathbb{E}[X|\sigma(Y)],

ou seja, é a esperança condicional dada a σ\sigma-álgebra gerada por YY.

Teorema 11.44 (Propriedades da esperança condicional).

Sejam XX e YY variáveis aleatórias integráveis, 𝒢\mathcal{G}\subseteq\mathcal{F} uma σ\sigma-álgebra e a,b,ca,b,c\in\mathbb{R}. Então:

  1. (1)

    𝔼[c|𝒢]=c\mathbb{E}[c|\mathcal{G}]=c q.c.

  2. (2)

    Se XYX\leqslant Y q.c., então 𝔼[X|𝒢]𝔼[Y|𝒢]\mathbb{E}[X|\mathcal{G}]\leqslant\mathbb{E}[Y|\mathcal{G}] q.c.

  3. (3)

    𝔼[aX+bY|𝒢]=a𝔼[X|𝒢]+b𝔼[Y|𝒢]\mathbb{E}[aX+bY|\mathcal{G}]=a\,\mathbb{E}[X|\mathcal{G}]+b\,\mathbb{E}[Y|% \mathcal{G}] q.c.

Essas propriedades também valem para variáveis aleatórias estendidas não-negativas XX e YY com constantes a,b,c[0,+]a,b,c\in[0,+\infty].

Demonstração.

Para o item (1), observe que a variável constante X(ω)=cX(\omega)=c é 𝒢\mathcal{G}-mensurável e AXd=Acd\int_{A}X\,\mathrm{d}\mathbb{P}=\int_{A}c\,\mathrm{d}\mathbb{P} para todo A𝒢A\in\mathcal{G}.

Para o item (3), observe que

A(aX+bY)d\displaystyle\int_{A}(aX+bY)\,\mathrm{d}\mathbb{P} =aAXd+bAYd=aA𝔼[X|𝒢]d+bA𝔼[Y|𝒢]d\displaystyle=a\int_{A}X\,\mathrm{d}\mathbb{P}+b\int_{A}Y\,\mathrm{d}\mathbb{P% }=a\int_{A}\mathbb{E}[X|\mathcal{G}]\,\mathrm{d}\mathbb{P}+b\int_{A}\mathbb{E}% [Y|\mathcal{G}]\,\mathrm{d}\mathbb{P}
=A(a𝔼[X|𝒢]+b𝔼[Y|𝒢])d,\displaystyle=\int_{A}\Big{(}a\,\mathbb{E}[X|\mathcal{G}]+b\,\mathbb{E}[Y|% \mathcal{G}]\Big{)}\mathrm{d}\mathbb{P},

para todo A𝒢A\in\mathcal{G}, ou seja, 𝔼[aX+bY|𝒢]=a𝔼[X|𝒢]+b𝔼[Y|𝒢]\mathbb{E}[aX+bY|\mathcal{G}]=a\,\mathbb{E}[X|\mathcal{G}]+b\,\mathbb{E}[Y|% \mathcal{G}] q.c.

Para provar o item (2), suponha que XYX\leqslant Y q.c. Neste caso, podemos escrever Y=X+ZY=X+Z q.c., onde ZZ é não-negativa. Pelo Exercício 5.64, 𝔼[Z|𝒢]\mathbb{E}[Z|\mathcal{G}] é não-negativa q.c., e, pelo item (3), 𝔼[Y|𝒢]=𝔼[X|𝒢]+𝔼[Z|𝒢]𝔼[X|𝒢]\mathbb{E}[Y|\mathcal{G}]=\mathbb{E}[X|\mathcal{G}]+\mathbb{E}[Z|\mathcal{G}]% \geqslant\mathbb{E}[X|\mathcal{G}] q.c., concluindo a prova. ∎

O teorema seguinte nos diz que, se o valor de uma variável aleatória estendida é determinado pela informação codificada pela σ\sigma-álgebra em questão, então ela sai da esperança condicional como se fosse uma constante. O Teorema 11.8 é um caso particular.

Teorema 11.45.

Se YY é 𝒢\mathcal{G}-mensurável, 𝔼|X|<\mathbb{E}|X|<\infty e 𝔼|XY|<\mathbb{E}|XY|<\infty, então

𝔼[XY|𝒢]=Y𝔼[X|𝒢] q.c.\mathbb{E}[XY\big{|}\mathcal{G}]=Y\cdot\mathbb{E}[X\big{|}\mathcal{G}]\text{ q% .c.}

O mesmo vale se XX e YY são não-negativas.

Demonstração.

Consideramos primeiro o caso em que XX e YY são não-negativas. Seja A𝒢A\in\mathcal{G}. Tomando Y0=𝟙BY_{0}=\mathds{1}_{B} para algum B𝒢B\in\mathcal{G},

AXY0d=ABXd=AB𝔼[X|𝒢]d=AY0𝔼[X|𝒢]d.\int_{A}XY_{0}\,\mathrm{d}\mathbb{P}=\int_{A\cap B}X\,\mathrm{d}\mathbb{P}=% \int_{A\cap B}\mathbb{E}[X|\mathcal{G}]\,\mathrm{d}\mathbb{P}=\int_{A}Y_{0}% \cdot\mathbb{E}[X|\mathcal{G}]\,\mathrm{d}\mathbb{P}.

Por linearidade, se YnY_{n} é uma variável aleatória simples 𝒢\mathcal{G}-mensurável, vale

AXYnd=AYn𝔼[X|𝒢]d.\int_{A}XY_{n}\,\mathrm{d}\mathbb{P}=\int_{A}Y_{n}\cdot\mathbb{E}[X|\mathcal{G% }]\,\mathrm{d}\mathbb{P}.

Tomando 0YnY0\leqslant Y_{n}\uparrow Y, pelo Teorema da Convergência Monótona obtemos

AXYd=AY𝔼[X|𝒢]d,\int_{A}XY\,\mathrm{d}\mathbb{P}=\int_{A}Y\cdot\mathbb{E}[X|\mathcal{G}]\,% \mathrm{d}\mathbb{P},

o que conclui a prova já que Y𝔼[X|𝒢]Y\cdot\mathbb{E}[X|\mathcal{G}] é 𝒢\mathcal{G}-mensurável.

Consideramos agora o caso em que XX e XYXY são integráveis. Queremos mostrar que vale a identidade acima para todo A𝒢A\in\mathcal{G}. Escrevendo X=X+XX=X^{+}-X^{-} e Y=Y+YY=Y^{+}-Y^{-} e observando que 𝔼[X|𝒢]=𝔼[X+|𝒢]𝔼[X|𝒢]\mathbb{E}[X|\mathcal{G}]=\mathbb{E}[X^{+}|\mathcal{G}]-\mathbb{E}[X^{-}|% \mathcal{G}], é suficiente mostrar que

AX±Y±d=AY±𝔼[X±|𝒢]d,\int_{A}X^{\pm}Y^{\pm}\,\mathrm{d}\mathbb{P}=\int_{A}Y^{\pm}\cdot\mathbb{E}[X^% {\pm}|\mathcal{G}]\,\mathrm{d}\mathbb{P},

mas isso segue diretamente do caso anterior. ∎

O teorema seguinte generaliza o Teorema 11.11.

Teorema 11.46 (Esperança condicional iterada).

Seja \mathcal{H} uma σ\sigma-álgebra tal que 𝒢\mathcal{H}\subseteq\mathcal{G}\subseteq\mathcal{F}, e XX uma variável aleatória estendida integrável ou não-negativa. Então valem as seguintes identidades:

  1. (1)

    𝔼[𝔼[X|]|𝒢]=𝔼[X|]\mathbb{E}\left[\mathbb{E}[X|\mathcal{H}]\big{|}\mathcal{G}\right]=\mathbb{E}% \left[X\big{|}\mathcal{H}\right] q.c.

  2. (2)

    𝔼[𝔼[X|𝒢]|]=𝔼[X|]\mathbb{E}\left[\mathbb{E}[X|\mathcal{G}]\big{|}\mathcal{H}\right]=\mathbb{E}% \left[X\big{|}\mathcal{H}\right] q.c.

Uma interpretação visual do teorema acima no caso de σ\sigma-álgebras geradas por finitos eventos é dada na Figura 11.2.

Demonstração.

Para clarificar, escrevemos Y=𝔼[X|𝒢]Y=\mathbb{E}[X|\mathcal{G}] e Z=𝔼[X|]Z=\mathbb{E}[X|\mathcal{H}]. Para a primeira igualdade, basta observar que ZZ é 𝒢\mathcal{G}-mensurável, donde 𝔼[Z|𝒢]=Z\mathbb{E}[Z|\mathcal{G}]=Z q.c. Provemos agora a segunda igualdade. Seja AA\in\mathcal{H}. Pela definição de ZZ, temos AZd=AXd.\int_{A}Z\,\mathrm{d}\mathbb{P}=\int_{A}X\,\mathrm{d}\mathbb{P}. Por outro lado, como A𝒢A\in\mathcal{G}, pela definição de YY temos AXd=AYd.\int_{A}X\,\mathrm{d}\mathbb{P}=\int_{A}Y\,\mathrm{d}\mathbb{P}. Como ZZ é \mathcal{H}-mensurável e AZd=AYd\int_{A}Z\,\mathrm{d}\mathbb{P}=\int_{A}Y\,\mathrm{d}\mathbb{P} para todo AA\in\mathcal{H}, concluímos que Z=𝔼[Y|]Z=\mathbb{E}[Y|\mathcal{H}] q.c. ∎

Definição 11.47.

Dizemos que uma variável aleatória estendida XX é independente da σ\sigma-álgebra 𝒢\mathcal{G} se {Xa}\{X\leqslant a\} e AA são independentes para todos aa\in\mathbb{R} e A𝒢A\in\mathcal{G}.

Proposição 11.48.

Se XX é é uma variável aleatória estendida integrável ou não-negativa, e XX é independente de 𝒢\mathcal{G}, então 𝔼[X|𝒢]=𝔼X\mathbb{E}[X|\mathcal{G}]=\mathbb{E}X q.c.

Demonstração.

Pela independência de XX e 𝒢\mathcal{G}, temos, para todo A𝒢A\in\mathcal{G},

AXd=𝔼[X𝟙A]=𝔼X𝔼[𝟙A]=A(𝔼X)d\int_{A}X\,\mathrm{d}\mathbb{P}=\mathbb{E}[X\mathds{1}_{A}]=\mathbb{E}X\cdot% \mathbb{E}[\mathds{1}_{A}]=\int_{A}(\mathbb{E}X)\,\mathrm{d}\mathbb{P}

e, sendo constante, 𝔼X\mathbb{E}X é 𝒢\mathcal{G}-mensurável, o que conclui a prova. ∎

Os teoremas de convergência da integral, vistos na Seção 5.5, também têm seus análogos no contexto de esperança condicional. Nos três teoremas abaixo, (Xn)n(X_{n})_{n}, XX e YY denotam variáveis aleatórias definidas num mesmo espaço de probabilidade.

Teorema 11.49 (Convergência Monótona).

Sejam (Xn)n(X_{n})_{n} e XX variáveis aleatórias estendidas não-negativas tais que 0XnX0\leqslant X_{n}\uparrow X q.c. Seja 𝒢\mathcal{G}\subseteq\mathcal{F} uma σ\sigma-álgebra. Então 𝔼[Xn|𝒢]𝔼[X|𝒢]\mathbb{E}[X_{n}|\mathcal{G}]\to\mathbb{E}[X|\mathcal{G}] q.c.

Demonstração.

Tome Y=lim supn𝔼[Xn|𝒢]Y=\limsup_{n}\mathbb{E}[X_{n}|\mathcal{G}], que é 𝒢\mathcal{G}-mensurável. Como 0𝔼[Xn|𝒢]𝔼[Xn+1|𝒢]0\leqslant\mathbb{E}[X_{n}|\mathcal{G}]\leqslant\mathbb{E}[X_{n+1}|\mathcal{G}] q.c., segue que 0𝔼[Xn|𝒢]Y0\leqslant\mathbb{E}[X_{n}|\mathcal{G}]\uparrow Y q.c. Para A𝒢A\in\mathcal{G},

AXnd=A𝔼[Xn|𝒢]d\int_{A}X_{n}\,\mathrm{d}\mathbb{P}=\int_{A}\mathbb{E}[X_{n}|\mathcal{G}]\,% \mathrm{d}\mathbb{P}

e, aplicando o Teorema da Convergência Monótona em ambos os lados,

AXd=AYd,\int_{A}X\mathrm{d}\mathbb{P}=\int_{A}Y\mathrm{d}\mathbb{P},

donde 𝔼[X|𝒢]=Y\mathbb{E}[X|\mathcal{G}]=Y q.c. ∎

Teorema 11.50 (Lema de Fatou).

Sejam (Xn)n(X_{n})_{n} uma sequência de variáveis aleatórias estendidas não-negativas e uma σ\sigma-álgebra 𝒢\mathcal{G}\subseteq\mathcal{F}. Então 𝔼[lim infnXn|𝒢]lim infn𝔼[Xn|𝒢]\mathbb{E}[\liminf_{n}X_{n}|\mathcal{G}]\leqslant\liminf_{n}\mathbb{E}[X_{n}|% \mathcal{G}] q.c.

A demonstração é análoga à do Teorema 5.69, trocando-se Ωdμ\int_{\Omega}\cdot\,\mathrm{d}\mu por 𝔼[|𝒢]\mathbb{E}[\cdot|\mathcal{G}].

Teorema 11.51 (Convergência Dominada).

Sejam (Xn)n(X_{n})_{n}, XX e YY variáveis aleatórias estendidas e uma σ\sigma-álgebra 𝒢\mathcal{G}\subseteq\mathcal{F}. Se XnXX_{n}\to X q.c. e |Xn|<Y|X_{n}|<Y q.c. para alguma YY integrável, então 𝔼[Xn|𝒢]𝔼[X|𝒢]\mathbb{E}[X_{n}|\mathcal{G}]\to\mathbb{E}[X|\mathcal{G}] q.c.

A demonstração é análoga à do Teorema 5.70, trocando-se Ωdμ\int_{\Omega}\cdot\,\mathrm{d}\mu por 𝔼[|𝒢]\mathbb{E}[\cdot|\mathcal{G}].

Teorema 11.52 (Desigualdade de Jensen).

Sejam 𝒢\mathcal{G}\subseteq\mathcal{F} uma σ\sigma-álgebra, II um intervalo aberto, g:Ig:I\to\mathbb{R} uma função convexa, e XX uma variável aleatória que assume valores em II. Suponha que XX e g(X)g(X) sejam integráveis. Então

g(𝔼[X|𝒢])𝔼[g(X)|𝒢].g(\mathbb{E}[X|\mathcal{G}])\leqslant\mathbb{E}[g(X)|\mathcal{G}].
Demonstração.

A prova é análoga à demonstração do Teorema 6.23, porém há que se contornar algumas complicações técnicas. Para cada zIz\in I fixo, existe c=c(z)c=c(z)\in\mathbb{R} tal que g(x)g(z)+c(z)(xz)g(x)\geqslant g(z)+c(z)\cdot(x-z) para todo xIx\in I. Como a função que leva zz em c(z)c(z) é não-decrescente, também é mensurável.

Suponhamos inicialmente que essa função cc seja limitada. Tomando Z=𝔼[X|𝒢]Z=\mathbb{E}[X|\mathcal{G}], e observando que ZZ e g(Z)g(Z) são 𝒢\mathcal{G}-mensuráveis, pelo Teorema 11.45

𝔼[g(X)|𝒢]\displaystyle\mathbb{E}[g(X)|\mathcal{G}] 𝔼[g(Z)+c(Z)(XZ)|𝒢]=\displaystyle\geqslant\mathbb{E}\big{[}g(Z)+c(Z)\cdot(X-Z)\big{|}\mathcal{G}% \big{]}=
=g(Z)+c(Z)𝔼[X|𝒢]c(Z)Z=g(Z),\displaystyle\qquad=g(Z)+c(Z)\cdot\mathbb{E}[X|\mathcal{G}]-c(Z)\cdot Z=g(Z),

onde a primeira igualdade acima é devida ao Teorema 11.45.

Consideremos agora o caso geral. Somando uma constante a XX, podemos supor que 0I0\in I. Subtraindo c(0)xc(0)\cdot x, podemos supor que g(x)0g(x)\geqslant 0 para todo xIx\in I. Tome [an,bn]I[a_{n},b_{n}]\uparrow I com an<0<bna_{n}<0<b_{n}. Para cada nn fixo, definimos gn(x)=g(x)g_{n}(x)=g(x) para x[an,bn]x\in[a_{n},b_{n}], gn(x)=g(bn)+c(bn)(xbn)g_{n}(x)=g(b_{n})+c(b_{n})\cdot(x-b_{n}) para xbnx\geqslant b_{n} e gn(x)=g(an)+c(an)(xan)g_{n}(x)=g(a_{n})+c(a_{n})\cdot(x-a_{n}) para xanx\leqslant a_{n}. Observe que as funções gng_{n} são convexas, não-negativas, e satisfazem gngg_{n}\uparrow g. Ademais, suas respectivas cnc_{n} são limitadas a [c(an),c(bn)][c(a_{n}),c(b_{n})], donde 𝔼[gn(X)|𝒢]gn(𝔼[X|𝒢])\mathbb{E}[g_{n}(X)|\mathcal{G}]\geqslant g_{n}(\mathbb{E}[X|\mathcal{G}]). Como gn(𝔼[X|𝒢])g(𝔼[X|𝒢])g_{n}(\mathbb{E}[X|\mathcal{G}])\uparrow g(\mathbb{E}[X|\mathcal{G}]), pelo Teorema da Convergência Monótona, 𝔼[gn(X)|𝒢]𝔼[g(X)|𝒢]\mathbb{E}[g_{n}(X)|\mathcal{G}]\uparrow\mathbb{E}[g(X)|\mathcal{G}], concluímos que 𝔼[g(X)|𝒢]g(𝔼[X|𝒢])\mathbb{E}[g(X)|\mathcal{G}]\geqslant g(\mathbb{E}[X|\mathcal{G}]). ∎

Teorema 11.53 (Contração em p\mathcal{L}^{p}).

Se p1p\geqslant 1 e |X|p|X|^{p} é integrável, então

𝔼[|𝔼[X|𝒢]|p]𝔼[|X|p].\mathbb{E}\big{[}\,\big{|}\mathbb{E}[X|\mathcal{G}]\big{|}^{p}\,\big{]}% \leqslant\mathbb{E}\big{[}\,|X|^{p}\,\big{]}.
Demonstração.

Primeiro, XX é integrável pois |x|1+|x|p|x|\leqslant 1+|x|^{p} para todo xx\in\mathbb{R}. Pela desigualdade de Jensen, |𝔼[X|𝒢]|p𝔼[|X|p|𝒢]\big{|}\mathbb{E}[X|\mathcal{G}]\big{|}^{p}\leqslant\mathbb{E}\big{[}|X|^{p}% \big{|}\mathcal{G}\big{]} pois g(x)=|x|pg(x)=|x|^{p} é convexa. Tomando esperança iterada, segue a desigualdade desejada. ∎