6.3 Desigualdades básicas

Nesta seção, provaremos uma série de desigualdades de fundamental importância, que fornecem estimativas para probabilidades de eventos ou momentos de variáveis aleatórias.

O primeiro teorema é emblemático, a simplicidade de sua prova contrasta com sua enorme aplicabilidade, como veremos ao longo deste livro. Repare que começamos a utilizar esperança e momentos para estimar probabilidades.

Teorema 6.19 (Desigualdade de Markov).

Sejam XX uma variável aleatória, λ>0\lambda>0 e t>0t>0. Então

(|X|λ)𝔼|X|tλt.\mathbb{P}(\left|X\right|\geqslant\lambda)\leqslant\frac{\mathbb{E}\left|X% \right|^{t}}{\lambda^{t}}\text{.}
Demonstração.

Como |X|tλt𝟙{|X|tλt}|X|^{t}\geqslant\lambda^{t}\cdot\mathds{1}_{\{|X|^{t}\geqslant\lambda^{t}\}}, segue que 𝔼|X|tλt(|X|tλt)\mathbb{E}|X|^{t}\geqslant\lambda^{t}\cdot\mathbb{P}(|X|^{t}\geqslant\lambda^{% t}). Portanto, (|X|λ)=(|X|tλt)𝔼|X|tλt.\mathbb{P}(|X|\geqslant\lambda)=\mathbb{P}(|X|^{t}\geqslant\lambda^{t})% \leqslant\frac{\mathbb{E}|X|^{t}}{\lambda^{t}}.

Teorema 6.20 (Desigualdade de Tchebyshev).

Seja XX uma variável aleatória integrável e seja λ>0\lambda>0 uma constante. Então

(|X𝔼X|λ)𝕍Xλ2.\mathbb{P}\big{(}|X-\mathbb{E}X|\geqslant\lambda\big{)}\leqslant\frac{\mathbb{% V}X}{\lambda^{2}}.
Demonstração.

Aplicamos a Desigualdade de Markov a X𝔼XX-\mathbb{E}X com t=2t=2:

(|X𝔼X|λ)𝔼[(X𝔼X)2]λ2=𝕍Xλ2.\mathbb{P}\big{(}|X-\mathbb{E}X|\geqslant\lambda\big{)}\leqslant\frac{\mathbb{% E}[(X-\mathbb{E}X)^{2}]}{\lambda^{2}}=\frac{\mathbb{V}X}{\lambda^{2}}.\qed
Exemplo 6.21.

Estimar a probabilidade de uma variável aleatória XX não diferir de sua média μ\mu por mais que duas vezes o valor do seu desvio-padrão σ\sigma. Usando a Desigualdade de Tchebyshev,

(μ2σ<X<μ+2σ)\displaystyle\mathbb{P}(\mu-2\sigma<X<\mu+2\sigma) =1(|X𝔼X|2σ)\displaystyle=1-\mathbb{P}\big{(}|X-\mathbb{E}X|\geqslant 2\sigma)
1𝕍X(2σ)2=1σ24σ2=34.\displaystyle\geqslant 1-\frac{\mathbb{V}X}{(2\sigma)^{2}}=1-\frac{\sigma^{2}}% {4\sigma^{2}}=\frac{3}{4}.\qed

Veremos agora uma desigualdade muito útil, que diz respeito a funções convexas. Dado um intervalo aberto II\subseteq\mathbb{R}, dizemos que g:Ig:I\to\mathbb{R} é uma função convexa se

g(ax+by)ag(x)+bg(y)g(ax+by)\leqslant ag(x)+bg(y)

para quaisquer x,yIx,y\in I e a,b[0,1]a,b\in[0,1] com a+b=1a+b=1. Essa condição de convexidade pode ser reescrita da seguinte maneira: para todos x<z<yx<z<y em II, vale

g(z)g(x)zxg(y)g(z)yz.\frac{g(z)-g(x)}{z-x}\leqslant\frac{g(y)-g(z)}{y-z}. (6.22)

Podemos obter outras caracterizações de convexidade explorando a possível diferenciabilidade de gg. Se gg^{\prime} existe e é não-decrescente em todo II, então pelo Teorema do Valor Médio gg satisfaz (6.22) e portanto é convexa. Em particular, se g′′g^{\prime\prime} existe e é não-negativa em todo II, então gg é convexa. São convexas em \mathbb{R} as funções g(x)=xg(x)=x, g(x)=exg(x)=e^{x} e g(x)=|x|pg(x)=|x|^{p} com p1p\geqslant 1. As funções g(x)=x1g(x)=x^{-1}, g(x)=xg(x)=-\sqrt{x} e g(x)=logxg(x)=-\log x são convexas em (0,+)(0,+\infty).

Teorema 6.23 (Desigualdade de Jensen).

Seja II\subseteq\mathbb{R} um intervalo aberto, g:Ig:I\to\mathbb{R} uma função convexa, e XX uma variável aleatória integrável assumindo valores em II. Então 𝔼[g(X)]\mathbb{E}[g(X)] está definida e

𝔼[g(X)]g(𝔼X).\mathbb{E}[g(X)]\geqslant g(\mathbb{E}X).

Observamos que o teorema acima não exclui a possibilidade de 𝔼[g(x)]=+\mathbb{E}[g(x)]=+\infty.

Demonstração.

A prova é ilustrada na Figura 6.2.

Prova da desigualdade de Jensen.
Figura 6.2: Prova da desigualdade de Jensen.

Preliminarmente, afirmamos que, para cada zIz\in I fixo, existe cc\in\mathbb{R} tal que

g(w)g(z)+c(wz)g(w)\geqslant g(z)+c(w-z)

para todo wIw\in I (caso gg seja diferenciável, podemos tomar c=g(z)c=g^{\prime}(z) e estamos falando que o gráfico de gg está acima de suas retas tangentes). Com efeito, considerando os possíveis valores dos lados esquerdo e direito de (6.22) e usando o Teorema A.1, obtemos cc\in\mathbb{R} tal que g(z)g(x)zxcg(y)g(z)yz\frac{g(z)-g(x)}{z-x}\leqslant c\leqslant\frac{g(y)-g(z)}{y-z} para todo x<zx<z e todo y>zy>z, provando a afirmação.

Finalmente, tomando z=𝔼Xz=\mathbb{E}X e usando XX no lugar de ww, obtemos

𝔼[g(X)]𝔼[g(𝔼X)+c(X𝔼X)]=g(𝔼X)+c𝔼Xc𝔼X=g(𝔼X),\mathbb{E}[g(X)]\geqslant\mathbb{E}\big{[}g(\mathbb{E}X)+c(X-\mathbb{E}X)\big{% ]}=g(\mathbb{E}X)+c\,\mathbb{E}X-c\,\mathbb{E}X=g(\mathbb{E}X),

o que conclui a demonstração. ∎

Vejamos alguns exemplos comuns de uso da Desigualdade de Jensen.

Exemplo 6.24.

Se XX é integrável e p1p\geqslant 1, então

𝔼|X|p(𝔼|X|)p|𝔼X|p e 𝔼[eX]e𝔼X.\mathbb{E}\left|X\right|^{p}\geqslant\left(\mathbb{E}\left|X\right|\right)^{p}% \geqslant\left|\mathbb{E}X\right|^{p}\quad\text{ e }\quad\mathbb{E}[e^{X}]% \geqslant e^{\mathbb{E}X}.

Se XX é integrável e positiva, então

𝔼[1X]1𝔼X e 𝔼[logX]log(𝔼X).\mathbb{E}[\tfrac{1}{X}]\geqslant\tfrac{1}{\mathbb{E}X}\quad\text{ e }\quad% \mathbb{E}[\log X]\leqslant\log(\mathbb{E}X).

Com efeito, a primeira desigualdade é obtida usando-se a desigualdade de Jensen com |X||X| no lugar de XX e g(x)=|x|pg(x)=|x|^{p}, a segunda usa g(x)=|x|g(x)=|x|, e as outras são imediatas da Desigualdade de Jensen. ∎

O próximo teorema é uma importante aplicação da Desigualdade de Jensen.

Teorema 6.25 (Desigualdade de Lyapunov).

Sejam XX uma variável aleatória e 0<qp0<q\leqslant p. Então

(𝔼|X|q)1q(𝔼|X|p)1p.\big{(}\mathbb{E}|X|^{q}\big{)}^{\frac{1}{q}}\leqslant\big{(}\mathbb{E}|X|^{p}% \big{)}^{\frac{1}{p}}.
Demonstração.

Se 𝔼|X|p=+\mathbb{E}|X|^{p}=+\infty a desigualdade vale trivialmente. Suponha que 𝔼|X|p<\mathbb{E}|X|^{p}<\infty. Como |x|q1+|x|p|x|^{q}\leqslant 1+|x|^{p}, segue que |X|q|X|^{q} é integrável.

Observando que a função g(x)=|x|p/qg(x)=|x|^{p/q} é convexa, temos pela Desigualdade de Jensen que (𝔼|X|p)=𝔼[(|X|q)p/q](𝔼|X|q)p/q(\mathbb{E}|X|^{p})=\mathbb{E}[(|X|^{q})^{p/q}]\geqslant(\mathbb{E}|X|^{q})^{p% /q}. Elevando todos os termos a 1/p1/p, obtemos a desigualdade desejada. ∎

Terminamos esta seção com a Desigualdade de Cauchy-Schwarz e uma de suas principais aplicações, a Desigualdade de Paley-Zygmund. Apesar de fundamentais em diversas aplicações, essas desigualdades não serão usadas no restante deste livro e podem ser omitidas em um curso introdutório.

Teorema 6.26 (Desigualdade de Cauchy-Schwarz).

Se XX e YY têm segundo momento finito, então XYXY é integrável e

𝔼[XY]𝔼X2𝔼Y2.\mathbb{E}[XY]\leqslant\sqrt{\mathbb{E}X^{2}}\,\sqrt{\mathbb{E}Y^{2}}.

Ainda, se 𝔼[XY]=𝔼X2𝔼Y2\mathbb{E}[XY]=\sqrt{\mathbb{E}X^{2}}\,\sqrt{\mathbb{E}Y^{2}}, então existe c0c\geqslant 0 tal que (Y=cX)=1\mathbb{P}(Y=cX)=1, ou então (X=0)=1\mathbb{P}(X=0)=1.

Demonstração.

Primeiro veja que XYXY é integrável porque |XY|X2+Y2|XY|\leqslant X^{2}+Y^{2}. Sejam a=𝔼X2a=\sqrt{\mathbb{E}X^{2}} e b=𝔼Y2b=\sqrt{\mathbb{E}Y^{2}}. Se a=0a=0 ou b=0b=0, o teorema vale trivialmente. Assumimos então que 0<a<0<a<\infty e 0<b<0<b<\infty. Observamos que

0𝔼(XaYb)2=𝔼(X2a22XYab+Y2b2)=22𝔼[XY]ab,0\leqslant\mathbb{E}\left(\frac{X}{a}-\frac{Y}{b}\right)^{2}=\mathbb{E}\left(% \frac{X^{2}}{a^{2}}-2\frac{XY}{ab}+\frac{Y^{2}}{b^{2}}\right)=2-\frac{2\,% \mathbb{E}[XY]}{ab},

donde

𝔼[XY]ab=𝔼X2𝔼Y2.\mathbb{E}[XY]\leqslant ab=\sqrt{\mathbb{E}X^{2}}\,\sqrt{\mathbb{E}Y^{2}}.

Se 𝔼[XY]=ab\mathbb{E}[XY]=ab, vale a igualdade na equação acima, donde 𝔼(XaYb)2=0,\mathbb{E}\left(\frac{X}{a}-\frac{Y}{b}\right)^{2}=0, logo (XaYb=0)=1\mathbb{P}(\frac{X}{a}-\frac{Y}{b}=0)=1 e portanto (Y=cX)=1\mathbb{P}(Y=cX)=1 com c=bac=\frac{b}{a}. ∎

Munidos dessa desigualdade, podemos finalmente provar a Proposição 6.18.

Demonstração da Proposição 6.18.

Sejam X~\tilde{X} e Y~\tilde{Y} as padronizações de XX e YY, respectivamente. Então,

ρ(X,Y)=𝐂𝐨𝐯(X~,Y~)=𝔼[X~Y~]𝔼X~2𝔼Y~2=1,\rho(X,Y)=\mathop{\mathbf{Cov}}\nolimits(\tilde{X},\tilde{Y})=\mathbb{E}[% \tilde{X}\tilde{Y}]\leqslant\sqrt{\mathbb{E}\tilde{X}^{2}}\,\sqrt{\mathbb{E}% \tilde{Y}^{2}}=1,

onde a última desigualdade é a Desigualdade de Cauchy-Schwarz. Suponha que ρ(X,Y)=1\rho(X,Y)=1. Neste caso, vale a igualdade na equação acima. Pela recíproca da Desigualdade de Cauchy-Schwarz, X~=0\tilde{X}=0 q.c. ou Y~=cX~\tilde{Y}=c\tilde{X} q.c. com c0c\geqslant 0. Por outro lado, como 𝕍X~=𝕍Y~=1\mathbb{V}\tilde{X}=\mathbb{V}\tilde{Y}=1, segue que Y~=X~\tilde{Y}=\tilde{X} q.c. e, portanto, Y=aX+bY=aX+b q.c. com algum a>0a>0 e bb\in\mathbb{R}. Reciprocamente, se Y=aX+bY=aX+b q.c. com algum a>0a>0 e bb\in\mathbb{R}, então Y~=X~\tilde{Y}=\tilde{X} q.c., donde ρ(X,Y)=1\rho(X,Y)=1. Repetindo-se o mesmo argumento com X-X no lugar de XX, obtemos que ρ(X,Y)1\rho(X,Y)\geqslant-1 valendo a igualdade se, e somente se, Y=aX+bY=aX+b q.c. com algum a<0a<0 e bb\in\mathbb{R}. ∎

Exemplo 6.27.

Sejam X=𝟙AX=\mathds{1}_{A} e Y=𝟙BY=\mathds{1}_{B} variáveis aleatórias de Bernoulli com parâmetro pp, onde AA e BB são eventos independentes. Então,

𝔼[XY]=𝔼[𝟙A𝟙B]=𝔼[𝟙AB]=(AB)=(A)(B)=p2.\mathbb{E}[XY]=\mathbb{E}[\mathds{1}_{A}\mathds{1}_{B}]=\mathbb{E}[\mathds{1}_% {A\cap B}]=\mathbb{P}(A\cap B)=\mathbb{P}(A)\mathbb{P}(B)=p^{2}.

Por outro lado,

𝔼X2𝔼Y2=𝔼X𝔼Y=p.\sqrt{\mathbb{E}X^{2}}\,\sqrt{\mathbb{E}Y^{2}}=\sqrt{\mathbb{E}X}\,\sqrt{% \mathbb{E}Y}=p.

Como p2pp^{2}\leqslant p, a Desigualdade de Cauchy-Schwarz é satisfeita, valendo a igualdade nos casos extremos p=0p=0 e p=1p=1. ∎

As desigualdades a seguir cotam as probabilidades de uma variável aleatória ser grande ou pequena em função dos seus dois primeiros momentos. Elas são também conhecidas como método do primeiro e segundo momentos.

Teorema 6.28.

Seja NN uma variável aleatória assumindo valores inteiros e não-negativos. Então,

(N>0)𝔼N.\mathbb{P}\big{(}N>0\big{)}\leqslant\mathbb{E}N.
Demonstração.

Como {N>0}={N1}\{N>0\}=\{N\geqslant 1\}, aplicando a Desigualdade de Markov, obtemos (N>0)=(N1)𝔼N\mathbb{P}(N>0)=\mathbb{P}(N\geqslant 1)\leqslant\mathbb{E}N. ∎

Teorema 6.29 (Desigualdade de Paley-Zygmund).

Seja XX uma variável aleatória não-negativa com segundo momento finito. Para todo 0a<10\leqslant a<1 vale

(X>a𝔼X)(1a)2(𝔼X)2𝔼X2.\mathbb{P}\big{(}X>a\,\mathbb{E}X\big{)}\geqslant(1-a)^{2}\frac{(\mathbb{E}X)^% {2}}{\mathbb{E}X^{2}}.
Demonstração.

Basta escrever

𝔼X=𝔼[X𝟙{Xa𝔼X}]+𝔼[X𝟙{X>a𝔼X}]a𝔼X+𝔼[X𝟙{X>a𝔼X}].\mathbb{E}X=\mathbb{E}\left[X\cdot\mathds{1}_{\{X\leqslant a\,\mathbb{E}X\}}% \right]+\mathbb{E}\left[X\cdot\mathds{1}_{\{X>a\,\mathbb{E}X\}}\right]% \leqslant a\,\mathbb{E}X+\mathbb{E}\left[X\cdot\mathds{1}_{\{X>a\,\mathbb{E}X% \}}\right].

Aplicando a Desigualdade de Cauchy-Schwarz ao último termo, obtemos

𝔼Xa𝔼X+(𝔼X2𝔼[𝟙{X>a𝔼X}2])12.\mathbb{E}X\leqslant a\,\mathbb{E}X+\left(\mathbb{E}X^{2}\cdot\mathbb{E}\left[% \mathds{1}^{2}_{\{X>a\,\mathbb{E}X\}}\right]\right)^{\frac{1}{2}}.

Logo,

(1a)𝔼X(𝔼X2(X>a𝔼X))12.(1-a)\,\mathbb{E}X\leqslant\left(\mathbb{E}X^{2}\cdot\mathbb{P}(X>a\,\mathbb{E% }X)\right)^{\frac{1}{2}}.

O que conclui a prova do teorema. ∎

O caso especial a=0a=0 já é extremamente interessante, pois dá uma cota para que a variável aleatória assuma valores não-nulos a partir da estimativa de seu segundo momento em termos do quadrado do seu primeiro momento.