15.1 Desigualdade de concentração

Seja XX uma variável aleatória integrável com média μ\mu. Sejam (Xn)n(X_{n})_{n} independentes e com a mesma distribuição de XX, e tome Sn=X1++XnS_{n}=X_{1}+\dots+X_{n}.

A Lei dos Grandes Números de Tchebyshev para este caso foi provada da seguinte forma: dado qualquer a(μ,+)a\in(\mu,+\infty),

(Snna)((Snnμ)2(aμ)2)1(aμ)2𝔼(Snnμ)2=𝕍X(aμ)21n\mathbb{P}\left(\tfrac{S_{n}}{n}\geqslant a\right)\leqslant\mathbb{P}\left((% \tfrac{S_{n}}{n}-\mu)^{2}\geqslant(a-\mu)^{2}\right)\leqslant\tfrac{1}{(a-\mu)% ^{2}}\mathbb{E}\left(\tfrac{S_{n}}{n}-\mu\right)^{2}=\tfrac{\mathbb{V}X}{(a-% \mu)^{2}}\cdot\frac{1}{n}

A desigualdade acima diz que, quando 𝔼X2<\mathbb{E}X^{2}<\infty, a probabilidade de Snn\tfrac{S_{n}}{n} diferir de μ\mu por mais que uma quantidade fixa aμa-\mu decai pelo menos tão rápido quanto 1n\frac{1}{n}. Na prova da Lei dos Grandes Números de Cantelli, vimos que, quando 𝔼X4<\mathbb{E}X^{4}<\infty, esta probabilidade decai pelo menos tão rápido quanto 1n2\frac{1}{n^{2}}. Em geral, se 𝔼X2k<\mathbb{E}X^{2k}<\infty ela decai pelo menos tão rápido quanto 1nk\frac{1}{n^{k}}.

Tentaremos agora obter estimativas melhores usando momentos de etXe^{tX} ao invés de X2kX^{2k}. Para todos t0t\geqslant 0 e a(μ,+)a\in(\mu,+\infty),

(Snna)[etSneatn]1eatn𝔼[etSn]=eatnM(t)n=e[atlogM(t)]n,\mathbb{P}\left(\tfrac{S_{n}}{n}\geqslant a\right)\leqslant\mathbb{P}\left[e^{% tS_{n}}\geqslant e^{atn}\right]\leqslant\tfrac{1}{e^{atn}}\mathbb{E}[e^{tS_{n}% }]={e^{-atn}}M(t)^{n}={e^{-[at-\log M(t)]n}}, (15.1)

onde M(t)=𝔼[etX]M(t)=\mathbb{E}[e^{tX}] é a função geradora de momentos de XX; observe que na penúltima igualdade utilizamos que as variáveis (Xn)(X_{n}) são i.i.d com distribuição comum XX. De modo análogo, para a(,μ)a\in(-\infty,\mu) e t0t\leqslant 0, obtemos

(Snna)e[atlogM(t)]n.\mathbb{P}\left(\tfrac{S_{n}}{n}\leqslant a\right)\leqslant{e^{-[at-\log M(t)]% n}}. (15.2)

Portanto, se mostrarmos que a expressão entre colchetes é positiva para algum tt, teremos estabelecido que essa probabilidade de fato decai pelo menos exponencialmente rápido. Sabemos que a função geradora de momentos é finita em um intervalo que contém o ponto t=0t=0. Denotaremos os extremos desse intervalo por 𝒟M0\mathcal{D}_{M}^{-}\leqslant 0 e 𝒟M+0\mathcal{D}_{M}^{+}\geqslant 0.

Teorema 15.3 (Desigualdade de Concentração de Chernoff).

Sejam (Xn)n(X_{n})_{n} variáveis aleatórias i.i.d. com distribuição comum XX, média μ\mu, função geradora de momentos M(t)M(t) e Sn=X1++XnS_{n}=X_{1}+\dots+X_{n}. Se 𝒟M+>0\mathcal{D}_{M}^{+}>0, então, para qualquer a>μa>\mu, existe t>0t>0 tal que [atlogM(t)]>0[at-\log M(t)]>0. Como

(Snna)e[atlogM(t)]n,\mathbb{P}\left(\tfrac{S_{n}}{n}\geqslant a\right)\leqslant{e^{-[at-\log M(t)]% n}},

segue que essa probabilidade decai pelo menos exponencialmente rápido em nn. Analogamente, se 𝒟M<0\mathcal{D}_{M}^{-}<0 e a<μa<\mu, então [atlogM(t)]>0[at-\log M(t)]>0 para algum t<0t<0 e a estimativa em (15.2) decai, pelo menos, exponencialmente rápido.

Demonstração.

Suponha que 𝒟M+>0\mathcal{D}_{M}^{+}>0 e seja a>μa>\mu. Consideramos inicialmente o caso em que 𝒟M<0\mathcal{D}_{M}^{-}<0. Pela Proposição 10.7, (logM)(0)=M(0)=μ<a(\log M)^{\prime}(0)=M^{\prime}(0)=\mu<a e, por conseguinte, [atlogM(t)]>0[at-\log M(t)]>0 para todo t>0t>0 suficientemente pequeno, provando o teorema neste caso.

Consideramos agora o caso geral. Para reduzir ao caso em que 𝒟M<0\mathcal{D}_{M}^{-}<0, vamos truncar as variáveis XnX_{n}. Para cada nn e kk, defina Xn;k=Xn𝟙{Xnk}X_{n;k}=X_{n}\mathds{1}_{\{X_{n}\geqslant-k\}}. Pelo Teorema da Convergência Dominada, limk𝔼Xn;k=μ\lim_{k}\mathbb{E}X_{n;k}=\mu e limk(aslog𝔼[esXn;k])=aslogM(s)\lim_{k}(as-\log\mathbb{E}[e^{sX_{n;k}}])=as-\log M(s) para todo s[0,𝒟M+)s\in[0,\mathcal{D}_{M}^{+}). Tome kk tal que 𝔼Xn;k<a\mathbb{E}X_{n;k}<a. Pelo caso anterior, podemos tomar t>0t>0 tal que (atlog𝔼[etXn;k])>0(at-\log\mathbb{E}[e^{tX_{n;k}}])>0. Como XnXn;kX_{n}\leqslant X_{n;k}, vale [atlogM(t)]>0[at-\log M(t)]>0, concluindo a prova do teorema.

A segunda parte do teorema, com 𝒟M<0\mathcal{D}_{M}^{-}<0 e a<μa<\mu, segue da primeira parte trocando-se os sinais de aa, μ\mu, tt e XX. ∎