15.3 Demonstração do Teorema de Cramér

Dividiremos a prova do Teorema de Cramér em duas partes distintas, uma dedicada à prova da cota inferior e outra dedicada à cota superior.

Prova da cota inferior

Vamos primeiro mostrar que, para qualquer aa\in\mathbb{R} tal que I(A)<I(A)<\infty e qualquer δ>0\delta>0, vale

(Snn[aδ,a+δ])eI(a)n+o(n).\mathbb{P}\left(\mathclap{\phantom{\big{|}}}\tfrac{S_{n}}{n}\in[a-\delta,a+% \delta]\right)\geqslant e^{-I(a)\cdot n+o(n)}. (15.12)

Essa estimativa vale sob as hipóteses do Teorema 15.6. No entanto, vamos também supor que o supremo em (15.5) é atingido para algum yy\in\mathbb{R}. De fato, vamos supor que tal yy está no interior do intervalo onde MM é finita, donde vale (15.7). Abandonar essa hipótese requer passos técnicos e complicados que vão além dos nossos objetivos.

Usando (15.7), pode-se adaptar a prova da Proposição 10.7 para obter

𝔼[XeyX]𝔼[eyX]=a.\frac{\mathbb{E}[Xe^{yX}]}{\mathbb{E}[e^{yX}]}=a.

A principal observação é que a expressão do lado esquerdo corresponde à esperança de uma variável aleatória YY cuja distribuição é obtida a partir da distribuição de XX, distorcida por um fator da forma g(x)=eyxg(x)=e^{yx}. Ou seja, para uma variável aleatória YY cuja distribuição é dada por

(YB)=𝔼[𝟙B(X)eyX]𝔼[eyX]=𝔼[𝟙B(X)eyXM(y)],\mathbb{P}(Y\in B)=\tfrac{\mathbb{E}[\mathds{1}_{B}(X)e^{yX}]}{\mathbb{E}[e^{% yX}]}=\mathbb{E}\left[\mathds{1}_{B}(X)\tfrac{e^{yX}}{M(y)}\right],

temos 𝔼Y=a\mathbb{E}Y=a pela regra da cadeia, pois a derivada de Radon-Nikodým entre as duas distribuições é dada por

dYdX(x)=1ceyx,\frac{\mathrm{d}\mathbb{P}_{Y}}{\mathrm{d}\mathbb{P}_{X}}(x)=\frac{1}{c}e^{yx},

onde c=𝔼[eyX]c=\mathbb{E}[e^{yX}]. Portanto, para variáveis Y1,Y2,Y_{1},Y_{2},\dots i.i.d. distribuídas como esta versão distorcida de XX, a ocorrência de Y1++Ynna\frac{Y_{1}+\dots+Y_{n}}{n}\approx a não é um evento raro.

A prova então consiste em controlar a razão entre as probabilidades de (X1,,Xn)(X_{1},\dots,X_{n}) e (Y1,,Yn(Y_{1},\dots,Y_{n}) tomarem valores em um subconjunto de n\mathbb{R}^{n} que é típico para este último vetor, de forma tal que tal razão não fique menor que eI(a)no(n)e^{-I(a)\cdot n-o(n)}.

Seja δ>0\delta>0. Fixe ε(0,δ]\varepsilon\in(0,\delta], e defina o conjunto

Bnε={(z1,,zn):|z1++znna|ε}n.B^{\varepsilon}_{n}=\left\{(z_{1},\dots,z_{n}):\left|\tfrac{z_{1}+\dots+z_{n}}% {n}-a\right|\leqslant\varepsilon\right\}\subseteq\mathbb{R}^{n}.

Então

(Snn[aε,a+ε])\displaystyle\mathbb{P}\left(\tfrac{S_{n}}{n}\in[a-\varepsilon,a+\varepsilon]\right) =𝔼[𝟙Bnε(X1,,Xn)]\displaystyle=\mathbb{E}\left[\mathds{1}_{B^{\varepsilon}_{n}}(X_{1},\dots,X_{% n})\right]
=𝔼[M(y)ney(X1++Xn) 1Bnε(X1,,Xn)eyX1M(y)eyXnM(y)]\displaystyle=\mathbb{E}\left[\tfrac{M(y)^{n}}{e^{y(X_{1}+\dots+X_{n})}}\,% \mathds{1}_{B^{\varepsilon}_{n}}(X_{1},\dots,X_{n})\tfrac{e^{yX_{1}}}{M(y)}% \cdots\tfrac{e^{yX_{n}}}{M(y)}\right]
𝔼[M(y)neayn+|y|εn𝟙Bnε(X1,,Xn)eyX1M(y)eyXnM(y)]\displaystyle\geqslant\mathbb{E}\left[\frac{M(y)^{n}}{e^{ayn+|y|\varepsilon n}% }\mathds{1}_{B^{\varepsilon}_{n}}(X_{1},\dots,X_{n})\tfrac{e^{yX_{1}}}{M(y)}% \cdots\tfrac{e^{yX_{n}}}{M(y)}\right]
=e[aylogM(y)+|y|ε]n((Y1,,Yn)Bnε)\displaystyle=e^{-\left[ay-\log M(y)+|y|\varepsilon\right]\cdot n}\cdot\mathbb% {P}\left(\mathclap{\phantom{\big{|}}}(Y_{1},\dots,Y_{n})\in B^{\varepsilon}_{n% }\right)
=e[aylogM(y)+|y|ε]n(Y1++Ynn[aε,a+ε]).\displaystyle=e^{-\left[ay-\log M(y)+|y|\varepsilon\right]\cdot n}\cdot\mathbb% {P}\left(\tfrac{Y_{1}+\dots+Y_{n}}{n}\in[a-\varepsilon,a+\varepsilon]\right).

Esta última probabilidade converge para um pela Lei dos Grandes Números, e portanto

(|Snna|δ)(|Snna|ε)eI(a)n2|y|εn\mathbb{P}\left(\left|\tfrac{S_{n}}{n}-a\right|\leqslant\delta\right)\geqslant% \mathbb{P}\left(\left|\tfrac{S_{n}}{n}-a\right|\leqslant\varepsilon\right)% \geqslant e^{-I(a)\cdot n-2|y|\varepsilon\cdot n}

para todo nn suficientemente grande. Como ε(0,δ]\varepsilon\in(0,\delta] é arbitrário, isso prova (15.12).

Agora seja ε>0\varepsilon>0 novamente. Tome aJa\in J^{\circ} tal que I(a)I(J)+εI(a)\leqslant I(J^{\circ})+\varepsilon. Tome δ>0\delta>0 tal que [aδ,a+δ]J[a-\delta,a+\delta]\subseteq J. Por (15.12),

(SnnJ)(Snn[aδ,a+δ])eI(a)n+o(n)eI(J)nεn+o(n).\displaystyle\mathbb{P}\left(\tfrac{S_{n}}{n}\in J\right)\geqslant\mathbb{P}% \left(\tfrac{S_{n}}{n}\in[a-\delta,a+\delta]\right)\geqslant e^{-I(a)\cdot n+o% (n)}\geqslant e^{-I(J^{\circ})\cdot n-\varepsilon n+o(n)}.

Como a desigualdade acima é válida para todo ε>0\varepsilon>0, temos

(SnnJ)eI(J)n+o(n),\mathbb{P}\left(\tfrac{S_{n}}{n}\in J\right)\geqslant e^{-I(J^{\circ})\cdot n+% o(n)},

o que conclui a prova da cota inferior no Teorema de Cramér.

Prova da cota superior

Vejamos como a cota superior no Teorema 15.6 é uma consequência imediata do Teorema 15.3. Começamos com propriedades de monotonicidade da função taxa.

Proposição 15.13.

A função taxa II é não-crescente em (,μ](-\infty,\mu] e não-decrescente em [μ,+)[\mu,+\infty). Além disso, I(μ)=0I(\mu)=0,

I(a)=supt0[atlogM(t)] para aμ e I(a)=supt0[atlogM(t)] para aμ.I(a)=\sup_{t\geqslant 0}[at-\log M(t)]\text{ para }a\geqslant\mu\text{ e }I(a)% =\sup_{t\leqslant 0}[at-\log M(t)]\text{ para }a\leqslant\mu.
Demonstração.

Tomando t=0t=0, temos [atlogM(t)]=0[at-\log M(t)]=0, logo I(a)0I(a)\geqslant 0 para todo aa\in\mathbb{R}. Agora, pela desigualdade de Jensen, M(t)=𝔼[etX]e𝔼tX=etμM(t)=\mathbb{E}[e^{tX}]\geqslant e^{\mathbb{E}tX}=e^{t\mu}, donde

μtlogM(t)0.\mu t-\log M(t)\leqslant 0.

Isso implica que I(μ)=0I(\mu)=0. Isso também implica que, para a>μa>\mu e t<0t<0, atlogM(t)<0,at-\log M(t)<0, assim I(a)=supt0[atlogM(t)]I(a)=\sup_{t\geqslant 0}[at-\log M(t)]. Analogamente, para a<μa<\mu, temos I(a)=supt0[atlogM(t)]I(a)=\sup_{t\leqslant 0}[at-\log M(t)].

Para provar monotonicidade em [μ,+)[\mu,+\infty), vejamos que, se μ<c<a\mu<c<a,

I(a)=supt0[atlogM(t)]supt0[ctlogM(t)]=I(c)0=I(μ).I(a)=\sup_{t\geqslant 0}[at-\log M(t)]\geqslant\sup_{t\geqslant 0}[ct-\log M(t% )]=I(c)\geqslant 0=I(\mu).

A prova da monotonicidade da função taxa em (,μ](-\infty,\mu] se faz de modo análogo. ∎

Demonstração da cota superior no Teorema 15.6.

Escrevemos J¯=[c,a]\bar{J}=[c,a]\subseteq\mathbb{R}. Se cμac\leqslant\mu\leqslant a, I(J¯)=0I(\bar{J})=0 e não há nada a provar. Podemos então assumir que a<μa<\mu, pois o caso c>μc>\mu é análogo. Seja ε>0\varepsilon>0. Pela Proposição 15.13, temos

I(J¯)=I(a)=supt0[atlogM(t)],I(\bar{J})=I(a)=\sup_{t\leqslant 0}[at-\log M(t)],

observe que a Proposição 15.13 foi utilizada em ambas as igualdades acima, na primeira, a monotonicidade, na segunda, que o supremo é atingido em t0t\leqslant 0. Logo, dado ε>0\varepsilon>0, podemos tomar t0t\leqslant 0 tal que [atlogM(t)]I(J¯)ε[at-\log M(t)]\geqslant I(\bar{J})-\varepsilon. Agora, usando a estimativa (15.2) obtemos

(SnnJ)(Snna)eI(J¯)n+εn.\displaystyle\mathbb{P}\left(\tfrac{S_{n}}{n}\in J\right)\leqslant\mathbb{P}% \left(\tfrac{S_{n}}{n}\leqslant a\right)\leqslant e^{-I(\bar{J})\cdot n+% \varepsilon n}.

Como ε\varepsilon é arbitrário, (SnnJ)eI(J¯)n+o(n),\mathbb{P}\left(\tfrac{S_{n}}{n}\in J\right)\leqslant e^{-I(\bar{J})\cdot n+o(% n)}, concluindo a prova. ∎