15.2 Princípio dos Grandes Desvios

A Desigualdade de Concentração de Chernoff diz que a probabilidade de um grande desvio decai, pelo menos, exponencialmente rápido. Porém, em muitos casos, vale algo muito mais forte: a velocidade de decaimento é exatamente exponencial, com uma taxa que pode ser descrita quase explicitamente.

Definição 15.4 (Função taxa).

Seja XX uma variável aleatória. Definimos a função taxa II associada à distribuição de XX, como a função I:[0,+]I:\mathbb{R}\to[0,+\infty] dada por

I(a)=supt[atlogM(t)],I(a)=\sup_{t\in\mathbb{R}}\left[\mathclap{\phantom{\big{|}}}at-\log M(t)\right], (15.5)

onde M(t)M(t) é a função geradora de momentos da variável XX.

Podemos pensar na função taxa como uma tentativa de obter a melhor estimativa possível a partir de (15.2). A razão pela qual a função II merece esse nome é que, uma vez que maximizamos [atlogM(t)][at-\log M(t)] sobre todo tt, a desigualdade (15.2) deixa de ser apenas mais uma cota superior, sendo de fato a melhor cota superior possível. A maximização em (15.5) é conhecida como a transformada de Legendre, isto é, a função taxa é a transformada de Legendre do logaritmo da função geradora de momentos.

Dado AA\subseteq\mathbb{R}, para descrever a maneira mais fácil (ou menos difícil) de Snn\frac{S_{n}}{n} estar em AA, vamos denotar

I(A)=infaAI(a).I(A)=\inf_{a\in A}I(a).

Se AA for um intervalo da reta, denotaremos por AA^{\circ} o seu interior (o intervalo excluindo as extremidades de AA) e por A¯\bar{A} o seu fecho (o intervalo incluindo as extremidades de AA caso sejam números reais), respectivamente.

Teorema 15.6 (Princípio dos Grandes Desvios de Cramér).

Sejam (Xn)n(X_{n})_{n} variáveis aleatórias i.i.d., com distribuição comum XX, e JJ um intervalo de \mathbb{R}. Se I(J)<I(J)<\infty, então

eI(J)n+o(n)(SnnJ)eI(J¯)n+o(n),\displaystyle e^{-I(J^{\circ})\cdot n+o(n)}\leqslant\mathbb{P}\left(\tfrac{S_{% n}}{n}\in J\right)\leqslant e^{-I(\bar{J})\cdot n+o(n)},

onde II é a função taxa da variável XX. Em particular, quando I(J)=I(J¯)I(J^{\circ})=I(\bar{J}), temos a taxa exata de decaimento exponencial para estas probabilidades:

(SnnJ)=eI(J)n+o(n).\mathbb{P}\left(\tfrac{S_{n}}{n}\in J\right)=e^{-I(J)\cdot n+o(n)}.

Caso I(J¯)=+I(\bar{J})=+\infty, vale

(SnnJ)ecn+o(n)\mathbb{P}\left(\tfrac{S_{n}}{n}\in J\right)\leqslant e^{-cn+o(n)}

para todo cc\in\mathbb{R}.

A demonstração do teorema acima será dada na próxima seção. Antes disso, vamos discutir a relação entre a função geradora de momentos, MM, e sua transformada de Legendre, a função taxa II.

Vejamos como encontrar I(a)I(a) graficamente e algebricamente. No caso de o supremo em (15.5) ser atingido em t=yt=y para algum yy no interior do intervalo onde MM é finita, a derivada de atlogM(t)at-\log M(t) se anula em t=yt=y, donde

a=M(y)M(y).a=\frac{M^{\prime}(y)}{M(y)}. (15.7)

Às vezes é possível expressar yy em termos de aa, e assim calcular II por

I(a)=aylogM(y),y=y(a).I(a)=a\cdot y-\log M(y),\quad y=y(a).

Esse processo de encontrar yy tal que (logM)(y)=a(\log M)^{\prime}(y)=a e expressar I(a)=aylogM(y)I(a)=ay-\log M(y) está ilustrado na Figura 15.1 e nos exemplos abaixo.

Reciprocamente, se existe yy tal que (logM)(y)=a(\log M)^{\prime}(y)=a, então o supremo em (15.5) é atingido em t=yt=y, pois, como mostraremos mais abaixo, logM\log M é uma função convexa.

Obtenção da função taxa a partir da função
Figura 15.1: Obtenção da função taxa a partir da função logMX\log M_{X}.
Exemplo 15.8.

Se X𝒩(μ,σ2)X\sim\mathcal{N}(\mu,\sigma^{2}), temos

logM(t)=σ2t22+tμ,\log M(t)=\frac{\sigma^{2}t^{2}}{2}+t\mu,

assim

a=(logM)(y)=σ2y+μ,y=aμσ2,a=(\log M)^{\prime}(y)=\sigma^{2}y+\mu,\qquad y=\frac{a-\mu}{\sigma^{2}},

portanto,

I(a)=a(aμ)σ2[(aμ)22σ2+μ(aμ)σ2]=(aμ)22σ2,a.I(a)=\frac{a(a-\mu)}{\sigma^{2}}-\left[\frac{(a-\mu)^{2}}{2\sigma^{2}}+\frac{% \mu(a-\mu)}{\sigma^{2}}\right]=\frac{(a-\mu)^{2}}{2\sigma^{2}},\quad a\in% \mathbb{R}.\qed
Exemplo 15.9.

Se XPoisson(λ)X\sim\mathop{\mathrm{Poisson}}\nolimits(\lambda), temos

logM(t)=λ(et1).\log M(t)=\lambda(e^{t}-1).

Analisando o gráfico de logM(t)\log M(t), observamos que o supremo de atlogM(t)at-\log M(t) é atingido em algum yy\in\mathbb{R} somente se a>0a>0. Neste caso,

a=(logM)(y)=λey,y=logaλ,a=(\log M)^{\prime}(y)=\lambda e^{y},\qquad y=\log\tfrac{a}{\lambda},

e

I(a)=aylogM(y)=alogaλa+λ.I(a)=ay-\log M(y)=a\log\tfrac{a}{\lambda}-a+\lambda.

Se a=0a=0, o supremo vale λ\lambda, pois logM(t)\log M(t) tende a λ-\lambda quando tt\to-\infty. Se a<0a<0, o supremo vale ++\infty pois atlogM(t)atλat-\log M(t)\geqslant at-\lambda para todo t<0t<0.

Em resumo,

I(a)={+,a<0,λ,a=0,alogaλa+λ,a>0.I(a)=\begin{cases}+\infty,&a<0,\\ \lambda,&a=0,\\ a\log\tfrac{a}{\lambda}-a+\lambda,&a>0.\\ \end{cases}

Os casos a=0a=0 e a<0a<0 refletem o fato de que variáveis de Poisson nunca tomam valores negativos, e tomam o valor zero com probabilidade eλe^{-\lambda}. ∎

Exercício 15.10.

Calcule a função taxa da variável XX nos seguintes casos:

  1. (a)

    XBernoulli(p)X\sim\mathop{\mathrm{Bernoulli}}\nolimits(p).

  2. (b)

    XExp(λ)X\sim\mathop{\mathrm{Exp}}\nolimits(\lambda).

  3. (c)

    X=μX=\mu q.c. ∎

Como dito anteriormente, logM\log M é uma função convexa, a função I também goza da mesma propriedade.

Proposição 15.11.

As funções II e logM\log M são convexas.

Demonstração.

Consideremos inicialmente a função II. Sejam 0<α<10<\alpha<1 e β=1α\beta=1-\alpha. Para a1a_{1} e a2a_{2}\in\mathbb{R},

I(αa1+βa2)\displaystyle I(\alpha a_{1}+\beta a_{2}) =supt[(αa1+βa2)t(α+β)logM(t)]\displaystyle=\sup_{t\in\mathbb{R}}\left[\mathclap{\phantom{\big{|}}}(\alpha a% _{1}+\beta a_{2})t-(\alpha+\beta)\log M(t)\right]
=supt[α(a1tlogM(t))+β(a2tlogM(t))]\displaystyle=\sup_{t\in\mathbb{R}}\left[\mathclap{\phantom{\big{|}}}\alpha(a_% {1}t-\log M(t))+\beta(a_{2}t-\log M(t))\right]
supt[α(a1tlogM(t))]+supt[β(a2tlogM(t))]\displaystyle\leqslant\sup_{t\in\mathbb{R}}\left[\mathclap{\phantom{\big{|}}}% \alpha(a_{1}t-\log M(t))\right]+\sup_{t\in\mathbb{R}}\left[\mathclap{\phantom{% \big{|}}}\beta(a_{2}t-\log M(t))\right]
=αI(a1)+βI(a2),\displaystyle=\alpha I(a_{1})+\beta I(a_{2}),

o que mostra que a função taxa II é convexa. Passamos agora à convexidade de logM\log M. Sejam t1t_{1} e t2t_{2}\in\mathbb{R}. Usando a Desigualdade de Hölder (Apêndice D.7),

logM(αt1+βt2)\displaystyle\log M(\alpha t_{1}+\beta t_{2}) =log𝔼[eαt1Xeβt2X]\displaystyle=\log\mathbb{E}\left[e^{\alpha t_{1}X}\cdot e^{\beta t_{2}X}\right]
log{(𝔼[(eαt1X)1α])α(𝔼[(eβt2X)1β])β}\displaystyle\leqslant\log\left\{\left(\mathbb{E}\left[\left(e^{\alpha t_{1}X}% \right)^{\frac{1}{\alpha}}\right]\right)^{\alpha}\left(\mathbb{E}\left[\left(e% ^{\beta t_{2}X}\right)^{\frac{1}{\beta}}\right]\right)^{\beta}\right\}
=αlog𝔼[et1X]+βlog𝔼[et2X]\displaystyle=\alpha\log\mathbb{E}[e^{t_{1}X}]+\beta\log\mathbb{E}[e^{t_{2}X}]
=αlogM(t1)+βlogM(t2),\displaystyle=\alpha\log M(t_{1})+\beta\log M(t_{2}),

o que conclui a prova. ∎