8.4 Algumas aplicações

Nesta seção faremos quatro aplicações da Lei dos Grandes Números. Elas podem ser lidas em qualquer ordem. A terceira é aplicação da Lei Fraca, a primeira e a última, da Lei Forte. A segunda é na verdade uma aplicação da Desigualdade de Tchebyshev, como feito na demostração da Lei Fraca.

Teorema de Glivenko-Cantelli

O teorema abaixo tem um papel central em Estatística Matemática. Ele relaciona a chamada função de distribuição empírica, construída a partir de observações de variáveis aleatórias i.i.d., com a função de distribuição comum a essas variáveis, em princípio desconhecida. Suas aplicações ocorrem em várias áreas, como por exemplo Econometria e Aprendizado de Máquina.

Teorema 8.12 (Teorema de Glivenko-Cantelli).

Sejam (Xn)n(X_{n})_{n} variáveis aleatórias i.i.d. com função de distribuição FXF_{X}, e defina

F^n(x)=1nk=1n𝟙{Xnx}.\hat{F}_{n}(x)=\frac{1}{n}\sum\limits_{k=1}^{n}\mathds{1}_{\{X_{n}\leqslant x% \}}.

Então

(limnsupx|F^n(x)FX(x)|=0)=1.\mathbb{P}\Big{(}\lim_{n\to\infty}\sup_{x\in\mathbb{R}}\,|\hat{F}_{n}(x)-F_{X}% (x)|=0\Big{)}=1.
Demonstração.

Defina GX(x)=FX(x)=(X<x)G_{X}(x)=F_{X}(x-)=\mathbb{P}(X<x) e G^n(x)=F^n(x)=n1k=1n𝟙{Xk<x}\hat{G}_{n}(x)=\hat{F}_{n}(x-)=n^{-1}\sum_{k=1}^{n}\mathds{1}_{\{X_{k}<x\}}, as funções análogas a FX(x)F_{X}(x) e F^n(x)\hat{F}_{n}(x) porém contínuas à esquerda.

Seja ε>0\varepsilon>0. Tome kk\in\mathbb{N} e x1<<xkx_{1}<\dots<x_{k} tais que GX(x1)<εG_{X}(x_{1})<\varepsilon, FX(xk)>1εF_{X}(x_{k})>1-\varepsilon e GX(xj)<FX(xj1)+εG_{X}(x_{j})<F_{X}(x_{j-1})+\varepsilon para j=2,,kj=2,\dots,k. Isso pode ser feito a partir da função quantil FX1F_{X}^{-1}, tomando uma coleção de pontos em (0,1)(0,1) com separação menor que ε\varepsilon (a condição GX(xj)<FX(xj1)+εG_{X}(x_{j})<F_{X}(x_{j-1})+\varepsilon pode parecer incompatível com o fato de FXF_{X} ter saltos, mas isso não é um problema se os pontos onde FXF_{X} salta mais que ε\varepsilon estiverem entre os x1,,xkx_{1},\dots,x_{k}).

Seja δ>0\delta>0. Pela Lei dos Grandes Números de Borel, quase certamente existem N1,,NkN_{1},\dots,N_{k} aleatórios tais que |F^n(xj)FX(xj)|<δ|\hat{F}_{n}(x_{j})-F_{X}(x_{j})|<\delta e |G^n(xj)GX(xj)|<δ|\hat{G}_{n}(x_{j})-G_{X}(x_{j})|<\delta para todo j=1,,kj=1,\dots,k e todo nNjn\geqslant N_{j}. Seja N0=max{N1,,Nk}N_{0}=\max\{N_{1},\dots,N_{k}\}.

Agora seja xx tal que xj1<x<xjx_{j-1}<x<x_{j} para algum jj. Temos

F^n(xj1)F^n(x)G^n(xj) e FX(xj1)FX(x)GX(xj).\hat{F}_{n}(x_{j-1})\leqslant\hat{F}_{n}(x)\leqslant\hat{G}_{n}(x_{j})\text{ e% }F_{X}(x_{j-1})\leqslant F_{X}(x)\leqslant G_{X}(x_{j}).

Subtraindo, obtemos

F^n(x)FX(x)\displaystyle\hat{F}_{n}(x)-F_{X}(x) G^n(xj)FX(xj1)G^n(xj)GX(xj)+ε\displaystyle\leqslant\hat{G}_{n}(x_{j})-F_{X}(x_{j-1})\leqslant\hat{G}_{n}(x_% {j})-G_{X}(x_{j})+\varepsilon

e

F^n(x)FX(x)\displaystyle\hat{F}_{n}(x)-F_{X}(x) F^n(xj1)GX(xj)F^n(xj1)FX(xj1)ε.\displaystyle\geqslant\hat{F}_{n}(x_{j-1})-G_{X}(x_{j})\geqslant\hat{F}_{n}(x_% {j-1})-F_{X}(x_{j-1})-\varepsilon.

Logo, para nN0n\geqslant N_{0}, vale |F^n(x)FX(x)|<δ+ε|\hat{F}_{n}(x)-F_{X}(x)|<\delta+\varepsilon. Argumento similar vale para x<x1x<x_{1} e também para x>xkx>x_{k}. Para x=x1,,xkx=x_{1},\dots,x_{k}, vale |F^n(x)FX(x)|<δ|\hat{F}_{n}(x)-F_{X}(x)|<\delta. Ou seja, supx|F^n(x)FX(x)|δ+ε\sup_{x\in\mathbb{R}}|\hat{F}_{n}(x)-F_{X}(x)|\leqslant\delta+\varepsilon para todo nN0n\geqslant N_{0}. Portanto,

(lim supnsupx|F^n(x)FX(x)|δ+ε)=1.\mathbb{P}\Big{(}\limsup_{n\to\infty}\sup_{x\in\mathbb{R}}|\hat{F}_{n}(x)-F_{X% }(x)|\leqslant\delta+\varepsilon\Big{)}=1.

Fazendo ε=δ=1m\varepsilon=\delta=\frac{1}{m} e tomando a interseção sobre mm\in\mathbb{N}, obtemos a convergência do enunciado. ∎

Teorema de Weierstrass

A esta altura está claro que Análise Real e Teoria da Medida são ferramentas mais que importantes para o estudo de Probabilidade. Porém, um fato notável é que temos uma via de mão dupla. Há teoremas da Análise que podem ser obtidos com demonstrações probabilísticas. O Teorema de Weierstrass diz que toda função f:[a,b]f:[a,b]\to\mathbb{R} contínua, por mais complicada que seja, pode ser aproximada uniformemente por uma sequência de polinômios.1313 13 O Teorema 8.13 foi provado originalmente por Weierstrass em 1885. A demonstração probabilística que fornecemos é devida a Bernstein, publicada em 1912. Observe que trata-se de um teorema puramente de Análise Real.

Teorema 8.13 (Teorema de Weierstrass).

Sejam f:[a,b]f:[a,b]\to\mathbb{R} uma função contínua e ε>0\varepsilon>0. Existe um polinômio gg tal que |g(x)f(x)|<ε|g(x)-f(x)|<\varepsilon para todo x[a,b]x\in[a,b].

Sejam ff e ε\varepsilon como no enunciado. Podemos supor que a=0a=0 e b=1b=1, pois há uma bijeção entre [0,1][0,1] e [a,b][a,b] em forma de polinômio. Como ff é contínua no intervalo fechado [0,1][0,1], existe MM tal que |f(p)|M|f(p)|\leqslant M para todo p[0,1]p\in[0,1]. Ademais, existe δ>0\delta>0 tal que |f(p)f(q)|<ε2|f(p)-f(q)|<\frac{\varepsilon}{2} para todos p,q[0,1]p,q\in[0,1] tais que |pq|<δ|p-q|<\delta, porque ff é uniformemente contínua (Teorema A.17).

O polinômio que vai aproximar ff será a esperança de uma variável aleatória cuja distribuição é parametrizada por pp.

Fixe algum n>Mεδ2n>\frac{M}{\varepsilon\delta^{2}}. Para p[0,1]p\in[0,1], defina uma variável aleatória ZpBinom(n,p)Z_{p}\sim\mathop{\mathrm{Binom}}\nolimits(n,p) e Xp=ZpnX_{p}=\frac{Z_{p}}{n}. Note que XpX_{p} toma valores em [0,1][0,1] e tem média pp.

O polinômio desejado será dado por

g(p)=𝔼[f(Xp)]=k=0nf(kn)(nk)pk(1p)nk,g(p)=\mathbb{E}[f(X_{p})]=\sum_{k=0}^{n}f(\tfrac{k}{n})\tbinom{n}{k}p^{k}(1-p)% ^{n-k},

que é chamado polinômio de Bernstein.

Estimamos g(p)f(p)g(p)-f(p) usando a Desigualdade de Tchebyshev:

|g(p)f(p)|=|𝔼[f(Xp)f(p)]|𝔼|f(Xp)f(p)|\displaystyle|g(p)-f(p)|=\big{|}\mathbb{E}[f(X_{p})-f(p)]\big{|}\leqslant% \mathbb{E}|f(X_{p})-f(p)|
=𝔼[|f(Xp)f(p)|𝟙{|Xpp|<δ}]+𝔼[|f(Xp)f(p)|𝟙{|Xpp|δ}]\displaystyle=\mathbb{E}\big{[}|f(X_{p})-f(p)|\mathds{1}_{\{|X_{p}-p|<\delta\}% }\big{]}+\mathbb{E}\big{[}|f(X_{p})-f(p)|\mathds{1}_{\{|X_{p}-p|\geqslant% \delta\}}\big{]}
ε2+2M(|Xpp|δ)ε2+2M𝕍Xpδ2\displaystyle\leqslant\tfrac{\varepsilon}{2}+2M\mathbb{P}(|X_{p}-p|\geqslant% \delta)\leqslant\tfrac{\varepsilon}{2}+2M\tfrac{\mathbb{V}X_{p}}{\delta^{2}}
=ε2+2Mp(1p)nδ2ε2+M2nδ2<ε,\displaystyle=\tfrac{\varepsilon}{2}+2M\tfrac{p(1-p)}{n\delta^{2}}\leqslant% \tfrac{\varepsilon}{2}+\tfrac{M}{2n\delta^{2}}<\varepsilon,

o que conclui a prova do Teorema de Weierstrass.

Método de Monte Carlo

No problema da agulha de Buffon (Seção 1.1.3), vimos que ao lançarmos aleatoriamente uma agulha de comprimento \ell sobre um piso cortado por um feixe de retas paralelas e equidistantes também de \ell, a probabilidade de a agulha cruzar uma das retas do piso é de 2π\tfrac{2}{\pi}. Sendo assim, se lançarmos uma agulha sucessivas vezes e de modo independente, a Lei Forte dos Grandes Números nos diz que

X1++Xnnq.c.2π,\frac{X_{1}+\dots+X_{n}}{n}\overset{\mathrm{q.c.}}{\rightarrow}\frac{2}{\pi},

onde XkX_{k} é a função indicadora do evento que a agulha cruza alguma reta do piso na kk-ésima tentativa. Portanto, a Lei dos Grandes Números pode ser usada em simulações de lançamentos de agulha para estimarmos o valor de π\pi. Isto é, 2nX1++Xn\frac{2n}{X_{1}+\dots+X_{n}} se aproxima de π\pi quando o número de tentativas, nn, é grande. Mais que isto, a Desigualdade de Tchebyshev nos diz que

(|X1++Xnn2π|>ε)𝕍X1nε2<14nε2.\mathbb{P}\Big{(}\Big{|}\frac{X_{1}+\dots+X_{n}}{n}-\frac{2}{\pi}\Big{|}>% \varepsilon\Big{)}\leqslant\frac{\mathbb{V}X_{1}}{n\varepsilon^{2}}<\frac{1}{4% n\varepsilon^{2}}.

Ou seja, temos inclusive um certo controle do quão grande deve ser o número de lançamentos, nn, para que uma aproximação com margem de erro ε\varepsilon tenha determinado nível de confiabilidade (no caso, 114nε21-\frac{1}{4n\varepsilon^{2}}).1414 14 Este experimento já foi realizado por diversas personalidades ao longo do tempo, sendo que a provável primeira aproximação foi realizada pelo astrônomo suíço R. Wolf em 1850 que ao lançar uma agulha 5.000 vezes encontrou a aproximação π3,1596\pi\approx 3{,}1596.

Esta mesma ideia pode ser utilizada para se estimar, via Lei dos Grandes Números, diversas outras quantidades como no exemplo a seguir.

Exemplo 8.14.

Seja f:[0,1][0,1]f:[0,1]\to[0,1] uma função integrável, gostaríamos de determinar quanto vale a integral 01f(x)dx\int_{0}^{1}f(x)\mathrm{d}x. Sejam (Xn)n(X_{n})_{n} e (Yn)n(Y_{n})_{n} duas sequências variáveis aleatórias independentes, todas elas com distribuição uniforme no intervalo [0,1][0,1] e (Zn)n(Z_{n})_{n} a sequência dada por Zn=𝟙{f(Xn)>Yn}Z_{n}=\mathds{1}_{\{f(X_{n})>Y_{n}\}}. Isto é, para todo nn\in\mathbb{N}, (Xn,Yn)(X_{n},Y_{n}) são as coordenadas de um ponto sorteado uniformemente no quadrado [0,1]2[0,1]^{2} e ZnZ_{n} é a variável que indica se tal ponto se encontra abaixo do gráfico da função ff. Como a sequência (Zn)n(Z_{n})_{n} é i.i.d., pela Lei Forte dos Grandes Números,

Z1++Znnq.c.𝔼Z1=01f(x)dx.\frac{Z_{1}+\dots+Z_{n}}{n}\overset{\mathrm{q.c.}}{\rightarrow}\mathbb{E}Z_{1}% =\int_{0}^{1}f(x)\mathrm{d}x.

Ou seja, simulando distribuições uniformes no intervalo [0,1][0,1], podemos aproximar a integral definida 01f(x)dx\int_{0}^{1}f(x)\mathrm{d}x por mais complicada que seja a função ff. ∎

Damos o nome de Método de Monte Carlo a qualquer cálculo que façamos via simulação (seja com computadores, lançando agulhas, dados, etc.), onde utilizamos a Lei dos Grandes Números para justificar o referido cálculo, como no exemplo acima. Tal ideia é utilizada em diversos campos do conhecimento, podendo ser aplicada desde o cálculo de velocidade de moléculas a probabilidades relacionadas a campeonatos de futebol.

Números normais

Suponha que um número xx tenha sido sorteado de modo uniforme em [0,1)[0,1). O que podemos dizer sobre a frequência relativa com que cada dígito aparece na expansão decimal de xx?

De modo mais formal, seja UU uma variável aleatória com distribuição uniforme em [0,1)[0,1) e defina (Xn)n(X_{n})_{n}, tomando valores em {0,1,,9}\{0,1,\dots,9\} como sendo a sequência de dígitos na expansão decimal de UU.

Analogamente ao Lema 4.28, a sequência (Xn)n(X_{n})_{n} é i.i.d. com distribuição uniforme no conjunto {0,1,,9}\{0,1,\dots,9\}. Portanto, para todo dígito k{0,1,,9}k\in\{0,1,\dots,9\}, a sequência (Znk)n(Z^{k}_{n})_{n}, dada por Znk=𝟙{Xn=k}Z^{k}_{n}=\mathds{1}_{\{X_{n}=k\}}, também é i.i.d. com distribuição Bernoulli(110)\mathop{\mathrm{Bernoulli}}\nolimits(\tfrac{1}{10}). Pela Lei Forte dos Grandes Números,

Z1k++Znknq.c.110,para todo k{0,1,,9}.\frac{Z^{k}_{1}+\dots+Z_{n}^{k}}{n}\overset{\mathrm{q.c.}}{\rightarrow}\frac{1% }{10},\ \text{para todo }k\in\{0,1,\dots,9\}.

Dizemos que um número é simplesmente normal na base 1010 se todos os dígitos de sua expansão decimal aparecem com frequência relativa igual a 110\tfrac{1}{10}. Observe que um número racional é simplesmente normal na base 1010 se, e somente se, sua dízima periódica contém todos os 10 dígitos e todos eles têm a mesma frequência de 110\tfrac{1}{10}. Pela afirmação acima, um número sorteado uniformemente em [0,1)[0,1) é simplesmente normal na base 1010, quase certamente. Acredita-se que ee, π\pi e 2\sqrt{2} sejam normais apesar de não haver ainda uma prova.

Dizemos que um número é normal na base 1010 se, para todo ll\in\mathbb{N}, todas as 10l10^{l} sequências de ll dígitos aparecem em sua expansão decimal com frequência relativa igual a 110l\tfrac{1}{10^{l}}. Utilizando a Lei Forte dos Grandes Números e com algum esforço adicional, pode-se mostrar que um número sorteado uniformemente em [0,1)[0,1) é quase certamente normal na base 1010. A prova será dada como exercício guiado ao final deste capítulo.

Dado um número natural b2b\geqslant 2, dizemos que um número real é simplesmente normal na base bb se todos os dígitos de sua expansão na base bb aparecem com frequência relativa igual a 1b\tfrac{1}{b}, e dizemos que um número real é normal na base bb se, para todo ll\in\mathbb{N}, todas as blb^{l} sequências de ll dígitos aparecem em sua expansão decimal com frequência relativa igual a 1bl\tfrac{1}{b^{l}}. No mesmo exercício guiado vamos mostrar que um número sorteado uniformemente em [0,1)[0,1) é quase certamente normal na base bb.

Finalmente, dizemos que um número é normal se ele é normal em toda base. Observe que um número sorteado uniformemente em [0,1)[0,1) é quase certamente normal, pois o evento de ser normal é interseção enumerável de eventos com probabilidade 11. Apesar disso, a construção explícita de um número normal é algo bastante desafiador.