9.5 Teorema de Slutsky e Método Delta

Nesta seção veremos o Teorema de Slutsky e o Método Delta, ambos de suma importância em Inferência Estatística. Começamos pelo Teorema do Mapeamento Contínuo, que é uma propriedade fundamental da convergência em distribuição.

Teorema 9.17 (Teorema do Mapeamento Contínuo).

Sejam (Xn)n(X_{n})_{n} e XX variáveis aleatórias e g:g:\mathbb{R}\to\mathbb{R} uma função mensurável. Suponha que gg seja contínua em todos os pontos de algum conjunto CC\in\mathcal{B} tal que (XC)=1\mathbb{P}(X\in C)=1. Se XndXX_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}X, então g(Xn)dg(X)g(X_{n})\overset{\smash{\mathrm{d}}}{\rightarrow}g(X).

Demonstração.

Pelo acoplamento de Skorokhod, existem YXY\sim X e YnXnY_{n}\sim X_{n} tais que ({ω:Yn(ω)Y(ω)})=1\mathbb{P}(\{\omega:Y_{n}(\omega)\to Y(\omega)\})=1. Por hipótese, ({ω:Y(ω)C})=1\mathbb{P}(\{\omega:Y(\omega)\in C\})=1. Além disso, para todo ω\omega tal que Yn(ω)Y(ω)Y_{n}(\omega)\to Y(\omega) e tal que Y(ω)CY(\omega)\in C, vale g(Yn(ω))g(Y(ω))g(Y_{n}(\omega))\to g(Y(\omega)). Portanto, g(Yn)q.c.g(Y)g(Y_{n})\overset{\mathrm{q.c.}}{\rightarrow}g(Y). Em particular, g(Yn)dg(Y)g(Y_{n})\overset{\smash{\mathrm{d}}}{\rightarrow}g(Y). Por outro lado, g(Yn)g(Xn)g(Y_{n})\sim g(X_{n}) e g(Y)g(X)g(Y)\sim g(X) e, pela unicidade do limite em distribuição, g(Xn)dg(X)g(X_{n})\overset{\smash{\mathrm{d}}}{\rightarrow}g(X), concluindo a prova. ∎

No que segue, usaremos o teorema acima em toda a sua generalidade, e também corolários óbvios como cXndcXcX_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}cX e Xn+cdX+cX_{n}+c\overset{\smash{\mathrm{d}}}{\rightarrow}X+c, se XndXX_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}X.

Teorema 9.18 (Teorema de Slutskty).

Sejam XX, (Xn)n(X_{n})_{n}, (Yn)n(Y_{n})_{n} variáveis aleatórias e cc\in\mathbb{R}. Se XndXX_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}X e YndcY_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}c, então:

  1. (1)

    Xn+YndX+cX_{n}+Y_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}X+c;

  2. (2)

    YnXndcXY_{n}\cdot X_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}cX;

  3. (3)

    XnYndXnc\frac{X_{n}}{Y_{n}}\overset{\smash{\mathrm{d}}}{\rightarrow}\frac{X_{n}}{c}, caso c0c\neq 0 e Yn0Y_{n}\neq 0 q.c. para todo nn.

Demonstração.

Começamos pelo item (1). Supomos inicialmente que c=0c=0. Vamos usar o Teorema de Helly-Bray três vezes. Seja g:g:\mathbb{R}\to\mathbb{R} contínua, limitada e com derivada limitada. Tome M=supx|g(x)|M=\sup_{x\in\mathbb{R}}|g(x)| e C=supx|g(x)|C=\sup_{x\in\mathbb{R}}|g^{\prime}(x)|, de modo que |g(x)g(y)|C|xy||g(x)-g(y)|\leqslant C\,|x-y| para todos x,yx,y\in\mathbb{R}. Desenvolvemos

|𝔼[g(Xn+Yn)]𝔼[g(Xn)]|\displaystyle|\mathbb{E}[g(X_{n}+Y_{n})]-\mathbb{E}[g(X_{n})]| 𝔼|g(Xn+Yn)g(Xn)|\displaystyle\leqslant\mathbb{E}|g(X_{n}+Y_{n})-g(X_{n})|
𝔼[min{2M,C|Yn|}]\displaystyle\leqslant\mathbb{E}\big{[}\min\{2M,C\,|Y_{n}|\}\big{]}

A última esperança converge a zero pelo Teorema de Helly-Bray, pois min{2M,C|y|}\min\{2M,C\,|y|\} é uma função contínua e limitada de yy, e Ynd0Y_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}0. Da mesma forma, 𝔼[g(Xn)]𝔼[g(X)]\mathbb{E}[g(X_{n})]\to\mathbb{E}[g(X)], pois gg é contínua, limitada e XndXX_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}X. Portanto, 𝔼[g(Xn+Yn)]𝔼[g(X)]\mathbb{E}[g(X_{n}+Y_{n})]\to\mathbb{E}[g(X)]. Como isso vale para toda função contínua com derivada limitada, novamente pelo Teorema de Helly-Bray concluímos que Xn+YndXX_{n}+Y_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}X. No caso c0c\neq 0, escrevemos Xn+Yn=(Xn+c)+(Ync)X_{n}+Y_{n}=(X_{n}+c)+(Y_{n}-c). Observe que Xn+cdX+cX_{n}+c\overset{\smash{\mathrm{d}}}{\rightarrow}X+c e Yncd0Y_{n}-c\overset{\smash{\mathrm{d}}}{\rightarrow}0. Aplicando o caso anterior com Xn+cX_{n}+c no lugar de XnX_{n} e YncY_{n}-c no lugar de YnY_{n}, concluímos que Xn+YndX+cX_{n}+Y_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}X+c.

Passamos ao item (2). Como no item anterior, vamos supor inicialmente que c=0c=0. Sejam ε>0\varepsilon>0 e δ>0\delta>0. Tome K>0K>0 tal que (|X|>K)<δ\mathbb{P}(|X|>K)<\delta e KK e K-K sejam pontos de continuidade de FXF_{X} (é possível tomar tal KK pois {|X|>n}∅︀\{|X|>n\}\downarrow\emptyset quando nn\to\infty e o conjunto de pontos onde FXF_{X} é descontínua é enumerável). Vamos mostrar que XnYn0X_{n}Y_{n}\overset{\mathbb{P}}{\rightarrow}0. Expandindo:

lim supn(|XnYn|ε)\displaystyle\limsup_{n}\mathbb{P}(|X_{n}Y_{n}|\geqslant\varepsilon) limn(|Xn|>K)+limn(|Yn|εK)\displaystyle\leqslant\lim_{n}\mathbb{P}(|X_{n}|>K)+\lim_{n}\mathbb{P}(|Y_{n}|% \geqslant\tfrac{\varepsilon}{K})
=(|X|>K)+0<δ,\displaystyle=\mathbb{P}(|X|>K)+0<\delta,

onde na igualdade acima utilizamos que Ynd0Y_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}0. Como isso vale para todo δ>0\delta>0, temos limn(|XnYn|ε)=0\lim_{n}\mathbb{P}(|X_{n}Y_{n}|\geqslant\varepsilon)=0, donde XnYn0X_{n}Y_{n}\overset{\mathbb{P}}{\rightarrow}0 e, em particular, XnYnd0X_{n}Y_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}0. No caso c0c\neq 0, escrevemos XnYn=Xn(Ync)+cXnX_{n}Y_{n}=X_{n}(Y_{n}-c)+cX_{n}. Observe que cXndcXcX_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}cX e Yncd0Y_{n}-c\overset{\smash{\mathrm{d}}}{\rightarrow}0. Pelo caso anterior com YncY_{n}-c no lugar de YnY_{n}, obtemos Xn(Ync)d0X_{n}(Y_{n}-c)\overset{\smash{\mathrm{d}}}{\rightarrow}0. Pelo item (1), YnXndcXY_{n}\cdot X_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}cX.

Provemos finalmente (3). Considere g:g:\mathbb{R}\to\mathbb{R} dada por g(0)=0g(0)=0 e g(y)=y1g(y)=y^{-1} se y0y\neq 0. Pelo Teorema do Mapeamento Contínuo, 1Ynd1c\frac{1}{Y_{n}}\overset{\smash{\mathrm{d}}}{\rightarrow}\frac{1}{c}, pois gg é descontinua apenas em 0 e c0c\neq 0. Aplicando o item (2) com 1Yn\frac{1}{Y_{n}} no lugar de YnY_{n}, concluímos que XnYndXc\frac{X_{n}}{Y_{n}}\overset{\smash{\mathrm{d}}}{\rightarrow}\frac{X}{c}. ∎

Corolário 9.19.

Sejam XX e (Xn)n(X_{n})_{n} variáveis aleatórias e sejam cc e (cn)n(c_{n})_{n} constantes reais. Se XndXX_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}X e cncc_{n}\to c, então cnXndcXc_{n}X_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}cX e Xn+cndX+cX_{n}+c_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}X+c.

Observação 9.20.

A conclusão do teorema acima pode ser falsa se YndYY_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}Y com YY aleatória, pois as hipóteses do teorema nada dizem sobre a distribuição conjunta de XnX_{n} e YnY_{n}. Com efeito, tome Z𝒩(0,1)Z\sim\mathcal{N}(0,1), Xn=Yn=ZX_{n}=Y_{n}=Z, X=ZX=Z e Y=ZY=-Z. Observe que Xn+Yn𝒩(0,4)X_{n}+Y_{n}\sim\mathcal{N}(0,4) e X+Y=0X+Y=0 q.c., de forma que XndXX_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}X, YndYY_{n}\overset{\smash{\mathrm{d}}}{\rightarrow}Y, mas Xn+YnX_{n}+Y_{n} não converge para X+YX+Y. ∎

Exemplo 9.21.

Considere uma sequência (Xn)n(X_{n})_{n} de variáveis aleatórias i.i.d. não-degeneradas com segundo momento finito, com média μ\mu e variância σ\sigma. Se μ\mu é desconhecido, um estimador para μ\mu após observar os valores X1,,XnX_{1},\dots,X_{n} é

μ^n=X1++Xnn.\hat{\mu}_{n}=\frac{X_{1}+\dots+X_{n}}{n}.

Pela Lei dos Grandes Números de Kolmogorov, μ^nq.c.μ\hat{\mu}_{n}\overset{\mathrm{q.c.}}{\rightarrow}\mu. Queremos saber qual é a distribuição do erro μ^nμ\hat{\mu}_{n}-\mu. Pelo Teorema do Limite Central,

nμ^nμσd𝒩(0,1),\sqrt{n}\,\frac{\hat{\mu}_{n}-\mu}{\sigma}\overset{\smash{\mathrm{d}}}{% \rightarrow}\mathcal{N}(0,1),

ou seja, μ^nμ\hat{\mu}_{n}-\mu tem distribuição aproximadamente normal com média zero e variância σ2/n\sigma^{2}/n. Porém, gostaríamos de saber a distribuição aproximada de μ^nμ\hat{\mu}_{n}-\mu sem ter que fazer referência ao parâmetro σ2\sigma^{2}, pois este pode ser também desconhecido. Um estimador para σ2\sigma^{2} é dado por1616 16 A razão para tomar-se n1n-1 no denominador é para que 𝔼[s^n2]=σ2\mathbb{E}[\hat{s}_{n}^{2}]=\sigma^{2}.

s^n2=k=1n(Xk1nj=1nXj)2n1.{\hat{s}_{n}^{2}}=\frac{\sum_{k=1}^{n}(X_{k}-\frac{1}{n}\sum_{j=1}^{n}X_{j})^{% 2}}{n-1}.

Reescrevendo e expandindo a expressão acima, chegamos a

s^n2=nn1[(1nk=1nXk2)(1nk=1nXk)2]q.c.𝔼X12(𝔼X1)2=σ2\hat{s}_{n}^{2}=\frac{n}{n-1}\bigg{[}\Big{(}\frac{1}{n}\sum_{k=1}^{n}X_{k}^{2}% \Big{)}-\Big{(}\frac{1}{n}\sum_{k=1}^{n}X_{k}\Big{)}^{2}\bigg{]}\overset{% \mathrm{q.c.}}{\rightarrow}\mathbb{E}X_{1}^{2}-(\mathbb{E}X_{1})^{2}=\sigma^{2}

pela Lei dos Grandes Números de Kolmogorov. Em particular,

s^nσd1\frac{\hat{s}_{n}}{\sigma}\overset{\smash{\mathrm{d}}}{\rightarrow}1

e, pelo item (3) do Teorema de Slutsky,

nμ^nμs^n=nμ^nμσ(s^n/σ)d𝒩(0,1),\sqrt{n}\,\frac{\hat{\mu}_{n}-\mu}{{\hat{s}_{n}}}=\sqrt{n}\,\frac{\hat{\mu}_{n% }-\mu}{\sigma\cdot({\hat{s}_{n}}/\sigma)}\overset{\smash{\mathrm{d}}}{% \rightarrow}\mathcal{N}(0,1),

ou seja, μ^nμ\hat{\mu}_{n}-\mu tem distribuição aproximadamente normal com média zero e variância s^n2/n\hat{s}_{n}^{2}/n (para que o quociente acima esteja definido, substituímos s^n\hat{s}_{n} por 11 caso seu valor seja 0; a probabilidade desse evento tende a zero). ∎

No exemplo acima, qual a distribuição aproximada de μ^n1μ1\hat{\mu}_{n}^{-1}-\mu^{-1}, ou de μ^n2μ2\hat{\mu}_{n}^{2}-\mu^{2}? A resposta é dada por outra aplicação do Teorema de Slutsky.

Teorema 9.22 (Método Delta).

Seja (Yn)n(Y_{n})_{n} uma sequência de variáveis aleatórias tais que

rn(Ynμ)dZr_{n}\cdot(Y_{n}-\mu)\overset{\smash{\mathrm{d}}}{\rightarrow}Z

para alguma sequência de números reais rn+r_{n}\to+\infty, algum μ\mu\in\mathbb{R} e alguma variável aleatória ZZ. Se g:g:\mathbb{R}\to\mathbb{R} é uma função mensurável e gg é diferenciável em μ\mu, então

rn(g(Yn)g(μ))dg(μ)Z.r_{n}\cdot\big{(}g(Y_{n})-g(\mu)\big{)}\overset{\smash{\mathrm{d}}}{% \rightarrow}g^{\prime}(\mu)\,Z.
Demonstração.

Defina h:h:\mathbb{R}\to\mathbb{R} como h(μ)=g(μ)h(\mu)=g^{\prime}(\mu) e h(x)=g(x)g(μ)xμh(x)=\frac{g(x)-g(\mu)}{x-\mu} para xμx\neq\mu, e observe que hh é contínua em μ\mu. Reescrevemos

rn[g(Yn)g(μ)]\displaystyle r_{n}\cdot[g(Y_{n})-g(\mu)] =rnh(Yn)(Ynμ).\displaystyle=r_{n}\cdot h(Y_{n})\cdot(Y_{n}-\mu).

Observe que, pelo Corolário 9.19, Yn=μ+rn1rn(Ynμ)dμY_{n}=\mu+r_{n}^{-1}\cdot r_{n}\cdot(Y_{n}-\mu)\overset{\smash{\mathrm{d}}}{% \rightarrow}\mu. Pelo Teorema do Mapeamento Contínuo, h(Yn)dh(μ)=g(μ)h(Y_{n})\overset{\smash{\mathrm{d}}}{\rightarrow}h(\mu)=g^{\prime}(\mu), pois hh é contínua em μ\mu. Por outro lado, rn(Ynμ)dZr_{n}\cdot(Y_{n}-\mu)\overset{\smash{\mathrm{d}}}{\rightarrow}Z e, pelo item (2) do Teorema de Slutsky, h(Yn)rn(Ynμ)dg(μ)Zh(Y_{n})\cdot r_{n}\cdot(Y_{n}-\mu)\overset{\smash{\mathrm{d}}}{\rightarrow}g^% {\prime}(\mu)\,Z, concluindo a prova. ∎

Observação 9.23.

No contexto do Teorema do Limite Central, se

Snnμσnd𝒩(0,1)\frac{S_{n}-n\mu}{\sigma\sqrt{n}}\overset{\smash{\mathrm{d}}}{\rightarrow}% \mathcal{N}(0,1)

com Sn=X1++XnS_{n}=X_{1}+\dots+X_{n}, podemos tomar Yn=X¯n=SnnY_{n}=\bar{X}_{n}=\frac{S_{n}}{n} e rn=nr_{n}=\sqrt{n}, de forma a reescrever a convergência como

n(X¯nμ)d𝒩(0,σ2).\ \sqrt{n}\,(\bar{X}_{n}-\mu)\overset{\smash{\mathrm{d}}}{\rightarrow}\mathcal% {N}(0,\sigma^{2}).

Neste caso, o Método Delta nos dá

n(g(X¯n)g(μ))d𝒩( 0,σ2g(μ)2)\sqrt{n}\,\big{(}g(\bar{X}_{n})-g(\mu)\big{)}\overset{\smash{\mathrm{d}}}{% \rightarrow}\mathcal{N}\big{(}\,0,\sigma^{2}\,g^{\prime}(\mu)^{2}\,\big{)}

supondo que g(μ)0g^{\prime}(\mu)\neq 0 (ou, caso g(μ)=0g^{\prime}(\mu)=0, convencionando que 𝒩(0,0)\mathcal{N}(0,0) denota uma variável aleatória degenerada q.c. igual a zero). ∎

Exemplo 9.24.

Sejam (Xn)n(X_{n})_{n} variáveis aleatórias i.i.d. com distribuição Exp(λ)\mathop{\mathrm{Exp}}\nolimits(\lambda) e considere o estimador

λ^n=nX1++Xn\hat{\lambda}_{n}=\frac{n}{X_{1}+\dots+X_{n}}

para o parâmetro λ\lambda. Pela Lei dos Grandes Números de Cantelli, λ^nq.c.λ\hat{\lambda}_{n}\overset{\mathrm{q.c.}}{\rightarrow}\lambda e gostaríamos de saber a distribuição aproximada do erro λ^nλ\hat{\lambda}_{n}-\lambda. Observe que, pelo Teorema do Limite Central,

n(λ^n1λ1)d𝒩(0,λ2).\sqrt{n}\,(\hat{\lambda}_{n}^{-1}-\lambda^{-1})\overset{\smash{\mathrm{d}}}{% \rightarrow}\mathcal{N}(0,{\lambda^{-2}}).

Aplicando o Método Delta com g(x)=x1g(x)=x^{-1}, obtemos

n(λ^nλ)𝒩(0,λ2).\sqrt{n}\,(\hat{\lambda}_{n}-\lambda)\to\mathcal{N}(0,\lambda^{2}).\qed
Exemplo 9.25.

Sejam (Xn)n(X_{n})_{n} variáveis aleatórias i.i.d. com média μ>0\mu>0 e variância σ2\sigma^{2}, e defina

μ^n=X1++Xnn.\hat{\mu}_{n}=\frac{X_{1}+\dots+X_{n}}{n}.

Suponha que estamos interessados na grandeza μ2=(𝔼X1)2\mu^{2}=(\mathbb{E}X_{1})^{2}, e usamos μ^n2\hat{\mu}_{n}^{2} para estimá-la. Para o erro desse estimador, o Método Delta nos dá

n(μ^n 2μ2)d𝒩(0,4σ2μ2).\sqrt{n}\,(\hat{\mu}_{n}^{\,2}-\mu^{2})\overset{\smash{\mathrm{d}}}{% \rightarrow}\mathcal{N}(0,4\sigma^{2}\mu^{2}).\qed