4.3 Soma de variáveis independentes

Trataremos nesta seção de um caso especial de função de vetor aleatório que permeará todo o livro. Somas de variáveis aleatórias independentes aparecem naturalmente em Probabilidade, Estatística e nas Ciências Naturais. Dadas XX e YY variáveis aleatórias independentes, qual a distribuição de X+YX+Y?

No caso em que o vetor (X,Y)(X,Y) é discreto, X+YX+Y é variável aleatória discreta e sua função de probabilidade pX+Yp_{X+Y} pode ser calculada via Lei da Probabilidade Total:

pX+Y(z)\displaystyle p_{X+Y}(z) =x(X=x,Y=zx)=x(X=x)(Y=zx)\displaystyle=\sum_{x}\mathbb{P}(X=x,Y=z-x)=\sum_{x}\mathbb{P}(X=x)\mathbb{P}(% Y=z-x)
=xpX(x)pY(zx).\displaystyle=\sum_{x}p_{X}(x)p_{Y}(z-x).

Observe que, como o vetor (X,Y)(X,Y) é discreto, as parcelas da soma acima são não-nulas para no máximo uma quantidade enumerável valores de xx.

Exemplo 4.20.

Sejam XBinom(n,p)X\sim\mathop{\mathrm{Binom}}\nolimits(n,p) e YBinom(m,p)Y\sim\mathop{\mathrm{Binom}}\nolimits(m,p). A função de probabilidade de X+YX+Y pode ser calculada por

pX+Y(k)\displaystyle p_{X+Y}(k) =j=0(X=j)(Y=kj)\displaystyle=\sum_{j=0}^{\infty}\mathbb{P}(X=j)\mathbb{P}(Y=k-j)
=j=0k(nj)pj(1p)nj(mkj)pkj(1p)mk+j\displaystyle=\sum_{j=0}^{k}\tbinom{n}{j}p^{j}(1-p)^{n-j}\tbinom{m}{k-j}p^{k-j% }(1-p)^{m-k+j}
=pk(1p)m+nkj=0k(nj)(mkj)\displaystyle=p^{k}(1-p)^{m+n-k}\sum_{j=0}^{k}\tbinom{n}{j}\tbinom{m}{k-j}
=(n+mk)pk(1p)m+nk.\displaystyle=\tbinom{n+m}{k}p^{k}(1-p)^{m+n-k}.

Portanto, X+YBinom(n+m,p)X+Y\sim\mathop{\mathrm{Binom}}\nolimits(n+m,p), o que não chega a ser uma surpresa, dada a definição de variável binomial. Indutivamente, podemos generalizar este fato e mostrar que se XkBinom(nk,p)X_{k}\sim\mathop{\mathrm{Binom}}\nolimits(n_{k},p) para todo k=1,,lk=1,\dots,l são independentes, então k=1lXkBinom(k=1lnk,p)\sum_{k=1}^{l}X_{k}\sim\mathop{\mathrm{Binom}}\nolimits(\sum_{k=1}^{l}n_{k},p). ∎

Quando as variáveis XX e YY forem independentes e absolutamente contínuas com densidades fXf_{X} e fYf_{Y}, respectivamente, temos a relação análoga

fX+Y(z)=+fX(x)fY(zx)dx.f_{X+Y}(z)=\int_{-\infty}^{+\infty}f_{X}(x)f_{Y}(z-x)\,\mathrm{d}x. (4.21)

Para justificá-la, tomamos B={(x,y):x+yz}B=\{(x,y):x+y\leqslant z\} e desenvolvemos

FX+Y(z)\displaystyle F_{X+Y}(z) =BfX(x)fY(y)dxdy\displaystyle=\iint_{B}f_{X}(x)f_{Y}(y)\,\mathrm{d}x\mathrm{d}y
=+zxfX(x)fY(y)dydx\displaystyle=\int_{-\infty}^{+\infty}\int_{-\infty}^{z-x}f_{X}(x)f_{Y}(y)\,% \mathrm{d}y\mathrm{d}x
=+zfX(x)fY(ux)dudx\displaystyle=\int_{-\infty}^{+\infty}\int_{-\infty}^{z}f_{X}(x)f_{Y}(u-x)\,% \mathrm{d}u\mathrm{d}x
=z(+fX(x)fY(ux)dx)du,\displaystyle=\int_{-\infty}^{z}\Big{(}\int_{-\infty}^{+\infty}f_{X}(x)f_{Y}(u% -x)\,\mathrm{d}x\Big{)}\mathrm{d}u,

para todo zz\in\mathbb{R}, o que mostra que a função definida em (4.21) é de fato uma densidade de X+YX+Y.

Soma de normais independentes

O caso quando XX e YY são distribuições normais é tão importante que preferimos enunciá-lo como a proposição seguinte.

Proposição 4.22.

Sejam X1𝒩(μ1,σ12)X_{1}\sim\mathcal{N}(\mu_{1},\sigma_{1}^{2}) e X2𝒩(μ2,σ22)X_{2}\sim\mathcal{N}(\mu_{2},\sigma_{2}^{2}) independentes. Então X1+X2𝒩(μ1+μ2,σ12+σ22)X_{1}+X_{2}\sim\mathcal{N}(\mu_{1}+\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2}).

Demonstração.

Como X1μ1𝒩(0,σ12)X_{1}-\mu_{1}\sim\mathcal{N}(0,\sigma_{1}^{2}) e X2μ2𝒩(0,σ22)X_{2}-\mu_{2}\sim\mathcal{N}(0,\sigma_{2}^{2}), podemos supor sem perda de generalidade que μ1=μ2=0\mu_{1}=\mu_{2}=0. A densidade de X+YX+Y é então dada por

fX+Y(z)=12πσ1σ2+e(zx)22σ22ex22σ12dx.f_{X+Y}(z)=\frac{1}{2\pi\sigma_{1}\sigma_{2}}\int_{-\infty}^{+\infty}e^{-\frac% {(z-x)^{2}}{2\sigma_{2}^{2}}}e^{-\frac{x^{2}}{2\sigma_{1}^{2}}}\,\mathrm{d}x.

Para simplificar, escrevemos a=2σ22a=2\sigma_{2}^{2} e b=2σ12b=2\sigma_{1}^{2}. Utilizando a identidade

1a(zx)2+1bx2=(a+bab)(xbza+b)2+1a+bz2,\frac{1}{a}(z-x)^{2}+\frac{1}{b}x^{2}=\Big{(}\frac{a+b}{ab}\Big{)}\Big{(}x-% \frac{bz}{a+b}\Big{)}^{2}+\frac{1}{a+b}z^{2},

válida para todos a>0a>0, b>0b>0, zz\in\mathbb{R} e xx\in\mathbb{R}, obtemos

fX+Y(z)\displaystyle f_{X+Y}(z) =12πσ1σ2+e(zx)2aex2bdx\displaystyle=\frac{1}{2\pi\sigma_{1}\sigma_{2}}\int_{-\infty}^{+\infty}e^{-% \frac{(z-x)^{2}}{a}}e^{-\frac{x^{2}}{b}}\mathrm{d}x
=12πσ1σ2ez2a+b+e(a+bab)(xbza+b)2dx\displaystyle=\frac{1}{2\pi\sigma_{1}\sigma_{2}}e^{-\frac{z^{2}}{a+b}}\int_{-% \infty}^{+\infty}e^{-(\frac{a+b}{ab})(x-\frac{bz}{a+b})^{2}}\mathrm{d}x
=12πσ1σ2πaba+bez2a+b\displaystyle=\frac{1}{2\pi\sigma_{1}\sigma_{2}}\cdot\sqrt{\pi\tfrac{ab}{a+b}}% \cdot e^{-\frac{z^{2}}{a+b}}
=12π(σ12+σ22)ez22(σ12+σ22).\displaystyle=\tfrac{1}{\sqrt{2\pi(\sigma_{1}^{2}+\sigma_{2}^{2})}}\cdot e^{-% \frac{z^{2}}{2(\sigma_{1}^{2}+\sigma_{2}^{2})}}.

Portanto fX+Yf_{X+Y} corresponde à densidade de uma distribuição 𝒩(0,σ12+σ22)\mathcal{N}(0,\sigma_{1}^{2}+\sigma_{2}^{2}), como queríamos demonstrar. ∎

Usando a Observação 4.13, pode-se verificar indutivamente que se X1,,XnX_{1},\dots,X_{n} são variáveis aleatórias independentes com Xk𝒩(μk,σk2)X_{k}\sim\mathcal{N}(\mu_{k},\sigma_{k}^{2}), então k=1nXk𝒩(k=1nμk,k=1nσk2)\sum_{k=1}^{n}X_{k}\sim\mathcal{N}(\sum_{k=1}^{n}\mu_{k},\sum_{k=1}^{n}\sigma^% {2}_{k}). Em palavras, soma de normais independentes é uma variável normal cujos parâmetros são as somas dos respectivos parâmetros.

Exemplo 4.23.

Uma fábrica produz parafusos cujos comprimentos são independentes e têm distribuição 𝒩(μ,σ2)\mathcal{N}(\mu,\sigma^{2}). É retirada uma amostra aleatória de nn parafusos e calculada a média aritmética dos comprimentos da amostra. Qual a probabilidade da média observada diferir do valor médio teórico, μ\mu, mais que uma tolerância δ\delta? Sejam X1,,XnX_{1},\dots,X_{n} os comprimentos dos parafusos da amostra e Sn=k=1nXkS_{n}=\sum_{k=1}^{n}X_{k}, estamos interessados em determinar quanto vale

(|Snnμ|<δ).\mathbb{P}\big{(}\big{|}\tfrac{S_{n}}{n}-\mu\big{|}<\delta\big{)}.

Como X1,,XnX_{1},\dots,X_{n} são independentes e com distribuição 𝒩(μ,σ2)\mathcal{N}(\mu,\sigma^{2}), segue que Sn𝒩(nμ,nσ2)S_{n}\sim\mathcal{N}(n\mu,n\sigma^{2}), ou seja, Snnμσn\tfrac{S_{n}-n\mu}{\sigma\sqrt{n}} tem distribuição 𝒩(0,1)\mathcal{N}(0,1). Desse modo

(|Snnμ|<δ)\displaystyle\mathbb{P}\big{(}\big{|}\tfrac{S_{n}}{n}-\mu\big{|}<\delta\big{)} =(|Snnμσn|<δnσ)\displaystyle=\mathbb{P}\big{(}\big{|}\tfrac{S_{n}-n\mu}{\sigma\sqrt{n}}\big{|% }<\tfrac{\delta\sqrt{n}}{\sigma}\big{)}
=Φ(δnσ)Φ(δnσ)=2Φ(δnσ)1.\displaystyle=\Phi(\tfrac{\delta\sqrt{n}}{\sigma})-\Phi(-\tfrac{\delta\sqrt{n}% }{\sigma})=2\Phi(\tfrac{\delta\sqrt{n}}{\sigma})-1.

Por exemplo, se n=25n=25, δ=0,200\delta=0{,}200 e σ=0,600\sigma=0{,}600, podemos calcular o valor acima consultando a tabela na página Tabela Normal e obter

2Φ(δnσ)12Φ(1,67)10,904,2\Phi(\tfrac{\delta\sqrt{n}}{\sigma})-1\approx 2\Phi(1{,}67)-1\approx 0{,}904,

com três algarismos significativos.

Outra pergunta que poderíamos fazer é: qual o tamanho mínimo da amostra de modo que a média observada difira de μ\mu por no máximo δ\delta unidades com probabilidade superior a 1α1-\alpha (nível de confiabilidade). Ou seja, devemos encontrar o menor zαz_{\alpha} tal que

(|𝒩(0,1)|zα)=2Φ(zα)11α.\mathbb{P}(|\mathcal{N}(0,1)|\leqslant z_{\alpha})=2\Phi(z_{\alpha})-1% \geqslant 1-\alpha.

Novamente com auxílio da tabela da distribuição normal, podemos encontrar zαz_{\alpha} de modo que Φ(zα)=1α2\Phi(z_{\alpha})=1-\frac{\alpha}{2} e posteriormente escolher nn de modo que δnσzα\frac{\delta\sqrt{n}}{\sigma}\geqslant z_{\alpha}. Por exemplo, se α=0,060,δ=0,200\alpha=0{,}060,\ \delta=0{,}200 e σ=0,600\sigma=0{,}600, então zα1,88z_{\alpha}\approx 1{,}88 e n=zα2σ2δ2=32n=\lceil z_{\alpha}^{2}\sigma^{2}\delta^{-2}\rceil=32. Ou seja, um aumento de 2525 para 3232 no tamanho da amostra aumenta de 0,9040{,}904 para 0,9400{,}940 nosso grau de confiança de a média observada diferir de μ\mu menos que δ=0,200\delta=0{,}200.

Há três variáveis que se relacionam neste problema: nn, δ\delta e α\alpha. Dadas quaisquer duas delas podemos determinar a terceira. Como exemplo do caso faltante, suponha que uma amostra de tamanho n=25n=25 é retirada, gostaríamos de afirmar que com probabilidade superior a 0,9900{,}990 nossa média observada tem um grau de precisão δ\delta. Qual o menor valor de δ\delta? Como no caso anterior, para α=0,010\alpha=0{,}010, resolvendo Φ(zα)=1α2\Phi(z_{\alpha})=1-\frac{\alpha}{2}, obtemos z0,α2,58z_{0,\alpha}\approx 2{,}58. Assim, δ=zσn1/20,310\delta=z\sigma n^{-1/2}\approx 0{,}310. Ou seja, para a amostra de tamanho n=25n=25, a margem de erro aumentou de 0,2000{,}200 para 0,3100{,}310 se quisermos aumentar a confiança de 0,9040{,}904 para 0,9900{,}990. ∎