6.1 Momentos e variância

Sejam XX e YY variáveis aleatórias com distribuições uniformes em [1,+1][-1,+1] e {1,+1}\{-1,+1\}, respectivamente. Está claro que XX tem uma dispersão de seus valores em torno de sua média menor que a de YY. Um dos objetivos desta seção é quantificar o quanto uma variável aleatória se espalha em torno de determinado valor e, em particular, o quanto ela se espalha em torno de sua média.

Definição 6.1.

Dada uma variável aleatória XX e k=1,2,3,k=1,2,3,\dots, definimos o kk-ésimo momento de XX como 𝔼Xk\mathbb{E}X^{k}, caso XkX^{k} seja integrável. Neste caso, dizemos que XX tem kk-ésimo momento finito, e definimos o kk-ésimo momento central de XX como 𝔼(X𝔼X)k\mathbb{E}(X-\mathbb{E}X)^{k}.

Observamos que, se XX tem kk-ésimo momento finito, então XX tem jj-ésimo momento finito para j=1,,kj=1,\dots,k (pois |X|j1+|X|k|X|^{j}\leqslant 1+|X|^{k}) e, em particular, o kk-ésimo momento central está bem definido.

Exemplo 6.2.

Se X𝒰[0,1]X\sim\mathcal{U}[0,1], então

𝔼X=01xdx=12,𝔼X2=01x2dx=13,𝔼Xk=01xkdx=1k+1,\mathbb{E}X=\int_{0}^{1}x\,\mathrm{d}x=\frac{1}{2},\quad\mathbb{E}X^{2}=\int_{% 0}^{1}x^{2}\,\mathrm{d}x=\frac{1}{3},\quad\mathbb{E}X^{k}=\int_{0}^{1}x^{k}\,% \mathrm{d}x=\frac{1}{k+1},

e o segundo momento central é dado por

𝔼(X12)2=01(x12)2dx=112.\mathbb{E}\big{(}X-\textstyle\frac{1}{2}\big{)}^{2}=\int_{0}^{1}\big{(}x-% \textstyle\frac{1}{2}\big{)}^{2}\,\mathrm{d}x=\frac{1}{12}.\qed

Como veremos a seguir, o segundo momento central é um excelente quantificador da dispersão de variável aleatória XX em torno de sua média, com propriedades muito especiais.

Definição 6.3 (Variância).

Seja XX uma variável aleatória integrável. Define-se a variância da variável aleatória XX, denotada por 𝕍X\mathbb{V}X, como

𝕍X=𝔼(X𝔼X)2.\mathbb{V}X=\mathbb{E}(X-\mathbb{E}X)^{2}.
Exemplo 6.4.

Se X𝒰[0,1]X\sim\mathcal{U}[0,1], então 𝔼X=12\mathbb{E}X=\frac{1}{2} e 𝕍X=112\mathbb{V}X=\frac{1}{12}, como calculado no Exemplo 6.2. ∎

Proposição 6.5 (Propriedades da variância).

Seja XX uma variável aleatória com segundo momento finito. Então:

  1. (1)

    𝕍X=𝔼X2(𝔼X)2\mathbb{V}X=\mathbb{E}X^{2}-(\mathbb{E}X)^{2}. Em particular, 𝕍X𝔼X2\mathbb{V}X\leqslant\mathbb{E}X^{2}.

  2. (2)

    𝕍X0\mathbb{V}X\geqslant 0. Além disso, 𝕍X=0\mathbb{V}X=0 se, e somente se, X=𝔼XX=\mathbb{E}X q.c.

  3. (3)

    𝕍[aX+b]=a2𝕍X\mathbb{V}[aX+b]=a^{2}\,\mathbb{V}X.

Demonstração.

Para o item (1), basta expandir 𝕍X=𝔼(X𝔼X)2=𝔼[X22X𝔼X+(𝔼X)2]=𝔼X2(𝔼X)2\mathbb{V}X=\mathbb{E}(X-\mathbb{E}X)^{2}=\mathbb{E}[X^{2}-2X\mathbb{E}X+(% \mathbb{E}X)^{2}]=\mathbb{E}X^{2}-(\mathbb{E}X)^{2}.

Para o item (2), 𝕍X0\mathbb{V}X\geqslant 0 pois (X𝔼X)20(X-\mathbb{E}X)^{2}\geqslant 0. Pelo item (4) da Proposição 5.31, 𝕍X=0\mathbb{V}X=0 implica que X=𝔼XX=\mathbb{E}X quase certamente; a recíproca é imediata.

Para provar o item (3), expandimos 𝕍[aX+b]=𝔼(aX+b𝔼[aX+b])2=a2𝔼(X𝔼X)2=a2𝕍X\mathbb{V}[aX+b]=\mathbb{E}(aX+b-\mathbb{E}[aX+b])^{2}=a^{2}\,\mathbb{E}(X-% \mathbb{E}X)^{2}=a^{2}\,\mathbb{V}X. ∎

Exemplo 6.6.

Se XBernoulli(p)X\sim\mathop{\mathrm{Bernoulli}}\nolimits(p), então

𝔼X=p,𝔼X2=p,𝕍X=𝔼X2(𝔼X)2=pp2=p(1p).\mathbb{E}X=p,\quad\mathbb{E}X^{2}=p,\quad\mathbb{V}X=\mathbb{E}X^{2}-(\mathbb% {E}X)^{2}=p-p^{2}=p(1-p).\qed

Observe que a variância é máxima no caso simétrico p=12p=\frac{1}{2}.

Exemplo 6.7.

Seja X𝒩(μ,σ2)X\sim\mathcal{N}(\mu,\sigma^{2}). Sabemos que X=σZ+μX=\sigma Z+\mu com Z𝒩(0,1)Z\sim\mathcal{N}(0,1) (Exercício 3.28) e que 𝔼Z2=1\mathbb{E}Z^{2}=1 (Exemplo 5.41). Usando proposição acima, obtemos 𝕍X=σ2\mathbb{V}X=\sigma^{2}. ∎

Exemplo 6.8.

Se X𝒰[a,b]X\sim\mathcal{U}[a,b] então Xa+(ba)UX\sim a+(b-a)U, onde UU é uma uniforme no intervalo [0,1][0,1], cuja variância foi calculada no Exemplo 6.4. Logo, segue do item (3) da proposição anterior que 𝕍X=(ba)212\mathbb{V}X=\frac{(b-a)^{2}}{12}. ∎

Podemos observar que 𝕍X\mathbb{V}X é uma medida da dispersão de XX em torno de sua média, mas que dimensionalmente não é expressa nas mesmas unidades de XX. Por exemplo, se XX for medida em kg\mathrm{kg} então 𝕍X\mathbb{V}X é medida em kg2\mathrm{kg}^{2}. Para que tenhamos uma medida de dispersão na mesma escala da variável aleatória XX, somos motivados a introduzir a próxima definição.

Definição 6.9 (Desvio-padrão).

O desvio-padrão σ(X)\sigma(X) da variável aleatória XX é dado pela raiz quadrada da variância 1111 11 O significado de σ(X)\sigma(X) neste capítulo, bem como no Capítulo 9, é completamente diferente daquele nas seções mais avançadas dos Capítulos 35, bem como nos Capítulos 11, 12 e 13. Essa reutilização da letra σ\sigma não deve causar confusão.

σ(X)=𝕍X.\sigma(X)=\sqrt{\mathbb{V}X}.
Exemplo 6.10.

Se XBernoulli(12)X\sim\mathop{\mathrm{Bernoulli}}\nolimits(\frac{1}{2}), então

σ(X)=𝕍X=14=12.\sigma(X)=\sqrt{\mathbb{V}X}=\sqrt{\tfrac{1}{4}}=\tfrac{1}{2}.\qed
Exemplo 6.11.

Se X𝒩(μ,σ2)X\sim\mathcal{N}(\mu,\sigma^{2}), do Exemplo 6.7, segue que σ(X)=σ\sigma(X)=\sigma. ∎

Gostaríamos de estudar a variância da soma de duas ou mais variáveis aleatórias e, se possível, relacioná-la com a variância das variáveis envolvidas. Expandindo a fórmula da variância, obtemos

𝕍[X+Y]\displaystyle\mathbb{V}[X+Y] =𝕍X+𝕍Y+2𝔼[(X𝔼X)(Y𝔼Y)].\displaystyle=\ \mathbb{V}X+\mathbb{V}Y+2\,\mathbb{E}[(X-\mathbb{E}X)\cdot(Y-% \mathbb{E}Y)].

Ou seja, a variância de X+YX+Y é igual à soma das variâncias de XX e de YY, mais um termo cruzado que envolve ambas as variáveis. Isto nos motiva a introduzir o seguinte conceito.

Definição 6.12 (Covariância).

Dadas duas variáveis aleatórias XX e YY com segundo momento finito, definimos a covariância de XX e YY como

𝐂𝐨𝐯(X,Y)=𝔼[(X𝔼X)(Y𝔼Y)].\mathop{\mathbf{Cov}}\nolimits(X,Y)=\mathbb{E}\left[(X-\mathbb{E}X)(Y-\mathbb{% E}Y)\right].

A expressão acima está definida e é finita, pois |xy|x2+y2|xy|\leqslant x^{2}+y^{2}.

Observe que 𝐂𝐨𝐯(X,X)=𝕍X\mathop{\mathbf{Cov}}\nolimits(X,X)=\mathbb{V}X, 𝐂𝐨𝐯(X,Y)=𝐂𝐨𝐯(Y,X)\mathop{\mathbf{Cov}}\nolimits(X,Y)=\mathop{\mathbf{Cov}}\nolimits(Y,X) (a covariância é simétrica), e

𝐂𝐨𝐯(X,Y)=𝔼[XY]𝔼X𝔼Y.\mathop{\mathbf{Cov}}\nolimits(X,Y)=\mathbb{E}[XY]-\mathbb{E}X\cdot\mathbb{E}Y.

Se 𝐂𝐨𝐯(X,Y)=0\mathop{\mathbf{Cov}}\nolimits(X,Y)=0, dizemos que XX e YY são não-correlacionadas, e isso vale se, e somente se, 𝕍[X+Y]=𝕍X+𝕍Y\mathbb{V}[X+Y]=\mathbb{V}X+\mathbb{V}Y. Se as variáveis aleatórias XX e YY são independentes e têm segundo momento finito então XX e YY são não-correlacionadas e 𝕍[X+Y]=𝕍X+𝕍Y\mathbb{V}[X+Y]=\mathbb{V}X+\mathbb{V}Y. Entretanto, nem sempre vale a recíproca, pois 𝔼[XY]=𝔼X𝔼Y\mathbb{E}[XY]=\mathbb{E}X\cdot\mathbb{E}Y não implica XX e YY independentes.

Exemplo 6.13.

Sejam XX e YY variáveis aleatórias tomando valores 1,0,1-1,0,1 com distribuição conjunta dada por p(1,1)=p(1,1)=p(1,1)=p(1,1)=p(0,0)=15p(-1,-1)=p(-1,1)=p(1,-1)=p(1,1)=p(0,0)=\frac{1}{5}. Então 𝐂𝐨𝐯(X,Y)=0\mathop{\mathbf{Cov}}\nolimits(X,Y)=0, mas XX e YY não são independentes. ∎

Outras propriedades importantes da covariância são dadas na proposição abaixo.

Proposição 6.14 (Propriedades da Covariância).

Sejam X,X1,,XnX,X_{1},\dots,X_{n} e Y,Y1,,YmY,Y_{1},\dots,Y_{m} variáveis aleatórias com segundo momento finito e a1,,an,a_{1},\dots,a_{n}, e b1,,bm,cb_{1},\dots,b_{m},c números reais. Então:

  1. (1)

    𝐂𝐨𝐯(X,c)=0\mathop{\mathbf{Cov}}\nolimits(X,c)=0 para todo cc\in\mathbb{R};

  2. (2)

    𝐂𝐨𝐯(kakXk,jbjYj)=kjakbj𝐂𝐨𝐯(Xk,Yj);\mathop{\mathbf{Cov}}\nolimits(\sum_{k}a_{k}X_{k},\sum_{j}b_{j}Y_{j})=\sum_{k}% \sum_{j}a_{k}b_{j}\mathop{\mathbf{Cov}}\nolimits(X_{k},Y_{j});

  3. (3)

    𝕍[k=1nXk]=k=1n𝕍Xk+21k<jn𝐂𝐨𝐯(Xk,Xj).\mathbb{V}\big{[}\sum_{k=1}^{n}X_{k}\big{]}=\sum_{k=1}^{n}\mathbb{V}X_{k}+2% \sum_{1\leqslant k<j\leqslant n}\mathop{\mathbf{Cov}}\nolimits(X_{k},X_{j}).

Demonstração.

Expandindo 𝐂𝐨𝐯(X,c)=𝔼[cX]𝔼X𝔼[c]=c𝔼Xc𝔼X=0\mathop{\mathbf{Cov}}\nolimits(X,c)=\mathbb{E}[cX]-\mathbb{E}X\cdot\mathbb{E}[% c]=c\,\mathbb{E}X-c\,\mathbb{E}X=0, mostramos o item (1). O item (2) segue da expansão

𝔼[(kakXk)(jbjYj)]𝔼[kakXk]𝔼[jbjYj]\displaystyle\mathbb{E}\big{[}\big{(}\sum_{k}a_{k}X_{k}\big{)}\big{(}\sum_{j}b% _{j}Y_{j}\big{)}\big{]}-\mathbb{E}\big{[}\sum_{k}a_{k}X_{k}\big{]}\mathbb{E}% \big{[}\sum_{j}b_{j}Y_{j}\big{]}
=𝔼[k,jakbjXkYj](kak𝔼Xk)(jbj𝔼Yj)\displaystyle=\mathbb{E}\big{[}\sum_{k,j}a_{k}b_{j}X_{k}Y_{j}\big{]}-\big{(}% \sum_{k}a_{k}\mathbb{E}X_{k}\big{)}\big{(}\sum_{j}b_{j}\mathbb{E}Y_{j}\big{)}
=k,jakbj𝔼[XkYj](k,jakbj𝔼Xk𝔼Yj)\displaystyle=\sum_{k,j}a_{k}b_{j}\mathbb{E}[X_{k}Y_{j}]-\big{(}\sum_{k,j}a_{k% }b_{j}\mathbb{E}X_{k}\cdot\mathbb{E}Y_{j}\big{)}
=kjakbj𝐂𝐨𝐯(Xk,Yj).\displaystyle=\sum_{k}\sum_{j}a_{k}b_{j}\mathop{\mathbf{Cov}}\nolimits(X_{k},Y% _{j}).

Para provar o item (3), expandimos

𝕍[k=1nXk]\displaystyle\mathbb{V}\big{[}\sum_{k=1}^{n}X_{k}\big{]} =𝐂𝐨𝐯(k=1nXk,j=1nXj)=k=1nj=1n𝐂𝐨𝐯(Xk,Xj)\displaystyle=\mathop{\mathbf{Cov}}\nolimits\Big{(}\sum_{k=1}^{n}X_{k},\sum_{j% =1}^{n}X_{j}\Big{)}=\sum_{k=1}^{n}\sum_{j=1}^{n}\mathop{\mathbf{Cov}}\nolimits% (X_{k},X_{j})
=k=1n𝐂𝐨𝐯(Xk,Xk)+k=1nj=1n𝟙kj𝐂𝐨𝐯(Xk,Xj)\displaystyle=\sum_{k=1}^{n}\mathop{\mathbf{Cov}}\nolimits(X_{k},X_{k})+\sum_{% k=1}^{n}\sum_{j=1}^{n}\mathds{1}_{k\neq j}\mathop{\mathbf{Cov}}\nolimits(X_{k}% ,X_{j})

e observamos que todo par de kk e jj distintos aparece duas vezes na última soma acima. ∎

Pelo último item acima, se as variáveis aleatórias são não-correlacionadas, então a variância da soma é a soma das variâncias.