6.2 Correlação

Nesta seção vamos introduzir o coeficiente de correlação, estudar suas propriedades, e relacioná-lo com o método dos mínimos quadrados. Observamos que esta seção não será usada no restante do livro.

Dada uma variável aleatória XX não-degenerada com segundo momento finito, definimos a padronização de XX como sendo a variável aleatória

X~=X𝔼X𝕍X.\tilde{X}=\frac{X-\mathbb{E}X}{\sqrt{\mathbb{V}X}}.

Ou seja, a padronização é a transformação afim crescente que leva XX em X~\tilde{X} com as propriedades que 𝔼X~=0\mathbb{E}\tilde{X}=0 e 𝕍X~=1\mathbb{V}\tilde{X}=1. Observe também que a padronização de XX é uma variável aleatória adimensional, pois 𝕍X\sqrt{\mathbb{V}X} é medido na mesma unidade de XX.

Definição 6.15 (Coeficiente de correlação).

Dadas duas variáveis aleatórias XX e YY com variâncias finitas e positivas, definimos o coeficiente de correlação ρ(X,Y)\rho(X,Y) entre XX e YY como:

ρ(X,Y)=𝐂𝐨𝐯(X𝔼Xσ(X),Y𝔼Yσ(Y)).\rho(X,Y)=\mathop{\mathbf{Cov}}\nolimits\left(\frac{X-\mathbb{E}X}{\sigma(X)},% \frac{Y-\mathbb{E}Y}{\sigma(Y)}\right).

O coeficiente de correlação é adimensional, pois ele depende apenas das padronizações de XX e YY. Outras propriedades do coeficiente de correlação são dadas na proposição a seguir.

Proposição 6.16 (Propriedades do coeficiente de correlação).

Dadas XX e YY variáveis aleatórias com variâncias finitas e positivas, valem:

  1. (1)

    ρ(X,Y)=ρ(Y,X)\rho(X,Y)=\rho(Y,X);

  2. (2)

    ρ(X,Y)=𝐂𝐨𝐯(X,Y)σ(X)σ(Y)\rho(X,Y)=\frac{\mathop{\mathbf{Cov}}\nolimits(X,Y)}{\sigma(X)\sigma(Y)};

  3. (3)

    ρ(X,X)=1\rho(X,X)=1;

  4. (4)

    ρ(aX+b,Y)=a|a|ρ(X,Y)\rho(aX+b,Y)=\frac{a}{|a|}\rho(X,Y) se a,b,a0a,b\in\mathbb{R},\ a\neq 0;

  5. (5)

    ρ(aX+b,cY+d)=ac|ac|ρ(X,Y)\rho(aX+b,cY+d)=\frac{ac}{|ac|}\rho(X,Y) se a,b,c,da,b,c,d\in\mathbb{R} e a,c0a,c\neq 0.

Demonstração.

O item (1) é imediato da definição de coeficiente de correlação e da simetria da covariância. Para o item (2) basta utilizar o item (2) da Proposição 6.14. Do item (2) segue que ρ(X,X)=𝐂𝐨𝐯(X,X)(σ(X))2=𝕍X(σ(X)2)=1\rho(X,X)=\frac{\mathop{\mathbf{Cov}}\nolimits(X,X)}{(\sigma(X))^{2}}=\frac{% \mathbb{V}X}{(\sigma(X)^{2})}=1, o que prova o item (3). Para mostrar o item (4), calculamos

ρ(aX+b,Y)\displaystyle\rho(aX+b,Y) =𝐂𝐨𝐯(aX+b,Y)σ(aX+b)σ(Y)=a𝐂𝐨𝐯(X,Y)+b𝐂𝐨𝐯(1,Y)|a|σ(X)σ(Y)\displaystyle=\frac{\mathop{\mathbf{Cov}}\nolimits(aX+b,Y)}{\sigma(aX+b)\sigma% (Y)}=\frac{a\mathop{\mathbf{Cov}}\nolimits(X,Y)+b\mathop{\mathbf{Cov}}% \nolimits(1,Y)}{|a|\sigma(X)\sigma(Y)}
=a𝐂𝐨𝐯(X,Y)|a|σ(X)σ(Y)=a|a|ρ(X,Y),\displaystyle=\ \frac{a\mathop{\mathbf{Cov}}\nolimits(X,Y)}{|a|\sigma(X)\sigma% (Y)}=\frac{a}{|a|}\rho(X,Y),

onde a segunda e a terceira igualdades acima seguem dos itens (2)(1) da Proposição 6.14, respectivamente.

Provamos o item (5) utilizando os itens (1)(4):

ρ(aX+b,cY+d)\displaystyle\rho(aX+b,cY+d) =a|a|ρ(X,cY+d)=a|a|ρ(cY+d,X)\displaystyle=\tfrac{a}{|a|}\rho(X,cY+d)=\tfrac{a}{|a|}\rho(cY+d,X)
=ac|ac|ρ(Y,X)=ac|ac|ρ(X,Y).\displaystyle=\frac{ac}{|ac|}\rho(Y,X)=\tfrac{ac}{|ac|}\rho(X,Y).\qed
Exemplo 6.17.

Sejam (X,Y)(X,Y) vetor aleatório com densidade conjunta dada por fXY(x,y)=𝟙[0,1](x)𝟙[0,1](y)f_{XY}(x,y)=\mathds{1}_{[0,1]}(x)\mathds{1}_{[0,1]}(y), Z=min{X,Y}Z=\min\{X,Y\} e W=max{X,Y}W=\max\{X,Y\}, então:

𝔼[ZW]\displaystyle\mathbb{E}[ZW] =𝔼[XY]=0101xydxdy=14\displaystyle=\mathbb{E}[XY]=\int_{0}^{1}\int_{0}^{1}xy\,\mathrm{d}x\mathrm{d}% y=\frac{1}{4}
𝔼Z\displaystyle\mathbb{E}Z =01[0xydy+x1xdy]dx=01(x22+xx2)dx=13\displaystyle=\int_{0}^{1}\left[\int_{0}^{x}y\mathrm{d}y+\int_{x}^{1}x\mathrm{% d}y\right]\mathrm{d}x=\int_{0}^{1}{\textstyle(\frac{x^{2}}{2}+x-x^{2})}\mathrm% {d}x=\frac{1}{3}
𝔼W\displaystyle\mathbb{E}W =01[0xxdy+x1ydy]dx=01(x2+12x22)dx=23\displaystyle=\int_{0}^{1}\left[\int_{0}^{x}x\mathrm{d}y+\int_{x}^{1}y\mathrm{% d}y\right]\mathrm{d}x=\int_{0}^{1}{\textstyle(x^{2}+\frac{1}{2}-\frac{x^{2}}{2% })}\mathrm{d}x=\frac{2}{3}

Logo, 𝐂𝐨𝐯(Z,W)=𝔼[ZW]𝔼Z𝔼W=136\mathop{\mathbf{Cov}}\nolimits(Z,W)=\mathbb{E}[ZW]-\mathbb{E}Z\cdot\mathbb{E}W% =\frac{1}{36}.

Continuando,

𝔼Z2\displaystyle\mathbb{E}Z^{2} =01[0xy2dy+x1x2dy]dx=01(x33+x2x3)dx=16\displaystyle=\int_{0}^{1}\left[\int_{0}^{x}y^{2}\mathrm{d}y+\int_{x}^{1}x^{2}% \mathrm{d}y\right]\mathrm{d}x=\int_{0}^{1}{\textstyle(\frac{x^{3}}{3}+x^{2}-x^% {3})}\mathrm{d}x=\frac{1}{6}
𝕍Z\displaystyle\mathbb{V}Z =𝔼Z2(𝔼Z)2=1619=118\displaystyle=\mathbb{E}Z^{2}-(\mathbb{E}Z)^{2}=\frac{1}{6}-\frac{1}{9}=\frac{% 1}{18}
𝕍W\displaystyle\mathbb{V}W =exercício=118\displaystyle=\cdots\text{exerc\'{\i}cio}\cdots=\frac{1}{18}
ρ(Z,W)\displaystyle\rho(Z,W) =𝐂𝐨𝐯(Z,W)σ(Z)σ(W)=1/361/181/18=12.\displaystyle=\frac{\mathop{\mathbf{Cov}}\nolimits(Z,W)}{\sigma(Z)\sigma(W)}=% \frac{1/36}{\sqrt{1/18}\sqrt{1/18}}=\frac{1}{2}.\qed

Já sabíamos que o coeficiente de correlação é invariante pela padronização das variáveis. O último item da proposição acima nos diz algo mais forte. O valor absoluto do coeficiente de correlação ρ(X,Y)\rho(X,Y) é preservado por quaisquer transformações afins não-constantes que façamos nas variáveis XX e YY.

O coeficiente de correlação é uma indicação do grau de dependência linear entre as variáveis aleatórias XX e YY. A proposição a seguir dá ainda mais sentido a esta afirmação.

Proposição 6.18.

Sejam XX e YY variáveis aleatórias não-degeneradas com segundo momento finito. Então 1ρ(X,Y)1-1\leqslant\rho(X,Y)\leqslant 1. Ademais, ρ(X,Y)=±1\rho(X,Y)=\pm 1 se, e somente se, Y=±aX+bY=\pm aX+b q.c. para algum a>0a>0 e bb\in\mathbb{R}.

Veremos a demonstração na próxima seção, como corolário da Desigualdade de Cauchy-Schwarz.

Correlação e o método dos mínimos quadrados

O leitor talvez se lembre dos laboratórios de ciências naturais, em que escolhiam-se distintos valores x1,,xnx_{1},\dots,x_{n} de uma determinada grandeza, observavam-se valores correspondentes y1,,yny_{1},\dots,y_{n} de uma outra grandeza que supostamente depende da primeira, e tentava-se traçar a reta y=ax+by=ax+b que melhor se aproximasse dos nn pontos (x1,yy),,(xn,yn)(x_{1},y_{y}),\dots,(x_{n},y_{n}) no plano, como ilustrado na Figura 6.1. O critério mais comum para dizer que uma reta y=ax+by=ax+b se aproxime desses pontos mais que outras é o de minimizar o erro quadrático médio, dado por 1nj(axj+byj)2\frac{1}{n}\sum_{j}(ax_{j}+b-y_{j})^{2}.

Uma coleção de
Figura 6.1: Uma coleção de 2020 pontos e a reta que minimiza a soma dos quadrados dos comprimentos dos segmentos tracejados.

Usando notação zj¯=1njzj\overline{z_{j}}=\frac{1}{n}\sum_{j}z_{j}, queremos minimizar g(a,b)=(axj+byj)2¯g(a,b)=\overline{(ax_{j}+b-y_{j})^{2}}. O ponto que minimiza gg satisfaz g=0\vec{\nabla}g=\vec{0}, ou seja, ga=gb=0\frac{\partial g}{\partial a}=\frac{\partial g}{\partial b}=0.

Calculando as derivadas parciais, obtemos

ag(a,b)\displaystyle\tfrac{\partial}{\partial a}g(a,b) =2xj(axj+byj)¯=2axj2¯+2bxj¯2xjyj¯,\displaystyle=\overline{2x_{j}(ax_{j}+b-y_{j})}=2a\,\overline{x_{j}^{2}}+2b\,% \overline{x_{j}}-2\,\overline{x_{j}y_{j}},
bg(a,b)\displaystyle\tfrac{\partial}{\partial b}g(a,b) =2axj+byj¯=2axj¯+2b2yj¯.\displaystyle=2\,\overline{ax_{j}+b-y_{j}}=2a\,\overline{x_{j}}+2b-2\,% \overline{y_{j}}.

Resolvendo o sistema linear ga=gb=0\frac{\partial g}{\partial a}=\frac{\partial g}{\partial b}=0, obtemos

a=xjyj¯xj¯yj¯xj2¯xj¯2 e b=yj¯axj¯.a=\frac{\overline{x_{j}y_{j}}-\overline{x_{j}}\cdot\overline{y_{j}}}{\overline% {x_{j}^{2}}-\overline{x_{j}}^{2}}\quad\text{ e }\quad b=\overline{y_{j}}-a\,% \overline{x_{j}}.

Agora considere o experimento aleatório que consiste em selecionar um desses nn pontos ao acaso, ou seja, assuma que (X,Y)(X,Y) é um vetor aleatório que assume os valores (x1,y1),,(xn,yn)(x_{1},y_{1}),\dots,(x_{n},y_{n}) com probabilidade 1n\frac{1}{n} cada. Neste caso, a solução acima pode ser escrita como

a=𝐂𝐨𝐯(X,Y)𝕍X=ρ(X,Y)σ(Y)σ(X) e b=𝔼Ya𝔼X.a=\frac{\mathop{\mathbf{Cov}}\nolimits(X,Y)}{\mathbb{V}X}=\rho(X,Y)\frac{% \sigma(Y)}{\sigma(X)}\quad\text{ e }\quad b=\mathbb{E}Y-a\,\mathbb{E}X.

Ou seja, se padronizamos tanto XX quanto YY, a reta passará pela origem e sua inclinação será justamente o coeficiente de correlação.

Ademais, o problema original pode ser reescrito como: encontre aa e bb tal que

𝔼(aX+bY)2\mathbb{E}(aX+b-Y)^{2}

seja o menor possível. Ou seja, de todas as variáveis aleatórias Y^\hat{Y} que podem ser expressas como Y^=aX+b\hat{Y}=aX+b para algum aa e algum bb, encontramos aquela que minimiza 𝔼(Y^Y)2\mathbb{E}(\hat{Y}-Y)^{2}.