4.1 Vetores aleatórios

Começamos introduzindo o conceito que intitula este capítulo.

Definição 4.1 (Vetor aleatório).

Dizemos que 𝑿=(X1,,Xn){\boldsymbol{X}}=(X_{1},\dots,X_{n}) é um vetor aleatório se XjX_{j} for variável aleatória para todo j=1,,nj=1,\dots,n.

Dado um espaço de probabilidade (Ω,,)(\Omega,\mathcal{F},\mathbb{P}) e um vetor aleatório 𝑿{\boldsymbol{X}}, definimos o espaço de probabilidade induzido por 𝐗{\boldsymbol{X}} como (n,(n),𝑿)(\mathbb{R}^{n},\mathcal{B}(\mathbb{R}^{n}),\mathbb{P}_{{\boldsymbol{X}}}), onde

𝑿(B)=({ω:𝑿(ω)B}),B(n),\mathbb{P}_{{\boldsymbol{X}}}(B)=\mathbb{P}\left(\{\omega:{\boldsymbol{X}}(% \omega)\in B\}\mathclap{\phantom{\big{|}}}\right),\quad B\in\mathcal{B}(% \mathbb{R}^{n}), (4.2)

e (n)\mathcal{B}(\mathbb{R}^{n}) é a σ\sigma-álgebra de Borel em n\mathbb{R}^{n}, definida na Seção 1.4.1. Ou seja, o espaço amostral é o conjunto n\mathbb{R}^{n} dos vetores nn-dimensionais, os eventos aleatórios são os conjuntos borelianos em n\mathbb{R}^{n}, e a medida de probabilidade é aquela induzida por 𝑿{\boldsymbol{X}}. Chamaremos de distribuição conjunta do vetor aleatório 𝐗{\boldsymbol{X}} a medida de probabilidade 𝑿\mathbb{P}_{{\boldsymbol{X}}} em n\mathbb{R}^{n} induzida por 𝑿{\boldsymbol{X}}. Segue do Lema 3.45 que 𝑿\mathbb{P}_{{\boldsymbol{X}}} está definida para todo B(n)B\in\mathcal{B}(\mathbb{R}^{n}).

Dada 𝒙n{\boldsymbol{x}}\in\mathbb{R}^{n} uma nn-upla de números reais, 𝒙=(x1,x2,,xn){\boldsymbol{x}}=(x_{1},x_{2},\dots,x_{n}), denotamos por 𝒙𝒚{\boldsymbol{x}}\leqslant{\boldsymbol{y}} o conjunto de desigualdades xjyj,j=1,,nx_{j}\leqslant y_{j},j=1,\dots,n, isto é, 𝒙𝒚{\boldsymbol{x}}\leqslant{\boldsymbol{y}} se, e somente se, as desigualdades valem para todas as coordenadas simultaneamente.

Definição 4.3 (Função de distribuição conjunta).

A função de distribuição conjunta de um vetor aleatório 𝑿{\boldsymbol{X}}, denotada por F𝑿F_{{\boldsymbol{X}}}, é a função F𝑿:nF_{{\boldsymbol{X}}}:\mathbb{R}^{n}\to\mathbb{R} dada por

F𝑿(𝒙)=(𝑿𝒙).F_{{\boldsymbol{X}}}({{\boldsymbol{x}}})=\mathbb{P}\big{(}{\boldsymbol{X}}% \leqslant{{\boldsymbol{x}}}\big{)}.
Exemplo 4.4.

Lançamos duas moedas honestas e consideramos X1=X_{1}= quantidade de caras, X2=X_{2}= quantidade de coroas, e 𝑿=(X1,X2){\boldsymbol{X}}=(X_{1},X_{2}). Os valores de F𝑿F_{{\boldsymbol{X}}} são mostrados na Figura 4.1.

Valores de
Figura 4.1: Valores de F𝑿(t1,t2)F_{{\boldsymbol{X}}}(t_{1},t_{2}) para cada (t1,t2)2(t_{1},t_{2})\in\mathbb{R}^{2} no Exemplo 4.4.

A prova do teorema abaixo é análoga à do Teorema 3.10, e será dada no Apêndice D.4.

Teorema 4.5.

Se 𝐗{\boldsymbol{X}} e 𝐘{\boldsymbol{Y}} são vetores aleatórios tais que F𝐗(𝐭)=F𝐘(𝐭)F_{{\boldsymbol{X}}}({\boldsymbol{t}})=F_{{\boldsymbol{Y}}}({\boldsymbol{t}}) para todo 𝐭n{\boldsymbol{t}}\in\mathbb{R}^{n}, então 𝐗(B)=𝐘(B)\mathbb{P}_{{\boldsymbol{X}}}(B)=\mathbb{P}_{\boldsymbol{Y}}(B) para todo B(n)B\in\mathcal{B}(\mathbb{R}^{n}).

Ou seja, como no caso de variáveis aleatórias, a função de distribuição conjunta determina a distribuição conjunta de um vetor aleatório. Entretanto, não é usual ou prático especificar 𝑿\mathbb{P}_{{\boldsymbol{X}}} a partir de uma descrição explícita de F𝑿F_{{\boldsymbol{X}}}. Tampouco existe uma forma natural de simular um vetor aleatório a partir de uma função de distribuição conjunta qualquer usando variáveis uniformes, e não existe uma noção natural de quantil (mediana, quartil, percentil, etc.) de vetores aleatórios. De fato, uma generalização do Teorema 3.17 é complicada e de pouco uso prático. Ainda assim, a função de distribuição conjunta tem propriedades muito úteis, como veremos ao longo desta seção.

A partir da função de distribuição conjunta, pode-se obter o comportamento de cada variável isoladamente. A distribuição de uma das coordenadas obtida a partir da distribuição conjunta é chamada de distribuição marginal.

Proposição 4.6.

Seja FXkF_{X_{k}} a função de distribuição da kk-ésima coordenada do vetor 𝐗=(X1,,Xn){\boldsymbol{X}}=(X_{1},\dots,X_{n}). Então

FXk(xk)=limxj+jkF𝑿(x1,,xn),F_{X_{k}}(x_{k})=\lim_{\begin{subarray}{c}x_{j}\to+\infty\\ j\neq k\end{subarray}}F_{{\boldsymbol{X}}}(x_{1},\dots,x_{n}),

em que o limite é tomado em todas as coordenadas, exceto a kk-ésima.

Demonstração.

Reordenando as coordenadas, podemos supor sem perda de generalidade que k=1k=1, e temos que mostrar que

FX1(x1)=limx2+limxn+F𝑿(x1,,xn).F_{X_{1}}(x_{1})=\lim_{\begin{subarray}{c}x_{2}\to+\infty\end{subarray}}\cdots% \lim_{\begin{subarray}{c}x_{n}\to+\infty\end{subarray}}F_{{\boldsymbol{X}}}(x_% {1},\dots,x_{n}). (4.7)

No primeiro limite, dada (xnj)j(x_{n}^{j})_{j} tal que xnj+x_{n}^{j}\uparrow+\infty, e fixados (x1,,xn1)(x_{1},\dots,x_{n-1}), temos {𝑿(x1,xn1,xnj)}{X1x1,Xn1xn1}\{{\boldsymbol{X}}\leqslant(x_{1},\dots\,x_{n-1},x_{n}^{j})\}\uparrow\{X_{1}% \leqslant x_{1},\dots X_{n-1}\leqslant x_{n-1}\} quando jj\to\infty, logo F𝑿(x1,xn1,xnj)FX1,,Xn1(x1,,xn1)F_{\boldsymbol{X}}(x_{1},\dots\,x_{n-1},x_{n}^{j})\to F_{X_{1},\dots,X_{n-1}}(% x_{1},\dots,x_{n-1}), ou seja,

FX1,,Xn1(x1,,xn1)=limxn+F𝑿(x1,,xn).F_{X_{1},\dots,X_{n-1}}(x_{1},\dots,x_{n-1})=\lim_{\begin{subarray}{c}x_{n}\to% +\infty\end{subarray}}F_{{\boldsymbol{X}}}(x_{1},\dots,x_{n}).

Tomando (xn1j)j(x_{n-1}^{j})_{j} tal que xn1j+x_{n-1}^{j}\uparrow+\infty, de forma análoga chegamos a

FX1,,Xn2(x1,,xn2)=limxn1+limxn+F𝑿(x1,,xn).F_{X_{1},\dots,X_{n-2}}(x_{1},\dots,x_{n-2})=\lim_{\begin{subarray}{c}x_{n-1}% \to+\infty\end{subarray}}\lim_{\begin{subarray}{c}x_{n}\to+\infty\end{subarray% }}F_{{\boldsymbol{X}}}(x_{1},\dots,x_{n}).

Tomando (xn2j)j(x_{n-2}^{j})_{j} tal que xn2j+x_{n-2}^{j}\uparrow+\infty, e assim sucessivamente, chegamos a (4.7), o que conclui a demonstração. ∎

Exemplo 4.8.

No Exemplo 4.4, tomando o limite em cada variável temos

FX1(x1)=limx2+FX1,X2(x1,x2)={0,x1<0,14,0x1<1,34,1x1<2,1,x12,F_{X_{1}}(x_{1})=\lim_{x_{2}\to+\infty}F_{X_{1},X_{2}}(x_{1},x_{2})=\begin{% cases}0,&x_{1}<0,\\ \frac{1}{4},&0\leqslant x_{1}<1,\\ \frac{3}{4},&1\leqslant x_{1}<2,\\ 1,&x_{1}\geqslant 2,\end{cases}

e, similarmente, encontramos a mesma expressão para FX2F_{X_{2}}. ∎

Definição 4.9 (Variáveis aleatórias independentes).

Dizemos que as variáveis aleatórias X1,X2,,XnX_{1},X_{2},\dots,X_{n} são independentes se

(X1B1,,XnBn)=(X1B1)(XnBn)\mathbb{P}(X_{1}\in B_{1},\dots,X_{n}\in B_{n})=\mathbb{P}(X_{1}\in B_{1})% \cdots\mathbb{P}(X_{n}\in B_{n})

para todos B1,,BnB_{1},\dots,B_{n}\in\mathcal{B}. Dito de forma mais sofisticada,

𝑿(B1××Bn)=X1(B1)Xn(Bn).\mathbb{P}_{{\boldsymbol{X}}}(B_{1}\times\dots\times B_{n})=\mathbb{P}_{X_{1}}% (B_{1})\cdots\mathbb{P}_{X_{n}}(B_{n}).

Se JJ é uma coleção qualquer de índices, dizemos que a família de variáveis (Xj)jJ(X_{j})_{j\in J} são independentes se Xj1,,XjkX_{j_{1}},\dots,X_{j_{k}} são independentes para todo kk\in\mathbb{N} e toda escolha j1,,jkJj_{1},\dots,j_{k}\in J distintos.

Dada uma família de variáveis aleatórias independentes, qualquer subfamília é também formada por variáveis aleatórias independentes.

Muitas vezes vamos considerar famílias de variáveis aleatórias que, além de serem independentes, têm a mesma distribuição, o que chamamos de independentes e identicamente distribuídas, ou simplesmente i.i.d.

Proposição 4.10 (Critério de independência).

Seja 𝐗=(X1,,Xn){{\boldsymbol{X}}}=(X_{1},\dots,X_{n}) um vetor aleatório. Então X1,,XnX_{1},\dots,X_{n} são independentes se, e somente se, F𝐗(𝐱)=FX1(x1)FXn(xn)F_{{\boldsymbol{X}}}({\boldsymbol{x}})=F_{X_{1}}(x_{1})\cdots F_{X_{n}}(x_{n}) para todo 𝐱n{\boldsymbol{x}}\in\mathbb{R}^{n}.

Demonstração.

A ideia da prova é a seguinte: se as X1,,XnX_{1},\dots,X_{n} são independentes, então F𝑿F_{{\boldsymbol{X}}} é dada pelo produto FX1FXnF_{X_{1}}\cdots F_{X_{n}} e, por outro lado, o Teorema 4.5 nos diz que F𝑿F_{{\boldsymbol{X}}} determina 𝑿\mathbb{P}_{{\boldsymbol{X}}}, logo 𝑿(B1××Bn)=X1(B1)Xn(Bn)\mathbb{P}_{{\boldsymbol{X}}}(B_{1}\times\dots\times B_{n})=\mathbb{P}_{X_{1}}% (B_{1})\cdots\mathbb{P}_{X_{n}}(B_{n}). A prova completa será dada será dada no Apêndice D.4. ∎

Assim como fizemos no caso de independência de eventos, podemos definir independência duas a duas para famílias de variáveis aleatórias.

Definição 4.11.

Seja JJ uma coleção qualquer de índices e (Xj)jJ(X_{j})_{j\in J} uma família de variáveis aleatórias. Dizemos que as variáveis (Xj)jJ(X_{j})_{j\in J} são independentes duas a duas se XkX_{k} e XjX_{j} são independentes para quaisquer kjJk\neq j\in J.

Observe que uma família de variáveis aleatórias independentes também é independente duas a duas. Entretanto não vale a recíproca.

Contra-exemplo 4.12.

Sejam XX e YY independentes assumindo os valores 1-1 ou +1+1 com probabilidade 12\frac{1}{2} cada, e tome Z=XYZ=XY. Então XX, YY e ZZ não são independentes, pois

(X=1,Y=1,Z=1)=1418=(X=1)(Y=1)(Z=1).\mathbb{P}(X=1,Y=1,Z=1)=\frac{1}{4}\neq\frac{1}{8}=\mathbb{P}(X=1)\mathbb{P}(Y% =1)\mathbb{P}(Z=1).

Entretanto, XX, YY e ZZ são independentes duas a duas. ∎

Concluímos esta seção com a observação seguinte, cuja prova será dada na Seção 13.1.

Observação 4.13.

Funções mensuráveis de famílias disjuntas de variáveis aleatórias independentes resultam em variáveis independentes. Por exemplo, se X,YX,Y e ZZ são variáveis aleatórias independentes, então X+YX+Y e ZZ também são independentes. ∎

Apesar de que propriedades análogas àquelas listadas na Proposição 3.13 são satisfeitas pela função de distribuição conjunta, como vemos na Figura 4.1, um análogo do Teorema 3.17 pode falhar, dependendo de como for feita a generalização. Por exemplo, a função F:2[0,1]F:\mathbb{R}^{2}\to[0,1] dada por

F(x,y)={1,x0,y0,x+y1,0,caso contrário,F(x,y)=\begin{cases}1,&x\geqslant 0,y\geqslant 0,x+y\geqslant 1,\\ 0,&\text{caso contr\'{a}rio,}\end{cases}

não pode ser função de distribuição conjunta de nenhum vetor aleatório, apesar de ser monótona e contínua à direita em cada variável, tender a 11 quando todas as coordenadas tendem a ++\infty, e tender a 0 quando uma delas tende a -\infty. Com efeito, se tal FF fosse função de distribuição conjunta de algum par (X,Y)(X,Y), teríamos

(a<Xb,c<Yd)=F(b,d)F(b,c)[F(a,d)F(a,c)]\displaystyle\mathbb{P}\big{(}a<X\leqslant b,c<Y\leqslant d\big{)}=F(b,d)-F(b,% c)-[F(a,d)-F(a,c)]

para todos a<ba<b e c<dc<d e, tomando a=c=0a=c=0 e b=d=1b=d=1, teríamos (0<X1,0<Y1)=1\mathbb{P}\big{(}0<X\leqslant 1,0<Y\leqslant 1\big{)}=-1, o que seria absurdo.