3.1 Variáveis aleatórias

Uma quantidade numérica que pode ser observada num certo experimento aleatório é representada por uma função X:ΩX:\Omega\to\mathbb{R}.

Exemplo 3.1.

Lança-se um dado e observa-se a face superior. Neste caso, podemos tomar Ω={1,2,3,4,5,6}\Omega=\{1,2,3,4,5,6\} e X(ω)=ωX(\omega)=\omega. ∎

Exemplo 3.2.

Lançam-se dois dados e considera-se o maior dos valores. Neste caso, podemos tomar Ω={1,2,3,4,5,6}2\Omega=\{1,2,3,4,5,6\}^{2} e X(ω1,ω2)=max{ω1,ω2}X(\omega_{1},\omega_{2})=\max\{\omega_{1},\omega_{2}\}. ∎

Vamos impor uma restrição sobre a função XX que permitirá atribuir probabilidade a eventos como “o valor observado de XX é no máximo 55”.

Definição 3.3 (Variável Aleatória).

Uma variável aleatória XX em um espaço de probabilidade (Ω,,)(\Omega,\mathcal{F},\mathbb{P}) é uma função real definida no espaço Ω\Omega tal que o conjunto {ωΩ:X(ω)x}\left\{\omega\in\Omega:X(\omega)\leqslant x\right\} é evento aleatório para todo xx\in\mathbb{R}, isto é, {ωΩ:X(ω)x}\left\{\omega\in\Omega:X(\omega)\leqslant x\right\}\in\mathcal{F} para todo xx\in\mathbb{R}.

Daqui para frente, denotaremos o evento {ωΩ:X(ω)x}\{\omega\in\Omega:X(\omega)\leqslant x\} simplesmente por {Xx}\{X\leqslant x\}.

Exemplo 3.4 (Variável aleatória constante).

Se X(ω)=5X(\omega)=5 para todo ωΩ\omega\in\Omega, então

{Xa}={ω:X(ω)a}={Ω,se a5,∅︀,se a<5.\{X\leqslant a\}=\left\{\omega:X(\omega)\leqslant a\right\}=\begin{cases}% \Omega,&\text{se }a\geqslant 5,\\ \emptyset,&\text{se }a<5.\end{cases}

Portanto, XX é uma variável aleatória. ∎

Dizemos que uma variável aleatória XX é degenerada se existe cc\in\mathbb{R} tal que (X=c)=1\mathbb{P}(X=c)=1. No exemplo acima, XX é degenerada com c=5c=5.

Exemplo 3.5 (Função indicadora).

Dado AΩA\subseteq\Omega, definimos

𝟙A(ω)={1,ωA,0,ωA.\mathds{1}_{A}(\omega)=\begin{cases}1,&\omega\in A,\\ 0,&\omega\not\in A.\end{cases}

Se AA\in\mathcal{F} e X=𝟙AX=\mathds{1}_{A}, então

{Xa}={ω:X(ω)a}={Ω,se a1,Ac,se 0a<1,∅︀,se a<0.\{X\leqslant a\}=\left\{\omega:X(\omega)\leqslant a\right\}=\begin{cases}% \Omega,&\text{se }a\geqslant 1,\\ A^{c},&\text{se }0\leqslant a<1,\\ \emptyset,&\text{se }a<0.\end{cases}

Portanto, XX é uma variável aleatória. ∎

Contra-exemplo 3.6.

Sejam Ω={1,2,3,4}\Omega=\{1,2,3,4\} e ={∅︀,{1,2},{3,4},Ω}\mathcal{F}=\{\emptyset,\{1,2\},\{3,4\},\Omega\} e considere os conjuntos A={1,2}A=\{1,2\} e B={1,3}B=\{1,3\}. Então 𝟙A\mathds{1}_{A} é variável aleatória em (Ω,)(\Omega,\mathcal{F}), mas 𝟙B\mathds{1}_{B} não é. ∎

3.1.1 Espaço induzido e lei de uma variável aleatória

A σ\sigma-álgebra de Borel na reta \mathbb{R}, denotada por \mathcal{B}, é a menor σ\sigma-álgebra que contém todos os intervalos da reta (veja a Seção 1.4.1 para mais detalhes). Os conjuntos BB\subseteq\mathbb{R} tais que BB\in\mathcal{B} são chamados borelianos. Na prática, essa classe contém todos os subconjuntos de \mathbb{R} que nos interessam.

Dado um espaço de probabilidade (Ω,,)(\Omega,\mathcal{F},\mathbb{P}) e uma variável aleatória XX, definimos o espaço de probabilidade induzido por XX como (,,X)(\mathbb{R},\mathcal{B},\mathbb{P}_{X}), onde

X(B)=({ω:X(ω)B}),B.\mathbb{P}_{X}(B)=\mathbb{P}\left(\{\omega:X(\omega)\in B\}\mathclap{\phantom{% \big{|}}}\right),\quad B\in\mathcal{B}. (3.7)

Ou seja, o espaço amostral é o conjunto dos números reais, os eventos aleatórios são os conjuntos borelianos, e a medida de probabilidade é aquela induzida por XX. A medida de probabilidade X\mathbb{P}_{X} em \mathbb{R} induzida por XX é chamada de lei da variável aleatória XX ou distribuição de XX. Na Seção 3.7, mostraremos que X\mathbb{P}_{X} está realmente definida para todo BB\in\mathcal{B}.

A importância teórica e conceitual do espaço de probabilidade induzido por uma variável aleatória XX, bem como sua distribuição X\mathbb{P}_{X}, é que ele permite descrever o comportamento estatístico de XX abstraindo-se todos os detalhes do espaço de probabilidade original. Mais precisamente, toda pergunta formulada apenas em termos de XX pode ser respondida com X\mathbb{P}_{X} ao invés de \mathbb{P}.

Exemplo 3.8.

Um dado é lançado três vezes. Seja XX o valor obtido no primeiro lançamento. Esse experimento pode ser modelado por Ω={1,2,3,4,5,6}3\Omega=\{1,2,3,4,5,6\}^{3}, =𝒫(Ω)\mathcal{F}=\mathcal{P}(\Omega) e (A)=#A216\mathbb{P}(A)=\frac{\#A}{216} para todo AA\in\mathcal{F}, nesse caso X:ΩX:\Omega\to\mathbb{R} é dado por X(ω)=ω1X(\omega)=\omega_{1}, onde cada ωΩ\omega\in\Omega é identificado como uma tripla (ω1,ω2,ω3)(\omega_{1},\omega_{2},\omega_{3}). O espaço induzido por XX é dado por (,,X)(\mathbb{R},\mathcal{B},\mathbb{P}_{X}), com X\mathbb{P}_{X} dado por

X(B)=#(B{1,2,3,4,5,6})6,B.\mathbb{P}_{X}(B)=\frac{\#(B\cap\{1,2,3,4,5,6\})}{6},\quad B\in\mathcal{B}.

Para calcular (1,5X3,4)\mathbb{P}(1,5\leqslant X\leqslant 3,4), podemos fazer

({ω:1,5X(ω)3,4})=#({2,3}×{1,2,3,4,5,6}2)216=72216=13\mathbb{P}(\{\omega:1{,}5\leqslant X(\omega)\leqslant 3{,}4\})=\frac{\#(\{2,3% \}\times\{1,2,3,4,5,6\}^{2})}{216}=\frac{72}{216}=\frac{1}{3}

ou

X([1,5;3,4])=#{2,3}6=13.\mathbb{P}_{X}([1{,}5;3{,}4])=\frac{\#\{2,3\}}{6}=\frac{1}{3}.\qed

3.1.2 Função de distribuição

Assim como a ideia de lei de uma variável, o conceito que definiremos agora é uma outra maneira equivalente de descrever a estrutura probabilística da variável aleatória.

Definição 3.9 (Função de distribuição).

A função de distribuição da variável aleatória XX, é a função FX:[0,1]F_{X}:\mathbb{R}\to[0,1], definida como

FX(x)=(Xx),x.F_{X}(x)=\mathbb{P}(X\leqslant x),\quad x\in\mathbb{R}.

A função de distribuição, também conhecida como função de distribuição acumulada, determina a lei da variável aleatória. Veremos a demostração deste fato na Seção 3.6, mas gostaríamos de enunciá-lo precisamente agora.

Teorema 3.10.

Sejam XX e YY variáveis aleatórias. Se FX(t)=FY(t)F_{X}(t)=F_{Y}(t) para todo tt\in\mathbb{R}, então X(B)=Y(B)\mathbb{P}_{X}(B)=\mathbb{P}_{Y}(B) para todo BB\in\mathcal{B}.

Por isso a função de distribuição é uma característica fundamental da variável aleatória. Caso FX=FYF_{X}=F_{Y} (e portanto X=Y\mathbb{P}_{X}=\mathbb{P}_{Y}), escrevemos XYX\sim Y.

Gráfico de uma função de distribuição discreta.
Figura 3.1: Gráfico de uma função de distribuição discreta.
Exemplo 3.11.

Duas moedas honestas são lançadas. Seja a variável XX que conta o número de caras observadas. Temos que

FX(t)=(Xt)={(∅︀)=0,t<0;({(0,0)})=14,0t<1;({(0,0),(0,1),(1,0)})=34,1t<2;(Ω)=1,t2.F_{X}(t)=\mathbb{P}(X\leqslant t)=\begin{cases}\mathbb{P}(\emptyset)=0,&t<0;\\ \mathbb{P}(\{(0,0)\})=\frac{1}{4},&0\leqslant t<1;\\ \mathbb{P}(\{(0,0),(0,1),(1,0)\})=\frac{3}{4},&1\leqslant t<2;\\ \mathbb{P}(\Omega)=1,&t\geqslant 2.\end{cases}

Observe que o salto da função de distribuição corresponde à probabilidade de a variável aleatória assumir aquele valor, como se vê na Figura 3.1. ∎

Exemplo 3.12.

Selecionamos um ponto ao acaso do intervalo [a,b][a,b] com a<ba<b. Seja XX a variável aleatória que representa a coordenada do ponto. Primeiro observamos que, ao selecionar um ponto ao acaso em um intervalo, estamos dizendo implicitamente que quaisquer subintervalos de mesmo tamanho têm a mesma probabilidade de conter o ponto escolhido. Isso implica que (X[c,d])=dcba\mathbb{P}(X\in[c,d])=\frac{d-c}{b-a} para todo [c,d][a,b][c,d]\subseteq[a,b]. Para t[a,b]t\in[a,b], tomando c=ac=a obtemos (Xt)=taba\mathbb{P}(X\leqslant t)=\frac{t-a}{b-a}. Para t<at<a temos que (Xt)=0\mathbb{P}(X\leqslant t)=0, e para tbt\geqslant b obtemos (Xt)=1\mathbb{P}(X\leqslant t)=1. Portanto,

FX(t)=(Xt)={0,ta;taba,atb;1,tb;F_{X}(t)=\mathbb{P}(X\leqslant t)=\begin{cases}0,&t\leqslant a;\\ \dfrac{t-a}{b-a},&a\leqslant t\leqslant b;\\ 1,&t\geqslant b;\end{cases}

cujo gráfico está ilustrado na Figura 3.2.

Gráfico de uma função de distribuição contínua.
Figura 3.2: Gráfico de uma função de distribuição contínua.

Variáveis aleatórias diferentes podem ter a mesma função de distribuição. Por exemplo, se XX a variável aleatória definida no Exemplo 3.1 e definimos Y=7XY=7-X, então, XYX\neq Y enquanto FX(t)=FY(t)F_{X}(t)=F_{Y}(t) para todo tt\in\mathbb{R}.

Dada uma sequência (xn)n(x_{n})_{n} de números reais, denotamos por xnxx_{n}\uparrow x a propriedade de que x1x2x3x_{1}\leqslant x_{2}\leqslant x_{3}\leqslant\cdots e xnxx_{n}\to x. Analogamente, escrevemos xnxx_{n}\downarrow x para denotar que x1x2x3x_{1}\geqslant x_{2}\geqslant x_{3}\geqslant\cdots e xnxx_{n}\to x.

Proposição 3.13 (Propriedades da função de distribuição).

Se XX é uma variável aleatória, sua função de distribuição FXF_{X} satisfaz às seguintes propriedades:

  1. (1)

    FXF_{X} é não-decrescente;

  2. (2)

    FXF_{X} é contínua à direita;

  3. (3)

    limxFX(x)=0\lim\limits_{x\to-\infty}F_{X}(x)=0 e limx+FX(x)=1\lim\limits_{x\to+\infty}F_{X}(x)=1.

Demonstração.

Para o item (1), basta ver que xyx\leqslant y implica {Xx}{Xy}\{X\leqslant x\}\subseteq\{X\leqslant y\}, que, pelo item (6) do Teorema 1.35, implica

FX(x)=(Xx)(Xy)=FX(y).F_{X}(x)=\mathbb{P}(X\leqslant x)\leqslant\mathbb{P}(X\leqslant y)=F_{X}(y).

Para (2), observe que xnxx_{n}\downarrow x implica {Xxn}{Xx}\{X\leqslant x_{n}\}\downarrow\{X\leqslant x\}, que, pela continuidade da probabilidade, implica

FX(xn)=(Xxn)(Xx)=FX(x).F_{X}(x_{n})=\mathbb{P}(X\leqslant x_{n})\to\mathbb{P}(X\leqslant x)=F_{X}(x).

Pela Observação A.2, isso implica que limzx+FX(z)=FX(x)\lim_{z\to x^{+}}F_{X}(z)=F_{X}(x), ou seja, FXF_{X} é contínua à direita. Para (3), observe que xnx_{n}\downarrow-\infty implica {Xxn}{X}=∅︀\{X\leqslant x_{n}\}\downarrow\{X\leqslant-\infty\}=\emptyset, que, pela continuidade da probabilidade, implica

FX(xn)=(Xxn)(∅︀)=0.F_{X}(x_{n})=\mathbb{P}(X\leqslant x_{n})\to\mathbb{P}(\emptyset)=0.

Analogamente, xn+x_{n}\uparrow+\infty implica {Xxn}{X<+}=Ω\{X\leqslant x_{n}\}\uparrow\{X<+\infty\}=\Omega, que implica FX(xn)=(Xxn)(Ω)=1F_{X}(x_{n})=\mathbb{P}(X\leqslant x_{n})\to\mathbb{P}(\Omega)=1. ∎

Ao final desta seção, mostraremos que, dada uma função FF com as três propriedades dadas pela proposição acima, sempre existe uma variável aleatória cuja função de distribuição é FF. Diremos que uma dada FF com essas propriedades é uma função de distribuição.

De forma geral, uma função de distribuição é qualquer função F()F(\cdot) satisfazendo às três propriedades acima. Ao final desta seção, mostraremos que dada uma função de distribuição FF, sempre existe uma variável aleatória cuja função de distribuição é FF.

Segue da definição de função de distribuição que (X>a)=1FX(a)\mathbb{P}(X>a)=1-F_{X}(a) e (a<Xb)=FX(b)FX(a)\mathbb{P}(a<X\leqslant b)=F_{X}(b)-F_{X}(a), para todos a<ba<b\in\mathbb{R}. A proposição abaixo nos diz como obter a distribuição em outros tipos de intervalos. Denotamos FX(a)=limzaFX(z)F_{X}(a-)=\lim_{z\to a^{-}}F_{X}(z).

Proposição 3.14.

A função de distribuição de uma variável aleatória XX satisfaz: (a<X<b)=FX(b)FX(a),(aX<b)=FX(b)FX(a),(aXb)=FX(b)FX(a)\mathbb{P}(a<X<b)=F_{X}(b{-})-F_{X}(a),\ \mathbb{P}(a\leqslant X<b)=F_{X}(b{-}% )-F_{X}(a{-}),\ \mathbb{P}(a\leqslant X\leqslant b)=F_{X}(b)-F_{X}(a{-}) e (X=a)=FX(a)FX(a)\mathbb{P}(X=a)=F_{X}(a)-F_{X}(a{-}) para todos números a<ba<b. Em particular, (X=a)=0\mathbb{P}(X=a)=0 se, e somente se, FXF_{X} é contínua em aa.

Demonstração.

Provaremos apenas a primeira igualdade, as outras são análogas. Observe que (a,b1n](a,b)(a,b-\tfrac{1}{n}]\uparrow(a,b), donde

{a<Xb1n}{a<X<b}.\{a<X\leqslant b-\tfrac{1}{n}\}\uparrow\{a<X<b\}.

Logo, FX(b)FX(a)=limnFX(b1n)FX(a)=limn(a<Xb1n)=(a<X<b)F_{X}(b{-})-F_{X}(a)=\lim_{n}F_{X}(b-\tfrac{1}{n})-F_{X}(a)=\lim_{n}\mathbb{P}% (a<X\leqslant b-\tfrac{1}{n})=\mathbb{P}(a<X<b), pela continuidade da probabilidade. ∎

3.1.3 Função quantil

Imagine que estamos implementando um algoritmo usando uma certa linguagem de programação e queremos simular uma variável aleatória XX com uma dada função de distribuição FF. Em geral, as linguagens de programação são capazes de gerar uma variável aleatória UU distribuída “uniformemente” no intervalo (0,1)(0,1). Veremos na Seção 3.3 o que quer dizer estar distribuída uniformemente em (0,1)(0,1), mas por enquanto basta saber que (Uu)=u\mathbb{P}(U\leqslant u)=u para u[0,1]u\in[0,1]. A partir de uma variável UU com essa distribuição, é possível obter uma variável XX com função de distribuição FF?

Caso o valor de UU seja, por exemplo, 0,2721063410{,}272106341..., queremos atribuir a XX o valor xx que ocupa, dentre os possíveis valores assumidos por XX, a “posição” correspondente a 0,2721063410{,}272106341... numa escala entre 0 e 11. Mais precisamente, buscamos o valor xx tal que (X<x)0,272106341\mathbb{P}(X<x)\leqslant 0{,}272106341... e (X>x)0,727893658\mathbb{P}(X>x)\leqslant 0{,}727893658.... Observe que, ao buscar tal valor de xx, estamos tentando inverter a função de distribuição de XX.

A função quantil de uma variável aleatória é a inversa da sua função de distribuição, no seguinte sentido. Dada uma função de distribuição FF, definimos

F1(u)=min{x:F(x)u},F^{-1}(u)=\min\{x\in\mathbb{R}:F(x)\geqslant u\},

ou seja, F1(u)F^{-1}(u) é o ponto xx mais à esquerda a partir do qual o gráfico de FF fica acima da altura uu. Caso FF seja como o da Figura 3.2, F1(u)F^{-1}(u) nada mais é do que a pré-imagem de uu. Porém, no exemplo da função FF da Figura 3.1, os valores u=14u=\frac{1}{4} e u=34u=\frac{3}{4} têm todo um intervalo como pré-imagem, e qualquer outro 0<u<10<u<1 tem pré-imagem vazia. Para u=14u=\frac{1}{4} e u=34u=\frac{3}{4}, tomamos o ponto mais à esquerda do intervalo e, para os demais pontos, completamos o gráfico de FF com segmentos verticais para definir a inversa. A definição de F1F^{-1} é ilustrada na Figura 3.3.

Ilustração de como é obtida a função quantil.
Figura 3.3: Ilustração de como é obtida a função quantil.

Mencionamos aqui algumas propriedades da função quantil que podem ser observadas visualmente, e cuja prova será omitida. Para todo xx\in\mathbb{R}, temos F1(F(x))xF^{-1}(F(x))\leqslant x, valendo a igualdade se FF é estritamente crescente num intervalo aberto contendo xx. Para todo 0<u<10<u<1, temos F(F1(u))uF(F^{-1}(u))\geqslant u, valendo a igualdade se FF é contínua num intervalo aberto contendo F1(u)F^{-1}(u).

A propriedade que vamos usar é que, dados xx\in\mathbb{R} e 0<u<10<u<1,

F1(u)xuF(x).F^{-1}(u)\leqslant x\qquad\Longleftrightarrow\qquad u\leqslant F(x). (3.15)

Essa propriedade segue da definição de F1F^{-1} e do fato de FF ser não-decrescente e contínua à direita.

A discussão acima culmina com a demonstração formal da existência de variáveis aleatórias com quaisquer distribuições. No mesmo espírito do parágrafo inicial acima, o ponto de partida é a existência de uma variável aleatória uniforme, o que enunciaremos agora.

Teorema 3.16 (Variável aleatória uniforme).

Existe uma variável aleatória UU em um espaço de probabilidade (Ω,,)(\Omega,\mathcal{F},\mathbb{P}) tal que FU(u)=uF_{U}(u)=u para u[0,1]u\in[0,1].

A demonstração exige ferramentas avançadas e será dada na Seção 3.6.

Teorema 3.17.

Se uma função FF satisfaz às três propriedades listadas na Proposição 3.13, então existe um espaço de probabilidade e uma variável aleatória cuja função de distribuição é FF.

Demonstração.

Seja UU uma variável aleatória com distribuição uniforme em (0,1)(0,1) e defina X=F1(U)X=F^{-1}(U). Para cada xx\in\mathbb{R}, por (3.15) temos

(Xx)=(F1(U)x)=(UF(x))=F(x),\mathbb{P}(X\leqslant x)=\mathbb{P}\big{(}F^{-1}(U)\leqslant x\big{)}=\mathbb{% P}\big{(}U\leqslant F(x)\big{)}=F(x),

portanto FF é a função de distribuição de XX, como queríamos demonstrar. ∎