1.3 Formulação axiomática de Kolmogorov

Para fazer as operações mais básicas com eventos aleatórios, vamos pedir que nosso espaço de eventos tenha a seguinte estrutura.

Definição 1.33.

Dizemos que uma classe \mathcal{F} de subconjuntos de Ω\Omega é uma σ\sigma-álgebra se \mathcal{F} satisfaz às seguintes propriedades:

  1. (1)

    Ω\Omega\in\mathcal{F};

  2. (2)

    Para todo AA\in\mathcal{F}, tem-se que AcA^{c}\in\mathcal{F};

  3. (3)

    Para toda sequência {An}n=1\{A_{n}\}_{n=1}^{\infty}\subseteq\mathcal{F}, vale (n=1An)\left(\cup_{n=1}^{\infty}A_{n}\right)\in\mathcal{F}.

Utilizaremos o termo classe para denotar um conjunto de subconjuntos de algum espaço amostral. As três propriedades dizem que o evento certo é um dos elementos de \mathcal{F}, e que a classe \mathcal{F} é fechada pelas operações de tomar o complementar e uniões enumeráveis. Estas propriedades nos garantem que ∅︀\emptyset\in\mathcal{F}, logo \mathcal{F} é fechada também por uniões finitas. Além disso, \mathcal{F} é fechada com respeito a interseções enumeráveis, pois da lei de De Morgan segue que n=1An=(n=1Anc)c\cap_{n=1}^{\infty}A_{n}=\left(\cup_{n=1}^{\infty}A_{n}^{c}\right)^{c}, o que implica que \mathcal{F} também é fechada pela operação de diferença entre conjuntos, pois AB=ABcA\setminus B=A\cap B^{c}. Ou seja, trabalhar com uma σ\sigma-álgebra é algo robusto o suficiente que nos permite fazer as operações elementares de conjuntos, uma quantidade enumerável de vezes, sem sair de \mathcal{F}.55 5 Daqui surge uma pergunta mais que legítima: por que precisamos da definição de σ\sigma-álgebra? Quer dizer, não poderíamos simplesmente tomar 𝒫(Ω)\mathcal{P}(\Omega) como espaço de eventos e evitar tudo isso? De fato, é sim possível tomar =𝒫(Ω)\mathcal{F}=\mathcal{P}(\Omega) para modelos discretos, mas recordemo-nos de alguns exemplos vistos até aqui, mais precisamente os Exemplos 1.21.3, e o da agulha de Buffon. O problema nesses exemplos é que existem subconjuntos da reta ou do plano que são tão complicados que não é possível atribuir-lhes comprimento ou área. De forma mais geral, com Ω=n\Omega=\mathbb{R}^{n}, não existe uma medida de probabilidade \mathbb{P}, definida em todos os subconjuntos de n\mathbb{R}^{n}, com a propriedade de que ({𝒙})=0\mathbb{P}(\{{{\boldsymbol{x}}}\})=0 para cada ponto 𝒙n{{\boldsymbol{x}}}\in\mathbb{R}^{n}. Mais propriedades de σ\sigma-álgebras serão discutidas na Seção 1.4.

Definição 1.34.

Seja Ω\Omega um espaço amostral e \mathcal{F} uma σ\sigma-álgebra em Ω\Omega. Uma medida de probabilidade \mathbb{P}, ou simplesmente probabilidade, é uma função :\mathbb{P}:\mathcal{F}\to\mathbb{R} satisfazendo às seguintes propriedades:

  1. (1)

    (A)0\mathbb{P}(A)\geqslant 0 para todo AA\in\mathcal{F}.

  2. (2)

    (Ω)=1\mathbb{P}(\Omega)=1.

  3. (3)

    Se (An)n(A_{n})_{n} são eventos disjuntos (isto é, AjAk=∅︀A_{j}\cap A_{k}=\emptyset para todos jkj\neq k), então (n=1An)=n=1(An).\mathbb{P}(\cup_{n=1}^{\infty}A_{n})=\sum_{n=1}^{\infty}\mathbb{P}(A_{n}).

Esta última propriedade é chamada σ\sigma-aditividade.

A partir das propriedades acima, podem-se demonstrar inúmeras outras. Listamos abaixo as mais comuns.

Teorema 1.35.

Sejam \mathbb{P} uma medida de probabilidade, A,B,A1,A2,A,B,A_{1},A_{2},\dots\in\mathcal{F}. Então:

  1. (4)

    (∅︀)=0\mathbb{P}(\emptyset)=0.

  2. (5)

    (Ac)=1(A)\mathbb{P}(A^{c})=1-\mathbb{P}(A).

  3. (6)

    Se ABA\subseteq B, então (A)(B)\mathbb{P}(A)\leqslant\mathbb{P}(B) e (BA)=(B)(A)\mathbb{P}(B\setminus A)=\mathbb{P}(B)-\mathbb{P}(A).

  4. (7)

    0(A)10\leqslant\mathbb{P}(A)\leqslant 1.

  5. (8)

    (n=1An)n=1(An)\mathbb{P}(\cup_{n=1}^{\infty}A_{n})\leqslant\sum_{n=1}^{\infty}\mathbb{P}(A_{% n}).

  6. (9)

    (AB)=(A)+(B)(AB)\mathbb{P}(A\cup B)=\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A\cap B).

Demonstração.

Para provar (4), tome A1=ΩA_{1}=\Omega e An=∅︀A_{n}=\emptyset para n=2,3,4,n=2,3,4,\dots. Se (∅︀)\mathbb{P}(\emptyset) fosse estritamente positivo, a equação que define a Propriedade (3) daria 11 no lado esquerdo e ++\infty no lado direito. Para provar (5), basta tomar A1=AA_{1}=A, A2=AcA_{2}=A^{c} e Aj=∅︀A_{j}=\emptyset para j=3,4,j=3,4,\dots, então pelas Propriedades (3)(4) segue que 1=(Ω)=(AAc∅︀∅︀)=(A)+(Ac)1=\mathbb{P}(\Omega)=\mathbb{P}(A\cup A^{c}\cup\emptyset\cup\dots\cup\emptyset% )=\mathbb{P}(A)+\mathbb{P}(A^{c}).

O item (6) é provado escrevendo B=A(BA)B=A\cup(B\setminus A). Com efeito, segue de (3) que (B)=(A)+(BA)\mathbb{P}(B)=\mathbb{P}(A)+\mathbb{P}(B\setminus A), logo (BA)=(B)(A)\mathbb{P}(B\setminus A)=\mathbb{P}(B)-\mathbb{P}(A), e de (1) concluímos que (B)(A)\mathbb{P}(B)\geqslant\mathbb{P}(A). Usando essa última propriedade e observando que ∅︀AΩ\emptyset\subseteq A\subseteq\Omega, obtemos 0=(∅︀)(A)(Ω)=10=\mathbb{P}(\emptyset)\leqslant\mathbb{P}(A)\leqslant\mathbb{P}(\Omega)=1, o que prova (7).

Para provar (8), defina B1=A1B_{1}=A_{1} e Bn=An(k=1n1Ak)B_{n}=A_{n}\setminus(\cup_{k=1}^{n-1}A_{k}) para n2n\geqslant 2. Observe que os conjuntos B1,B2,B_{1},B_{2},\dots são disjuntos, n=1An=n=1Bn\cup_{n=1}^{\infty}A_{n}=\cup_{n=1}^{\infty}B_{n}, e que BnAnB_{n}\subseteq A_{n} para todo nn. Usando (3)(6), obtemos (n=1An)=(n=1Bn)=n=1(Bn)n=1(An)\mathbb{P}\left(\cup_{n=1}^{\infty}A_{n}\right)=\mathbb{P}\left(\cup_{n=1}^{% \infty}B_{n}\right)=\sum_{n=1}^{\infty}\mathbb{P}(B_{n})\leqslant\sum_{n=1}^{% \infty}\mathbb{P}(A_{n}). Para provar (9), usamos (3) para escrever (AB)=(A)+(BA)\mathbb{P}(A\cup B)=\mathbb{P}(A)+\mathbb{P}(B\setminus A) e (B)=(AB)+(BA)\mathbb{P}(B)=\mathbb{P}(A\cap B)+\mathbb{P}(B\setminus A), donde (AB)=(A)+(B)(AB)\mathbb{P}(A\cup B)=\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A\cap B). ∎

Uma medida de probabilidade \mathbb{P} também tem a propriedade de ser contínua. Dada uma sequência (An)n(A_{n})_{n} de eventos, denotamos por AnAA_{n}\uparrow A a propriedade de que A1A2A3A_{1}\subseteq A_{2}\subseteq A_{3}\subseteq\cdots e n=1An=A\cup_{n=1}^{\infty}A_{n}=A. Analogamente, escrevemos AnAA_{n}\downarrow A para denotar que A1A2A3A_{1}\supseteq A_{2}\supseteq A_{3}\supseteq\cdots e n=1An=A\cap_{n=1}^{\infty}A_{n}=A.

Teorema 1.36 (Continuidade).

Se AnAA_{n}\uparrow A ou AnAA_{n}\downarrow A, então (An)(A)\mathbb{P}(A_{n})\to\mathbb{P}(A).

Demonstração.

Suponha que AnAA_{n}\uparrow A. Fixe A0=∅︀A_{0}=\emptyset e defina Bn=AnAn1B_{n}=A_{n}\setminus A_{n-1} para nn\in\mathbb{N}, de modo que n=1An=n=1Bn\bigcup_{n=1}^{\infty}A_{n}=\bigcup_{n=1}^{\infty}B_{n} e a última união é disjunta. Assim,

(k=1Ak)\displaystyle\mathbb{P}\left(\bigcup_{k=1}^{\infty}A_{k}\right) =(k=1Bk)=k=1(Bk)\displaystyle=\mathbb{P}\left(\bigcup_{k=1}^{\infty}B_{k}\right)=\sum_{k=1}^{% \infty}\mathbb{P}(B_{k})
=k=1(AkAk1)=limnk=1n(AkAk1)\displaystyle=\sum_{k=1}^{\infty}\mathbb{P}(A_{k}\setminus A_{k-1})=\lim_{n\to% \infty}\sum_{k=1}^{n}\mathbb{P}(A_{k}\setminus A_{k-1})
=limnk=1n(((Ak)(Ak1))=limn(An),\displaystyle=\lim_{n\to\infty}\sum_{k=1}^{n}\Big{(}(\mathbb{P}(A_{k})-\mathbb% {P}(A_{k-1})\Big{)}=\lim_{n\to\infty}\mathbb{P}(A_{n}),

provando o primeiro caso. Suponha agora que AnA=n=1AnA_{n}\downarrow A=\cap_{n=1}^{\infty}A_{n}. Observando que Ancn=1AncA^{c}_{n}\uparrow\cup_{n=1}^{\infty}A_{n}^{c}, pela parte já demonstrada, (An)=1(Anc)1(Ac)=(A)\mathbb{P}(A_{n})=1-\mathbb{P}(A_{n}^{c})\to 1-\mathbb{P}(A^{c})=\mathbb{P}(A). ∎

Finalmente introduzimos o conceito de espaço de probabilidade, que nada mais é que a justaposição das noções de espaço amostral, eventos aleatórios e medida de probabilidade.

Definição 1.37 (Espaço de probabilidade).

Um espaço de probabilidade é um trio (Ω,,)(\Omega,\mathcal{F},\mathbb{P}), onde

  1. (1)

    Ω\Omega é um conjunto não-vazio;

  2. (2)

    \mathcal{F} é uma σ\sigma-álgebra de subconjuntos de Ω\Omega;

  3. (3)

    \mathbb{P} é uma probabilidade definida em \mathcal{F}.

Exemplo 1.38.

Lançamento de uma moeda. Este espaço é pequeno o suficiente para que possamos construí-lo explicitamente. Como fizemos anteriormente, as duas faces da moeda serão representadas em Ω={0,1}\Omega=\{0,1\}. A σ\sigma-álgebra \mathcal{F} é dada por =𝒫(Ω)={∅︀,{0},{1},{0,1}}\mathcal{F}=\mathcal{P}(\Omega)=\big{\{}\emptyset,\{0\},\{1\},\{0,1\}\big{\}}. A medida de probabilidade :\mathbb{P}:\mathcal{F}\to\mathbb{R} é dada por (∅︀)=0\mathbb{P}(\emptyset)=0, ({0})=({1})=12\mathbb{P}(\{0\})=\mathbb{P}(\{1\})=\frac{1}{2}, ({0,1})=1\mathbb{P}(\{0,1\})=1. ∎