1.1 Alguns modelos probabilísticos
Antes de darmos qualquer definição formal, vamos tentar analisar algumas situações simples e tentar capturar se há feitos em comum nos exemplos a seguir:
Exemplo 1.1.
Sorteamos uma carta de um baralho comum (52 cartas, numeradas e de naipes ). Qual a probabilidade de a carta sorteada ser , , ou ? Nossa primeira tentativa de formalizar este problema seria reescrever a primeira frase da seguinte maneira: sorteamos um elemento do conjunto . Assim a pergunta passaria a ser: qual a probabilidade deste elemento pertencer ao subconjunto ? Melhor ainda, qual a proporção que o conjunto ocupa dentro de ? A princípio, é razoável que esta “proporção” entre os “tamanhos” dos conjuntos seja dada pela razão11 1 Esse raciocínio, hoje considerado mais ou menos óbvio, foi formalizado na célebre troca de cartas entre Pascal e Fermat ocorrida em 1654. Estas cartas são consideradas um marco na história da Probabilidade. entre o número de elementos de e de , isto é:
A notação se refere à quantidade de elementos que pertencem ao conjunto .
Exemplo 1.2.
Um baile ocorre em um grande salão, cujo piso é formado por longas tábuas corridas de madeira, todas elas de largura igual a . Uma moeda cai do bolso furado de um dos dançarinos. Após a queda, qual a probabilidade de a distância entre o centro da moeda e a linha mais próxima que separa duas das tábuas ser no máximo de ? Como a largura das tábuas é de , a menor distância entre o centro da moeda e as linhas do piso é um número real não-negativo limitado à metade da largura das tábuas. Portanto, a distância em que estamos interessados corresponde ao sorteio de um número real no intervalo . Então nossa pergunta pode ser reescrita como: se sortearmos um número real no conjunto , qual a probabilidade de o número sorteado pertencer ao conjunto ? Novamente voltamos à pergunta: qual proporção que o conjunto ocupa dentro de ? Neste caso, nos parece que a melhor resposta seria a razão entre os comprimentos dos intervalos e , ou seja:
Exemplo 1.3.
No mês seguinte ao baile anterior, um novo baile é realizado em outro grande salão, cujo piso é formado por azulejos quadrados de de lado. Todos os azulejos são idênticos e como na Figura 1.2 abaixo.
Novamente, nosso distraído dançarino deixa outra moeda cair de seu bolso furado. Qual a probabilidade de o centro da moeda cair sobre um ponto preto de um dos azulejos? Já que agora temos uma compreensão melhor, podemos intuir que uma boa resposta seria a proporção que a região de pontos pretos ocupa em um azulejo, isto é, a razão entre essas áreas. Denotemos por o conjunto dos pontos do quadrado que representa um azulejo e por o subconjunto de pontos de cor preta. Sendo assim,
Um fato comum nos três exemplos acima é que a ideia de probabilidade de um conjunto passa pela ideia de proporção, medida que o conjunto ocupa dentro de um conjunto maior , conjunto este que congrega todos os resultados possíveis no nosso experimento aleatório.
A questão é que em cada um destes exemplos foi diferente o conceito que utilizamos para “medir” o quanto o conjunto ocupa dentro do conjunto . Nos exemplos acima, nossas medidas foram as razões entre o número de elementos, o comprimento e a área. Definir probabilidade será um modo de medir conjuntos.
Um modelo probabilístico tem três componentes básicas:
-
(a)
Um conjunto formado por todos os resultados possíveis do experimento, chamado espaço amostral.
-
(b)
Uma coleção apropriada de subconjuntos do espaço amostral, chamados eventos aleatórios. São os conjuntos desta coleção que gostaríamos de “medir”, ou atribuir probabilidade, e também realizar operações elementares de conjuntos.
-
(c)
Uma função que associa a cada evento aleatório um número real, que representa a ideia de chance, verossimilhança, confiança, ou credibilidade. Esta função é chamada de probabilidade ou medida de probabilidade.
No restante desta seção, discutiremos com mais detalhes cada um dos três objetos que definem os espaços de probabilidade.
1.1.1 Espaço amostral
Um conjunto não-vazio , cujos elementos representam todos os resultados possíveis de um determinado experimento, é chamado de espaço amostral. Uma realização do experimento é representada pela escolha de algum dos possíveis , e às vezes nos referimos ao próprio como sendo a realização do experimento.
Exemplo 1.4.
Se o experimento consiste em lançar uma moeda, então ou , se convencionarmos que representa a face “cara” e representa a face “coroa”. ∎
Exemplo 1.5.
Se o experimento consiste em lançar um dado e observar a face superior, então
onde cada número representa o possível valor da face observada. ∎
Exemplo 1.6.
Se o experimento consiste em lançar uma moeda duas vezes, então
onde a primeira coordenada representa o valor observado no primeiro lançamento, e a segunda coordenada, o do segundo lançamento. ∎
Exemplo 1.7.
Se o experimento consiste em lançar um dado duas vezes e observar a face superior, então
Exemplo 1.8.
Lançar uma moeda infinitas vezes, em sequência. Se denota o resultado do primeiro lançamento da moeda, o da segunda, e assim por diante, então uma realização desse experimento equivale a sortear um do conjunto
A propósito, neste livro, e .
Exemplo 1.9.
Se o experimento consiste em medir a duração de uma lâmpada, então um possível espaço amostral é dado por . ∎
1.1.2 Eventos aleatórios
Eventos são caracterizados por condições que podem ser cumpridas ou não. Nos exemplos vistos no início deste capítulo, o observador sempre era capaz de responder às seguintes perguntas. A carta sorteada foi uma dentre , , ou ? A moeda caiu a menos de de distância das linhas do chão? A moeda caiu sobre a parte do azulejo pintada de preto? Em um modelo probabilístico, a condição a ser observada é representada pelo conjunto dos elementos para os quais a condição é cumprida.
Um evento aleatório, ou simplesmente evento, é um conjunto tal que o observador sempre é capaz de dizer, ao final do experimento, se ou . Denotaremos por a coleção formada pelos eventos aleatórios, chamada espaço de eventos. Na Seção 1.3 iremos pedir que a coleção satisfaça certas propriedades de modo a nos permitir realizar operações com os conjuntos pertencentes a .
Dizemos que o evento ocorre se a realização é tal que . Vamos traduzir algumas operações sobre conjuntos para a linguagem de eventos.
A união é o conjunto , ou seja, é o conjunto das realizações tais que pelo menos um dos eventos ou ocorre, portanto é o evento “ ou ”.
Exemplo 1.10.
No lançamento de um dado () considere os eventos e . O evento “ ou ” contém todos os resultados que sejam pares ou múltiplos de (ou ambos!), e é dado por . ∎
Analogamente, a interseção , que é dada por , é o conjunto das realizações tais que ambos os eventos e ocorrem, portanto é o evento “ e ”.
Exemplo 1.11.
Considerando os mesmo eventos do Exemplo 1.10, o evento “ e ” contém todos os resultados que sejam ao mesmo tempo pares e múltiplos de , e é dado por . ∎
Denotamos por o complementar do conjunto , dado por , ou seja, o conjunto das realizações para as quais o evento não ocorre, portanto é o evento “não ”. Geralmente é óbvio no contexto qual é o espaço amostral , e por isso optamos por como notação mais compacta que .
Exemplo 1.12.
Continuando o Exemplo 1.11, considere o evento . O evento “não ” contém todos os resultados que não sejam pares, ou seja, que são ímpares, e é dado por . ∎
O conjunto vazio é denominado evento impossível. O conjunto também é um evento, denominado evento certo. Dois eventos e são ditos mutuamente exclusivos, incompatíveis ou disjuntos se , isto é, se o evento “ e ” for impossível. De forma mais geral, dizemos que são disjuntos se e são disjuntos para todos .
Exemplo 1.13.
Continuando o exemplo anterior, considere os eventos e . O evento “ e ” é o evento impossível porque nenhum número é par e ímpar ao mesmo tempo. Em termos de conjuntos, . O evento “ ou ” é o evento certo, porque todo número é par ou ímpar. Em termos de conjuntos, . ∎
A relação significa que sempre implica , ou seja, para qualquer realização , se o evento ocorre então necessariamente o evento ocorre. Portanto, significa que a ocorrência do evento implica a ocorrência do evento .
Mencionamos uma questão técnica. Em princípio gostaríamos de atribuir probabilidade a qualquer subconjunto de , o que equivale a tomar , isto é, o conjunto de todos os subconjuntos de , chamado de conjunto das partes de . Geralmente, isso é possível quando o espaço amostral é um conjunto enumerável.22 2 Um conjunto é dito enumerável se existe uma função injetiva de em . Isso quer dizer que os elementos de podem ser indexados por , ou seja, listados em uma sequência. Por exemplo, , , números pares , primos , e . O conjunto dos números reais não é enumerável, pois dada qualquer sequência de números reais, sempre existirá um número que não estará nessa sequência. Entretanto, existem subconjuntos de , , aos quais não é possível atribuir uma medida de comprimento, área ou volume. A solução para esse problema envolve considerar um espaço de eventos que, apesar de não conter todos os subconjuntos de , contém todos os subconjuntos nos quais estaremos interessados.
1.1.3 Medida de probabilidade
Para um determinado experimento aleatório, após definidos o espaço amostral e a coleção de subconjuntos de aos quais gostaríamos de atribuir uma probabilidade, falta definir a medida de probabilidade propriamente dita. Isto é, precisamos especificar uma função que atribua a cada evento a sua respectiva probabilidade .
Na Seção 1.3, definiremos de modo preciso quais propriedades a função de probabilidade deve satisfazer. Porém, antes de tratarmos este problema em total generalidade, gostaríamos de apresentar abaixo algumas situações relativamente simples onde podemos especificar a medida de probabilidade explicitamente.
Caso equiprovável
Em alguns experimentos, há um número finito de resultados possíveis e estes são todos idênticos no sentido de que trocar a forma como objetos são etiquetados não afeta as chances de cada um deles. Havendo esse tipo de simetria, vale a hipótese de equiprobabilidade, isto é, todos os elementos têm a mesma chance de ocorrer. Neste caso, a probabilidade de um evento é simplesmente a razão entre o número de elementos de e o número de elementos do espaço amostral :
Foi exatamente isto que fizemos no Exemplo 1.1. Ou seja, quando há equiprobabilidade, a tarefa de calcular a probabilidade resume-se a um problema de contagem: quantos são os elementos de e de ? Abordaremos a questão de contagem com mais profundidade na próxima seção.
Exemplo 1.14.
Um dado comum é lançado. Qual a probabilidade de o valor exibido na face superior ser múltiplo de 3? Podemos modelar esse experimento tomando , e o evento de interesse é . Como as faces do dado podem ser reetiquetadas sem que isso afete as chances de cada resultado, vale a hipótese de equiprobabilidade e, portanto,
Exemplo 1.15.
Lançamos dois dados, um azul e um branco. Qual a probabilidade de que a soma dos valores observados seja igual a ? Neste caso, podemos tomar e . Como as faces de cada dado podem ser reetiquetadas sem que isso afete as chances de cada resultado, vale a hipótese de equiprobabilidade neste espaço, e
Exemplo 1.16.
Retiramos uma carta de um baralho comum, observamos sua face e a retornamos ao baralho, que é novamente embaralhado. Em seguida retiramos outra carta. Qual a probabilidade de as cartas retiradas serem um rei e uma dama do mesmo naipe? Neste caso, podemos tomar
e
Como as cartas podem ser reetiquetadas cada vez que embaralhamos o maço, sem que isso afete as chances de cada possível resultado, vale a hipótese de equiprobabilidade nesse espaço . Logo,
Espaços amostrais enumeráveis
Um contexto que vai além do caso equiprovável e que podemos tratar sem mais complicações técnicas, é quando o espaço amostral é um conjunto enumerável.
Se , então a cada possível resultado é associada uma probabilidade de forma que
Para um subconjunto definimos
Exemplo 1.18.
Lançamos um dado sucessivamente e contamos o número de lançamentos necessários até obtermos o número pela primeira vez. Então podemos tomar como espaço amostral e . Se “obter um em no máximo tentativas” e “não se obter o nas primeiras tentativas”, então
e
A agulha de Buffon
Uma agulha é lançada de modo aleatório para cima e cai sobre um piso que é cortado por um feixe de retas paralelas, todas elas espaçadas por uma mesma distância igual ao comprimento da agulha. Qual a probabilidade de a agulha cruzar uma das retas do piso?
Seja o comprimento da agulha. Inspecionando a Figura 1.3, podemos verificar que a agulha está perfeitamente localizada em relação às retas do piso se conhecermos as variáveis
e
Observe que e , ou seja, o lançamento da agulha corresponde a um sorteio de um ponto no retângulo . Recorrendo novamente à Figura 1.3, podemos verificar que a agulha cruza uma das retas do piso se, e somente se, é satisfeita a condição . Sendo assim, nossa pergunta agora é quanto vale , onde . Assim como agimos intuitivamente no Exemplo 1.3, por uma questão de simetria (invariância por rotação e translação), a probabilidade do conjunto deve ser a razão entre as áreas dos conjuntos e :
Lançando a agulha muitas vezes, esperamos que a proporção de lançamentos em que a agulha intersecta as linhas do piso se aproxime de . Este é, pois, um método probabilístico para calcular as casas decimais de ! Na verdade não é um método muito eficiente, mas impressiona pela audácia.
Espaços contínuos
Observamos que, no exemplo acima, o espaço amostral não é enumerável. Por isso, precisamos de uma medida de probabilidade diferente da dos casos anteriores. Intuitivamente, dissemos que a probabilidade do evento era a razão entre as áreas de e . Mas quais são os conjuntos aos quais podemos atribuir área? Como se calcula a área nestes casos?
Neste mesmo problema, qual é a probabilidade de a agulha cair paralela às retas do piso? Ou seja, queremos saber quanto vale , onde . Como é um segmento de reta dentro do retângulo , a área de é zero, logo .
De modo análogo, o evento em que a agulha forma um ângulo exatamente igual a com o feixe de retas do piso, também tem a propriedade de que , e isso vale para todo . Em particular, para todo .
Acabamos de ver algo bastante curioso: há eventos de probabilidade zero que não são o evento impossível! Mais do que isso, cada ponto do espaço amostral tem probabilidade zero. Mas isso quer dizer que qualquer evento é composto por eventos menores, cada um com probabilidade zero, incluindo o evento estudado acima (a agulha cortar uma das retas do piso). Daí vemos que
pois . Observe o contraste com (1.17). Quando um evento pode ser decomposto em uma coleção enumerável de partes menores, o uso de somatórios é adequado. Quando a decomposição não é enumerável, necessitamos modelos em que a passagem da parte ao todo se faz através de integração ao invés de soma.
Simetria e equiprobabilidade
Concluímos esta seção com uma discussão mais minuciosa a respeito da hipótese de equiprobabilidade.
Um dado pode ter suas faces etiquetadas com ou . As chances de se observar a etiqueta “2” são as mesmas para ambos os casos, pois as faces do dado que seriam etiquetadas com “2” são idênticas e, uma vez que o dado tenha girado ao redor de seus eixos várias vezes, não há resquícios da posição inicial que possam fazer com que uma das faces tenha mais chances que as outras. Por outro lado, sair “2” no segundo caso é o mesmo que sair “1” no primeiro caso, e portanto a probabilidade de se observar a face “2” é a mesma que a de se observar a face “1”. Seguindo o mesmo argumento, a chance de sair “2” é a mesma que de sair “3” e assim por diante.
Certamente, há exemplos com finitos resultados possíveis em que a hipótese de equiprobabilidade não é válida. Considere o lançamento simultâneo de dois dados de mesma cor (mais precisamente, idênticos, se é que isso é possível) sobre o mesmo tabuleiro. Qual a probabilidade de que a soma dos valores exibidos em cada face seja ? Um erro sutil, que inclusive grandes matemáticos já cometeram no passado, é usar um modelo equiprovável sobre os pares não-ordenados possíveis. Neste caso, teríamos a mesma probabilidade de que a soma seja ou , pois somente pode ser obtido de uma forma (com um par de “”s) e também pode ser obtido apenas de uma forma (com um “” e um “”). A ideia de considerar os dados como sendo idênticos e definir um espaço amostral com apenas elementos, ao invés de ajudar, atrapalhou. Isso porque não há simetria (isto é, invariância pela forma como as faces são etiquetadas) que nos permita justificar que e tenham a mesma chance. Pelo contrário, podemos pensar que dois dados nunca são idênticos e, ainda que fossem, um deles vai cair mais à esquerda e, ainda que caiam perfeitamente alinhados, é possível escolher um dos dois dados no início e seguir sua trajetória de forma a diferenciá-lo do outro. Felizmente, mesmo que o observador insista na sua incapacidade de distinguir os dados, já sabemos que o modelo com resultados possíveis nos permitiu resolver o problema usando simetria. Portanto, se queremos muito modelar o experimento com um espaço amostral de elementos, a medida de probabilidade deve atribuir peso a cada um dos pares de números idênticos e a cada um dos pares de números diferentes, totalizando , como esperado.33 3 Quem disse que dois dados podem somar ou com a mesma probabilidade foi ninguém menos que G. Leibniz (o co-inventor do Cálculo) em 1666. Claramente, Leibniz não tinha muita experiência prática lançando dados. Meio século antes, teve lugar uma versão um pouco mais complicada desse problema, o Problema do Grão-Duque da Toscana. Considere o lançamento de três dados, e observe que a soma pode ser obtida como , ou , enquanto a soma pode ser obtida como , , , , ou . Apesar de que tanto quanto podem ser obtidos a partir de seis listas diferentes, por que somas são mais frequentes que somas ? Indagado por seu patrono, Galileu responde de modo correto que essas seis listas não são equiprováveis. Analogamente ao lançamento de dois dados, a lista é menos provável que , que por sua vez é menos provável que . A escolha correta para a medida de probabilidade deve atribuir peso a cada uma das triplas com números idênticos, a cada tripla formada por dois números idênticos e outro distinto e a cada tripla de três números distintos. Portanto, a soma ocorre com probabilidade , enquanto uma soma ocorre com probabilidade . É muito curioso que o Grão-Duque tenha tido tanta experiência com lançamentos de dados a ponto de perceber empiricamente uma diferença relativa entre as probabilidades inferior a um décimo!