Análise exploratória inicial dos dados. O banco consiste em 279878 observações de 4 variáveis, o posto, no qual a medição foi observada, o ano, a semana e a vazão. Existem dados de 84 postos diferentes. Entretanto, não há informação sobre a localização dos postos.

Abaixo, vemos um sumário dos anos e das vazões registradas.

##       ANO           VAZAO        
##  Min.   :1931   Min.   :    1.0  
##  1st Qu.:1967   1st Qu.:   63.0  
##  Median :1986   Median :  199.0  
##  Mean   :1983   Mean   :  877.4  
##  3rd Qu.:2002   3rd Qu.:  691.0  
##  Max.   :2018   Max.   :63152.0

De acordo com o histograma abaixo, vemos que existem mais observações a partir dos anos 1980, a diferença do último intervalo (2017-2018) se deve ao fato de que no banco não estão todas as observações do ano 2018.

Já o número de observações nas 52 semanas dos anos apresenta um padrão praticamente uniforme.

Conforme visto acima, no sumário da variável vazão, o valor máximo observado (63152) é bem distante do terceiro quartil (691), o que faz com que o histograma não seja muito informativo, pois agrupa muitas observações nos primeiros intervalos.

Por isso, apresentamos abaixo um outro histograma, onde os dados de vazão considerados foram aqueles que são menores que 1000. Veja que os dados apresentam um comportamento assimétrico ao redor da média (877.4).

Análise para o posto 101

Como são muitos postos diferentes, vamos analisar primeiramente somente dados de um posto, o 101. Primeiramente, agrupamos os dados por ano e mostramos a vazão ao longo das semanas de cada ano. No total, para este posto foram 78 anos observados. O gráfico abaixo também mostra a média e os quantis 25% e 75%.

Agora, ao invés de agrupar os dados por ano, agrupamos por semana, para verificar se existe alguma mudança no padrão ao longo dos anos.

Agora agrupamos os dados de vazão por década e observando o comportamento médio ao longo das semanas do ano, para ver se existe alguma mudança parente ao longo das décadas.