Responder às seguintes perguntas e tirar suas conclusões: 1) Quantas e quais são as posições em que há mutação (substituição no alinhamento ótimo com a sequência de referência) na cepa brasileira? (# 56/108, id MT126808) 2) Quantas delas estão presentes no grupo de características compatíveis selecionadas na segunda fase do projeto e quantas não? 3) Há incompatibilidades entre as características/posições da cepa brasileira? Se houver, desenhe o grafo de incompatibilidades entre as características que apresentam alguma incompatibilidade. (Uma aresta ligando duas características indica que elas são incompatíveis entre si.) 4) Para cada posição de uma característica incompatível da cepa brasileira, cuja informação foi ignorada na elaboração da filogenia obtida, listar que outras cepas de que outros países apresentam a mesma mutação. Existe algum padrão geográfico observável? Considere a representabilidade de cada país no conjunto das cepas observadas; compare as probabilidades de se ter o país em questão dado que sejam satisfeitas as seguintes condições: a cepa pertence ao conjunto de todas as cepas; a cepa pertence ao conjunto das cepas que apresentam a característica incompatível em questão. O programa fornecido MutacoesDeAminoacidos.py processa o arquivo de mutações mutacoes108.txt e verifica se cada mutação se encontra em região codificante ou não. As regiões codificantes são os ORFs (Open Reading Frames) estudados e anotados na sequência de referência. Caso pertença a uma região codificante, o programa também calcula o códon a que pertence a posição em que ocorre a mutação, bem como o aminoácido codificado. Isto é feito diretamente, no caso da sequência de referência, e requer que se calcule em que posição do códon ocorreu a mutação. As mutações silenciosas são mais fáceis de serem aceitas e costumam ocorrer na posição 2 do códon, enquanto que mutações ocorridas nas posições 0 ou 1 costumam produzir alteração no aminoácido. Como quase não há operações de inserção e remoção nas regiões codificantes, e quando há ocorrem em múltiplos de três, a mutação correspondente na outra sequência, também mencionada como sequência alvo (target), deve se dar na mesma posição no códon correspondente. Decodificados os aminoácidos associados aos referidos códons nas sequências de referência e alvo, o programa contabiliza a mutação nos contadores de frequências de mutações de aminoácidos associados ao par de amoniácidos em questão. Além de listar estas informações relativas a cada substituição, o programa lista ao final toda a tabela de contadores. No caso de sequências similares, a matriz PAM normalmente recomendada é a PAM-30, de modo que sua pontuação para o par de aminoácidos em questão também é exibida nesta listagem. Tal como observado na seção 3.5.1, o cálculo das matrizes PAM faz uso de frequências f_{ab} em seus cálculos. No programa, as frequências relativas a todas as substituições presentes no arquivo mutacoes108.txt são armazenadas no dicionário Freq. Já o dicionário FreqPos registra quais são as posições envolvidas, de modo que a cardinalidade do conjunto de posições funciona como um contador da frequência de eventos de mutações. 5) Seja A o conjunto dos pares de aminoácidos distintos com pontuação estritamente positiva na matriz PAM-30, e seja m o número destes pares. A grosso modo, estes pares de aminoácidos participam mais frequentemente de substituições que os outros pares. Considere o conjunto C formado pelos m pares de aminoácidos mais frequentes na lista de posições com mutações (segundo contadores dados pela cardinalidade de FreqPos[ par ]). Liste os conjuntos A e C, compare-os, e comente. (Além da própria função ListaConjunto fornecida, ajuda nesta comparação o cálculo do índice de Jaccard entre A e C.) Busque explicação a qualquer discrepância observada.