Algoritmos para Análise de Genomas
Objetivo:
Esse projeto possui dois objetivos principais.
O primeiro objetivo é investigar problemas surgidos diretamente dos programas de seqüenciamento de genomas, os quais se encontram em desenvolvimento atualmente no Brasil (http://watson.fapesp.br/Genoma.htm et http://www.dcc.unicamp.br/genoma/) e cuja parte computacional, como já mencionamos, é dirigida por um dos membros da equipe brasileira.
Tais problemas referem-se em particular à montagem assembly de fragmentos, isto é, à reconstrução da seqüência de DNA original a partir de sua quebra (em pedaços) que é feita para se investigar o seqüenciamento. Vários aspectos desse problema foram tratados anteriormente, de modo formal e prático ao mesmo tempo, em particular por E.W. Myers, mas algumas questões permanecem em aberto. Pretendemos investigar algumas delas, entre as quais, o problema de comparar os resultados fornecidos por diversos programas de montagem e o de refinar a montagem final (através da análise de traços).
Um segundo objetivo, mais amplo, diz respeito à análise de um genoma. Esse objetivo engloba uma grande variedade de problemas que apresentam como característica comum o fato de que fazem uso unicamente da informação presente nas seqüências, ou de uma informação que pode ser deduzida diretamente dessas seqüências, para analisar as macromoléculas e/ou identificar os objetos biológicos envolvidos na função e/ou estrutura do genoma. Tais problemas englobam a predição de genes e de sua função, a inferência de padrões, e a filogenia, assim como a busca e predição de estruturas de RNA. Os dois primeiros problemas apresentam pontos em comum. De fato, uma interessante área de pesquisa no caso da predição de genes explora a possibilidade de se basear unicamente na identificação de sinais presentes nas seqüências, dado um modelo -mesmo rudimentar-de como tais sinais são reconhecidos e processados. Ambos se referem a um campo de investigação que possui aplicações em outras áreas fora da biologia e que podem ser descritos como extração de informação. A filogenia bem como a busca e predição de estruturas de RNA podem ser formuladas através do uso de cadeias de caracteres ou grafos (em especial árvores) dependendo do tipo específico de problema que se está tentando resolver.