Motivação

O surgimento da corrupção está relacionado à criação das primeiras civilizações e no Brasil é um problema antigo, complexo e com origem muitas vezes atribuída aos primórdios da colonização brasileira pela coroa portuguesa. Durante o processo de colonização foram observados comportamentos presentes no relacionamento entre colonos e nativos que, posteriormente analisados por meio de correspondências históricas, foram classificados como corrupção.

É de conhecimento internacional a magnitude da corrupção no Brasil assim como suas implicações, dentre elas, pode ser citada a desigualdade social, que por sua vez implica em criminalidadee, assim, sucessivamente com uma extensa lista de causas e consequências.

Com a democratização da internet e a evolução da ciência de dados de um modo geral, diversos estudos estatísticos envolvendo transparência política e estudos relacionados com causa e consequência da corrupção foram possibilitados. Tais estudos auxiliarão na identificação de corrupção e possivelmente em seu combate.

Em agosto de 2015 a Controladoria-Geral da União (CGU) iniciou um trabalho que engloba o "Programa de Fiscalização em Entes Federativos", um novo método de controle que está sendo aplicado desde então na avaliação dos recursos públicos federais repassados a estados, municípios e Distrito Federal. No "Programa de Fiscalizaçã̃o em Entes Federativos" houveram fiscalizações que tiveram como objetivo avaliar a aplicação dos recursos federais repassados aos municípios pelos Ministérios da Educação, Saúde e Integração Nacional, por exemplo. A seleção dos municípios auditados foi feita por meio de diversas normas definidas pelo CGU sendo que anualmente foram selecionados, em média, sessenta municípios.

O resultado de tal trabalho governamental - o relatório de auditoria - contém informações e conclusões dos auditores sobre cada município baseados nas informações coletadas, cuja forma segue estrita observância às normas de fiscalização aplicáveis ao Serviço Público Federal (técnicas de inspeção física e registros fotográficos, análise documental, realização de entrevistas e aplicação de questionários).

Tais relatórios possuem informações que - de uma forma automatizada por meio de técnicas de aprendizado de máquina - podem ser extraídas e interpretadas como indicadores de corrupção (desvio de verba governamental), deficiência econômica ou social.

Objetivo

O presente trabalho tem como objetivo aplicar técnicas de processamento de linguagem natural para extrair a polaridade (polaridade das palavras classificadas em positiva, neutra e negativa) média das palavras presentes em relatórios de auditoria governamentais sobre municípios brasileiros. Utilizando-se de informações sociais sobre tais municípios, aplicar técnicas de aprendizado de máquina com o intuito de predizer a média percentual de polaridade negativa de palavras presentes em tais relatórios.