As desigualdades existentes no Brasil vistas no resultado do ENEM 2017


A principal forma de ingresso no ensino superior atualmente no Brasil é através do Exame Nacional do Ensino Médio, o ENEM. Realizado anualmente, tem duração de dois dias, requer uma redação e 180 questões objetivas, divididas em quatro grandes áreas: Ciências Humanas e suas Tecnologias, Ciências da Natureza e suas Tecnologias, Linguagens, Códigos e suas Tecnologias e Matemática e suas Tecnologias. Do total de $6{,}7$ milhões de inscritos, vamos considerar somente aqueles que fizeram todas as provas e que não foram eliminados. Assim, temos um total de $4.426.755$ observações. Das 139 variáveis explicativas disponíveis, várias foram desconsideradas, pois são indicadores de pedidos de recursos especializados e específicos para realização da prova (indicadores de deficiências, gestante, lactante, entre outros), além de outras que não foram utilizadas: cor da prova (são quatro diferentes), vetor com as respostas, gabarito das provas, e etc., uma vez que as notas finais já estão disponíveis. Como o exame é dividido em cinco provas, temos o resultado de cada uma delas e, para este modelo, consideramos a média aritmética das notas como sendo a variável resposta. Assim, reduzimos o número de variáveis explicativas para 36: indicadores de raça (Não declarado, Branca, Preta, Parda, Amarela, Indígena), gênero (Masculino, Feminino), estado civil (Solteiro, Casado, Divorciado, Viúvo), tipo de administração da escola onde estuda (Federal, Estadual, Municipal, Privada), localização da escola (Urbana, Rural), situação de conclusão do Ensino Médio (Já concluí o Ensino Médio, Estou cursando e concluirei o Ensino Médio em 2017, Estou cursando e concluirei o Ensino Médio após 2017, Não concluí e não estou cursando o Ensino Médio), nacionalidade (Brasileiro, Brasileiro Naturalizado, Estrangeiro, Brasileiro Nato nascido no exterior). Observe abaixo os gráficos que motivaram esta análise.
Fig 1 - Histograma da nota média dos candidatos que prestaram o ENEM em 2017.
Fig 2 - Densidade observada da nota média dos candidatos que prestaram o ENEM em 2017.
Fig 3 - Nota média dos candidatos que prestaram o ENEM em 2017 discriminado por raça declarada.
Fig 4 - Nota média dos candidatos que prestaram o ENEM em 2017 discriminado pela dependência da escola.
Fig 5 - Nota média dos candidatos que prestaram o ENEM em 2017 discriminado pelo nível de ensino da mãe.


Modelo linear múltiplo

Nesta seção, vamos considerar o modelo Y = X*b + eps, em que Y é o vetor de respostas, X é a matriz com as observações das variáveis explicativas, b é o vetor de coeficientes do modelo e eps é o vetor com erros aleatórios, em que supomos são independentes e identicamente distribuídos N(0, sigma^2).
Do total de 6,7 milhões de inscritos, vamos considerar somente aqueles que fizeram todas as provas e que não foram eliminados. Assim, temos um total de 4.426.755 observações. Utilizando o software R, obtemos o modelo cujo resumo está abaixo.

Call:
lm(formula = NOTA ~ ., data = df[, -c(2, 7), with = F])
Residuals:
Min 1Q Median 3Q Max
-480.64 -39.74 0.63 41.73 279.74
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 515.44945 21.41234 24.073 < 2e-16 ***
TP_DEPENDENCIA_ADM_ESC2 -72.44327 0.32792 -220.918 < 2e-16 ***
TP_DEPENDENCIA_ADM_ESC3 -65.04666 0.63224 -102.883 < 2e-16 ***
TP_DEPENDENCIA_ADM_ESC4 -47.33235 14.55687 -3.252 0.001148 **
TP_LOCALIZACAO_ESC2 -9.82741 0.32955 -29.821 < 2e-16 ***
TP_SEXOM -0.01637 0.11185 -0.146 0.883628
TP_NACIONALIDADE1 7.35573 2.82104 2.607 0.009122 **
TP_NACIONALIDADE2 -4.13801 2.83659 -1.459 0.144621
TP_NACIONALIDADE3 -2.98804 3.21414 -0.930 0.352551
TP_NACIONALIDADE4 7.04779 3.01241 2.340 0.019305 *
TP_ESCOLA2 -15.16745 21.14255 -0.717 0.473134
TP_ESCOLA3 -18.95957 25.67108 -0.739 0.460176
TP_ESCOLA4 6.79321 25.69324 0.264 0.791474
TP_ENSINO2 -19.05668 0.83591 -22.797 < 2e-16 ***
TP_ENSINO3 -29.98889 0.23410 -128.102 < 2e-16 ***
TP_ESTADO_CIVIL1 -9.80862 0.45493 -21.561 < 2e-16 ***
TP_ESTADO_CIVIL2 -7.25651 1.23548 -5.873 4.27e-09 ***
TP_ESTADO_CIVIL3 -15.88384 2.40620 -6.601 4.08e-11 ***
TP_COR_RACA1 1.48481 0.42281 3.512 0.000445 ***
TP_COR_RACA2 -5.83538 0.44448 -13.129 < 2e-16 ***
TP_COR_RACA3 -4.84191 0.42151 -11.487 < 2e-16 ***
TP_COR_RACA4 1.59451 0.54864 2.906 0.003657 **
TP_COR_RACA5 -14.91445 0.81090 -18.393 < 2e-16 ***
Q001B 3.95716 0.34198 11.571 < 2e-16 ***
Q001C 6.86816 0.35685 19.247 < 2e-16 ***
Q001D 7.03467 0.36372 19.341 < 2e-16 ***
Q001E 10.05448 0.35557 28.277 < 2e-16 ***
Q001F 17.08722 0.41101 41.574 < 2e-16 ***
Q001G 17.04887 0.46380 36.759 < 2e-16 ***
Q001H 5.23582 0.38461 13.613 < 2e-16 ***
Q002B 7.69405 0.42012 18.314 < 2e-16 ***
Q002C 10.18862 0.42731 23.844 < 2e-16 ***
Q002D 10.16897 0.42888 23.710 < 2e-16 ***
Q002E 14.68481 0.42182 34.813 < 2e-16 ***
Q002F 20.13812 0.46139 43.647 < 2e-16 ***
Q002G 19.50721 0.48436 40.275 < 2e-16 ***
Q002H 0.64233 0.49916 1.287 0.198162
Q003B 2.80422 0.22698 12.354 < 2e-16 ***
Q003C 5.24277 0.22317 23.493 < 2e-16 ***
Q003D 11.00464 0.25429 43.277 < 2e-16 ***
Q003E 9.21338 0.37198 24.769 < 2e-16 ***
Q003F -1.21163 0.26040 -4.653 3.27e-06 ***
Q004B 3.28236 0.22692 14.465 < 2e-16 ***
Q004C 3.97877 0.29649 13.420 < 2e-16 ***
Q004D 5.24725 0.27415 19.140 < 2e-16 ***
Q004E 8.68435 0.41532 20.910 < 2e-16 ***
Q004F -0.60892 0.27999 -2.175 0.029645 *
Q0052 -1.08491 0.86793 -1.250 0.211302
Q0053 -4.28388 0.85537 -5.008 5.49e-07 ***
Q0054 -6.34298 0.85396 -7.428 1.11e-13 ***
Q0055 -9.85021 0.85817 -11.478 < 2e-16 ***
Q0056 -13.13772 0.87307 -15.048 < 2e-16 ***
Q0057 -15.30522 0.90799 -16.856 < 2e-16 ***
Q0058 -17.60731 0.97823 -17.999 < 2e-16 ***
Q0059 -18.64034 1.14032 -16.347 < 2e-16 ***
Q00510 -21.08235 1.28636 -16.389 < 2e-16 ***
Q00511 -19.01232 1.82999 -10.389 < 2e-16 ***
Q00512 -19.99248 2.14546 -9.318 < 2e-16 ***
Q00513 -21.76711 3.10297 -7.015 2.30e-12 ***
Q00514 -20.54881 4.09389 -5.019 5.18e-07 ***
Q00515 -26.06744 4.10850 -6.345 2.23e-10 ***
Q00516 -21.87042 5.73696 -3.812 0.000138 ***
Q00517 -14.97722 6.02698 -2.485 0.012954 *
Q00518 -25.66982 5.85218 -4.386 1.15e-05 ***
Q00519 -25.80513 6.05354 -4.263 2.02e-05 ***
Q00520 -16.45637 4.15122 -3.964 7.36e-05 ***
Q006B 2.87189 0.31339 9.164 < 2e-16 ***
Q006C 9.64741 0.33066 29.177 < 2e-16 ***
Q006D 13.85766 0.35985 38.509 < 2e-16 ***
Q006E 15.81859 0.37737 41.918 < 2e-16 ***
Q006F 19.72961 0.40474 48.746 < 2e-16 ***
Q006G 22.33132 0.40302 55.410 < 2e-16 ***
Q006H 24.50482 0.43410 56.450 < 2e-16 ***
Q006I 27.22432 0.46799 58.173 < 2e-16 ***
Q006J 30.03789 0.52669 57.031 < 2e-16 ***
Q006K 33.24988 0.60779 54.706 < 2e-16 ***
Q006L 35.96087 0.65933 54.541 < 2e-16 ***
Q006M 37.76871 0.69920 54.017 < 2e-16 ***
Q006N 41.01698 0.62948 65.160 < 2e-16 ***
Q006O 46.17428 0.71186 64.864 < 2e-16 ***
Q006P 51.62516 0.75781 68.124 < 2e-16 ***
Q006Q 60.53162 0.70935 85.334 < 2e-16 ***
Q007B 0.01157 0.29149 0.040 0.968335
Q007C 3.76990 0.57935 6.507 7.66e-11 ***
Q007D 2.48798 0.37376 6.657 2.80e-11 ***
Q008B 6.53544 0.60066 10.881 < 2e-16 ***
Q008C 9.05494 0.61822 14.647 < 2e-16 ***
Q008D 12.86272 0.66106 19.458 < 2e-16 ***
Q008E 19.40705 0.73734 26.320 < 2e-16 ***
Q009B -1.68916 0.70986 -2.380 0.017332 *
Q009C -1.70087 0.70043 -2.428 0.015169 *
Q009D -1.43359 0.70781 -2.025 0.042828 *
Q009E -3.69216 0.74814 -4.935 8.01e-07 ***
Q010B 0.23637 0.14551 1.624 0.104300
Q010C 0.33013 0.25830 1.278 0.201214
Q010D -3.19244 0.54679 -5.838 5.27e-09 ***
Q010E -8.88728 1.03787 -8.563 < 2e-16 ***
Q011B -3.41836 0.13928 -24.543 < 2e-16 ***
Q011C -9.70969 0.38135 -25.461 < 2e-16 ***
Q011D -15.99711 1.12619 -14.205 < 2e-16 ***
Q011E -17.32319 2.28923 -7.567 3.81e-14 ***
Q012B 1.74696 0.48964 3.568 0.000360 ***
Q012C -4.51142 0.56648 -7.964 1.67e-15 ***
Q012D -10.20155 1.11252 -9.170 < 2e-16 ***
Q012E -11.37885 2.15185 -5.288 1.24e-07 ***
Q013B 8.91857 0.13008 68.562 < 2e-16 ***
Q013C 14.35288 0.39364 36.462 < 2e-16 ***
Q013D 12.86454 1.01711 12.648 < 2e-16 ***
Q013E 4.06397 1.80377 2.253 0.024257 *
Q014B -3.85253 0.14614 -26.361 < 2e-16 ***
Q014C -14.07759 0.52249 -26.943 < 2e-16 ***
Q014D -18.80000 2.23919 -8.396 < 2e-16 ***
Q014E 0.75904 3.47729 0.218 0.827207
Q015B -4.13762 0.16974 -24.376 < 2e-16 ***
Q015C -3.66466 1.32394 -2.768 0.005640 **
Q015D 2.44376 3.88427 0.629 0.529256
Q015E -3.18657 4.01865 -0.793 0.427810
Q016B -1.83606 0.13819 -13.286 < 2e-16 ***
Q016C -7.80661 0.74074 -10.539 < 2e-16 ***
Q016D 0.67346 3.00531 0.224 0.822686
Q016E -2.44808 4.52044 -0.542 0.588124
Q017B -3.53917 0.34327 -10.310 < 2e-16 ***
Q017C -4.92857 2.33458 -2.111 0.034763 *
Q017D -3.80136 4.15620 -0.915 0.360389
Q017E -5.95229 4.44911 -1.338 0.180942
Q018B 0.03322 0.16078 0.207 0.836298
Q019B 0.88159 0.34994 2.519 0.011760 *
Q019C 2.18261 0.37461 5.826 5.67e-09 ***
Q019D -0.44100 0.41966 -1.051 0.293331
Q019E -2.85193 0.50235 -5.677 1.37e-08 ***
Q020B -2.27285 0.11538 -19.698 < 2e-16 ***
Q021B -4.75786 0.14356 -33.142 < 2e-16 ***
Q022B 3.28114 0.38365 8.553 < 2e-16 ***
Q022C 10.15007 0.38602 26.294 < 2e-16 ***
Q022D 10.06313 0.39260 25.632 < 2e-16 ***
Q022E 9.49068 0.40642 23.352 < 2e-16 ***
Q023B 1.38389 0.13801 10.028 < 2e-16 ***
Q024B 11.89289 0.15053 79.004 < 2e-16 ***
Q024C 21.79573 0.24757 88.037 < 2e-16 ***
Q024D 26.35815 0.38672 68.158 < 2e-16 ***
Q024E 31.51889 0.55739 56.547 < 2e-16 ***
Q025B 5.63457 0.16303 34.562 < 2e-16 ***
Q026B 12.56852 1.37550 9.137 < 2e-16 ***
Q026C -4.30201 1.45150 -2.964 0.003038 **
Q026D -12.54933 2.33830 -5.367 8.01e-08 ***
Q027B 4.40877 0.34949 12.615 < 2e-16 ***
Q027C 13.24797 0.52220 25.370 < 2e-16 ***
Q027D 28.01732 0.50217 55.793 < 2e-16 ***
Q027E 35.03577 0.56479 62.034 < 2e-16 ***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 63.43 on 1355691 degrees of freedom
(3070915 observations deleted due to missingness)
Multiple R-squared: 0.3884, Adjusted R-squared: 0.3883
F-statistic: 5817 on 148 and 1355691 DF, p-value: < 2.2e-16

Os coeficientes estimados do modelo para algumas variáveis podem ser vistos nos gráficos abaixo.

Fig 6 - Coeficientes estimados relacionados aos níveis de escolaridade dos pais: A (Nunca estudou), B (Não completou o 5º ano do EF), C (5º ano, 9º ano do EF incompleto), D (9º ano, EM incompleto), E (EM, faculdade incompleta), F (Faculdade, pós-graduação incompleta), G (Completou a Pós-graduação), H (Não sei).
Fig 7 - Coeficientes estimados relacionados à renda mensal familiar, partindo de nenhuma renda (A), 1 salário (B), e acréscimos de meio salário em cada nível até 20 salários (Q).
Fig 8 - Coeficientes estimados relacionados ao número de itens presentes na casa do candidato: computadores, geladeiras, motocicletas e quartos.