Desigualdades educacionais no Enem: uma perspectiva baseada em variáveis socioeconômicas e aprendizagem de máquina

Autores

DOI:

https://doi.org/10.5902/2318133893251

Palavras-chave:

Microdados do Enem, Random forest, Aprendizagem de máquina

Resumo

O Exame Nacional do Ensino Médio representa um importante mecanismo de acesso ao ensino superior no Brasil. No âmbito desse estudo investigou-se a relação entre variáveis socioeconômicas e o desempenho dos estudantes no exame, utilizando técnicas de aprendizado de máquina para identificar padrões significativos. A pesquisa teve como objetivos desenvolver modelos preditivos baseados em random forest para classificar o desempenho dos estudantes; identificar as variáveis socioeconômicas mais relevantes e analisar seu impacto nos resultados, visando a subsidiar políticas educacionais mais equitativas. Foram adotados os microdados do Enem 2023, submetidos a uma etapa de pré-processamento que envolveu técnicas de one-hot encoding para tratamento de algumas variáveis e Smote para balanceamento. Foram construídos dez modelos de random forest, com o ajuste de hiperparâmetros via busca aleatória. O desempenho foi avaliado por métricas como acurácia, precisão, recall e F1-score, além da análise de importância das variáveis. Os modelos apresentaram desempenho satisfatório, com acurácias em torno de 94% e precisão de até 99%. A escolaridade e ocupação dos pais, junto com a renda familiar, emergiram como os principais preditores. Estudantes com pais mais escolarizados e em profissões estratégicas tiveram probabilidade três vezes maior de alto desempenho, enquanto aqueles de famílias de baixa renda apresentaram maior tendência a desempenho insatisfatório. Os resultados evidenciam a influência de fatores socioeconômicos no desempenho educacional, reforçando a necessidade de políticas públicas apropriadas. A eficácia dos modelos comprova sua utilidade para diagnósticos educacionais.

Downloads

Não há dados estatísticos.

Biografia do Autor

Marcelo de Souza, Universidade do Estado de Santa Catarina

Professor Adjunto do Departamento de Engenharia de Software e do Programa de Pós Graduação em Gestão da Informação da Universidade do Estado de Santa Catarina. Possui mestrado e doutorado em Ciência da Computação pela Universidade Federal do Rio Grande do Sul, e graduação em Bacharelado em Sistemas de Informação pela Universidade do Estado de Santa Catarina, com período sanduíche realizado na Universidade de León (Espanha). Também atuou como pesquisador visitante na Alliance Manchester Business School da Universidade de Manchester (Reino Unido). Trabalha nas áreas de inteligência artificial, otimização combinatória, algoritmos e grafos.

Daniel Larion Klug, Universidade do Estado de Santa Catarina

Bacharel em Engenharia de Software pela Universidade do Estado de Santa Catarina.

Referências

BERGSTRA, James; BENGIO, Yoshua. Random search for hyper-parameter optimization. Journal of Machine Learning Research, Brookline, v. 13, n. 2, 2012, p. 281-305.

BREIMAN, Leo. Random forests. Machine Learning, Berlim, v. 45, 2001, p. 5-32. DOI: https://doi.org/10.1023/A:1010933404324

CHAWLA, Nitesh V; BOWYER, Kevin W; HALL, Lawrence O; KEGELMEYER, W. Philip. SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, El Segundo, v. 16, 2002, p. 321-357. DOI: https://doi.org/10.1613/jair.953

MEC. Enem: Exame Nacional do Ensino Médio 2023. Disponível em: https://www.gov.br/inep/pt-br/areas-de-atuacao/avaliacao-e-exames-educacionais/enem. Acesso em: 18 set. 2023.

SEGER, Christian. An investigation of categorical variable encoding techniques in machine learning: binary versus one-hot and feature hashing. KTH Royal Institute of Technology, School of Electrical Engineering and Computer Science: Stockholm, Sweden, 2018.

HE, Haibo; GARCIA, Edwardo. Learning from imbalanced data. IEEE Transactions on knowledge and data engineering, Los Alamitos, v. 21, n. 9, 2009, p. 1263-1284. DOI: https://doi.org/10.1109/TKDE.2008.239

KRAWCZYK, Bartosz. Learning from imbalanced data: open challenges and future directions. Progress in Artificial Intelligence, Heidelberg, v. 5, n. 4, 2016, p. 221-232. DOI: https://doi.org/10.1007/s13748-016-0094-0

FERNÁNDEZ, Alberto; GARCIA, Salvador; HERRERA, Francisco; CHAWLA, Nitesh. SMOTE for learning from imbalanced data: Progress and challenges, marking the 15-year anniversary. Journal of Artificial Intelligence Research, El Segundo, v. 61, 2018, p. 863-905. DOI: https://doi.org/10.1613/jair.1.11192

Downloads

Publicado

10-10-2025

Como Citar

Souza, M. de, & Klug, D. L. (2025). Desigualdades educacionais no Enem: uma perspectiva baseada em variáveis socioeconômicas e aprendizagem de máquina. Revista De Gestão E Avaliação Educacional, e93251. https://doi.org/10.5902/2318133893251