Desigualdades educacionais no Enem: uma perspectiva baseada em variáveis socioeconômicas e aprendizagem de máquina
DOI:
https://doi.org/10.5902/2318133893251Palavras-chave:
Microdados do Enem, Random forest, Aprendizagem de máquinaResumo
O Exame Nacional do Ensino Médio representa um importante mecanismo de acesso ao ensino superior no Brasil. No âmbito desse estudo investigou-se a relação entre variáveis socioeconômicas e o desempenho dos estudantes no exame, utilizando técnicas de aprendizado de máquina para identificar padrões significativos. A pesquisa teve como objetivos desenvolver modelos preditivos baseados em random forest para classificar o desempenho dos estudantes; identificar as variáveis socioeconômicas mais relevantes e analisar seu impacto nos resultados, visando a subsidiar políticas educacionais mais equitativas. Foram adotados os microdados do Enem 2023, submetidos a uma etapa de pré-processamento que envolveu técnicas de one-hot encoding para tratamento de algumas variáveis e Smote para balanceamento. Foram construídos dez modelos de random forest, com o ajuste de hiperparâmetros via busca aleatória. O desempenho foi avaliado por métricas como acurácia, precisão, recall e F1-score, além da análise de importância das variáveis. Os modelos apresentaram desempenho satisfatório, com acurácias em torno de 94% e precisão de até 99%. A escolaridade e ocupação dos pais, junto com a renda familiar, emergiram como os principais preditores. Estudantes com pais mais escolarizados e em profissões estratégicas tiveram probabilidade três vezes maior de alto desempenho, enquanto aqueles de famílias de baixa renda apresentaram maior tendência a desempenho insatisfatório. Os resultados evidenciam a influência de fatores socioeconômicos no desempenho educacional, reforçando a necessidade de políticas públicas apropriadas. A eficácia dos modelos comprova sua utilidade para diagnósticos educacionais.
Downloads
Referências
BERGSTRA, James; BENGIO, Yoshua. Random search for hyper-parameter optimization. Journal of Machine Learning Research, Brookline, v. 13, n. 2, 2012, p. 281-305.
BREIMAN, Leo. Random forests. Machine Learning, Berlim, v. 45, 2001, p. 5-32. DOI: https://doi.org/10.1023/A:1010933404324
CHAWLA, Nitesh V; BOWYER, Kevin W; HALL, Lawrence O; KEGELMEYER, W. Philip. SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, El Segundo, v. 16, 2002, p. 321-357. DOI: https://doi.org/10.1613/jair.953
MEC. Enem: Exame Nacional do Ensino Médio 2023. Disponível em: https://www.gov.br/inep/pt-br/areas-de-atuacao/avaliacao-e-exames-educacionais/enem. Acesso em: 18 set. 2023.
SEGER, Christian. An investigation of categorical variable encoding techniques in machine learning: binary versus one-hot and feature hashing. KTH Royal Institute of Technology, School of Electrical Engineering and Computer Science: Stockholm, Sweden, 2018.
HE, Haibo; GARCIA, Edwardo. Learning from imbalanced data. IEEE Transactions on knowledge and data engineering, Los Alamitos, v. 21, n. 9, 2009, p. 1263-1284. DOI: https://doi.org/10.1109/TKDE.2008.239
KRAWCZYK, Bartosz. Learning from imbalanced data: open challenges and future directions. Progress in Artificial Intelligence, Heidelberg, v. 5, n. 4, 2016, p. 221-232. DOI: https://doi.org/10.1007/s13748-016-0094-0
FERNÁNDEZ, Alberto; GARCIA, Salvador; HERRERA, Francisco; CHAWLA, Nitesh. SMOTE for learning from imbalanced data: Progress and challenges, marking the 15-year anniversary. Journal of Artificial Intelligence Research, El Segundo, v. 61, 2018, p. 863-905. DOI: https://doi.org/10.1613/jair.1.11192
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution 4.0 Internacional Reconocimento não comercial sem obra derivada, que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista.
Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista. Exemplo: publicar em repositório institucional ou como capítulo de livro, com reconhecimento de autoria e publicação inicial nesta revista.
Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online. Exemplo: em repositórios institucionais ou na sua página pessoal - a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado.
Política de privacidade
Os nomes e endereços informados nesta revista serão usados exclusivamente para os serviços prestados por esta publicação, não sendo disponibilizados para outras finalidades ou a terceiros.

