Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão

Autores

DOI:

https://doi.org/10.5902/2179460X84257

Palavras-chave:

ARMA, Passeio aleatório, Árvores de decisão, Dados faltantes, Imputação

Resumo

O preenchimento de valores faltantes em séries temporais é um problema que tem recebido pouca atenção. Os estudos encontrados na literatura geralmente se concentram em modelos lineares da família ARIMA e não discutem a validade das metodologias propostas para casos com um grande volume de dados faltantes, nos quais métodos paramétricos tornam-se desafiadores devido ao problema adicional de identificar a ordem do modelo. Para abordar essas questões, este estudo propõe uma metodologia de reconstrução de séries temporais utilizando árvores de decisão, um método de aprendizado de máquina que não assume um modelo paramétrico para os dados. Nessa abordagem, os valores conhecidos da série temporal atuam como a variável resposta, enquanto as defasagens correspondentes são usadas como preditores. A árvore selecionada pelo algoritmo de treinamento é então usada para prever os valores faltantes na resposta. Simulações de Monte Carlo são utilizadas para investigar a metodologia proposta, considerando processos da família ARMA e o passeio aleatório,  variando o tamanho da série temporal, parâmetros dos modelos, proporção de valores faltantes e os preditores. Para avaliar a qualidade das reconstruções, as previsões das árvores de decisão foram comparadas com as de alguns m´métodos tradicionais de imputação. Os resultados demonstram o potencial do método proposto e são consistentes com o arcabouço teórico deste estudo. Para  promover a metodologia proposta, foi desenvolvido um aplicativo em Shiny que está disponível publicamente.

Downloads

Não há dados estatísticos.

Biografia do Autor

Alisson Silva Neimaier, Universidade Federal do Rio Grande do Sul

Mestrado em Estística pela Universidade Federal do Rio Grande do Sul - UFRGS (2022-2024).

Taiane Schaedler Prass, Universidade Federal do Rio Grande do Sul

Pós-Doutorado em Matemática pela Universidade Federal do Rio Grande do Sul.

Referências

Batista, G., Monard, M. C. (2003). An analysis of four missing data treatment methods for supervised learning. Applied Artificial Intelligence, 17, 519–533. DOI: https://doi.org/10.1080/713827181

Breiman, L., Friedman, J., Stone, C., Olshen, R. (1984). Classification and Regression Trees. Taylor & Francis.

Brockwell, P. J., Davis, R. A. (1991). Time Series: Theory and Methods, 2o ed. Springer Science & Business Media. DOI: https://doi.org/10.1007/978-1-4419-0320-4

Chang, W., Cheng, J., Allaire, J., Sievert, C., Schloerke, B., Xie, Y., Allen, J., McPherson, J., Dipert, A., Borges, B. (2021). shiny: Web Application Framework for R. URL https://CRAN.R-project.org/package=shiny , r package version 1.7.1.

Dempster, A. P., Laird, N. M., Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society Series B (Methodological), 39(1), 1–38. DOI: https://doi.org/10.1111/j.2517-6161.1977.tb01600.x

Dergachev, V. A., Gorban, A. N., Rossiev, A. A., Karimova, L. M., Kuandykov, E. B., Makarenko, N. G., Steier, P. (2001). The filling of gaps in geophysical time series by artificial neural networks. Radiocarbon, 43(2A), 365–371. DOI: https://doi.org/10.1017/S0033822200038224

Greiner, R., Grove, A., Kogan, A. (1997). Knowing what doesn’t matter: exploiting the omission of irrelevant data. Artificial Intelligence, 97(1-2), 345–380. DOI: https://doi.org/10.1016/S0004-3702(97)00048-9

Hastie, T., Tibshirani, R., Friedman, J. (2009). The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media. DOI: https://doi.org/10.1007/978-0-387-84858-7

James, G., Witten, D., Hastie, T., Tibshirani, R. (2013). An Introduction to Statistical Learning: with Applications in R. Springer Texts in Statistics, Springer New York. DOI: https://doi.org/10.1007/978-1-4614-7138-7

Josse, J., Prost, N., Scornet, E., Varoquaux, G. (2019). On the consistency of supervised learning with missing values. arXiv:190206931.

Kass, G. V. (1980). An exploratory technique for investigating large quantities of categorical data. Applied Statistics, 20(2), 119–127. DOI: https://doi.org/10.2307/2986296

Little, R. J. A. (1995). Modeling the drop-out mechanism in repeated-measures studies. Journal of the American Statistical Association, 90(431), 1112–1121. DOI: https://doi.org/10.1080/01621459.1995.10476615

Ljung, G. M. (1989). A note on the estimation of missing values in time series. Communications in Statistics - Simulation and Computation, 18(2), 459–465. DOI: https://doi.org/10.1080/03610918908812770

Luceño, A. (1997). Estimation of missing values in possibly partially nonstationary vector time series. Biometrika, 84(2), 495–499. DOI: https://doi.org/10.1093/biomet/84.2.495

Molenberghs, G., Fitzmaurice, G. M., Kenward, M. G., Tsiatis, A. A., Verbeke, G. (2020). Handbook of Missing Data Methodology. Chapman & Hall/CRC Handbooks of Modern Statistical Methods, Taylor & Francis Group.

Morettin, P. A., Toloi, C. M. d. C. (2004). Análise de séries temporais. Edgard Blucher.

Moritz, S., Bartz-Beielstein, T. (2017). imputeTS: Time Series Missing Value Imputation in R. The R Journal, 9(1), 207–218. DOI: https://doi.org/10.32614/RJ-2017-009

Murphy, K. (2012). Machine Learning: A Probabilistic Perspective. Adaptive Computation and Machine Learning series, MIT Press.

Prass, T. S., Pumi, G. (2021). On the behavior of the DFA and DCCA in trend-stationary processes. Journal of Multivariate Analysis, 182, 104,703. DOI: https://doi.org/10.1016/j.jmva.2020.104703

Pratama, I., Permanasari, A., Ardiyanto, I., Indrayani, R. (2016). A review of missing values handling methods on time-series data. Em: 2016 International Conference on Information Technology Systems and Innovation (ICITSI), pp. 1–6. DOI: https://doi.org/10.1109/ICITSI.2016.7858189

Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, 1(1), 81–106. DOI: https://doi.org/10.1007/BF00116251

R Core Team (2022). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, URL https://www.R-project.org/.

RStudio Team (2022). RStudio: Integrated Development Environment for R. RStudio, PBC, Boston, MA, URL http://www.rstudio.com/.

Rubin, D. B. (1976). Inference and missing data. Biometrika, 63, 581–592. DOI: https://doi.org/10.1093/biomet/63.3.581

Shumway, R. H., Stoffer, D. S. (2005). Time Series Analysis and Its Applications (Springer Texts in Statistics). Springer-Verlag, Berlin, Heidelberg.

Therneau, T., Atkinson, B. (2019). rpart: Recursive Partitioning and Regression Trees. URL https://CRAN.R-project. org/package=rpart, r package version 4.1-15.

Van der Vaart, A. W. (2010). Time series. Lecture notes for courses “Tijdreeksen”, “Time Series” and “Financial Time Series” held at Vrije Universiteit Amsterdam, 1995-2010. URL https://staff.fnwi.uva.nl/p.j.c.spreij/onderwijs/master/aadtimeseries2010.pdf.

Yodah, Kihoro, J., Athiany, H., W, W., Kibunja (2013). Imputation of incomplete non-stationary seasonal time series data. Mathematical Theory and Modeling, 3, 142–154.

Downloads

Publicado

2024-11-29

Como Citar

Neimaier, A. S., & Prass, T. S. (2024). Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão. Ciência E Natura, 46, e84257. https://doi.org/10.5902/2179460X84257

Edição

Seção

Estatística