Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão

Autores

DOI:

https://doi.org/10.5902/2179460X84257

Palavras-chave:

ARMA, Passeio aleatório, Árvores de decisão, Dados faltantes, Imputação

Resumo

O preenchimento de valores faltantes em séries temporais é um problema que tem recebido pouca atenção. Os estudos encontrados na literatura geralmente se concentram em modelos lineares da família ARIMA e não discutem a validade das metodologias propostas para casos com um grande volume de dados faltantes, nos quais métodos paramétricos tornam-se desafiadores devido ao problema adicional de identificar a ordem do modelo. Para abordar essas questões, este estudo propõe uma metodologia de reconstrução de séries temporais utilizando árvores de decisão, um método de aprendizado de máquina que não assume um modelo paramétrico para os dados. Nessa abordagem, os valores conhecidos da série temporal atuam como a variável resposta, enquanto as defasagens correspondentes são usadas como preditores. A árvore selecionada pelo algoritmo de treinamento é então usada para prever os valores faltantes na resposta. Simulações de Monte Carlo são utilizadas para investigar a metodologia proposta, considerando processos da família ARMA e o passeio aleatório,  variando o tamanho da série temporal, parâmetros dos modelos, proporção de valores faltantes e os preditores. Para avaliar a qualidade das reconstruções, as previsões das árvores de decisão foram comparadas com as de alguns m´métodos tradicionais de imputação. Os resultados demonstram o potencial do método proposto e são consistentes com o arcabouço teórico deste estudo. Para  promover a metodologia proposta, foi desenvolvido um aplicativo em Shiny que está disponível publicamente.

Downloads

Não há dados estatísticos.

Biografia do Autor

Alisson Silva Neimaier, Universidade Federal do Rio Grande do Sul

Mestrado em Estística pela Universidade Federal do Rio Grande do Sul - UFRGS (2022-2024).

Taiane Schaedler Prass, Universidade Federal do Rio Grande do Sul

Pós-Doutorado em Matemática pela Universidade Federal do Rio Grande do Sul.

Referências

Batista, G., Monard, M. C. (2003). An analysis of four missing data treatment methods for supervised learning. Applied Artificial Intelligence, 17, 519–533.

Breiman, L., Friedman, J., Stone, C., Olshen, R. (1984). Classification and Regression Trees. Taylor & Francis.

Brockwell, P. J., Davis, R. A. (1991). Time Series: Theory and Methods, 2o ed. Springer Science & Business Media.

Chang, W., Cheng, J., Allaire, J., Sievert, C., Schloerke, B., Xie, Y., Allen, J., McPherson, J., Dipert, A., Borges, B. (2021). shiny: Web Application Framework for R. URL https://CRAN.R-project.org/package=shiny , r package version 1.7.1.

Dempster, A. P., Laird, N. M., Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society Series B (Methodological), 39(1), 1–38.

Dergachev, V. A., Gorban, A. N., Rossiev, A. A., Karimova, L. M., Kuandykov, E. B., Makarenko, N. G., Steier, P. (2001). The filling of gaps in geophysical time series by artificial neural networks. Radiocarbon, 43(2A), 365–371.

Greiner, R., Grove, A., Kogan, A. (1997). Knowing what doesn’t matter: exploiting the omission of irrelevant data. Artificial Intelligence, 97(1-2), 345–380.

Hastie, T., Tibshirani, R., Friedman, J. (2009). The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media.

James, G., Witten, D., Hastie, T., Tibshirani, R. (2013). An Introduction to Statistical Learning: with Applications in R. Springer Texts in Statistics, Springer New York.

Josse, J., Prost, N., Scornet, E., Varoquaux, G. (2019). On the consistency of supervised learning with missing values. arXiv:190206931.

Kass, G. V. (1980). An exploratory technique for investigating large quantities of categorical data. Applied Statistics, 20(2), 119–127.

Little, R. J. A. (1995). Modeling the drop-out mechanism in repeated-measures studies. Journal of the American Statistical Association, 90(431), 1112–1121.

Ljung, G. M. (1989). A note on the estimation of missing values in time series. Communications in Statistics - Simulation and Computation, 18(2), 459–465.

Luceño, A. (1997). Estimation of missing values in possibly partially nonstationary vector time series. Biometrika, 84(2), 495–499.

Molenberghs, G., Fitzmaurice, G. M., Kenward, M. G., Tsiatis, A. A., Verbeke, G. (2020). Handbook of Missing Data Methodology. Chapman & Hall/CRC Handbooks of Modern Statistical Methods, Taylor & Francis Group.

Morettin, P. A., Toloi, C. M. d. C. (2004). Análise de séries temporais. Edgard Blucher.

Moritz, S., Bartz-Beielstein, T. (2017). imputeTS: Time Series Missing Value Imputation in R. The R Journal, 9(1), 207–218.

Murphy, K. (2012). Machine Learning: A Probabilistic Perspective. Adaptive Computation and Machine Learning series, MIT Press.

Prass, T. S., Pumi, G. (2021). On the behavior of the DFA and DCCA in trend-stationary processes. Journal of Multivariate Analysis, 182, 104,703.

Pratama, I., Permanasari, A., Ardiyanto, I., Indrayani, R. (2016). A review of missing values handling methods on time-series data. Em: 2016 International Conference on Information Technology Systems and Innovation (ICITSI), pp. 1–6.

Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, 1(1), 81–106.

R Core Team (2022). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, URL https://www.R-project.org/.

RStudio Team (2022). RStudio: Integrated Development Environment for R. RStudio, PBC, Boston, MA, URL http://www.rstudio.com/.

Rubin, D. B. (1976). Inference and missing data. Biometrika, 63, 581–592.

Shumway, R. H., Stoffer, D. S. (2005). Time Series Analysis and Its Applications (Springer Texts in Statistics). Springer-Verlag, Berlin, Heidelberg.

Therneau, T., Atkinson, B. (2019). rpart: Recursive Partitioning and Regression Trees. URL https://CRAN.R-project. org/package=rpart, r package version 4.1-15.

Van der Vaart, A. W. (2010). Time series. Lecture notes for courses “Tijdreeksen”, “Time Series” and “Financial Time Series” held at Vrije Universiteit Amsterdam, 1995-2010. URL https://staff.fnwi.uva.nl/p.j.c.spreij/onderwijs/master/aadtimeseries2010.pdf.

Yodah, Kihoro, J., Athiany, H., W, W., Kibunja (2013). Imputation of incomplete non-stationary seasonal time series data. Mathematical Theory and Modeling, 3, 142–154.

Downloads

Publicado

2024-11-29

Como Citar

Neimaier, A. S., & Prass, T. S. (2024). Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão. Ciência E Natura, 46, e84257. https://doi.org/10.5902/2179460X84257

Edição

Seção

Estatística