Preenchimento de valores faltantes em séries temporais utilizando árvores de decisão
DOI:
https://doi.org/10.5902/2179460X84257Palavras-chave:
ARMA, Passeio aleatório, Árvores de decisão, Dados faltantes, ImputaçãoResumo
O preenchimento de valores faltantes em séries temporais é um problema que tem recebido pouca atenção. Os estudos encontrados na literatura geralmente se concentram em modelos lineares da família ARIMA e não discutem a validade das metodologias propostas para casos com um grande volume de dados faltantes, nos quais métodos paramétricos tornam-se desafiadores devido ao problema adicional de identificar a ordem do modelo. Para abordar essas questões, este estudo propõe uma metodologia de reconstrução de séries temporais utilizando árvores de decisão, um método de aprendizado de máquina que não assume um modelo paramétrico para os dados. Nessa abordagem, os valores conhecidos da série temporal atuam como a variável resposta, enquanto as defasagens correspondentes são usadas como preditores. A árvore selecionada pelo algoritmo de treinamento é então usada para prever os valores faltantes na resposta. Simulações de Monte Carlo são utilizadas para investigar a metodologia proposta, considerando processos da família ARMA e o passeio aleatório, variando o tamanho da série temporal, parâmetros dos modelos, proporção de valores faltantes e os preditores. Para avaliar a qualidade das reconstruções, as previsões das árvores de decisão foram comparadas com as de alguns m´métodos tradicionais de imputação. Os resultados demonstram o potencial do método proposto e são consistentes com o arcabouço teórico deste estudo. Para promover a metodologia proposta, foi desenvolvido um aplicativo em Shiny que está disponível publicamente.
Downloads
Referências
Batista, G., Monard, M. C. (2003). An analysis of four missing data treatment methods for supervised learning. Applied Artificial Intelligence, 17, 519–533.
Breiman, L., Friedman, J., Stone, C., Olshen, R. (1984). Classification and Regression Trees. Taylor & Francis.
Brockwell, P. J., Davis, R. A. (1991). Time Series: Theory and Methods, 2o ed. Springer Science & Business Media.
Chang, W., Cheng, J., Allaire, J., Sievert, C., Schloerke, B., Xie, Y., Allen, J., McPherson, J., Dipert, A., Borges, B. (2021). shiny: Web Application Framework for R. URL https://CRAN.R-project.org/package=shiny , r package version 1.7.1.
Dempster, A. P., Laird, N. M., Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society Series B (Methodological), 39(1), 1–38.
Dergachev, V. A., Gorban, A. N., Rossiev, A. A., Karimova, L. M., Kuandykov, E. B., Makarenko, N. G., Steier, P. (2001). The filling of gaps in geophysical time series by artificial neural networks. Radiocarbon, 43(2A), 365–371.
Greiner, R., Grove, A., Kogan, A. (1997). Knowing what doesn’t matter: exploiting the omission of irrelevant data. Artificial Intelligence, 97(1-2), 345–380.
Hastie, T., Tibshirani, R., Friedman, J. (2009). The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media.
James, G., Witten, D., Hastie, T., Tibshirani, R. (2013). An Introduction to Statistical Learning: with Applications in R. Springer Texts in Statistics, Springer New York.
Josse, J., Prost, N., Scornet, E., Varoquaux, G. (2019). On the consistency of supervised learning with missing values. arXiv:190206931.
Kass, G. V. (1980). An exploratory technique for investigating large quantities of categorical data. Applied Statistics, 20(2), 119–127.
Little, R. J. A. (1995). Modeling the drop-out mechanism in repeated-measures studies. Journal of the American Statistical Association, 90(431), 1112–1121.
Ljung, G. M. (1989). A note on the estimation of missing values in time series. Communications in Statistics - Simulation and Computation, 18(2), 459–465.
Luceño, A. (1997). Estimation of missing values in possibly partially nonstationary vector time series. Biometrika, 84(2), 495–499.
Molenberghs, G., Fitzmaurice, G. M., Kenward, M. G., Tsiatis, A. A., Verbeke, G. (2020). Handbook of Missing Data Methodology. Chapman & Hall/CRC Handbooks of Modern Statistical Methods, Taylor & Francis Group.
Morettin, P. A., Toloi, C. M. d. C. (2004). Análise de séries temporais. Edgard Blucher.
Moritz, S., Bartz-Beielstein, T. (2017). imputeTS: Time Series Missing Value Imputation in R. The R Journal, 9(1), 207–218.
Murphy, K. (2012). Machine Learning: A Probabilistic Perspective. Adaptive Computation and Machine Learning series, MIT Press.
Prass, T. S., Pumi, G. (2021). On the behavior of the DFA and DCCA in trend-stationary processes. Journal of Multivariate Analysis, 182, 104,703.
Pratama, I., Permanasari, A., Ardiyanto, I., Indrayani, R. (2016). A review of missing values handling methods on time-series data. Em: 2016 International Conference on Information Technology Systems and Innovation (ICITSI), pp. 1–6.
Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, 1(1), 81–106.
R Core Team (2022). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, URL https://www.R-project.org/.
RStudio Team (2022). RStudio: Integrated Development Environment for R. RStudio, PBC, Boston, MA, URL http://www.rstudio.com/.
Rubin, D. B. (1976). Inference and missing data. Biometrika, 63, 581–592.
Shumway, R. H., Stoffer, D. S. (2005). Time Series Analysis and Its Applications (Springer Texts in Statistics). Springer-Verlag, Berlin, Heidelberg.
Therneau, T., Atkinson, B. (2019). rpart: Recursive Partitioning and Regression Trees. URL https://CRAN.R-project. org/package=rpart, r package version 4.1-15.
Van der Vaart, A. W. (2010). Time series. Lecture notes for courses “Tijdreeksen”, “Time Series” and “Financial Time Series” held at Vrije Universiteit Amsterdam, 1995-2010. URL https://staff.fnwi.uva.nl/p.j.c.spreij/onderwijs/master/aadtimeseries2010.pdf.
Yodah, Kihoro, J., Athiany, H., W, W., Kibunja (2013). Imputation of incomplete non-stationary seasonal time series data. Mathematical Theory and Modeling, 3, 142–154.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2024 Ciência e Natura

Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Para acessar a DECLARAÇÃO DE ORIGINALIDADE E EXCLUSIVIDADE E CESSÃO DE DIREITOS AUTORAIS clique aqui.
Diretrizes Éticas para Publicação de Revistas
A revista Ciência e Natura está empenhada em garantir a ética na publicação e na qualidade dos artigos.
A conformidade com padrões de comportamento ético é, portanto, esperada de todas as partes envolvidas: Autores, Editores e Revisores.
Em particular,
Autores: Os Autores devem apresentar uma discussão objetiva sobre a importância do trabalho de pesquisa, bem como detalhes e referências suficientes para permitir que outros reproduzam as experiências. Declarações fraudulentas ou intencionalmente incorretas constituem comportamento antiético e são inaceitáveis. Artigos de Revisão também devem ser objetivos, abrangentes e relatos precisos do estado da arte. Os Autores devem assegurar que seu trabalho é uma obra totalmente original, e se o trabalho e / ou palavras de outros têm sido utilizadas, isso tem sido devidamente reconhecido. O plágio em todas as suas formas constitui um comportamento publicitário não ético e é inaceitável. Submeter o mesmo manuscrito a mais de um jornal simultaneamente constitui um comportamento publicitário não ético e é inaceitável. Os Autores não devem submeter artigos que descrevam essencialmente a mesma pesquisa a mais de uma revista. O Autor correspondente deve garantir que haja um consenso total de todos os Co-autores na aprovação da versão final do artigo e sua submissão para publicação.
Editores: Os Editores devem avaliar manuscritos exclusivamente com base no seu mérito acadêmico. Um Editor não deve usar informações não publicadas na própria pesquisa do Editor sem o consentimento expresso por escrito do Autor. Os Editores devem tomar medidas de resposta razoável quando tiverem sido apresentadas queixas éticas relativas a um manuscrito submetido ou publicado.
Revisores: Todos os manuscritos recebidos para revisão devem ser tratados como documentos confidenciais. As informações ou ideias privilegiadas obtidas através da análise por pares devem ser mantidas confidenciais e não utilizadas para vantagens pessoais. As revisões devem ser conduzidas objetivamente e as observações devem ser formuladas claramente com argumentos de apoio, de modo que os Autores possam usá-los para melhorar o artigo. Qualquer Revisor selecionado que se sinta desqualificado para rever a pesquisa relatada em um manuscrito ou sabe que sua rápida revisão será impossível deve notificar o Editor e desculpar-se do processo de revisão. Os Revisores não devem considerar manuscritos nos quais tenham conflitos de interesse resultantes de relacionamentos ou conexões competitivas, colaborativas ou outras conexões com qualquer dos autores, empresas ou instituições conectadas aos documentos.