Uma proposta para identificação de outliers multivariados

Autores

DOI:

https://doi.org/10.5902/2179460X29535

Palavras-chave:

Observações discrepantes, Análise de Agrupamento, Método de Monte Carlo

Resumo

A identificação de outliers desempenha um papel importante na análise estatística, pois tais observações podem conter informações importantes em relação às hipóteses do estudo. Se modelos estatísticos clássicos são cegamente aplicados a dados contendo valores atípicos, os resultados podem ser enganosos e decisões equivocadas podem ser tomadas. Além disso, em situações práticas, os próprios outliers são muitas vezes os pontos especiais de interesse e sua identificação pode ser o principal objetivo da investigação. Desta forma, objetivou-se propor uma técnica de detecção de outliers multivariados, baseada em análise agrupamento e comparar essa técnica com o método de identificação de outliers via Distância de Mahalanobis. Para geração dos dados utilizou-se simulação via método de Monte Carlo e a técnica de mistura de distribuições normais multivariadas. Os resultados apresentados nas simulações mostraram que o método proposto foi superior ao método de Mahalanobis tanto para sensibilidade quanto para especificidade, ou seja, ele apresentou maior capacidade de diagnosticar corretamente os indivíduos outliers e os não outliers. Além disso, a metodologia proposta foi ilustrada com uma aplicação em dados reais provenientes da área de saúde.

Downloads

Biografia do Autor

Tiago Martins Pereira, Universidade Federal de Ouro Preto, Ouro Preto, MG

Professor adjunto no Departamento de Estatística da Universidade Federal de Ouro Preto

Fernando Luiz Pereira de Oliveira, Universidade Federal de Ouro Preto, Ouro Preto, MG

Professor no Departamento de Estatística da Universidade Federal de Ouro Preto

Referências

Aggarwal, C. C. (2013). An introduction to outlier analysis. Em: Outlier Analysis, Springer, pp. 1–40.

Bamnett, V., Lewis, T. (1994). Outliers in statistical data.

Berton, L., Huertas, J., Araújo, B., Zhao, L. (2010). Identifying abnormal nodes in complex networks by using random walk

measure. Em: IEEE Congress on Evolutionary Computation, IEEE, pp. 1–6.

Chandola, V., Banerjee, A., Kumar, V. (2009). Anomaly detection: A survey. ACM computing surveys (CSUR), 41(3), 15.

Ferreira, D. F. (2011). Estatística multivariada, vol 1, 2o edn. UFLA.

Filzmoser, P. (2005). Identification of multivariate outliers: A performance study. Austrian Journal of Statistics, 34(2), 127–138.

Filzmoser, P., Maronna, R., Werner, M. (2008). Outlier identification in high dimensions. Computational Statistics & Data Analysis, 52(3), 1694–1711.

Filzmoser, P. A. (2004). A multivariate outlier detection method. Em: Proceedings of the Seventh International Conference on Computer Data Analysis and Modeling, vol 1, pp. 18–22.

Hawkins, D. M. (1980). Identification of outliers, vol 11. Chapman and Hall.

Jolliffe, I. (2002). Principal component analysis. Wiley Online Library.

Loureiro, A., Torgo, L., Soares, C. (2004). Outlier detection using clustering methods: a data cleaning application. Em: IN

PROCEEDINGS OF THE DATA MINING FOR BUSINESS WORKSHOP.

Nisha, R., Umamaheswari, N. (2014). Statistical based outlier detection in data aggregation for wireless sensor networks.

Journal of Theoretical and Applied Information Technology, 59(3), 770–780.

Oliveira, P. T. M. S., Santos, J. O., Munita, C. S. (2006). Identificação de valores discrepantes por meio da distância mahalanobis. Em: XVII Simpósio Nacional de Probabilidade e Estatística.

R Core Team (2018). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, URL http://www.R-project.org/.

Rousseeuw, P. J., Driessen, K. V. (1999). A fast algorithm for the minimum covariance determinant estimator. Technometrics, 41(3), 212–223, URL http://www.tandfonline.com/doi/abs/10.1080/00401706.1999.10485670.

Rousseeuw, P. J., van Zomeren, B. C. (1990). Unmasking multivariate outliers and leverage points. Journal of the American Statistical Association, 85(411), 633–639, URL http://www.jstor.org/stable/2289995.

Sajesh, T., Srinivasan, M. (2013). An overview of multiple outliers in multidimensional data. Sri Lankan Journal of Applied Statistics, 14(2).

Santos-Pereira, C. M., Pires, A. M. (2013). Robust clustering method for the detection of outliers: using aic to select the number of clusters. Em: Advances in Regression, Survival Analysis, Extreme Values, Markov Processes and Other

Statistical Applications, Springer, pp. 409–415.

Valadares, F. G., de Aquino, A. L. L., Junior, A. R. P. (2012). Detecção de outliers multivariados em redes de sensores. Em: XLIV Simpósio Brasileiro de Pesquisa Operacional, SBPO.

Veloso, M. V. S., Cirillo, M. A. (2016). Principal components in the discrimination of outliers: A study in simulation sample data corrected by pearson’s and yates’s chi-square distance. Acta Scientiarum Technology, 38(2), 193–200.

Willems, G., Joe, H., Zamar, R. (2009). Diagnosing multivariate outliers detected by robust estimators. Journal of Computational and Graphical Statistics, 18(1), 73–91.

Downloads

Publicado

2018-03-27

Como Citar

Barbosa, J. J., Pereira, T. M., & Oliveira, F. L. P. de. (2018). Uma proposta para identificação de outliers multivariados. Ciência E Natura, 40, e40. https://doi.org/10.5902/2179460X29535

Edição

Seção

Estatística

Artigos mais lidos pelo mesmo(s) autor(es)