Uma proposta para identificação de outliers multivariados
DOI:
https://doi.org/10.5902/2179460X29535Palavras-chave:
Observações discrepantes, Análise de Agrupamento, Método de Monte CarloResumo
A identificação de outliers desempenha um papel importante na análise estatística, pois tais observações podem conter informações importantes em relação às hipóteses do estudo. Se modelos estatísticos clássicos são cegamente aplicados a dados contendo valores atípicos, os resultados podem ser enganosos e decisões equivocadas podem ser tomadas. Além disso, em situações práticas, os próprios outliers são muitas vezes os pontos especiais de interesse e sua identificação pode ser o principal objetivo da investigação. Desta forma, objetivou-se propor uma técnica de detecção de outliers multivariados, baseada em análise agrupamento e comparar essa técnica com o método de identificação de outliers via Distância de Mahalanobis. Para geração dos dados utilizou-se simulação via método de Monte Carlo e a técnica de mistura de distribuições normais multivariadas. Os resultados apresentados nas simulações mostraram que o método proposto foi superior ao método de Mahalanobis tanto para sensibilidade quanto para especificidade, ou seja, ele apresentou maior capacidade de diagnosticar corretamente os indivíduos outliers e os não outliers. Além disso, a metodologia proposta foi ilustrada com uma aplicação em dados reais provenientes da área de saúde.Downloads
Referências
Aggarwal, C. C. (2013). An introduction to outlier analysis. Em: Outlier Analysis, Springer, pp. 1–40.
Bamnett, V., Lewis, T. (1994). Outliers in statistical data.
Berton, L., Huertas, J., Araújo, B., Zhao, L. (2010). Identifying abnormal nodes in complex networks by using random walk
measure. Em: IEEE Congress on Evolutionary Computation, IEEE, pp. 1–6.
Chandola, V., Banerjee, A., Kumar, V. (2009). Anomaly detection: A survey. ACM computing surveys (CSUR), 41(3), 15.
Ferreira, D. F. (2011). Estatística multivariada, vol 1, 2o edn. UFLA.
Filzmoser, P. (2005). Identification of multivariate outliers: A performance study. Austrian Journal of Statistics, 34(2), 127–138.
Filzmoser, P., Maronna, R., Werner, M. (2008). Outlier identification in high dimensions. Computational Statistics & Data Analysis, 52(3), 1694–1711.
Filzmoser, P. A. (2004). A multivariate outlier detection method. Em: Proceedings of the Seventh International Conference on Computer Data Analysis and Modeling, vol 1, pp. 18–22.
Hawkins, D. M. (1980). Identification of outliers, vol 11. Chapman and Hall.
Jolliffe, I. (2002). Principal component analysis. Wiley Online Library.
Loureiro, A., Torgo, L., Soares, C. (2004). Outlier detection using clustering methods: a data cleaning application. Em: IN
PROCEEDINGS OF THE DATA MINING FOR BUSINESS WORKSHOP.
Nisha, R., Umamaheswari, N. (2014). Statistical based outlier detection in data aggregation for wireless sensor networks.
Journal of Theoretical and Applied Information Technology, 59(3), 770–780.
Oliveira, P. T. M. S., Santos, J. O., Munita, C. S. (2006). Identificação de valores discrepantes por meio da distância mahalanobis. Em: XVII Simpósio Nacional de Probabilidade e Estatística.
R Core Team (2018). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, URL http://www.R-project.org/.
Rousseeuw, P. J., Driessen, K. V. (1999). A fast algorithm for the minimum covariance determinant estimator. Technometrics, 41(3), 212–223, URL http://www.tandfonline.com/doi/abs/10.1080/00401706.1999.10485670.
Rousseeuw, P. J., van Zomeren, B. C. (1990). Unmasking multivariate outliers and leverage points. Journal of the American Statistical Association, 85(411), 633–639, URL http://www.jstor.org/stable/2289995.
Sajesh, T., Srinivasan, M. (2013). An overview of multiple outliers in multidimensional data. Sri Lankan Journal of Applied Statistics, 14(2).
Santos-Pereira, C. M., Pires, A. M. (2013). Robust clustering method for the detection of outliers: using aic to select the number of clusters. Em: Advances in Regression, Survival Analysis, Extreme Values, Markov Processes and Other
Statistical Applications, Springer, pp. 409–415.
Valadares, F. G., de Aquino, A. L. L., Junior, A. R. P. (2012). Detecção de outliers multivariados em redes de sensores. Em: XLIV Simpósio Brasileiro de Pesquisa Operacional, SBPO.
Veloso, M. V. S., Cirillo, M. A. (2016). Principal components in the discrimination of outliers: A study in simulation sample data corrected by pearson’s and yates’s chi-square distance. Acta Scientiarum Technology, 38(2), 193–200.
Willems, G., Joe, H., Zamar, R. (2009). Diagnosing multivariate outliers detected by robust estimators. Journal of Computational and Graphical Statistics, 18(1), 73–91.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Para acessar a DECLARAÇÃO DE ORIGINALIDADE E EXCLUSIVIDADE E CESSÃO DE DIREITOS AUTORAIS clique aqui.
Diretrizes Éticas para Publicação de Revistas
A revista Ciência e Natura está empenhada em garantir a ética na publicação e na qualidade dos artigos.
A conformidade com padrões de comportamento ético é, portanto, esperada de todas as partes envolvidas: Autores, Editores e Revisores.
Em particular,
Autores: Os Autores devem apresentar uma discussão objetiva sobre a importância do trabalho de pesquisa, bem como detalhes e referências suficientes para permitir que outros reproduzam as experiências. Declarações fraudulentas ou intencionalmente incorretas constituem comportamento antiético e são inaceitáveis. Artigos de Revisão também devem ser objetivos, abrangentes e relatos precisos do estado da arte. Os Autores devem assegurar que seu trabalho é uma obra totalmente original, e se o trabalho e / ou palavras de outros têm sido utilizadas, isso tem sido devidamente reconhecido. O plágio em todas as suas formas constitui um comportamento publicitário não ético e é inaceitável. Submeter o mesmo manuscrito a mais de um jornal simultaneamente constitui um comportamento publicitário não ético e é inaceitável. Os Autores não devem submeter artigos que descrevam essencialmente a mesma pesquisa a mais de uma revista. O Autor correspondente deve garantir que haja um consenso total de todos os Co-autores na aprovação da versão final do artigo e sua submissão para publicação.
Editores: Os Editores devem avaliar manuscritos exclusivamente com base no seu mérito acadêmico. Um Editor não deve usar informações não publicadas na própria pesquisa do Editor sem o consentimento expresso por escrito do Autor. Os Editores devem tomar medidas de resposta razoável quando tiverem sido apresentadas queixas éticas relativas a um manuscrito submetido ou publicado.
Revisores: Todos os manuscritos recebidos para revisão devem ser tratados como documentos confidenciais. As informações ou ideias privilegiadas obtidas através da análise por pares devem ser mantidas confidenciais e não utilizadas para vantagens pessoais. As revisões devem ser conduzidas objetivamente e as observações devem ser formuladas claramente com argumentos de apoio, de modo que os Autores possam usá-los para melhorar o artigo. Qualquer Revisor selecionado que se sinta desqualificado para rever a pesquisa relatada em um manuscrito ou sabe que sua rápida revisão será impossível deve notificar o Editor e desculpar-se do processo de revisão. Os Revisores não devem considerar manuscritos nos quais tenham conflitos de interesse resultantes de relacionamentos ou conexões competitivas, colaborativas ou outras conexões com qualquer dos autores, empresas ou instituições conectadas aos documentos.