Universidade Federal de Santa Maria
Ci. e nat., Santa Maria, v. 42
Commemorative Edition: Statistic, e28, 2020
DOI: http://dx.doi.org/10.5902/2179460X40537
Received: 11/10/2019 Accepted: 11/03/2020
Statistics
Maicon FaccoI
Marcos Antonio de Azevedo de CamposII
Daíse dos Santos VargasIII
Rozieli Bovolini SilveiraIV
Cleber BisogninV
I Universidade Federal de Santa Maria, Brasil; e-mail: maicon_facco@yahoo.com.br;
II Universidade Federal de Santa Maria. Brasil. e-mail: marcos130694@gmail.com;
III Universidade Federal de Santa Maria, Brasil; e-mail: dadavargas@hotmail.com;
IV Universidade Federal de Santa Maria. Brasil. e-mail: rozielisilveira@gmail.com;
V Universidade Federal de Santa Maria. Brasil. e-mail: cleber.bisognin@ufsm.br
Palavras-chave: Machine Learning. Algoritmos. Previsão de chuva.
Machine Learning techniques are widely used in many areas other regarding Artificial Intelligence. Through such techniques it is possible to predict whether or not it will rain based on climate variables such as maximum and minimum hourly temperature, maximum and minimum hourly pressure, wind speed, wind direction, wind gust speed, radiation and precipitation. In the present work 5 machine learning algorithms were tested in a database of the National Institute of Meteorology (INMET) containing 8694 observations of the data from the automatic station located in Santa Maria-RS for the period from September 20, 2018 to September 20 to 2019. The objective is to find a model that best makes predictions of rainfall occurring one hour after the current time according to the study variables. As a result, the selected model was based on an algorithm called Classification and Regression Trees (CART) because it has better performance compared to other algorithms, besides easy implementation, comprehension and low computational cost.
Keywords: Machine learning. Algorithms. Rain forecast.
1 INTRODUÇÃO
Em relação ao desenvolvimento científico e tecnológico é oportuno alinharmos os saberes já adquiridos pela humanidade às inovações em um processo único, permitindo maior qualidade e rapidez na resolução de problemas. Segundo Simon (1983), o processo do conhecimento científico inclui a aprendizagem, o entendimento e a prática, e está em contínuo desenvolvimento. Esse processo permite que as informações sejam produzidas de forma mais completa e rápida, além de permitir a replicação do processo. Um exemplo disso é a programação eficiente de um computador, pois por meio de manipulação poderia haver quantas réplicas do processo fossem necessárias. Utilizar a tecnologia para ajudar o ser humano na resolução de problemas e lidar com situações difíceis não é uma ideia nova.
Nesse contexto, Machine Learning (Aprendizado de Máquina) permite que computadores tomem decisões a partir da ajuda de algoritmos que reconhecem padrões e tornam-se capazes de fazer previsões. Um exemplo de previsão seria uma máquina poder classificar um objeto de acordo com informações armazenadas em sua memória, sejam imagens de vários ângulos, imagens com cores, formas, etc., ou seja, com base em padrões de dados pré-fixados.
A área de machine learning estuda métodos computacionais visando adquirir novos conhecimentos e habilidades, assim como novos meios de organizar o conhecimento existente. A ideia principal seria de que uma máquina deveria aprender com seus erros. Se uma máquina pudesse “observar” determinada ocorrência, deveria ser capaz de armazenar aquela informação determinando um desfecho para ela. Quando observada uma situação que não se assemelha com a mesma ocorrência, a máquina deveria identificar que esta não faz parte das ocorrências similares. Como exemplo informal, se uma máquina de uma residência onde uma família só ingere suco de frutas observasse algumas maçãs sendo misturadas com água e percebesse que aquilo resultaria em um suco de maçãs, poderia baseada nesse fato prever que algumas laranjas misturadas com água resultariam em um suco de laranjas, se já fosse capaz de distinguir uma maçã de uma laranja (ironicamente, classificar entre maçã e laranja seria outro problema de aprendizado de máquina). Mas se a máquina observasse um cogumelo sendo misturado com água, não deveria concluir que foi feito um suco de cogumelos, baseada nas informações de que naquela residência a família só ingere sucos de frutas.
É possível, por meio de generalizações e especificações, criar algoritmos que induzam uma hipótese cujo conceito é consistente com todos os exemplos. Muitos algoritmos de machine learrning utilizam operações de generalização e especificação para criar hipóteses a partir de exemplos. Segundo interpretação da definição de Bratko (2001), uma hipótese somente pode ser útil se puder ser utilizada no reconhecimento correto de exemplos além dos utilizados na indução da hipótese.
Um grande julgamento relacionado aos algoritmos está no problema de aprender um conceito mesmo quando alguns dados são incorretos. Nessa condição, é indicado a criação de algoritmos novos mais simples de modo que não sejam consistentes com os dados, mas que sejam úteis para exemplos ainda não vistos.
Como a tomada de decisões acontece a todo momento, e como o ser humano atua em diversas áreas, o machine learning pode perfeitamente ser incluído na rotina do mesmo. Além de tomar decisões, pode fazer uso de algoritmos para fazer previsões nas mais diversas áreas, como por exemplo, na cotação do dólar, ou prever a ocorrência de uma determinada doença baseado nos históricos de saúde de pacientes, ou até mesmo realizar a previsão do tempo baseado em padrões de condições climáticas de períodos anteriores ao que se deseja prever, que é o foco deste trabalho.
O clima é quente e temperado em Santa Maria. Na cidade, de acordo com o site Climate-Data, é presente uma pluviosidade significativa ao longo do ano. Mesmo no mês mais seco há muita pluviosidade. O mês de maio é o mais seco e setembro é o mês com maior precipitação. Ainda, o mês mais quente do ano é janeiro, baixando consideravelmente até o mês de junho, cuja temperatura mantida é a mais baixa. A diferença entre a precipitação do mês mais seco e do mês mais chuvoso é de 24mm. As temperaturas médias têm uma variação de 1°C durante o ano. Sendo assim, devido a tamanha variação optou-se por realizar um estudo de previsão sobre dias chuvosos e não chuvosos na cidade.
Várias metodologias vêm sendo propostas e todas elas se baseiam em dois grandes grupos de sistemas computacionais (dentro de uma categoria denominada “Machine Learning Indutivo por Exemplos”) denominados aprendizado supervisionado e aprendizado não supervisionado. Neste artigo será abordado somente o aprendizado supervisionado referente a variáveis de classificação.
2. METODOLOGIA
Os dados para este artigo foram obtidos no site do Instituto Nacional de Meteorologia (INMET), onde foram utilizadas 8694 observações dos dados da estação automática localizada em Santa Maria-RS referentes ao período de 20 de setembro de 2018 a 20 de setembro de 2019. No site os dados são fornecidos a cada hora do dia, e para este estudo utilizou-se algumas das variáveis fornecidas, sendo elas: temperatura máxima e mínima por hora, em graus Celsius (°C), pressão máxima e mínima por hora, em hectopascal (hPa), velocidade do vento, em metros por segundo (m/s), direção do vento, em graus (°), velocidade da rajada de vento, em metros por segundo (m/s), radiação, em quilojoules por metro ao quadrado (kJ/m²), e a precipitação, em milímetros (mm). Ainda foi elaborada uma variável denominada de chuva, onde classificou-se os dados em “chove”, quando houve a ocorrência de chuva na hora seguinte a hora observada, e “não chove”, quando não houve ocorrência de chuva na hora seguinte a hora observada. Dessa forma, procurou-se obter a previsão de chuva para uma determinada hora com base nos dados da hora anterior. Sendo assim, o melhor modelo seria aquele que classificasse com maior precisão a ocorrência de chuva, ou não, da hora seguinte a hora observada.
Por meio da aprendizagem supervisionada, aplicou-se a técnica de machine learning para realizar essa previsão, e dividiu-se a base de dados em duas partes, sendo elas, 70% para treinamento e validação e 30% para a fase de teste, selecionados aleatoriamente. Foram testados 5 diferentes métodos de classificação, os mais usuais na literatura, aplicados através do método de validação cruzada k-fold, em 10 blocos, e utilizou-se a medida de precisão Acurácia, visto que, conforme a literatura, é a melhor medida quando a variável de interesse é de classificação, como no caso da variável chuva. Para este estudo foi utilizado exclusivamente o software R Core Team (2018), utilizando o comando set.seed(1234) como semente para a geração da amostra aleatória.
No aprendizado supervisionado é informado ao sistema computacional (sistema de aprendizado) um conjunto de dados , onde possui uma classificação associada (podendo esta classificação ser uma variável quantitativa ou qualitativa). Essa classificação define qual a classe que o dado pertence. Ou seja,
onde cada dado , no qual é um vetor de valores que representam os atributos do dado e é o valor da classe desse dado. O objetivo deste tipo de aprendizado é induzir um mapeamento geral dos vetores para os valores . A partir disso, o objetivo é construir um modelo que permite predizer valores para dados previamente não observados. Mas na realidade, o aprendizado supervisionado não é capaz de construir com exatidão tal função , mas sim uma função aproximada de , pois o número de dados normalmente não é suficiente para caracterizar esta função.
2.1 Machine Learning para dados de classificação
Dada uma amostra , , … , ~ , o objetivo do machine learning é elaborar uma função que possa ser utilizada para fazer predição de novas observações ,, … , , ou seja, queremos elaborar uma função tal que . Aqui o problema é que a variável resposta é qualitativa, tornando-se assim um problema de classificação, ao contrário dos problemas de regressão, nos quais a variável resposta é quantitativa.
Neste trabalho faz-se uso de validação cruzada para estimar o risco dos métodos de classificação. O banco de dados deve ser dividido aleatoriamente em três partes: treinamento, validação e teste. Preferencialmente a parte do banco de dados direcionada ao treinamento e validação deve ser de 70% ou 80%, e a parte do banco de dados direcionada ao teste de 20% ou 30%, embora possa ser dividido em outros tamanhos.
Com o intuito de calcular o desempenho médio e a variância de um modelo, e sabendo-se que instabilidade de um modelo de machine learning pode ser percebida se uma pequena alteração nos dados de treinamento levar a classificadores significativamente diferentes e a mudanças relativamente grandes na precisão, é necessário repetir o processo de treinamento vezes para se estimar distintos parâmetros através de taxa de acerto médio e variância, e isto pode ser feito através de métodos de validação cruzada, sendo usado neste trabalho o método -fold cross validation.
2.1.1 Método -fold
O método de validação cruzada -fold consiste em particionar o conjunto de dados de treinamento e validação de tamanho em subconjuntos mutuamente exclusivos (ou seja, cada subconjunto terá um tamanho de , e posteriormente, o uso de subconjuntos para a estimação dos parâmetros do modelo (dados de treinamento), fazendo-se o cálculo da precisão do modelo, sendo o subconjunto restante (dados de validação ou de teste) empregados na sua validação. O algoritmo é treinado vezes, cada vez com um conjunto de dados diferente sendo deixado de fora para a realização da validação. Após, estima-se o desempenho por meio do erro médio ou taxa de acerto média sobre os conjuntos de validação.
2.2 Medidas de Performance
São definidas algumas medidas relacionadas aos modelos usados para machine learning, a saber: sensibilidade, especificidade, valor predito positivo e valor predito negativo. A sensibilidade reflete o quanto um modelo é eficaz em identificar corretamente, dentre todas as observações, aquelas que realmente apresentam a característica de interesse. Já a especificidade de um modelo reflete o quanto ele é eficaz em identificar corretamente as observações que não apresentam a condição de interesse.
Valores preditos positivos apresentam baixa especificidade e são mais propensos a dar resultados denominados falso-positivos. Em contrapartida, valores preditos negativos apresentam baixa sensibilidade e são mais propensos a fornecer resultados classificados como falso-negativos.
Uma outra medida comum nos modelos de machine learning é a denominada Acurácia ou Precisão. É simplesmente a proporção de dados que foram classificados corretamente em toda a matriz de confusão. É muito útil na seleção de melhores modelos de classificação para determinadas variáveis quando estes estão sendo comparados.
Também há um outro coeficiente denominado Kappa, e é uma das variáveis que podem ser quantificadas após construir a matriz de confusão, sendo um índice que retrata o grau de concordância dos dados, gerando, assim, um aspecto de confiabilidade e precisão dos dados classificados (PERROCA e GAIDZINSKI, 2003). O valor de Kappa varia no intervalo [0, 1], sendo que quanto mais próximo de 1, melhor a qualidade das classificações dos dados.
2.3 Alguns métodos de classificação
Em relação aos métodos de classificação, estes se baseiam em classificadores plug-in. Dessa forma seguem os mais utilizados.
2.3.1 Análise Discriminante Linear (LDA)
Assume-se na análise discriminante linear que cada distribuição condicional segue uma distribuição normal multivariada. As distribuições, embora possuam médias distintas, têm a mesma matriz de variância e covariância.
Assim,
Através do método de máxima verossimilhança, estimam-se os parâmetros:
onde .
Constrói-se então o classificador plug-in por meio das estimativas de por meio de
.
No caso de classificações binárias (casos de “sim” ou “não”, “0” ou “1”), utiliza-se como regra de classificação a função , que é uma regra de decisão em um hiperplano de .
2.3.2 Support Vechtor Machines (SVM)
Proposto por Cortes e Vapnik (1995), o support vechtor machine é um método de classificação que se diferencia de outros métodos principalmente porque em momento algum estimam-se as probabilidades .
Considere uma função linear e seja assumindo valores em um conjunto .
O classificador dado pelo support vechtor machine é dado por
.
Supõe-se que existe um hiperplano que separa perfeitamente as observações do conjunto de treinamento segundo sua classificação (classe a qual pertencem), ou seja, descreve-se a existência de uma função linear tal que se, e somente se, . Logo, para todo , .
O SVM, na presença de muitos hiperplanos, busca por aquele que fica mais distante de todos os pontos observados. Se separa perfeitamente os dados, tem-se que , dado que é a distância do ponto à reta dada por . Ou seja, o SVM busca tal que seja grande para todo , pois se é muito alto, está muito longe do plano separador. Assim, caso haja um hiperplano que separa perfeitamente os dados, o SVM busca o hiperplano com coeficientes tal que
sujeito às restrições:
i. e
ii. para todo , , em que e
Enfatiza-se aqui que pode ser maior que 1, permitindo assim que seja negativo, o que significa que a -ésima amostra pode cair no lado errado do hiperplano, ou seja, pode ser mudada sua classificação. é conhecido como um tuning parameter, ou seja, quanto maior seu valor, mais chance de cair no lado errado do hiperplano as amostras têm, e é um limitante para as observações, além de sempre ser maior que .
2.3.3 Método dos vizinhos mais próximos ()
Um dos métodos mais populares no machine learning, o método dos vizinhos mais próximos tem como base estimar a função de classificação para uma dada configuração das covariáveis dos -vizinhos mais próximos de (BENEDETTI, 1977).
Define-se como classificador a função
,
em que é o conjunto das -observações mais próximas de , isto é,
,
e é a distância do -ésimo vizinho mais próximo de até . Ou seja, busca-se entre as observações mais próximas do vetor de covariáveis a classe mais frequente que foi observada.
2.3.4 Árvores de Classificação e Regressão (CART)
Constrói-se uma árvore a partir do particionamentos recursivos no espaço das covariáveis. Cada particionamento recebe o nome de nó e cada resultado final recebe o nome de folha.
Para fazer a previsão de uma nova observação por meio de uma árvore, inicia-se pelo topo verificando se a condição descrita no topo é satisfeita. Caso seja, escolhe-se o caminho da esquerda. Caso contrário, o da direita. Repete-se o processo até que seja atingida uma folha.
Uma árvore cria uma partição do espaço das covariáveis em regiões distintas e disjuntas . Sendo assim, a predição para a variável resposta de uma observação com covariáveis que estão em é dada por
,
ou seja, para realizar a classificação de , observa-se a qual região pertence a observação e, então, calcula-se a moda amostral do conjunto de treinamento que pertencem à essa região.
2.3.5 Florestas Aleatórias (RF)
Esta abordagem consiste em criar árvores distintas e combinar seus resultados para melhorar as predições dadas pelas árvores individualmente. A principal ideia na criação de florestas aleatórias é modificar o método de criação das árvores de classificação para que elas se tornem diferentes umas das outras. Sendo assim, em cada passo é permitido que seja escolhida somente uma dentre covariáveis para ser utilizada em cada um dos nós da árvore, ao invés de decidir qual das covariáveis será utilizada em cada um dos nós, onde as covariáveis são escolhidas aleatoriamente dentre as covariáveis originais, e é sorteado um novo subconjunto de covariáveis a cada nó criado. O valor de , segundo Izbicki e Santos (2017), pode ser escolhido por meio do método de validação cruzada, mas geralmente é feito por meio da fórmula . O valor de é mantido constante durante o processo de crescimento das árvores e cada árvore é “cultivada” em suas maiores extensões possíveis, não havendo poda em nenhum momento.
Este método é bom pois pode lidar com grandes volumes de dados e em muitas dimensões, podendo lidar com milhares de variáveis de entrada e identificar as mais significativas, além de verificar o grau de importância de cada variável.
3. RESULTADOS E DISCUSSÃO
As medidas descritivas das variáveis utilizadas no banco de dados podem ser verificadas por meio da Tabela 1. A temperatura máxima atingida foi de 38,6 ºC, a mínima de -1,3 ºC e a média da temperatura nesse período de 19,8 ºC. A pressão máxima atingida foi de 1023,9 hPa, a mínima de 987,6 hPa e a média da temperatura nesse período de 1003,5 hPa. A velocidade do vento variou entre 0,1 m/s a 12,4 m/s e em alguns períodos de tempo houve a ocorrência de rajadas de vento de até 23,9 m/s. A direção do vento variou em todas as direções, tendo uma média direcional geral de 107,9° e, por se tratar de variável circular, sua análise descritiva é calculada de modo distinto das demais variáveis. A radiação máxima atingida foi de 3950 kJ/m², a mínima de -3,60 kJ/m² e a média da temperatura nesse período de 644,49 kJ/m², e a precipitação nesse período teve uma média de 0,2 mm, chegando a atingir 28,8 mm em apenas um intervalo de tempo.
Tabela 1 – Medidas descritivas das variáveis do banco de dados do Instituto Nacional de Meteorologia (INMET) no período de 20 de setembro de 2018 a 20 de setembro de 2019.
Medida Descritiva |
Variáveis explicativas |
||||||||||
temp inst |
temp max |
temp _min |
pressão |
pressão max |
pressão min |
ventovel |
vento direção |
vento rajada |
radiação |
precipit |
|
Mínimo |
- 1,10 |
- 0,70 |
- 1,30 |
987,8 |
988,5 |
987,6 |
0,10 |
288,0° |
0,50 |
- 3,60 |
0,00 |
1º Quartil |
15,70 |
16,20 |
15,30 |
999,6 |
999,9 |
999,3 |
1,00 |
72,0° |
3,00 |
- 3,58 |
0,00 |
Mediana |
20,00 |
20,50 |
19,50 |
1002,8 |
1003,0 |
1002,4 |
1,70 |
108,0° |
4,50 |
17,40 |
0,00 |
Média |
19,81 |
20,41 |
19,23 |
1003,2 |
1003,5 |
1003,0 |
1,95 |
107,9° |
5,00 |
644,49 |
0,20 |
3º Quartil |
24,00 |
24,70 |
23,30 |
1006,5 |
1006,7 |
1006,2 |
2,60 |
143,0° |
6,50 |
1047,00 |
0,00 |
Máximo |
37,80 |
38,60 |
37,10 |
1023,8 |
1023,9 |
1023,6 |
12,40 |
287,0° |
23,90 |
3950,00 |
28,80 |
Fonte: Os autores.
A variável de interesse denominada chuva pode ser observada na Figura , onde é possível verificar que em 90,75% das observações não houve ocorrência de chuva, ou seja, houve ocorrência de chuva em apenas 9,25% do tempo.
Figura 1 – Gráfico de proporção de dados classificados nas categorias “chove” e “não chove”.
Fonte: Os autores.
O resultado final dos 5 modelos propostos pode ser observado na Tabela 2. Nota-se que o modelo que obteve melhor acurácia e melhor coeficiente Kappa foi o RF, seguido dos modelos CART, SVM e LDA, respectivamente. O modelo com os piores índices foi o modelo KNN.
Tabela 2 – Medidas descritivas dos modelos de machine learning utilizados.
Pela Figura 2, é possível visualizar o ordenamento dos modelos por meio dos respectivos intervalos de confiança de acordo com acurácia e coeficiente Kappa.
Figura 2 – Comparação entre os intervalos de confiança dos algoritmos de machine learning para os parâmetros Acurácia e coeficiente Kappa com nível de significância de 5%.
Posteriormente, testou-se os índices dos modelos utilizando os 30% da base de dados sorteados para validação. Tal validação ocorreu utilizando-se a matriz de confusão. Como resultado tem-se que o modelo CART apresentou os melhores índices, quando comparado ao modelo RF, tanto para especificidade, quanto sensibilidade. Portanto, embora o modelo de RF, a priori, tenha sido melhor classificado, optou-se ao final pela utilização do modelo CART pois, além de não apresentar diferença estatística significativa com relação ao modelo de RF, o modelo CART requer menor custo computacional e é de mais fácil interpretação.
A partir da Tabela 3 verifica-se que 119 períodos de tempo foram classificados corretamente como “chove” e 2347 como “não chove”, enquanto 141 classificações tiveram a mesma trocada. Dos 141 períodos de tempo classificados incorretamente, 36 deles em que não houve ocorrência de chuva foram reclassificados como “chove” e 105 em que houve ocorrência de chuva foram reclassificados como “não chove”. Isso mostra que, de fato, o modelo CART teve desempenho superior.
Tabela 3 – Matriz de confusão do modelo CART.
Valor predito |
Valor verdadeiro |
|
Chove |
Não chove |
|
Chove |
119 |
36 |
Não chove |
105 |
2347 |
Fonte: Os autores. |
|
|
Baseando-se na matriz de confusão representada na Tabela 3 é possível calcular algumas medidas de diagnóstico. Com base nessa matriz tem-se que a acurácia desse modelo é de 94,59%, podendo variar entre 93,65% e 95,43% num intervalo de confiança de 95%. Ou seja, com relação à base de dados destinada a testar o melhor modelo validado, o desempenho do CART foi de 94,59%. O resultado do coeficiente Kappa é de 0,5998, significando que a qualidade das classificações é de 59,98%. A especificidade desse modelo, que é a probabilidade de classificar como “não chove” dado que de fato não houve ocorrência de chuva, foi de 98,49%, e sua sensibilidade, que é a probabilidade de classificar como “chove” dado que de fato houve a ocorrência de chuva foi de 53,12%. O valor preditivo negativo é de 95,72%, que é a probabilidade de classificar como “não chove” dado que choveu. Ou seja, a cada 100 classificações “não chove”, aproximadamente em 96 não houve ocorrências de chuva. Por outro lado, o valor preditivo positivo foi de 76,77%, significando que de 100 classificações “chove”, aproximadamente em 77 houve ocorrência de chuva.
4. CONCLUSÃO
A classificação de um período de chuva relacionada às condições climáticas no horário anterior, quando se quer prever e encontrar um modelo que realize tal distinção, é uma tarefa que exige tempo e paciência. No entanto, ao se fazer uso de técnicas de machine learning, este trabalho é simplificado e realizado em um curto espaço de tempo. Dentre os cinco modelos aplicados, o que obteve o melhor desempenho foi o RF, com 94,84% na validação e 94,13% de precisão média na base de teste, porém o modelo CART foi escolhido como o melhor modelo para esta aplicação porque exige baixo custo computacional, sendo mais fácil de implementar, e sua precisão média foi semelhante ao RF nos dados referentes a treinamento e validação, 94,74%, mas proporcionou uma maior precisão nos dados referentes à base de teste, 94,59%. O método dos k vizinhos mais próximos teve o pior desempenho (72,68% de precisão média nos dados de validação e 92,02% nos dados para teste), não sendo recomendado para a classificação de ocorrências de chuvas baseada na hora anterior utilizando as variáveis propostas.
A escolha do modelo CART está diretamente relacionada ao banco de dados específico. Em outras palavras, este modelo não deve ser considerado como um algoritmo definitivo para a previsão de chuvas em determinada hora baseado nas variáveis descritas neste trabalho (a menos que a região possua condições climáticas semelhantes), pois caso haja uma classificação que pareça incorreta, esta deve ser verificada. Para cada região distinta de Santa Maria o banco de dados é diferente, revelando condições climáticas alternativas. Sendo assim, é necessária a geração de novos modelos baseados em algoritmos de machine learning, e o banco de dados deve sempre ser atualizado para a aprimoração e seleção do melhor modelo.
BENEDETTI JK. On the nonparametric estimation of regression functions. Journal of the Royal Statistical Society: Series B (Methodological). 1977; 39(2): 248-253.
BRATKO I. Prolog programming for artificial intelligence. Canadá: Pearson education ;2001.
CORTES C, VAPNIK V. Support-vector networks. Machine learning.1995; 20 (3), 273-297.
IZBICKI R, SANTOS T M. Machine Learning sob a ótica estatística: uma abordagem preditivista para a estatística com exemplos em R.2017.
PERROCA M G,GAIDZINSKI R R. Avaliando a confiabilidade interavaliadores de um instrumento para classificação de pacientes: coeficiente Kappa. Revista da Escola de Enfermagem da USP. 2003; 37(1), 72-80.
R CORE TEAM [Internet]. R: A language and environment for statistical computing. Vienna, Austria: R Foundation for Statistical Computing. 2018. Disponível em: < https://www.R-project.org/>.
SIMON HA. Por que as máquinas aprendem?. In: Aprendizado de máquina. Morgan Kaufmann ;1983.