Data Science Com R: Hélio Lopes e Simone Barbosa

Data Science com R
Hélio Lopes e Simone Barbosa
Departamento de Informática – PUC-Rio

lopes@inf.puc-rio.br
Aprendizado de Máquina (cont.)

Avaliando métodos de regressão
100
75
50
25
2.5 5.0 7.5 10.0

x
ROOT MEAN SQUARE ERROR (RMSE)

A medida de erro mais comumente usada para aferir a qualidade do ajuste de
um modelo é a chamada RAIZ DO ERRO MÉDIO QUADRÁTICO.
Ela é a raiz do erro médio quadrático da diferença entre a predição e o valor real.
Podemos pensar nela como sendo uma medida análoga ao desvio padrão.
Em R, o RMSE desse exemplo pode ser calculado da seguinte forma:
sqrt(mean((d$prediction-d$y)^2))
## [1] 7.266361
A medida RMSE tem a mesma unidade que os valores de y .

RMSE é uma boa medida, porque geralmente ela representa explicitamente o
que vários métodos tendem a minimizar.
R-SQUARED
Outra importante medida de ajuste de modelos de regressão é o coeficiente de
determinação, mas conhecido como R 2 .
Ele é definido como 1.0 menos o quanto o modelo tem de de variância
inexplicada, representando uma medida relativa a um modelo nulo que usa
somente a média de y como o preditor.
Em R, o R 2 desse exemplo pode ser calculado da seguinte forma:
1-sum((d$prediction-d$y)^2)/sum((mean(d$y)-d$y)^2)
## [1] 0.9497645
R-squared é adimensional, e o melhor valor possível para o R-squared é 1.0

(valores pequenos ou negativos de R 2 não são bons sinais).
ABSOLUTE ERROR
Em muitas aplicações (especialmente aquelas que envolvem na resposta
quantidade de dinheiro), medidas como:
erro absoluto:
sum(abs(d$prediction-d$y))
## [1] 64
erro absoluto médio:

sum(abs(d$prediction-d$y))/length(d$y)
## [1] 6.4
e, erro médio relativo:

sum(abs(d$prediction-d$y))/sum(abs(d$y))
## [1] 0.1662338
podem ser medidas adequadas para se mostrar num relatório, mas elas são
usualmente não aconselháveis de se usar como objetivo do projeto (i.e.,
Avaliando modelos probabilísticos
Modelos probabilisticos São úteis tanto para classificação quanto para regressão.
Eles decidem se um item está ou não numa classe, mas também retornam a
probabilidade desse item estar nessa classe.
As técnicas de regressão logistica e árvores de decisão são famosas por
retornarem uma boa estimativa dessas probabilidades.
Tais modelos podem ser avaliados pela seu resultado final, mas também podem
ser avaliados em termos das probabilidades estimadas.
“In our opinion, most of the measures for probability models are very technical
and very good at comparing the qualities of different models on the same
dataset. But these criteria aren’t easy to precisely translate into businesses
needs. So we recommend tracking them, but not using them with your project
sponsor or client.”
ggplot(data=spamTest) +
geom_density(aes(x=pred,color=spam,linetype=spam))
7.5
spam
density
5.0
non−spam
spam
2.5
0.0
0.00 0.25 0.50 0.75 1.00

pred
THE RECEIVER OPERATING CHARACTERISTIC CURVE

A curva ROC é um gráfico popular e alternativo para o double density plot
(transparência anterior).
Para cada classificador fazemos varia o threshold de classificação, e são plotadas
as taxas de TP e de FP.
Essa curva visualiza o trade-off entre sensitivity and specificity.
library('ROCR')
eval <- prediction(spamTest$pred,spamTest$spam)
plot(performance(eval,"tpr","fpr"))
1.0
0.8
True positive rate
0.6
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
False positive rate

print(attributes(performance(eval,'auc'))$y.values[[1]])
## [1] 0.9660072
Na última linha, é calculada a área entre a curva e o eixo horizontal, e

denotamos isso por AUC (area under the curve). Auc = 1.0 indicaria um
classificador perfeito, e AUC = 0.5 indicaria que o classificador não faz melhor
que um classificador aleatório.
D. J. Hand, “Measuring classifier performance: a coherent alternative to the area
under the ROC curve,” Machine Learning, 2009, 77(1), pp. 103-123.
LOG LIKELIHOOD
Uma importante medida de avaliação de uma probabilidade estimada é a log
verosemelhança. Ela corresponde ao logaritmo do produto das probabilidades
do modelo atribuídos a cada exemplo (ou a soma de todas as log likehood de
cada exemplo).
Por exemplo, para um email que é spam cuja predição deu 0.9, o log likelihood
dele log(0.9); já para um email que é non-spam, com o mesmo score de 0.9 sua
log likelihood será de log(1-0.9)
sum(ifelse(spamTest$spam=='spam',
log(spamTest$pred),
log(1-spamTest$pred)))
## [1] -134.9478
sum(ifelse(spamTest$spam=='spam',
log(spamTest$pred),
log(1-spamTest$pred)))/dim(spamTest)[[1]]
## [1] -0.2946458
O primeiro resultado (-134.9478) é o log likelihood que o modelo atribui a cada

dado do conjunto de teste.
Este número será sempre negativo, e ele representa a melhor qualidade do
modelo quando ele estiver mais próximo de zero.
A segunda exprressão é o log likelihood dividido pelo número de dados par anos
dar uma medida de surpresa média para os dados.
Agora, um modelo nulo bom retornaria nesse caso uma probabilidade de
180/458 (the number of known spam emails over the total number of emails).
Com isso sua medida ficaria:
pNull <- sum(ifelse(spamTest$spam=='spam',1,0))/dim(spamTest)[[1]]

sum(ifelse(spamTest$spam=='spam',1,0))*log(pNull) +
sum(ifelse(spamTest$spam=='spam',0,1))*log(1-pNull)
## [1] -306.8952
DEVIANCE
Outra medida comum é a deviance, que é definida por:
−2 ∗ (logLikelihood − S),
onde S é uma constante chaamda de the log likelihood of the saturated model.
Quanto mais baixo for a deviance, melhor será o modelo.
Na maioria dos casos, o modelo saturado é o modelo perfeito que retornaria
probabilidade 1 para items na classe e probabilidade 0 para items fora da classe
(portanto, S=0).
Geralemente é usada para comparar modelos, por exemplo a diferença entre um
modelo nulo e o modelo propsoto.
Que no nosso caso, essa diferença é:
−2 ∗ (−306.8952 − S) − (−2 ∗ (−134.9478 − S)) = 344.9.
Podmeos pensar que diviance do modelo nulo como o quanto de variânica existe
para explicar, e o deviance do modelo como o quanto foi deixado de explicar pelo
modelo.
AIC
Uma medida variante da deviance é o Akaike information criterion (AIC). que é
equivalente a deviance + 2 ∗ numberOfParameters usados no modelos para fazer
a predição.
Portante, o AIC é uma penalização da deviance pela complexidade do modelo.
Um truque interessante é fazer como os estatísticos Bayesianos fazem. Eles usam
o Bayesian information criterion (BIC) (ao invés do AIC) onde uma estimativa
emprírica do modelo é utilizada pela penalizar: BIC = deviance + 2 ∗ 2e ntropy .
O AIC é útil para comparar modelos com diferentes medidas de complexidade.
ENTROPY
Entropia é uma medida bastante utilizada em teoria da informação, e sua
unidade é bits. I
Se p é um vetor contendo as probabilidades de cada possível saída, a entropia é
calculada da seguinte forma:
sum(−p ∗ log(p, 2)),
com a convenção que 0*log(0) = 0.

Como a entropia mede a surpresa, gostaríamos que a entropia condicionaldo
nosso modelo seja bem menor que a entropia original.
A entropia condicional é a medida que nos indica o quão boa a predição é para
diferentes categorias.
Em termos da matriz de confusão cM, podemos calcular a entropia e a entropia
condicional da seguinte forma:
entropy <- function(x) {

xpos <- x[x>0]
scaled <- xpos/sum(xpos)
sum(-scaled*log(scaled,2))
}
table(spamTest$spam)
##
## non-spam spam
## 278 180
print(entropy(table(spamTest$spam)))
## [1] 0.9667165
conditionalEntropy <- function(t) {

(sum(t[,1])*entropy(t[,1]) + sum(t[,2])*entropy(t[,2]))/sum(t)
}
cM
## prediction
## truth FALSE TRUE
## non-spam 264 14
## spam 22 158
print(conditionalEntropy(cM))
## [1] 0.3971897
Avaliando modelos de Ranking
Modelos de Ranking ordenam um conjunto de exemplos. Esses modelos

geralmente são treinados para converter grupos de exemplos em decisões binárias
(“a está antes de b”).
Você pode utilizar cirtérios de avaliação de classificadores para medir a qualidade
desses modelos.
Duas outras medidas utilizadas nesse contexto são a Correlação de Spearman
(que trata ranking como uma regressão) e o conceito de lift (que trata ranking
como um problema de ordenação).
Avaliando modelos de clustering
Como são não-supervisionados, modelos de clustering são difíceis de avaliar. Por

exemplo:
set.seed(32297)
d <- data.frame(x=runif(100), y=runif(100))
clus <- kmeans(d, centers=5)
d$cluster <- clus$cluster
1.00 4 1
4 4
4 4 4
4 1 1 1
4 1 1
4 4 1 11 1
4 4
0.75 4 4
4
4 4 3 3
3
3 3 3
2 2 3 3
2
2 2 2 3 33
2 2 2 2 3 3
0.50
y
2 2
2 2 3 3
2 2 3 3
2 3
5 55
2
2 2 5 5 5
0.25 2 5
5 5
2 2 2
2 5 5
5 5 5 5
5 5 5 5 55
5 5 55 5
0.00 2 2 5 5
0.00 0.25 0.50 0.75 1.00

x
Número de pontos em cada cluster
I hair clusters: clusters com muito poucos pontos

I waste clusters: clusters com muitos pontos
table(d$cluster)
##
## 1 2 3 4 5
## 10 27 18 17 28
Distâncias intra-cluster e cross-cluster (entre clusters)
library('reshape2')
n <- dim(d)[[1]]
pairs <- data.frame(
ca = as.vector(outer(1:n, 1:n, function(a,b) d[a, 'cluster'])),
cb = as.vector(outer(1:n, 1:n, function(a,b) d[b, 'cluster'])),
dist = as.vector(outer(1:n,1:n, function(a,b)
sqrt((d[a,'x']-d[b,'x'])^2 + (d[a,'y']-d[b,'y'])^2)))
)
dcast(pairs,ca~cb,value.var='dist',mean)
## ca 1 2 3 4 5
## 1 1 0.1478480 0.6524103 0.3780785 0.4404508 0.7544134
## 2 2 0.6524103 0.2794181 0.5551967 0.4990632 0.5165320
## 3 3 0.3780785 0.5551967 0.2031272 0.6122986 0.4656730
## 4 4 0.4404508 0.4990632 0.6122986 0.2048268 0.8365336
## 5 5 0.7544134 0.5165320 0.4656730 0.8365336 0.2221314
As distâncias na diagonal da tabela (intra-cluster) devem ser menores do que nas

Problemas comuns em modelos
I bias: erro sistemático, como sempre prever valores menores

I variância: distância indesejada (mas não sistemática) entre valores previstos
e reais
I overfit: aspectos do modelo relacionados apenas com os dados de
treinamento, mas não representativos da população geral
I não-significância: um modelo que apresenta uma relação importante que
não existe na população geral (ou as previsões são tão boas com ou sem a
relação)
Problemas comuns em modelos - Overfitting
Dúvidas?
Bibliografia
I Zumel, N.; Mount, J. Practical Data Science with R. Manning, 2014.

Contato
I Hélio Lopes
I http://www.inf.puc-rio.br/~lopes
I lopes@inf.puc-rio.br
I Simone Barbosa
I http://www.inf.puc-rio.br/~simone
I simone@inf.puc-rio.br

Data Science Com R: Hélio Lopes e Simone Barbosa

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Data Science Com R: Hélio Lopes e Simone Barbosa

Uploaded by

Copyright:

Available Formats

Data Science com R

Hélio Lopes e Simone Barbosa

Departamento de Informática – PUC-Rio

Aprendizado de Máquina (cont.)

2.5 5.0 7.5 10.0

ROOT MEAN SQUARE ERROR (RMSE)

A medida RMSE tem a mesma unidade que os valores de y .

R-squared é adimensional, e o melhor valor possível para o R-squared é 1.0

erro absoluto médio:

e, erro médio relativo:

0.00 0.25 0.50 0.75 1.00

THE RECEIVER OPERATING CHARACTERISTIC CURVE

0.0 0.2 0.4 0.6 0.8 1.0

False positive rate

Na última linha, é calculada a área entre a curva e o eixo horizontal, e

O primeiro resultado (-134.9478) é o log likelihood que o modelo atribui a cada

pNull <- sum(ifelse(spamTest$spam=='spam',1,0))/dim(spamTest)[[1]]

−2 ∗ (−306.8952 − S) − (−2 ∗ (−134.9478 − S)) = 344.9.

sum(−p ∗ log(p, 2)),

com a convenção que 0*log(0) = 0.

entropy <- function(x) {

conditionalEntropy <- function(t) {

Modelos de Ranking ordenam um conjunto de exemplos. Esses modelos

Como são não-supervisionados, modelos de clustering são difíceis de avaliar. Por

0.00 0.25 0.50 0.75 1.00

Número de pontos em cada cluster

I hair clusters: clusters com muito poucos pontos

As distâncias na diagonal da tabela (intra-cluster) devem ser menores do que nas

I bias: erro sistemático, como sempre prever valores menores

I Zumel, N.; Mount, J. Practical Data Science with R. Manning, 2014.

You might also like