Professional Documents
Culture Documents
Quimiometria
Edenir Rodrigues Pereira Filho
Professor Adjunto
DQ-UFSCar
Contatos
02/07/12 a 04/07/12
EXPERINCIA PROFISSIONAL
2006... Professor Adjunto (DQ CCET - UFSCar)
So Carlos
Araras
Sorocaba
37 cursos de
graduao
6 cursos de
graduao
14 cursos de
graduao
EXPERINCIA PROFISSIONAL
Grupo GAIA
Tpicos
fracionrio.
Proposio de modelos de regresso com
planejamento fatorial (Composto central,
Doehlert, Box-Behnken). Exemplos
Tpicos
Anlise multivariada:
Programao
Dia
Atividade
02/07
(segunda
feira)
Parte da manh:
Apresentao da disciplina, tpicos que sero abordados, introduo
de alguns conceitos bsicos, Anlise de Componentes Principais
(PCA) e Anlise Hierrquica de Agrupamentos (HCA).
Parte da tarde:
Instalao dos programas computacionais nos computadores dos
alunos e exemplo com o uso do Pirouette.
03/07
Parte da manh:
(tera feira) Reviso das atividades dadas em sala de aula. Instalao do
programa computacional Octave, uso das rotinas computacionais e
apresentao de um exemplo.
Parte da tarde:
Exerccios utilizando o Octave.
04/07
(quarta
feira)
Parte da manh:
Diviso da turma em cerca de 6 grupos onde cada um ter um
conjunto de dados para aplicar as ferramentas vistas em sala de aula.
Parte da tarde:
Apresentao dos resultados de cada grupo, avaliao e balano final
das atividades.
Avaliao
Quimiometria
Disciplina que usa mtodos
matemticos e estatsticos
para planejar ou selecionar
procedimentos timos de
medidas e experimentos
Extrair o mximo de
informao de um conjunto de
dados qumicos
10
Bibliografia
1
Martens,
H.,
Naes,
Chichester: John Wiley & Sons, 1989.
2 Sharaf, M., Illman, D. L.,
New York: John Wiley & Sons, 1986.
T.,
Multivariate
Kowalski,
B.
R.,
Calibration,
Chemometrics,
chemometrics
for
scientists,
11
Bibliografia
Sobre PCA - artigos
12
Revistas especializadas
Journal of Chemometrics Wiley
InterScience
Sites interessantes
http://ull.chemistry.uakron.edu/chemometrics/
http://www.chemometrics.se/
http://laqqa.iqm.unicamp.br/
http://www.models.kvl.dk/
14
Programas computacionais
Octave (Livre)
15
Definies de quimiometria
Quimiometria uma cincia relacionada com a compreenso de
medidas efetuadas em um sistema ou processo qumico com a
utilizao de mtodos matemticos ou estatsticos (International
Chemometrics Society)
Quimiometria todo o processo onde os dados (tabela de
dados) so transformados em informaes que so utilizadas
para a tomada de decises (K. R. Beebe)
Quimiometria uma disciplina qumica que utiliza matemtica,
estatstica e lgica para: (a) desenhar ou selecionar condies
timas de experimentao; (b) fornecer o mximo de
informao relevante pela anlise de dados qumicos; e (c)
obter conhecimento sobre um sistema qumico (D. L. Massart)
Processo analtico
Amostragem
Preparo da amostra
Medida analtica
Anlise do dados
Estatstica descritiva
1 Mdia: o valor onde
se concentram os dados de
uma distribuio
1
x j xij
n i 1
3 Moda: o valor que
mais se repete em uma
distribuio
SD
( xi x )
i 1
N 1
18
4645 W
4700 W
4715 W
4630 W
2300 S
Cidades
Pontos de amostragem
Classe 3
Jundia Mirim river
8e9
1,
26
e7
Salto
10 13
Classe 2
Classe 4
Itupeva
Rio Jundia
Jundia
2315 S
Rio Tiet
19
Ribeiro
Pira
Rio Jundia
2,0
[Cd] mg/kg
1,5
1,0
0,5
Rio Jundia
Ribeiro Pira
0,0
0
Amostras
10
12
14
2,0
[Cd] mg/kg
1,5
1,0
0,5
Rio Jundia
Ribeiro Pira
0,0
Jundia
Conjunto de amostras
Pira
15
[Pb] mg/kg
10
Rio Jundia
Ribeiro Pira
0
0
Amostras
10
12
14
16
14
12
[Pb] mg/kg
10
8
6
4
2
0
Rio Jundia
Ribeiro Pira
-2
Jundia
Conjunto de amostras
Pira
4630 W
4645 W
4700 W
4715 W
2300 S
Cidades
Cd
1,27
mg/kg
Pontos de amostragem
Pb
9,08
mg/kg
Classe 3
Jundia Mirim river
Classe 2
Classe 4
Itupeva
Salto
Cd
0,09
mg/kg
Rio Jundia
Jundia
2315 S
Pb
7,52
mg/kg
Rio Tiet
25
Solo
1
2
3
4
5
6
7
8
9
10
11
12
Cd
1,93
2,16
2,02
1,37
1,46
1,43
1,01
1,12
1,08
0,100
0,200
2,40
Metais (mg/kg)
Cu
Pb
6,95
11,2
6,52
11,6
7,23
10,9
13,7
1,90
3,91
2,68
7,66
2,32
10,8
4,81
13,6
7,29
11,6
5,92
11,2
31,3
10,9
21,4
12,8
36,9
Zn
34,5
32,1
34,2
83,5
73,5
77,5
54,9
52,0
52,5
36,0
36,9
41,9
12:4
12 linhas e
4 colunas
26
Colunas da matriz
Solo
Linha
Amostra
1
2
3
4
5
6
7
8
9
10
11
12
Cd
1,93
2,16
2,02
1,37
1,46
1,43
1,01
1,12
1,08
0,100
0,200
2,40
Metais (mg/kg)
Cu
Pb
6,95
11,2
6,52
11,6
7,23
10,9
13,7
1,90
3,91
2,68
7,66
2,32
10,8
4,81
13,6
7,29
11,6
5,92
11,2
31,3
10,9
21,4
12,8
36,9
Zn
34,5
32,1
34,2
83,5
73,5
77,5
54,9
52,0
52,5
36,0
36,9
41,9
Coluna
Varivel
27
Metais (mg/kg)
Cd
Cu
Pb
Zn
1
1,93
6,95
11,2
34,5
2
2,16
6,52
11,6
32,1
3
2,02
7,23
10,9
34,2
4
1,37
13,7
1,90
83,5
5
1,46
3,91
2,68
73,5
Solos
6
7
1,43 1,01
7,66 10,8
2,32 4,81
77,5 54,9
8
1,12
13,6
7,29
52,0
9
1,08
11,6
5,92
52,5
10
0,100
11,2
31,3
36,0
11
0,200
10,9
21,4
36,9
12
2,40
12,8
36,9
41,9
4:12
4 linhas e 12 colunas
28
Solos
Metais (mg/kg)
1
2
3
4
5
Cd
1,93 2,16 2,02 1,37 1,46
29
15
40
12
35
12
30
10
13
Pb (mg/kg)
Cu (mg/kg)
10
1011
25
11
20
15
13 2
5
10
5
0
8
9
4 65
0
0
Cd (mg/kg)
90
Cd (mg/kg)
15
4
8
6
5
75
12
9
Pb (mg/kg)
Zn (mg/kg)
1011
60
98
45
12
1011
13
30
10
13
5
15
0
0
Cd (mg/kg)
Cu (mg/kg)
30
Concentrao (mg/kg)
Cd
Pb
Cu
Zn
60
30
0
1
10
11
12
Solo
31
0,84
0,002
0,004
0,003
0,002
0,002
0,002
1,02
0,003
0,005
0,004
0,003
0,003
0,003
40,8
0,000
0,001
0,001
0,000
0,000
0,000
40,92
0,001
0,001
0,000
0,001
0,000
0,000
Forma de um espectro
0,180
Contagens/segundos
0,150
0,120
0,090
0,060
0,030
0,000
0
12
18
24
Energia (keV)
30
36
42
32
a1 b1
a b
2 2
.
ab
.
.
an bn
Adio de dois vetores de mesmo tamanho
comutativa e associativa:
ab ba
(a b) c a (b c)
33
a1 ka1
a ka
2 2
. .
ka k
.
.
. .
an kan
Tamanho de um vetor (ou norma de um vetor):
34
aT b a1
a2
b1
b
2
N
.
A
.
.
.
2 1 3
A
5
2
4
A(2 3)
2 3 1 1
B 1 3 2 1
3 2 4 5
B(3 4)
(2 2) (11) (3 3) 14 15 16 18
C
24
29
25
27
C (2 4)
36
Construo de modelos
Calibrao/Classificao
Validao dos modelos
Previses
38
Definio do problema
Qual ou quais informaes devero ser
extradas do problema (sistema) em questo?
Tempo
Tcnicas
experimentais e
mtodos
Definir o
problema a
ser
resolvido
Escolha
correta da
ferramenta
analtica
Coleta de
informaes
Garantia de
que as
informaes
desejadas
foram
coletadas
39
Colocar os
dados em
um nico
arquivo
Os dados so
de um nico
instrumento?
H dados
faltantes?
Qual a
preciso dos
mtodos?
H mais de
um
instrumento
ou tipo?
Complete ou
exclua linhas
ou colunas
com dados
faltantes
41
Instrumentao de separao:
cromatogramas
Determinaes mltiplas de instrumentos
especficos: testes fsicos, qumicos e
biolgicos.
Exemplo 1
Investigao de alguns parmetros clnicos em
funileiros (Matriz: 108 x 11)
Identificao
Nmero
1
2
3
4
5
...
104
105
106
107
108
Ordem
ID
1
GN
2
LMF
3
RCN
4
GAM
5
DM
...
...
53
OPD
55
MS
56
MAS
57
DB
58
HSC
1
Creat.
1,07
1,78
0,95
1,94
1,56
...
1,57
0,82
1,02
1,24
2,27
2
Fof. Alc.
36,51
32,85
57,19
47,91
31,18
...
44,39
34,83
38,06
25,03
54,58
3
Asp.
14,60
24,50
15,00
21,60
11,00
...
21,40
19,40
10,90
9,40
17,40
4
Ala.
18,00
21,20
16,40
10,20
11,70
...
31,60
36,40
15,40
16,90
40,10
5
Bil.
0,68
0,78
0,98
0,53
0,55
...
0,52
0,41
0,56
0,51
0,62
6
Bil2
0,13
0,24
0,40
0,17
0,22
...
0,20
0,16
0,21
0,17
0,19
7
Bil3
0,55
0,54
0,58
0,36
0,33
...
0,32
0,25
0,35
0,34
0,43
8
9
10
Glut. Bilia Hip.
25,30 7,50 2,02
28,70 7,33 0,59
24,00 6,03 0,05
31,90 4,89 1,02
16,00 1,80 0,54
...
...
...
49,20 17,44 0,15
31,70 4,17 0,57
36,80 2,08 0,32
31,40 7,55 0,07
52,30 14,84 1,60
11
Cresol
0,42
0,12
0,05
0,31
0,14
...
0,00
0,00
0,00
0,00
0,00
43
Exemplo 1
Classes: caractersticas dos indivduos
Identificao
Nmero
1
2
3
4
5
...
104
105
106
107
108
Ordem
ID
Idade
1
GN
2
2
LMF
1
3
RCN
0
4
GAM
0
5
DM
1
...
...
...
53
OPD
2
55
MS
3
56
MAS
3
57
DB
0
58
HSC
2
Classes
Funilaria
1
1
1
1
1
...
0
0
0
0
0
EPI
1
1
1
1
0
...
-
Tempo
3
2
0
1
2
...
-
lcool
1
3
0
4
0
...
2
0
0
1
0
Cigarro
0
3
0
3
2
...
0
0
0
0
0
Ac. Bem.
0
0
1
1
0
...
1
1
1
1
0
44
Exemplo 1 - Classes
Idade: 20 a 30 = 0; 31 a 40 = 1; 41 a 50 = 2; > 51 = 3
Funilaria: No = 0; Sim = 1
EPI: No = 0; Sim = 1
Tempo: 1 a 100 meses = 0; 101 a 200 = 1; 201 a 300 = 2;
301 a 400 = 3 e > 400 = 4
lcool: 0 a 30 g/dia = 0; 31 a 60 = 1; 61 a 90 = 2; 91 a 120
= 3 e > 120 = 4
Cigarro:
0 a 5 cigarros/dia = 0; 6 a 10 = 1; 11 a 15 = 2 e >
15 = 3
c. Benzico: No = 0; Sim = 1
45
Exemplo 2
Classe
Manga
Tangerina
Pssego
Maracuj
Laranja
D
4
3
...
8
9
0
1
...
8
9
0
0
...
9
10
0
2
...
10
10
0
2
...
8
9
Variveis
S A
0
0
2
0
... ...
3
6
4
6
0
0
0
8
... ...
2
8
2 10
0
0
0
0
... ...
4
8
7 10
0
0
0
0
... ...
2
6
2
7
0
0
0
0
... ...
0
9
3 10
a
0
0
...
9
10
0
7
...
7
8
0
0
...
5
6
0
0
...
0
6
0
0
...
6
7
46
Exemplo 3
Contagens/segundo
Ni (K)
Ti (K)
4
2
Cu (K)
Cr (K)
V (K)
Cr (K)
Fe (K)
0
4
Energia (keV)
9
47
Absorbncia
0,900
0,600
0,300
0,000
350
400
450
500
550
Absorbncia em 360 nm
0,400
y = -0,00111 + 1,406x
r = 0,9991
0,300
0,200
0,100
0,000
0,000
0,050
0,100
0,150
0,200
0,250
0,300
Absorbncia em 350 nm
49
Absorbncia em 450 nm
1,200
y = -0,0698 + 1,068x
r = 0,9444
0,900
0,600
0,300
0,000
0,000
0,200
0,400
0,600
Absorbncia em 400 nm
0,800
1,000
50
K
21531
20646
20298
14476
24311
22519
6630,9
29585
9317,7
8431,8
14848
9752,9
11193
19966
13053
Metais (mg/kg)
Mg
Ca Zn Fe
2620 3709 18 78
1818 4357 17 345
2131 4243 19 280
1291 3144 12 197
3117 5599 24 161
2712 7500 25 1000
523,3 3125 9 60
3856 6931 62 540
773,7 1034 7 60
869,9 3069 10 155
3237 7348 23 175
2776 9717 21 207
2250 9692 14 239
1872 3832 17 366
2281 4767 22 293
Mn
127
127
98
72
70
70
72
118
53
111
330
82
101
149
1258
51
Mg
2500
2000
1500
1000
500
5000
10000
15000
20000
25000
30000
8000
8000
6000
6000
Ca
Ca
10000
10000
4000
4000
2000
2000
0
5000
10000
15000
20000
25000
30000
500
1000
1500
2000
2500
Mg
3000
3500
4000
52
60
50
Zn
40
30
20
10
0
5000
10000
15000
20000
25000
30000
K 70
1000
60
800
50
600
Fe
Zn
40
400
30
20
200
10
0
0
5000
10000
15000
20000
25000
30000
500
1000
1500
2000
2500
Mg
3000
3500
4000
53
800
Fe
600
400
200
0
500
1000
1500
2000
1400
2500
Mg
1200
60
1000
50
800
3500
4000
40
Zn
Mn
3000
70
600
30
400
20
200
10
0
0
5000
10000
15000
20000
25000
30000
2000
4000
6000
Ca
8000
10000
54
800
Fe
600
400
200
0
0
2000
4000
6000
8000
10000
Ca
1400
1400
1200
1200
1000
1000
800
600
Mn
Mn
800
600
400
400
200
200
0
0
0
2000
4000
6000
Ca
8000
10000
500
1000
1500
2000
2500
Mg
3000
3500
4000
55
Mn
800
600
400
200
0
0
200
400
600
Fe
800
1000
1400
1000
1200
800
1000
800
Mn
Fe
600
400
600
400
200
200
10
20
30
40
Zn
50
60
70
10
20
30
40
Zn
50
60
70
56
0,4209
0,5370
0,4106
0,3855
0,4893
-0,1166
0,1211
0,0016
0,0767
0,0006
Mg
Ca
Zn
Fe
70
60
50
Zn (mg/kg)
Mg
Ca
Zn
Fe
Mn
40
30
20
10
0
5000
10000
15000
20000
K (mg/kg)
25000
30000
57
Transformao
Prprocessamento
Aplicado s amostras
(linhas da matriz X)
Aplicado s variveis
(colunas da matriz X)
Variaes aleatrias
(rudo experimental)
Variaes sistemticas
Reduzidas ou eliminadas
por meio de correes
da linha de base
59
Tcnicas de alisamento
Aumentar a razo sinal-rudo;
Utilizam uma janela;
Todos os pontos da janela so usados para determinar
a resposta no centro da mesma;
Absorbncia
Matriz 1 x 3420
0,080
0,040
0,000
0
10
20
30
40
50
60
Tempo (s)
61
0,120
Janela n + 1 = 11
Matriz 1 x 3420
0,080
Absorbncia
Absorbncia
Original
0,040
0,000
Matriz 1 x 311
0,080
0,040
0,000
0
10
20
30
40
50
60
10
20
Tempo (s)
0,120
0,120
Janela n + 1 = 31
40
50
60
Janela n + 1 = 61
Matriz 1 x 110
Matriz 1 x 56
0,080
Absorbncia
Absorbncia
30
Tempo (s)
0,040
0,080
0,040
0,000
0,000
0
10
20
30
Tempo (s)
40
50
60
10
20
30
40
50
60
Tempo (s)
62
0,120
0,120
Alisado
Matriz 1 x 3420
0,080
Absorbncia
Absorbncia
Original
0,040
Matriz 1 x 3420
0,080
0,040
0,000
0,000
0
10
20
30
Tempo (s)
40
50
60
10
20
30
Tempo (s)
40
50
60
63
0,680
0,640
Espectro no
infravermelho
0,600
0,560
400
1000
Primeira derivada
0,0008
1600
2200
2800
3400
4000
0,0004
0,0000
Primeira derivada
-0,0004
-0,0008
400
1000
1600
2200
2800
3400
4000
64
Pr-processamento
Classes
Amostras
Linhas
ID
Emb.
M1
M2
M3
M4
M5
M6
M7
M8
M9
M10
M11
M12
M13
M14
M15
T1
T2
T3
T4
T5
T6
T7
T8
T9
T10
T11
T12
T13
T14
T15
papel
papel
papel
papel
papel
papel
papel
papel
papel
papel
papel
papel
papel
papel
papel
plastico
Papel
Papel
Papel
Papel
Papel
Papel
Papel
Papel
Papel
Papel
Papel
Papel
Papel
Papel
Dias antes
do vencimento
21 a 90 dias
> 91 dias
21 a 90 dias
21 a 90 dias
21 a 90 dias
> 91 dias
21 a 90 dias
> 91 dias
21 a 90 dias
> 91 dias
< 20 dias
< 20 dias
> 91 dias
21 a 90 dias
> 91 dias
< 20 dias
< 20 dias
< 20 dias
< 20 dias
< 20 dias
< 20 dias
< 20 dias
21 a 90 dias
< 20 dias
< 20 dias
< 20 dias
< 20 dias
21 a 90 dias
21 a 90 dias
21 a 90 dias
Colunas
Variveis
Ac. Fol.
Fe
(mg/100g) (mg/100g)
298
7,3
258
9,3
339
10,9
272
8,7
307
9,3
340
6,6
289
8,4
488
7,1
306
7,7
322
7,0
285
8,3
325
7,5
313
9,1
317
7,6
398
8,3
183
7,6
176
7,1
206
7,2
75
4,4
118
6,8
207
8,8
189
7,6
223
8,0
180
7,1
174
8,7
107
6,3
97
5,6
152
7,4
141
7,8
140
8,7
Prot.
%
6,86
6,34
6,42
6,43
6,60
6,65
6,70
6,77
6,77
6,60
6,16
6,16
6,78
6,95
6,69
10,35
9,92
10,27
10,27
10,32
10,86
10,25
10,25
10,44
10,39
11,38
10,45
10,53
10,09
10,49
Lip.
%
1,07
1,06
0,97
0,83
0,73
2,50
2,58
3,08
2,81
3,23
2,50
2,58
3,08
2,81
3,23
1,21
1,17
1,29
1,49
1,43
1,21
1,17
1,29
1,18
1,17
1,49
1,48
1,45
1,58
1,15
Um.
%
10,78
11,36
11,16
9,72
11,64
11,69
11,95
11,95
11,87
11,71
11,72
11,71
12,20
11,81
12,16
12,94
12,99
13,22
12,58
13,23
11,05
11,69
12,54
12,46
12,34
12,72
12,66
12,57
11,82
12,65
Cin.
%
0,32
0,37
0,31
0,27
0,29
0,47
0,68
0,75
0,64
0,80
0,53
0,42
0,43
0,41
0,35
0,63
0,61
0,59
0,62
0,62
0,59
0,66
0,43
0,59
0,61
0,55
0,55
0,60
0,64
0,51
Carb.
%
80,96
80,86
81,13
82,74
80,73
78,69
78,08
77,45
77,91
77,65
79,78
80,27
78,63
79,25
82,16
74,28
75,31
74,64
75,04
74,39
76,29
76,22
75,49
75,33
75,49
73,86
74,85
74,85
75,87
75,20
65
Valores
500
AF
Fe
Prot.
Lip.
Um.
Cin.
Carb.
250
0
M2
M4
M6
M8
M10
M12
M14
T1
T3
T5
T7
T9
T11
T13
T15
Amostras
66
Questes
0,9
0,8
M10
M8
Cinzas
0,7
T7
M9
T14
T5 T2 T1
T9
T3T13
T4
0,6
T12
T11
M7
T10
T6
M11
0,5
T15
M6
T8
M12
M14
0,4
M13
M2
M15
M1
0,3
M4
M3
M5
0,2
4
10
Fe
Como todas as variveis se comportam?
12
67
Dados originais
500
> valor
95% dos dados
400
Mdia + SD
Mediana
300
Mdia
200
Mdia - SD
95% dos dados
100
< valor
0
AF
Fe
Prot.
Lip.
Um.
Cin.
Carb.
Variveis
68
300
200
100
-100
-200
AF
Fe
Prot.
Lip.
Variveis
Um.
Cin.
Carb.
69
Dados autoescalados
Valores autoescalados
3
2
1
0
-1
-2
-3
-4
AF
Fe
Prot.
Lip.
Variveis
Um.
Cin.
Carb.
70
Tipos de pr-processamento
Centrado na mdia aplicado em
espectros
Mdia da varivel j ( x j )
1
x j xij
n i 1
x
71
0,600
Amarelo Tartrazina
0,800
Abs
0,600
0,400
0,200
0,000
0,300
0,000
-0,300
-0,600
350
400
450
500
Espectros originais
550
350
400
450
500
550
400
0,139
0,236
0,352
0,481
0,603
0,362
401
0,139
0,237
0,354
0,485
0,608
0,365
402
0,140
0,238
0,357
0,488
0,613
0,367
403
0,141
0,241
0,360
0,493
0,619
0,371
404
0,142
0,243
0,364
0,498
0,625
0,374
405
0,144
0,245
0,367
0,503
0,630
0,378
404
-0,232
-0,131
-0,011
0,124
0,250
0,000
405
-0,234
-0,132
-0,011
0,125
0,252
0,000
400
-0,223
-0,126
-0,010
0,119
0,241
0,000
401
-0,225
-0,127
-0,010
0,120
0,243
0,000
402
-0,228
-0,129
-0,011
0,121
0,246
0,000
403
-0,230
-0,130
-0,011
0,123
0,248
0,000
73
Tipos de pr-processamento
Autoescalamento aplicado quando se quer
dar a mesma importncia a todas as variveis
(dados de concentrao)
2
Varincia da varivel j (
)
j
1
2
s
(
x
x
)
ij
j
n 1 i 1
2
j
74
Dados autoescalados
Desvio padro da varivel j (
sj s
sj)
2
j
xij ( as)
xij x j
sj
75
Exemplo autoescalados
Ac. Fol.
(mg/100g)
Am1
298
Am2
258
Am3
339
Am4
272
Am5
307
Mdia
294
Varincia
1001
Desvio padro
31,6
Am1
Am2
Am3
Am4
Am5
Mdia
Varincia
Desvio padro
Ac. Fol.
0,10
-1,17
1,40
-0,72
0,39
0,00
1,00
1,00
Fe
(mg/100g)
7,3
9,3
10,9
8,7
9,3
9,1
1,7
1,3
Fe
-1,38
0,15
1,41
-0,31
0,12
0,00
1,00
1,00
Dados originais
Prot.
Lip.
%
%
6,86
1,07
6,34
1,06
6,42
0,97
6,43
0,83
6,60
0,73
6,53
0,93
0,04
0,02
0,21
0,15
Dados autoescalados
Prot.
Lip.
1,59
0,93
-0,93
0,86
-0,52
0,26
-0,48
-0,69
0,34
-1,36
0,00
0,00
1,00
1,00
1,00
1,00
Um.
%
10,8
11,4
11,2
9,7
11,6
10,9
0,6
0,7
Cin.
%
0,32
0,37
0,31
0,27
0,29
0,31
0,00
0,04
Carb.
%
81,0
80,9
81,1
82,7
80,7
81,3
0,7
0,8
Um.
-0,20
0,57
0,31
-1,63
0,95
0,00
1,00
1,00
Cin.
0,16
1,56
-0,02
-1,09
-0,60
0,00
1,00
1,00
Carb.
-0,39
-0,51
-0,19
1,76
-0,67
0,00
1,00
1,00
76
Pr-processamento - Detalhes
Reflexes
78
79
PCA
A Anlise de Componentes Principais
uma ferramenta quimiomtrica que
reduz as dimenses originais de um
determinado conjunto de dados
numricos.
80
Fundamentao da PCA
Varivel 2
PC2
PC1
PC3
Varivel 1
81
So construdos em ordem
decrescente da quantidade de
varincia que descrevem (primeiro
fator descreve maior varincia nos
dados que o segundo...)
Determinao da dimensionalidade
intrnseca do conjunto de dados
82
Autovalores e Autovetores
Clculo de sub-sistemas muito menores para
dados que apresentam muitas variveis
(dimenses)
A = x
Autovetor
Autovalor
84
Varincia e Covarincia
6,3
5,6
7,4
7,8
8,7
241
98
8
1
...
107,5
97,0
151,7
141,2
139,9
...
...
Mdia
SD
...
Variveis
Auto.
AF
Fe AF Fe
297,7 7,3 0,6 -0,4
257,5 9,3 0,2 1,3
338,7 10,9 1,0 2,6
271,6 8,7 0,3 0,8
306,7 9,3 0,7 1,2
-1,4 -1,2
-1,5 -1,7
-0,9 -0,3
-1,0 0,0
-1,0 0,8
0
1
0
1
Varincia (s2):
Espalhamento dos dados ao
redor do seu valor mdio
para uma nica varivel
s
2
2
xd
n 1
onde
xd ( xi x )
Covarincia (Cov):
Distribuio dos dados
multivariados e suas
relaes
( x x AF )( x x Fe)
COV
i
n 1
85
Clculos
Varincia (s2)
0
1
1
0
1
1
-1,2
-1,7
-0,3
0,0
0,8
Soma
( xi xAF )( xi xFe)
-0,2
0,2
2,6
0,2
0,8
...
8
1
-1,4
-1,5
-0,9
-1,0
-1,0
...
241
98
-1,4 -1,2
-1,5 -1,7
-0,9 -0,3
-1,0 0,0
-1,0 0,8
...
6,3
5,6
7,4
7,8
8,7
...
107,5
97,0
151,7
141,2
139,9
...
...
Mdia
SD
...
Variveis
Auto.
xi xAF xi xFe
AF
Fe AF Fe
297,7 7,3
0,6 -0,4
0,6
-0,4
257,5 9,3
0,2 1,3
0,2
1,3
338,7 10,9 1,0 2,6
1,0
2,6
271,6 8,7
0,3 0,8
0,3
0,8
306,7 9,3
0,7 1,2
0,7
1,2
1,6
2,5
0,3
-0,1
-0,8
11,8
86
COVAFFe
AF
Fe
AF
1,0
0,4
Fe
0,4
1,0
87
S Fe
Graficamente
1,4
Cov
1,2
FeAF
1,0
0,8
0,6
0,4
Cov
0,2
AFFe
0,0
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
S AF
88
S Fe
1,2
1,0
0,8
0,6
0,4
0,2
0,0
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
S AF
Projeo de uma
elipse
89
S Fe
Autovalores
1,4
1,2
PC1
1,0
0,8
PC2
Autovalor
da PC2
Autovalor
da PC1
0,6
0,4
0,2
0,0
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
S AF
90
1,2
Autovetores
1,0
PC1
0,92
Sen =
0,8
0,92
= 0,73
1,26
0,6
PC2
0,4
0,2
Sen = 0,68
Cos = -0,73
Cos =
0,86
= 0,68
1,26
0,0
0,0
0,2
0,4
0,6
0,8
1,0
1,2
0,86
91
Varincia explicada
PC2
Varincia PC1 =
1,26
x 100 = 66%
0,65
1,26 + 0,65
Varincia PC2 =
0,65
x 100 = 34%
1,26 + 0,65
PC1
1,26
92
Matriz de Scores
...
...
...
Scores
PC1
PC2
0,1
-0,7
1,0
0,7
2,6
1,0
0,8
0,3
1,4
0,4
...
Auto.
AF
Fe
0,6
-0,4
0,2
1,3
1,0
2,6
0,3
0,8
0,7
1,2
-1,4
-1,5
-0,9
-1,0
-1,0
-1,2
-1,7
-0,3
0,0
0,8
-1,8
-2,3
-0,8
-0,7
-0,1
0,2
-0,1
0,5
0,8
1,3
93
AF
Fe
PC1
0,68
-0,73
PC2
0,73
0,68
Scores
T15
T14
0,5
T5
PC2 (34%)
T11
0,0
T1
T7
T8
T2
T9
T3
T12
-0,5
T13
M3
T10
T6
1,0
M2
M4
M5
M13
M11
M7
M9
M1 M14
M12
M10
T4
-1,0
M15
M6
-1,5
-2,0
M8
-2,5
-4
-3
-2
-1
PC1 (66%)
95
Loadings
AF
0,73
PC2 (34%)
0,72
0,71
0,70
0,69
0,68
0,67
-0,80
Fe
-0,60
-0,40
-0,20
0,00
0,20
0,40
0,60
0,80
PC1 (66%)
96
Scores e Loadings
0,74
Scores
T15
T10
T6
T14
1,0
PC2 (34%)
0,5
M3
-0,5
M9
M1M14
M12
M10
T4
-1,0
0,72
M15
0,71
0,70
0,69
M6
-1,5
AF
M2
T5 T13
T1
T7 T8 M4 M5
M13
T11 T2
T9
M11
M7
T3
T12
0,0
Loadings
0,73
PC2 (34%)
1,5
0,68
-2,0
Fe
M8
-2,5
-4
-3
-2
-1
PC1 (66%)
0,67
-0,80
-0,40
0,00
0,40
0,80
PC1 (66%)
97
ID
M1
M2
M3
M4
M5
M6
M7
M8
M9
M10
M11
M12
M13
M14
M15
T1
T2
T3
T4
T5
T6
T7
T8
T9
T10
T11
T12
T13
T14
T15
AF
298
258
339
272
307
340
289
488
306
322
285
325
313
317
398
183
176
206
75
118
207
189
223
180
174
107
97
152
141
140
Fe
7,3
9,3
10,9
8,7
9,3
6,6
8,4
7,1
7,7
7,0
8,3
7,5
9,1
7,6
8,3
7,6
7,1
7,2
4,4
6,8
8,8
7,6
8,0
7,1
8,7
6,3
5,6
7,4
7,8
8,7
1,5
0,74
> AF
Scores
Loadings
< AF
T15
T10
T6
T14
1,0
0,73
0,0
0,71
-0,5
0,70
-1,0
-2,5
0,67
-4
-0,80
M2
T5 T13
T1
T7 T8 M4 M5
M13
T11 T2
T9
M11
M7
T3
T12
M9
M1M14
M12
M10
T4
M15
M6
0,69
-1,5
0,68
-2,0
M3
AF
0,5
0,72
(34%)
PC2(34%)
PC2
Amostras
Dados originais
Fe
-3 -0,40
-2
M8
-10,00 0
1
0,40
2 0,80
3
PC1(66%)
(66%)
PC1
98
Representao
p1
= t1
p2
t2
+ ...
N
t = scores
p = loadings
X TP E
99
VT
V = Loadings
UxS = Scores
100
AmT1
AmT2
AmT3
AmT4
AmT5
Mdia
405
-0,234
-0,132
-0,011
0,125
0,252
0,000
101
Matrizes U, S e V
0,601
0,340
0,028
-0,320
-0,648
0,011
-0,131
-0,234
0,835
-0,481
U
-0,410
0,805
-0,429
0,020
0,015
0,521
-0,141
-0,749
-0,017
0,385
0,933
0,000
0,000
0,000
0,000
0,447
0,447
0,447
0,447
0,447
0,000
0,001
0,000
0,000
0,000
UxS = Scores
S
0,000
0,000
0,001
0,000
0,000
-0,398
-0,403
-0,406
-0,410
-0,415
-0,418
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
V (transposta)
-0,085
0,185
-0,263
0,285
0,315
0,247
-0,506
-0,690
0,271
-0,280
0,502
0,456
-0,168
0,065
-0,764
0,741
-0,367
0,060
0,771
-0,463
-0,080
0,050
-0,403
0,139
102
Scores (UxS)
Varincia
Total
0,560
0,317
0,026
-0,298
-0,605
0,217
0,217
99,9998
Scores (UxS)
0,000
0,000
0,000
0,001
0,000
0,000
0,001
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
103
Reconstrundo a matriz X
0,601
0,340
0,028
-0,320
-0,648
0,933
0,000
0,000
0,000
0,000
-0,398
-0,403
-0,406
-0,410
-0,415
-0,418
0,000
0,000
0,000
0,000
0,000
U
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
S
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
V (transposta)
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
104
Reconstrundo a matriz X
Matriz X centrada na mdia - Reconstruda
-0,223
-0,225
-0,228
-0,230
-0,232
-0,126
-0,127
-0,129
-0,130
-0,131
-0,010
-0,010
-0,011
-0,011
-0,011
0,119
0,120
0,121
0,123
0,124
0,240
0,243
0,246
0,248
0,250
0,139
0,236
0,352
0,481
0,603
0,139
0,237
0,354
0,485
0,607
Matriz X - Reconstruda
0,139
0,141
0,238
0,241
0,357
0,360
0,488
0,493
0,613
0,619
0,142
0,243
0,364
0,498
0,625
-0,234
-0,132
-0,011
0,125
0,253
0,144
0,245
0,367
0,503
0,630
105
Reconstrundo a matriz X
0,139
0,236
0,352
0,481
0,603
0,139
0,236
0,352
0,481
0,603
-0,000027
-0,000042
0,000011
0,000166
-0,000108
0,139
0,237
0,354
0,485
0,608
Matriz X - Original
0,140
0,141
0,238
0,241
0,357
0,360
0,488
0,493
0,613
0,619
0,142
0,243
0,364
0,498
0,625
0,144
0,245
0,367
0,503
0,630
0,139
0,237
0,354
0,485
0,607
Matriz X - Reconstruda
0,139
0,141
0,238
0,241
0,357
0,360
0,488
0,493
0,613
0,619
0,142
0,243
0,364
0,498
0,625
0,144
0,245
0,367
0,503
0,630
0,000006
-0,000016
0,000005
-0,000117
0,000122
0,000014
-0,000007
-0,000012
-0,000132
0,000137
-0,000020
-0,000012
-0,000038
0,000080
-0,000010
Matriz de erros
-0,000105 -0,000045
0,000074 0,000008
-0,000072 0,000024
0,000174 -0,000031
-0,000072 0,000045
106
Escolha do nmero de
componentes principais
Espectros (Vis) de Amarelo Tartrazina e Amarelo
Crepsculo (Corantes alimentcios)
1,200
Matriz: 54 linhas e
1001 variveis
(350 a 550 nm)
1,000
Abs
0,800
0,600
0,400
0,200
0,000
350
400
450
500
550
107
Escolha do nmero de
componentes principais
Varincia explicada (%)
90
PC1 = 81,5%
PC2 = 18,4%
Demais PC < 0,1%
PC1 + PC2 100%
60
30
0
PC1
PC2
PC3
PC4
PC5
PC6
PC7
PC8
PC9
PC10
PC
108
caractersticas semelhantes
em agrupamentos
Amostras prximas
(pequenas distncias) so
semelhantes
109
M
d ab ( xaj xbj )
j 1
1
M
Similaridade
d ab
sab 1
d max
110
Agrupamentos
Os objetos so conectados por ordem de similaridade.
importante definir a distncia de um objeto a um
-Conexo simples
-Conexo completa
-Conexo por meio de medianas
-Conexo por meio de centrides
-Conexo incremental
-Conexo por meio de mdias de grupo
-Conexo flexvel
111
Exemplos de conexes
Conexo simples
Conexo
completa
Conexo
centride
112
Formao do dendograma
3
2
4
5
7
6
113
3
2
4
5
7
6
114
3
2
4
5
7
6
115
3
2
4
5
7
6
116
3
2
4
5
7
6
117
3
2
4
5
7
6
118
3
2
4
5
7
6
119
Dendograma
4
5
6
2
3
1
7
Maior
Similaridade
Menor
Similaridade
Menor
Distncia
Maior
Distncia
120
Exemplos de
aplicao de
HCA
121
122
rea de
estudo
Pontos de
coleta
(1 a 6)
123
Os dados
Variveis
Pontos
1
2
3
4
5
6
pH
6,99
6,02
7,30
6,21
6,21
6,94
C. O.
5,65
2,78
8,07
21,27
3,14
34,77
Um.
20
22
33
34
39
14
T. M. O.
2,99
4,34
3,88
6,04
6,74
5,05
N. T. K.
0,60
0,30
0,30
0,75
0,45
0,45
P
1,33
0,84
0,80
1,17
0,71
1,19
Arg.
0,0
2,0
2,5
4,0
6,0
4,0
Sil.
11,5
9,0
52,5
20,0
22,5
64,0
Are.
66,5
70,0
45,0
76,0
42,5
24,0
Ped.
12
13
0
0
11
1
Pontos
1
2
3
4
5
6
Agreg.
10
6
0
0
18
7
CTC e.
19,0
9,9
7,5
12,4
2,9
10,6
Zn pT.
5497
1412
417
1033
330
640
Cu pT.
104
133
27
95
109
48
Cr pT.
64
37
29
43
30
35
Mn pT.
2785
1206
449
421
1160
731
Fe pT.
53841
48231
23591
33778
54725
32325
Ni pT.
41,31
31,98
0,00
27,32
28,00
24,66
Cd pT.
10
2
0
0
0
0
Pb pT.
7570
1824
205
117
116
636
Pontos
1
2
3
4
5
6
Al pT.
7990
14090
13788
25723
25223
18262
Zn bD.
5247
802
180
69
15
516
Cu bD.
9
7
5
17
4
15
Mn bD.
356
205
286
301
178
624
Fe bD.
479
864
538
2587
559
827
Ni bD.
0,00
1,83
0,00
3,08
0,00
4,41
Cd bD.
4,50
1,25
0,00
0,00
0,00
0,00
Pb bD.
5281
556
101
43
22
371
Al bD.
927
641
501
1034
726
752
Nmero de PCs
50
40
3 PCs so mais
que suficientes!!!
Por qu???
30
20
10
0
PC1
PC2
PC3
PC
PC4
PC5
125
0,4
Ped.
Fe pT.
Cu pT. Agreg.
0,2
PC2
PC2
Mn pT.
0,0
Al bD.
N. T. K.
-0,2
5
-3
-2
-1
PC1
Scores
Fe bD.
pH
CTC e.
Sil.
Ni bD.
-2
-4
Cd
bD.
Cd
pT.
Pb pT.
PbpT.
bD.
Zn
Zn
bD.
-1
-5
T. M.Arg.
O.
Al pT.
Are.
Cr pT.
Ni pT.
Um.
-0,4
-0,3
Cu
Mn bD.
bD.
0,0
C. O.
0,3
PC1
Loadings
126
0,4
pH
0,3
Sil.
0,2
0
0,1
PC3
PC3
-0,1
-1
0,0
Mn bD.
Zn
bD.
PbbD.
bD.
Pb
pT.
Cd
MnpT.
pT.
Zn pT.
Ped.
CTC e.
Cr pT.
P pT.
Fe
Agreg.
C. O.
Um.
Ni bD.
-0,2
-0,3
-2
-5
-4
-3
-2
-1
PC1
Scores
-0,4
-0,3
Ni pT. Are.
Cu pT.
Cu bD.
N. T. K.
Al bD.
Arg.
T.AlM.
O.
pT.
Fe bD.
0,0
0,3
PC1
Loadings
127
0,4
1,0
3
2
Sil.
0,2
0,5
0,1
PC3
6
PC3
pH
0,3
0,0
-0,5
Zn
bD.
PbPb
Cd
pT.
CdpT.
bD.
Mn pT.
Zn pT.
0,0
CTC e.
-0,1
Mn bD.
-0,2
C. O.
P
Ni bD.
Cr pT.
-1,0
-2
-1
PC2
Scores
-0,4
-0,4
Um.Fe pT.
Arg.
NiAre.
pT.
T. M. O. Cu pT.
Al pT.
Cu bD.
-0,3
Ped.
Agreg.
N.AlT.bD.
K.
Fe bD.
-0,2
0,0
0,2
0,4
PC2
Loadings
128
Dendograma (Amostras)
6
129
Dendograma (Variveis)
130
131
Dendograma (Amostras)
Verde
Cidreira
Cidreira
Cidreira
Camomila
Preto
Boldo
Boldo
Morango
Melissa com flor de laranjeira
Hortel
Maa com canela
132
Dendograma (Variveis)
Mn
Fe
Ca
Zn
Mg
133