You are on page 1of 68

KEMOMETRIKA PATTERN

RECOGNITION

Abdul Rohman
Fakultas Farmasi
Universitas Gadjah Mada
Email: abdul_kimfar@ugm.ac.id;
abdulrohmanugm@gmail.com
HP: 087838445216
PENGELOMPOKKAN (CLASSIFICATION
TECHNIQUE)
• Untuk teknik
pengelompokkan, ada 2
kelompok yaitu:
• Unsupervised pattern
recognition
– Principal component analysis
– Cluster Analysis
• Supervised pattern recognition
– Discriminant analysis
PENGELOMPOKKAN DENGAN PCA
• Principal Component analysis (PCA) sebenarnya
adalah suatu teknik pengurangan jumlah data
(data reduction)
• Output PCA adalah mencari komponen utama
(principle component) dari serangkaian data
• PC juga disebut dengan variabel tersembunyi
(latent variables) karena sampel-sampel yang
sama/mirip akan mempunyai nilai PC1 dan PC2,
....., PCn yang sama
• Apa yang dimaksud dengan PC?
PCA UNTUK PENGELOMPOKAN
Principal component analysis (PCA)
A technique for reducing the amount of data when
there is correlation present.

It is worth stressing that it is not a useful technique if


the variables are uncorrelated.

The idea behind PCA is to find principal components Z1,


Z2, . . . , Zn which are linear combinations of the
original variables describing each specimen, X1, X2, . . . ,
Xn, i.e.
Principle components

• Creating a new set of variables in this way may seem


a pointless exercise, since we obtain n new variables
in place of the n original ones, and hence no
reduction in the amount of data.

• However, the principal components are also chosen


so that the PC1 (Z1), accounts for most of the
variation in the data set, the second (PC2), Z2,
accounts for the next largest variation and so on.
• Hence, when significant correlation occurs, the
number of useful PCs is much less than the number
of original variables.
CONTOH: ANALISIS DATA DENGAN PCA
Data berikut diperoleh dari hasil penelitian Yang dkk. (2015), Food
Chemistry, dengan judul “Phytochemical profiles, antioxidant activities of
functional herb Abrus cantoniensis and Abrus mollis”. Penelitian melakukan
pengamatan antioksidan kedua tanaman ini, masing-maisng 10 varietas.
DATA YANG DIPEROLEH
ANALISIS PCA DENGAN MINITAB

Untuk melakukan analisis PCA, dilakukan dengan cara klik:


Stat > Multivariate > Principal Components
ANALISIS PCA DENGAN MINITAB
ANALISIS PCA DENGAN MINITAB

Catatan: Bagian Graph


merupakan bagian yang
mengandung informasi
yang sangat penting,
kalau kita klik Graphs
maka akan muncul
tampilan seperti ini.
Pilihlah kelimanya
Example of PCA
OUTPUT PCA DENGAN MINITAB
OUTPUT GRAFIK PCA: SCREE PLOT

Dengan Scree plot, dimungkinkan dilakukannya asesmen visual


pentingnya tiap komponen.
OUTPUT PCA: SCORE PLOT
Hasil analisis dengan
PCA dalam grafik ini
dinyatakan dengan apa
yang disebut dengan
score plot atau PC
(Minitab menggunakan
default PC1 dan PC2).

Untuk mengidentifikasi
tanman dan varietas
apa tiap titik maka kita
bisa mengarahkan
kursor ke salah satu
titik.
OUTPUT PCA: SCORE PLOT
• Baris 6 (AC06) mempunyai nilai score untuk komponen pertama first
component = -3,08625 dan score untuk second component adalah = 1,55256.
Angka-angka ini dihitung dengan memasukkan nilai-nilai pengamatan AC06
dikalikan dengan koefisien-koefisien pada output Minitab.
• Nilai score untuk PC1 = -0,378xTPC - 0,313xTFC -0,357xFRAP + 0,430xABTS +
0,377xDPPH + 0,395xSO anion + 0,385xNO radical
• Nilai score untuk PC2 = 0,521xTPC + 0,068xTFC + 0,590xFRAP + 0,165xABTS +
0,385xDPPH + 0,433xSO anion + 0,111xNO radical

Score PC1 AC06 = -0,378x3132,01 - 0,313x1686,59 -0,357x817,30 +


0,430x33,49 + 0,377x14,19 + 0,395x41,84 + 0,385x54,93 = -3,08625
Score PC2 AC06 = 0,521x3132,01 + 0,068x1686,59 + 0,590x817,30 +
0,165x33,49 + 0,385x14,19 + 0,433x41,84 + 0,111x54,93 = 1,55256
• Sebagai alternative untuk mengedit graf supaya menampilkan label tiap
titik
• Dilakukan dengan cara: klik kanan pada grafik lalu pilih: Add  data labels:
use labels from column (isikan atau pilih varietas) seperti berikut:
Dengan melakukan klik OK maka akan muncul

A PCA plot shows clusters of samples based on their similarity


SCORE PLOT DAN LATENT VARIABLES
• Score plot disebut juga dengan latent variable karena sampel-
sampel yang diamati yang mempunyai nilai score plot yang
berdekatan mempunyai sifat fisika kimia yang sama.
• Misalkan titik yang terdekat dengan AC06 adalah AC06. Ini
menunjukkan bahwa antara AC06 dan AC04 mempunyai sifat fisika
yang mirip berdasarkan pada variabel yang digunakan, yang dapat
dilihat bahwa nilai-nilai hasil observasi TPC, TFC,….NO radical
keduanya adalah mirip.
• Bandingkan nilai-nilai observasi keduanya dengan nilai-nilai yang
lain. Berdasarkan kenyataan ini, maka seringkali PCA digunakan
untuk mengelompokkan antar sampel.
• Sampel-sampel yang mempunyai kemiripan tingi akan mempunyai
nilai score PC1 dan PC2 yang mirip.
OUTPUT GRAFIK PCA: LOADING PLOT
A loading plot shows how strongly each characteristic
influences a principal component.
LOADING PLOT

• Loading plot menunjukkan seberapa kuat tiap


variabel mempengaruhi principle components.
• Pada loading plot, vector-vektor ini ditarik dari
PC mula-mula (PC1 = 0 dn PC2 = 0) yang mana
tiap vector menunjukkan seberapa besar beban
variabel berpengaruh pada PC.
• Sebagai contoh contoh variabel FRAP dan TPC
berpengaruh pada PC2 (karena nilainya besar
pada PC2), sementara variabel SO onion dan
ABTS berpengaruh pada PC1.
LOADING PLOT: SUATU CATATAN
• Sudut antar vector menunjukkan bagaimana variabel-
variabel ini berkorelasi satu sama lain.
• Jika dua vector dekat satu dengan yang lain yang
membentuk sudut sempit maka hal tersebut menunjukkan
adanya korelasi yang positif antar dua variabel. Sebagai
contoh FRAP dan TPC, ABTS-NO radikal, dan SO anion-DPPH
berkorelasi positif karena sudut antar keduanya kecil.
• Jika antar variabel membentuk sudut mendekati 90o, maka
keduanya tidak berkorelasi, seperti antara variabel FRAP dan
SO anion
• Jika antar vector variabel berpencar dan membentuk sudut
yang dekat dengan 180o maka menunjukkan keduanya
berkorelasi negatif seperti TFC dan NO radikal.
Korelasi TPC dan FRAP
Korelasi SO Onion dan FRAP
Korelasi TFC dan NO radical
OUTPUT GRAFIK PCA: BI-PLOT
PCA bi-plot = PCA score plot + loading plot
PCA BI-PLOT

• PCA bi-plot simply merge an usual PCA plot with a


plot of loadings. The arrangement is like this:
– Bottom axis: PC1 score.
– Left axis: PC2 score.
– Top axis: loadings on PC1.
– Right axis: loadings on PC2.
• In other words, the left and bottom axes are of the
PCA plot — use them to read PCA scores of the
samples (dots). The top and right axes belong to the
loading plot — use them to read how strongly each
characteristic (vector) influence the principal
components.
PCA BI-PLOT
PCA LEMAK DAN MINYAK

Di artikel ini digunakan


dua kemometrika:
PCA
Cluster Analysis
PCA pengelompokkan lemak Babi
Karena unit variabel sama, gunakan matriks covariance
Lanjutan data absorbansi
Hasil PCA dengan Minitab
LATIHAN 1

• Lakukan pengelompokkan kunyit dari berbaga


daerah dengan data berikut:
• Data kemometrika\2. PCA C longa dari 10
daerah.xlsx

• Tiap kolom merupakan intensitas pada


chemical shif yang berbeda
SPEKTRA NMR
Output: Score plot
LATIHAN 2

• Lakukan pengelompokkan minyak


• Data kemometrika\Absorbansi 17 minyak.xlsx
• Tiap kolom merupakan nilai absorbansi pada
bilangan gelombang yang berbeda.
• Gunakan covariance karena satuan tiap
variabel sama
SPEKTRA FTIR YANG DIGUNAKAN
Cluster Analysis
• Cluster analysis (CA) meupakan teknik
pengelompokkan sampel
• Sebagaimana dengan PCA, cluster analysis
termasuk unsupervised pattern recognition
• CA membagi kelompok obyek, sehingga
obyek yang sama akan masuk pada
kelas/kelompok yang sama
• Parameter yang digunakan adalah Jarak
Euclidean
Euclidian Distance

• Jarak Euclidean dirumuskan dengan:

• Dua buah sampel yang mempunyai jarak


Euclidean yang dekat menunjukkan kemiripan
• Semakin kecil jaraknya  semakin mirip 
masuk dalam kelompok yang sama
Dendrogram illustrating the stages of
clustering
Contoh: Lakukan cluster Analysis
Seorang peneliti melakukan klustering minyak dan lemak
makan dengan cara mengukur spectra FTIR-nya dan
merekam nilai absorbansinya pada puncak-puncak
spektranya pada bilangan gelombang tertentu. Hasilnya
sebagaimana berikut:
Lakukan cluster analysis
Lakukan analisis dendogram yang dihasilkan

Untuk melakukan analisis cluster dapat dilakukan dengan


menggunakan perangkat lunak Minitab.
CARA MELAKUKAN ANALISIS KLUSTER: MINITAB
• Tujuan analisis kluster adalah untuk membagi minyak-minyak
ke dalam kelompok (grup/kluster) yang mempunyai
karakteristik serupa sesuai dengan informasi yang tersedia,
yang bisa dilihat dari variabel yang digunakan (dalam hal ini
adalah nilai absorbansi) pada bilangan gelombang 1112,
1114, 1155…., 1745.
• Seperti biasa, maka dalam jendela Minitab muncul:
Cluster Analysis
• Selanjutnya klik: Stat > Multivariate > Cluster
Observations
• Di Minitab, terkait dengan cluster analysis, ada
dua pilihan, yaitu: (1) cluster Observation; (2)
Cluster variables; dan (3) Cluster K-means.
Karena yang mau dikelompokkan adalah
minyak dan lemak (observasi) maka yang dipilih
adalah Cluster Observations.
Cluster Analysis

• Selanjutnya klik: ok
Cluster Analysis
Cluster Analysis
DENDOGRAM YANG DIHASILKAN

• Yang pertama-tama digabungkan adalah observasi 12 (minyak kelapa sawit) dan 13


(minyak kemiri) karena keduanya mempunyai tingkat similaritas (kemiripan) yang
paling tinggi, yakni keduanya mempunyai jarak yang paling kecil diantara lainnya.
• Yang kedua adalah dengan menggabungkan observasi 3 (minyak bulus) dan 6
(minyak ikan kapas), dan seterusnya.
DENDOGRAM YANG DIHASILKAN
• Dalam Gambar di atas, digunakan default banyaknyanya kluster adalah 1.
• Kita bisa membuat jumlah kluster sesuai dengan yang diinginkan oleh
peneliti, misalkan kita buat 3 kluster. Karenanya numbers of cluster yang
semula 1 maka diubah menjadi 3 (misalkan):
Cluster Analysis
Untuk mengetahui observasi mana yang masuk kluster 1, 2
dan 3, dapat dilakukan dengan cara klik Storage, akan muncul
Cluster Analysis for variables
• Teknik ini serupa dengan cluster for observations,
akan tetapi tujuannya sekarang ini adalah untuk
mengelompokkan variables.
• Lakukan cluster analisis untuk variabel data berikut
Cluster Analysis for variables
Cluster Analysis for variables
Other applications of Cluster Analysis
• It has been used to classify the many phases used in
gas–liquid chromatography. A small preferred set of
phases can then be selected by taking one phase from
each cluster: this provides a range of stationary phases,
each with distinctive separation characteristics.
• Another application is the classification of antibiotics in
terms of their activity against various types of bacteria
in order to elucidate the relationship between
biological activity and molecular structure.
• Further recent applications of CA include the
classification of wines and wine vinegars on the basis of
a variety of organic and inorganic constituents.
K-means cluster
• k-means clustering is one of the simplest algorithms for
unsupervised clustering (dealing with data without
defined categories).
• Assigning data points into k clusters based on the
minimum distance (nearest mean or centroid).
• k-means clustering is simple, helpful, and effective for
finding the latent structure in the data.
DISCRIMINANT ANALYSIS
• PCA dan Cluster analysis  Unsupervised
pattern recognition
• Discriminant Analysis  Supervised pattern
recognition
– Tujuan metode supervised pattern recognition
adalah untuk menggunakan objek-objek ini untuk
menemukan suatu aturan meletakkan suatu objek
baru yang kelompoknya tidak diketahui ke dalam
kelompok yang benar (diketahui dengan pasti).
DISCRIMINANT ANALYSIS
• The starting point of linear discriminant analysis
(LDA) is to find a linear discriminant function
(LDF), Y, which is a linear combination of the
original measured variables:
Y = a1X1 + a2X2 + …… + anXn
– The original n measurements for each object are combined into a
single value of Y (similar to linear regression).
– The coefficients are chosen in such a way that Y reflects the
difference between groups as much as possible: objects in the
same group will have similar values of Y and objects in different
groups will have very different values of Y.
– Thus the LDF provides a means of discriminating between the
two groups
PENGGUNAAN DISCRIMINANT ANALYSIS

• Mengelompokkan antara minyak murni (pure VCO) dengan


minyak yang dipalsukan (VCO adulterated with corn oil) dengan
menggunakan variabel absorbansi pada puncak tertentu.
PENGGUNAAN DISCRIMINANT ANALYSIS

Mengelompokkan
buah sesuai dengan
varietasnya dengan
menggunakan variabel
isotop dan karakter
kimiawi lainnya.
ANALISIS DISKRIMINAN DENGAN MINITAB
Varietas Sukrosa Glukosa Fruktosa Sorbitol
• Seorang peneliti ingin
mengelompokkan apakah A 20 6 40 4,3
jus buah apelnya berasal A 27 11 49 2,9
dari sumber A, B, atau C A 26 10 47 2,5
A 34 5 47 2,9
dengan mendasarkan A 29 16 40 7,2
pada konsentrasi sukrosa, B 6 26 49 3,8
glukosa, fruktosa, dan B 10 22 47 3,5
sorbitol dalam jus apel B 14 21 51 6,3
(dalam g/L). B 10 20 49 3,2
B 8 19 49 3,5
• Lakukan LDA dan evaluasi C 8 17 55 5,3
metode dengan C 7 21 59 3,3
menggunakan validasi C 15 20 68 4,9
silang. C 14 19 74 5,6
C 9 15 57 5,4

Kelompokkan jus apel dengan konsentrasi sukrosa, lukosa, fruktosa dan sorbitol
dengan konsentrasi 11, 23, 50, dan 3,9 g/L.
ANALISIS DISKRIMINAN DENGAN MINITAB

Selanjutnya pilih stat  multivariate  discriminant


analysis,
ANALISIS DISKRIMINAN DENGAN MINITAB

Di kotak Groups pilih varietas, sementara sebagai prediktornya adalah


masukkan keempat variabel (sukrosa, glukosa, fruktosa dan sorbitol).
Untuk discriminant function, pilih linear sehingga akan muncul tampilan
ANALISIS DISKRIMINAN DENGAN MINITAB

Lalu klik OK, maka akan muncul output discriminant analysis sebagai
berikut
OUTPUT ANALISIS DISKRIMINAN

Digunakan untuk
menentukan nilai LDF
atau nilai Y
OUTPUT ANALISIS DISKRIMINAN

Digunakan untuk menentukan nilai LDF atau nilai Y:


YA = -44,19 + 0,39 x sukrosa + 0,42 x glukosa + 1,46 x fruktosa + 2,19 x sorbitol
YB = -74,24 – 1,66 x sukrosa + 1,21 x glukosa + 2,53 x fruktosa + 3,59 x sorbitol
YC = -114,01 – 250 x sukrosa + 0,54 x glukosa + 3,48 x fruktosa + 5,48 x sorbitol

Pertanyaannya: Kelompokkan jus apel dengan konsentrasi sukrosa, lukosa, fruktosa


dan sorbitol dengan konsentrasi 11, 23, 50, dan 3,9 g/L.
Kelompok A:
-44,19 + 0,39 x11 + 0,42 x 23 + 1,46 x 50 + 2,19 x 3,9 = 51,301
Kelompok B:
-74,24 -1,66 x11 + 1,21 x 23 + 2,53x 50 + 3,59 x 3,9 = 75,831
Kelompok C:
-114,01 -2,5 x11 + 0,54 x 23 + 3,48 x 50 + 5,48 x 3,9 = 66,282
Skor untuk kelompok B adalah yang terbesar, karenanya apel jus yang tidak
diketahui diperkirakan berasal dari sumber B.

You might also like