You are on page 1of 12

QSAR 2 : ANALISIS QSAR

I.

TUJUAN PERCOBAAN
1. Melakukan perhitungan dan pemilihan deskriptor terhadap dataset seri senyawa
inhibitor COX-2
2. Melakukan analisis QSAR terhadap dataset seri senyawa inhibitor COX-2

II. DASAR TEORI


Salah satu cara yang paling umum untuk menyatakan hubungan antara struktur dan aktivitas
secara kuantitatif adalah dengan membuat hubungan linier. Untuk memperoleh hubungan
linier tersebut dilakukan dengan analisis regresi multivariat.
Analisis regresi multilinier dalam QSAR menghubungkan salah satu atau lebih variabel bebas
x (parameter sifat fisikokima struktur yang dalam QSAR disebut prediktor atau deskriptor)
dengan suatu variabel tidak bebas y (parameter aktivitas biologis). Variabel tak bebas
mengandung suku nilai kesalahan (error, ), sedangkan variabel bebas secara ideal disusun
untuk tidak mengandung suatu kesalahan apapun. Dalam kenyatannya, hal ini hanyalah suatu
pendekatan karena parameter sifat fisikokimia juga mengandung kesalahan eksperimen,
hanya saja kesalahan yang terjadi lebih kecil daripada kesalahan eksperimen pada parameter
aktivitas biologis atau dianggap konstan. Dalam banyak kasus kesalahan yang terjadi pada
variabel bebas telah diketahui.
Deskriptor adalah parameter-parameter yang mengkarakterisasi sifat struktural. Dalam
QSAR, deskriptor merupakan kuantifikasi sifat struktural yang diperlukan untuk
menghubungkan dengan aktivitas biologis. Deskriptor dapat diperoleh dari percobaan
eksperimental atau komputasional.
Bagus atau tidaknya model-model persamaan regresi multilinear yang diperoleh diukur dari
parameter-parameter statistik : koefisien korelasi (r atau r2), standar eror (s), dan kriteria
Fisher (F). Persamaan yang powerful ditandai dari nilai r yang mendekati 1, nilai s kecil, dan
nilai F besar (secara relatif). Model-model terbaik inilah yang dipilih menjadi kandidat
persamaan QSAR.
Disamping itu, untuk menguji konsistensi (reliabilitas) model persamaan QSAR dalam
melakukan prediksi terhadap molekul lain dilakukan dengan uji validasi silang. Model-model
persamaan terbaik yang paling valid setelah diuji validasi silang inilah yang kemudian kita
pilih menjadi persamaan QSAR.

III. LANGKAH KERJA DAN PEMBAHASAN


QuaSAR Wizard
1

Aplikasi QuaSAR di MOE digunakan untuk menganalisis data eksperimental dan menyusun
model numerik dari data untuk tujuan prediksi dan interpretasi.
Jika hasil percoban untuk sejumlah m molekul telah diperoleh, yi menyatakan hasil percobaan
untuk molekul i dan mi menyatakan molekul i, maka sekumpulan data ini disebut sebagai
dataset atau training set.
Untuk membangun suatu model numerik yang bergantung pada molekul perlu disusun suatu
representasi numerik dari molekul. Walaupun tabel koneksi representasi dari molekul (seperti
daftar atom dan ikatan) juga merupakan numerik, hal ini tidak dapat dijadikan untuk
membangun suatu model, perlu represntasi yang lebih sederhana daripada itu. Molekul
dideksripsikan sebagai deskriptor untuk tujuan pembangunan model. Deskriptor dapat berupa
kuantitas apa saja yang bergantung pada molekul, seperti berat molekul, volume van der
Waals, momen dipol dan jumlah atom karbon. Diasumsikan bahwa xij menyatakan deskriptor
ke j dari molekul dan xi menyatakan vektor dari n deskriptor dari molekul i.
Suatu model adalah rumus numerikal yang diparameterisasi menggunakan training set.
Rumus numerik ini menampung, sebagai masukan (input), suatu vektor dari deskriptor
molekular yang digunakan untuk memprediksi hasil percobaan. Aplikasi QuaSAR di MOE
mencakup dua model di bawah ini:
I.

II.

Model Regresi Linear (Linear Regression Models). Suatu model linear dimana hasil
percobaan diekspresikan sebagai kombinasi linear dari deskriptor ditambah konstanta.
Parameter, atau koefisien, dari model ditentukan dengan suatu cara tertentu sehingga
rata-rata kuadrat kesalahan (mean squared error) antara hasil percobaan dari training
set dan dari model yang dibangun dapat diminimalisasi.
Model Biner (Binary Models). Model biner mengasumsikan bahwa hasil percobaan
merupakan binary value (1 atau 0), merepresentasikan Lolos/Tidak atau Aktif/Inaktif
nya molekul tersebut. Model biner menggunakan training set untuk mengestimasikan
probabilitas bahwa suatu molekul baru nantinya akan memberikan hasil percobaan
sebesar 1 .

Metode kemometri yang digunakan dalam percobaan ini adalah metode statistik MLR (Multi
Linear Regression) karena senyawa yang dikaji relatif banyak.
Kualitas dari suatu model dinyatakan secara statistik (seperti koefisien korelasi maupun
persen akurasi ). Hal ini berarti bahwa suatu asumsi dasar untuk pembangunan suatu model
adalah kenyataan bahwa training set merupakan suatu representasi, atau dengan kata lain,
harus memiliki sejumlah besar sampel yang cukup sehingga hasilnya tidak bias. Lebih
tepatnya, metode ini mengasumsikan bahwa training set dapat dimodelkan secara independen
dan variabel acaknya terdistribusi secara identik.
Setelah suatu model telah dibangun, perlu dilakukan pengujian untuk menentukan seberapa
besar kekuatan prediksi dari model tersebut. Model yang mampu untuk mereproduksi hasil
percobaan dari training set mungkin tidak akan bekerja baik untuk molekul baru. Fenomena
ini dikenal dengan nama overfitting dan biasanya menandakan adanya parameter yang terlalu
2

banyak pada model tersebut atau jumlah data pada training set tidak cukup besar. Aplikasi
QuaSAR juga mencakup metode untuk menghilangkan outlier (molekul training set dengan
eror model yang sangat besar) dan validasi silang (cross validation). Validasi silang
merupakan suatu prosedur dimana sejumlah porsi dari training set dikeluarkan dari
pembangunan model dan secara berurutan digunakan untuk mensimulasi pembentukan
molekul baru.

Langkah pertama yang dilakukan adalah memilih database yang akan dianalisis dengan
memanggil modul QuaSAR Wizard (MOE->Tools->QuaSAR Wizard) setelah sebelumnya
diatur current working directorynya. Opsi Open in Viewer juga diseleksi agar hasilnya nanti
terbuka di Database Viewer, setelah itu klik Next untuk membuka kotak dialog berikutnya.

Langkah kedua adalah melakukan perhitungan deskriptor dengan memastikan bahwa pada :
Select Activity Field : PIC50
Select
: All 2D and 3D descriptors (no MOPAC)
kemudian klik Calculate selected descriptors. Namun langkah ini tidak dilakukan karena
perhitungan deskriptor telah dilakukan pada percobaan sebelumnya, sehingga langsung diklik Next untuk menuju kotak dialog berikutnya.

Pada kotak dialog yang ketiga dalam MOE QuaSAR Wizard ini memberikan pilihan untuk
memecah data menjadi training set dan test set dalam porsi tertentu. Training set adalah
suatu set data yang akan diolah regresinya (fitting) dalam analisis regresi, sedangkan test set
adalah satu set data yang independen terhadap data training, namun mengikuti pola distibusi
probabilitas yang sama seperti data training. Pendekatan semacam ini dilakukan untuk
meminimalisi masalah overfitting, dimana persamaan yang diperoleh melalui analisis regresi
mampu menjelaskan suatu hubungan pada data training yang tidak berlaku secara umum. Hal
ini biasanya disebabkan oleh model yang terlalu kompleks, misalnya terlalu banyak
parameter dibandingkan banyak data yang ada.
Pemecahan dataset menjadi training set dan test set dilakukan jika dalam database
mengandung banyak sekali jumlah molekul (>40). Dalam kasus ini hanya ada 25 molekul
dalam database sehingga tidak diperlukan pemecahan database. Bagian test database di uncheck dan fraction in training ditulis sebesar 1.0 (tidak ada yang dipecah). Setelah tahapan
ini akan terbentuk file database baru dengan nama yang sama berakhiran train.mdb.

Kotak dialog selanjutnya memberikan pilihan untuk refinement descriptor, artinya pemilihan
deskriptor yang esensial dalam QSAR Langkah ini sifatnya opsional namun dapat
mempersingkat waktu analisis dalam pencarian persamaan QSAR nantinya. Fungsi semacam
ini juga dapat diakses melalui QuaSAR Contingency (DBV->Compute->Descriptors>Contingency). Pada dasarnya QuaSAR Contingency akan melakukan analisis kontigensi
bivariat untuk tiap deskriptor dan aktivitasnya. Output dari analisis ini adalah suatu tabel
koefisien yang dapat digunakan untuk memilih deskriptor yang esensial. Pada kotak dialog
diatas terlihat bahwa deskriptor yang esensial setelah dijalankan perintah Prune
Descriptors by Contingency akan berwarna terseleksi (berwarna biru). Setelah proses ini
selesai maka suatu tabel koefisien akan ditampilkan dalam suatu text editor (biasanya
Notepad) yang berisi beberapa parameter yang dapat menjadi acuan untuk penentuan
deskriptor esensial, seperti koefisien kontingensi C, Cramers V, koefisien ketidakpastian U
dan koefisien korelasi R2. Contoh dari tampilan outputnya adalah seperti dibawah ini.

Deskriptor yang tidak terseleksi (tidak esensial) dapat dihapus satu persatu secara manual di
Database Viewer (pada file yang berakhiran train.mdb) sebelum kotak dialog keempat ini
ditutup (Close).
QuaSAR Evolution

QuaSAR Evolution digunakan untuk meng-generate persamaan-persamaan QSAR


berdasarkan deskriptor yang telah diseleksi sebelumnya. QuaSAR Evolution ini
menggunakan Genetic Algorithm untuk menyeleski deskriptor yang paling esensial serta
mengoptimasi persamaan QSAR. Genetic algorithm merupakan suatu teknik pencarian yang
meniru proses seleksi alam dalam prosesnya, seperti penurunan sifat, mutasi, seleksi dan
crossover. Initial length dalam hal ini merupakan jumlah deskriptor yang akan dikombinasi
dalam proses genetic algorithm, dimulai dari angka terkecil yaitu 2 dan dilanjutkan sampai
seterusnya. Parameter lain dibiarkan seperti default. Untuk memulai proses evolusi tombol
Run diklik. Setelah proses evolusi selesai, akan diperoleh database baru yang berisi modelmodel QSAR kombinasi 2 deskriptor berakhiran _eq.mdb. Proses ini diulang terus dengan
mengganti initial length dengan bilangan yang lebih besar (3, 4, dan seterusnya) sampai
diperoleh persamaan QSAR yang dirasa cukup memuaskan. Validasi silang dengan metode
Leave One Out dilakukan setelah mendapatkan persamaan QSAR tertentu. Hasil dari validasi
silang ini akan muncul di database viewer sebagai Y prediksi. Perhitungan parameter
statistik untuk uji validasi silang yaitu PRESS dilakukan secara terpisah di Microsoft Excel.
Compute->Analysis->Correlation Plot dengan sumbu x adalah Y prediksi dari persamaan
QSAR terpilih dan sumbu y adalah nilai pIC50

IV. HASIL DAN PEMBAHASAN


Model persamaan QSAR terpilih (2, 3 dan 4 deskriptor)
No Persamaan
1
8.74688 + -0.604587 * a_acc + -0.9667
* vsurf_ID1
2
8.55376 + 0.121782 * RDF085v +

RMSE
0,3113

RR
0,6348

LOF/s
0,1373

F
19,1165

PRESS
3,017152

0,2582

0,7487

0,1209

20,8540

2,1542395
8

-0.715518 * a_acc + -0.959595 *


vsurf_ID1
9.05011 + 0.17977 * RDF130e +
-0.724473 * a_acc + -1.08416 *
vsurf_ID1
8.29264 + 0.0534239 * RDF085u +
-0.646948 * a_acc + -0.924766 *
vsurf_ID1
8.49946 + 0.116956 * RDF085v +
0.0728364 * RDF100u + -0.849022 *
a_acc + -0.913227 * vsurf_ID1
8.15021 + 0.00506883 * DASA +
0.0668748 * RDF085u + -0.735665 *
a_acc + -0.82944 * vsurf_ID1
9.3283 + -0.122672 * RDF030u +
-0.195805 * RDF085m + 0.491133 *
RDF085v + -0.929373 * a_acc

0,2643

0,7367

0,1209

19,5817

2,763742

0,2698

0,7256

0,1260

18,5059

2,412864

0,2177

0,8213

0,1025

22,9791

1,642189

0,2179

0,8210

0,1027

22,9295

1,883164

0,2191

0,8190

0,1038

22,6259

2,458861

Deskriptor esensial (yang sering muncul) : a_acc, vsurf_ID1


Model persamaan terpilih : persamaan 5
a_acc merupakan pharmacophore feature descriptors, yang menyatakan jumlah atom
penerima (akseptor) ikatan hidrogen (tidak termasuk atom asidik namun termasuk atom baik
yang berperan baik sebagai donor maupun akseptor ikatan hidrogen, seperti OH)
vsurf_ID1 merupakan kelompok deskriptor luas permukaan, volume dan bentuk. Deskriptor
dalam kelompok ini bergantung kepada konektivitas struktur dan konformasi. Vsurf_ID*
menyatakan hydrophopic integy moment (ada 8 deskriptor).
Parameter statistik yang pertama dinilai dari persamaan QSAR yang diperoleh yaitu
koefisien determinasi (r2) yang menjelaskan berapa % aktivitas biologis yang dapat
dijelaskan hubungannya dengan parameter sifat kimia fisik (deskriptor) yang digunakan.
Nilai r2 berada antara 0-1. Semakin mendekati 1 nilai r maka persamaan tersebut memiliki
hubungan yang tinggi antara variabel bebas dan variabel tak bebasnya. Dalam persamaan
QSAR terpilih diatas, persamaan ke-5 lah yang memiliki nilai r 2 paling tinggi yaitu sebesar
0,8213. Parameter statistik yang berikutnya adalah SE (Standard Error) atau dalam MOE
disebut sebagai LOF (lack of fit) yang menjelaskan tingkat kesalahan persamaan QSAR yang
diperoleh. Semakin kecil nilai SE maka model persamaan regresi tersebut semakin baik.
Dalam persamaan QSAR terpilih di atas, persamaan ke-5 lah yang memiliki nilai LOF/SE
paling kecil, yaitu sebesar 0,1025. Selanjutnya parameter harga Anova (F) berfungsi untuk
melihat pengaruh secara keseluruhan variabel bebas terhadap variabel tak bebas, digunakan
untuk menguji apakah persamaan yang didapatkan ada hubungan linearitasnya atau hanya
sebuah kebetulan. Persamaan QSAR dianalisis dengan membandingkan nilai Fhitung dengan
Ftabel. Jika Fhitung > Ftabel atau nilai Fhitung/Ftabel >1 maka persamaan tersebut ada
9

hubungan linearitas bukan hanya sebuah kebetulan semata. Semakin besar nilai
Fhitung/Ftabel maka semakin signifikan persamaan tersebut. Dalam persamaan QSAR
terpilih di atas, persamaan ke-5 lah yang memiliki harga F paling besar yaitu sebesar 22,9791.
Penggunaan parameter diatas seperti r2, SE dan F secara statistik telah mencukupi
untuk memilih model persamaan terbaik tetapi belum dapat memberikan gambaran yang
nyata tentang kemampuan prediksi dari masing-masing model persamaan yang diperoleh
hasil perhitungan statistik Multi Linear Regression (MLR). Prediction Residual Sum of
Squares (PRESS) digunakan sebagai parameter uji selanjutnya untuk mengetahui
kemampuan prediksi model-model persamaan tersebut, menurut Draper dan Smith (1981)
semakin kecil nilai PRESS suatu model persamaan QSAR maka kemampuannya untuk
memprediksi aktivitas biologi semakin baik. Nilai PRESS diperoleh dengan metode Leave
One Out. Dari persamaan QSAR diatas persamaan ke-5 lah yang memiliki harga PRESS
terkecil yaitu sebesar 1,642189. Dengan berbagai pertimbangan parameter statistik diatas,
persamaan ke-5 lah yang dipilih sebagai persamaan QSAR terbaik.
SCAFFOLD
Analog 3-substitutusi 2-methyl-6-methylsulfonylindole

10

Nilai pIC50 yang berarti -log (IC50) menggambarkan konsentrasi yang dibutuhkan untuk
menghambat separo dari aktivitas biologis, biasanya digunakan untuk mengukur efektivitas
suatu senyawa terhadap aktivitas biologis tertentu. Nilai pIC50 yang semakin besar
mengindikasikan potensi suatu senyawa yang lebih besar. Berdasarkan hasil eksperimen
diatas, nilai pIC50 yang paling besar adalah pada senyawa 13a dengan substituen S-fenil-F (di
posisi 4). Jika dibandingkan dengan persamaan QSAR terpilih :
IC50 = 8.49946 + 0.116956 * RDF085v + 0.0728364 * RDF100u + -0.849022 * a_acc +
-0.913227 * vsurf_ID1
Atom elektronegatif seperti flour, nitrogen dan oksigen merupakan akseptor ikatan hidrogen.
Hal ini berkorelasi dengan persamaan QSAR diatas khususnya pada deskriptor a_acc.
Semakin banyak jumlah atom akseptor ikatan hidrogen, maka semakin kecil nilai IC 50nya
atau dengan kata lain semakin besar nilai pIC50 nya. Flour merupakan atom dengan
elektronegatifitas terbesar (4.0) jadi semakin mudah menjadi akseptor ikatan hidrogennya,
sehingga aktivitasnya semakin kuat. Sulfur juga merupakan atom dengan elektronegatifitas
relatif kuat yaitu sebesar 2,5. Hal ini menunjukkan bahwa persamaan QSAR yang terpilih
berkorelasi dengan aktivitas biologis (data eksperimental).
Analog 2-substitutusi-6-methylsulfonyl-3-thioaryloxyindole

11

Hal yang serupa juga berlaku untuk analog senyawa diatas. Senyawa yang memiliki harga p
IC50 terbesar adalah senyawa 24g, yang memiliki atom dengan elektronegatifitas kuat yaitu Cl
dan gugus CN.
V. KESIMPULAN
1. Persamaan QSAR terpilih
IC50 = 8.49946 + 0.116956 * RDF085v + 0.0728364 * RDF100u + -0.849022 * a_acc +
-0.913227 * vsurf_ID1
2. Parameter statistik dari persamaan QSAR terpilih : r2 = 0,8213, LOF = 0,1025, F =
22,9791, PRESS = 1,642189

3. Deskriptor esensial : a_acc, vsurf_ID1


4. Terdapat hubungan antara persamaan QSAR yang diperoleh dengan aktivitas biologis
hasil eksperimental

VI. DAFTAR PUSTAKA


Leach, A.R., 1996, Molecular Modelling : Principles and Aplications, Addison Wishley,
Longman, London
Molecular Operating Environment (MOE), 2010.10; Chemical Computing Group Inc., 1010
Sherbooke St.West, Suite #910, Montreal, QC, Canada, H3A, 2R7, 2010.
Pranowo, H. D. 2002. Kimia Komputasi. Pusat Kimia Komputasi Indonesia-Austria Kimia
FMIPA UGM. Yogyakarta.
Sardjoko, 1993, Rancangan Obat, UGM Press, Yogyakarta.

12

You might also like