Professional Documents
Culture Documents
I.
TUJUAN PERCOBAAN
1. Melakukan perhitungan dan pemilihan deskriptor terhadap dataset seri senyawa
inhibitor COX-2
2. Melakukan analisis QSAR terhadap dataset seri senyawa inhibitor COX-2
Aplikasi QuaSAR di MOE digunakan untuk menganalisis data eksperimental dan menyusun
model numerik dari data untuk tujuan prediksi dan interpretasi.
Jika hasil percoban untuk sejumlah m molekul telah diperoleh, yi menyatakan hasil percobaan
untuk molekul i dan mi menyatakan molekul i, maka sekumpulan data ini disebut sebagai
dataset atau training set.
Untuk membangun suatu model numerik yang bergantung pada molekul perlu disusun suatu
representasi numerik dari molekul. Walaupun tabel koneksi representasi dari molekul (seperti
daftar atom dan ikatan) juga merupakan numerik, hal ini tidak dapat dijadikan untuk
membangun suatu model, perlu represntasi yang lebih sederhana daripada itu. Molekul
dideksripsikan sebagai deskriptor untuk tujuan pembangunan model. Deskriptor dapat berupa
kuantitas apa saja yang bergantung pada molekul, seperti berat molekul, volume van der
Waals, momen dipol dan jumlah atom karbon. Diasumsikan bahwa xij menyatakan deskriptor
ke j dari molekul dan xi menyatakan vektor dari n deskriptor dari molekul i.
Suatu model adalah rumus numerikal yang diparameterisasi menggunakan training set.
Rumus numerik ini menampung, sebagai masukan (input), suatu vektor dari deskriptor
molekular yang digunakan untuk memprediksi hasil percobaan. Aplikasi QuaSAR di MOE
mencakup dua model di bawah ini:
I.
II.
Model Regresi Linear (Linear Regression Models). Suatu model linear dimana hasil
percobaan diekspresikan sebagai kombinasi linear dari deskriptor ditambah konstanta.
Parameter, atau koefisien, dari model ditentukan dengan suatu cara tertentu sehingga
rata-rata kuadrat kesalahan (mean squared error) antara hasil percobaan dari training
set dan dari model yang dibangun dapat diminimalisasi.
Model Biner (Binary Models). Model biner mengasumsikan bahwa hasil percobaan
merupakan binary value (1 atau 0), merepresentasikan Lolos/Tidak atau Aktif/Inaktif
nya molekul tersebut. Model biner menggunakan training set untuk mengestimasikan
probabilitas bahwa suatu molekul baru nantinya akan memberikan hasil percobaan
sebesar 1 .
Metode kemometri yang digunakan dalam percobaan ini adalah metode statistik MLR (Multi
Linear Regression) karena senyawa yang dikaji relatif banyak.
Kualitas dari suatu model dinyatakan secara statistik (seperti koefisien korelasi maupun
persen akurasi ). Hal ini berarti bahwa suatu asumsi dasar untuk pembangunan suatu model
adalah kenyataan bahwa training set merupakan suatu representasi, atau dengan kata lain,
harus memiliki sejumlah besar sampel yang cukup sehingga hasilnya tidak bias. Lebih
tepatnya, metode ini mengasumsikan bahwa training set dapat dimodelkan secara independen
dan variabel acaknya terdistribusi secara identik.
Setelah suatu model telah dibangun, perlu dilakukan pengujian untuk menentukan seberapa
besar kekuatan prediksi dari model tersebut. Model yang mampu untuk mereproduksi hasil
percobaan dari training set mungkin tidak akan bekerja baik untuk molekul baru. Fenomena
ini dikenal dengan nama overfitting dan biasanya menandakan adanya parameter yang terlalu
2
banyak pada model tersebut atau jumlah data pada training set tidak cukup besar. Aplikasi
QuaSAR juga mencakup metode untuk menghilangkan outlier (molekul training set dengan
eror model yang sangat besar) dan validasi silang (cross validation). Validasi silang
merupakan suatu prosedur dimana sejumlah porsi dari training set dikeluarkan dari
pembangunan model dan secara berurutan digunakan untuk mensimulasi pembentukan
molekul baru.
Langkah pertama yang dilakukan adalah memilih database yang akan dianalisis dengan
memanggil modul QuaSAR Wizard (MOE->Tools->QuaSAR Wizard) setelah sebelumnya
diatur current working directorynya. Opsi Open in Viewer juga diseleksi agar hasilnya nanti
terbuka di Database Viewer, setelah itu klik Next untuk membuka kotak dialog berikutnya.
Langkah kedua adalah melakukan perhitungan deskriptor dengan memastikan bahwa pada :
Select Activity Field : PIC50
Select
: All 2D and 3D descriptors (no MOPAC)
kemudian klik Calculate selected descriptors. Namun langkah ini tidak dilakukan karena
perhitungan deskriptor telah dilakukan pada percobaan sebelumnya, sehingga langsung diklik Next untuk menuju kotak dialog berikutnya.
Pada kotak dialog yang ketiga dalam MOE QuaSAR Wizard ini memberikan pilihan untuk
memecah data menjadi training set dan test set dalam porsi tertentu. Training set adalah
suatu set data yang akan diolah regresinya (fitting) dalam analisis regresi, sedangkan test set
adalah satu set data yang independen terhadap data training, namun mengikuti pola distibusi
probabilitas yang sama seperti data training. Pendekatan semacam ini dilakukan untuk
meminimalisi masalah overfitting, dimana persamaan yang diperoleh melalui analisis regresi
mampu menjelaskan suatu hubungan pada data training yang tidak berlaku secara umum. Hal
ini biasanya disebabkan oleh model yang terlalu kompleks, misalnya terlalu banyak
parameter dibandingkan banyak data yang ada.
Pemecahan dataset menjadi training set dan test set dilakukan jika dalam database
mengandung banyak sekali jumlah molekul (>40). Dalam kasus ini hanya ada 25 molekul
dalam database sehingga tidak diperlukan pemecahan database. Bagian test database di uncheck dan fraction in training ditulis sebesar 1.0 (tidak ada yang dipecah). Setelah tahapan
ini akan terbentuk file database baru dengan nama yang sama berakhiran train.mdb.
Kotak dialog selanjutnya memberikan pilihan untuk refinement descriptor, artinya pemilihan
deskriptor yang esensial dalam QSAR Langkah ini sifatnya opsional namun dapat
mempersingkat waktu analisis dalam pencarian persamaan QSAR nantinya. Fungsi semacam
ini juga dapat diakses melalui QuaSAR Contingency (DBV->Compute->Descriptors>Contingency). Pada dasarnya QuaSAR Contingency akan melakukan analisis kontigensi
bivariat untuk tiap deskriptor dan aktivitasnya. Output dari analisis ini adalah suatu tabel
koefisien yang dapat digunakan untuk memilih deskriptor yang esensial. Pada kotak dialog
diatas terlihat bahwa deskriptor yang esensial setelah dijalankan perintah Prune
Descriptors by Contingency akan berwarna terseleksi (berwarna biru). Setelah proses ini
selesai maka suatu tabel koefisien akan ditampilkan dalam suatu text editor (biasanya
Notepad) yang berisi beberapa parameter yang dapat menjadi acuan untuk penentuan
deskriptor esensial, seperti koefisien kontingensi C, Cramers V, koefisien ketidakpastian U
dan koefisien korelasi R2. Contoh dari tampilan outputnya adalah seperti dibawah ini.
Deskriptor yang tidak terseleksi (tidak esensial) dapat dihapus satu persatu secara manual di
Database Viewer (pada file yang berakhiran train.mdb) sebelum kotak dialog keempat ini
ditutup (Close).
QuaSAR Evolution
RMSE
0,3113
RR
0,6348
LOF/s
0,1373
F
19,1165
PRESS
3,017152
0,2582
0,7487
0,1209
20,8540
2,1542395
8
0,2643
0,7367
0,1209
19,5817
2,763742
0,2698
0,7256
0,1260
18,5059
2,412864
0,2177
0,8213
0,1025
22,9791
1,642189
0,2179
0,8210
0,1027
22,9295
1,883164
0,2191
0,8190
0,1038
22,6259
2,458861
hubungan linearitas bukan hanya sebuah kebetulan semata. Semakin besar nilai
Fhitung/Ftabel maka semakin signifikan persamaan tersebut. Dalam persamaan QSAR
terpilih di atas, persamaan ke-5 lah yang memiliki harga F paling besar yaitu sebesar 22,9791.
Penggunaan parameter diatas seperti r2, SE dan F secara statistik telah mencukupi
untuk memilih model persamaan terbaik tetapi belum dapat memberikan gambaran yang
nyata tentang kemampuan prediksi dari masing-masing model persamaan yang diperoleh
hasil perhitungan statistik Multi Linear Regression (MLR). Prediction Residual Sum of
Squares (PRESS) digunakan sebagai parameter uji selanjutnya untuk mengetahui
kemampuan prediksi model-model persamaan tersebut, menurut Draper dan Smith (1981)
semakin kecil nilai PRESS suatu model persamaan QSAR maka kemampuannya untuk
memprediksi aktivitas biologi semakin baik. Nilai PRESS diperoleh dengan metode Leave
One Out. Dari persamaan QSAR diatas persamaan ke-5 lah yang memiliki harga PRESS
terkecil yaitu sebesar 1,642189. Dengan berbagai pertimbangan parameter statistik diatas,
persamaan ke-5 lah yang dipilih sebagai persamaan QSAR terbaik.
SCAFFOLD
Analog 3-substitutusi 2-methyl-6-methylsulfonylindole
10
Nilai pIC50 yang berarti -log (IC50) menggambarkan konsentrasi yang dibutuhkan untuk
menghambat separo dari aktivitas biologis, biasanya digunakan untuk mengukur efektivitas
suatu senyawa terhadap aktivitas biologis tertentu. Nilai pIC50 yang semakin besar
mengindikasikan potensi suatu senyawa yang lebih besar. Berdasarkan hasil eksperimen
diatas, nilai pIC50 yang paling besar adalah pada senyawa 13a dengan substituen S-fenil-F (di
posisi 4). Jika dibandingkan dengan persamaan QSAR terpilih :
IC50 = 8.49946 + 0.116956 * RDF085v + 0.0728364 * RDF100u + -0.849022 * a_acc +
-0.913227 * vsurf_ID1
Atom elektronegatif seperti flour, nitrogen dan oksigen merupakan akseptor ikatan hidrogen.
Hal ini berkorelasi dengan persamaan QSAR diatas khususnya pada deskriptor a_acc.
Semakin banyak jumlah atom akseptor ikatan hidrogen, maka semakin kecil nilai IC 50nya
atau dengan kata lain semakin besar nilai pIC50 nya. Flour merupakan atom dengan
elektronegatifitas terbesar (4.0) jadi semakin mudah menjadi akseptor ikatan hidrogennya,
sehingga aktivitasnya semakin kuat. Sulfur juga merupakan atom dengan elektronegatifitas
relatif kuat yaitu sebesar 2,5. Hal ini menunjukkan bahwa persamaan QSAR yang terpilih
berkorelasi dengan aktivitas biologis (data eksperimental).
Analog 2-substitutusi-6-methylsulfonyl-3-thioaryloxyindole
11
Hal yang serupa juga berlaku untuk analog senyawa diatas. Senyawa yang memiliki harga p
IC50 terbesar adalah senyawa 24g, yang memiliki atom dengan elektronegatifitas kuat yaitu Cl
dan gugus CN.
V. KESIMPULAN
1. Persamaan QSAR terpilih
IC50 = 8.49946 + 0.116956 * RDF085v + 0.0728364 * RDF100u + -0.849022 * a_acc +
-0.913227 * vsurf_ID1
2. Parameter statistik dari persamaan QSAR terpilih : r2 = 0,8213, LOF = 0,1025, F =
22,9791, PRESS = 1,642189
12