Professional Documents
Culture Documents
Disusun oleh:
Dr. Danardono, MPH.
Daftar Isi
Daftar Isi
iii
Daftar Gambar
iv
Daftar Tabel
Kata Pengantar
1 Pendahuluan
1.1 Tujuan Pembelajaran . . . . . . . .
1.2 Data dan Variabel Random Survival
1.3 Data tersensor dan terpotong . . . .
1.4 Latihan Bab 1 . . . . . . . . . . . .
.
.
.
.
1
1
1
3
7
.
.
.
.
.
10
10
10
13
15
16
.
.
.
.
.
.
.
.
.
19
19
19
19
22
22
25
27
28
28
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Metode Parametrik
3.1 Tujuan Pembelajaran . . . . . . . . . .
3.2 Beberapa distribusi parametrik . . . . .
3.2.1 Distribusi Eksponensial . . . .
3.2.2 Distribusi Weibull . . . . . . .
3.2.3 Distribusi Gamma . . . . . . .
3.2.4 Distribusi Log-normal . . . . .
3.2.5 Distribusi Gompertz-Makeham .
3.2.6 Distribusi Log-logistik . . . . .
3.3 Estimasi parameter . . . . . . . . . . .
ii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
iii
Daftar Isi
3.4
Latihan Bab 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
.
.
.
.
.
35
35
35
38
41
42
.
.
.
.
.
.
.
.
.
.
.
.
.
45
45
45
46
50
50
52
53
54
55
55
56
57
57
.
.
.
.
.
.
.
.
60
60
60
62
67
67
68
68
72
Daftar Gambar
1.1
1.2
1.3
2
3
5
2.1
2.2
Fungsi Survival . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fungsi Hazard . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
12
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
23
23
24
25
26
26
33
4.1
4.2
4.3
4.4
.
.
.
.
.
.
.
.
37
38
40
40
5.1
5.2
48
48
6.1
6.2
6.3
6.4
6.5
61
63
64
65
72
iv
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. .
.
. .
. .
. .
Daftar Tabel
1.1
1.2
1.3
1.4
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
8
4.1
4.2
4.3
4.4
.
.
.
.
.
.
.
.
37
39
41
43
5.1
5.2
5.3
5.4
5.5
5.6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51
52
54
56
58
59
6.1
6.2
6.3
6.4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
70
71
71
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Kata Pengantar
Matakuliah Analisis Data Survival (2 sks) merupakan matakuliah wajib minat
untuk minat Biostatistika dan minat Aktuaria pada program studi Statistika Jurusan Matematika FMIPA UGM. Matakuliah ini dapat diambil setelah mahasiswa
mengetahui dan memahami dasar serta teknik metode statistik secara umum dan
mampu melakukan analisis statistik dengan beberapa metode tertentu.
Matakuliah ini merupakan gabungan dua matakuliah pada kurikulum 2006
yang isinya dipandang beririsan cukup banyak yaitu Pengantar Uji Hidup dan
Pengantar Analisis Antar Kejadian. Pengantar Uji Hidup lebih menekankan
aspek inferensi univariat dan pembandingan kelompok populasi data lama hidup
(survival) dengan pendekatan parametrik. Pengantar Analisis Antar Kejadian lebih menekankan aspek lebih umum dari data survival, dengan pendekatan parametrik dan semi parametrik untuk data univariat maupun model-model regresi.
Dalam kurikulum 2011, kedua matakuliah tersebut digabung dan berubah nama menjadi Analisis Data Survival, dengan alasan nama ini lebih populer digunakan dalam silabus kuliah yang mengarah ke Biostatistika maupun Aktuaria. Selain itu, materi dalam matakuliah ini disesuaikan dengan kompetensi yang ingin
dicapai pada kedua minat tersebut. Baik minat Biostatistika dan Aktuaria memandang event atau kejadian seperti misalnya kematian, kesakitan, kecelakaan,
bencana, dst., sebagai hal penting yang menjadi perhatian. Pemodelan dan teknik analisis data untuk variabel semacam itu, yang secara umum dinamakan data
survival (data durasi, time-to-event data), adalah tema sentral matakuliah ini.
Terkait pengembangannya, untuk minat Biostatistika, pemodelan faktor resiko data survival akan lebih menjadi perhatian. Sedangkan untuk minat Aktuaria,
model survival akan menjadi dasar dalam penyusunan tabel mortalitas, tabel morbiditas serta penghitungan aktuaria terkait penentuan premi. Selain itu, dalam
kuliah ini juga tidak menutup kemungkinan memberi contoh fenomena lain terkait data survival, seperti misalnya data dalam bidang ilmu rekayasa, sosial dan
ekonomi.
Kuliah Analisis Data Survival disertai dengan kuliah Praktikum Analisis Data
Survival (1 sks) yang diharapkan dapat lebih menambah pemahaman dan komvi
vii
petensi terutama dalam aspek praktis dan komputasinya. Beberapa contoh dan
latihan soal dalam diktat ini diharapkan dapat dicoba dalam kuliah Praktikum.
Diktat ini disusun berdasarkan catatan, tayangan kuliah serta referensi tentang
Analisis Data Survival. Sebagai edisi pertama Diktat tentang Analisis Data Survival, tentu masih banyak kekurangan dan kesalahan dalam diktat ini. Untuk itu
saran dan kritik dari pembaca dan pengguna sangat diharapkan.
Akhir kata penulis mengucapkan terima kasih kepada segala pihak yang telah mendukung penulisan diktat ini, terutama kepada Jurusan Matematika FMIPA
UGM yang telah memberi hibah penulisan diktat ini.
Penulis,
1
Pendahuluan
1.1 Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
1. Menjelaskan pengertian data survival atau data antar kejadian (time-to-event
data) beserta contohnya
2. Menjelaskan pengertian data tersensor dan terpotong beserta contohnya
3. Menjelaskan tujuan dan arah analisis data survival
4. Mengidentifikasi bagian-bagian pada RPKPS yang berkaitan dengan Tujuan umum pembelajaran, metode dan proses pembelajaran, penilaian dan
sumber referensi
5. Mengidentifikasi kuliah lain yang terkait dengan analisis data survival
origin
event
waktu
Tidak selalu event yang menjadi perhatian adalah sesuatu yang terminate, yaitu event yang hanya sekali saja terjadi dan berhenti, seperti misalnya kematian.
Event juga dapat berupa status (state) yang lebih umum, seperti misalnya status
sakit, status pekerjaan, dst.
Contoh 1.2
Misalkan data survival yang menjadi perhatian adalah lama waktu mulai terapi pertama
kali diberikan kepada penderita leukemia sampai kambuh kembali, dalam satuan minggu.
Dalam contoh ini event dapat berulang (kambuh) dan bukan sesuatu yang berhenti dan
hanya sekali terjadi.
Data survival sering diilustrasikan seperti gambar batang korek api (Gambar 1.1) dengan bulatan hitam adalah event dan garis lurus horizontal adalah lama
waktu sampai terjadinya event. Apabila event dipandang sebagai status (state)
yang berubah menurut waktu, dan kadang melibatkan lebih dari satu status, maka dapat digunakan representasi data survival seperti pada Gambar 1.2. Dalam
pengembangannya data survival dapat memuat informasi lebih dari satu status,
sehingga gambaran status yang berbeda terhadap berubahnya waktu dapat ditunjukkan dari sumbu Y yang nilainya berbeda, atau dari jenis garis horizontalnya,
misalnya garis biasa, garis tebal, dan seterusnya.
Data survival merupakan realisasi dari suatu variabel random survival, yaitu
suatu variabel random non-negatif, T , yang menjadi dasar pembentukan model
waktu
waktu
Tipe II: Jika saat tersensornya ditentukan setelah tercapai persentase atau banyak
sampel tertentu yang telah mendapatkan event.
Definisi 1.2
Suatu data atau observasi dikatakan terpotong kiri (left-truncated) pada titik k
apabila data hanya menggunakan nilai observasi t k.
Contoh 1.4
Data terpotong kiri: Suatu studi tentang morbiditas dan mortalitas pegawai pada suatu institusi dilakukan ketika pegawai telah berusia 40 tahun ke atas. Apabila seorang pegawai telah meninggal sebelum berusia 40, dia tidak masuk dalam sampel (lefttruncated).
Definisi 1.3
Suatu data atau observasi dikatakan tersensor kiri (left-censored) pada titik k
apabila nilai observasi yang digunakan adalah t, jika t k; atau k jika t < k.
Contoh 1.5
Data tersensor kiri: Data seperti ini biasanya terjadi pada pengumpulan data yang dilakukan secara retrospektif atau melihat informasi ke belakang. Suatu studi dilakukan
untuk mengetahui faktor-faktor yang mempengaruhi usia pertama kali merokok. Apabila
responden ingat usia saat dia pertama kali merokok, dikatakan observasi yang diperoleh adalah lengkap. Bila responden tidak ingat kapan dia mulai merokok, tapi hanya
ingat mulai merokok sebelum usia tertentu, maka dikatakan observasi tersebut tersensor
kiri.
Definisi 1.4
Suatu data atau observasi dikatakan terpotong kanan (right-truncated) pada titik
k apabila data hanya menggunakan nilai observasi t k.
Contoh 1.6
Data terpotong kanan: Data ini juga biasa terjadi pada pengumpulan data retrospektif. Suatu studi tentang AIDS dilakukan secara retrospektif. Yang menjadi perhatian
adalah durasi mulai infeksi HIV sampai terdiagnosis AIDS. Hanya individu yang telah
terdiagnosis AIDS sebelum mulai studi saja yang akan masuk dalam studi. Individu
yang belum terdiagnosis AIDS tidak masuk dalam studi adalah sampel yang terpotong
kanan.
Pada Gambar 1.3 dapat dilihat perbedaan keempat jenis data tidak lengkap seperti yang telah dijelaskan di muka. Pada Gambar tersebut, bagian yang diarsir
adalah periode pada saat mana observasi tidak lengkap (unobserved). Observasi
tersensor-kanan
tersensor-kiri
terpotong-kanan
t (waktu)
t (waktu)
36
38
Contoh 1.8
Suatu percobaan dilakukan untuk meneliti pengaruh voltase terhadap kerusakan suatu
alat elektrik (Lawless, 2003). Diperoleh data seperti pada Tabel 1.2. Dalam penelitian
ini semua sampel diamati sampai semuanya rusak, tidak ada censoring dalam data ini.
Terlihat bahwa semakin tinggi voltase, lama sampai suatu komponen rusak semakin cepat.
Voltase normal untuk komponen ini adalah 20kV.
Contoh 1.9
Suatu studi di Amerika dilakukan untuk mengetahui faktor-faktor yang mempengaruhi
lama menyusui, atau saat penyapihan (weaning) (Klein and Moeschberger, 2003). Dari
927 bayi yang disusui oleh ibunya, beberapa pertanyaan diajukan seperti pada Tabel 1.3.
Data untuk contoh ini dapat dikopi saat praktikum.
Deskripsi
Lama menyusui (minggu)
Indikator penyapihan
race
poverty
smoke
alcohol
agemth
ybirth
yschool
pc3mth
kode
1=disapih
0=belum
1=kulit putih
2=kulit hitam
3=lainnya
1=ya, 0=tidak
1=ya, 0=tidak
1=ya, 0=tidak
1=ya, 0=tidak
AG positive
WBC waktu
0.0230
65
0.0075
156
0.0430
100
0.0260
134
0.0600
16
0.1050
108
0.1000
121
0.1700
4
0.0540
39
0.0700
143
0.0940
56
0.3200
26
0.3500
22
1.0000
1
1.0000
1
0.5200
5
1.0000
65
ID
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
AG negative
WBC waktu
0.044
56
0.030
65
0.040
17
0.015
7
0.090
16
0.053
22
0.100
3
0.190
4
0.270
2
0.280
3
0.310
8
0.260
4
0.210
3
0.790
30
1.000
4
1.000
43
pada lama waktu sejak diberi karsinogen sampai terkena tumor, permasalahan data tidak lengkap apa saja yang mungkin terjadi?
1.6. Tanpa menggunakan metode yang nanti akan dipelajari dalam analisis data
survival, lakukan analisis data untuk Contoh 1.7 dan Contoh 1.8! (Misalnya
dengan ANOVA atau Regresi). Kesimpulan apa yang dari analisis data yang
saudara lakukan?
1.7. Mengapa data yang tersensor dalam data survival tidak seharusnya dibuang?
Jelaskan!
1.8. Berikan masing-masing satu contoh permasalahan atau fenomena yang dapat dipandang sebagai data survival dan kemungkinan terdapat observasi
tidak lengkap sebagai berikut: (1) tersensor-kanan; (2) terpotong-kiri; (3)
tersensor-kiri; (4) terpotong-kanan!
1.9. Tabel 1.4 adalah data lama hidup 33 pasien leukemia (dalam minggu), banyaknya sel darah putih (WBC, dalam satuan 100.000 sel); dan hasil tes
karakteristik morfologis darah putih (AG positive atau AG negative).
2
Fungsi dan Kuantitas Dasar
2.1 Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
2.1. Menjelaskan fungsi survival, hazard, hazard kumulatif dan hubungannya
diantara mereka dan dengan fungsi probabilitas dan fungsi distribusi
2.2. Menjelaskan beberapa contoh model survival
2.3. Menginterpretasikan fungsi survival, hazard, hazard kumulatif dalam suatu
konteks aplikasi tertentu
2.4. Memberi contoh dan menjelaskan perluasan fungsi survival untuk keperluan aplikasi tertentu
11
0.0
0.2
0.4
S(t)
0.6
0.8
1.0
0.0
0.5
1.0
1.5
2.0
2.5
Fungsi variabel random lain yang cukup penting adalah fungsi hazard yang
didefinisikan sebagai
P (t T < t + t | T t)
t0
t
h(t) = lim
(2.2)
yang dapat diinterpretasikan sebagai tingkat (rate) terjadinya suatu event. Sebagai contoh, fungsi hazard dapat dilihat pada Gambar 2.2. Fungsi hazard yang
12
h(t)
0.0
0.5
1.0
1.5
2.0
yang hubungan fungsionalnya dengan S(t) cukup penting sebagai dasar dalam
pemodelan data survival.
Fungsi S(t), h(t), H(t) dan f (t) merupakan fungsi yang bergantung pada
waktu t. Kadang diperlukan fungsi yang hasilnya berupa nilai waktu t dengan diberikan probabilitas atau kuantitas yang lain. Misalnya dalam penghitungan median. Median adalah nilai tengah, yaitu jika t0,5 adalah median, maka S(t0,5 ) = 0,5.
Secara umum diperlukan fungsi yang dapat digunakan mencari median atau titik
waktu yang lain dengan diberikan probabilitas yang dinamakan fungsi kuantil.
Fungsi kuantil adalah
tp = S 1 (p),
0<p<1
(2.4)
13
atau
tp = F 1 (p),
0<p<1
(2.5)
Nilai tp sering disebut sebagai kuantil ke-p, jadi median adalah kuantil ke- 12 .
Kuantitas lain yang penting adalah mean dan variansi T , yaitu
Z
E(T ) =
S(t)dt
(2.6)
0
dan
var(T ) = 2
tS(t)dt E(T )2
(2.7)
f (t)
,
S(t)
(2.9)
h(t) =
(2.11)
Karena S(0) = 1,
Z t
S(t) = exp
h(u)du
0
= exp(H(t)),
(2.12)
14
atau H(t) = log(S(t)). Dari sini dapat diperoleh pula hubungan antara fungsi
densitas, hazard dan hazard kumulatif sebagai berikut
f (t) = h(t) exp[H(t)]
(2.13)
Karena fungsi survival harus memenuhi S(t) = exp(H(t)), dapat disimpulkan H(t) < untuk t > 0, dan limt H(t) = .
Dengan mengetahui hubungan antar fungsi variabel random survival, apabila
satu jenis fungsi diketahui, fungsi yang lain dapat diketahui pula.
Contoh 2.2
Diketahui fungsi hazard konstan h(t) = . Carilah bentuk fungsi survival, fungsi densitas
dan fungsi hazard kumulatif distribusi ini.
Jawab:
Rt
Diketahui, h(t) = . Menggunakan hubungan H(t) = 0 h(x)dx dapat dicari
Z t
H(t) =
dx = [x]t0
0
= t.
Dalam pemodelan survival, fungsi hazard mempunyai kelebihan dibandingkan fungsi survival maupun fungsi densitas, terutama terkait kondisi bersyarat karena observasi yang terpotong. Misalkan untuk terpotong-kiri, peluang seorang
individu survive dengan diketahui dia masih survive sampai waktu k adalah
S(t | T > k) = P (T > t | T > k),
S(t)
=
.
S(k)
t>k
Demikian pula untuk fungsi densitas, kondisional terhadap survival sampai waktu
k, adalah f (t)/S(k). Namun tidak demikian dengan fungsi hazard, karena fungsi
hazard menurut definisi fungsi hazard (2.10) sudah bersyarat T > k, sehingga
fungsi hazard tetap h(t) dan tidak terpengaruh observasi terpotong. Kenyataan
ini bermanfaat dalam pemodelan survival, sehingga banyak model survival yang
dikembangkan dari fungsi hazard, misalnya model regresi proportional hazard.
15
i = 1, 2, . . .
(2.14)
S(t) =
f (xj )
(2.15)
j|xj >t
= f (xj ) + f (xj+1 ) + . . .
(2.16)
yang merupakan fungsi kontinu dari kiri (left-continuous) dan fungsi tangga yang
tak-naik (non-increasing step function) dengan S(0) = 1 dan S() = 0
Fungsi hazard pada xj didefinisikan sebagai probabilitas kondisional subyek
mendapatkan event pada saat xj dengan diberikan subyek belum mendapatkan
event tepat sebelum xj
h(xj ) = P (T = xj | T xj )
f (xj )
=
j = 1, 2, . . .
S(xj )
Karena f (xj ) = S(xj ) S(xj+1 ),
f (xj )
S(xj )
S(xj ) S(xj+1 )
=
S(xj )
S(xj+1 )
= 1
S(xj )
h(xj ) =
(2.17)
sehingga
S(t) =
(1 h(xj )) .
(2.18)
(2.19)
j|xj <t
j|xj <t
16
k = 1, 2, 3
f (xj )
j|xj >t
2/3
=
1/3
jika
jika
jika
jika
0 t < 1,
1 t < 2,
2 t < 3,
t 3.
Untuk T diskrit, S(t) berupa fungsi tangga yang tak-naik. Fungsi hazard T adalah
f (xj )
S(xj )
1/3 untuk j = 1
1/2 untuk j = 2
=
1
untuk j = 3
0
yang lain.
h(xj ) =
Untuk variabel random survival diskrit, fungsi hazard akan bernilai nol, kecuali pada titiktitik di mana event dapat terjadi.
17
R
0
S(t)dt
tf (t)dt
2.9. Diketahui fungsi survival S(t) = exp(t ), carilah fungsi densitas dan
fungsi hazardnya!
2.10. Tunjukkan bahwa jika fungsi hazard suatu variabel random survival adalah
(t)1 exp [(t) ]
fungsi survivalnya adalah
exp { [exp((t) ) 1]}
2.11. Tunjukkan bahwa untuk variabel random survival diskret
Y
S(t) =
(1 h(xj ))
j|xj <t
18
t = 1, 2, . . .
k
,
k!
k = 0, 1, . . . .
2
h(t) = ...
k1
0 t < 1
1 t < 2
k2 t < k1
t k1
3
Metode Parametrik
3.1 Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
3.1. Menyebutkan beberapa model distribusi parametrik variabel random survival
3.2. Menyebutkan dan menjelaskan aplikasi atau fenomena data survival yang
mengikuti distribusi parametrik tertentu
3.3. Melakukan estimasi parameter model distribusi variabel random survival
3.4. Menggunakan model distribusi variabel random survival
3.5. Mengidentifikasi distribusi yang sesuai jika diberikan suatu set data survival
(3.1)
Hazard yang konstan ini sebenarnya tidak cukup realistis untuk memodelkan fenomena terkait data survival. Namun model dengan distribusi Eksponensial ini
19
20
dipandang cukup baik dan sederhana sebelum melihat model lain yang mungkin
lebih baik namun mungkin juga lebih rumit.
Model dengan reparameterisasi = 1/ kadang sering juga digunakan. Perbedaannya adalah dalam interpretasi terkait fungsi hazardnya. Untuk event seperti
kerusakan atau kematian, diinterpretasikan sebagai tingkat resiko (hazard rate)
dengan satuan kerusakan per satu satuan waktu, sedangkan = 1/ adalah lama
waktu sampai satu kerusakan.
Dengan terlebih dahulu mencari fungsi hazard kumulatifnya yaitu H(t) =
t, fungsi survival dapat dicari melalui hubungan antara H(t) dan S(t), sebagai
berikut
S(t) = exp(t)
(3.2)
Fungsi densitas distribusi eksponensial dengan parameter > 0 dapat dirumuskan dari h(t) dan S(t) di muka, yaitu
f (t) = h(t)s(t)
= exp(t)
(3.3)
21
0.4
S(t)
0.6
0.8
1.0
= 0.1
0.0
0.2
= 0.3
10
20
30
40
0.3
= 0.3
0.2
h(t)
0.4
0.5
0.6
Gambar 3.1: Kurva survival untuk model eksponensial dengan dua nilai yang
berbeda
0.0
0.1
= 0.1
10
20
30
40
Gambar 3.2: Kurva hazard untuk model eksponensial dengan dua nilai yang
berbeda
22
(3.4)
(3.5)
(3.6)
Untuk kasus = 1 distribusi Weibull sama dengan eksponensial dengan parameter . Mean dan variansi distribusi ini berturut-turut
(1 + 1/)
dan
1
2
1
2
1+
1+
2
Kurva survival dan kurva hazard untuk model Weibull dapat dilihat pada Gambar 3.3 dan 3.4. Distribusi Weibull banyak digunakan dalam bidang reliabilitas
dan studi mortalitas.
(t)1 exp(t)
()
h(t) = f (x)/S(x)
(3.7)
(3.8)
23
0.2
0.4
S(t)
0.6
0.8
1.0
0.0
=4
= 0.1
=2
2
=1
3
Gambar 3.3: Kurva survival untuk model Weibull dengan beberapa nilai yang
berbeda dan satu nilai tertentu
=2
=1
h(t)
=4
= 0.1
Gambar 3.4: Kurva hazard untuk model Weibull dengan beberapa nilai yang
berbeda dan satu nilai tertentu
24
= 0.4
1.0
h(t)
1.5
2.0
0.5
=2
0.0
=4
Gambar 3.5: Kurva fungsi hazard untuk model Gamma dengan beberapa nilai
yang berbeda dan = 1
1
S(t) = 1 I(t, ) = 1
()
u1 eu du
(3.9)
Secara praktis penggunaan fungsi Gamma agak terbatas karena bentuk eksplisit fungsi survivalnya yang rumit memuat integral fungsi Gamma tidak-lengkap.
Fungsi Gamma dengan = 1 adalah sama dengan distribusi Eksponensial().
Distribusi Gamma dengan parameter = 1 dikenal dengan Gamma satu parameter dan mempunyai fungsi densitas sebagai berikut
f (t) =
t1 exp(t)
()
(3.10)
Jika T berdistribusi Gamma (3.7), maka T akan berdistribusi Gamma satu parameter . Kemudian bila Y berdistribusi Gamma satu parameter , maka 2Y
berdistribusi 2 (Chi kuadrat) dengan derajat bebas 2k.
Gambar fungsi densitas dan fungsi hazard untuk = 1 dan berbagai nilai
dapat dilihat pada Gambar 3.5 dan Gambar 3.6.
Seperti halnya distribusi Weibull, distribusi Gamma diawali dari permasalahan
dalam bidang perekayasaan (engineering) dan ketahanan material. Aplikasinya
kemudian ke bidang yang lain seperti industri dan model mortalitas.
25
0.4
0.2
f(t)
0.6
=4
=2
0.0
= 0.4
0
Gambar 3.6: Kurva fungsi densitas untuk model Gamma dengan beberapa nilai
yang berbeda dan = 1
1
exp 2 (log(t) )2
f (t) =
2
t 2
1
h(t) = f (x)/S(x)
S(t) = 1
log(t)
(3.11)
(3.12)
(3.13)
26
h(t)
= 0.25
= 0.5
= 1.5
2.0
Gambar 3.7: Kurva fungsi hazard untuk model lognormal dengan beberapa nilai
yang berbeda dan = 0
1.0
0.5
f(t)
1.5
= 0.25
= 0.5
0.0
= 1.5
3
t
Gambar 3.8: Kurva fungsi densitas untuk model lognormal dengan beberapa nilai
yang berbeda dan = 0
27
Contoh 3.2
Carilah median lognormal, bila diketahui fungsi survival seperti (3.13).
Jawab:
Bila med adalah median, maka
log(med)
S(med) = 1
= 1/2
atau
log(med)
= 1/2
log(med) =
med = exp()
(3.14)
(3.15)
Model hazard ini dikenal sebagai model Gompertz. Makeham kemudian menyarankan ada penambahan konstan 0 yang berbeda menurut usia pada model Gompertz untuk memodelkan mortalitas, sehingga model hazardnya menjadi
Gompertz-Makeham
h(t) = 0 + 1 e2 t .
(3.16)
Parameter 0 > 0 dan 1 > 0 dikenal sebagai parameter bentuk (shape) dan
< 2 < sebagai parameter skala (scale).
Fungsi survival distribusi Gompertz-Makeham dapat diturunkan melalui fungsi hazard dan kemudian fungsi hazard kumulatifnya, dan diperoleh
1 2 t
(3.17)
S(t) = exp 0 t (e 1)
2
Fungsi densitas Gompertz-Makeham dapat dituliskan secara eksplisit dari
h(t)S(t). Dalam aplikasinya model ini lebih menggunakan fungsi hazard dan
survivalnya.
28
exp[(y )/]
(1 + exp[(y )/])2
(3.18)
dengan < y < adalah variabel random logistik dengan parameter <
< dan < < .
Fungsi Survival distribusi log-logistik adalah
S(t) =
1
1 + (t)
(3.19)
Fungsi hazard distribusi ini dapat diturunkan mulai dari fungsi kumulatif hazardnya
H(t) = log[S(t)]
= log((1 + (t) )
(3.20)
kemudian diperoleh
h(t) = dH(t)/dt
(t)1
=
.
1 + (t)
(3.21)
1 + (t) 1 + (t)
(t)1
=
[1 + (t) ]2
(3.22)
(3.23)
Distribusi ini memiliki S(t), h(t) dan f (t) yang eksplisit relatif sederhana
dibandingkan dengan, misalnya, log-normal.
29
Definisi 3.1
Fungsi kebolehjadian (likelihood function) adalah fungsi dari parameter yang dibentuk melalui probabilitas bersama dengan diberikan realisasi atau data yang
berasal dari variabel random survival T . Apabila f (t; ) adalah fungsi probabilitas bersama, dengan t adalah realisasi dari T , maka fungsi dari parameter
yang didefinisikan sebagai
L( | t) = f (t; )
dinamakan fungsi kebolehjadian.
Untuk data survival yang diasumsikan independen dan identik serta lengkap,
apabila ada t1 , t2 , . . . , tn observasi, fungsi kebolehjadian-nya adalah
L( | t) =
n
Y
f (ti ; )
(3.24)
i=1
Untuk data survival yang tidak lengkap, baik karena tersensor maupun terpotong,
fungsi kebolehjadian ditentukan sebagaimana berikut ini.
Data survival dengan kemungkinan tersensor kanan dapat direpresentasikan
sebagai pasangan nilai observasi survival dengan status tersensornya yaitu (ti , i ),
i = 1, 2, . . . , n dengan
(
0 jika i tersensor
i =
(3.25)
1 jika i mendapatkan kejadian (event)
Dengan asumsi masing-masing (Ti , i ) independen satu dengan yang lain,
fungsi likelihood untuk data tersensor kanan adalah:
L()
n
Y
(3.26)
i=1
n
X
i=1
(i ) log(f (ti ; )) +
n
X
i=1
(1 i ) log(S(ti ; ))
(3.27)
30
fungsi survival pembentuk (3.26) kondisional terhadap probabilitas survive sampai ke L, karena untuk observasi yang terpotong-kiri hanya terjadi bila t L
(Lihat Definisi 1.2, Bab 1) Untuk data yang tersensor-kanan tipe I, variabel indikator ditentukan sebagai berikut
(
0 jika ti > R
(3.28)
i =
1 jika ti R
atau ditulis dengan fungsi indikator, i = I(ti R).
Fungsi kebolehjadian-nya adalah
1i
n
Y
f (ti ; ) i S(ti ; )
L()
S(L)
S(L)
i=1
(3.29)
Dengan cara yang sama fungsi kebolehjadian untuk observasi yang merupakan kombinasi dari terpotong-kiri, tersensor-kanan, terpotong-kanan, tersensor-kiri
dan observasi yang lengkap dapat disusun.
Untuk mendapatkan estimasi dari dapat digunakan metode kebolehjadian
maksimum (MLE: Maximum Likelihood Estimation).
Definisi 3.2
adalah (1 , . . . , p ) yang memakEstimasi kebolehjadian Maksimum , ditulis
simumkan L():
= max L()
()
(3.30)
Pengerjaan terkait derivatif lebih mudah dilakukan pada log(L()) atau loglikehood, dinotasikan dengan (), dibandingkan pada L(). Karena fungsi log
yang memaksimerupakan fungsi yang naik tegas (strictly increasing), maka
mumkan () juga memaksimumkan L(), sehingga estimasi kebolehjadian maksimum dapat diperoleh dari
= max ()
()
(3.31)
j = 1, 2, . . . , p
(3.32)
31
Contoh 3.3
Carilah estimator untuk parameter pada model survival eksponensial yang datanya dapat
terkena sensor-kanan.
Jawab:
Fungsi kebolehjadian untuk parameter dengan diketahui data berdistribusi eksponensial
adalah:
L() =
=
n
Y
i=1
n
Y
i=1
n
X
i=1
n
X
ti
i=1
P
Untuk data yang tersensor kanan, ni=1 i = k, dengan k adalah banyaknya data yang
lengkap. Untuk data survival yang lengkap k = n
Kemudian dicari titik kritis () melalui ()/ = 0,
P
(k log ni=1 ti )
()
=
n
k X
ti .
i=1
Penyelesaian dari
n
k X
ti = 0
i=1
adalah
= Pnk
i=1 ti
Pada contoh 3.3 telah diperoleh estimator titik dari parameter , bila diberikan
data survival berdistribusi eksponensial. Inferensi lebih lanjut dapat dilakukan
32
Contoh 3.4
Diketahui waktu remisi (minggu) dari 21 pasien leukemia akut sebagai berikut: 1, 1, 2, 2,
3, 4, 4, 5, 5, 6, 8, 8, 9,10, 10, 12, 14, 16, 20, 24, 34
Hitung interval konfidensi 95% untuk dari data di atas, dengan asumsi data berdistribusi
eksponensial.
Jawab: Dihitung terlebih dahulu estimasi . Karena data di atas lengkap, k = n
=
n
Pn
i=1 ti
21
= 0,1060606
198
2n,/2
2n,1/2
<<
2n
2n
0, 106 25, 999
0, 106 62, 777
<<
42
42
0, 066 < < 0, 156
Contoh 3.5
Dalam suatu penelitian 10 tikus percobaan terpapar (exposed) ke suatu jenis penyakit
kanker. Setelah 5 tikus mati percobaan dihentikan diperoleh data lama hidup tikus sbb:
4, 5, 8, 9, 10, 10+, 10+, 10+, 10+, 10+. (tanda + menunjukkan tersensor-kanan). Hitung
interval konfidensi 95% untuk , bila diasumsikan data berdistribusi eksponensial.
Jawab:
Estimasi untuk dalam hal ini adalah untuk data tersensor-kanan,
=
k
Pn
i=1 ti
5
= 0,05814
86
Nilai estimasi ini menghasilkan nilai log-likelihood (0,05814) = 19,22455. Gambar fungsi log=likehood ini dapat dilihat pada Gambar 3.9. Garis tegak putus-putus menunjukkan nilai MLE dan log-likelihood maksimalnya.
Interval konfidensi 95% untuk
2
2k,/2
2k,1/2
<<
2k
2k
0,05814 3,246973
0,05814 20,48318
<<
10
10
0,0189 < < 0,1191
33
24
26
28
32
30
loglikelihood
22
20
0.00
0.05
0.10
0.15
0.20
0.25
0.30
34
4
Metode Non-parametrik dan
Uji-LogRank
4.1 Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
4.1. Menjelaskan perbedaan metode non-parametrik dan parametrik dalam analisis data survival
4.2. Melakukan estimasi Kaplan-Meier untuk fungsi survival dan menjelaskan
teori yang mendasarinya
4.3. Melakukan estimasi Nelson-Aalen untuk fungsi hazard kumulatif dan menjelaskan teori yang mendasarinya
4.4. Menggunakan Kaplan-Meier dan Nelson-Aalen dalam analisis data survival
4.5. Menjelaskan perlunya pembandingan fungsi survival dalam analisis data
survival
4.6. Melakukan dan menggunakan metode log-rank test dan teori yang mendasarinya
4.2 Kaplan-Meier
Untuk mengestimasi S(t) dapat digunakan estimator Kaplan-Meier atau sering
juga disebut sebagai Product-Limit estimator sebagai berikut:
(
jika t < t1
= 1Q
S(t)
(4.1)
di
jika ti t
ti t (1 Yi )
35
36
4.2. Kaplan-Meier
dimana di adalah banyaknya event dan Yi adalah banyaknya individu yang beresiko (number at risk) Estimator Kaplan-Meier merupakan fungsi tangga yang turun
pada saat ada event.
Dasar pemikiran sstimator Kaplan-Meier dapat dijelaskan seperti pada Gambar 4.1. Misalkan event yang menjadi perhatian adalah meninggal (M), dengan
origin mulai dari waktu 0 dan diperoleh waktu kronologis terjadinya event pada
t1 , t2 dan t3 . Pada saat t1 , peluang meninggal dengan diketahui kondisi pada saat
waktu 0 adalah 1 , dan peluang hidup (H) atau survive adalah 1 1 . Pada saat t2 ,
peluang meninggal dengan diketahui kondisi pada saat t1 adalah 2 , dan peluang
meninggal 1 2 . Demikian pula dengan 3 dan 1 3 . Probabilitas meninggal 1 , 2 , dan 3 dapat dipandang sebagai probabilitas binomial namun dengan
probabilitas sukses yang berubah-ubah menurut waktu.
Peluang survive sampai waktu t3 adalah
(1 1 )(1 2 )(1 3 ),
yaitu produk dari masing-masing peluang bersyarat mulai dari 0 sampai dengan
t3 .
Estimator Kaplan-Meier adalah non-parametrik dalam artian tidak mengasumsikan banyaknya parameter yang berhingga. Banyaknya parameter atau kuantitas
yang akan diestimasi dalam Kaplan-Meier adalah sebanyak titik waktu di mana
event terjadi.
Untuk mengestimasi i ; i = 1, 2, . . . dapat digunakan proporsi meninggal dengan diberikan banyaknya yang masih hidup pada saat sebelum terjadinya event,
seperti halnya estimator untuk peluang sukses pada binomial. Apabila di adalah
banyaknya yang meninggal pada saat ti dan Yi adalah banyaknya yang masih hidup, tepat sebelum saat ti , maka estimator untuk i adalah di /Yi dan estimator
untuk 1 i adalah 1 di /Yi . Estimasi untuk survivesampai waktu k tertentu
menjadi
(1 d1 /Y1 )(1 d2 /Y2 )(1 d3 /Y3 ) . . . (1 dk /Yk )
2
var[S(t)]
= S(t)
(4.2)
Y (Y di )
t t i i
i
2 [1 S(t)]
var[S(t)]
= S(t)
Y (t)
(4.3)
37
4.2. Kaplan-Meier
M: meninggal
1
H: hidup
M
M
2
H1
t1
t2
H
t3
waktu
Gambar 4.1: Ilustrasi Konstruksi Estimator Kaplan-Meier dan Nelson-Aalen
Tabel 4.1: Tabel Estimasi Kaplan-Meier Contoh 4.1
t
6
7
10
13
16
22
23
Y d
21 3
17 1
15 1
12 1
11 1
7 1
6 1
S(t)
1 3/21 = 0,857
(1 1/17) 0,857 = 0,807
(1 1/15) 0,807 = 0,753
(1 1/12) 0,753 = 0,690
(1 1/11) 0,690 = 0,627
(1 1/7) 0,627 = 0,538
(1 1/6) 0,538 = 0,448
se[S(t)]
0,857
= 0,0764
0,807 . . . = 0,0869
0,7532 . . . = 0,0963
0,6902 . . . = 0,1068
0,6272 . . . = 0,1141
0,5382 . . . = 0,1282
0,4482 . . . = 0,1346
2
3
(21)(18)
2
S(t)
Contoh 4.1
Diperoleh data dari studi tentang pasien leukemia seperti pada Contoh 1.7, Bab 1. Buatlah
Estimasi Kaplan-Meier untuk perawatan 6-MP saja.
Jawab:
Pertama, data waktu diurutkan dan dihitung frekuensi banyaknya individu yang beresiko
(belum mendapatkan event) serta banyaknya event pada waktu tersebut. Estimasi S(t)
kemudian dapat dihitung menggunakan persamaan (4.1) dan var[S(t)] dengan persamaan
(4.2). Hasilnya dapat dilihat pada Tabel 4.1. Plot untuk estimasi Kaplan-Meier yang berupa fungsi tangga dapat dibuat seperti Gambar 4.2. Seperti terlihat pada Gambar, tangga
akan turun ketika terjadi event saja. Garis pendek tegak pada grafik menunjukkan ob-
38
0.6
0.4
0.0
0.2
Estimasi S(t) KM
0.8
1.0
4.3. Nelson-Aalen
10
15
20
25
30
35
waktu
4.3 Nelson-Aalen
Estimator Nelson-Aalen digunakan untuk mengestimasi fungsi hazard kumulatif,
didefinisikan sebagai berikut:
H(t)
=
dengan variansi
0
P
jika t < t1
jika ti t
di
ti t Yi
H(t))
Var(
=
X di
Y2
t t i
(4.4)
(4.5)
H(t)
Prinsip konstruksi estimator Nelson-Aalen sama seperti halnya Kaplan-Meier
(lihat Gambar 4.1). Estimator ini merupakan estimator non-parametrik yang
39
4.3. Nelson-Aalen
Tabel 4.2: Tabel estimasi Nelson-Aalen untuk H(t) dan S(t) Contoh 4.2
t
6
7
10
13
16
22
23
Y
21
17
15
12
11
7
6
d
3
1
1
1
1
1
1
H(t)
3/21 = 0,143
1/17 + 0,143 = 0,202
1/15 + 0,202 = 0,269
1/12 + 0,269 = 0,352
1/11 + 0,352 = 0,443
1/7 + 0,443 = 0,586
1/6 + 0,586 = 0,753
= exp(H(t))
S(t)
0,867
0,817
0,764
0,703
0,642
0,557
0,471
mengestimasi kuantitasi yang tidak diketahui pada saat terjadinya event. Dalam
hal ini kuantitas yang tidak diketahui adalah peluang bersyarat dengan kondisi
sebelum event terjadi atau hazard nya. Apabila estimasi hazard ini dijumlahkan
sampai waktu tk t tertentu, maka kuantitas ini adalah estimasi hazard kumulatif
yang dirumuskan sebagai estimator Nelson-Aalen 4.4.
Estimasi Nelson-Aalen dapat digunakan untuk mengestimasi S(t) dengan
menggunakan hubungan H(t) dengan S(t), yaitu S(t) = exp(H(t)).
Contoh 4.2
Menggunakan data yang sama seperti Contoh 4.1 untuk perawatan 6-MP saja (data Contoh 1.7, Bab 1), hitung Estimasi fungsi hazard kumulatif menggunakan Nelson-Aalen dan
estimasi fungsi survivalnya.
Jawab:
Disusun tabel seperti pada Tabel Kaplan-Meier contoh 4.1. Gunakan persamaan (4.4)
40
0.4
0.0
0.2
estimasi H(t)
0.6
4.3. Nelson-Aalen
10
15
20
25
30
35
waktu
0.6
0.4
6MP
0.2
estimasi S(t)
0.8
1.0
0.0
placebo
10
15
20
25
30
35
waktu
Gambar 4.4: Plot Estimasi Kaplan-Meier untuk terapi dan placebo data
tersensor kanan.
Plot kurva Kaplan-Meier untuk terapi maupun placebo dapat dilihat pada Gambar
41
Y d
21 2
19 2
17 1
16 2
14 2
12 4
8 2
6 2
4 1
3 1
2 1
1 1
S(t)
0,9048
0,8095
0,7619
0,6667
0,5714
0,3810
0,2857
0,1905
0,1429
0,0952
0,0476
0,0000
4.4. Grup terapi terlihat lebih baik, atau mempunyai peluang survival yang lebih tinggi
dibandingkan grup placebo.
Dalam Contoh 4.3, perbandingan hanya dilakukan secara deskriptif menggunakan grafik estimasi Kaplan-Meier fungsi S(t). Pengambilan kesimpulan atau
inferensi statistik dapat pula dilakukan untuk membandingkan kurva S(t) seperti
yang akan dibahas pada bagian berikut.
42
natif
H1 : S1 (t) > S2 (t)
H1 : S1 (t) < S2 (t)
H1 : S1 (t) 6= S2 (t)
Uji Logrank didasarkan pada banyaknya observed dan expected event pada setiap
event-time. Untuk log-rank test dengan 2 grup yang ingin dibandingkan statistik
pengujinya adalah:
W =
(O1 E1 )2 (O2 E2 )2
+
E1
E2
(4.6)
=
=
(O1 E1 )2 (O2 E2 )2
+
E1
E2
(9 19, 26)2 (21 10, 74)2
+
= 15,267
19, 26
10, 74
yang jauh lebih besar dari nilai daerah kritik 3,8414 atau mempunyai p-value yang cukup
kecil. jadi dapat disimpulkan H0 ditolak atau dua kurva survival tersebut berbeda.
43
d1
0
0
0
0
0
3
1
0
1
0
0
1
0
1
0
1
1
9
d2
2
2
1
2
2
0
0
4
0
2
2
0
1
0
1
1
1
21
Y1
21
21
21
21
21
21
17
16
15
13
12
12
11
11
10
7
6
Y2
21
19
17
16
14
12
12
12
8
8
6
4
4
3
3
2
1
e1
(21/42) 2
(21/40) 2
(21/38) 1
(21/37) 2
(21/35) 2
(21/33) 3
(17/29) 1
(16/28) 4
(15/23) 1
(13/21) 2
(12/18) 2
(12/16) 1
(11/15) 1
(11/14) 1
(10/13) 1
(7/9) 2
(6/7) 2
19,26
e2
(21/42) 2
(19/40) 2
(17/38) 1
(16/37) 2
(14/35) 2
(12/33) 3
(12/29) 1
(12/28) 4
(8/23) 1
(8/21) 2
(6/18) 2
(4/16) 1
(4/15) 1
(3/14) 1
(3/13) 1
(2/9) 2
(1/7) 2
10,74
4.2. Estimasi fungsi survival dapat diperoleh dari estimator Nelson-Aalen berdasarkan hubungan antara S(t) dengan H(t). Apabila estimasi S(t) menggunakan estimator Nelson-Aalen dinotasikan sebagai SN A (t), dan estimasi S(t) Kaplan-Meier dinotasikan sebagai SKM (t), tunjukkan bahwa
SKM (t) SN A (t), untuk semua t.
4.3. Dalam suatu kecelakaan di pusat listrik tenaga nuklir, 10 pekerja terkena
radiasi. Dengan menganggap origin (waktu 0 ) adalah saat kecelakaan, terdapat satu meninggal pada waktu ke-2, satu meninggal pada waktu ke-4,
dan x tidak diketahui nasibnya (censored) pada saat ke-3. Jika diketahui
44
berusia 4 hari. Ada 6 meninggal pada usia 1; 10 pada usia 3; 10 pada usia
4, a pada usia 5; b pada usia 9 dan 6 pada usia 12. Diketahui pula 45 tikus
tidak diketahui nasibnya pada usia 7; 35 tidak diketahui nasibnya pada usia
10 dan 15 tidak diketahui nasibnya pada usia 13. Diperoleh hasil Kaplan
Grup 2 (n = 25)
5,8, 2,9, 8,4, 8,3, 9,1, 4,2, 4,1,
1,8, 3,1, 11,4, 2,4, 1,4, 5,9, 1,6,
2,8, 4,9, 3,5, 6,5, 9,9, 3,6, 5,2,
8,8, 7,8, 4,7, 3,9
5
Model Regresi Parametrik
5.1 Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
1. Menjelaskan perlunya model regresi untuk data survival
2. Menjelaskan beberapa macam model regresi untuk data survival
3. Menjelaskan hubungan dan perbedaan Model Regresi Survival Dipercepat,
Model Regresi Hazard Proporsional dan Model Regresi Hazard Aditif
4. Menjelaskan prinsip estimasi parameter dalam model Regresi Survival Parametrik
5. Melakukan analisis data survival menggunakan model Regresi Survival Dipercepat Parametrik
46
independen x dipandang mempengaruhi data survival, misalnya sebagai (i) perlakuan; (ii) karakteristik dari individu; (iii) variabel eksternal. Sebagai contoh
adalah data penderita leukemia yang disebutkan pada Contoh 1.2 Bab 1. Pengaruh perlakuan 6-MP dan placebo terhadap lama kambuh leukemia. Dalam data
penyapihan (Contoh 1.9 Bab 1, variabel-variabel independen yang ada merupakan karakteristik dari ibu. Variabel eksternal adalah segala informasi di luar individu itu sendiri, namun diduga berpengaruh terhadap data survival. Misalnya adalah
pengaruh temperatur luar terhadap tahan hidup suatu komponen. Nilai variabel ini
sudah diperoleh sebelum atau pada saat origin (T = 0). Dalam pengembangannya nilai variabel dapat berubah seiring berjalannya waktu, atau sering disebut
time-dependent covariate.
Dalam pemodelan regresi survival, pengaruh X dinyatakan sebagai skor setiap individu, yaitu sebagai fungsi dari koefisien regresi atau parameter bersama
dengan X atau ditulis dengan (X; ), dengan adalah koefisien regresi atau
parameter. Misalnya
(X; ) = 0 + 1 x1 + 2 x2 + . . . + p xp ,
(x; ) = exp(0 + 1 x1 + 2 x2 + . . . + p xp ),
dengan = (0 , 1 , . . . , p ). Untuk menyederhanakan penulisan dalam pembahasan selanjutnya, (X; ) kadang ditulis sebagai saja.
Pengaruh X terhadap survival dapat dimodelkan melalui hubungannya dengan
realisasi variabel random T atau melalui fungsi variabel random survival yaitu
S(t), h(t), H(t) atau f (t). Paling tidak ada tiga model regresi yang cukup populer
dalam analisis data survival melalui hubungan dengan fungi variabel random survival yaitu: Model Uji Hidup Dipercepat (Accelerated Failure Time model atau
AFT), Model Hazard Proportional atau PHM (Proportional Hazard Model) dan
Model Hazard Aditif. Sedangkan pemodelan melalui T sendiri diantaranya yang
populer adalah Model Regresi Data Tersensor dan Terpotong. Beberapa model
saling terkait dan kadang suatu model dapat digolongkan ke dalam lebih dari satu
jenis model. Dalam diktat ini model yang akan dibahas lebih lanjut adalah Model
Uji Hidup Dipercepat (Accelerated Failure Time model) Parametrik dan Model
Regresi Cox.
47
(5.1)
f (t | ) = f0 (t)
(5.2)
h(t | ) = h0 (t)
(5.3)
dengan indeks 0 menunjukkan fungsi baseline, yaitu bentuk fungsi ketika tanpa
variabel independen. Jadi S0 (t) adalah baseline survival, f0 (t) adalah baseline
fungsi densitas dan h0 (t) adalah baseline hazard. Baseline juga dapat diartikan
sebagai pembanding, yaitu pembanding antara survival ketika tanpa variabel independen dengan ketika variabel independen dimasukkan dalam model.
Contoh 5.1
Tulis model AFT apabila diketahui baseline nya adalah distribusi eksponensial.
Jawab:
Diketahui baseline survival, fungsi densitas dan hazard untuk eksponensial berturut-turut
adalah
S0 (t) = exp(t);
Model AFT untuk eksponensial berdasarkan rumusan (5.1), (5.2) dan (5.3),
S(t | ) = exp(t);
f (t | ) = exp(t); h(t | ) =
Dipercepat (accelerated) dalam model AFT untuk Contoh 5.1 dapat digambarkan
seperti kurva survival pada Gambar 5.1. Untuk yang sama (sebagai baseline),
kurva survival akan menurun (kematian dipercepat) jika > 1. Sebaliknya, jika < 1 Kurva survival akan menaik (diperlambat). Dalam hal ini pengertian
dipercepat atau accelerated sebenarnya juga dapat decelerated tergantung faktor
pemercepat (acceleration factor) . Untuk = 1 bentuk kurva survival AFT
sama dengan baseline nya. Deskripsi yang sama juga dapat diperoleh dari fungsi
hazard Gambar 5.2. Jika < 1, hazard nya akan rendah (atau survival nya tinggi),
dan sebaliknya. Untuk distribusi eksponensial sendiri, dapat dipandang sebagai
faktor pemercepat seperti halnya .
48
0.4
S(t)
0.6
0.8
1.0
0.2
survival diperlambat
0.0
baseline survival
survival dipercepat
0
1.5
hazard dipercepat
baseline hazard
1.0
h(t)
2.0
2.5
3.0
0.0
0.5
hazard diperlambat
49
Model yang lain adalah PHM, yang mempunyai fungsi survival, densitas dan
hazard sebagai berikut,
S(t | ) = S0 (t)
f (t | ) = S0 (t) h0 (t),
h(t | ) = h0 (t)
(5.4)
(5.5)
(5.6)
Model PHM parametrik dibentuk berdasarkan rasio antara hazard yang memuat
variabel independen dengan baseline hazard yang selalu tetap atau proporsional
sepanjang waktu, yaitu sebesar . Model hazard proporsional akan dibahas lebih
lanjut sebagai model regresi semi-parametrik Cox dalam Bab 6.
Contoh 5.2
Tulis model hazard proporsional apabila diketahui baseline nya adalah distribusi eksponensial.
Jawab:
Diketahui baseline survival, fungsi densitas dan hazard untuk eksponensial berturut-turut
adalah
S0 (t) = exp(t);
Model PHM untuk eksponensial berdasarkan rumusan (5.4), (5.5) dan (5.6),
S(t | ) = {exp(t)} ;
f (t | ) = {exp(t)} ; h(t | ) = .
Terlihat bahwa distribusi eksponensial mempunyai bentuk fungsi hazard yang sama baik
untuk model AFT maupun PHM.
Estimasi parameter dapat diperoleh melalui MLE (maximum likelihood estimation). Data yang diperoleh berupa (ti , i , Xi ), i = 1, 2, . . . , n yang independen
satu sama lain, dengan ti adalah durasi atau waktu antar kejadian dan
(
0 jika i tersensor
i =
1 jika i mendapatkan kejadian (event)
Bentuk likelihood apabila dimungkinkan data tersensor-kanan adalah
n
Y
f (ti , | Xi )i S(ti , | Xi )1i
L()
(5.7)
i=1
50
(5.8)
dengan adalah intersep dan adalah parameter skala, diasumsikan berdistribusi tertentu. Untuk selanjutnya kombinasi linier antara koefisien regresi dengan
nilai variabel independen 1 X1 + 2 X2 + . . . + p Xp ditulis dengan X, dengan
X adalah matriks variabel independen untuk semua individu berdimensi n p,
dan adalah matriks koefisien regresi berdimensi p 1. Untuk keperluan tertentu
kadang model (5.8) dituliskan individual untuk i tertentu sebagai
log(Ti ) = + 1 Xi1 + 2 Xi2 + . . . + p Xip + i
= + Xi + i
(5.9)
Dapat ditunjukkan bahwa Model (5.8) merupakan model AFT dan dapat dinyatakan sebagai (5.1), (5.2) dan (5.3). Untuk menandakan bahwa variabel independen X memodifikasi fungsi survival, densitas dan hazard dalam model AFT,
maka digunakan notasi S(t | X), f (t | X) dan h(t | X).
51
Menurut definisi fungsi survival, S(t | X) model AFT (5.8) dapat dituliskan
sebagai
S(t | X) = P (T > t)
= P (exp( + X + ) > t)
= P (exp( + ) > t exp(X))
(5.10)
(5.11)
Sehingga hubungan antara survival AFT log-linear (5.10) dengan baseline survival
nya (5.11) adalah
S(t | X) = S0 (t exp(X))
(5.12)
(5.13)
(5.14)
(5.15)
Distribusi
extreme value (1 parameter)
extreme value (2 parameter)
log-gamma
logistik
normal
52
(5.16)
n
Y
i=1
=
=
n h
Y
i=1
n
Y
eXi exp(eXi t)
ii
h
i1i
exp eXi t
ei Xi exp(eXi ti )
(5.17)
i=1
dengan Xi = (xi1 xi2 . . . xip ) adalah vektor kovariat untuk masing-masing individu, = (1 . . . p )T adalah parameter regresi.
Contoh 5.3
Menggunakan data Tabel 1.1 pada Contoh 1.7, Bab 1, estimasilah parameter model regresi
survival eksponensial berikut ini,
h(t | x) = exp(0 + X1 1 )
(5.18)
Variabel
se()
Intersep 0 = 2,16 0,218
x1 (6-MP) 1 = 1,53 0,398
Dalam Tabel 5.2, terlihat bahwa pengaruh perlakuan 6-MP adalah negatif terhadap
kambuhnya leukemia, atau pemberian 6-MP mencegah kambuhnya leukemia. Kesimpulan ini sejalan dengan Contoh 4.3 Bab 4, yaitu bahwa perlakuan 6-MP mempunyai nilai
survival yang lebih besar dibandingkan dengan placebo.
53
(5.19)
(5.20)
(5.21)
y X
(5.22)
yang dikenal sebagai fungsi survival distribusi extreme value, dengan paramater
lokasi = X dan parameter skala = 1/.
Fungsi likelihood model (5.22) disusun berdasarkan bentuk umum fungsi likelihood (5.7), yaitu
L(, ) =
n
Y
i=1
n
Y
i
1
y
y
=
exp
exp
i=1
1i
y X
exp exp
.
(5.23)
Paket statistik standar menyediakan fasilitas untuk mengestimasi yang memaksimumkan L(, ). Beberapa paket statistik, misalnya R dengan fungsi survreg()
yang dihasilkan perlu dikalikan dengan 1,
dalam library survival, estimasi
karena spesifikasinya adalah berdasarkan = X, bukan = X.
54
Variabel
se()
Intersep 0 = 2,248 0,166
x1 (6-MP) 1 = 1,267 0,311
Contoh 5.4
Menggunakan data Tabel 1.1 pada Contoh 1.7, Bab 1 (atau merujuk Contoh 5.3) estimasilah parameter model regresi survival Weibull
S(t | X) = exp ((exp(0 + 1 X1 ))t) )
(5.24)
(5.26)
Model regresi log-normal dapat dipandang sebagai model linear log(T ), yaitu
log T = X +
(5.27)
dengan T berdistribusi log-normal dengan fungsi densitas (5.26), dan berdistribusi normal standar.
55
1
1 + (exp(X)t)
(5.28)
Pada suatu titik t0 tertentu, dapat dilihat rasio antara survive dan non-survive
S(t0 | X)
1
=
1 S(t0 | X)
(exp(X)t)
(5.29)
sebagai semacam odds ratio pada response biner. Rasio seperti (5.29) ini dapat
dihitung pada semua t, tergantung titik mana yang menjadi perhatian. Kemudian
apabila diambil log dari rasio tersebut maka akan diperoleh
S(t0 | X)
1
log
= log
1 S(t0 | X)
(exp(X)t)
= [log(exp(X)) + log(t)]
= (X) log(t)
= Xb log(t)
(5.30)
dengan b = .
Model regresi log-logistik merupakan salah satu model yang memenuhi sifat
proportional odds. Yaitu, apabila ada dua kelompok atau individu i dan j yang
berbeda, dan odds ratio keduanya adalah proporsional atau
S(t0 | Xi b)
S(t0 | Xj b)
=
1 S(t0 | Xi b)
1 S(t0 | Xj b)
(5.31)
(5.32)
5.10
Identifikasi Model
Tabel 5.4 adalah ringkasan untuk mengidentifikasi distribusi model survival yang
sesuai, apabila diberikan data survival tertentu. Ringkasan ini untuk data univariat
(tanpa variabel independen) yang dapat menjadi dasar untuk identifikasi model
regresi survival.
56
H(t)
log H(t)
t linear?
Eksponensial
t linear?
Gompertz
log(t)
linear?
Weibull
nonmonotonik
Lognormal
Loglogistik
log(t) linear?
Weibull
t linear
asimtotik?
Distribusi dgn
ekor
eksponensial
Koefisien variasi
1?
< 1?
Gamma, Weibull
Log-normal
Log-logistik
> 1?
Gamma, Weibull
Log-normal
Log-logistik
Compound
exponential
1
]
1 F (t)
Distribusi Weibull
"
#
1
1
1
plot garis lurus antara log t dengan log + log log
1 F (t)
Distribusi Log-normal
plot garis lurus antara log t dengan1 (F (t))
57
Nilai H(t)
juga dapat menggunakan Nelson-Aalen.
5.11
Latihan Bab 5
5.1. Tulislah model AFT untuk model baseline survival dan hazard Weibull!
5.2. Diketahui baseline hazard function h(t) = et , , > 0, t 0.
(a) Tulislah model AFT dari baseline hazard function di atas, dengan satu
variabel penjelas
(
1 jika subyek adalah laki-laki
x=
0 jika subyek adalah perempuan
58
t
1
2
3
5
status
meninggal
meninggal
tersensor-kanan
tersensor-kanan
x1i
2
1
4
8
x2i
1
1
4
8
(b) Buatlah grafik fungsi survival model AFT tersebut untuk masingmasing kelompok laki-laki dan perempuan (dalam satu gambar), jika
diketahui = 0,5
(c) Interpretasikan grafik tersebut!
5.3. Untuk T berdistribusi eksponensial, tunjukkan bahwa fungsi survival AFT
ekivalen dengan fungsi survival parametric proportional hazards (model
proportional hazards dengan h0 (t) konstan).
5.4. Apabila rasio antara dua fungsi hazard h(t | x1 ) dan h(t | x2 ) adalah konstan sepanjang waktu t, maka dikatakan h(t | xj ) adalah Model hazard proporsional (atau PHM : proportional hazard models). Tunjukkan bahwa model
!
p
X
1 (t | x) = (t) exp
j xj
j=1
p
X
j xj
j=1
adalah bukan PHM, jika diketahui (t) bukan fungsi konstan terhadap t.
5.5. Dengan menggunakan model regresi Weibull, estimasilah parameter regresi
h(t | X) = exp(X), dengan T adalah lama waktu sampai rusaknya komponen elektrik dan X adalah voltase, pada data pada Tabel 1.2, Contoh 1.8
Bab 1!
5.6. Diberikan model hazard h(t | x) = 1 x1 + 2 x2 , dengan 1 dan 2 adalah
parameter regresi, T adalah usia meninggal. Dengan mengasumsikan distribusi eksponensial Carilah MLE 1 dan 2 , apabila diberikan data Tabel
5.5 ini dan hitunglah nilainya.
59
Perempuan
100 125 150
3 12
49
7 13
53
8 13
69
12
16
61
12
15
60
8 12
68
11
11
96
5 19
97
5 17
93
9 14
96
5.7. Diberikan data mortalitas (usia kematian) antara 50-59 tahun dan informasi
tekanan darah sistolik untuk laki-laki maupun perempuan seperti pada Tabel
5.6.
(a) Tulislah model AFT Gompertz apabila diberikan x1 adalah 1 jika perempuan, 0 jika laki-laki; x2 adalah tekanan darah.
(b) Estimasilah parameter model AFT Gompertz
5.8. Durasi pemogokan buruh mengikuti model regresi hazard proporsional (parametrik) dengan baseline hazard konstan (berdistribusi eksponensial). Variabel independen yang menjadi perhatian adalah indeks kondisi perburuhan
(terkait Upah minimum, tunjangan, asuransi, dst.). Apabila indeks bernilai
10, mean durasi pemogokan 0,2 tahun. Jika indeks bernilai 25, median durasi pemogokan 0,04 tahun. Berapa peluang akan terjadi pemogokan selama
lebih dari satu tahun jika indeks kondisi perburuhan bernilai 5?
6
Regresi Cox
6.1 Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
6.1. Menjelaskan prinsip Partial Likelihood dalam estimasi parameter model
Regresi Cox
6.2. Melakukan analisis data survival menggunakan model Regresi Cox
6.3. Menjelaskan prinsip metode untuk data ties dalam regresi Cox
6.4. Menjelaskan prinsip stratifikasi dan non-proporsionalitas
(6.1)
60
61
0.3
0.0
0.1
0.2
S(t)
0.4
0.5
0.6
Gambar 6.1: Kurva hazard untuk dua grup atau individu yang berbeda, 1 = 0, 1
dan 2 = 0, 3
independen tidak diperhatikan, atau nilai x = (x1 , . . . , xp ) semuanya sama dengan nol. Hazard dari masing-masing individu termodifikasi secara multiplikatif
oleh karakteristik masing-masing individu, yang diekspresikan dengan (x, ).
Asumsi yang mendasari model ini adalah proporsionalitas. Asumsi ini dapat
digambarkan seperti pada Gambar 6.1. Misalkan ada dua grup atau dua individu
yang masing-masing mempunyai hazard 1 = 0,1 dan 2 = 0,3. Hazard ratio dari
kedua individu ini adalah 2 /1 = 0,3/0,1 = 3. Nilai hazard ratio ini tetap atau
konstan atau proporsional sepanjang waktu. Asumsi hazard ratio yang konstan
inilah yang mendasari Regresi Cox.
Dalam asumsi hazard proporsional, semua individu dianggap mempunyai satu
baseline hazard yang sama yang kemudian nilainya menjadi berbeda atau termodifikasi sesuai karakteristik atau informasi pada masing-masing individu. Dalam
contoh hazard ratio di atas, jika baseline hazard nya adalah h0 (t) = 0,1 maka
individu pertama tidak memodifikasi hazardnya karena 1 = 0,1, tetapi individu
kedua memodifikasi menjadi 2 = 0,3.
Ilustrasi yang lain, misalnya baseline hazard pada satu populasi mengikuti hazard distribusi Weibull dengan parameter dan tertentu. Kemudian ada satu
62
kelompok yang termodifikasi nilai hazard nya menjadi 2 kalinya, sedangkan kelompok yang lain menjadi 0,8 kali nya. Gambar hazard untuk populasi ini adalah
seperti pada Gambar 6.2. Garis utuh adalah baseline hazard h0 (t). Hazard ini
termodifikasi menjadi 2h0 (t) dan menjadi 0,8h0 (t). Meskipun hazardnya menjadi
berbeda namun rasio hazardnya selalu tetap, yaitu 2 untuk kelompok yang pertam
dan 0,8 untuk kelompok yang kedua.
Model hazard proporsional dapat dimodelkan secara paramatrik maupun nonparametrik atau semi-parametrik. Model hazard proporsional semi-parametrik
sering dinamakan sebagai Model regresi Cox. Berikut ini berturut-turut adalah
fungsi hazard, survival dan hazard kumulatif untuk model regresi Cox.
h(t | X) = h0 (t)exp(X)
(6.2)
S(t | X) = S0 (t)exp(X )
(6.3)
(6.4)
kD
exp(xk )
jRk exp(xj )
(6.5)
(6.6)
Data pada Tabel 6.1 dapat di-ilustrasikan seperti Gambar 6.3. Tiap individu
memiliki skor sebagai fungsi dari variabel penjelas yang dimiliki masing-masing.
63
h0(t)
h(t)
2h0(t)
0.8h0(t)
Gambar 6.2: Baseline hazard dan kurva hazard untuk dua grup yang berbeda,
1 = 0, 1 dan 2 = 0, 3
t
5
7
2
4
x
1 2,58
1 1,36
1 -0,54
0 3,30
64
(1) = e2,58
e2,58
e2,58 +e1,36
(2) = e1,36
e1,36
e1,36
(3) = e-0,54
e-0,54
e2,58 +e1,36 +e-0,54 +e3,30
(4) = e3,30
4
waktu
65
2.5
3.0
3.5
4.5
4.0
log.likelihood()
2.0
1.5
1 0.655
(6.7)
e
+ e1,36 + e-0,54 + e3,30 e2,58 + e1,36 e1,36
L() =
66
gai berikut
() =
X
kD
xk
log
kD
exp(xj )
jRk
(6.8)
Turunan pertama dari () atau sering disebut sebagai score function adalah
P
X
X jR x(j)h exp(xj )
Pk
(6.9)
Uh () =
x(k)h
exp(x
)
j
jR
k
kD
kD
exp(x
)
j
jRk
jRk exp(xj )
kD
kD
#
"P
jRk xjh exp(xj )
P
(6.10)
jRk exp(xj )
dengan g, h = 1, . . . , p
Untuk menyederhanakan penulisan didefinisikan
P
jRk x(j)h exp(xj )
P
Akh () =
jRk exp(xj )
(6.11)
(6.12)
(6.13)
kD
67
(k+1)
dan variansinya V(
= I()
1
)
4. Diperoleh estimasi
) (
(k)
Beberapa paket statistik standar seperti SAS, S-PLUS, SPSS, MINITAB, STATA dan R menyediakan fasilitas untuk melakukan estimasi Partial Likelihood seperti tersebut di atas.
(6.15)
0
1
placebo
obat baru
68
6.6. Stratifikasi
maka hazard ratio (HR) untuk hazard obat baru terhadap placebo adalah
h(t | x = 1)
h(t | x = 0)
h0 (t) exp(1 )
=
h0 (t) exp(0 )
= exp()
HR =
Interpretasinya, jika = 0 maka obat baru dan placebo sama efeknya. Namun
jika < 0 maka obat baru memberikan efek yang lebih baik daripada placebo
(resiko kematian lebih rendah). Kemudian jika > 0 obat baru memberikan efek
yang lebih buruk daripada placebo (resiko kematian lebih tinggi)
Secara umum nilai estimasi dapat digunakan untuk mengidentifikasi faktor
resiko (risk factors, prognostic factors) yang berkaitan dengan variabel dependen
time-to-event T .
6.6 Stratifikasi
Stratifikasi dalam model Cox memungkinkan untuk menentukan baseline hazard yang berbeda untuk masing-msing strata namun parameter sama untuk tiap
strata, yaitu
hj (t | x) = h0j exp(x)
(6.16)
(6.17)
69
Wald Test
)T I()(
)
2W = (
0
0
(6.18)
2SC = U( 0 )T I1 ( 0 )U( 0 )
(6.19)
( 0 ))
2LR = 2(()
(6.20)
Score Test
Untuk n cukup besar 2W , 2LR , 2SC berdistribusi Chi-square dengan derajad bebas
p, dengan asumsi H0 benar.
Contoh 6.1
Merujuk ke data contoh 1.9 Bab 1, lakukan analisis data menggunakan regresi Cox.
Jawab: Latar belakang permasalahan dalam data tersebut adalah penelitian terkait
faktor-faktor yang mempengaruhi lama menyusui. Data survival yang menjadi perhatian
adalah lama waktu mulai dari bayi diberi ASI sampai disapih (dihentikannya pemberian
ASI) atau pengamatan berakhir, karena penelitian telah berakhir maupun karena subyek
tidak berpartisipasi lagi dalam penelitian.
Model regresi Cox dapat dimulai dari model yang memuat semua variabel yang menjadi perhatian, kemudian diuji apakah kontribusi masing-masing variabel pada model cukup signifikan dalam menaikkan nilai partial likelihood. Dapat digunakan uji likelihood
ratio untuk membandingkan model yang akan dievaluasi dengan model pada saat awal.
Model regresi Cox dengan semua variabel yang menjadi perhatian adalah sebagai
berikut,
h(t | x) = h0 (t) exp (x1 1 + x2 2 + x3 3 + x4 4 + x5 5 + x6 6 + x7 7 + x8 8(6.21)
)
dengan x1 adalah variabel boneka bentukan dari variabel race, x1 = 1 jika ras kulit
hitam, 0 jika ras putih atau lainnya ; x2 adalah variabel boneka bentukan dari variabel
race, x2 = 1 jika ras lainnya,0 jika ras hitam atau putih; x3 = 1 jika ibu dikategorikan
miskin, 0 jika tidak; x4 = 1 jika ibu merokok, 0 jika tidak; x5 = 1 jika ibu peminum
alkohol, 0 jika tidak; x6 adalah usia ibu saat melahirkan, x7 adalah lama pendidikan; dan
x8 = 1 jika periksa kehamilan setelah bulan ketiga, 0 jika tidak. Menggunakan alat bantu
paket statistik, dapat diperoleh parameter dari partial likelihood model regresi Cox di atas.
Dihitung uji likelihood ratio
( ))
2LR = 2(()
0
(6.22)
70
p-value
0,004084
0,022131
0,001965
0,179693
0,231752
0,015901
0,767215
Untuk melihat kontribusi masing-masing variabel terhadap nilai likelihood, maka setiap variabel diuji dengan likelihood-ratio test. Model dengan variabel penuh (semua
variabel dalam model (6.21)) dibandingkan dengan model yang telah dikurangi satu variabel yang diuji. Misalnya untuk variabel race. Model dengan semua variabel termasuk
race mempunyai log-partial-likelihood -5175.520 (dapat dihitung dengan paket statistik).
Model dengan semua variabel kecuali race mempunyai log-partial-likelihood -5181.021.
Sehingga uji LR untuk race adalah
2LR = 2((5175,520) (5181,021)
= 11,002
(6.23)
dengan Nilai Uji LR seperti pada Tabel 6.3. Hasil estimasi parameter model (6.23) adalah
seperti pada Tabel 6.4.
Model (6.23) dengan uji kebaikan model Tabel 6.3 dan hasil estimasi Tabel 6.4 merupakan model final untuk data ini. Tentu saja masih harus dilihat secara substansi dan
diinterpretasikan nilai koefisien dari masing-masing estimasi parameter.
yang juga meInterpretasi model dapat dilihat selain pada juga pada nilai exp()
rupakan nilai hazard ratio nya. Pada variabel ras, kulit hitam dan lainnya mempunyai
71
0,17835
0,30563
-0,20954
0,26437
-0,03731
exp()
1,19524
1,35748
0,81096
1,30261
0,96338
se()
0,10406
0,09706
0,09233
0,07825
0,01914
hazard ratio yang lebih tinggi dari kulit putih, exp(1 ) > 1 dan exp(2 ) > 1. Hazard
ratio yang lebih besar dari satu berarti kecenderungan untuk berhenti menyusui lebih awal
di kalangan kulit hitam dan lainnya cukup tinggi. Merokok juga mempunyai hazard ratio
yang lebih tinggi dari tidak merokok (4 > 1). Sehingga dapat di-interpretasikan merokok mengakibatkan penhyapihan yang lebih cepat. Sebailknya, kemiskinan, maupun
berpendidikan memperlama penyapihan. Secara substansial, mungkin karena ibu yang
miskin cenderung tidak mampu membeli susu formula dan menggantinya dengan ASI.
Untuk ibu yang berpendidikan barangkali sudah cukup tahu manfaat ASI sehingga lebih
lama dalam memberikan ASI.
Untuk menunjukkan efek variabel penjelas pada survival (lama menyusui dalam contoh ini), dapat digunakan plot estimasi fungsi survival. Misalnya ingin dilihat pengaruh
merokok terhadap lama menyusui. Plot fungsi survival dapat dibuat untuk masing-masing
status merokok (variabel smoke) dengan model
S(t | x) = Sj (t)exp(x ) ,
(6.24)
72
0.6
0.4
estimasi S(t)
0.8
1.0
0.2
bukan perokok
0.0
perokok
20
40
60
80
t (minggu)
73
(b) Ujilah apakah dua kelompok tersebut mempunyai fungsi survival yang
sama dengan menggunakan uji logrank.
6.3. Diketahui data survival sebagai berikut:
grup 1 : 5
1
2
2 7
6
grup 2 : 8+ 10 4+ 4 3+
dengan + adalah tanda untuk data tersensor kanan.
(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan
Nelson-Aalen untuk masing-masing grup
(b) Ujilah bahwa survival grup 2 lebih besar daripada grup 1 dengan
menggunakan logrank test ( = 0,025)
6.4. Tulislah Partial Likelihood L() untuk data soal nomor 3 dengan variabel
independen x adalah grup, yaitu x = 0 jika subyek dari grup 1, dan x = 1
jika subyek berasal dari grup 2, dan adalah koefisien regresi untuk x.
Kemudian hitunglah L( = 2). (Gunakan metode Breslow jika ada ties)
6.5. Merujuk data seperti soal 1.4 Bab 1 (33 pasien leukemia), diberikan model
regresi hazard proporsional h(t | X) = h0 (t) exp(X1 1 +X2 2 ). Diperoleh
estimasi parameter dan standard error nya: 1 = 1,089,
(1 ) = 0,4263
dan 2 = 0,7840,
(2 ) = 0,4994; dengan log-likelihood model tanpa
variabel penjelas (null model) adalah 85,05447 dan log-likelihood ketika mencapai maksimum adalah 79,79271. Interpretasikan hasilnya dan
hitung uji likelihood ratio nya.
6.6. Diketahui data lama hidup 30 orang pasien yang menderita suatu penyakit
tertentu seperti tersebut di bawah, dengan variabel x1 = 1 adalah pasien
berusia lebih dari 50 tahun; dan x2 = 1 adalah pasien dengan tingkat keparahan penyakit tinggi.
(a) Hitunglah estimasi fungsi survival data tersebut dengan menggunakan estimasi Kaplan-Meier (tanpa variabel x1 ,x2 ) dan gambarlah kurva
nya!
(b) Dengan menggunakan paket statistik R diperoleh hasil sebagai berikut:
Call:
coxph(formula = Surv(dur, d) x1 + x2)
coef exp(coef) se(coef)
z
p
x1 1.046
2.85
0.458 2.284 0.022
x2 0.359
1.43
0.440 0.815 0.420
74
Data:
lama hidup
18
9
28+
31
39+
19+
45+
6
8
15
23
28+
7
12
9
x1
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
x2
0
1
0
1
1
1
1
1
1
1
0
0
1
0
0
lama hidup
8
2
26+
10
4
3
4
18
8
3
14
3
13
13
35+
x1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
x2
0
1
0
1
0
0
0
1
1
1
1
0
1
1
0
on 2 df, p=0.0561
n= 30
Interpretasikanlah hasilnya!
(c) Diberikan model regresi hazard proporsional h(t | x) =
h0 (t) exp(x1 1 ). Bila observasi dibatasi hanya untuk t < 5 saja,
tulislah fungsi partial log-likelihood untuk model tersebut!
(d) Diberikan model regresi hazard proporsional hj (t | x) =
h0j (t) exp(x1 1 ), dengan j = 1, 2 adalah strata yang keanggotaan
satu subyek dalam suatu strata ditentukan oleh nilai variabel x2 , yaitu:
menjadi anggota strata 1, jika x2 = 0; menjadi anggota strata 2, jika
x2 = 1. Bila observasi dibatasi hanya untuk t < 5 saja, tulislah fungsi
partial log-likelihood untuk model dengan strata tersebut tersebut!
(e) Jelaskan alasan penggunaan strata dalam model regresi Cox, keuntungan dan kerugiannya bila dibandingkan dengan model tanpa strata
6.7. Tunjukkanlah bahwa Metode ties-adjustment Efron akan sama dengan partial likelihood biasa jika tidak ada ties dalam data!
6.8. Jelaskan mengapa pemodelan dengan stratifikasi terkadang diperlukan dalam regresi Cox, dan sebutkan kerugian stratifikasi jika ada!
75
6.9. Merujuk Soal 7 Bab 4, gunakan regresi Cox untuk menganalisis data mortalitas akibat penyakit kronis tersebut, dan bandingkan hasilnya dengan uji
log-rank
6.10. Merujuk Contoh 1.8 Bab 1, gunakan regresi Cox untuk menganalisis data
pengaruh voltase terhadap kerusakan suatu alat elektrik!
Bibliografi
Cox, D. R. (1972). Regression models and life-tables (with discussion), Journal of the
Royal Statistical Society, Series B, Methodological 34: 187220.
Cox, D. R. (1975). Partial likelihood, Biometrika 62: 269276.
Cox, D. R. and Oakes, D. O. (1984). Analysis of survival data, Chapman & Hall Ltd.
Klein, J. and Moeschberger, M. (2003). Survival analysis: techniques for censored and
truncated data, Statistics for biology and health, Springer.
Lawless, J. (2003). Statistical models and methods for lifetime data, Wiley series in
probability and statistics, Wiley-Interscience.
76