You are on page 1of 83

DIKTAT KULIAH

ANALISIS DATA SURVIVAL

Disusun oleh:
Dr. Danardono, MPH.

PROGRAM STUDI STATISTIKA


JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS GADJAH MADA
Februari 2012

Daftar Isi
Daftar Isi

iii

Daftar Gambar

iv

Daftar Tabel

Kata Pengantar

1 Pendahuluan
1.1 Tujuan Pembelajaran . . . . . . . .
1.2 Data dan Variabel Random Survival
1.3 Data tersensor dan terpotong . . . .
1.4 Latihan Bab 1 . . . . . . . . . . . .

.
.
.
.

1
1
1
3
7

.
.
.
.
.

10
10
10
13
15
16

.
.
.
.
.
.
.
.
.

19
19
19
19
22
22
25
27
28
28

2 Fungsi dan Kuantitas Dasar


2.1 Tujuan Pembelajaran . . .
2.2 Fungsi Survival dan Hazard
2.3 Hubungan antar Fungsi . .
2.4 Survival Diskrit . . . . . .
2.5 Latihan Bab 2 . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.

.
.
.
.
.

3 Metode Parametrik
3.1 Tujuan Pembelajaran . . . . . . . . . .
3.2 Beberapa distribusi parametrik . . . . .
3.2.1 Distribusi Eksponensial . . . .
3.2.2 Distribusi Weibull . . . . . . .
3.2.3 Distribusi Gamma . . . . . . .
3.2.4 Distribusi Log-normal . . . . .
3.2.5 Distribusi Gompertz-Makeham .
3.2.6 Distribusi Log-logistik . . . . .
3.3 Estimasi parameter . . . . . . . . . . .
ii

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.

iii

Daftar Isi

3.4

Latihan Bab 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Metode Non-parametrik dan Uji-LogRank


4.1 Tujuan Pembelajaran . . . . . . . . . .
4.2 Kaplan-Meier . . . . . . . . . . . . . .
4.3 Nelson-Aalen . . . . . . . . . . . . . .
4.4 Membandingkan Dua Fungsi Survival .
4.5 Latihan Bab 4 . . . . . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

5 Model Regresi Parametrik


5.1 Tujuan Pembelajaran . . . . . . . . . . . . .
5.2 Variabel Independen dalam Model . . . . . .
5.3 Model Regresi Parametrik . . . . . . . . . .
5.4 Model Non-Parametrik dan Semi-Parametrik
5.5 Model AFT log-linear . . . . . . . . . . . . .
5.6 Model Regresi Eksponensial . . . . . . . . .
5.7 Model Regresi Weibull . . . . . . . . . . . .
5.8 Model Regresi Log-normal . . . . . . . . . .
5.9 Model Regresi Log-logistik . . . . . . . . . .
5.10 Identifikasi Model . . . . . . . . . . . . . . .
5.10.1 Menggunakan Probability-Plot . . . .
5.10.2 Menggunakan Hazard-Plot . . . . . .
5.11 Latihan Bab 5 . . . . . . . . . . . . . . . . .
6 Regresi Cox
6.1 Tujuan Pembelajaran . . . . . .
6.2 Model dan Asumsi . . . . . . .
6.3 Estimasi parameter . . . . . . .
6.4 Ties dalam Partial Likelihood . .
6.5 Interpretasi Parameter . . . . . .
6.6 Stratifikasi . . . . . . . . . . . .
6.7 Inferensi Parameter Regresi Cox
6.8 Latihan Bab 6 . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

33

.
.
.
.
.

35
35
35
38
41
42

.
.
.
.
.
.
.
.
.
.
.
.
.

45
45
45
46
50
50
52
53
54
55
55
56
57
57

.
.
.
.
.
.
.
.

60
60
60
62
67
67
68
68
72

Daftar Gambar
1.1
1.2
1.3

Representasi data survival . . . . . . . . . . . . . . . . . . . . . .


Alternatif representasi data survival . . . . . . . . . . . . . . . .
Data tersensor (censored) dan terpotong (truncated) . . . . . . . .

2
3
5

2.1
2.2

Fungsi Survival . . . . . . . . . . . . . . . . . . . . . . . . . . .
Fungsi Hazard . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11
12

3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9

Kurva survival dua model eksponensial yang berbeda


Kurva hazard dua model eksponensial yang berbeda .
Kurva survival untuk beberapa model Weibull . . . .
Kurva hazard untuk beberapa model Weibull . . . . .
Kurva hazard untuk beberapa model Gamma . . . . .
Kurva hazard untuk beberapa model Gamma . . . . .
Kurva hazard untuk beberapa model lognormal . . .
Kurva hazard untuk beberapa model lognormal . . .
Nilai MLE dan log-likelihood pada Contoh 3.5. . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

21
21
23
23
24
25
26
26
33

4.1
4.2
4.3
4.4

Ilustrasi Konstruksi Estimator Kaplan-Meier dan Nelson-Aalen


Grafik estimasi Kaplan-Meier Contoh 4.1 . . . . . . . . . . .
Grafik estimasi Nelson-Aalen Contoh 4.2 . . . . . . . . . . .
Plot Kaplan-Meier untuk terapi dan placebo . . . . . . . . . .

.
.
.
.

.
.
.
.

37
38
40
40

5.1
5.2

Plot Fungsi Survival AFT Eksponensial . . . . . . . . . . . . . .


Plot Fungsi Hazard AFT Eksponensial . . . . . . . . . . . . . . .

48
48

6.1
6.2
6.3
6.4
6.5

Kurva hazard untuk dua grup atau individu yang berbeda . . .


Baseline hazard dan kurva hazard untuk dua grup yang berbeda
Ilustrasi untuk Partial Likelihood Data Tabel 6.6 . . . . . . . .
Fungsi Partial Likelihood (6.7) . . . . . . . . . . . . . . . . .
Plot estimasi kurva survival Model (6.24) . . . . . . . . . . .

61
63
64
65
72

iv

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

. .
.
. .
. .
. .

Daftar Tabel
1.1
1.2
1.3
1.4

Relapse pasien leukemia . . . . . . . . . . . . .


Lama waktu sampai rusaknya komponen elektrik
Deskripsi variabel studi tentang penyapihan . . .
Lama kambuh pasien leukemia dan tes AG . . . .

.
.
.
.

.
.
.
.

.
.
.
.

6
6
7
8

4.1
4.2
4.3
4.4

Tabel Estimasi Kaplan-Meier Contoh 4.1 . . . . . . . . . . . .


Tabel estimasi Nelson-Aalen untuk H(t) dan S(t) Contoh 4.2
Estimasi Kaplan-Meier untuk Kelompok Placebo . . . . . . .
Penghitungan untuk Uji log-rank . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

37
39
41
43

5.1
5.2
5.3
5.4
5.5
5.6

Distribusi T dan dalam AFT log-linear


Estimasi Parameter Model (5.18) . . . .
Estimasi Parameter Model (5.24) . . . .
Identifikasi Distribusi . . . . . . . . . .
Data Soal 5.6 . . . . . . . . . . . . . .
Data Soal 5.7 . . . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

51
52
54
56
58
59

6.1
6.2
6.3
6.4

Contoh data survival untuk ilustrasi Partial Likelihood


Uji Likelihood Ratio Model (6.21) . . . . . . . . . . .
Uji Likelihood Ratio Model (6.23) . . . . . . . . . . .
Estimasi parameter Model (6.23) . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

63
70
71
71

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

Kata Pengantar
Matakuliah Analisis Data Survival (2 sks) merupakan matakuliah wajib minat
untuk minat Biostatistika dan minat Aktuaria pada program studi Statistika Jurusan Matematika FMIPA UGM. Matakuliah ini dapat diambil setelah mahasiswa
mengetahui dan memahami dasar serta teknik metode statistik secara umum dan
mampu melakukan analisis statistik dengan beberapa metode tertentu.
Matakuliah ini merupakan gabungan dua matakuliah pada kurikulum 2006
yang isinya dipandang beririsan cukup banyak yaitu Pengantar Uji Hidup dan
Pengantar Analisis Antar Kejadian. Pengantar Uji Hidup lebih menekankan
aspek inferensi univariat dan pembandingan kelompok populasi data lama hidup
(survival) dengan pendekatan parametrik. Pengantar Analisis Antar Kejadian lebih menekankan aspek lebih umum dari data survival, dengan pendekatan parametrik dan semi parametrik untuk data univariat maupun model-model regresi.
Dalam kurikulum 2011, kedua matakuliah tersebut digabung dan berubah nama menjadi Analisis Data Survival, dengan alasan nama ini lebih populer digunakan dalam silabus kuliah yang mengarah ke Biostatistika maupun Aktuaria. Selain itu, materi dalam matakuliah ini disesuaikan dengan kompetensi yang ingin
dicapai pada kedua minat tersebut. Baik minat Biostatistika dan Aktuaria memandang event atau kejadian seperti misalnya kematian, kesakitan, kecelakaan,
bencana, dst., sebagai hal penting yang menjadi perhatian. Pemodelan dan teknik analisis data untuk variabel semacam itu, yang secara umum dinamakan data
survival (data durasi, time-to-event data), adalah tema sentral matakuliah ini.
Terkait pengembangannya, untuk minat Biostatistika, pemodelan faktor resiko data survival akan lebih menjadi perhatian. Sedangkan untuk minat Aktuaria,
model survival akan menjadi dasar dalam penyusunan tabel mortalitas, tabel morbiditas serta penghitungan aktuaria terkait penentuan premi. Selain itu, dalam
kuliah ini juga tidak menutup kemungkinan memberi contoh fenomena lain terkait data survival, seperti misalnya data dalam bidang ilmu rekayasa, sosial dan
ekonomi.
Kuliah Analisis Data Survival disertai dengan kuliah Praktikum Analisis Data
Survival (1 sks) yang diharapkan dapat lebih menambah pemahaman dan komvi

vii
petensi terutama dalam aspek praktis dan komputasinya. Beberapa contoh dan
latihan soal dalam diktat ini diharapkan dapat dicoba dalam kuliah Praktikum.
Diktat ini disusun berdasarkan catatan, tayangan kuliah serta referensi tentang
Analisis Data Survival. Sebagai edisi pertama Diktat tentang Analisis Data Survival, tentu masih banyak kekurangan dan kesalahan dalam diktat ini. Untuk itu
saran dan kritik dari pembaca dan pengguna sangat diharapkan.
Akhir kata penulis mengucapkan terima kasih kepada segala pihak yang telah mendukung penulisan diktat ini, terutama kepada Jurusan Matematika FMIPA
UGM yang telah memberi hibah penulisan diktat ini.
Penulis,

Dr. Danardono, MPH.

1
Pendahuluan
1.1 Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
1. Menjelaskan pengertian data survival atau data antar kejadian (time-to-event
data) beserta contohnya
2. Menjelaskan pengertian data tersensor dan terpotong beserta contohnya
3. Menjelaskan tujuan dan arah analisis data survival
4. Mengidentifikasi bagian-bagian pada RPKPS yang berkaitan dengan Tujuan umum pembelajaran, metode dan proses pembelajaran, penilaian dan
sumber referensi
5. Mengidentifikasi kuliah lain yang terkait dengan analisis data survival

1.2 Data dan Variabel Random Survival


Data survival adalah lama waktu sampai suatu peristiwa terjadi atau data antar
kejadian (time-to-event data). Dalam beberapa bidang ilmu digunakan istilah durasi (durational data) misalnya di bidang ekonomi. Di bidang ilmu perekayasaan
sering disebut data waktu kerusakan (failure time data). Dalam ilmu sosial digunakan istilah event history data. Istilah data survival sendiri banyak digunakan
dalam bidang ilmu kesehatan, epidemiologi, demografi dan aktuaria.
Untuk memperoleh data survival, diperlukan tiga komponen yang harus terdefinisikan dengan jelas terkait fenomena yang menjadi perhatian, yaitu:
1. Definisi event/peristiwa yang menjadi perhatian;
1

1.2. Data dan Variabel Random Survival

origin

event

waktu

Gambar 1.1: Representasi data survival


2. Titik asal (origin) yang digunakan untuk mengukur lama waktu sampai suatu event terjadi;
3. Unit pengukuran yang digunakan
Contoh 1.1
Misalkan fenomena yang menjadi perhatian adalah mortalitas. Dalam contoh ini event didefinisikan sebagai saat meninggalnya seseorang, apabila ditentukan sebagai origin adalah saat kelahiran, maka data survival nya adalah usia kematian, misalnya dalam satuan
tahun.

Tidak selalu event yang menjadi perhatian adalah sesuatu yang terminate, yaitu event yang hanya sekali saja terjadi dan berhenti, seperti misalnya kematian.
Event juga dapat berupa status (state) yang lebih umum, seperti misalnya status
sakit, status pekerjaan, dst.
Contoh 1.2
Misalkan data survival yang menjadi perhatian adalah lama waktu mulai terapi pertama
kali diberikan kepada penderita leukemia sampai kambuh kembali, dalam satuan minggu.
Dalam contoh ini event dapat berulang (kambuh) dan bukan sesuatu yang berhenti dan
hanya sekali terjadi.

Data survival sering diilustrasikan seperti gambar batang korek api (Gambar 1.1) dengan bulatan hitam adalah event dan garis lurus horizontal adalah lama
waktu sampai terjadinya event. Apabila event dipandang sebagai status (state)
yang berubah menurut waktu, dan kadang melibatkan lebih dari satu status, maka dapat digunakan representasi data survival seperti pada Gambar 1.2. Dalam
pengembangannya data survival dapat memuat informasi lebih dari satu status,
sehingga gambaran status yang berbeda terhadap berubahnya waktu dapat ditunjukkan dari sumbu Y yang nilainya berbeda, atau dari jenis garis horizontalnya,
misalnya garis biasa, garis tebal, dan seterusnya.
Data survival merupakan realisasi dari suatu variabel random survival, yaitu
suatu variabel random non-negatif, T , yang menjadi dasar pembentukan model

1.3. Data tersensor dan terpotong

(a) Nilai pada ordinat sebagai representasi status


2
1
0

waktu

(b) Jenis garis sebagai representasi status

waktu

Gambar 1.2: Alternatif representasi data survival


dan metode dalam analisis data survival. Untuk menuliskan suatu nilai T tertentu digunakan lambang t. Misalkan T adalah lama waktu sampai seorang pasien
leukemia kambuh kembali (Contoh 1.2), maka pernyataan lama waktu kambuh
kembali lebih dari 5 minggu dapat dituliskan sebagai T > 5. Dalam Bab 2 akan
dibahas lebih lanjut beberapa macam fungsi terkait variabel random T ini.

1.3 Data tersensor dan terpotong


Salah satu masalah yang sering muncul dalam analisis data survival adalah adanya
pengamatan yang tidak lengkap, yang secara umum dapat dikelompokkan menjadi data tersensor (censored) dan data terpotong (truncated).
Definisi 1.1
Suatu data atau observasi dikatakan tersensor kanan (right-censored) pada titik k apabila nilai observasi yang digunakan adalah t, jika t k; atau k jika
t > k. Apabila k ditentukan (fixed), maka observasi dikatakan tersensor Tipe
I; sedangkan bila banyaknya observasi r yang ditentukan sedemikian sehingga
t(1) t(2) . . . t(r) , maka observasi tersensor Tipe II.
Contoh 1.3
Data tersensor kanan : Suatu eksperimen menggunakan tikus percobaan dilakukan untuk mengetahui seberapa lama tikus dapat hidup setelah pemberian suatu zat yang dapat
mengakibatkan kanker.
Tipe I: Jika saat tersensornya ditentukan lebih dahulu

1.3. Data tersensor dan terpotong

Tipe II: Jika saat tersensornya ditentukan setelah tercapai persentase atau banyak
sampel tertentu yang telah mendapatkan event.

Definisi 1.2
Suatu data atau observasi dikatakan terpotong kiri (left-truncated) pada titik k
apabila data hanya menggunakan nilai observasi t k.
Contoh 1.4
Data terpotong kiri: Suatu studi tentang morbiditas dan mortalitas pegawai pada suatu institusi dilakukan ketika pegawai telah berusia 40 tahun ke atas. Apabila seorang pegawai telah meninggal sebelum berusia 40, dia tidak masuk dalam sampel (lefttruncated).

Definisi 1.3
Suatu data atau observasi dikatakan tersensor kiri (left-censored) pada titik k
apabila nilai observasi yang digunakan adalah t, jika t k; atau k jika t < k.
Contoh 1.5
Data tersensor kiri: Data seperti ini biasanya terjadi pada pengumpulan data yang dilakukan secara retrospektif atau melihat informasi ke belakang. Suatu studi dilakukan
untuk mengetahui faktor-faktor yang mempengaruhi usia pertama kali merokok. Apabila
responden ingat usia saat dia pertama kali merokok, dikatakan observasi yang diperoleh adalah lengkap. Bila responden tidak ingat kapan dia mulai merokok, tapi hanya
ingat mulai merokok sebelum usia tertentu, maka dikatakan observasi tersebut tersensor
kiri.

Definisi 1.4
Suatu data atau observasi dikatakan terpotong kanan (right-truncated) pada titik
k apabila data hanya menggunakan nilai observasi t k.
Contoh 1.6
Data terpotong kanan: Data ini juga biasa terjadi pada pengumpulan data retrospektif. Suatu studi tentang AIDS dilakukan secara retrospektif. Yang menjadi perhatian
adalah durasi mulai infeksi HIV sampai terdiagnosis AIDS. Hanya individu yang telah
terdiagnosis AIDS sebelum mulai studi saja yang akan masuk dalam studi. Individu
yang belum terdiagnosis AIDS tidak masuk dalam studi adalah sampel yang terpotong
kanan.

Pada Gambar 1.3 dapat dilihat perbedaan keempat jenis data tidak lengkap seperti yang telah dijelaskan di muka. Pada Gambar tersebut, bagian yang diarsir
adalah periode pada saat mana observasi tidak lengkap (unobserved). Observasi

1.3. Data tersensor dan terpotong


terpotong-kiri

tersensor-kanan

tersensor-kiri

terpotong-kanan

t (waktu)

t (waktu)

Gambar 1.3: Data tersensor (censored) dan terpotong (truncated)


tersensor kanan sering dikatakan tersensor dari atas, karena bagian yang tersensor adalah bagian paling kini secara kronologis (atas). Demikian juga observasi
yang terpotong kanan sering disebut terpotong dari atas. Sebaliknya Observasi
tersensor kiri dan terpotong kiri sering disebut tersensor dari bawah dan terpotong dari bawah, karena bagian yang tersensor atau terpotong adalah pada bagian
awal (bawah).
Penyensoran (censoring) pada suatu pengamatan akan berakibat ketidaklengkapan informasi lama-waktu atau durasi pada data yang diperoleh. Sedangkan Pemotongan (truncation) akan berakibat pada terambil atau tidaknya suatu subyek
sebagai sampel, selain ketidaklengkapan informasi pada durasi. Sebagai contoh,
data lama hidup tikus Contoh 1.3. Apabila penelitian dihentikan pada suatu waktu
(sensor Tipe I), maka informasi yang tidak lengkap hanya terjadi pada tikus-tikus
yang masih hidup. Namun pada Contoh 1.4, pegawai yang meninggal sebelum
berusia 40 tahun akan tidak terambil sebagai sampel. Dengan kata lain, observasi
yang terpotong (meninggal sebelum usia 40) mempengaruhi keterambilan subyek
sebagai sampel. Akibat yang sama terjadi pula untuk tersensor kanan dan terpotong kanan.
Berikut adalah beberapa contoh data survival yang diperoleh dari permasalahan aplikasi yang berbeda, yaitu dalam bidang ilmu kesehatan, ilmu perekayasaan
dan ilmu sosial.
Contoh 1.7
Diperoleh data dari studi tentang pasien leukemia (Cox and Oakes, 1984) seperti pada
Tabel 1.1. Event yang perhatian dalam studi ini adalah relapse (kekambuhan kembali)
dari 42 pasien leukemia anak-anak yang pada awal studi telah dianggap sembuh (remission). Pasien mendapatkan perawatan berupa 6-MP (6-mercaptopurine) dan placebo.

1.3. Data tersensor dan terpotong

Tabel 1.1: Relapse pasien leukemia


Perawatan lama waktu (bulan) sampai kambuh
6-MP :
6, 6, 6, 7, 10, 13, 16, 22, 23, 6+, 9+, 10+, 11+, 17+, 19+,
20+, 25+, 32+, 32+, 34+, 35+
Placebo:
1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22,
23
tanda + menunjukkan data tersensor kanan

Tabel 1.2: Lama waktu sampai rusaknya komponen elektrik


voltase (kV)
26
28
30
32
34

36
38

lama waktu (menit) sampai rusak


5,79; 1579,52; 2323,7
68,85; 426,07; 110,29; 108,29; 1067,6
17,05; 22,66; 21,02; 175,88; 139,07; 144,12; 20,46;
43,40; 194,90; 47,30; 7,74
0,40; 82,85; 9,88; 89,29; 215,10; 2,75; 0,79; 15,93;
3,91; 0,27; 0,69; 100,58; 27,80; 13,95; 53,24
0,96; 4,15; 0,19; 0,78; 8,01; 31,75; 7,35; 6,50; 8,27;
33,91; 32,52; 3,16; 4,85; 2,78; 4,67; 1,31; 12,06; 36,71;
72,89
1,97; 0,59; 2,58; 1,69; 2,71; 25,50; 0,35; 0,99; 3,99;
3,67; 2,07; 0,96; 5,35; 2,90; 13,77
0,47; 0,73; 1,40; 0,74; 0,39; 1,13; 0,09; 2,38

Contoh 1.8
Suatu percobaan dilakukan untuk meneliti pengaruh voltase terhadap kerusakan suatu
alat elektrik (Lawless, 2003). Diperoleh data seperti pada Tabel 1.2. Dalam penelitian
ini semua sampel diamati sampai semuanya rusak, tidak ada censoring dalam data ini.
Terlihat bahwa semakin tinggi voltase, lama sampai suatu komponen rusak semakin cepat.
Voltase normal untuk komponen ini adalah 20kV.
Contoh 1.9
Suatu studi di Amerika dilakukan untuk mengetahui faktor-faktor yang mempengaruhi
lama menyusui, atau saat penyapihan (weaning) (Klein and Moeschberger, 2003). Dari
927 bayi yang disusui oleh ibunya, beberapa pertanyaan diajukan seperti pada Tabel 1.3.
Data untuk contoh ini dapat dikopi saat praktikum.

1.4. Latihan Bab 1

Tabel 1.3: Deskripsi variabel studi tentang penyapihan


Variabel
duration
delta

Deskripsi
Lama menyusui (minggu)
Indikator penyapihan

race

Ras dari ibu

poverty
smoke
alcohol
agemth
ybirth
yschool
pc3mth

Ibu dikategorikan miskin


Ibu adalah perokok saat melahirkan
Ibu adalah peminum saat melahirkan
Usia ibu saat melahiran (tahun)
Tahun kelahiran
Tingkat (lama) pendidikan (tahun)
Pemeriksaan kehamilan setelah bulan ketiga

kode
1=disapih
0=belum
1=kulit putih
2=kulit hitam
3=lainnya
1=ya, 0=tidak
1=ya, 0=tidak
1=ya, 0=tidak

1=ya, 0=tidak

1.4 Latihan Bab 1


1.1. Berikan contoh data survival dari fenomena yang menarik perhatian saudara, minimal dua contoh! Definisikan origin (titik asal), event yang menjadi
perhatian dan unit waktu yang digunakan. Kemudian tambahkan variabel
lain yang mungkin menjadi perhatian.
1.2. Apa tujuan utama dari analisis data survival?
1.3. Sebutkan matakuliah dalam program studi Statistika yang terkait dengan
analisis data survival!
1.4. Pencatatan peristiwa demografis di kelurahan atau kecamatan (vital statistics) berupa kelahiran, kematian dan pindah masuk maupun keluar daerah
pada dasarnya adalah data survival. Sebutkan titik asal, event dan unit waktu yang mungkin menjadi perhatian dalam konteks ini! Apakah ada kemungkinan observasi tidak lengkap (tersensor, terpotong) dalam pencatatan
peristiwa demografis tersebut?
1.5. Eksperimen survival/sacrifice adalah suatu cara penelitian untuk mengetahui apakah suatu zat tertentu atau karsinogen tertentu mempercepat terjadinya tumor pada binatang percobaan. Dalam eksperimen seperti ini, setiap
binatang percobaan diberi dosis suatu karsinogen tertentu dan dilihat ada
tidaknya tumor pada saat meninggal dengan otopsi. Apabila kita tertarik

1.4. Latihan Bab 1

Tabel 1.4: Lama kambuh pasien leukemia dan tes AG


ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

AG positive
WBC waktu
0.0230
65
0.0075
156
0.0430
100
0.0260
134
0.0600
16
0.1050
108
0.1000
121
0.1700
4
0.0540
39
0.0700
143
0.0940
56
0.3200
26
0.3500
22
1.0000
1
1.0000
1
0.5200
5
1.0000
65

ID
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33

AG negative
WBC waktu
0.044
56
0.030
65
0.040
17
0.015
7
0.090
16
0.053
22
0.100
3
0.190
4
0.270
2
0.280
3
0.310
8
0.260
4
0.210
3
0.790
30
1.000
4
1.000
43

ID adalah nomor identitas pasien

pada lama waktu sejak diberi karsinogen sampai terkena tumor, permasalahan data tidak lengkap apa saja yang mungkin terjadi?
1.6. Tanpa menggunakan metode yang nanti akan dipelajari dalam analisis data
survival, lakukan analisis data untuk Contoh 1.7 dan Contoh 1.8! (Misalnya
dengan ANOVA atau Regresi). Kesimpulan apa yang dari analisis data yang
saudara lakukan?
1.7. Mengapa data yang tersensor dalam data survival tidak seharusnya dibuang?
Jelaskan!
1.8. Berikan masing-masing satu contoh permasalahan atau fenomena yang dapat dipandang sebagai data survival dan kemungkinan terdapat observasi
tidak lengkap sebagai berikut: (1) tersensor-kanan; (2) terpotong-kiri; (3)
tersensor-kiri; (4) terpotong-kanan!
1.9. Tabel 1.4 adalah data lama hidup 33 pasien leukemia (dalam minggu), banyaknya sel darah putih (WBC, dalam satuan 100.000 sel); dan hasil tes
karakteristik morfologis darah putih (AG positive atau AG negative).

1.4. Latihan Bab 1

(a) Bila observasi tersensor-kanan pada titik 4 minggu, tuliskan pasien


mana saja (ID-nya) yang teramati (observed)
(b) Bila observasi terpotong-kanan pada titik 4 minggu, tuliskan pasien
mana saja (ID-nya) yang teramati (observed)
(c) Bila pasien terambil sebagai sampel hanya untuk yang kambuh setelah
12 minggu, jenis data tidak lengkap apa terjadi situasi ini? Tuliskan
pasien mana saja (ID-nya) yang teramati (observed)
(d) Bila penelitian menghendaki pasien adalah yang belum kambuh pada titik 5 minggu saja, dan penelitian berakhir 60 minggu kemudian,
pasien mana saja yang terambil sebagai sampel dan bagaimana status
kambuh tidaknya pasien pada akhir penelitian?

2
Fungsi dan Kuantitas Dasar
2.1 Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
2.1. Menjelaskan fungsi survival, hazard, hazard kumulatif dan hubungannya
diantara mereka dan dengan fungsi probabilitas dan fungsi distribusi
2.2. Menjelaskan beberapa contoh model survival
2.3. Menginterpretasikan fungsi survival, hazard, hazard kumulatif dalam suatu
konteks aplikasi tertentu
2.4. Memberi contoh dan menjelaskan perluasan fungsi survival untuk keperluan aplikasi tertentu

2.2 Fungsi Survival dan Hazard


Seperti yang telah dikemukakan pada Bab 1, dasar dari model dan metode dalam
analisis data survival adalah variabel random survival T . Untuk mendeskripsikan
suatu variabel random dalam bentuk eksplisit yang berupa model matematika,
digunakan fungsi variabel random tersebut, misalnya berupa fungsi distribusi dan
fungsi probabilitas. Dalam analisis data survival, fungsi variabel random yang
menjadi perhatian adalah fungsi survival dan fungsi hazard.
Fungsi survival adalah probabilitas satu individu hidup (survive) lebih lama
daripada t
S(t) = P (T > t).
(2.1)
Fungsi S(t) merupakan fungsi adalah fungsi non-increasing terhadap waktu t dengan sifat S(0) = 1 dan limt S(t) = 0.
10

11

0.0

0.2

0.4

S(t)

0.6

0.8

1.0

2.2. Fungsi Survival dan Hazard

0.0

0.5

1.0

1.5

2.0

2.5

Gambar 2.1: Fungsi Survival


Contoh fungsi survival dapat dilihat pada Gambar 2.1. Fungsi survival dapat
diinterpretasikan sebagai proporsi individu yang hidup dari sekelompok cohort
(angkatan). Pada awal lahirnya cohort tersebut proporsi yang hidup besar (mendekati satu). Seiring waktu berjalan proporsi yang hidup dari cohort tersebut akan
berkurang sampai akhirnya semua meninggal (proporsi mendekati nol).
Contoh 2.1
Misalkan T adalah lama waktu sampai seorang pasien leukemia kambuh kembali (Contoh 1.2) dalam satuan minggu, maka S(5) = P (T > 5) dapat diinterpretasikan sebagai
probabilitas lama waktu kambuh kembali lebih dari 5 minggu. Kalau tidak kambuh dipandang sebagai survive, maka peluang survival nya adalah S(5).

Fungsi variabel random lain yang cukup penting adalah fungsi hazard yang
didefinisikan sebagai
P (t T < t + t | T t)
t0
t

h(t) = lim

(2.2)

yang dapat diinterpretasikan sebagai tingkat (rate) terjadinya suatu event. Sebagai contoh, fungsi hazard dapat dilihat pada Gambar 2.2. Fungsi hazard yang

12

h(t)

2.2. Fungsi Survival dan Hazard

0.0

0.5

1.0

1.5

2.0

Gambar 2.2: Fungsi Hazard


berbentuk U seperti ini biasanya menunjukkan resiko kematian pada makhluk hidup secara biologis. Pada usia muda, tingkat atau resiko kematian tinggi. Resiko
berkurang setelah dewasa, namun kembali bertambah setelah mendekati usia tua.
Ada banyak bentuk fungsi hazard yang merujuk pada suatu distribusi tertentu.
Fungsi hazard bukan probabilitas, sehingga dimungkinkan nilainya lebih dari satu.
Batasan yang dikenakan pada fungsi hazard hanyalah h(t) 0.
Integral dari fungsi hazard h(t) adalah fungsi hazard kumulatif
Z t
H(t) =
h(x)dx
(2.3)
0

yang hubungan fungsionalnya dengan S(t) cukup penting sebagai dasar dalam
pemodelan data survival.
Fungsi S(t), h(t), H(t) dan f (t) merupakan fungsi yang bergantung pada
waktu t. Kadang diperlukan fungsi yang hasilnya berupa nilai waktu t dengan diberikan probabilitas atau kuantitas yang lain. Misalnya dalam penghitungan median. Median adalah nilai tengah, yaitu jika t0,5 adalah median, maka S(t0,5 ) = 0,5.
Secara umum diperlukan fungsi yang dapat digunakan mencari median atau titik
waktu yang lain dengan diberikan probabilitas yang dinamakan fungsi kuantil.
Fungsi kuantil adalah
tp = S 1 (p),

0<p<1

(2.4)

13

2.3. Hubungan antar Fungsi

atau
tp = F 1 (p),

0<p<1

(2.5)

Nilai tp sering disebut sebagai kuantil ke-p, jadi median adalah kuantil ke- 12 .
Kuantitas lain yang penting adalah mean dan variansi T , yaitu
Z
E(T ) =
S(t)dt
(2.6)
0

dan
var(T ) = 2

tS(t)dt E(T )2

(2.7)

2.3 Hubungan antar Fungsi


Fungsi survival S(t) dapat diturunkan dari distribusi kumulatif F (t) sebagai berikut:
S(t) = 1 F (t)
(2.8)

Sedangkan fungsi hazard h(t) dapat dituliskan sebagai


h(t) =

f (t)
,
S(t)

(2.9)

dengan menggunakan definisi probabilitas bersyarat,


P (t T < t + t | T t) = P (t T < t + t)/P (T t)
= P (t T < t + t)/S(t),
(2.10)
Menurut definisi fungsi densitas limt0 P (t T < t + t)/ adalah f (t),
sehingga dapat diperoleh (2.9).
Untuk distribusi kontinu
S (t)
S(t)
d log S(t)
=
,
dt

h(t) =

(2.11)

Karena S(0) = 1,
 Z t

S(t) = exp
h(u)du
0

= exp(H(t)),

(2.12)

14

2.3. Hubungan antar Fungsi

atau H(t) = log(S(t)). Dari sini dapat diperoleh pula hubungan antara fungsi
densitas, hazard dan hazard kumulatif sebagai berikut
f (t) = h(t) exp[H(t)]

(2.13)

Karena fungsi survival harus memenuhi S(t) = exp(H(t)), dapat disimpulkan H(t) < untuk t > 0, dan limt H(t) = .
Dengan mengetahui hubungan antar fungsi variabel random survival, apabila
satu jenis fungsi diketahui, fungsi yang lain dapat diketahui pula.
Contoh 2.2
Diketahui fungsi hazard konstan h(t) = . Carilah bentuk fungsi survival, fungsi densitas
dan fungsi hazard kumulatif distribusi ini.
Jawab:
Rt
Diketahui, h(t) = . Menggunakan hubungan H(t) = 0 h(x)dx dapat dicari
Z t
H(t) =
dx = [x]t0
0

= t.

Kemudian menggunakan hubungan S(t) = exp(H(t)), dan f (t) = h(t)S(t) dapat


dicari
S(t) = exp(H(t)) = exp(t)
dan
f (t) = exp(t).
Distribusi ini dikenal sebagai distribusi eksponensial, yaitu distribusi dengan fungsi hazard konstan. Bersama dengan distribusi-distribusi yang lain, distribusi eksponensial akan
dipelajari lebih jauh pada Bab 3.

Dalam pemodelan survival, fungsi hazard mempunyai kelebihan dibandingkan fungsi survival maupun fungsi densitas, terutama terkait kondisi bersyarat karena observasi yang terpotong. Misalkan untuk terpotong-kiri, peluang seorang
individu survive dengan diketahui dia masih survive sampai waktu k adalah
S(t | T > k) = P (T > t | T > k),
S(t)
=
.
S(k)

t>k

Demikian pula untuk fungsi densitas, kondisional terhadap survival sampai waktu
k, adalah f (t)/S(k). Namun tidak demikian dengan fungsi hazard, karena fungsi
hazard menurut definisi fungsi hazard (2.10) sudah bersyarat T > k, sehingga
fungsi hazard tetap h(t) dan tidak terpengaruh observasi terpotong. Kenyataan
ini bermanfaat dalam pemodelan survival, sehingga banyak model survival yang
dikembangkan dari fungsi hazard, misalnya model regresi proportional hazard.

15

2.4. Survival Diskrit

2.4 Survival Diskrit


Bila T merupakan suatu variabel random diskret dengan nilai x1 < x2 < . . .
dengan fungsi probabilitas
f (xi ) = P (T = xi ),

i = 1, 2, . . .

(2.14)

fungsi survivalnya adalah


X

S(t) =

f (xj )

(2.15)

j|xj >t

= f (xj ) + f (xj+1 ) + . . .

(2.16)

yang merupakan fungsi kontinu dari kiri (left-continuous) dan fungsi tangga yang
tak-naik (non-increasing step function) dengan S(0) = 1 dan S() = 0
Fungsi hazard pada xj didefinisikan sebagai probabilitas kondisional subyek
mendapatkan event pada saat xj dengan diberikan subyek belum mendapatkan
event tepat sebelum xj
h(xj ) = P (T = xj | T xj )
f (xj )
=
j = 1, 2, . . .
S(xj )
Karena f (xj ) = S(xj ) S(xj+1 ),
f (xj )
S(xj )
S(xj ) S(xj+1 )
=
S(xj )
S(xj+1 )
= 1
S(xj )

h(xj ) =

(2.17)

sehingga
S(t) =

(1 h(xj )) .

(2.18)

Fungsi hazard kumulatif untuk T diskrit adalah


X
H(t) =
log(1 hj )

(2.19)

j|xj <t

j|xj <t

sehingga hubungan S(t) dengan H(t) seperti persamaan (2.12)Pmasih berlaku.


Satu alternatif untuk fungsi hazard kumulatif adalah H(t) =
j|xj <t hj , yang
nilainya didekati oleh (2.19) untuk hj cukup kecil.

16

2.5. Latihan Bab 2


Contoh 2.3
Variabel random survival diskrit T mempunyai fungsi probabilitas
1
f (t) = P (t = k) = ,
3

k = 1, 2, 3

Fungsi survivalnya adalah


S(t) =

f (xj )

j|xj >t

2/3
=

1/3

jika
jika
jika
jika

0 t < 1,
1 t < 2,
2 t < 3,
t 3.

Untuk T diskrit, S(t) berupa fungsi tangga yang tak-naik. Fungsi hazard T adalah
f (xj )
S(xj )

1/3 untuk j = 1

1/2 untuk j = 2
=

1
untuk j = 3

0
yang lain.

h(xj ) =

Untuk variabel random survival diskrit, fungsi hazard akan bernilai nol, kecuali pada titiktitik di mana event dapat terjadi.

2.5 Latihan Bab 2


2.1. Distribusi survival didefinisikan sebagai S(t) = 0,10(100 t)1/2 pada domain 0 t 100, tentukan nilai f (36) dan h(50)!
2.2. Jika diketahui S(t) = 0,2(25 t)1/2 pada domain 0 t 25, tentukan
nilai hazard kumulatif H(16)!
2.3. Diketahui fungsi hazard h(t) = a + bt, a > 0 dan b > 0, tentukan nilai
S(t)!
2.4. Tunjukkan mengapa S(t) dari fungsi hazard h(t) = ert , r > 0 bukan
merupakan fungsi survival:
2.5. Untuk variabel random durasi (interval antar kejadian) kontinu T , dengan
fungsi survival S(t):

17

2.5. Latihan Bab 2

(a) Tunjukkan bahwa E(T ) =

R
0

S(t)dt

(b) Tunjukkan bahwa E(T ) = r(0) (soal no. 2(a)), dengan


r(t) = E(T t | T t)
yang sering disebut sebagai expected residual life atau mean residual
life pada saat t
2.6. Suatu variabel random survival kontinu T diketahui mempunyai expected
residual life (Lihat soal no. 2.5) r(t) = t + 10.
(a) Carilah mean T
(b) Carilah h(t)
(c) Carilah S(t)
2.7. Diketahui T berdistribusi Uniform
(
1/ untuk 0 t
f (t) =
0
t yang lain
(a) Hitung fungsi survival S(t)
(b) Hitung fungsi hazard h(t)
(c) Hitung fungsi expected (mean) residual-life r(t)
2.8. Buktikan persamaan (2.6) dan (2.7), jika diberikan E(T ) =
dan var(T ) = E(T 2 ) E(T )2 .

tf (t)dt

2.9. Diketahui fungsi survival S(t) = exp(t ), carilah fungsi densitas dan
fungsi hazardnya!
2.10. Tunjukkan bahwa jika fungsi hazard suatu variabel random survival adalah
(t)1 exp [(t) ]
fungsi survivalnya adalah
exp { [exp((t) ) 1]}
2.11. Tunjukkan bahwa untuk variabel random survival diskret
Y
S(t) =
(1 h(xj ))
j|xj <t

18

2.5. Latihan Bab 2

2.12. Diketahui T adalah variabel random diskrit berdistribusi Geometrik


f (t) = (1 )t1 ,

t = 1, 2, . . .

(a) Carilah fungsi survival T


(b) Carilah fungsi Hazard T
2.13. Diketahui distribusi Poisson dengan fungsi probabilitas
P (T = k) = e

k
,
k!

k = 0, 1, . . . .

Tunjukkan fungsi hazard-nya naik monoton.


2.14. Suatu model yang digunakan dalam Tabel Mortalitas adalah model piecewise constant hazard rate. Dalam model ini waktu dibagi dalam k interval
[j1 , j ), j = 1, 2, . . . , k dengan k = . Fungsi hazard dalam interval
ke-j berupa konstan j , atau

2
h(t) = ...

k1

Carilah fungsi survival model ini!

0 t < 1
1 t < 2
k2 t < k1
t k1

3
Metode Parametrik
3.1 Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
3.1. Menyebutkan beberapa model distribusi parametrik variabel random survival
3.2. Menyebutkan dan menjelaskan aplikasi atau fenomena data survival yang
mengikuti distribusi parametrik tertentu
3.3. Melakukan estimasi parameter model distribusi variabel random survival
3.4. Menggunakan model distribusi variabel random survival
3.5. Mengidentifikasi distribusi yang sesuai jika diberikan suatu set data survival

3.2 Beberapa distribusi parametrik


3.2.1 Distribusi Eksponensial
Distribusi eksponensial mempunyai sifat pelupa (lack of memory) yang berarti
bahwa probabilitas survive ke depan tidak terpengaruh oleh kondisi survive sekarang. Hal ini ditunjukkan oleh fungsi hazard nya yang berupa konstan, yaitu
h(t) =

(3.1)

Hazard yang konstan ini sebenarnya tidak cukup realistis untuk memodelkan fenomena terkait data survival. Namun model dengan distribusi Eksponensial ini

19

3.2. Beberapa distribusi parametrik

20

dipandang cukup baik dan sederhana sebelum melihat model lain yang mungkin
lebih baik namun mungkin juga lebih rumit.
Model dengan reparameterisasi = 1/ kadang sering juga digunakan. Perbedaannya adalah dalam interpretasi terkait fungsi hazardnya. Untuk event seperti
kerusakan atau kematian, diinterpretasikan sebagai tingkat resiko (hazard rate)
dengan satuan kerusakan per satu satuan waktu, sedangkan = 1/ adalah lama
waktu sampai satu kerusakan.
Dengan terlebih dahulu mencari fungsi hazard kumulatifnya yaitu H(t) =
t, fungsi survival dapat dicari melalui hubungan antara H(t) dan S(t), sebagai
berikut
S(t) = exp(t)

(3.2)

Fungsi densitas distribusi eksponensial dengan parameter > 0 dapat dirumuskan dari h(t) dan S(t) di muka, yaitu
f (t) = h(t)s(t)
= exp(t)

(3.3)

Distribusi eksponensial mempunyai mean 1/, variansi 1/2 dan median


(1/) log(2). Sebagai contoh kurva survival untuk eksponensial dapat dilihat pada Gambar 3.1. Gambar fungsi hazard yang bersesuaian dengan fungsi survival
Gambar 3.1 adalah seperti pada Gambar 3.2.
Contoh 3.1
Pada label lampu pijar proyektor LCD tertulis lama hidup lampu pijar adalah 2000 jam
pemakaian. Kita asumsikan lama hidup lampu pijar berdistribusi eksponensial.
a) Apabila 2000 jam tersebut kita interpretasikan sebagai median lama hidup, hitung
berapa probabilitas lampu pijar tersebut masih hidup setelah 2500 jam pemakaian?
b) Apabila 2000 jam tersebut kita interpretasikan sebagai mean lama hidup, hitung
berapa probabilitas lampu pijar tersebut masih hidup setelah 2500 jam pemakaian?
Jawab:
a) Median distribusi eksponensial 1 log(2) = 2000, sehingga dapat dihitung =
log(2)/2000 = 0,000347 kerusakan per jam. Probabilitas masih hidup setelah
2500 jam pemakaian, S(2500) = exp(0,000347 2500) = 0,420
b) Mean distribusi eksponensial 1/ = 2000, jadi = 0,0005 kerusakan per jam.
Probabilitas masih hidup setelah 2500 jam pemakaian, S(2500) = exp(0,0005
2500) = 0,287

21

0.4

S(t)

0.6

0.8

1.0

3.2. Beberapa distribusi parametrik

= 0.1

0.0

0.2

= 0.3

10

20

30

40

0.3

= 0.3

0.2

h(t)

0.4

0.5

0.6

Gambar 3.1: Kurva survival untuk model eksponensial dengan dua nilai yang
berbeda

0.0

0.1

= 0.1

10

20

30

40

Gambar 3.2: Kurva hazard untuk model eksponensial dengan dua nilai yang
berbeda

3.2. Beberapa distribusi parametrik

22

3.2.2 Distribusi Weibull


Distribusi Weibull merupakan perluasan dari distribusi eksponensial yang pada
awalnya digunakan untuk meneliti kekerasan atau ketahanan suatu material. Distribusi Weibull dengan parameter bentuk (shape parameter) > 0 dan parameter
skala (scale parameter) > 0 mempunyai fungsi hazard yang bergantung waktu
sebagai berikut
h(t) = (t)1

(3.4)

Fungsi survival dan fungsi densitas Weibull adalah


S(t) = exp((t) )

(3.5)

f (t) = (t)1 exp((t) )

(3.6)

Untuk kasus = 1 distribusi Weibull sama dengan eksponensial dengan parameter . Mean dan variansi distribusi ini berturut-turut
(1 + 1/)

dan
 



1
2
1
2
1+
1+
2

Kurva survival dan kurva hazard untuk model Weibull dapat dilihat pada Gambar 3.3 dan 3.4. Distribusi Weibull banyak digunakan dalam bidang reliabilitas
dan studi mortalitas.

3.2.3 Distribusi Gamma


Distribusi Gamma mempunyai
parameter , > 0, dengan mean E(t) = /

dan koefisien variasi 1/ . Parameter 1 sering disebut parameter skala (scale)


dan adalah indeks atau parameter bentuk (shape) Fungsi densitas, hazard dan
survivalnya adalah sebagai berikut
f (t) =

(t)1 exp(t)
()

h(t) = f (x)/S(x)

(3.7)

(3.8)

23

0.2

0.4

S(t)

0.6

0.8

1.0

3.2. Beberapa distribusi parametrik

0.0

=4

= 0.1
=2
2

=1
3

Gambar 3.3: Kurva survival untuk model Weibull dengan beberapa nilai yang
berbeda dan satu nilai tertentu

=2

=1

h(t)

=4

= 0.1

Gambar 3.4: Kurva hazard untuk model Weibull dengan beberapa nilai yang
berbeda dan satu nilai tertentu

24

= 0.4

1.0

h(t)

1.5

2.0

3.2. Beberapa distribusi parametrik

0.5

=2

0.0

=4

Gambar 3.5: Kurva fungsi hazard untuk model Gamma dengan beberapa nilai
yang berbeda dan = 1
1
S(t) = 1 I(t, ) = 1
()

u1 eu du

(3.9)

Secara praktis penggunaan fungsi Gamma agak terbatas karena bentuk eksplisit fungsi survivalnya yang rumit memuat integral fungsi Gamma tidak-lengkap.
Fungsi Gamma dengan = 1 adalah sama dengan distribusi Eksponensial().
Distribusi Gamma dengan parameter = 1 dikenal dengan Gamma satu parameter dan mempunyai fungsi densitas sebagai berikut
f (t) =

t1 exp(t)
()

(3.10)

Jika T berdistribusi Gamma (3.7), maka T akan berdistribusi Gamma satu parameter . Kemudian bila Y berdistribusi Gamma satu parameter , maka 2Y
berdistribusi 2 (Chi kuadrat) dengan derajat bebas 2k.
Gambar fungsi densitas dan fungsi hazard untuk = 1 dan berbagai nilai
dapat dilihat pada Gambar 3.5 dan Gambar 3.6.
Seperti halnya distribusi Weibull, distribusi Gamma diawali dari permasalahan
dalam bidang perekayasaan (engineering) dan ketahanan material. Aplikasinya
kemudian ke bidang yang lain seperti industri dan model mortalitas.

25

0.4
0.2

f(t)

0.6

3.2. Beberapa distribusi parametrik

=4
=2

0.0

= 0.4
0

Gambar 3.6: Kurva fungsi densitas untuk model Gamma dengan beberapa nilai
yang berbeda dan = 1

3.2.4 Distribusi Log-normal


Variabel random survival T berdistribusi log-normal apabila transformasi variabel
log(T ) berdistribusi normal. Distribusi log-normal dengan paramater > 0, t
0) mempunyai fungsi densitas, hazard dan survival sebagai berikut


1
exp 2 (log(t) )2
f (t) =
2
t 2
1

h(t) = f (x)/S(x)

S(t) = 1

log(t)

(3.11)

(3.12)

(3.13)

dengan (x) adalah fungsi distribusi kumulatif Normal Standar.


Distribusi log-normal mempunyai mean E(t) = exp( + 2 /2) dan variansi
[exp( 2 ) 1] [exp(2 + 2 )], bukan dan seperti dalam distribusi normal.
Gambar fungsi densitas dan fungsi hazard untuk = 0 dan berbagai nilai
dapat dilihat pada Gambar 3.7 dan Gambar 3.8.

26

3.2. Beberapa distribusi parametrik

h(t)

= 0.25

= 0.5

= 1.5

2.0

Gambar 3.7: Kurva fungsi hazard untuk model lognormal dengan beberapa nilai
yang berbeda dan = 0

1.0
0.5

f(t)

1.5

= 0.25

= 0.5

0.0

= 1.5

3
t

Gambar 3.8: Kurva fungsi densitas untuk model lognormal dengan beberapa nilai
yang berbeda dan = 0

3.2. Beberapa distribusi parametrik

27

Contoh 3.2
Carilah median lognormal, bila diketahui fungsi survival seperti (3.13).
Jawab:
Bila med adalah median, maka


log(med)
S(med) = 1
= 1/2

atau


log(med)
= 1/2

Kuantil ke-1/2 normal standar adalah 0, sehingga


log(med)
= 0

log(med) =
med = exp()

3.2.5 Distribusi Gompertz-Makeham


Distribusi ini awalnya digunakan untuk memodelkan survival pada manusia dan
banyak digunakan pada permasalahan demografi dan aktuaria. Secara empiris model motalitas pada manusia umumnya mempunyai bentuk log hazard yang linear
terhadap usia, atau
h(t) = exp(A + Bt)

(3.14)

yang kemudian di-reparameterisasi menjadi


h(t) = 1 e2 t .

(3.15)

Model hazard ini dikenal sebagai model Gompertz. Makeham kemudian menyarankan ada penambahan konstan 0 yang berbeda menurut usia pada model Gompertz untuk memodelkan mortalitas, sehingga model hazardnya menjadi
Gompertz-Makeham
h(t) = 0 + 1 e2 t .

(3.16)

Parameter 0 > 0 dan 1 > 0 dikenal sebagai parameter bentuk (shape) dan
< 2 < sebagai parameter skala (scale).
Fungsi survival distribusi Gompertz-Makeham dapat diturunkan melalui fungsi hazard dan kemudian fungsi hazard kumulatifnya, dan diperoleh


1 2 t
(3.17)
S(t) = exp 0 t (e 1)
2
Fungsi densitas Gompertz-Makeham dapat dituliskan secara eksplisit dari
h(t)S(t). Dalam aplikasinya model ini lebih menggunakan fungsi hazard dan
survivalnya.

28

3.3. Estimasi parameter

3.2.6 Distribusi Log-logistik


Seperti halnya log-normal, nama log-logistik diberikan karena log(T ) berdistribusi logistik. Distribusi logistik sendiri mempunyai fungsi densitas
f (y) =

exp[(y )/]
(1 + exp[(y )/])2

(3.18)

dengan < y < adalah variabel random logistik dengan parameter <
< dan < < .
Fungsi Survival distribusi log-logistik adalah
S(t) =

1
1 + (t)

(3.19)

Fungsi hazard distribusi ini dapat diturunkan mulai dari fungsi kumulatif hazardnya
H(t) = log[S(t)]
= log((1 + (t) )

(3.20)

kemudian diperoleh
h(t) = dH(t)/dt
(t)1
=
.
1 + (t)

(3.21)

Fungsi densitas log-logistik


f (t) = S(t)h(t)
1
(t)1
=

1 + (t) 1 + (t)
(t)1
=
[1 + (t) ]2

(3.22)
(3.23)

Distribusi ini memiliki S(t), h(t) dan f (t) yang eksplisit relatif sederhana
dibandingkan dengan, misalnya, log-normal.

3.3 Estimasi parameter


Estimasi parameter suatu model survival parametrik dapat dilakukan dengan metode Estimasi Kebolehjadian Maksimum (Maximum Likelihood Estimation).

29

3.3. Estimasi parameter

Definisi 3.1
Fungsi kebolehjadian (likelihood function) adalah fungsi dari parameter yang dibentuk melalui probabilitas bersama dengan diberikan realisasi atau data yang
berasal dari variabel random survival T . Apabila f (t; ) adalah fungsi probabilitas bersama, dengan t adalah realisasi dari T , maka fungsi dari parameter
yang didefinisikan sebagai
L( | t) = f (t; )
dinamakan fungsi kebolehjadian.
Untuk data survival yang diasumsikan independen dan identik serta lengkap,
apabila ada t1 , t2 , . . . , tn observasi, fungsi kebolehjadian-nya adalah
L( | t) =

n
Y

f (ti ; )

(3.24)

i=1

Untuk data survival yang tidak lengkap, baik karena tersensor maupun terpotong,
fungsi kebolehjadian ditentukan sebagaimana berikut ini.
Data survival dengan kemungkinan tersensor kanan dapat direpresentasikan
sebagai pasangan nilai observasi survival dengan status tersensornya yaitu (ti , i ),
i = 1, 2, . . . , n dengan
(
0 jika i tersensor
i =
(3.25)
1 jika i mendapatkan kejadian (event)
Dengan asumsi masing-masing (Ti , i ) independen satu dengan yang lain,
fungsi likelihood untuk data tersensor kanan adalah:
L()

n
Y

f (ti ; )i S(ti ; )1i

(3.26)

i=1

dengan = (1 , . . . , p ) adalah p parameter yang akan diestimasi; f (ti ; ) adalah


fungsi densitas untuk i yang mendapatkan kejadian dan S(ti ; ) adalah fungsi
survival untuk i yang tidak mendapatkan kejadian.
Fungsi log-likelihood untuk data tersensor kanan dari fungsi kebolehjadian
(3.26) adalah
()

n
X
i=1

(i ) log(f (ti ; )) +

n
X
i=1

(1 i ) log(S(ti ; ))

(3.27)

Untuk data yang mungkin memuat observasi lengkap, tersensor-kanan pada


titik waktu R dan terpotong-kiri pada titik waktu L, fungsi probabilitas maupun

30

3.3. Estimasi parameter

fungsi survival pembentuk (3.26) kondisional terhadap probabilitas survive sampai ke L, karena untuk observasi yang terpotong-kiri hanya terjadi bila t L
(Lihat Definisi 1.2, Bab 1) Untuk data yang tersensor-kanan tipe I, variabel indikator ditentukan sebagai berikut
(
0 jika ti > R
(3.28)
i =
1 jika ti R
atau ditulis dengan fungsi indikator, i = I(ti R).
Fungsi kebolehjadian-nya adalah
 
1i
n 
Y
f (ti ; ) i S(ti ; )
L()
S(L)
S(L)
i=1

(3.29)

Dengan cara yang sama fungsi kebolehjadian untuk observasi yang merupakan kombinasi dari terpotong-kiri, tersensor-kanan, terpotong-kanan, tersensor-kiri
dan observasi yang lengkap dapat disusun.
Untuk mendapatkan estimasi dari dapat digunakan metode kebolehjadian
maksimum (MLE: Maximum Likelihood Estimation).
Definisi 3.2
adalah (1 , . . . , p ) yang memakEstimasi kebolehjadian Maksimum , ditulis
simumkan L():
= max L()
()

(3.30)

Pengerjaan terkait derivatif lebih mudah dilakukan pada log(L()) atau loglikehood, dinotasikan dengan (), dibandingkan pada L(). Karena fungsi log
yang memaksimerupakan fungsi yang naik tegas (strictly increasing), maka
mumkan () juga memaksimumkan L(), sehingga estimasi kebolehjadian maksimum dapat diperoleh dari
= max ()
()

(3.31)

perlu dihitung terlebih dahulu titik kritis dari ()

Untuk mendapatkan MLE


melalui penyelesaian
()
= 0,
j

j = 1, 2, . . . , p

(3.32)

meApabila dapat diperoleh penyelesaian dari (3.32), perlu diperiksa apakah


mang memaksimalkan ().
Untuk permasalahan yang tidak dapat diselesaikan secara analitis, metode numerik seperti misalnya metode Newton-Rhapson dapat digunakan untuk mencari

31

3.3. Estimasi parameter

Contoh 3.3
Carilah estimator untuk parameter pada model survival eksponensial yang datanya dapat
terkena sensor-kanan.
Jawab:
Fungsi kebolehjadian untuk parameter dengan diketahui data berdistribusi eksponensial
adalah:
L() =
=

n
Y

i=1
n
Y

( exp(ti ))i (exp(ti ))1i


i exp(ti )

i=1

sehingga fungsi log-likelihood nya adalah


() = log

n
X
i=1

n
X

ti

i=1

P
Untuk data yang tersensor kanan, ni=1 i = k, dengan k adalah banyaknya data yang
lengkap. Untuk data survival yang lengkap k = n
Kemudian dicari titik kritis () melalui ()/ = 0,
P
(k log ni=1 ti )
()
=

n
k X
ti .

i=1

Penyelesaian dari
n

k X
ti = 0

i=1

adalah
= Pnk

i=1 ti

yang merupakan MLE dari

Pada contoh 3.3 telah diperoleh estimator titik dari parameter , bila diberikan
data survival berdistribusi eksponensial. Inferensi lebih lanjut dapat dilakukan

dengan menghitung interval konfidensi 100(1 )% berdasarkan statistik 2k /


yang berdistribusi chi-square dengan derajad bebas 2k. Rumus ini berlaku baik
untuk data lengkap maupun data yang memuat observasi tersensor-kanan.

32

3.3. Estimasi parameter

Contoh 3.4
Diketahui waktu remisi (minggu) dari 21 pasien leukemia akut sebagai berikut: 1, 1, 2, 2,
3, 4, 4, 5, 5, 6, 8, 8, 9,10, 10, 12, 14, 16, 20, 24, 34
Hitung interval konfidensi 95% untuk dari data di atas, dengan asumsi data berdistribusi
eksponensial.
Jawab: Dihitung terlebih dahulu estimasi . Karena data di atas lengkap, k = n
=

n
Pn

i=1 ti

21
= 0,1060606
198

Interval konfidensi 95% untuk


2

2n,/2

2n,1/2

<<
2n
2n
0, 106 25, 999
0, 106 62, 777
<<
42
42
0, 066 < < 0, 156

Contoh 3.5
Dalam suatu penelitian 10 tikus percobaan terpapar (exposed) ke suatu jenis penyakit
kanker. Setelah 5 tikus mati percobaan dihentikan diperoleh data lama hidup tikus sbb:
4, 5, 8, 9, 10, 10+, 10+, 10+, 10+, 10+. (tanda + menunjukkan tersensor-kanan). Hitung
interval konfidensi 95% untuk , bila diasumsikan data berdistribusi eksponensial.
Jawab:
Estimasi untuk dalam hal ini adalah untuk data tersensor-kanan,
=

k
Pn

i=1 ti

5
= 0,05814
86

Nilai estimasi ini menghasilkan nilai log-likelihood (0,05814) = 19,22455. Gambar fungsi log=likehood ini dapat dilihat pada Gambar 3.9. Garis tegak putus-putus menunjukkan nilai MLE dan log-likelihood maksimalnya.
Interval konfidensi 95% untuk
2

2k,/2

2k,1/2

<<
2k
2k
0,05814 3,246973
0,05814 20,48318
<<
10
10
0,0189 < < 0,1191

33

24
26
28
32

30

loglikelihood

22

20

3.4. Latihan Bab 3

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Gambar 3.9: Nilai MLE dan log-likelihood pada Contoh 3.5.

3.4 Latihan Bab 3


3.1. Tahan hidup suatu jenis lampu pijar diketahui berdistribusi eksponensial
dengan hazard 0,001 kerusakan per jam penggunaan
(a) Hitung mean tahan hidup lampu pijar tersebut!
(b) Hitung median tahan hidup lampu pijar tersebut!
(c) Berapa probabilitas lampu pijar tersebut masih hidup setelah 2.000
jam penggunaan?
3.2. Lama (dalam satuan hari) berkembangnya tumor pada populasi tikus percobaan yang terpapar (exposed) oleh suatu zat penyebab kanker diketahui
berdistribusi Weibull dengan = 2 dan =0,001
(a) Hitung probabilitas seekor tikus yang telah terpapar belum terkena tumor pada hari ke 30

(b) Hitung mean lama hari sampai terkena tumor ((0,5) = )


(c) Hitung hazard rate pada hari ke 30
(d) Hitung median lama hari sampai terkena tumor
3.3. Distribusi Eksponensial dua parameter, biasa digunakan dalam permasalahan garansi, mempunyai densitas
(
exp((t G)) t G
f (t) =
0
t<G

3.4. Latihan Bab 3

34

dengan G adalah waktu garansi.


(a) Carilah fungsi Survival dan fungsi hazard nya
(b) Carilah mean dan median nya
3.4. Lihat kembali pada matakuliah
Pengantar Statistika Matematika. Tunjuk = n/ P ti dengan ti berdistribusi eksponensial dan
kanlah bahwa bila
akan berdistribusi chi-square dengan deindependen, maka statistik 2n/
rajad bebas 2n!
3.5. Diketahui data antar kejadian sebagai berikut: 3, 4, 4, 8, 8+, 9+, 10, 12+, 18,
dengan + menunjukkan data tersensor kanan.
(a) Dengan menganggap data berdistribusi eksponensial dengan fungsi
hazard h(t) = , estimasilah parameter
(b) Gambarlah fungsi Survival dengan menggunakan hasil estimasi
(c) Hitung median survival time-nya
3.6. Merujuk pada Soal 1.4, Bab 1:
(a) Dengan mengasumsikan lama hidup berdistribusi eksponensial, hitunglah estimasi fungsi hazard dari masing-masing kelompok yaitu
AG positive (notasikan dengan h1 (t)) dan AG negative (notasikan dengan h2 (t));
(b) Buatlah sket grafik fungsi survival untuk AG positive maupun AG negative pada satu gambar dengan skala yang sama. Interpretasikan hasilnya.
3.7. Carilah median distribusi Gompertz!
3.8. Tunjukkanlah, apabila T berdistribusi Weibull, maka Y = log(T ) yang
terpotong-kiri pada T > 0 akan berdistribusi Gompertz!
3.9. Carilah median dan mean distribusi log-logistik!

4
Metode Non-parametrik dan
Uji-LogRank
4.1 Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
4.1. Menjelaskan perbedaan metode non-parametrik dan parametrik dalam analisis data survival
4.2. Melakukan estimasi Kaplan-Meier untuk fungsi survival dan menjelaskan
teori yang mendasarinya
4.3. Melakukan estimasi Nelson-Aalen untuk fungsi hazard kumulatif dan menjelaskan teori yang mendasarinya
4.4. Menggunakan Kaplan-Meier dan Nelson-Aalen dalam analisis data survival
4.5. Menjelaskan perlunya pembandingan fungsi survival dalam analisis data
survival
4.6. Melakukan dan menggunakan metode log-rank test dan teori yang mendasarinya

4.2 Kaplan-Meier
Untuk mengestimasi S(t) dapat digunakan estimator Kaplan-Meier atau sering
juga disebut sebagai Product-Limit estimator sebagai berikut:
(
jika t < t1
= 1Q
S(t)
(4.1)
di
jika ti t
ti t (1 Yi )
35

36

4.2. Kaplan-Meier

dimana di adalah banyaknya event dan Yi adalah banyaknya individu yang beresiko (number at risk) Estimator Kaplan-Meier merupakan fungsi tangga yang turun
pada saat ada event.
Dasar pemikiran sstimator Kaplan-Meier dapat dijelaskan seperti pada Gambar 4.1. Misalkan event yang menjadi perhatian adalah meninggal (M), dengan
origin mulai dari waktu 0 dan diperoleh waktu kronologis terjadinya event pada
t1 , t2 dan t3 . Pada saat t1 , peluang meninggal dengan diketahui kondisi pada saat
waktu 0 adalah 1 , dan peluang hidup (H) atau survive adalah 1 1 . Pada saat t2 ,
peluang meninggal dengan diketahui kondisi pada saat t1 adalah 2 , dan peluang
meninggal 1 2 . Demikian pula dengan 3 dan 1 3 . Probabilitas meninggal 1 , 2 , dan 3 dapat dipandang sebagai probabilitas binomial namun dengan
probabilitas sukses yang berubah-ubah menurut waktu.
Peluang survive sampai waktu t3 adalah
(1 1 )(1 2 )(1 3 ),

yaitu produk dari masing-masing peluang bersyarat mulai dari 0 sampai dengan
t3 .
Estimator Kaplan-Meier adalah non-parametrik dalam artian tidak mengasumsikan banyaknya parameter yang berhingga. Banyaknya parameter atau kuantitas
yang akan diestimasi dalam Kaplan-Meier adalah sebanyak titik waktu di mana
event terjadi.
Untuk mengestimasi i ; i = 1, 2, . . . dapat digunakan proporsi meninggal dengan diberikan banyaknya yang masih hidup pada saat sebelum terjadinya event,
seperti halnya estimator untuk peluang sukses pada binomial. Apabila di adalah
banyaknya yang meninggal pada saat ti dan Yi adalah banyaknya yang masih hidup, tepat sebelum saat ti , maka estimator untuk i adalah di /Yi dan estimator
untuk 1 i adalah 1 di /Yi . Estimasi untuk survivesampai waktu k tertentu
menjadi
(1 d1 /Y1 )(1 d2 /Y2 )(1 d3 /Y3 ) . . . (1 dk /Yk )

dan apabila tk t, dengan t adalah bilangan kontinu, maka estimasi untuk


survive sampai t ini dapat ditulis seperti estimator Kaplan-Meier (4.1).

Untuk melakukan inferensi tentang S(t) menggunakan S(t)


Kaplan-Meier,
perlu dihitung terlebih dahulu standard error atau variansi dari S(t). Variansi dari
sering disebut sebagai Greenwoods formula
estimator KM S(t)
X
di

2
var[S(t)]
= S(t)
(4.2)
Y (Y di )
t t i i
i

atau dapat digunakan rumus berikut sebagai alternatif

2 [1 S(t)]
var[S(t)]
= S(t)
Y (t)

(4.3)

37

4.2. Kaplan-Meier

M: meninggal
1

H: hidup

M
M
2

H1

t1

t2

H
t3

waktu
Gambar 4.1: Ilustrasi Konstruksi Estimator Kaplan-Meier dan Nelson-Aalen
Tabel 4.1: Tabel Estimasi Kaplan-Meier Contoh 4.1
t
6
7
10
13
16
22
23

Y d
21 3
17 1
15 1
12 1
11 1
7 1
6 1

S(t)
1 3/21 = 0,857
(1 1/17) 0,857 = 0,807
(1 1/15) 0,807 = 0,753
(1 1/12) 0,753 = 0,690
(1 1/11) 0,690 = 0,627
(1 1/7) 0,627 = 0,538
(1 1/6) 0,538 = 0,448

se[S(t)]
0,857
= 0,0764
0,807 . . . = 0,0869
0,7532 . . . = 0,0963
0,6902 . . . = 0,1068
0,6272 . . . = 0,1141
0,5382 . . . = 0,1282
0,4482 . . . = 0,1346
2

3
(21)(18)
2

Interval konfidensi 95% dapat disusun dengan menggunakan pendekatan normal


1,96 se[S(t)].

S(t)
Contoh 4.1
Diperoleh data dari studi tentang pasien leukemia seperti pada Contoh 1.7, Bab 1. Buatlah
Estimasi Kaplan-Meier untuk perawatan 6-MP saja.
Jawab:
Pertama, data waktu diurutkan dan dihitung frekuensi banyaknya individu yang beresiko

(belum mendapatkan event) serta banyaknya event pada waktu tersebut. Estimasi S(t)

kemudian dapat dihitung menggunakan persamaan (4.1) dan var[S(t)] dengan persamaan
(4.2). Hasilnya dapat dilihat pada Tabel 4.1. Plot untuk estimasi Kaplan-Meier yang berupa fungsi tangga dapat dibuat seperti Gambar 4.2. Seperti terlihat pada Gambar, tangga
akan turun ketika terjadi event saja. Garis pendek tegak pada grafik menunjukkan ob-

38

0.6
0.4
0.0

0.2

Estimasi S(t) KM

0.8

1.0

4.3. Nelson-Aalen

10

15

20

25

30

35

waktu

Gambar 4.2: Grafik estimasi Kaplan-Meier Contoh 4.1


servasi yang tersensor-kanan. Paket program statistika standar biasanya dapat digunakan
untuk mengestimasi KM dan grafiknya.

4.3 Nelson-Aalen
Estimator Nelson-Aalen digunakan untuk mengestimasi fungsi hazard kumulatif,
didefinisikan sebagai berikut:

H(t)
=
dengan variansi

0
P

jika t < t1
jika ti t

di
ti t Yi

H(t))

Var(
=

X di
Y2
t t i

(4.4)

(4.5)

Interval konfidensi 95% dapat disusun dengan menggunakan pendekatan normal


1,96 se[H(t)].

H(t)
Prinsip konstruksi estimator Nelson-Aalen sama seperti halnya Kaplan-Meier
(lihat Gambar 4.1). Estimator ini merupakan estimator non-parametrik yang

39

4.3. Nelson-Aalen

Tabel 4.2: Tabel estimasi Nelson-Aalen untuk H(t) dan S(t) Contoh 4.2
t
6
7
10
13
16
22
23

Y
21
17
15
12
11
7
6

d
3
1
1
1
1
1
1

H(t)
3/21 = 0,143
1/17 + 0,143 = 0,202
1/15 + 0,202 = 0,269
1/12 + 0,269 = 0,352
1/11 + 0,352 = 0,443
1/7 + 0,443 = 0,586
1/6 + 0,586 = 0,753

= exp(H(t))

S(t)
0,867
0,817
0,764
0,703
0,642
0,557
0,471

mengestimasi kuantitasi yang tidak diketahui pada saat terjadinya event. Dalam
hal ini kuantitas yang tidak diketahui adalah peluang bersyarat dengan kondisi
sebelum event terjadi atau hazard nya. Apabila estimasi hazard ini dijumlahkan
sampai waktu tk t tertentu, maka kuantitas ini adalah estimasi hazard kumulatif
yang dirumuskan sebagai estimator Nelson-Aalen 4.4.
Estimasi Nelson-Aalen dapat digunakan untuk mengestimasi S(t) dengan
menggunakan hubungan H(t) dengan S(t), yaitu S(t) = exp(H(t)).
Contoh 4.2
Menggunakan data yang sama seperti Contoh 4.1 untuk perawatan 6-MP saja (data Contoh 1.7, Bab 1), hitung Estimasi fungsi hazard kumulatif menggunakan Nelson-Aalen dan
estimasi fungsi survivalnya.
Jawab:
Disusun tabel seperti pada Tabel Kaplan-Meier contoh 4.1. Gunakan persamaan (4.4)

untuk menghitung H(t).


Hasilnya adalah seperti pada Tabel 4.2. Plot untuk estimasi
Nelson-Aalen dapat dilihat pada Gambar 4.3.
Dapat dibandingkan nilai estimasi survival yang diperoleh dengan Nelson-Aalen selalu lebih besar dari nilai estimasi yang diperoleh dari Kaplan-Meier (Lihat Latihan Soal
4.2).

Estimasi Kaplan-Meier maupun Nelson-Aalen dapat juga digunakan untuk


membandingkan dua atau lebih kurva survival, sehingga secara deskriptif dapat
dilihat dan disimpulkan kurva mana yang lebih survive dibandingkan yang lain.
Contoh 4.3
Hitunglah estimasi Kaplan-Meier untuk data leukemia Contoh 1.7, Bab 1, untuk kelompok placebo. Kemudian gambarlah pada tempat yang sama dengan kelompok 6-MP yang
sudah dikerjakan pada Contoh 4.1.
Jawab:
Estimasi Kaplan-Meier untuk kelompok placebo adalah seperti pada Tabel 4.3.

40

0.4
0.0

0.2

estimasi H(t)

0.6

4.3. Nelson-Aalen

10

15

20

25

30

35

waktu

0.6
0.4

6MP

0.2

estimasi S(t)

0.8

1.0

Gambar 4.3: Grafik estimasi Nelson-Aalen Contoh 4.2

0.0

placebo

10

15

20

25

30

35

waktu

Gambar 4.4: Plot Estimasi Kaplan-Meier untuk terapi dan placebo data
tersensor kanan.
Plot kurva Kaplan-Meier untuk terapi maupun placebo dapat dilihat pada Gambar

41

4.4. Membandingkan Dua Fungsi Survival

Tabel 4.3: Estimasi Kaplan-Meier untuk Kelompok Placebo


t
1
2
3
4
5
8
11
12
15
17
22
23

Y d
21 2
19 2
17 1
16 2
14 2
12 4
8 2
6 2
4 1
3 1
2 1
1 1

S(t)
0,9048
0,8095
0,7619
0,6667
0,5714
0,3810
0,2857
0,1905
0,1429
0,0952
0,0476
0,0000

4.4. Grup terapi terlihat lebih baik, atau mempunyai peluang survival yang lebih tinggi
dibandingkan grup placebo.

Dalam Contoh 4.3, perbandingan hanya dilakukan secara deskriptif menggunakan grafik estimasi Kaplan-Meier fungsi S(t). Pengambilan kesimpulan atau
inferensi statistik dapat pula dilakukan untuk membandingkan kurva S(t) seperti
yang akan dibahas pada bagian berikut.

4.4 Membandingkan Dua Fungsi Survival


Seperti halnya permasalahan inferensi statistik yang sudah dikenal, misalnya inferensi mean dua populasi dalam kuliah Metode Statistika, diperlukan prosedur
uji yang dapat menyatakan apakah dua fungsi survival berbeda. Untuk uji dua
mean, dapat digunakan misalnya t-test atau Z-test. Sedangkan untuk menguji
atau membandingkan dua kurva survival atau lebih untuk data yang tidak tersensor dapat digunakan beberapa Metode Non-parametrik seperti metode Wilcoxon,
Mann-Whitney dan Sign test dapat digunakan. Sedangkan untuk data tersensor
prosedur yang dapat digunakan diantaranya: Gehans generalized Wilcoxon test,
the Cox-Mantel test, the logrank test, Peto and Petos generalized Wilcoxon test,
Coxs F-test, Gehans generalized Wilcoxon test, the Cox-Mantel test, the logrank
test (1972), Peto and Petos generalized Wilcoxon test, dan Coxs F-test. Satu
metode yang akan dibahas dalam bagian ini adalah Uji Logrank.
Hipotesis nol untuk uji ini adalah H0 : S1 (t) = S2 (t) dengan hipotesis alter-

42

4.5. Latihan Bab 4

natif
H1 : S1 (t) > S2 (t)
H1 : S1 (t) < S2 (t)
H1 : S1 (t) 6= S2 (t)
Uji Logrank didasarkan pada banyaknya observed dan expected event pada setiap
event-time. Untuk log-rank test dengan 2 grup yang ingin dibandingkan statistik
pengujinya adalah:
W =

(O1 E1 )2 (O2 E2 )2
+
E1
E2

(4.6)

dengan W 2 (df = 1). H0 ditolak dengan tingkat signifikasni bila W >


2 (1 , df = 1).
Contoh 4.4
Merujuk ke Contoh 4.3, akan diuji apakah fungsi survival grup terapi berbeda dengan
grup placebo. Disusun terlebih dahulu tabel seperti pada Tabel 4.4 untuk digunakan dalam
penghitungan 4.6. Ekspektasi e1 dan e2 diperoleh dengan cara mengalikan probabilitas
kematian pada tiap-tiap grup (Y1 /(Y1 + Y2 ) dan Y2 /(Y1 + Y2 ) ) dikalikan total kejadian
(d1 + d2 ), untuk masing-masing waktu kejadian (masing-masing baris). Kemudian pada
baris terakhir diperoleh total observasi dan total ekspektasi untuk masing-masing grup.
Diperoleh statistik

=
=

(O1 E1 )2 (O2 E2 )2
+
E1
E2
(9 19, 26)2 (21 10, 74)2
+
= 15,267
19, 26
10, 74

yang jauh lebih besar dari nilai daerah kritik 3,8414 atau mempunyai p-value yang cukup
kecil. jadi dapat disimpulkan H0 ditolak atau dua kurva survival tersebut berbeda.

4.5 Latihan Bab 4


4.1. Merujuk data soal Latihan Bab 3 no. 5
(a) Hitung estimasi fungsi survival menggunakan Kaplan-Meier
(b) Gambarlah estimasi Kaplan Meier di atas grafik fungsi survival eksponensial yang dibuat pada soal Latihan Bab 3 no. 5
(c) Hitunglah median survival time menggunakan Kaplan-Meier

43

4.5. Latihan Bab 4


Tabel 4.4: Penghitungan untuk Uji log-rank
t
1
2
3
4
5
6
7
8
10
11
12
13
15
16
17
22
23
Total

d1
0
0
0
0
0
3
1
0
1
0
0
1
0
1
0
1
1
9

d2
2
2
1
2
2
0
0
4
0
2
2
0
1
0
1
1
1
21

Y1
21
21
21
21
21
21
17
16
15
13
12
12
11
11
10
7
6

Y2
21
19
17
16
14
12
12
12
8
8
6
4
4
3
3
2
1

e1
(21/42) 2
(21/40) 2
(21/38) 1
(21/37) 2
(21/35) 2
(21/33) 3
(17/29) 1
(16/28) 4
(15/23) 1
(13/21) 2
(12/18) 2
(12/16) 1
(11/15) 1
(11/14) 1
(10/13) 1
(7/9) 2
(6/7) 2
19,26

e2
(21/42) 2
(19/40) 2
(17/38) 1
(16/37) 2
(14/35) 2
(12/33) 3
(12/29) 1
(12/28) 4
(8/23) 1
(8/21) 2
(6/18) 2
(4/16) 1
(4/15) 1
(3/14) 1
(3/13) 1
(2/9) 2
(1/7) 2
10,74

4.2. Estimasi fungsi survival dapat diperoleh dari estimator Nelson-Aalen berdasarkan hubungan antara S(t) dengan H(t). Apabila estimasi S(t) menggunakan estimator Nelson-Aalen dinotasikan sebagai SN A (t), dan estimasi S(t) Kaplan-Meier dinotasikan sebagai SKM (t), tunjukkan bahwa
SKM (t) SN A (t), untuk semua t.
4.3. Dalam suatu kecelakaan di pusat listrik tenaga nuklir, 10 pekerja terkena
radiasi. Dengan menganggap origin (waktu 0 ) adalah saat kecelakaan, terdapat satu meninggal pada waktu ke-2, satu meninggal pada waktu ke-4,
dan x tidak diketahui nasibnya (censored) pada saat ke-3. Jika diketahui

Estimasi Kaplan-Meier S(4)


= 0,75. Hitung x!
4.4. Modifikasilah rumus estimasi Nelson-Aalen bila subyek semua mendapatkan event dan tidak ada yang tersensor dan tidak ada yang mendapatkan
event pada saat yang sama! Menggunakan rumus tersebut, jika diketahui
ada n subyek seperti disyaratkan di atas, dan diketahui pada saat kematian yang ke-9 estimasi Nelson-Aalen adalah 0,511 dan pada saat kematian
yang ke-10 estimasinya 0,588; Hitunglah estimasilah nilai fungsi survival
pada saat kematian yang ke-3!
4.5. Dalam suatu penelitian 300 tikus diamati mulai lahir. Tambahan 20 ekor
tikus mulai diamati pada saat usia 2 hari dan 30 lagi mulai diamati saat

44

4.5. Latihan Bab 4

berusia 4 hari. Ada 6 meninggal pada usia 1; 10 pada usia 3; 10 pada usia
4, a pada usia 5; b pada usia 9 dan 6 pada usia 12. Diketahui pula 45 tikus
tidak diketahui nasibnya pada usia 7; 35 tidak diketahui nasibnya pada usia
10 dan 15 tidak diketahui nasibnya pada usia 13. Diperoleh hasil Kaplan

Meier sebagai berikut: S(7)


= 0,892 dan S(13)
= 0,856. Hitung a dan
b!
4.6. Diketahui data survival sebagai berikut:
grup 1 : 5
1
2
2 7
6
grup 2 : 8+ 10 4+ 4 3+
dengan + adalah tanda untuk data tersensor kanan.
(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan
Nelson-Aalen untuk masing-masing grup
(b) Ujilah bahwa survival grup 2 lebih besar daripada grup 1 dengan
menggunakan logrank test ( = 0,025)
4.7. Diperoleh studi tentang mortalitas akibat penyakit kronis di suatu klinik.
Dari masing-masing grup yaitu grup yang mempunyai riwayat penyakit kronis (grup 2) dan grup yang tidak mempunyai riwayat riwayat penyakit kronis (grup 1) diperoleh data
Grup 1 (n = 25)
12,3+, 5,4, 8,2, 12,2+, 11,7,
10,0, 5,7, 9,8, 2,6, 11,0, 9,2,
12,1+, 6,6, 2,2, 1,8, 10,2, 10,7,
11,1, 5,3, 3,5, 9,2, 2,5, 8,7, 3,8,
3,0

Grup 2 (n = 25)
5,8, 2,9, 8,4, 8,3, 9,1, 4,2, 4,1,
1,8, 3,1, 11,4, 2,4, 1,4, 5,9, 1,6,
2,8, 4,9, 3,5, 6,5, 9,9, 3,6, 5,2,
8,8, 7,8, 4,7, 3,9

tanda + menunjukkan tersensor kanan

(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan


gambarlah estimasi fungsinya
(b) Ujilah bahwa survival kedua grup tersebut berbeda dengan menggunakan logrank test ( = 0,025)

5
Model Regresi Parametrik
5.1 Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
1. Menjelaskan perlunya model regresi untuk data survival
2. Menjelaskan beberapa macam model regresi untuk data survival
3. Menjelaskan hubungan dan perbedaan Model Regresi Survival Dipercepat,
Model Regresi Hazard Proporsional dan Model Regresi Hazard Aditif
4. Menjelaskan prinsip estimasi parameter dalam model Regresi Survival Parametrik
5. Melakukan analisis data survival menggunakan model Regresi Survival Dipercepat Parametrik

5.2 Variabel Independen dalam Model


Data survival, seperti halnya data yang diperoleh dari berbagai macam penelitian
maupun permasalahan nyata, biasanya melibatkan lebih dari satu variabel. Data
dengan satu variabel kategorik, seperti pada Bab 4.4 sebenarnya adalah data survival dengan satu variabel independen. Apabila variabel independen lebih dari
satu, misalnya data penyapihan (weaning data) seperti dalam contoh 1.9 Bab 1,
maka untuk melakukan analisis data survival pada data seperti itu perlu digunakan
model regresi.
Dalam model ini, diberikan nilai p variabel independen (variabel penjelas, kovariat) X = (x1 , x2 , . . . , xp ) untuk tiap-tiap individu atau unit sampel. Variabel
45

5.3. Model Regresi Parametrik

46

independen x dipandang mempengaruhi data survival, misalnya sebagai (i) perlakuan; (ii) karakteristik dari individu; (iii) variabel eksternal. Sebagai contoh
adalah data penderita leukemia yang disebutkan pada Contoh 1.2 Bab 1. Pengaruh perlakuan 6-MP dan placebo terhadap lama kambuh leukemia. Dalam data
penyapihan (Contoh 1.9 Bab 1, variabel-variabel independen yang ada merupakan karakteristik dari ibu. Variabel eksternal adalah segala informasi di luar individu itu sendiri, namun diduga berpengaruh terhadap data survival. Misalnya adalah
pengaruh temperatur luar terhadap tahan hidup suatu komponen. Nilai variabel ini
sudah diperoleh sebelum atau pada saat origin (T = 0). Dalam pengembangannya nilai variabel dapat berubah seiring berjalannya waktu, atau sering disebut
time-dependent covariate.
Dalam pemodelan regresi survival, pengaruh X dinyatakan sebagai skor setiap individu, yaitu sebagai fungsi dari koefisien regresi atau parameter bersama
dengan X atau ditulis dengan (X; ), dengan adalah koefisien regresi atau
parameter. Misalnya
(X; ) = 0 + 1 x1 + 2 x2 + . . . + p xp ,
(x; ) = exp(0 + 1 x1 + 2 x2 + . . . + p xp ),
dengan = (0 , 1 , . . . , p ). Untuk menyederhanakan penulisan dalam pembahasan selanjutnya, (X; ) kadang ditulis sebagai saja.
Pengaruh X terhadap survival dapat dimodelkan melalui hubungannya dengan
realisasi variabel random T atau melalui fungsi variabel random survival yaitu
S(t), h(t), H(t) atau f (t). Paling tidak ada tiga model regresi yang cukup populer
dalam analisis data survival melalui hubungan dengan fungi variabel random survival yaitu: Model Uji Hidup Dipercepat (Accelerated Failure Time model atau
AFT), Model Hazard Proportional atau PHM (Proportional Hazard Model) dan
Model Hazard Aditif. Sedangkan pemodelan melalui T sendiri diantaranya yang
populer adalah Model Regresi Data Tersensor dan Terpotong. Beberapa model
saling terkait dan kadang suatu model dapat digolongkan ke dalam lebih dari satu
jenis model. Dalam diktat ini model yang akan dibahas lebih lanjut adalah Model
Uji Hidup Dipercepat (Accelerated Failure Time model) Parametrik dan Model
Regresi Cox.

5.3 Model Regresi Parametrik


Pengertian parametrik di sini adalah bahwa banyaknya parameter dalam model regresi berhingga banyaknya. Termasuk dalam model parametrik ini adalah Model
Uji Hidup dipercepat, sering disingkat sebagai AFT(accelerated failure time) dan

47

5.3. Model Regresi Parametrik

model hazard proporsional, sering disingkat sebagai PHM (proportional hazards


model).
Model dasar AFT, ditulis dalam S(t), f (t) maupun h(t) adalah sebagai berikut,
S(t | ) = S0 (t)

(5.1)

f (t | ) = f0 (t)

(5.2)

h(t | ) = h0 (t)

(5.3)

dengan indeks 0 menunjukkan fungsi baseline, yaitu bentuk fungsi ketika tanpa
variabel independen. Jadi S0 (t) adalah baseline survival, f0 (t) adalah baseline
fungsi densitas dan h0 (t) adalah baseline hazard. Baseline juga dapat diartikan
sebagai pembanding, yaitu pembanding antara survival ketika tanpa variabel independen dengan ketika variabel independen dimasukkan dalam model.
Contoh 5.1
Tulis model AFT apabila diketahui baseline nya adalah distribusi eksponensial.
Jawab:
Diketahui baseline survival, fungsi densitas dan hazard untuk eksponensial berturut-turut
adalah
S0 (t) = exp(t);

f0 (t) = exp(t); h0 (t) =

Model AFT untuk eksponensial berdasarkan rumusan (5.1), (5.2) dan (5.3),
S(t | ) = exp(t);

f (t | ) = exp(t); h(t | ) =

Dipercepat (accelerated) dalam model AFT untuk Contoh 5.1 dapat digambarkan
seperti kurva survival pada Gambar 5.1. Untuk yang sama (sebagai baseline),
kurva survival akan menurun (kematian dipercepat) jika > 1. Sebaliknya, jika < 1 Kurva survival akan menaik (diperlambat). Dalam hal ini pengertian
dipercepat atau accelerated sebenarnya juga dapat decelerated tergantung faktor
pemercepat (acceleration factor) . Untuk = 1 bentuk kurva survival AFT
sama dengan baseline nya. Deskripsi yang sama juga dapat diperoleh dari fungsi
hazard Gambar 5.2. Jika < 1, hazard nya akan rendah (atau survival nya tinggi),
dan sebaliknya. Untuk distribusi eksponensial sendiri, dapat dipandang sebagai
faktor pemercepat seperti halnya .

48

0.4

S(t)

0.6

0.8

1.0

5.3. Model Regresi Parametrik

0.2

survival diperlambat

0.0

baseline survival
survival dipercepat
0

1.5

hazard dipercepat

baseline hazard

1.0

h(t)

2.0

2.5

3.0

Gambar 5.1: Plot Fungsi Survival AFT Eksponensial

0.0

0.5

hazard diperlambat

Gambar 5.2: Plot Fungsi Hazard AFT Eksponensial

49

5.3. Model Regresi Parametrik

Model yang lain adalah PHM, yang mempunyai fungsi survival, densitas dan
hazard sebagai berikut,
S(t | ) = S0 (t)
f (t | ) = S0 (t) h0 (t),

atau f (t | ) = S0 (t)1 f0 (t)

h(t | ) = h0 (t)

(5.4)
(5.5)
(5.6)

Model PHM parametrik dibentuk berdasarkan rasio antara hazard yang memuat
variabel independen dengan baseline hazard yang selalu tetap atau proporsional
sepanjang waktu, yaitu sebesar . Model hazard proporsional akan dibahas lebih
lanjut sebagai model regresi semi-parametrik Cox dalam Bab 6.
Contoh 5.2
Tulis model hazard proporsional apabila diketahui baseline nya adalah distribusi eksponensial.
Jawab:
Diketahui baseline survival, fungsi densitas dan hazard untuk eksponensial berturut-turut
adalah
S0 (t) = exp(t);

f0 (t) = exp(t); h0 (t) =

Model PHM untuk eksponensial berdasarkan rumusan (5.4), (5.5) dan (5.6),
S(t | ) = {exp(t)} ;

f (t | ) = {exp(t)} ; h(t | ) = .

Terlihat bahwa distribusi eksponensial mempunyai bentuk fungsi hazard yang sama baik
untuk model AFT maupun PHM.

Estimasi parameter dapat diperoleh melalui MLE (maximum likelihood estimation). Data yang diperoleh berupa (ti , i , Xi ), i = 1, 2, . . . , n yang independen
satu sama lain, dengan ti adalah durasi atau waktu antar kejadian dan
(
0 jika i tersensor
i =
1 jika i mendapatkan kejadian (event)
Bentuk likelihood apabila dimungkinkan data tersensor-kanan adalah
n
Y
f (ti , | Xi )i S(ti , | Xi )1i
L()

(5.7)

i=1

dengan = (1 , . . . , p ) adalah p parameter yang akan diestimasi; f (ti , | Xi )


adalah fungsi densitas untuk i yang mendapatkan kejadian dan mempunyai variabel penjelas Xi ; S(ti , | Xi ) adalah fungsi survival untuk i yang tidak mendapatkan kejadian (tersensor-kanan) dan mempunyai variabel penjelas Xi .
Untuk mencari nilai dapat digunakan metode numerik seperti misalnya
Newton-Rhapson. Paket statistik standar biasanya memiliki fasilitas untuk mengestimasi parameter model regresi survival.

50

5.4. Model Non-Parametrik dan Semi-Parametrik

5.4 Model Non-Parametrik dan Semi-Parametrik


Pengertian non-parametrik di sini adalah banyaknya parameter dalam model regresi tidak berhingga banyaknya. Namun terkadang model dapat dipandang sebagai kombinasi parameter yang berhingga banyaknya dan diekspresikan secara eksplisit dengan parameter yang dapat dianggap tidak berhingga banyaknya,
model seperti ini sering disebut sebagai Semi-Parametrik. Termasuk dalam model non-parametrik ini adalah (i) Model Rank Regression; (ii) Generalized Aditif Models. Sedangkan satu model regresi Survival yang populer sebagai SemiParametrik adalah Regresi Cox. Model regresi Cox akan dibahas lebih lanjut pada
Bab 6.

5.5 Model AFT log-linear


Dalam model regresi AFT, faktor pemercepat ditentukan oleh nilai variabel indepanden X. Bentuk fungsi yang sering digunakan untuk adalah eksponensial
karena bentuk ini menjamin nilai selalu non-negatif. Sedangkan untuk melihat pengaruh variabel independen atau karakteristik individual terhadap survival
digunakan kombinasi linier antara koefisien regresi dengan nilai variabel independen seperti yang telah dibahas pada bagian 5,2. Model regresi AFT dapat disusun
sebagai model linier, seperti model regresi linier biasa, dengan transformasi log
pada variabel random T .
Bentuk model AFT log-linear ini adalah sebagai berikut
log(T ) = + 1 X1 + 2 X2 + . . . + p Xp +
= + X +

(5.8)

dengan adalah intersep dan adalah parameter skala, diasumsikan berdistribusi tertentu. Untuk selanjutnya kombinasi linier antara koefisien regresi dengan
nilai variabel independen 1 X1 + 2 X2 + . . . + p Xp ditulis dengan X, dengan
X adalah matriks variabel independen untuk semua individu berdimensi n p,
dan adalah matriks koefisien regresi berdimensi p 1. Untuk keperluan tertentu
kadang model (5.8) dituliskan individual untuk i tertentu sebagai
log(Ti ) = + 1 Xi1 + 2 Xi2 + . . . + p Xip + i
= + Xi + i

(5.9)

Dapat ditunjukkan bahwa Model (5.8) merupakan model AFT dan dapat dinyatakan sebagai (5.1), (5.2) dan (5.3). Untuk menandakan bahwa variabel independen X memodifikasi fungsi survival, densitas dan hazard dalam model AFT,
maka digunakan notasi S(t | X), f (t | X) dan h(t | X).

51

5.5. Model AFT log-linear

Menurut definisi fungsi survival, S(t | X) model AFT (5.8) dapat dituliskan
sebagai
S(t | X) = P (T > t)
= P (exp( + X + ) > t)
= P (exp( + ) > t exp(X))

(5.10)

Apabila semua X bernilai 0 (baseline), maka X akan bernilai 0 pula, dan


exp(X) = 1, sehingga baseline survival untuk model AFT (5.8) adalah
S0 (t | X) = P (exp( + ) > t)

(5.11)

Sehingga hubungan antara survival AFT log-linear (5.10) dengan baseline survival
nya (5.11) adalah
S(t | X) = S0 (t exp(X))

(5.12)

seperti (5.1) dengan faktor pemercepat = exp(X).


Fungsi hazard model AFT log-linear dapat diturunkan melalui hubungan fungsi survival dengan fungsi hazard kumulatif H(t) = log(S(t)) kemudian diderivatifkan ke t untuk mendapatkan h(t | X)
h(t | X) = exp(X)h0 (t exp(X))

(5.13)

Model AFT (5.8) juga dapat dikarakterisasi berdasarkan distribusi dari .


S(t | X) = P (T > t)
= P (log(T ) > log(t))
= P ( + X + > log(t))


log(t) X
= P >

(5.14)
(5.15)

Distribusi unutk dan T sebagai pasangannya beberapa di antaranya seperti yang


tercantum pada Tabel 5.1. Beberapa Model tersebut secara khusus dan lebih detail
akan dibahas dalam bagian selanjutnya dalam Bab ini.
Tabel 5.1: Distribusi T dan dalam AFT log-linear
Distribusi T
Eeksponensial
Weibull
gamma
log-logistik
log-normal

Distribusi
extreme value (1 parameter)
extreme value (2 parameter)
log-gamma
logistik
normal

52

5.6. Model Regresi Eksponensial

5.6 Model Regresi Eksponensial


Model regresi parametrik yang berdasar pada distribusi eksponensial dapat berupa
model AFT maupun PHM. Model regresi eksponensial dirumuskan dalam fungsi
hazard seperti berikut
h(t | x) = exp(X)

(5.16)

dengan = (1 , . . . , p ) adalah parameter model regresi, X adalah variabel independen.


Fungsi likelihood untuk model regresi eksponensial dapat diperoleh dari
(5.7) sebagai berikut
L() =

n
Y
i=1

=
=

f (ti , | Xi )i S(ti , | Xi )1i

n h
Y
i=1
n
Y

eXi exp(eXi t)

ii

h
i1i
exp eXi t

ei Xi exp(eXi ti )

(5.17)

i=1

dengan Xi = (xi1 xi2 . . . xip ) adalah vektor kovariat untuk masing-masing individu, = (1 . . . p )T adalah parameter regresi.
Contoh 5.3
Menggunakan data Tabel 1.1 pada Contoh 1.7, Bab 1, estimasilah parameter model regresi
survival eksponensial berikut ini,
h(t | x) = exp(0 + X1 1 )

(5.18)

dengan X1 bernilai 1 jika perlakuan 6-MP, 0 jika placebo.


Jawab:
Menggunakan bantuan paket statistik diperoleh estimasi parameter seperti pada Tabel
5.2.

Tabel 5.2: Estimasi Parameter Model (5.18)

Variabel
se()
Intersep 0 = 2,16 0,218
x1 (6-MP) 1 = 1,53 0,398
Dalam Tabel 5.2, terlihat bahwa pengaruh perlakuan 6-MP adalah negatif terhadap
kambuhnya leukemia, atau pemberian 6-MP mencegah kambuhnya leukemia. Kesimpulan ini sejalan dengan Contoh 4.3 Bab 4, yaitu bahwa perlakuan 6-MP mempunyai nilai
survival yang lebih besar dibandingkan dengan placebo.

53

5.7. Model Regresi Weibull

5.7 Model Regresi Weibull


Pengaruh variabel independen X dalam model regresi Weibull diekspresikan melalui parameter skala = f (X; ), maupun parameter bentuk = f (X; )
dengan bentuk fungsi eksponensial exp(X).
Model dengan = f (X; ) = exp(X) adalah yang sering dipakai, sehingga fungsi survival untuk regresi Weibull adalah
S(t | X) = exp ((f (X; )t) )
= exp ((exp(X)t) )

(5.19)
(5.20)

Apabila variabel random survival T di-transformasikan menjadi Y = log T


maka, fungsi survival Y adalah
S(y | X) = exp ((exp(X)ey ) )
= exp ((exp(y + X)) )
= exp ((exp(y + X)))

(5.21)

atau dapat dituliskan sebagai




S(t | X) = exp exp

y X



(5.22)

yang dikenal sebagai fungsi survival distribusi extreme value, dengan paramater
lokasi = X dan parameter skala = 1/.
Fungsi likelihood model (5.22) disusun berdasarkan bentuk umum fungsi likelihood (5.7), yaitu
L(, ) =

n
Y

f (ti , | Xi )i S(ti , | Xi )1i

i=1
n 
Y

i


1
y
y
=
exp
exp

i=1



1i
y X
exp exp
.

(5.23)

Paket statistik standar menyediakan fasilitas untuk mengestimasi yang memaksimumkan L(, ). Beberapa paket statistik, misalnya R dengan fungsi survreg()
yang dihasilkan perlu dikalikan dengan 1,
dalam library survival, estimasi
karena spesifikasinya adalah berdasarkan = X, bukan = X.

54

5.8. Model Regresi Log-normal

Tabel 5.3: Estimasi Parameter Model (5.24)

Variabel
se()
Intersep 0 = 2,248 0,166
x1 (6-MP) 1 = 1,267 0,311
Contoh 5.4
Menggunakan data Tabel 1.1 pada Contoh 1.7, Bab 1 (atau merujuk Contoh 5.3) estimasilah parameter model regresi survival Weibull
S(t | X) = exp ((exp(0 + 1 X1 ))t) )

(5.24)

dengan X1 bernilai 1 jika perlakuan 6-MP, 0 jika placebo.


Jawab:
Menggunakan bantuan paket statistik diperoleh estimasi parameter seperti pada Tabel
5.3. Terlihat bahwa pengaruh perlakuan 6-MP adalah negatif terhadap kambuhnya leukemia, atau pemberian 6-MP mencegah kambuhnya leukemia (Tabel 5.3). Dibandingkan
dengan hasil contoh sebelumnya dengan model regresi eksponensial (Tabel 5.2), meskipun nilai estimasinya berbeda, kesimpulan yang diperoleh sejalan. Untuk model Weibull
ini diperoleh pula estimasi untuk yaitu
= 1,365758.

5.8 Model Regresi Log-normal


Variabel independen X dalam model regresi log-normal memodifikasi fungsi survival (3.13) melalui parameter (X) = X, menjadi


log(t) X
(5.25)
S(t) = 1

dengan (x) adalah fungsi distribusi kumulatif Normal Standar.


Demikian pula dengan fungsi densitas nya menjadi


1
1
2
f (t) = exp 2 (log(t) X) .
2
t 2

(5.26)

Model regresi log-normal dapat dipandang sebagai model linear log(T ), yaitu
log T = X +

(5.27)

dengan T berdistribusi log-normal dengan fungsi densitas (5.26), dan berdistribusi normal standar.

55

5.9. Model Regresi Log-logistik

5.9 Model Regresi Log-logistik


Variabel penjelas dalam model regresi log-logistik diekspresikan melalui parameter (X) = exp(X) dalam model survival log-logistik (3.19) sebagai berikut
S(t | X) =

1
1 + (exp(X)t)

(5.28)

Pada suatu titik t0 tertentu, dapat dilihat rasio antara survive dan non-survive
S(t0 | X)
1
=
1 S(t0 | X)
(exp(X)t)

(5.29)

sebagai semacam odds ratio pada response biner. Rasio seperti (5.29) ini dapat
dihitung pada semua t, tergantung titik mana yang menjadi perhatian. Kemudian
apabila diambil log dari rasio tersebut maka akan diperoleh




S(t0 | X)
1
log
= log
1 S(t0 | X)
(exp(X)t)
= [log(exp(X)) + log(t)]
= (X) log(t)
= Xb log(t)
(5.30)
dengan b = .
Model regresi log-logistik merupakan salah satu model yang memenuhi sifat
proportional odds. Yaitu, apabila ada dua kelompok atau individu i dan j yang
berbeda, dan odds ratio keduanya adalah proporsional atau
S(t0 | Xi b)
S(t0 | Xj b)
=
1 S(t0 | Xi b)
1 S(t0 | Xj b)

(5.31)

dengan adalah konstan untuk semua t.


Likelihood dan estimasi parameter model ini dapat dirumuskan dari bentuk
umum fungsi likelihood (5.7), dengan mengganti fungsi survival dengan (5.28)
untuk data yang tersensor kanan; dan mengganti fungsi densitas dengan
f (t | X) = (exp(X)t)1 [1 + (exp(X)t) ]2

(5.32)

untuk observasi lengkap.

5.10

Identifikasi Model

Tabel 5.4 adalah ringkasan untuk mengidentifikasi distribusi model survival yang
sesuai, apabila diberikan data survival tertentu. Ringkasan ini untuk data univariat
(tanpa variabel independen) yang dapat menjadi dasar untuk identifikasi model
regresi survival.

56

5.10. Identifikasi Model

Tabel 5.4: Identifikasi Distribusi


log h(t)
konstan?
Eksponensial
t linear?
Gompertz

H(t)
log H(t)
t linear?

Eksponensial

t linear?
Gompertz

log(t)

linear?
Weibull
nonmonotonik
Lognormal
Loglogistik

log(t) linear?
Weibull
t linear
asimtotik?
Distribusi dgn
ekor
eksponensial

Koefisien variasi
1?
< 1?
Gamma, Weibull
Log-normal
Log-logistik

> 1?
Gamma, Weibull
Log-normal
Log-logistik
Compound
exponential

5.10.1 Menggunakan Probability-Plot


Identifikasi dan penilaian distribusi dapat dilakukan menggunakan p-plot (probability plot) sebagai berikut:
1. Pilih distribusi teoritis untuk t
2. Hitung estimasi fungsi distribusi kumulatif F (t) sampel dari t
3. Plot t atau fungsi dari t dengan estimasi fungsi distribusi kumulatif nya
4. Fit garis lurus pada plot tersebut
Sebagai contoh, beberapa distribusi berikut dapat dikenali melalui p-plot:
Distribusi eksponensial
plot garis lurus antara t dengan log[

1
]
1 F (t)

Distribusi Weibull
"
#
1
1
1
plot garis lurus antara log t dengan log + log log

1 F (t)
Distribusi Log-normal
plot garis lurus antara log t dengan1 (F (t))

57

5.11. Latihan Bab 5

5.10.2 Menggunakan Hazard-Plot


Hazard-plot (h-plot) lebih tepat digunakan dibandingkan p-plot jika ada data yang
tersensor. Langkah-lagkahnya adalah sebagai berikut:
1. Urutkan t mulai dari yang terkecil sampai yang terbesar.
2. Beri angka n untuk yang terkecil dan n 1 untuk yang berikutnya sampai
yang terbesar diberi angka 1. Angka ini dinamakan K penomoran terbalik
(reserve-order numbers).
3. Hitung estimasi hazard 1/K, untuk data yang lengkap (tidak tersensor) saja.
4. Hitung Nilai hazard kumulatif
Sebagai contoh, beberapa distribusi berikut dapat dikenali melalui h-plot:
Distribusi Eksponensial

plot garis lurus antara t dengan log[H(t)]


Distribusi Weibull

plot garis lurus antara log t dengan log[H(t)]


Distribusi Log-normal

plot garis lurus antara log t dengan1 ([1 eH(t) ])

Nilai H(t)
juga dapat menggunakan Nelson-Aalen.

5.11

Latihan Bab 5

5.1. Tulislah model AFT untuk model baseline survival dan hazard Weibull!
5.2. Diketahui baseline hazard function h(t) = et , , > 0, t 0.
(a) Tulislah model AFT dari baseline hazard function di atas, dengan satu
variabel penjelas
(
1 jika subyek adalah laki-laki
x=
0 jika subyek adalah perempuan

58

5.11. Latihan Bab 5

Tabel 5.5: Data Soal 5.6


i
1
2
3
4

t
1
2
3
5

status
meninggal
meninggal
tersensor-kanan
tersensor-kanan

x1i
2
1
4
8

x2i
1
1
4
8

(b) Buatlah grafik fungsi survival model AFT tersebut untuk masingmasing kelompok laki-laki dan perempuan (dalam satu gambar), jika
diketahui = 0,5
(c) Interpretasikan grafik tersebut!
5.3. Untuk T berdistribusi eksponensial, tunjukkan bahwa fungsi survival AFT
ekivalen dengan fungsi survival parametric proportional hazards (model
proportional hazards dengan h0 (t) konstan).
5.4. Apabila rasio antara dua fungsi hazard h(t | x1 ) dan h(t | x2 ) adalah konstan sepanjang waktu t, maka dikatakan h(t | xj ) adalah Model hazard proporsional (atau PHM : proportional hazard models). Tunjukkan bahwa model
!
p
X
1 (t | x) = (t) exp
j xj
j=1

adalah PHM, sedangkan


2 (t | x) = (t) +

p
X

j xj

j=1

adalah bukan PHM, jika diketahui (t) bukan fungsi konstan terhadap t.
5.5. Dengan menggunakan model regresi Weibull, estimasilah parameter regresi
h(t | X) = exp(X), dengan T adalah lama waktu sampai rusaknya komponen elektrik dan X adalah voltase, pada data pada Tabel 1.2, Contoh 1.8
Bab 1!
5.6. Diberikan model hazard h(t | x) = 1 x1 + 2 x2 , dengan 1 dan 2 adalah
parameter regresi, T adalah usia meninggal. Dengan mengasumsikan distribusi eksponensial Carilah MLE 1 dan 2 , apabila diberikan data Tabel
5.5 ini dan hitunglah nilainya.

59

5.11. Latihan Bab 5

Tabel 5.6: Data Soal 5.7


Laki-laki
Usia 100 125 150
50 13
12
85
51 11
21
95
52
8
8 105
53 10
20 113
54
8 11 109
55 13
22 126
56 19
16 142
57
9 19 145
58 17
23 155
59 14
28 182

Perempuan
100 125 150
3 12
49
7 13
53
8 13
69
12
16
61
12
15
60
8 12
68
11
11
96
5 19
97
5 17
93
9 14
96

5.7. Diberikan data mortalitas (usia kematian) antara 50-59 tahun dan informasi
tekanan darah sistolik untuk laki-laki maupun perempuan seperti pada Tabel
5.6.
(a) Tulislah model AFT Gompertz apabila diberikan x1 adalah 1 jika perempuan, 0 jika laki-laki; x2 adalah tekanan darah.
(b) Estimasilah parameter model AFT Gompertz
5.8. Durasi pemogokan buruh mengikuti model regresi hazard proporsional (parametrik) dengan baseline hazard konstan (berdistribusi eksponensial). Variabel independen yang menjadi perhatian adalah indeks kondisi perburuhan
(terkait Upah minimum, tunjangan, asuransi, dst.). Apabila indeks bernilai
10, mean durasi pemogokan 0,2 tahun. Jika indeks bernilai 25, median durasi pemogokan 0,04 tahun. Berapa peluang akan terjadi pemogokan selama
lebih dari satu tahun jika indeks kondisi perburuhan bernilai 5?

6
Regresi Cox
6.1 Tujuan Pembelajaran
Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan
dapat:
6.1. Menjelaskan prinsip Partial Likelihood dalam estimasi parameter model
Regresi Cox
6.2. Melakukan analisis data survival menggunakan model Regresi Cox
6.3. Menjelaskan prinsip metode untuk data ties dalam regresi Cox
6.4. Menjelaskan prinsip stratifikasi dan non-proporsionalitas

6.2 Model dan Asumsi


Model Regresi Cox adalah model regresi hazard proporsional dengan fungsi baseline hazard nya dimodelkan secara non-parametrik dan fungsi variabel independennya dimodelkan secara parametrik. Sehingga model ini dikenal juga sebagai Cox proportional hazards model (Cox, 1975; Cox, 1972) atau Cox Semiparametric hazards model.
Regresi Cox dimodelkan sebagai berikut
h(t | x) = h0 (t)(x, )

(6.1)

dengan x = (x1 , . . . , xp ) adalah vektor kovariat (variabel independen) dan =


(1 , . . . , p ) adalah parameter dari model regresi. Dalam regresi ini hazard untuk
tiap-tiap individu sama dengan baseline hazard h0 (t) apabila pengaruh variabel

60

61

0.3
0.0

0.1

0.2

S(t)

0.4

0.5

0.6

6.2. Model dan Asumsi

Gambar 6.1: Kurva hazard untuk dua grup atau individu yang berbeda, 1 = 0, 1
dan 2 = 0, 3
independen tidak diperhatikan, atau nilai x = (x1 , . . . , xp ) semuanya sama dengan nol. Hazard dari masing-masing individu termodifikasi secara multiplikatif
oleh karakteristik masing-masing individu, yang diekspresikan dengan (x, ).
Asumsi yang mendasari model ini adalah proporsionalitas. Asumsi ini dapat
digambarkan seperti pada Gambar 6.1. Misalkan ada dua grup atau dua individu
yang masing-masing mempunyai hazard 1 = 0,1 dan 2 = 0,3. Hazard ratio dari
kedua individu ini adalah 2 /1 = 0,3/0,1 = 3. Nilai hazard ratio ini tetap atau
konstan atau proporsional sepanjang waktu. Asumsi hazard ratio yang konstan
inilah yang mendasari Regresi Cox.
Dalam asumsi hazard proporsional, semua individu dianggap mempunyai satu
baseline hazard yang sama yang kemudian nilainya menjadi berbeda atau termodifikasi sesuai karakteristik atau informasi pada masing-masing individu. Dalam
contoh hazard ratio di atas, jika baseline hazard nya adalah h0 (t) = 0,1 maka
individu pertama tidak memodifikasi hazardnya karena 1 = 0,1, tetapi individu
kedua memodifikasi menjadi 2 = 0,3.
Ilustrasi yang lain, misalnya baseline hazard pada satu populasi mengikuti hazard distribusi Weibull dengan parameter dan tertentu. Kemudian ada satu

62

6.3. Estimasi parameter

kelompok yang termodifikasi nilai hazard nya menjadi 2 kalinya, sedangkan kelompok yang lain menjadi 0,8 kali nya. Gambar hazard untuk populasi ini adalah
seperti pada Gambar 6.2. Garis utuh adalah baseline hazard h0 (t). Hazard ini
termodifikasi menjadi 2h0 (t) dan menjadi 0,8h0 (t). Meskipun hazardnya menjadi
berbeda namun rasio hazardnya selalu tetap, yaitu 2 untuk kelompok yang pertam
dan 0,8 untuk kelompok yang kedua.
Model hazard proporsional dapat dimodelkan secara paramatrik maupun nonparametrik atau semi-parametrik. Model hazard proporsional semi-parametrik
sering dinamakan sebagai Model regresi Cox. Berikut ini berturut-turut adalah
fungsi hazard, survival dan hazard kumulatif untuk model regresi Cox.
h(t | X) = h0 (t)exp(X)

(6.2)

S(t | X) = S0 (t)exp(X )

(6.3)

H(t | X) = H0 (t) exp(X)

(6.4)

dengan X, , h0 , S0 dan H0 sama seperti yang didefinisikan pada model AFT.

6.3 Estimasi parameter


Estimasi parameter pada model Regresi didasarkan pada Partial Likelihood:
L() =

kD

exp(xk )
jRk exp(xj )

(6.5)

dengan x adalah vektor kovariat (variabel penjelas); adalah parameter regresi


yang akan diestimasi; D adalah himpunan indeks j dari semua waktu kejadian
(semua tj yang mendapatkan kejadian); Rk adalah himpunan resiko (risk set) ,
semua individu (subyek) yang belum mendapatkan kejadian pada saat tertentu.
Sebagai ilustrasi untuk Partial Likelihood, misal dipunyai data survival seperti
pada Tabel 6.1. Data dalam Tabel tersebut terdiri atas t sebagai data survival,
adalah indikator tersensor-kanan, dan x variabel penjelas atau kovariat. Sedangkan ID adalah identitas atau nomor urut individu. Model yang menjadi perhatian
adalah
h(t | x) = h0 (t) exp(x)

(6.6)

Data pada Tabel 6.1 dapat di-ilustrasikan seperti Gambar 6.3. Tiap individu
memiliki skor sebagai fungsi dari variabel penjelas yang dimiliki masing-masing.

63

6.3. Estimasi parameter

h0(t)

h(t)

2h0(t)

0.8h0(t)

Gambar 6.2: Baseline hazard dan kurva hazard untuk dua grup yang berbeda,
1 = 0, 1 dan 2 = 0, 3

Tabel 6.1: Contoh data survival untuk ilustrasi Partial Likelihood


ID
1
2
3
4

t
5
7
2
4

x
1 2,58
1 1,36
1 -0,54
0 3,30

64

6.3. Estimasi parameter

(1) = e2,58

e2,58
e2,58 +e1,36

(2) = e1,36

e1,36
e1,36

(3) = e-0,54

e-0,54
e2,58 +e1,36 +e-0,54 +e3,30

(4) = e3,30

4
waktu

Gambar 6.3: Ilustrasi untuk Partial Likelihood Data Tabel 6.6


Dalam regresi linear, skor adalah kombinasi linear dari variabel penjelas dengan
koefisien regresi. Demikian halnya dengan regresi Cox skor tersebut merupakan eksponensial kombinasi linear dari variabel penjelas dengan koefisien regresi,
yang dinotasikan dengan . Sebagai contoh, individu ke-2 akan mempunyai skor
(2) = exp(1,36).
Himpunan resiko (risk set) dalam partial likelihood adalah himpunan semua
individu yang mempuunyai kemungkinan untu mendapatkan event tepat sebelum
suatu titik waktu. Sebagai contoh, lihat Gambar 6.3, pada saat t = 5, himpunan
resiko nya adalah individu 1 dan 2 saja (yang terlewati garis vertikal pada saat
t = 5. Mereka adalah individu yang masih mungkin untuk mendapatkan event
pada saat tepat sebelum t = 5 (limit dari kiri mendekati 5). Sedangkan individu
ke-3 sudah mendapatkan event sebelumnya, dan individu ke-4 tersensor sebelum
t = 5. Pada suatu titik waktu dapat dilihat rasio antara skor individu yang mendapatkan event pada titik waktu tersebut, dibandingkan dengan jumlahan skor individu dalam himpunan resiko. Sebagai contoh pada saat t = 5, rasio skor-nya
adalah
(1)
.
psi(1) + (2)
Rasio skor inilah yang menjadi dasar pembentukan partial likelihood.
Rumusan partial likelihood (6.5) menyatakan bahwa produk dari rasio skor
hanya dihitung pada saat ada event. Sehingga produk tersebut hanya berjalan
sebanyak event yang terjadi. Dalam ilustrasi ini hanya ada 3 event, yang berarti
hanya ada 3 rasio skor yang membentuk produk.

65

2.5
3.0
3.5
4.5

4.0

log.likelihood()

2.0

1.5

6.3. Estimasi parameter

1 0.655

Gambar 6.4: Fungsi Partial Likelihood (6.7)


Partial likelihood untuk data ilustrasi ini dapat disusun sebagai berikut,
(3)
(1)
(2)

(1) + (2) + (3) + (4) (1) + (2) (2)


e-0,54
e2,58
e1,36
= 2,58

(6.7)
e
+ e1,36 + e-0,54 + e3,30 e2,58 + e1,36 e1,36

L() =

Gambar 6.4 adalah gambar fungsi log partial-likelihood terhadap parameter .


Terlihat pada gambar tersebut bahwa nilai parameter yang memaksimumkan
log partial-likelihood terletak pada () = -0,655, dengan nilai partial likelihood
log(L(-0,655)) = -1,575, atau partial likelihood sebesar L(-0,655) = 0,207. Nilai
() inilah yang menjadi estimasi untuk parameter dalam regresi Cox.
Banyak metode yang dapat digunakan untuk mencari estimator yang memaksimalkan Partial Likelihood. Salah satu diantaranya adalah Metode Newton Rhapson. Metode ini memerlukan turunan pertama dan kedua fungsi Partial Likelihood terhadap parameternya.
Dengan alasan yang sama seperti pada Bagian 3.3 Bab 3, log Partial Likelihood lebih mudah dalam manipulasi dan komputasi dibandingkan dengan Partial
Likelihood nya sendiri.
Fungsi log Partial Likelihood () dapat diperoleh dari persamaan (6.5) seba-

66

6.3. Estimasi parameter

gai berikut
() =

X
kD

xk

log

kD

exp(xj )

jRk

(6.8)

Turunan pertama dari () atau sering disebut sebagai score function adalah
P
X
X jR x(j)h exp(xj )
Pk
(6.9)
Uh () =
x(k)h
exp(x
)
j
jR
k
kD
kD

dengan h = 1, . . . , p, yaitu banyaknya parameter dalam model.


Negatif turunan kedua dari () atau sering disebut sebagai information matrix nya adalah
#
"P
P
X jR xjg xjh exp(xj ) X
x
exp(x
)
jg
j
jR
Pk
P k
Igh () =

exp(x
)
j
jRk
jRk exp(xj )
kD
kD
#
"P
jRk xjh exp(xj )
P
(6.10)
jRk exp(xj )
dengan g, h = 1, . . . , p
Untuk menyederhanakan penulisan didefinisikan
P
jRk x(j)h exp(xj )
P
Akh () =
jRk exp(xj )

(6.11)

sehingga turunan pertama dari () dapat ditulis sebagai


X

Uh () =
x(k)h Akh ()

(6.12)

dan turunan kedua dari () dapat ditulis sebagai


#
"P
X
x
x
exp(x
)
jg
jh
j
jRk
P
Akg ()Akh ()
Igh () =
exp(x
j )
jR
k
kD

(6.13)

kD

Algoritma Newton-Rhapson untuk estimasi parameter berdasarkan log


Partial-Likelihood adalah sebagai berikut
(0)
1. Mulai dengan nilai awal
2. Pada iterasi ke-k, nilai estimasi Estimasi di-update
(k+1) =
(k) + I(
(k) )1 U(
(k) )

67

6.4. Ties dalam Partial Likelihood

3. Iterasi dihentikan dengan kriteria kekonvergenan (

(k+1)

dan variansinya V(
= I()
1
)
4. Diperoleh estimasi

) (

(k)

Beberapa paket statistik standar seperti SAS, S-PLUS, SPSS, MINITAB, STATA dan R menyediakan fasilitas untuk melakukan estimasi Partial Likelihood seperti tersebut di atas.

6.4 Ties dalam Partial Likelihood


Bilamana terdapat ties (data yang mempunyai nilai survival yang sama), Partial
Likelihood akan bermasalah dalam menentukan himpunan resiko nya. Untuk itu
perlu modifikasi dari rumusan Partial Likelihood (6.5).
Diberikan data survival: t1 < t2 < . . . < tn(D) dengan n(D) adalah banyaknya
waktu t yang mendapatkan kejadian; dk adalah banyaknya kejadian saat tk (jika
dk 1 dinamakan
P ties); Dk adalah himpunan individu yang mendapatkan kejadian
saat tk ; Sk = jD xj adalah jumlahan nilai variabel x pada saat tk .
Metode yang dapat digunakan untuk mengatasi ties adalah metode Breslow,
Efron dan Exact (metode diskret). Dalam diktat ini akan dibahas metode Breslow
dan Efron.
Partial Likelihood dalam metode Breslow adalah sebagai berikut:
Y
exp(Sk )
(6.14)
L() =
id k
hP
kD
exp(x
)
j
jRk
Untuk metode Efron modifikasii nya adalah sebagai berikut:
Y
exp(Sk )
i
L() =
Q dk h P
j1 P
kD
iDk exp(xi )
j=1
iRk exp(xi ) dk

(6.15)

6.5 Interpretasi Parameter


Parameter dalam regresi Cox dapat diinterpretasikan sebagai hazard ratio. Misalkan diberikan model regresi Cox dengan satu variabel independen
h(t | x) = h0 (t) exp(x)
dengan
x =

0
1

placebo
obat baru

68

6.6. Stratifikasi

maka hazard ratio (HR) untuk hazard obat baru terhadap placebo adalah
h(t | x = 1)
h(t | x = 0)
h0 (t) exp(1 )
=
h0 (t) exp(0 )
= exp()

HR =

Interpretasinya, jika = 0 maka obat baru dan placebo sama efeknya. Namun
jika < 0 maka obat baru memberikan efek yang lebih baik daripada placebo
(resiko kematian lebih rendah). Kemudian jika > 0 obat baru memberikan efek
yang lebih buruk daripada placebo (resiko kematian lebih tinggi)
Secara umum nilai estimasi dapat digunakan untuk mengidentifikasi faktor
resiko (risk factors, prognostic factors) yang berkaitan dengan variabel dependen
time-to-event T .

6.6 Stratifikasi
Stratifikasi dalam model Cox memungkinkan untuk menentukan baseline hazard yang berbeda untuk masing-msing strata namun parameter sama untuk tiap
strata, yaitu
hj (t | x) = h0j exp(x)

(6.16)

dengan j = 1, . . . , s adalah banyaknya strata.


Estimasi untuk menggunakan partial likelihood (6.5) atau modifikasinya
untuk data ties dengan Breslow (6.14) atau Efron (6.15). Partial likelihood dengan
strata adalah sebagai berikut
() = 1 () + 2 () + . . . + s ()

(6.17)

dengan j (), j = 1, . . . , s adalah partial likelihood yang dihitung hanya pada


subset data dalam strata ke-j.

6.7 Inferensi Parameter Regresi Cox


Metode inferensi standar yang berdasar pada sifat asimptotik likelihood, yaitu
Wald Test, Score Test dan Likelihood Ratio Test, dapat digunakan untuk inferensi
parameter regresi Cox.
Bila hipotesis nol uji adalah H0 : = 0 , maka berturut-turut statistik uji dari
Wald Test, Score Test dan Likelihood Ratio Test adalah

6.7. Inferensi Parameter Regresi Cox

69

Wald Test
)T I()(

)
2W = (
0
0

(6.18)

2SC = U( 0 )T I1 ( 0 )U( 0 )

(6.19)

( 0 ))
2LR = 2(()

(6.20)

Score Test

Likelihood Ratio Test

Untuk n cukup besar 2W , 2LR , 2SC berdistribusi Chi-square dengan derajad bebas
p, dengan asumsi H0 benar.
Contoh 6.1
Merujuk ke data contoh 1.9 Bab 1, lakukan analisis data menggunakan regresi Cox.
Jawab: Latar belakang permasalahan dalam data tersebut adalah penelitian terkait
faktor-faktor yang mempengaruhi lama menyusui. Data survival yang menjadi perhatian
adalah lama waktu mulai dari bayi diberi ASI sampai disapih (dihentikannya pemberian
ASI) atau pengamatan berakhir, karena penelitian telah berakhir maupun karena subyek
tidak berpartisipasi lagi dalam penelitian.
Model regresi Cox dapat dimulai dari model yang memuat semua variabel yang menjadi perhatian, kemudian diuji apakah kontribusi masing-masing variabel pada model cukup signifikan dalam menaikkan nilai partial likelihood. Dapat digunakan uji likelihood
ratio untuk membandingkan model yang akan dievaluasi dengan model pada saat awal.
Model regresi Cox dengan semua variabel yang menjadi perhatian adalah sebagai
berikut,
h(t | x) = h0 (t) exp (x1 1 + x2 2 + x3 3 + x4 4 + x5 5 + x6 6 + x7 7 + x8 8(6.21)
)
dengan x1 adalah variabel boneka bentukan dari variabel race, x1 = 1 jika ras kulit
hitam, 0 jika ras putih atau lainnya ; x2 adalah variabel boneka bentukan dari variabel
race, x2 = 1 jika ras lainnya,0 jika ras hitam atau putih; x3 = 1 jika ibu dikategorikan
miskin, 0 jika tidak; x4 = 1 jika ibu merokok, 0 jika tidak; x5 = 1 jika ibu peminum
alkohol, 0 jika tidak; x6 adalah usia ibu saat melahirkan, x7 adalah lama pendidikan; dan
x8 = 1 jika periksa kehamilan setelah bulan ketiga, 0 jika tidak. Menggunakan alat bantu
paket statistik, dapat diperoleh parameter dari partial likelihood model regresi Cox di atas.
Dihitung uji likelihood ratio
( ))
2LR = 2(()
0

(6.22)

adalah log-partial-likelihood pada model yang akan dievaluasi, ( ) adalah


dengan ()
0
log-partial-likelihood pada model pembanding. Hipotesis nol untuk uji ini adalah H0 :
= 0.

70

6.7. Inferensi Parameter Regresi Cox

Tabel 6.2: Uji Likelihood Ratio Model (6.21)


Variabel db
LRT
race 2 11,0012
poverty 1
5,2354
smoke 1
9,5823
alcohol
1
1,8002
agemth
1
1,4301
yschool
1
5,8138
pc3mth
1
0,0876

p-value
0,004084
0,022131
0,001965
0,179693
0,231752
0,015901
0,767215

db: derajat bebas


LRT: likelihood-ratio test

Untuk melihat kontribusi masing-masing variabel terhadap nilai likelihood, maka setiap variabel diuji dengan likelihood-ratio test. Model dengan variabel penuh (semua
variabel dalam model (6.21)) dibandingkan dengan model yang telah dikurangi satu variabel yang diuji. Misalnya untuk variabel race. Model dengan semua variabel termasuk
race mempunyai log-partial-likelihood -5175.520 (dapat dihitung dengan paket statistik).
Model dengan semua variabel kecuali race mempunyai log-partial-likelihood -5181.021.
Sehingga uji LR untuk race adalah
2LR = 2((5175,520) (5181,021)
= 11,002

Nilai probabilitas signifikansinya (p-value) adalah P (W > 11,002) = 0,00408, dengan


W berdistribusi 2b=2 . Variabel race dalam model ini memberikan dua variabel boneka
karena race mempunyai 3 kategori (variabel x1 dan x2 dalam model (6.21)), sehingga
memberi kontribusi 2 parameter pula (1 dan 2 ). Nilai beda dalam banyaknya parameter
inilah yang menentukan derajat bebas dalam uji LR. Hasil lengkap uji LR untuk semua
variabel adalah seperti pada Tabel 6.2.
Terlihat bahwa variabel race, poverty, smoke dan yschool signifikan dalam model.
Sehingga model yang lebih baik dengan lebih sedikit parameter dan log-partial-likelihood
yang masih besar adalah
h(t | x) = h0 (t) exp (x1 1 + x2 2 + x3 3 + x4 4 + x5 5 + x7 7 )

(6.23)

dengan Nilai Uji LR seperti pada Tabel 6.3. Hasil estimasi parameter model (6.23) adalah
seperti pada Tabel 6.4.
Model (6.23) dengan uji kebaikan model Tabel 6.3 dan hasil estimasi Tabel 6.4 merupakan model final untuk data ini. Tentu saja masih harus dilihat secara substansi dan
diinterpretasikan nilai koefisien dari masing-masing estimasi parameter.
yang juga meInterpretasi model dapat dilihat selain pada juga pada nilai exp()
rupakan nilai hazard ratio nya. Pada variabel ras, kulit hitam dan lainnya mempunyai

71

6.7. Inferensi Parameter Regresi Cox

Tabel 6.3: Uji Likelihood Ratio Model (6.23)


Variabel db
LRT
p-value
race 2 10,7434 0,004646
poverty 1
5,3205 0,021076
smoke 1 11,0858 0,000870
yschool
1
3,8197 0,050653
db: derajat bebas
LRT: likelihood-ratio test

Tabel 6.4: Estimasi parameter Model (6.23)


Variabel
x1 (ras kulit hitam)
x2 (ras lainnya)
x3 (poverty)
x4 (smoke)
x7 (yschool)

0,17835
0,30563
-0,20954
0,26437
-0,03731

exp()
1,19524
1,35748
0,81096
1,30261
0,96338

se()
0,10406
0,09706
0,09233
0,07825
0,01914

hazard ratio yang lebih tinggi dari kulit putih, exp(1 ) > 1 dan exp(2 ) > 1. Hazard
ratio yang lebih besar dari satu berarti kecenderungan untuk berhenti menyusui lebih awal
di kalangan kulit hitam dan lainnya cukup tinggi. Merokok juga mempunyai hazard ratio
yang lebih tinggi dari tidak merokok (4 > 1). Sehingga dapat di-interpretasikan merokok mengakibatkan penhyapihan yang lebih cepat. Sebailknya, kemiskinan, maupun
berpendidikan memperlama penyapihan. Secara substansial, mungkin karena ibu yang
miskin cenderung tidak mampu membeli susu formula dan menggantinya dengan ASI.
Untuk ibu yang berpendidikan barangkali sudah cukup tahu manfaat ASI sehingga lebih
lama dalam memberikan ASI.
Untuk menunjukkan efek variabel penjelas pada survival (lama menyusui dalam contoh ini), dapat digunakan plot estimasi fungsi survival. Misalnya ingin dilihat pengaruh
merokok terhadap lama menyusui. Plot fungsi survival dapat dibuat untuk masing-masing
status merokok (variabel smoke) dengan model
S(t | x) = Sj (t)exp(x ) ,

(6.24)

dengan j = 1, 2 adalah strata, menjadi anggota strata j = 1 jika x4 = 0 (bukan perokok),


menjadi anggota strata j = 2 jika x4 = 1 (perokok). Untuk membuat plot kurva survival
dan nilai x yang sama untuk masing-masing strata, dapat diambil nilai
digunakan nilai
rata-ratanya. Grafiknya adalah seperti pada Gambar 6.5. Terlihat bahwa perokok mempunyai kurva survival yang lebih rendah daripada bukan-perokok, atau ibu yang merokok
cenereung lebih cepat menghentikan pemberian ASI.

72

0.6
0.4

estimasi S(t)

0.8

1.0

6.8. Latihan Bab 6

0.2

bukan perokok

0.0

perokok

20

40

60

80

t (minggu)

Gambar 6.5: Plot estimasi kurva survival Model (6.24)

6.8 Latihan Bab 6


6.1. Diketahui model regresi hazard proporsional h(t | x) = h0 (t) exp(x),
dengan variabel random T adalah lama hidup seorang pasien dan
(
1 jika pasien mendapatkan placebo
x=
1 jika pasien mendapatkan obat baru
Interpretasikan model ini berdasarkan hazard ratio untuk nilai = 0, < 0
dan > 0!
6.2. Diketahui data lama hidup (dalam hari) dua kelompok perlakuan untuk
tikus yang terkena suatu jenis kanker:
Kelompok 1 188 192 206 227 265+ 304 244+
Kelompok 2 156 163 205 232 233 239 240 261+ 204+
344+
dengan tanda + menunjukkan data tersensor.
(a) Buatlah grafik estimasi fungsi survival menggunakan Kaplan-Meier
untuk masing-masing kelompok (Gambarlah pada tempat yang sama
dengan skala yang sama agar dapat dilihat perbedaannya)

6.8. Latihan Bab 6

73

(b) Ujilah apakah dua kelompok tersebut mempunyai fungsi survival yang
sama dengan menggunakan uji logrank.
6.3. Diketahui data survival sebagai berikut:
grup 1 : 5
1
2
2 7
6
grup 2 : 8+ 10 4+ 4 3+
dengan + adalah tanda untuk data tersensor kanan.
(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan
Nelson-Aalen untuk masing-masing grup
(b) Ujilah bahwa survival grup 2 lebih besar daripada grup 1 dengan
menggunakan logrank test ( = 0,025)
6.4. Tulislah Partial Likelihood L() untuk data soal nomor 3 dengan variabel
independen x adalah grup, yaitu x = 0 jika subyek dari grup 1, dan x = 1
jika subyek berasal dari grup 2, dan adalah koefisien regresi untuk x.
Kemudian hitunglah L( = 2). (Gunakan metode Breslow jika ada ties)
6.5. Merujuk data seperti soal 1.4 Bab 1 (33 pasien leukemia), diberikan model
regresi hazard proporsional h(t | X) = h0 (t) exp(X1 1 +X2 2 ). Diperoleh
estimasi parameter dan standard error nya: 1 = 1,089,
(1 ) = 0,4263

dan 2 = 0,7840,
(2 ) = 0,4994; dengan log-likelihood model tanpa
variabel penjelas (null model) adalah 85,05447 dan log-likelihood ketika mencapai maksimum adalah 79,79271. Interpretasikan hasilnya dan
hitung uji likelihood ratio nya.
6.6. Diketahui data lama hidup 30 orang pasien yang menderita suatu penyakit
tertentu seperti tersebut di bawah, dengan variabel x1 = 1 adalah pasien
berusia lebih dari 50 tahun; dan x2 = 1 adalah pasien dengan tingkat keparahan penyakit tinggi.
(a) Hitunglah estimasi fungsi survival data tersebut dengan menggunakan estimasi Kaplan-Meier (tanpa variabel x1 ,x2 ) dan gambarlah kurva
nya!
(b) Dengan menggunakan paket statistik R diperoleh hasil sebagai berikut:
Call:
coxph(formula = Surv(dur, d) x1 + x2)
coef exp(coef) se(coef)
z
p
x1 1.046
2.85
0.458 2.284 0.022
x2 0.359
1.43
0.440 0.815 0.420

74

6.8. Latihan Bab 6

Data:
lama hidup
18
9
28+
31
39+
19+
45+
6
8
15
23
28+
7
12
9

x1
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1

x2
0
1
0
1
1
1
1
1
1
1
0
0
1
0
0

lama hidup
8
2
26+
10
4
3
4
18
8
3
14
3
13
13
35+

Likelihood ratio test=5.76

x1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

x2
0
1
0
1
0
0
0
1
1
1
1
0
1
1
0

on 2 df, p=0.0561

n= 30

Interpretasikanlah hasilnya!
(c) Diberikan model regresi hazard proporsional h(t | x) =
h0 (t) exp(x1 1 ). Bila observasi dibatasi hanya untuk t < 5 saja,
tulislah fungsi partial log-likelihood untuk model tersebut!
(d) Diberikan model regresi hazard proporsional hj (t | x) =
h0j (t) exp(x1 1 ), dengan j = 1, 2 adalah strata yang keanggotaan
satu subyek dalam suatu strata ditentukan oleh nilai variabel x2 , yaitu:
menjadi anggota strata 1, jika x2 = 0; menjadi anggota strata 2, jika
x2 = 1. Bila observasi dibatasi hanya untuk t < 5 saja, tulislah fungsi
partial log-likelihood untuk model dengan strata tersebut tersebut!
(e) Jelaskan alasan penggunaan strata dalam model regresi Cox, keuntungan dan kerugiannya bila dibandingkan dengan model tanpa strata
6.7. Tunjukkanlah bahwa Metode ties-adjustment Efron akan sama dengan partial likelihood biasa jika tidak ada ties dalam data!
6.8. Jelaskan mengapa pemodelan dengan stratifikasi terkadang diperlukan dalam regresi Cox, dan sebutkan kerugian stratifikasi jika ada!

6.8. Latihan Bab 6

75

6.9. Merujuk Soal 7 Bab 4, gunakan regresi Cox untuk menganalisis data mortalitas akibat penyakit kronis tersebut, dan bandingkan hasilnya dengan uji
log-rank
6.10. Merujuk Contoh 1.8 Bab 1, gunakan regresi Cox untuk menganalisis data
pengaruh voltase terhadap kerusakan suatu alat elektrik!

Bibliografi
Cox, D. R. (1972). Regression models and life-tables (with discussion), Journal of the
Royal Statistical Society, Series B, Methodological 34: 187220.
Cox, D. R. (1975). Partial likelihood, Biometrika 62: 269276.
Cox, D. R. and Oakes, D. O. (1984). Analysis of survival data, Chapman & Hall Ltd.
Klein, J. and Moeschberger, M. (2003). Survival analysis: techniques for censored and
truncated data, Statistics for biology and health, Springer.
Lawless, J. (2003). Statistical models and methods for lifetime data, Wiley series in
probability and statistics, Wiley-Interscience.

76

You might also like