LOGISTIC REGRESSION Chapter 1

Regresi logistic merupakan salah satu analisi multivariate, yang berguna untuk memprediksi dependent variabel berdasarkan variabel independen.

Data

Pada logistic regresi, dependen variabel adalah variabel dikotomi (kategori). Ketika kategori variabel dependennya berjumlah dua kategori maka digunakan binary logistic, dan ketika dependen variabelnya lebih dari dua kategori maka digunakan multinominal logistic regression. Lalu ketika dependen variabelnya berbentuk ranking, maka disebut dengan ordinal logistic regression.

Konsep Regresi Logistik

Regresi logistik merupakan alternative uji jika asumsi multivariate normal distribution pada variabel bebasnya tidak bisa terpenuhi ketika akan dilakukan analisis diskriminan. Tidak terpenuhinya asumsi ini dikarenakan variabel bebas merupakan campuran antara variabel kontinyu (metric) dan kategorial (non metric). Misalnya, probabilitas bahwa orang yang menderita serangan jantung pada waktu tertentu dapat diprediksi dari informasi usia, kebiasaan merokok, jenis kelamin, dan lainnya.

Asumsi Regresi Logistik

  • Regresi logistik tidak membutuhkan hubungan linier antara variabel bebas dengan variabel terikat.
  • Regresi logistik dapat menyeleksi hubungan karena menggunakan pendekatan non linier log transformasi untuk memprediksi odds ratio. Odd dalam regresi logistik sering dinyatakan sebagai probabilitas. Misal Odd sebuah perusahaan dapat bangkrut atau berhasil atau odd seorang anak dapat lulus atau tidak pada Ujian Nasional.
  • Variabel bebas tidak memerlukan asumsi multivariate normality
  • Asumsi homokedastis tidak diperlukan
  • Variabel bebas tidak perlu dirubah ke bentuk metric (interval atau skala ratio)

CONTOH KASUS Logistic Regression

Data Yang Diberikan Adalah Data Fiktif Bukan Data Sebenarnya, Cuma Sebagai Latihan Uji Statistik

Seorang dokter ingin mengetahui probabilitas seorang pasien terkena penyakit jantung berdasarkan rutinitas kebiasaan merokok dan usia

Data dikumpulkan dari catatan medis sebanyak 30 orang pasien yang melakukan pemeriksaan kesehatan di RS ABC

Sakit Rokok Usia
1 0 51
1 1 46
1 1 53
1 0 55
1 1 43
1 1 33
1 1 42
1 1 42
1 1 46
1 1 51
1 1 46
1 1 46
1 1 46
1 1 51
1 1 25
0 1 29
0 0 38
0 0 31
0 0 47
0 0 50
0 0 51
0 1 41
0 0 32
0 0 42
0 0 38
0 0 40
0 0 42
0 0 33
0 0 43
0 0 46

Keterangan :

sakit (1), tidak sakit (0)

merokok (1), tdk merokok (0)

Usia (usia dalam tahun)

PENYELESAIAN KASUS

Pada menu Analyze, Pilih Regression >> Binary Logistic

Masukkan variabel sakit ke Dependent, kemudian variabel rokok dan usia ke “covariate box”

Kemudian, Klik Options, lalu beri tanda pada Classification Plots, Hosmer-Lemeshow GoF, Correlation matrix, dan itteration history

Klik Continue, kemudian OK

HASIL Dan INTERPRESTASI

Output didownload OUTPUT LOGISTIC REGRESSION 1

Menilai Model Fit

Untuk menilai model fit dapat diperhatikan nilai statistik -2LogL yaitu tanpa mengikutsertakan variabel hanya berupa konstanta yaitu sebesar 41.589. Ketika dimasukkan 2 variabel baru maka prediksi nilai -2LogL sebesar 16.750. Artinya terdapat penurunan sebesar 41.589 – 16.750 = 24.839.

Untuk -2LogL pertama diperoleh nilai 41.589 dengan df1 = 30-1 = 29. Nilai ini signifikan pada alpha 5% yang berarti Ho ditolak, artinya model tidak fit.

nilai -2LogL kedua adalah sebesar 16.750 dengan df2 = 30-3 = 27 adalah tidak signifikan pada alpha 5%. (Nilai statistik -2LogL di atas dibandingkan dengan nilai statistik distribusi x^2.), artinya model fit dengan data.

Statistik -LogL dapat digunakan untuk menentukan apakah jika variabel bebas dimasukkan dalam model dapat secara signifikan mempengaruhi model. dengan selisih 24.839 dan df(df1-df2=29-27=2) maka menunjukkan angka ini signifikan pada alpha 5%. Hal ini berarti Ho ditolak dan Model fit dengan data.

Cox n Snell’s R Square adalah ukuran pengaruh bersama yaitu sebesar 0.563 dan nilai Nagelkerke R Square adalah sebesar 0.751. dengan demikian dapat disimpulkan bahwa kemampuan variabel bebas menjelaskan model adalah sebesar 75.10%.

Selanjutnya, Hosmer and Lemeshow’s GoF dilakukan untuk menguji hipotesis. Jika sig < 0.05 maka Ho ditolak yang berarti ada perbedaan signifikan antara model dengan nilai observasinya. Jika sig > 0.05 maka Ho diterima, artinya tidak ada perbedaan antara model dan nilai observasinya.

statistik Hosmer and Lemeshow’s GoF diperoleh sebesar 0.594 (> 0.05) sehingga dapat dinyatakan bahwa model fit dengan data. Hosmer and Lemeshow’s GoF juga menghasilkan nilai 6.475 dengan probabilitas sebesar 0,594 sehingga dapat disimpulkan bahwa model fit dengan data.

Estimasi Parameter dan Interprestasi

Estimasi Maximum Likehood parameter model dapat dilihat dari output pada tabel Variables in the Equation. Logistic Regression kemudian dapat dinyatakan :

Ln P/1-P = -11.506 + 5.348 Rokok + .210 Usia.

Variabel bebas kebiasaan merokok signifikan dengan probabilitas sebesar 0.004 (< 0.05) dan variabel usia juga signifikan dengan probabilitas 0.032. dengan memperhatikan persamaan ini maka dapat diinterprestasikan sbb :

Log of Odds seseorang terkena secara positif berhubungan dengan rokok. Probabilitas atau Odds seorang terkena penyakit jantung jika ia perokok adalah sebesar 5.348. artinya seorang perokok memiliki kemungkinan terkena serangan jantung 5.35 kali lebih besar dibanding yang tidak merokok.

Jika variabel rokok dianggap konstan, maka probabilitas seseorang terkena serangan jantung adalah sebesar 0.210 pada setiap kenaikan satu tahun usia.

Jika Rokok dianggap konstan, maka seseorang memiliki odds terkena penyakit jantung adalah sebesar 1.233 untuk setiap penambahan usia. Sementara jika usia bernilai konstan maka odds seorang terkena penyakit jantung adalah sebesar 210.286 untuk perokok dibandingkan dengan yang tidak merokok. Hasil overall clasification rate adalah sebesar 90.0% pada cutoff 50%

Kesimpulan

  • Pertama. Variabel rokok dan usia memiliki hubungan positif dengan odds penyakit jantung
  • Kedua. Jika usia bernilai konstan, maka seorang perokok memiliki odds terkena penyakit jantung sebesar 5.384 kali lebih besar dibanding yang tidak merokok
  • Ketiga. Jika rokok bernilai konstan, maka odds seorang terkena penyakit jantung adalah sebesar 0.210 pada setiap penambahan usia.

Catatan :

Cuma diingatkan….data yang Diberikan Adalah Data Fiktif Bukan Data Sebenarnya, Cuma Sebagai Latihan Uji Statistik

Sumber Referensi :

SPSS menu help

Imam Ghozali. 2009. Aplikasi Analisis Multivariate dengan program SPSS. Semarang BP:Undip, hal : 261-275

Sumber 3

Sumber 4

10 thoughts on “LOGISTIC REGRESSION Chapter 1

  1. selamat malam, saya ingin bertanya. bagaimana pengolahan data dalam spss jika tahun penelitian yang digunakan lebih dari 1? misalkan tahun 2011-2013, posisinya bagaimana? terima kasih

  2. bagaimana kalo hasil uji parallel lines dalam regresi logistic ordinal nilai sig < 0,05 dengan kata lain model tidak cocok, walupun sudah diganti dr logit ke comp log-log tetep nilainya < 0,05, kira2 apa penyebabnya ya???

  3. Salam kenal mas,, saya mau tanya dong..
    penelitian saya menggunakan regresi logistik karena variabel dependennya adalah status (1=Perusahaan Perata Laba, 2=Perusahaan bukan perata laba)
    setelah dilakukan pengujian ternyata hasilnya tidak ada satupun variabel independen yang signifikan (ada 5 variabel independen yang saya gunakan), setelah saya baca2 lagi, ternyata terjadi overdispersi, karena nilai SE nya begitu tinggi..
    pertanyaan saya,
    1. bagaimana “mengobati” overdispersi tanpa harus membuang variabelnya?
    2. data yang saya gunakan berupa data panel, apakah itu berpengaruh dalam melakukan pengujiannya? ada beberapa yang menyarankan saya harus running regresi data panel dulu, namun saya belum faham mas..
    untuk mengolah data saya menggunakan SPSS..
    mohon pencarahannya ya mas..
    terimakasih sebelumnya..

  4. Salam, ada yang ingin saya tanyakan tentang regresi logistik ini, apakah nilai Crude OR dengan adjusted OR harus beda hasilnya atau bisa saja sama? tq b4….

  5. assalam pak,,saya mau tanya,,,bagaimana cara mengolah data ROC menggunakan SPSS,,soalnya saya pernah melakukannya tapi hasilnya tidak seperti yang ada di buku literatur,,juga interpretasinya,,,terus interpretasi nulai uji wald,,mohon penjelasannya..

  6. malam..saya ingin tanya..jadi saat kondisi seperti apa kita harus memilih salah satu metode reg logistik (enter, stepwise,dan forward)?Sebenarnya untuk menguji reg logistik ini metod apa yang paling baik digunakan?Atau metode forward dan stepwise hanya sebagai pelengkap saja?
    Lalu, saya ingin bertanya..saya mencoba menggunakan reg logistik, namun kebanyakan hasilnya tidak signifikan..Kira2 ada tidak cara untuk mengeliminasi data yang membuat hasilnya tidak signifikan itu?
    Terima kasih

Leave a comment