Desain Evaluasi Program Kesehatan Reproduksi

Pertanyaan, Metode, dan Kerangka Kerja

Semester 3 | Periode 2 | MK Evaluasi Program Kesehatan Reproduksi (4 SKS) | Sesi 1 | Modul 2

Dr.dr. Budi Siswanto, Sp.OG., Subsp.Obginsos., SH., S.Kom.

🎯 Fokus: Desain Evaluasi πŸ“‹ Tugas Personal Minggu 2 πŸ” Theory of Change & Validitas

πŸ“‹ Daftar Isi Modul

A. Deskripsi Modul

Maret 2025. Ruang kerja Dr. Farid di Dinkes Provinsi Sulawesi Tenggara.

Tiga minggu setelah rapat di Jakarta, Dr. Farid menerima surat penugasan resmi: ia ditunjuk sebagai ketua tim evaluasi Program Kesehatan Reproduksi Remaja tingkat provinsi. Anggaran evaluasi: Rp 180 juta. Waktu: empat bulan. Target: laporan evaluasi komprehensif yang menjadi dasar keputusan Gubernur tentang kelanjutan program.

Ia membuka laptopnya dan membuat daftar pertanyaan yang berputar di kepalanya:

Apa sebenarnya yang ingin kita ketahui dari evaluasi ini? Apakah kita ingin tahu apakah program berhasil β€” atau mengapa berhasil atau tidak? Apakah kita ingin tahu apa yang terjadi β€” atau apa yang seharusnya terjadi? Siapa yang akan membaca laporan ini dan keputusan apa yang akan mereka buat berdasarkan laporan itu?

Kemudian ia sadar: ia belum pernah secara eksplisit menjawab pertanyaan-pertanyaan ini. Dalam tiga minggu terakhir ia sudah berbicara dengan delapan orang berbeda tentang evaluasi ini β€” dan setiap orang tampaknya memiliki gagasan yang berbeda tentang apa yang harus dievaluasi.

Kepala Seksi Kesehatan Reproduksi Remaja ingin tahu: "Sudah berapa banyak remaja yang mendapat layanan?"

Kepala Bidan Provinsi ingin tahu: "Apakah bidan-bidan yang dilatih benar-benar mengubah praktik mereka?"

Konsultan UNFPA yang mendanai sebagian program ingin tahu: "Apakah angka kehamilan remaja turun?"

Seorang akademisi dari Universitas Halu Oleo ingin tahu: "Apakah program ini menghormati hak reproduksi remaja?"

Semua pertanyaan ini penting, pikir Dr. Farid. Tapi kita tidak bisa menjawab semuanya dengan anggaran 180 juta dan empat bulan. Saya perlu memutuskan β€” dengan cara yang dapat dipertahankan β€” pertanyaan mana yang paling penting dan metode apa yang tepat untuk menjawabnya.

Sebelum mengumpulkan satu butir data pun, evaluator yang baik menghabiskan waktu yang signifikan untuk merancang evaluasi dengan cermat. Desain yang buruk menghasilkan data yang menjawab pertanyaan yang salah β€” dan data yang menjawab pertanyaan yang salah, betapapun banyaknya, tidak berguna untuk keputusan yang tepat.

Modul ini membangun kapasitas untuk merancang evaluasi program kesehatan reproduksi yang kohesif: dari memformulasikan pertanyaan evaluasi yang tajam, memilih desain yang sesuai, hingga membangun kerangka kerja yang memandu seluruh proses evaluasi.

B. Capaian Pembelajaran Modul

Setelah menyelesaikan modul ini, peserta didik mampu:

  1. Memformulasikan pertanyaan evaluasi yang tajam, terfokus, dan dapat dijawab untuk program kesehatan reproduksi
  2. Memilih desain evaluasi yang tepat berdasarkan pertanyaan evaluasi, sumber daya yang tersedia, dan konteks program
  3. Mengembangkan theory of change dan logic model yang menjadi fondasi desain evaluasi
  4. Membedakan dan menerapkan pendekatan kuantitatif, kualitatif, dan mixed methods dalam evaluasi program kesehatan reproduksi
  5. Mengidentifikasikan ancaman terhadap validitas evaluasi dan merancang strategi untuk mengatasinya

C. Materi Inti

C.1. Pertanyaan Evaluasi: Fondasi Desain yang Sering Diabaikan

C.1.1. Mengapa Pertanyaan Evaluasi adalah Keputusan Paling Penting

βš–οΈ PARADOKS EVALUASI

Sebagian besar evaluator pemula langsung bertanya: "Data apa yang harus kita kumpulkan?"

Seharusnya pertanyaan pertama adalah: "Apa yang ingin kita ketahui β€” dan untuk apa?"

MENGAPA URUTAN INI PENTING:

  • Data yang dikumpulkan sebelum pertanyaan ditetapkan cenderung mengumpulkan semua yang bisa dikumpulkan β†’ overload data yang tidak dapat diinterpretasikan
  • Pertanyaan yang tidak jelas menghasilkan temuan yang tidak jelas β†’ tidak dapat digunakan untuk keputusan
  • Keputusan tentang metode hanya dapat dibuat setelah pertanyaan jelas β†’ karena metode yang berbeda menjawab jenis pertanyaan yang berbeda

TIGA LEVEL PERTANYAAN EVALUASI:

πŸ“Š LEVEL 1 β€” PERTANYAAN TENTANG DESKRIPSI

"Apa yang terjadi?"

  • Mendeskripsikan program dan implementasinya
  • Pertanyaan tipikal: "Berapa banyak remaja yang mengikuti sesi konseling?" "Siapa yang terjangkau?" "Apa yang sesungguhnya dilakukan dalam layanan?"
  • Metode yang cocok: analisis data rutin, survei deskriptif, observasi
⭐ LEVEL 2 β€” PERTANYAAN TENTANG PENILAIAN

"Seberapa baik?"

  • Menilai kualitas dan efektivitas program
  • Pertanyaan tipikal: "Apakah remaja mendapat layanan yang berkualitas?" "Apakah cakupan mencapai target?" "Apakah pengetahuan remaja meningkat?"
  • Metode yang cocok: survei pre-post, studi komparatif, penilaian kualitas
πŸ”— LEVEL 3 β€” PERTANYAAN TENTANG KAUSALITAS

"Apakah program yang menyebabkan perubahan?"

  • Menguji attribution: apakah perubahan yang terjadi karena program, bukan faktor lain?
  • Pertanyaan tipikal: "Apakah program ini menurunkan angka kehamilan remaja?" "Apakah program menyebabkan perubahan perilaku?"
  • Metode yang cocok: desain eksperimental atau quasi-eksperimental, atau analisis kontribusi
  • Catatan: Paling sulit dan mahal untuk dijawab dengan meyakinkan

KRITERIA PERTANYAAN EVALUASI YANG BAIK:

βœ… ANSWERABLE (DAPAT DIJAWAB)

Dapat dijawab dengan data yang dapat dikumpulkan dalam sumber daya yang tersedia.

Bukan: "Apakah program ini berkontribusi pada kesejahteraan jangka panjang remaja dalam 20 tahun ke depan?"

Ya: "Apakah pengetahuan remaja tentang kesehatan reproduksi meningkat 6 bulan setelah mengikuti program?"

πŸ’‘ USEFUL (BERGUNA)

Jawabannya akan menghasilkan perbedaan dalam keputusan yang diambil.

Uji: "Jika jawabannya ya, keputusan apa yang akan diambil? Jika tidak, keputusan apa yang berbeda?" Jika tidak ada perbedaan keputusan: pertanyaan tidak cukup berguna.

🎯 SPECIFIC (SPESIFIK)

Jelas tentang: Siapa (populasi target), Apa (outcome/proses), Di mana (konteks geografis), Kapan (timeframe).

Bukan: "Apakah program berhasil?"

Ya: "Apakah remaja perempuan usia 15-19 di kabupaten yang terjangkau program menunjukkan peningkatan penggunaan kontrasepsi modern dalam 12 bulan pelaksanaan?"

βš–οΈ ETHICAL (ETIS)

Tidak menempatkan partisipan dalam risiko. Menghormati privasi dan konfidensialitas untuk isu-isu sensitif kesehatan reproduksi. Tidak menggunakan evaluasi untuk menyudutkan kelompok atau individu.

PROSES MEMFORMULASIKAN PERTANYAAN EVALUASI:

  1. KUMPULKAN PERTANYAAN DARI SEMUA STAKEHOLDERS: Seperti yang dihadapi Dr. Farid: berbagai pihak memiliki pertanyaan yang berbeda. Dokumentasikan semua pertanyaan tanpa menyaring dulu.
  2. KELOMPOKKAN DAN SINTESIS: Identifikasikan tema yang berulang. Bedakan antara pertanyaan tentang proses, outcome, dan dampak. Identifikasikan pertanyaan yang saling tumpang tindih.
  3. PRIORITASKAN: Kriteria prioritisasi: Seberapa penting untuk keputusan yang akan diambil? Seberapa feasible untuk dijawab? Apakah data sudah ada atau perlu dikumpulkan? Pilih 3-5 pertanyaan evaluasi utama yang dapat dijawab dengan sumber daya yang ada.
  4. OPERASIONALISASIKAN: Setiap pertanyaan evaluasi harus dapat dipecah menjadi indikator yang spesifik dan terukur. Contoh: Pertanyaan: "Apakah kualitas layanan kesehatan reproduksi remaja meningkat?" Indikator: % layanan yang memenuhi standar layanan ramah remaja; Skor kepuasan remaja terhadap layanan; % petugas yang menunjukkan kompetensi konseling sesuai standar.

C.2. Theory of Change dan Logic Model sebagai Fondasi Evaluasi

C.2.1. Membangun Teori tentang Bagaimana Program Bekerja

🧭 THEORY OF CHANGE (ToC)

Definisi: Penjelasan eksplisit tentang bagaimana dan mengapa serangkaian aktivitas diharapkan menghasilkan perubahan jangka menengah dan panjang yang diinginkan.

Perbedaan ToC dari Logic Model:

  • Logic model: diagram visual yang menunjukkan hubungan input β†’ aktivitas β†’ output β†’ outcome
  • ToC: narasi yang lebih kaya tentang MENGAPA hubungan-hubungan itu diharapkan ada β€” termasuk asumsi, konteks, dan mekanisme
  • ToC lebih mendalam: menjawab "mengapa?" sedangkan logic model lebih visual: menunjukkan "apa?"

MENGAPA ToC PENTING UNTUK EVALUASI:

CONTOH ToC PROGRAM KESEHATAN REPRODUKSI REMAJA:

πŸ“ SITUASI AWAL

  • Remaja memiliki pengetahuan terbatas tentang kesehatan reproduksi
  • Layanan kesehatan tidak ramah remaja β€” remaja enggan datang
  • Orang tua dan guru tidak nyaman membicarakan kesehatan reproduksi
  • Tekanan sosial mendorong perilaku berisiko

βš™οΈ INTERVENSI

  • Pelatihan konselor sebaya (peer educator)
  • Klinik ramah remaja di Puskesmas
  • Modul kesehatan reproduksi di sekolah
  • Pelatihan orang tua dan guru

πŸ”— MEKANISME PERUBAHAN (ASUMSI KRITIS)

  • A1: Remaja akan lebih terbuka mendapat informasi dari konselor sebaya (peer) dibanding dari orang dewasa β†’ karena trust yang lebih tinggi
  • A2: Remaja yang mendapat informasi yang benar akan mengubah sikap dan intensi perilaku
  • A3: Layanan yang ramah remaja akan meningkatkan utilisasi layanan
  • A4: Kombinasi pengetahuan yang meningkat DAN akses layanan yang lebih mudah akan mengurangi perilaku berisiko

πŸ“ˆ OUTCOME JANGKA PENDEK

  • Peningkatan pengetahuan remaja tentang kesehatan reproduksi
  • Perubahan sikap terhadap layanan
  • Peningkatan utilisasi layanan

πŸš€ OUTCOME JANGKA MENENGAH

  • Perubahan perilaku seksual remaja
  • Peningkatan penggunaan kontrasepsi yang tepat
  • Penurunan perilaku berisiko

🌟 DAMPAK JANGKA PANJANG

  • Penurunan angka kehamilan tidak diinginkan pada remaja
  • Penurunan IMS pada remaja
  • Peningkatan kesehatan reproduksi remaja secara keseluruhan
πŸ’‘ IMPLIKASI UNTUK EVALUASI
  • Setiap asumsi (A1-A4) adalah hipotesis yang dapat diuji
  • Jika A1 tidak benar (remaja tidak lebih terbuka ke peer educator) β†’ seluruh program perlu didesain ulang
  • Jika A2 tidak benar (pengetahuan tidak mengubah sikap) β†’ diperlukan intervensi perilaku yang lebih kuat
  • Evaluasi yang baik menguji asumsi-asumsi ini, bukan hanya mengukur output

MENGEMBANGKAN LOGIC MODEL UNTUK EVALUASI:

Logic model untuk evaluasi sedikit berbeda dari logic model untuk perencanaan:

INPUTS
Anggaran, SDM, waktu
β†’
ACTIVITIES
Pelatihan, layanan, modul
β†’
OUTPUTS
Remaja terjangkau, konselor terlatih
β†’
SHORT-TERM
Pengetahuan, sikap, kompetensi
β†’
MEDIUM-TERM
Perilaku, utilisasi layanan
β†’
LONG-TERM
Kehamilan remaja, IMS
πŸ“¦ INPUTS

Apa yang diinvestasikan dan bagaimana mengukurnya?

Indikator: anggaran yang dibelanjakan, SDM yang ditugaskan, waktu yang digunakan

Sumber data: laporan keuangan, data kepegawaian

βš™οΈ ACTIVITIES

Aktivitas program apa yang seharusnya dilakukan?

Indikator: jumlah sesi, jangkauan geografis, kualitas implementasi

Sumber data: laporan program, observasi

πŸ“€ OUTPUTS

Produk langsung aktivitas

Indikator: jumlah remaja yang terjangkau, jumlah konselor terlatih, jumlah klinik yang difasilitasi

Sumber data: data sistem informasi, laporan bulanan

🎯 SHORT-TERM OUTCOMES

Perubahan pengetahuan, sikap, keterampilan

Indikator: skor pengetahuan pre-post, skor sikap, kompetensi konseling

Sumber data: survei, tes pengetahuan, penilaian kompetensi

πŸ“ˆ MEDIUM-TERM OUTCOMES

Perubahan perilaku dan utilisasi layanan

Indikator: penggunaan kontrasepsi, kunjungan ke klinik, perilaku pencarian informasi

Sumber data: survei perilaku, data utilisasi klinik

🌟 LONG-TERM IMPACT

Perubahan status kesehatan

Indikator: angka kehamilan remaja, angka IMS, indikator kesehatan reproduksi

Sumber data: data registrasi vital, SDKI, survei khusus

CATATAN KRITIS: Waktu yang diperlukan untuk melihat impact jangka panjang sering melampaui siklus evaluasi. Program 4 tahun tidak cukup untuk melihat perubahan AKI β€” tetapi cukup untuk melihat perubahan pengetahuan dan utilisasi layanan. Evaluator yang baik jujur tentang apa yang dapat dan tidak dapat diukur dalam timeframe yang tersedia.

C.3. Desain Evaluasi: Pilihan Metodologis

C.3.1. Spektrum Desain dari Eksperimental hingga Kualitatif

❓ PERTANYAAN PERTAMA DALAM MEMILIH DESAIN

"Apa jenis pertanyaan evaluasi kita?"

  • Pertanyaan tentang APA YANG TERJADI β†’ desain deskriptif
  • Pertanyaan tentang MENGAPA TERJADI β†’ desain eksploratif atau kualitatif
  • Pertanyaan tentang APAKAH PROGRAM MENYEBABKAN PERUBAHAN β†’ desain kausal/eksperimental
  • Pertanyaan tentang APAKAH PROGRAM LAYAK DIPERLUAS β†’ evaluasi skalabilitas

DESAIN EKSPERIMENTAL:

πŸ₯‡ RANDOMIZED CONTROLLED TRIAL (RCT)
  • Gold standard untuk attribution β€” membuktikan kausalitas dengan keyakinan tertinggi
  • Mekanisme: randomisasi menghasilkan dua kelompok yang setara; perbedaan outcome dapat diatribusikan pada intervensi
  • Kapan digunakan: ketika pertanyaan kausalitas sangat penting, ada sumber daya yang cukup, dan randomisasi etis dan feasible
⚠️ KETERBATASAN RCT UNTUK EVALUASI PROGRAM KESEHATAN REPRODUKSI
  • ETIKA: sering tidak etis untuk menahan intervensi dari kelompok kontrol jika ada bukti manfaat
  • FEASIBILITY: program pemerintah yang sudah berjalan tidak dapat dirandomisasi secara retrospektif
  • EXTERNAL VALIDITY: kondisi terkontrol dalam RCT tidak mencerminkan implementasi program di dunia nyata
  • COST: sangat mahal dan memerlukan kapasitas teknis yang tinggi

QUASI-EXPERIMENTAL DESIGNS:

πŸ“Š INTERRUPTED TIME SERIES (ITS)
  • Menganalisis tren data sebelum dan sesudah program dimulai
  • Kekuatan: menggunakan data yang sudah ada (data rutin), tidak memerlukan kelompok kontrol terpisah
  • Kelemahan: tidak dapat mengontrol perubahan lain yang terjadi bersamaan (concurrent events)
  • Cocok untuk: program yang memiliki data time series yang panjang sebelum intervensi
πŸ”€ DIFFERENCE-IN-DIFFERENCES (DiD)
  • Membandingkan perubahan di area program vs. perubahan di area pembanding (non-program)
  • Logika: perbedaan dalam perubahan (bukan perbedaan dalam level) dapat diatribusikan pada program
  • Kekuatan: mengontrol faktor-faktor yang berubah secara bersamaan di semua area
  • Kelemahan: memerlukan area pembanding yang sebanding
βœ‚οΈ REGRESSION DISCONTINUITY (RD)
  • Mengeksploitasi cutoff dalam kriteria eligibilitas program
  • Membandingkan mereka yang tepat di atas dan di bawah cutoff
  • Contoh: program yang menargetkan remaja di bawah 20 tahun β†’ bandingkan yang 19 tahun 11 bulan vs. yang 20 tahun 1 bulan
  • Keterbatasan: memerlukan cutoff yang tajam dan tidak dimanipulasi

NON-EXPERIMENTAL DESIGNS:

πŸ“‹ PRE-POST WITHOUT CONTROL
  • Mengukur sebelum dan sesudah program di populasi yang sama
  • Paling umum digunakan karena paling mudah dan murah
  • Kelemahan kritis: tidak dapat membuktikan bahwa perubahan disebabkan program β€” mungkin karena maturasi, perubahan eksternal, atau regression to the mean
  • Cocok untuk: pertanyaan deskriptif tentang APAKAH ada perubahan, bukan MENGAPA ada perubahan
πŸ“· CROSS-SECTIONAL
  • Mengukur satu kali pada satu titik waktu
  • Memberikan snapshot tentang kondisi saat ini
  • Tidak dapat menilai perubahan
  • Cocok untuk: needs assessment, baseline, atau evaluasi implementasi
πŸ”— CONTRIBUTION ANALYSIS
  • Pendekatan non-eksperimental yang berusaha membangun argumentasi yang meyakinkan tentang kontribusi program terhadap perubahan
  • Langkah: (1) tetapkan ToC; (2) kumpulkan bukti untuk setiap link dalam ToC; (3) identifikasikan faktor alternatif; (4) bangun argument tentang kontribusi relatif
  • Sangat cocok untuk evaluasi program pemerintah yang tidak dapat menggunakan desain eksperimental

PENDEKATAN KUALITATIF:

πŸ—£οΈ KAPAN KUALITATIF LEBIH TEPAT
  • Pertanyaan tentang BAGAIMANA dan MENGAPA
  • Memahami perspektif dan pengalaman penerima manfaat
  • Mengeksplorasi mekanisme yang tidak terduga
  • Memahami konteks yang mempengaruhi implementasi
  • Isu-isu sensitif yang memerlukan kepercayaan dan kedalaman

METODE KUALITATIF UTAMA DALAM EVALUASI KESEHATAN REPRODUKSI:

πŸŽ™οΈ WAWANCARA MENDALAM (In-Depth Interview)
  • Mengeksplorasi pengalaman individu secara mendalam
  • Sangat berguna untuk memahami pengalaman remaja dengan layanan kesehatan reproduksi
  • Memungkinkan elaborasi dan follow-up pertanyaan
πŸ‘₯ FOCUS GROUP DISCUSSION (FGD)
  • Diskusi kelompok yang difasilitasi
  • Menghasilkan data tentang norma sosial dan perspektif yang lebih luas
  • Untuk kesehatan reproduksi: perlu hati-hati dengan komposisi kelompok β€” isu sensitif mungkin tidak diungkapkan dalam kelompok campuran
πŸ‘οΈ OBSERVASI
  • Mengamati layanan dan interaksi secara langsung
  • Sangat berguna untuk menilai kualitas konseling dan layanan
  • Mengungkap gap antara apa yang dilaporkan dan apa yang sesungguhnya terjadi
🎯 KEY INFORMANT INTERVIEW
  • Wawancara dengan informan yang memiliki pengetahuan khusus tentang program
  • Memberikan perspektif sistem dan konteks

MIXED METHODS EVALUATION:

πŸ’‘ MENGAPA MIXED METHODS SERING PALING TEPAT
  • Program kesehatan reproduksi melibatkan dimensi kuantitatif (cakupan, perubahan perilaku) DAN kualitatif (pengalaman, norma, konteks)
  • Kekuatan satu pendekatan menutup kelemahan yang lain
  • Triangulasi meningkatkan kredibilitas temuan

POLA MIXED METHODS YANG UMUM:

πŸ” EXPLANATORY SEQUENTIAL (QUAN β†’ QUAL)
  • Mulai dengan survei kuantitatif untuk mengidentifikasikan pola
  • Kemudian kualitatif untuk menjelaskan pola yang ditemukan
  • Contoh: survei menemukan bahwa utilisasi layanan rendah di satu kabupaten β†’ FGD untuk memahami mengapa
πŸ”Ž EXPLORATORY SEQUENTIAL (QUAL β†’ QUAN)
  • Mulai dengan kualitatif untuk memahami konteks
  • Kemudian kuantitatif untuk menguji atau mengukur
  • Contoh: eksplorasi kualitatif tentang hambatan akses layanan β†’ kembangkan skala pengukuran hambatan β†’ survei skala besar
βš–οΈ CONCURRENT TRIANGULATION
  • Kuantitatif dan kualitatif dikumpulkan secara bersamaan
  • Temuan diintegrasikan dalam analisis
  • Cocok ketika keduanya sama pentingnya dan sumber daya memungkinkan

C.4. Validitas Evaluasi: Ancaman dan Strategi

C.4.1. Memahami dan Mengatasi Ancaman Validitas

KONSEP VALIDITAS DALAM EVALUASI:

🎯 INTERNAL VALIDITY

Sejauh mana kita dapat menyimpulkan bahwa perubahan yang terjadi DISEBABKAN oleh program, bukan faktor lain.

Pertanyaan: "Apakah kesimpulan kausal kita valid?"

Relevan utamanya untuk evaluasi dampak/impact

🌍 EXTERNAL VALIDITY

Sejauh mana temuan evaluasi dapat digeneralisasikan ke konteks lain.

Pertanyaan: "Apakah temuan ini berlaku di luar setting evaluasi?"

Relevan untuk keputusan tentang scaling up

🧩 CONSTRUCT VALIDITY

Sejauh mana indikator yang digunakan benar-benar mengukur konsep yang dimaksud.

Pertanyaan: "Apakah kita mengukur apa yang kita klaim ukur?"

Kritis untuk program kesehatan reproduksi karena banyak konsep yang sulit diukur (misal: reproductive autonomy)

ANCAMAN INTERNAL VALIDITY:

🎲 SELECTION BIAS: Kelompok yang menerima program berbeda secara sistematis dari yang tidak menerima. Contoh: Program menjangkau remaja yang sudah termotivasi β†’ perubahan yang terlihat mungkin karena karakteristik remaja tersebut, bukan program. Strategi: gunakan desain yang mengontrol seleksi (randomisasi, matching, DiD) atau analisis karakteristik kelompok secara eksplisit.
πŸ“… HISTORY THREAT: Peristiwa eksternal yang terjadi bersamaan dengan program dapat menyebabkan perubahan yang sama. Contoh: Media massa meluncurkan kampanye besar kesehatan reproduksi bersamaan dengan program β†’ perubahan pengetahuan remaja mungkin karena media, bukan program. Strategi: dokumentasikan peristiwa eksternal yang relevan; gunakan kelompok pembanding yang terpapar kondisi yang sama.
🌱 MATURATION: Perubahan terjadi secara alami seiring waktu, terlepas dari program. Contoh: Remaja usia 15 secara alami lebih matang secara seksual pada usia 18 β†’ perubahan pengetahuan mungkin karena maturasi, bukan program. Strategi: kelompok kontrol yang mengalami maturasi yang sama.
πŸ“ TESTING/MEASUREMENT EFFECT: Pengukuran awal (pre-test) mempengaruhi skor post-test. Contoh: Remaja yang mengisi survei pengetahuan pra-program menjadi lebih sadar tentang isu tersebut β†’ meningkatkan skor post-test. Strategi: Solomon four-group design; atau hindari pengumpulan data pre yang terlalu detail.
πŸšͺ ATTRITION: Peserta yang hilang dari follow-up berbeda dari yang tetap. Contoh: Remaja yang drop-out dari program adalah yang paling berisiko β†’ mengukur hanya yang bertahan overestimates effectiveness. Strategi: analisis attrition; intent-to-treat analysis; upaya aktif untuk retain peserta.

ANCAMAN CONSTRUCT VALIDITY:

πŸ”„ SURROGATE MEASURES: Menggunakan proxy yang tidak sepenuhnya mewakili konsep sesungguhnya. Contoh: menggunakan "pengetahuan tentang kontrasepsi" sebagai proxy untuk "reproductive autonomy" β€” terlalu sempit. Strategi: gunakan instrumen yang tervalidasi; triangulasi beberapa indikator.
😊 SOCIAL DESIRABILITY BIAS: Responden menjawab sesuai apa yang dianggap "benar" secara sosial, bukan kondisi nyata. Sangat relevan untuk kesehatan reproduksi: remaja mungkin tidak melaporkan perilaku seksual secara jujur. Strategi: anonymous surveys; metode kualitatif yang membangun kepercayaan; bogus pipeline technique; atau metode tidak langsung.
πŸ“‰ CONCEPT DRIFT: Konsep yang diukur berubah maknanya di antara pengukuran. Contoh: "layanan ramah remaja" diimplementasikan berbeda di berbagai fasilitas β†’ mengukur satu konsep yang sesungguhnya bervariasi. Strategi: standardisasi definisi operasional; quality check implementasi.

STRATEGI UMUM MENINGKATKAN VALIDITAS:

C.5. Pertimbangan Etis dalam Evaluasi Program Kesehatan Reproduksi

C.5.1. Dimensi Etis yang Spesifik untuk Bidang Ini

❓ MENGAPA ETIKA EVALUASI KESEHATAN REPRODUKSI LEBIH KOMPLEKS
  • Isu-isu sensitif: seksualitas, fertilitas, kehamilan tidak diinginkan, aborsi β€” mengumpulkan data tentang ini memerlukan kehati-hatian ekstra
  • Populasi rentan: remaja, perempuan dengan kekerasan berbasis gender, kelompok marginal β€” memerlukan perlindungan tambahan
  • Potensi stigma: jawaban tertentu dapat menstigma responden di komunitas mereka
  • Power imbalance: hubungan antara peneliti/evaluator dan komunitas yang dievaluasi

PRINSIP ETIKA EVALUASI:

πŸ“‹ INFORMED CONSENT
  • Partisipan harus memahami: Tujuan evaluasi; Apa yang akan dilakukan dengan data; Hak untuk tidak berpartisipasi atau menarik diri; Siapa yang akan mengakses data
  • Untuk remaja: consent orang tua vs. assent remaja β€” bagaimana menyeimbangkan?
  • Dilema: memerlukan consent orang tua dapat mengecualikan remaja yang tidak memiliki hubungan baik dengan orang tua
πŸ”’ CONFIDENTIALITY
  • Data yang dikumpulkan tidak dapat diidentifikasikan kembali ke individu tertentu
  • Penting untuk data perilaku seksual dan kesehatan reproduksi
  • Tantangan: Bagaimana menjaga confidentiality dalam komunitas kecil di mana semua orang saling kenal?
🚫 DO NO HARM
  • Evaluasi tidak boleh menempatkan partisipan dalam risiko
  • Risiko yang perlu dipertimbangkan: Stigma dari teridentifikasi sebagai partisipan; Kekerasan berbasis gender: pertanyaan tentang kekerasan dapat memicu eskalasi; Distress psikologis dari pertanyaan yang sensitif
πŸ’š BENEFIT
  • Evaluasi seharusnya memberikan manfaat kepada komunitas yang dievaluasi β€” tidak hanya kepada donor atau pembuat kebijakan
  • Hasil harus dibagikan kembali kepada komunitas dalam format yang dapat mereka gunakan

ISU ETIS SPESIFIK DALAM EVALUASI PROGRAM KR REMAJA:

πŸ” CONSENT VS. ASSENT

Di bawah usia 18: perlu informed consent orang tua PLUS assent remaja

Masalah: untuk perilaku seksual remaja yang tidak diketahui orang tua, consent orang tua mungkin tidak feasible atau bahkan berbahaya

Solusi pragmatis: waiver of parental consent untuk evaluasi yang risikonya minimal dan manfaatnya signifikan

⚠️ MANDATORY REPORTING

Jika dalam proses evaluasi ditemukan tanda-tanda abuse atau kekerasan: apakah evaluator memiliki kewajiban hukum atau etis untuk melaporkan?

Tantangan: Bagaimana ini mempengaruhi kerahasiaan yang dijanjikan?

Harus ditetapkan di awal dan dikomunikasikan kepada partisipan

πŸ—³οΈ EVALUASI PROGRAM YANG KONTROVERSIAL

Beberapa program kesehatan reproduksi secara politis sensitif (pendidikan seks komprehensif, kontrasepsi untuk remaja)

Tekanan untuk menghasilkan temuan tertentu

Prinsip evaluasi yang tidak dapat dikompromikan: integritas data dan kesimpulan tidak dipengaruhi oleh tekanan politik atau kepentingan program

D. Pertanyaan Diskusi (Thread Dosen β€” Minggu 2)

Modul 2 memiliki Tugas Personal 1 yang dikumpulkan Minggu ke-2. Thread diskusi di bawah ini adalah refleksi paralel.

Pertanyaan 1: Dr. Farid memiliki empat pertanyaan evaluasi yang berbeda dari empat pemangku kepentingan yang berbeda, anggaran Rp 180 juta, dan waktu empat bulan. Menggunakan kerangka yang dibahas dalam modul ini: (a) kelompokkan keempat pertanyaan tersebut berdasarkan level (deskripsi, penilaian, kausalitas) dan identifikasikan mana yang paling feasible dijawab dengan sumber daya yang ada; (b) rancang dua pertanyaan evaluasi utama yang mengintegrasikan kepentingan multiple stakeholders β€” formulasikan menggunakan kriteria ANSWERABLE, USEFUL, SPECIFIC, ETHICAL; (c) untuk masing-masing pertanyaan, tentukan desain evaluasi yang paling tepat dan jelaskan mengapa desain lain kurang sesuai.

Pertanyaan 2: Program Kesehatan Reproduksi Remaja yang Anda kenal (dari pengalaman atau observasi) memiliki logic model yang implisit β€” sebuah teori tentang bagaimana program itu seharusnya bekerja yang tidak pernah dituliskan secara eksplisit. (a) rekonstruksi logic model tersebut berdasarkan pengetahuan Anda tentang program β€” dari inputs hingga long-term impact; (b) identifikasikan dua asumsi kritis dalam logic model itu yang, jika tidak benar, akan membuat seluruh program gagal menghasilkan dampak yang diinginkan; (c) untuk setiap asumsi: rancang satu pertanyaan evaluasi yang dapat menguji apakah asumsi itu benar, dan identifikasikan metode yang paling tepat untuk menjawab pertanyaan tersebut.

E. Rangkuman

  1. Pertanyaan evaluasi adalah keputusan metodologis paling fundamental dalam desain evaluasi β€” sebelum memutuskan data apa yang dikumpulkan atau metode apa yang digunakan, evaluator harus menetapkan secara eksplisit apa yang ingin diketahui dan untuk apa; pertanyaan evaluasi yang baik memenuhi kriteria ANSWERABLE, USEFUL, SPECIFIC, dan ETHICAL, dan diprioritaskan dari input multiple stakeholders melalui proses yang transparan dan berbasis kriteria
  2. Theory of Change adalah fondasi evaluasi yang sering diabaikan β€” ia mengartikulasikan secara eksplisit mekanisme dan asumsi tentang bagaimana program diharapkan menghasilkan perubahan; logic model untuk evaluasi mengoperasionalisasikan ToC menjadi indikator yang dapat diukur di setiap level dari inputs hingga long-term impact; tanpa ToC dan logic model yang eksplisit, evaluasi tidak tahu apa yang seharusnya diuji dan mengapa
  3. Pilihan desain evaluasi harus mengikuti pertanyaan evaluasi, bukan sebaliknya β€” RCT adalah gold standard untuk kausalitas tetapi sering tidak etis, tidak feasible, atau tidak relevan untuk program pemerintah; quasi-experimental designs seperti ITS dan DiD memberikan alternatif yang lebih pragmatis; contribution analysis adalah pendekatan yang sangat berguna untuk program yang tidak dapat menggunakan desain eksperimental sama sekali; dan mixed methods paling sering tepat untuk program kesehatan reproduksi yang melibatkan dimensi kuantitatif dan kualitatif yang sama pentingnya
  4. Ancaman validitas β€” internal (selection bias, history, maturation, attrition), external (generalisabilitas), dan construct (surrogate measures, social desirability bias) β€” harus diidentifikasikan dalam desain evaluasi dan diatasi secara aktif; triangulasi dari multiple sumber dan metode adalah strategi paling universal untuk meningkatkan keyakinan terhadap temuan evaluasi
  5. Evaluasi program kesehatan reproduksi menghadapi pertimbangan etis yang lebih kompleks dari evaluasi program kesehatan lain β€” melibatkan isu-isu sensitif, populasi rentan, potensi stigma, dan tekanan politik; prinsip-prinsip informed consent, confidentiality, do no harm, dan benefit harus dioperasionalisasikan secara spesifik untuk konteks program KR, dan integritas temuan tidak dapat dikompromikan oleh tekanan apapun

F. Referensi

  1. Patton MQ. Qualitative Research and Evaluation Methods. 4th ed. Thousand Oaks: SAGE; 2015.
  2. Shadish WR, Cook TD, Campbell DT. Experimental and Quasi-Experimental Designs for Generalized Causal Inference. Boston: Houghton Mifflin; 2002.
  3. Mayne J. Contribution analysis: coming of age? Evaluation. 2012;18(3):270-280. DOI: https://doi.org/10.1177/1356389012440912
  4. Creswell JW, Plano Clark VL. Designing and Conducting Mixed Methods Research. 3rd ed. Thousand Oaks: SAGE; 2018.
  5. W.K. Kellogg Foundation. Logic Model Development Guide. Battle Creek: WKKF; 2004. URL: https://www.wkkf.org/resource-directory/resources/2004/01/logic-model-development-guide
  6. Anderson A. The Community Builder's Approach to Theory of Change. New York: The Aspen Institute; 2005. URL: https://www.theoryofchange.org
  7. Bertrand JT, Escudero G. Compendium of Indicators for Evaluating Reproductive Health Programs. Chapel Hill: MEASURE Evaluation; 2002. URL: https://www.measureevaluation.org
  8. WHO. Evaluation Practice Handbook. Geneva: WHO; 2013. URL: https://www.who.int/publications/i/item/9789241548687
  9. Simons H. Case Study Research in Practice. London: SAGE; 2009.
  10. Yeatman S, Trinitapoli J. Ethical and methodological considerations in evaluating reproductive health programs. Studies in Family Planning. 2011;42(4):305-316. DOI: https://doi.org/10.1111/j.1728-4465.2011.00291.x

TUGAS PERSONAL 1 β€” SESI 1 (MINGGU 2)

Mata Kuliah: Evaluasi Program Kesehatan Reproduksi
Semester 3 | Periode 2 | Sesi 1

Identitas Tugas Detail
Jenis TugasTugas Personal Pertama β€” Sesi 1
MingguMinggu ke-2
MateriModul 1–2
Bobot Nilai10% dari nilai akhir mata kuliah
PengerjaanIndividual
Batas PengumpulanAkhir Minggu ke-2 (7 hari sejak tugas dibuka)
Format LuaranEssay analitik Word atau PDF
Panjang900–1.300 kata (tidak termasuk referensi)
ReferensiMinimal 4 referensi dalam format Vancouver

PETUNJUK PENGERJAAN

  1. Tugas ini adalah analisis desain evaluasi berbasis konteks β€” peserta didik diminta merancang kerangka evaluasi untuk satu program kesehatan reproduksi yang nyata atau hipotetis yang relevan dengan konteks kerja mereka
  2. Tugas ini bukan ringkasan teori β€” kemampuan menerapkan konsep dari Modul 1 dan 2 ke konteks yang spesifik dan konkret adalah yang paling dihargai
  3. Kejujuran dalam mengidentifikasikan keterbatasan desain yang diusulkan akan mendapat nilai lebih tinggi dari klaim keunggulan yang tidak didukung argumentasi

πŸ—ΊοΈ SKENARIO PEMBUKA

Anda baru selesai membaca Modul 2 dan merasa ada sesuatu yang selama ini "hilang" dalam cara program-program kesehatan reproduksi di sekitar Anda dirancang dan dievaluasi. Seorang kolega dari Dinkes menghubungi Anda: "Kami punya program KB pasca persalinan yang sudah berjalan dua tahun. Kepala Dinas minta dievaluasi bulan depan untuk keputusan anggaran tahun berikutnya. Kamu mau bantu rancang evaluasinya?" Anda menyanggupi.

TUGAS

Rancang kerangka evaluasi untuk program KB pasca persalinan di wilayah yang Anda kenal (atau konstruksikan konteks yang realistis berdasarkan pengalaman klinis Anda). Kerangka evaluasi Anda harus mencakup empat bagian berikut:

Bagian 1 β€” Deskripsi Program dan Theory of Change (Β±300 kata)

Deskripsikan program yang akan dievaluasi secara konkret:

  • Tujuan program dan masalah yang ingin diselesaikan
  • Aktivitas utama yang dijalankan
  • Populasi target dan cakupan yang diharapkan

Kemudian konstruksikan theory of change program ini secara eksplisit: bagaimana program diharapkan menghasilkan perubahan? Identifikasikan minimal dua asumsi kritis yang, jika tidak benar, akan membuat program gagal mencapai dampak yang diinginkan.

Bagian 2 β€” Pertanyaan Evaluasi (Β±250 kata)

Rumuskan tiga pertanyaan evaluasi yang akan memandu evaluasi ini. Untuk setiap pertanyaan:

  • Nyatakan pertanyaan secara eksplisit dan operasional
  • Kategorikan level pertanyaan (deskripsi / penilaian / kausalitas)
  • Justifikasikan mengapa pertanyaan ini yang diprioritaskan β€” mengapa pertanyaan ini lebih penting dari pertanyaan lain yang mungkin diajukan pemangku kepentingan?

Bagian 3 β€” Desain Evaluasi (Β±400 kata)

Untuk pertanyaan evaluasi yang Anda nilai paling penting, pilih desain evaluasi yang paling tepat dan jelaskan:

  • Desain yang dipilih dan justifikasinya
  • Metode pengumpulan data (kuantitatif, kualitatif, atau mixed methods) beserta alasannya
  • Sumber data yang akan digunakan
  • Ancaman validitas paling kritis yang harus diantisipasi dan strategi mengatasinya
  • Keterbatasan desain yang Anda akui secara jujur

Bagian 4 β€” Pertimbangan Etis dan Penggunaan Hasil (Β±250 kata)

  • Identifikasikan dua pertimbangan etis yang paling relevan untuk evaluasi program KB pasca persalinan ini β€” termasuk bagaimana Anda akan mengatasinya secara konkret
  • Siapa pengguna utama hasil evaluasi ini, dan bagaimana Anda akan memastikan hasil evaluasi benar-benar digunakan untuk keputusan yang lebih baik β€” bukan sekadar menjadi laporan yang diarsip?

RUBRIK PENILAIAN

Komponen Indikator Penilaian Bobot
Bagian 1 β€” ToC Kejelasan deskripsi program; eksplisitnya mekanisme perubahan; ketajaman identifikasi asumsi kritis 25%
Bagian 2 β€” Pertanyaan Evaluasi Ketepatan kategorisasi level; kualitas operasionalisasi; koherensi justifikasi prioritas 25%
Bagian 3 β€” Desain Ketepatan desain dengan pertanyaan; kedalaman analisis ancaman validitas; kejujuran tentang keterbatasan 35%
Bagian 4 β€” Etika dan Penggunaan Spesifisitas isu etis untuk konteks KB pasca persalinan; realisme strategi penggunaan hasil 15%

REFERENSI MINIMAL YANG DISARANKAN

  1. Patton MQ. Utilization-Focused Evaluation. 4th ed. Thousand Oaks: SAGE; 2008.
  2. Shadish WR, Cook TD, Campbell DT. Experimental and Quasi-Experimental Designs. Boston: Houghton Mifflin; 2002.
  3. WHO. Evaluation Practice Handbook. Geneva: WHO; 2013.
  4. Bertrand JT, Escudero G. Compendium of Indicators for Evaluating Reproductive Health Programs. Chapel Hill: MEASURE Evaluation; 2002.

Malang, Maret 2026
Penyusun