Modul 2: Desain Evaluasi Program Kesehatan Reproduksi

📋 Daftar Isi Modul

A. Deskripsi Modul
B. Capaian Pembelajaran
C. Materi Inti
D. Pertanyaan Diskusi
E. Rangkuman
F. Referensi
Tugas Personal 1 — Sesi 1

A. Deskripsi Modul

Maret 2025. Ruang kerja Dr. Farid di Dinkes Provinsi Sulawesi Tenggara.

Tiga minggu setelah rapat di Jakarta, Dr. Farid menerima surat penugasan resmi: ia ditunjuk sebagai ketua tim evaluasi Program Kesehatan Reproduksi Remaja tingkat provinsi. Anggaran evaluasi: Rp 180 juta. Waktu: empat bulan. Target: laporan evaluasi komprehensif yang menjadi dasar keputusan Gubernur tentang kelanjutan program.

Ia membuka laptopnya dan membuat daftar pertanyaan yang berputar di kepalanya:

Apa sebenarnya yang ingin kita ketahui dari evaluasi ini? Apakah kita ingin tahu apakah program berhasil — atau mengapa berhasil atau tidak? Apakah kita ingin tahu apa yang terjadi — atau apa yang seharusnya terjadi? Siapa yang akan membaca laporan ini dan keputusan apa yang akan mereka buat berdasarkan laporan itu?

Kemudian ia sadar: ia belum pernah secara eksplisit menjawab pertanyaan-pertanyaan ini. Dalam tiga minggu terakhir ia sudah berbicara dengan delapan orang berbeda tentang evaluasi ini — dan setiap orang tampaknya memiliki gagasan yang berbeda tentang apa yang harus dievaluasi.

Kepala Seksi Kesehatan Reproduksi Remaja ingin tahu: "Sudah berapa banyak remaja yang mendapat layanan?"

Kepala Bidan Provinsi ingin tahu: "Apakah bidan-bidan yang dilatih benar-benar mengubah praktik mereka?"

Konsultan UNFPA yang mendanai sebagian program ingin tahu: "Apakah angka kehamilan remaja turun?"

Seorang akademisi dari Universitas Halu Oleo ingin tahu: "Apakah program ini menghormati hak reproduksi remaja?"

Semua pertanyaan ini penting, pikir Dr. Farid. Tapi kita tidak bisa menjawab semuanya dengan anggaran 180 juta dan empat bulan. Saya perlu memutuskan — dengan cara yang dapat dipertahankan — pertanyaan mana yang paling penting dan metode apa yang tepat untuk menjawabnya.

Sebelum mengumpulkan satu butir data pun, evaluator yang baik menghabiskan waktu yang signifikan untuk merancang evaluasi dengan cermat. Desain yang buruk menghasilkan data yang menjawab pertanyaan yang salah — dan data yang menjawab pertanyaan yang salah, betapapun banyaknya, tidak berguna untuk keputusan yang tepat.

Modul ini membangun kapasitas untuk merancang evaluasi program kesehatan reproduksi yang kohesif: dari memformulasikan pertanyaan evaluasi yang tajam, memilih desain yang sesuai, hingga membangun kerangka kerja yang memandu seluruh proses evaluasi.

B. Capaian Pembelajaran Modul

Setelah menyelesaikan modul ini, peserta didik mampu:

Memformulasikan pertanyaan evaluasi yang tajam, terfokus, dan dapat dijawab untuk program kesehatan reproduksi
Memilih desain evaluasi yang tepat berdasarkan pertanyaan evaluasi, sumber daya yang tersedia, dan konteks program
Mengembangkan theory of change dan logic model yang menjadi fondasi desain evaluasi
Membedakan dan menerapkan pendekatan kuantitatif, kualitatif, dan mixed methods dalam evaluasi program kesehatan reproduksi
Mengidentifikasikan ancaman terhadap validitas evaluasi dan merancang strategi untuk mengatasinya

C. Materi Inti

C.1. Pertanyaan Evaluasi: Fondasi Desain yang Sering Diabaikan

C.1.1. Mengapa Pertanyaan Evaluasi adalah Keputusan Paling Penting

⚖️ PARADOKS EVALUASI

Sebagian besar evaluator pemula langsung bertanya: "Data apa yang harus kita kumpulkan?"

Seharusnya pertanyaan pertama adalah: "Apa yang ingin kita ketahui — dan untuk apa?"

MENGAPA URUTAN INI PENTING:

Data yang dikumpulkan sebelum pertanyaan ditetapkan cenderung mengumpulkan semua yang bisa dikumpulkan → overload data yang tidak dapat diinterpretasikan
Pertanyaan yang tidak jelas menghasilkan temuan yang tidak jelas → tidak dapat digunakan untuk keputusan
Keputusan tentang metode hanya dapat dibuat setelah pertanyaan jelas → karena metode yang berbeda menjawab jenis pertanyaan yang berbeda

TIGA LEVEL PERTANYAAN EVALUASI:

📊 LEVEL 1 — PERTANYAAN TENTANG DESKRIPSI

"Apa yang terjadi?"

Mendeskripsikan program dan implementasinya
Pertanyaan tipikal: "Berapa banyak remaja yang mengikuti sesi konseling?" "Siapa yang terjangkau?" "Apa yang sesungguhnya dilakukan dalam layanan?"
Metode yang cocok: analisis data rutin, survei deskriptif, observasi

⭐ LEVEL 2 — PERTANYAAN TENTANG PENILAIAN

"Seberapa baik?"

Menilai kualitas dan efektivitas program
Pertanyaan tipikal: "Apakah remaja mendapat layanan yang berkualitas?" "Apakah cakupan mencapai target?" "Apakah pengetahuan remaja meningkat?"
Metode yang cocok: survei pre-post, studi komparatif, penilaian kualitas

🔗 LEVEL 3 — PERTANYAAN TENTANG KAUSALITAS

"Apakah program yang menyebabkan perubahan?"

Menguji attribution: apakah perubahan yang terjadi karena program, bukan faktor lain?
Pertanyaan tipikal: "Apakah program ini menurunkan angka kehamilan remaja?" "Apakah program menyebabkan perubahan perilaku?"
Metode yang cocok: desain eksperimental atau quasi-eksperimental, atau analisis kontribusi
Catatan: Paling sulit dan mahal untuk dijawab dengan meyakinkan

KRITERIA PERTANYAAN EVALUASI YANG BAIK:

✅ ANSWERABLE (DAPAT DIJAWAB)

Dapat dijawab dengan data yang dapat dikumpulkan dalam sumber daya yang tersedia.

Bukan: "Apakah program ini berkontribusi pada kesejahteraan jangka panjang remaja dalam 20 tahun ke depan?"

Ya: "Apakah pengetahuan remaja tentang kesehatan reproduksi meningkat 6 bulan setelah mengikuti program?"

💡 USEFUL (BERGUNA)

Jawabannya akan menghasilkan perbedaan dalam keputusan yang diambil.

Uji: "Jika jawabannya ya, keputusan apa yang akan diambil? Jika tidak, keputusan apa yang berbeda?" Jika tidak ada perbedaan keputusan: pertanyaan tidak cukup berguna.

🎯 SPECIFIC (SPESIFIK)

Jelas tentang: Siapa (populasi target), Apa (outcome/proses), Di mana (konteks geografis), Kapan (timeframe).

Bukan: "Apakah program berhasil?"

Ya: "Apakah remaja perempuan usia 15-19 di kabupaten yang terjangkau program menunjukkan peningkatan penggunaan kontrasepsi modern dalam 12 bulan pelaksanaan?"

⚖️ ETHICAL (ETIS)

Tidak menempatkan partisipan dalam risiko. Menghormati privasi dan konfidensialitas untuk isu-isu sensitif kesehatan reproduksi. Tidak menggunakan evaluasi untuk menyudutkan kelompok atau individu.

PROSES MEMFORMULASIKAN PERTANYAAN EVALUASI:

KUMPULKAN PERTANYAAN DARI SEMUA STAKEHOLDERS: Seperti yang dihadapi Dr. Farid: berbagai pihak memiliki pertanyaan yang berbeda. Dokumentasikan semua pertanyaan tanpa menyaring dulu.
KELOMPOKKAN DAN SINTESIS: Identifikasikan tema yang berulang. Bedakan antara pertanyaan tentang proses, outcome, dan dampak. Identifikasikan pertanyaan yang saling tumpang tindih.
PRIORITASKAN: Kriteria prioritisasi: Seberapa penting untuk keputusan yang akan diambil? Seberapa feasible untuk dijawab? Apakah data sudah ada atau perlu dikumpulkan? Pilih 3-5 pertanyaan evaluasi utama yang dapat dijawab dengan sumber daya yang ada.
OPERASIONALISASIKAN: Setiap pertanyaan evaluasi harus dapat dipecah menjadi indikator yang spesifik dan terukur. Contoh: Pertanyaan: "Apakah kualitas layanan kesehatan reproduksi remaja meningkat?" Indikator: % layanan yang memenuhi standar layanan ramah remaja; Skor kepuasan remaja terhadap layanan; % petugas yang menunjukkan kompetensi konseling sesuai standar.

C.2. Theory of Change dan Logic Model sebagai Fondasi Evaluasi

C.2.1. Membangun Teori tentang Bagaimana Program Bekerja

🧭 THEORY OF CHANGE (ToC)

Definisi: Penjelasan eksplisit tentang bagaimana dan mengapa serangkaian aktivitas diharapkan menghasilkan perubahan jangka menengah dan panjang yang diinginkan.

Perbedaan ToC dari Logic Model:

Logic model: diagram visual yang menunjukkan hubungan input → aktivitas → output → outcome
ToC: narasi yang lebih kaya tentang MENGAPA hubungan-hubungan itu diharapkan ada — termasuk asumsi, konteks, dan mekanisme
ToC lebih mendalam: menjawab "mengapa?" sedangkan logic model lebih visual: menunjukkan "apa?"

MENGAPA ToC PENTING UNTUK EVALUASI:

Tanpa ToC yang eksplisit: evaluasi tidak tahu apa yang seharusnya diuji
ToC mengidentifikasikan asumsi-asumsi kritis yang harus diuji oleh evaluasi
ToC membuat eksplisit mekanisme perubahan — memungkinkan evaluasi untuk memahami MENGAPA program berhasil atau tidak

CONTOH ToC PROGRAM KESEHATAN REPRODUKSI REMAJA:

📍 SITUASI AWAL

Remaja memiliki pengetahuan terbatas tentang kesehatan reproduksi
Layanan kesehatan tidak ramah remaja — remaja enggan datang
Orang tua dan guru tidak nyaman membicarakan kesehatan reproduksi
Tekanan sosial mendorong perilaku berisiko

⚙️ INTERVENSI

Pelatihan konselor sebaya (peer educator)
Klinik ramah remaja di Puskesmas
Modul kesehatan reproduksi di sekolah
Pelatihan orang tua dan guru

🔗 MEKANISME PERUBAHAN (ASUMSI KRITIS)

A1: Remaja akan lebih terbuka mendapat informasi dari konselor sebaya (peer) dibanding dari orang dewasa → karena trust yang lebih tinggi
A2: Remaja yang mendapat informasi yang benar akan mengubah sikap dan intensi perilaku
A3: Layanan yang ramah remaja akan meningkatkan utilisasi layanan
A4: Kombinasi pengetahuan yang meningkat DAN akses layanan yang lebih mudah akan mengurangi perilaku berisiko

📈 OUTCOME JANGKA PENDEK

Peningkatan pengetahuan remaja tentang kesehatan reproduksi
Perubahan sikap terhadap layanan
Peningkatan utilisasi layanan

🚀 OUTCOME JANGKA MENENGAH

Perubahan perilaku seksual remaja
Peningkatan penggunaan kontrasepsi yang tepat
Penurunan perilaku berisiko

🌟 DAMPAK JANGKA PANJANG

Penurunan angka kehamilan tidak diinginkan pada remaja
Penurunan IMS pada remaja
Peningkatan kesehatan reproduksi remaja secara keseluruhan

💡 IMPLIKASI UNTUK EVALUASI

Setiap asumsi (A1-A4) adalah hipotesis yang dapat diuji
Jika A1 tidak benar (remaja tidak lebih terbuka ke peer educator) → seluruh program perlu didesain ulang
Jika A2 tidak benar (pengetahuan tidak mengubah sikap) → diperlukan intervensi perilaku yang lebih kuat
Evaluasi yang baik menguji asumsi-asumsi ini, bukan hanya mengukur output

MENGEMBANGKAN LOGIC MODEL UNTUK EVALUASI:

Logic model untuk evaluasi sedikit berbeda dari logic model untuk perencanaan:

Untuk perencanaan: fokus pada "apa yang akan kita lakukan?"
Untuk evaluasi: fokus pada "apa yang harus kita ukur untuk menilai apakah program bekerja?"

INPUTS
Anggaran, SDM, waktu

→

ACTIVITIES
Pelatihan, layanan, modul

→

OUTPUTS
Remaja terjangkau, konselor terlatih

→

SHORT-TERM
Pengetahuan, sikap, kompetensi

→

MEDIUM-TERM
Perilaku, utilisasi layanan

→

LONG-TERM
Kehamilan remaja, IMS

📦 INPUTS

Apa yang diinvestasikan dan bagaimana mengukurnya?

Indikator: anggaran yang dibelanjakan, SDM yang ditugaskan, waktu yang digunakan

Sumber data: laporan keuangan, data kepegawaian

⚙️ ACTIVITIES

Aktivitas program apa yang seharusnya dilakukan?

Indikator: jumlah sesi, jangkauan geografis, kualitas implementasi

Sumber data: laporan program, observasi

📤 OUTPUTS

Produk langsung aktivitas

Indikator: jumlah remaja yang terjangkau, jumlah konselor terlatih, jumlah klinik yang difasilitasi

Sumber data: data sistem informasi, laporan bulanan

🎯 SHORT-TERM OUTCOMES

Perubahan pengetahuan, sikap, keterampilan

Indikator: skor pengetahuan pre-post, skor sikap, kompetensi konseling

Sumber data: survei, tes pengetahuan, penilaian kompetensi

📈 MEDIUM-TERM OUTCOMES

Perubahan perilaku dan utilisasi layanan

Indikator: penggunaan kontrasepsi, kunjungan ke klinik, perilaku pencarian informasi

Sumber data: survei perilaku, data utilisasi klinik

🌟 LONG-TERM IMPACT

Perubahan status kesehatan

Indikator: angka kehamilan remaja, angka IMS, indikator kesehatan reproduksi

Sumber data: data registrasi vital, SDKI, survei khusus

CATATAN KRITIS: Waktu yang diperlukan untuk melihat impact jangka panjang sering melampaui siklus evaluasi. Program 4 tahun tidak cukup untuk melihat perubahan AKI — tetapi cukup untuk melihat perubahan pengetahuan dan utilisasi layanan. Evaluator yang baik jujur tentang apa yang dapat dan tidak dapat diukur dalam timeframe yang tersedia.

C.3. Desain Evaluasi: Pilihan Metodologis

C.3.1. Spektrum Desain dari Eksperimental hingga Kualitatif

❓ PERTANYAAN PERTAMA DALAM MEMILIH DESAIN

"Apa jenis pertanyaan evaluasi kita?"

Pertanyaan tentang APA YANG TERJADI → desain deskriptif
Pertanyaan tentang MENGAPA TERJADI → desain eksploratif atau kualitatif
Pertanyaan tentang APAKAH PROGRAM MENYEBABKAN PERUBAHAN → desain kausal/eksperimental
Pertanyaan tentang APAKAH PROGRAM LAYAK DIPERLUAS → evaluasi skalabilitas

DESAIN EKSPERIMENTAL:

🥇 RANDOMIZED CONTROLLED TRIAL (RCT)

Gold standard untuk attribution — membuktikan kausalitas dengan keyakinan tertinggi
Mekanisme: randomisasi menghasilkan dua kelompok yang setara; perbedaan outcome dapat diatribusikan pada intervensi
Kapan digunakan: ketika pertanyaan kausalitas sangat penting, ada sumber daya yang cukup, dan randomisasi etis dan feasible

⚠️ KETERBATASAN RCT UNTUK EVALUASI PROGRAM KESEHATAN REPRODUKSI

ETIKA: sering tidak etis untuk menahan intervensi dari kelompok kontrol jika ada bukti manfaat
FEASIBILITY: program pemerintah yang sudah berjalan tidak dapat dirandomisasi secara retrospektif
EXTERNAL VALIDITY: kondisi terkontrol dalam RCT tidak mencerminkan implementasi program di dunia nyata
COST: sangat mahal dan memerlukan kapasitas teknis yang tinggi

QUASI-EXPERIMENTAL DESIGNS:

📊 INTERRUPTED TIME SERIES (ITS)

Menganalisis tren data sebelum dan sesudah program dimulai
Kekuatan: menggunakan data yang sudah ada (data rutin), tidak memerlukan kelompok kontrol terpisah
Kelemahan: tidak dapat mengontrol perubahan lain yang terjadi bersamaan (concurrent events)
Cocok untuk: program yang memiliki data time series yang panjang sebelum intervensi

🔀 DIFFERENCE-IN-DIFFERENCES (DiD)

Membandingkan perubahan di area program vs. perubahan di area pembanding (non-program)
Logika: perbedaan dalam perubahan (bukan perbedaan dalam level) dapat diatribusikan pada program
Kekuatan: mengontrol faktor-faktor yang berubah secara bersamaan di semua area
Kelemahan: memerlukan area pembanding yang sebanding

✂️ REGRESSION DISCONTINUITY (RD)

Mengeksploitasi cutoff dalam kriteria eligibilitas program
Membandingkan mereka yang tepat di atas dan di bawah cutoff
Contoh: program yang menargetkan remaja di bawah 20 tahun → bandingkan yang 19 tahun 11 bulan vs. yang 20 tahun 1 bulan
Keterbatasan: memerlukan cutoff yang tajam dan tidak dimanipulasi

NON-EXPERIMENTAL DESIGNS:

📋 PRE-POST WITHOUT CONTROL

Mengukur sebelum dan sesudah program di populasi yang sama
Paling umum digunakan karena paling mudah dan murah
Kelemahan kritis: tidak dapat membuktikan bahwa perubahan disebabkan program — mungkin karena maturasi, perubahan eksternal, atau regression to the mean
Cocok untuk: pertanyaan deskriptif tentang APAKAH ada perubahan, bukan MENGAPA ada perubahan

📷 CROSS-SECTIONAL

Mengukur satu kali pada satu titik waktu
Memberikan snapshot tentang kondisi saat ini
Tidak dapat menilai perubahan
Cocok untuk: needs assessment, baseline, atau evaluasi implementasi

🔗 CONTRIBUTION ANALYSIS

Pendekatan non-eksperimental yang berusaha membangun argumentasi yang meyakinkan tentang kontribusi program terhadap perubahan
Langkah: (1) tetapkan ToC; (2) kumpulkan bukti untuk setiap link dalam ToC; (3) identifikasikan faktor alternatif; (4) bangun argument tentang kontribusi relatif
Sangat cocok untuk evaluasi program pemerintah yang tidak dapat menggunakan desain eksperimental

PENDEKATAN KUALITATIF:

🗣️ KAPAN KUALITATIF LEBIH TEPAT

Pertanyaan tentang BAGAIMANA dan MENGAPA
Memahami perspektif dan pengalaman penerima manfaat
Mengeksplorasi mekanisme yang tidak terduga
Memahami konteks yang mempengaruhi implementasi
Isu-isu sensitif yang memerlukan kepercayaan dan kedalaman

METODE KUALITATIF UTAMA DALAM EVALUASI KESEHATAN REPRODUKSI:

🎙️ WAWANCARA MENDALAM (In-Depth Interview)

Mengeksplorasi pengalaman individu secara mendalam
Sangat berguna untuk memahami pengalaman remaja dengan layanan kesehatan reproduksi
Memungkinkan elaborasi dan follow-up pertanyaan

👥 FOCUS GROUP DISCUSSION (FGD)

Diskusi kelompok yang difasilitasi
Menghasilkan data tentang norma sosial dan perspektif yang lebih luas
Untuk kesehatan reproduksi: perlu hati-hati dengan komposisi kelompok — isu sensitif mungkin tidak diungkapkan dalam kelompok campuran

👁️ OBSERVASI

Mengamati layanan dan interaksi secara langsung
Sangat berguna untuk menilai kualitas konseling dan layanan
Mengungkap gap antara apa yang dilaporkan dan apa yang sesungguhnya terjadi

🎯 KEY INFORMANT INTERVIEW

Wawancara dengan informan yang memiliki pengetahuan khusus tentang program
Memberikan perspektif sistem dan konteks

MIXED METHODS EVALUATION:

💡 MENGAPA MIXED METHODS SERING PALING TEPAT

Program kesehatan reproduksi melibatkan dimensi kuantitatif (cakupan, perubahan perilaku) DAN kualitatif (pengalaman, norma, konteks)
Kekuatan satu pendekatan menutup kelemahan yang lain
Triangulasi meningkatkan kredibilitas temuan

POLA MIXED METHODS YANG UMUM:

🔍 EXPLANATORY SEQUENTIAL (QUAN → QUAL)

Mulai dengan survei kuantitatif untuk mengidentifikasikan pola
Kemudian kualitatif untuk menjelaskan pola yang ditemukan
Contoh: survei menemukan bahwa utilisasi layanan rendah di satu kabupaten → FGD untuk memahami mengapa

🔎 EXPLORATORY SEQUENTIAL (QUAL → QUAN)

Mulai dengan kualitatif untuk memahami konteks
Kemudian kuantitatif untuk menguji atau mengukur
Contoh: eksplorasi kualitatif tentang hambatan akses layanan → kembangkan skala pengukuran hambatan → survei skala besar

⚖️ CONCURRENT TRIANGULATION

Kuantitatif dan kualitatif dikumpulkan secara bersamaan
Temuan diintegrasikan dalam analisis
Cocok ketika keduanya sama pentingnya dan sumber daya memungkinkan

C.4. Validitas Evaluasi: Ancaman dan Strategi

C.4.1. Memahami dan Mengatasi Ancaman Validitas

KONSEP VALIDITAS DALAM EVALUASI:

🎯 INTERNAL VALIDITY

Sejauh mana kita dapat menyimpulkan bahwa perubahan yang terjadi DISEBABKAN oleh program, bukan faktor lain.

Pertanyaan: "Apakah kesimpulan kausal kita valid?"

Relevan utamanya untuk evaluasi dampak/impact

🌍 EXTERNAL VALIDITY

Sejauh mana temuan evaluasi dapat digeneralisasikan ke konteks lain.

Pertanyaan: "Apakah temuan ini berlaku di luar setting evaluasi?"

Relevan untuk keputusan tentang scaling up

🧩 CONSTRUCT VALIDITY

Sejauh mana indikator yang digunakan benar-benar mengukur konsep yang dimaksud.

Pertanyaan: "Apakah kita mengukur apa yang kita klaim ukur?"

Kritis untuk program kesehatan reproduksi karena banyak konsep yang sulit diukur (misal: reproductive autonomy)

ANCAMAN INTERNAL VALIDITY:

🎲 SELECTION BIAS: Kelompok yang menerima program berbeda secara sistematis dari yang tidak menerima. Contoh: Program menjangkau remaja yang sudah termotivasi → perubahan yang terlihat mungkin karena karakteristik remaja tersebut, bukan program. Strategi: gunakan desain yang mengontrol seleksi (randomisasi, matching, DiD) atau analisis karakteristik kelompok secara eksplisit.

📅 HISTORY THREAT: Peristiwa eksternal yang terjadi bersamaan dengan program dapat menyebabkan perubahan yang sama. Contoh: Media massa meluncurkan kampanye besar kesehatan reproduksi bersamaan dengan program → perubahan pengetahuan remaja mungkin karena media, bukan program. Strategi: dokumentasikan peristiwa eksternal yang relevan; gunakan kelompok pembanding yang terpapar kondisi yang sama.

🌱 MATURATION: Perubahan terjadi secara alami seiring waktu, terlepas dari program. Contoh: Remaja usia 15 secara alami lebih matang secara seksual pada usia 18 → perubahan pengetahuan mungkin karena maturasi, bukan program. Strategi: kelompok kontrol yang mengalami maturasi yang sama.

📝 TESTING/MEASUREMENT EFFECT: Pengukuran awal (pre-test) mempengaruhi skor post-test. Contoh: Remaja yang mengisi survei pengetahuan pra-program menjadi lebih sadar tentang isu tersebut → meningkatkan skor post-test. Strategi: Solomon four-group design; atau hindari pengumpulan data pre yang terlalu detail.

🚪 ATTRITION: Peserta yang hilang dari follow-up berbeda dari yang tetap. Contoh: Remaja yang drop-out dari program adalah yang paling berisiko → mengukur hanya yang bertahan overestimates effectiveness. Strategi: analisis attrition; intent-to-treat analysis; upaya aktif untuk retain peserta.

ANCAMAN CONSTRUCT VALIDITY:

🔄 SURROGATE MEASURES: Menggunakan proxy yang tidak sepenuhnya mewakili konsep sesungguhnya. Contoh: menggunakan "pengetahuan tentang kontrasepsi" sebagai proxy untuk "reproductive autonomy" — terlalu sempit. Strategi: gunakan instrumen yang tervalidasi; triangulasi beberapa indikator.

😊 SOCIAL DESIRABILITY BIAS: Responden menjawab sesuai apa yang dianggap "benar" secara sosial, bukan kondisi nyata. Sangat relevan untuk kesehatan reproduksi: remaja mungkin tidak melaporkan perilaku seksual secara jujur. Strategi: anonymous surveys; metode kualitatif yang membangun kepercayaan; bogus pipeline technique; atau metode tidak langsung.

📉 CONCEPT DRIFT: Konsep yang diukur berubah maknanya di antara pengukuran. Contoh: "layanan ramah remaja" diimplementasikan berbeda di berbagai fasilitas → mengukur satu konsep yang sesungguhnya bervariasi. Strategi: standardisasi definisi operasional; quality check implementasi.

STRATEGI UMUM MENINGKATKAN VALIDITAS:

🔺 TRIANGULASI: Gunakan beberapa metode atau sumber data untuk mengukur hal yang sama. Jika hasilnya konvergen: keyakinan lebih tinggi. Jika divergen: signal untuk investigasi lebih lanjut.
🗣️ MEMBER CHECKING: Kembalikan temuan sementara kepada informan atau pemangku kepentingan untuk verifikasi. Apakah temuan ini masuk akal berdasarkan pengalaman mereka?
👥 EXTERNAL REVIEW: Minta evaluator atau pakar lain untuk mengkritisi desain dan interpretasi. Meminimalkan bias evaluator.

C.5. Pertimbangan Etis dalam Evaluasi Program Kesehatan Reproduksi

C.5.1. Dimensi Etis yang Spesifik untuk Bidang Ini

❓ MENGAPA ETIKA EVALUASI KESEHATAN REPRODUKSI LEBIH KOMPLEKS

Isu-isu sensitif: seksualitas, fertilitas, kehamilan tidak diinginkan, aborsi — mengumpulkan data tentang ini memerlukan kehati-hatian ekstra
Populasi rentan: remaja, perempuan dengan kekerasan berbasis gender, kelompok marginal — memerlukan perlindungan tambahan
Potensi stigma: jawaban tertentu dapat menstigma responden di komunitas mereka
Power imbalance: hubungan antara peneliti/evaluator dan komunitas yang dievaluasi

PRINSIP ETIKA EVALUASI:

📋 INFORMED CONSENT

Partisipan harus memahami: Tujuan evaluasi; Apa yang akan dilakukan dengan data; Hak untuk tidak berpartisipasi atau menarik diri; Siapa yang akan mengakses data
Untuk remaja: consent orang tua vs. assent remaja — bagaimana menyeimbangkan?
Dilema: memerlukan consent orang tua dapat mengecualikan remaja yang tidak memiliki hubungan baik dengan orang tua

🔒 CONFIDENTIALITY

Data yang dikumpulkan tidak dapat diidentifikasikan kembali ke individu tertentu
Penting untuk data perilaku seksual dan kesehatan reproduksi
Tantangan: Bagaimana menjaga confidentiality dalam komunitas kecil di mana semua orang saling kenal?

🚫 DO NO HARM

Evaluasi tidak boleh menempatkan partisipan dalam risiko
Risiko yang perlu dipertimbangkan: Stigma dari teridentifikasi sebagai partisipan; Kekerasan berbasis gender: pertanyaan tentang kekerasan dapat memicu eskalasi; Distress psikologis dari pertanyaan yang sensitif

💚 BENEFIT

Evaluasi seharusnya memberikan manfaat kepada komunitas yang dievaluasi — tidak hanya kepada donor atau pembuat kebijakan
Hasil harus dibagikan kembali kepada komunitas dalam format yang dapat mereka gunakan

ISU ETIS SPESIFIK DALAM EVALUASI PROGRAM KR REMAJA:

🔐 CONSENT VS. ASSENT

Di bawah usia 18: perlu informed consent orang tua PLUS assent remaja

Masalah: untuk perilaku seksual remaja yang tidak diketahui orang tua, consent orang tua mungkin tidak feasible atau bahkan berbahaya

Solusi pragmatis: waiver of parental consent untuk evaluasi yang risikonya minimal dan manfaatnya signifikan

⚠️ MANDATORY REPORTING

Jika dalam proses evaluasi ditemukan tanda-tanda abuse atau kekerasan: apakah evaluator memiliki kewajiban hukum atau etis untuk melaporkan?

Tantangan: Bagaimana ini mempengaruhi kerahasiaan yang dijanjikan?

Harus ditetapkan di awal dan dikomunikasikan kepada partisipan

🗳️ EVALUASI PROGRAM YANG KONTROVERSIAL

Beberapa program kesehatan reproduksi secara politis sensitif (pendidikan seks komprehensif, kontrasepsi untuk remaja)

Tekanan untuk menghasilkan temuan tertentu

Prinsip evaluasi yang tidak dapat dikompromikan: integritas data dan kesimpulan tidak dipengaruhi oleh tekanan politik atau kepentingan program

D. Pertanyaan Diskusi (Thread Dosen — Minggu 2)

Modul 2 memiliki Tugas Personal 1 yang dikumpulkan Minggu ke-2. Thread diskusi di bawah ini adalah refleksi paralel.

Pertanyaan 1: Dr. Farid memiliki empat pertanyaan evaluasi yang berbeda dari empat pemangku kepentingan yang berbeda, anggaran Rp 180 juta, dan waktu empat bulan. Menggunakan kerangka yang dibahas dalam modul ini: (a) kelompokkan keempat pertanyaan tersebut berdasarkan level (deskripsi, penilaian, kausalitas) dan identifikasikan mana yang paling feasible dijawab dengan sumber daya yang ada; (b) rancang dua pertanyaan evaluasi utama yang mengintegrasikan kepentingan multiple stakeholders — formulasikan menggunakan kriteria ANSWERABLE, USEFUL, SPECIFIC, ETHICAL; (c) untuk masing-masing pertanyaan, tentukan desain evaluasi yang paling tepat dan jelaskan mengapa desain lain kurang sesuai.

Pertanyaan 2: Program Kesehatan Reproduksi Remaja yang Anda kenal (dari pengalaman atau observasi) memiliki logic model yang implisit — sebuah teori tentang bagaimana program itu seharusnya bekerja yang tidak pernah dituliskan secara eksplisit. (a) rekonstruksi logic model tersebut berdasarkan pengetahuan Anda tentang program — dari inputs hingga long-term impact; (b) identifikasikan dua asumsi kritis dalam logic model itu yang, jika tidak benar, akan membuat seluruh program gagal menghasilkan dampak yang diinginkan; (c) untuk setiap asumsi: rancang satu pertanyaan evaluasi yang dapat menguji apakah asumsi itu benar, dan identifikasikan metode yang paling tepat untuk menjawab pertanyaan tersebut.

E. Rangkuman

Pertanyaan evaluasi adalah keputusan metodologis paling fundamental dalam desain evaluasi — sebelum memutuskan data apa yang dikumpulkan atau metode apa yang digunakan, evaluator harus menetapkan secara eksplisit apa yang ingin diketahui dan untuk apa; pertanyaan evaluasi yang baik memenuhi kriteria ANSWERABLE, USEFUL, SPECIFIC, dan ETHICAL, dan diprioritaskan dari input multiple stakeholders melalui proses yang transparan dan berbasis kriteria
Theory of Change adalah fondasi evaluasi yang sering diabaikan — ia mengartikulasikan secara eksplisit mekanisme dan asumsi tentang bagaimana program diharapkan menghasilkan perubahan; logic model untuk evaluasi mengoperasionalisasikan ToC menjadi indikator yang dapat diukur di setiap level dari inputs hingga long-term impact; tanpa ToC dan logic model yang eksplisit, evaluasi tidak tahu apa yang seharusnya diuji dan mengapa
Pilihan desain evaluasi harus mengikuti pertanyaan evaluasi, bukan sebaliknya — RCT adalah gold standard untuk kausalitas tetapi sering tidak etis, tidak feasible, atau tidak relevan untuk program pemerintah; quasi-experimental designs seperti ITS dan DiD memberikan alternatif yang lebih pragmatis; contribution analysis adalah pendekatan yang sangat berguna untuk program yang tidak dapat menggunakan desain eksperimental sama sekali; dan mixed methods paling sering tepat untuk program kesehatan reproduksi yang melibatkan dimensi kuantitatif dan kualitatif yang sama pentingnya
Ancaman validitas — internal (selection bias, history, maturation, attrition), external (generalisabilitas), dan construct (surrogate measures, social desirability bias) — harus diidentifikasikan dalam desain evaluasi dan diatasi secara aktif; triangulasi dari multiple sumber dan metode adalah strategi paling universal untuk meningkatkan keyakinan terhadap temuan evaluasi
Evaluasi program kesehatan reproduksi menghadapi pertimbangan etis yang lebih kompleks dari evaluasi program kesehatan lain — melibatkan isu-isu sensitif, populasi rentan, potensi stigma, dan tekanan politik; prinsip-prinsip informed consent, confidentiality, do no harm, dan benefit harus dioperasionalisasikan secara spesifik untuk konteks program KR, dan integritas temuan tidak dapat dikompromikan oleh tekanan apapun

F. Referensi

Patton MQ. Qualitative Research and Evaluation Methods. 4th ed. Thousand Oaks: SAGE; 2015.
Shadish WR, Cook TD, Campbell DT. Experimental and Quasi-Experimental Designs for Generalized Causal Inference. Boston: Houghton Mifflin; 2002.
Mayne J. Contribution analysis: coming of age? Evaluation. 2012;18(3):270-280. DOI: https://doi.org/10.1177/1356389012440912
Creswell JW, Plano Clark VL. Designing and Conducting Mixed Methods Research. 3rd ed. Thousand Oaks: SAGE; 2018.
W.K. Kellogg Foundation. Logic Model Development Guide. Battle Creek: WKKF; 2004. URL: https://www.wkkf.org/resource-directory/resources/2004/01/logic-model-development-guide
Anderson A. The Community Builder's Approach to Theory of Change. New York: The Aspen Institute; 2005. URL: https://www.theoryofchange.org
Bertrand JT, Escudero G. Compendium of Indicators for Evaluating Reproductive Health Programs. Chapel Hill: MEASURE Evaluation; 2002. URL: https://www.measureevaluation.org
WHO. Evaluation Practice Handbook. Geneva: WHO; 2013. URL: https://www.who.int/publications/i/item/9789241548687
Simons H. Case Study Research in Practice. London: SAGE; 2009.
Yeatman S, Trinitapoli J. Ethical and methodological considerations in evaluating reproductive health programs. Studies in Family Planning. 2011;42(4):305-316. DOI: https://doi.org/10.1111/j.1728-4465.2011.00291.x

TUGAS PERSONAL 1 — SESI 1 (MINGGU 2)

Mata Kuliah: Evaluasi Program Kesehatan Reproduksi
Semester 3 | Periode 2 | Sesi 1

Identitas Tugas	Detail
Jenis Tugas	Tugas Personal Pertama — Sesi 1
Minggu	Minggu ke-2
Materi	Modul 1–2
Bobot Nilai	10% dari nilai akhir mata kuliah
Pengerjaan	Individual
Batas Pengumpulan	Akhir Minggu ke-2 (7 hari sejak tugas dibuka)
Format Luaran	Essay analitik Word atau PDF
Panjang	900–1.300 kata (tidak termasuk referensi)
Referensi	Minimal 4 referensi dalam format Vancouver

PETUNJUK PENGERJAAN

Tugas ini adalah analisis desain evaluasi berbasis konteks — peserta didik diminta merancang kerangka evaluasi untuk satu program kesehatan reproduksi yang nyata atau hipotetis yang relevan dengan konteks kerja mereka
Tugas ini bukan ringkasan teori — kemampuan menerapkan konsep dari Modul 1 dan 2 ke konteks yang spesifik dan konkret adalah yang paling dihargai
Kejujuran dalam mengidentifikasikan keterbatasan desain yang diusulkan akan mendapat nilai lebih tinggi dari klaim keunggulan yang tidak didukung argumentasi

🗺️ SKENARIO PEMBUKA

Anda baru selesai membaca Modul 2 dan merasa ada sesuatu yang selama ini "hilang" dalam cara program-program kesehatan reproduksi di sekitar Anda dirancang dan dievaluasi. Seorang kolega dari Dinkes menghubungi Anda: "Kami punya program KB pasca persalinan yang sudah berjalan dua tahun. Kepala Dinas minta dievaluasi bulan depan untuk keputusan anggaran tahun berikutnya. Kamu mau bantu rancang evaluasinya?" Anda menyanggupi.

TUGAS

Rancang kerangka evaluasi untuk program KB pasca persalinan di wilayah yang Anda kenal (atau konstruksikan konteks yang realistis berdasarkan pengalaman klinis Anda). Kerangka evaluasi Anda harus mencakup empat bagian berikut:

Bagian 1 — Deskripsi Program dan Theory of Change (±300 kata)

Deskripsikan program yang akan dievaluasi secara konkret:

Tujuan program dan masalah yang ingin diselesaikan
Aktivitas utama yang dijalankan
Populasi target dan cakupan yang diharapkan

Kemudian konstruksikan theory of change program ini secara eksplisit: bagaimana program diharapkan menghasilkan perubahan? Identifikasikan minimal dua asumsi kritis yang, jika tidak benar, akan membuat program gagal mencapai dampak yang diinginkan.

Bagian 2 — Pertanyaan Evaluasi (±250 kata)

Rumuskan tiga pertanyaan evaluasi yang akan memandu evaluasi ini. Untuk setiap pertanyaan:

Nyatakan pertanyaan secara eksplisit dan operasional
Kategorikan level pertanyaan (deskripsi / penilaian / kausalitas)
Justifikasikan mengapa pertanyaan ini yang diprioritaskan — mengapa pertanyaan ini lebih penting dari pertanyaan lain yang mungkin diajukan pemangku kepentingan?

Bagian 3 — Desain Evaluasi (±400 kata)

Untuk pertanyaan evaluasi yang Anda nilai paling penting, pilih desain evaluasi yang paling tepat dan jelaskan:

Desain yang dipilih dan justifikasinya
Metode pengumpulan data (kuantitatif, kualitatif, atau mixed methods) beserta alasannya
Sumber data yang akan digunakan
Ancaman validitas paling kritis yang harus diantisipasi dan strategi mengatasinya
Keterbatasan desain yang Anda akui secara jujur

Bagian 4 — Pertimbangan Etis dan Penggunaan Hasil (±250 kata)

Identifikasikan dua pertimbangan etis yang paling relevan untuk evaluasi program KB pasca persalinan ini — termasuk bagaimana Anda akan mengatasinya secara konkret
Siapa pengguna utama hasil evaluasi ini, dan bagaimana Anda akan memastikan hasil evaluasi benar-benar digunakan untuk keputusan yang lebih baik — bukan sekadar menjadi laporan yang diarsip?

RUBRIK PENILAIAN

Komponen	Indikator Penilaian	Bobot
Bagian 1 — ToC	Kejelasan deskripsi program; eksplisitnya mekanisme perubahan; ketajaman identifikasi asumsi kritis	25%
Bagian 2 — Pertanyaan Evaluasi	Ketepatan kategorisasi level; kualitas operasionalisasi; koherensi justifikasi prioritas	25%
Bagian 3 — Desain	Ketepatan desain dengan pertanyaan; kedalaman analisis ancaman validitas; kejujuran tentang keterbatasan	35%
Bagian 4 — Etika dan Penggunaan	Spesifisitas isu etis untuk konteks KB pasca persalinan; realisme strategi penggunaan hasil	15%

REFERENSI MINIMAL YANG DISARANKAN

Patton MQ. Utilization-Focused Evaluation. 4th ed. Thousand Oaks: SAGE; 2008.
Shadish WR, Cook TD, Campbell DT. Experimental and Quasi-Experimental Designs. Boston: Houghton Mifflin; 2002.
WHO. Evaluation Practice Handbook. Geneva: WHO; 2013.
Bertrand JT, Escudero G. Compendium of Indicators for Evaluating Reproductive Health Programs. Chapel Hill: MEASURE Evaluation; 2002.

Malang, Maret 2026
Penyusun