Modul 5: Pelaporan dan Utilisasi Hasil Evaluasi Program Kesehatan Reproduksi

📋 Daftar Isi Modul

A. Deskripsi Modul
B. Capaian Pembelajaran
C. Materi Inti
D. Pertanyaan Diskusi
E. Rangkuman
F. Referensi
Quiz 1 — Sesi 1

A. Deskripsi Modul

Juni 2025. Ruang rapat Dinas Kesehatan Provinsi Sulawesi Tenggara.

Dr. Farid meletakkan draft laporan evaluasi setebal 87 halaman di meja. Di ruangan itu duduk delapan orang: Kepala Dinas, dua Kepala Bidang, perwakilan UNFPA, seorang akademisi dari Universitas Halu Oleo, tiga kepala seksi yang programnya dievaluasi, dan seorang jurnalis kesehatan yang diundang oleh Kepala Dinas.

Setelah tiga bulan kerja keras mengumpulkan dan menganalisis data, Dr. Farid tahu bahwa momen ini adalah yang paling menentukan. Bukan analisisnya — meskipun ia bangga dengan rigornya. Bukan datanya — meskipun kualitasnya jauh lebih baik dari evaluasi sebelumnya.

Yang menentukan adalah: apakah temuan evaluasi ini akan benar-benar mengubah sesuatu?

Ia melihat wajah-wajah di ruangan itu. Kepala Dinas tampak sibuk dengan teleponnya. Kepala Bidang yang programnya mendapat temuan kritis tampak defensif bahkan sebelum presentasi dimulai. Perwakilan UNFPA membawa laptop dan tampaknya sudah menyiapkan pertanyaan. Akademisi itu mengerutkan dahi membaca executive summary.

Laporan yang sempurna yang tidak dibaca tidak berguna, pikir Dr. Farid. Temuan yang tidak dapat dikomunikasikan tidak akan mengubah kebijakan. Dan rekomendasi yang tidak dimiliki oleh orang yang harus mengimplementasikannya tidak akan pernah dijalankan.

Ia membuka laptopnya dan memulai presentasi.

Analisis data yang cermat adalah kondisi perlu tetapi tidak cukup untuk evaluasi yang berguna. Evaluasi mencapai tujuannya hanya ketika temuan dikomunikasikan secara efektif kepada audiens yang tepat, dalam format yang tepat, pada waktu yang tepat — dan ketika proses evaluasi dirancang sejak awal untuk memaksimalkan kemungkinan bahwa temuannya akan digunakan. Modul ini membangun kapasitas untuk menulis laporan evaluasi yang dibaca, mempresentasikan temuan yang menggerakkan keputusan, dan merancang strategi utilisasi yang mengubah evaluasi dari dokumen menjadi perubahan nyata.

B. Capaian Pembelajaran Modul

Setelah menyelesaikan modul ini, peserta didik mampu:

Menyusun laporan evaluasi program kesehatan reproduksi yang memenuhi standar kualitas teknis dan komunikasi
Mengadaptasi komunikasi temuan evaluasi untuk audiens yang berbeda dengan kebutuhan dan kapasitas yang berbeda
Merancang strategi utilisasi hasil evaluasi yang memaksimalkan kemungkinan temuan digunakan untuk keputusan program dan kebijakan
Mengidentifikasi dan mengelola dimensi politik dalam proses pelaporan dan utilisasi evaluasi
Menerapkan prinsip evaluasi yang etis dalam pelaporan temuan, termasuk temuan yang tidak nyaman bagi pemangku kepentingan

C. Materi Inti

C.1. Menulis Laporan Evaluasi yang Dibaca

C.1.1. Anatomi Laporan Evaluasi yang Efektif

⚖️ PARADOKS LAPORAN EVALUASI

Laporan yang paling lengkap dan rigorous sering yang paling jarang dibaca
Pejabat pembuat keputusan membaca executive summary — jika menarik, mereka membaca satu bagian lagi
Program staf membaca bagian yang relevan dengan tugas mereka
Donor membaca executive summary + recommendations
Akademisi membaca methodology

IMPLIKASI:

Laporan yang baik ditulis untuk audiens yang berbeda dengan entry points yang berbeda
Setiap bagian harus dapat berdiri sendiri dan bermakna tanpa membaca bagian lain

📋 STRUKTUR LAPORAN EVALUASI STANDAR:

📄 HALAMAN JUDUL

Judul yang informatif (bukan "Laporan Evaluasi Program KR" — tapi "Efektivitas Program Kesehatan Reproduksi Remaja Provinsi Sulawesi Tenggara 2021–2024: Temuan Evaluasi dan Rekomendasi")
Nama tim evaluasi
Tanggal dan sponsor evaluasi
Pernyataan tentang independensi evaluasi (jika relevan)

⭐ EXECUTIVE SUMMARY (PALING KRITIS)

Panjang: 1–3 halaman maksimum
Ditulis SETELAH laporan lengkap selesai, bukan sebelumnya
Konten: tujuan evaluasi, metode singkat, 3–5 temuan paling penting, 3–5 rekomendasi
Harus dapat berdiri sendiri: seseorang yang hanya membaca exec summary harus mendapatkan gambaran yang akurat tentang seluruh evaluasi
Bahasa: non-teknis, aktif, konkret
Jebakan: exec summary yang hanya merangkum positif dan mengubur temuan kritis

📖 BAB 1 — LATAR BELAKANG DAN TUJUAN

Konteks program: masalah apa yang diselesaikan program?
Deskripsi program: apa yang dilakukan, siapa yang dijangkau, berapa anggarannya
Tujuan evaluasi: pertanyaan evaluasi yang menjadi panduan
Pengguna evaluasi: siapa yang akan menggunakan temuan dan untuk apa
Panjang: 3–5 halaman

🔬 BAB 2 — METODE

Desain evaluasi dan justifikasi
Instrumen dan sumber data
Sampling dan prosedur pengumpulan data
Metode analisis
Keterbatasan metodologis yang diakui
Pertimbangan etis
Panjang: 5–10 halaman (detail teknis dapat dipindah ke annex)

📊 BAB 3 — TEMUAN

Diorganisasi berdasarkan pertanyaan evaluasi, bukan berdasarkan metode atau sumber data
Setiap pertanyaan evaluasi: sub-bab tersendiri
Temuan kuantitatif dan kualitatif terintegrasi, bukan terpisah
Visualisasi data: setiap tabel dan grafik harus memiliki judul informatif, sumber, dan catatan interpretasi
Panjang: terbesar, bergantung pada cakupan evaluasi

💭 BAB 4 — DISKUSI DAN INTERPRETASI

Apa arti temuan ini dalam konteks yang lebih luas?
Apakah temuan konsisten dengan evaluasi program serupa di tempat lain?
Penjelasan untuk temuan yang tidak terduga
Keterbatasan yang mempengaruhi interpretasi
Panjang: 5–10 halaman

✅ BAB 5 — KESIMPULAN DAN REKOMENDASI

Kesimpulan: pernyataan ringkas menjawab setiap pertanyaan evaluasi
Rekomendasi: actionable, spesifik, diprioritaskan
Format rekomendasi yang baik (lihat C.1.3)
Panjang: 3–5 halaman

📎 ANNEXES

Instrumen pengumpulan data
Detail metodologis teknis
Tabel data lengkap
Profil site atau informan (dianonimkan)
Terms of Reference evaluasi

C.1.2. Visualisasi Data yang Efektif dalam Laporan Evaluasi KR

🎨 PRINSIP VISUALISASI UNTUK EVALUASI:

PRINSIP 1 — SETIAP VISUAL HARUS MEMILIKI SATU PESAN UTAMA:
→ Sebelum membuat grafik: tentukan kalimat yang ingin dikomunikasikan
→ Contoh: "Cakupan KB pasca persalinan lebih rendah pada kelompok termiskin di semua kabupaten"
→ Grafik harus membuktikan kalimat itu — bukan menampilkan semua data yang ada

PRINSIP 2 — PILIH JENIS GRAFIK YANG TEPAT:
→ Perbandingan antar kategori: Bar chart (horizontal jika label panjang) — BUKAN pie chart (sulit membandingkan proporsi yang mirip)
→ Distribusi satu variabel: Histogram atau box plot — Bukan bar chart untuk data kontinu
→ Tren waktu: Line chart — Tambahkan anotasi: kapan program dimulai, events kunci
→ Hubungan dua variabel: Scatter plot (dengan regression line jika relevan) — Bukan bar chart yang dipaksakan
→ Distribusi geografis: Choropleth map — Sangat efektif untuk evaluasi program multi-site
→ Equity analysis: Concentration curve atau equity chart (cakupan per quintile pendapatan) — Sangat komunikatif untuk audiens kebijakan

PRINSIP 3 — AKSESIBILITAS:
→ Gunakan warna yang dapat dibedakan oleh pembaca buta warna (hindari merah-hijau)
→ Label langsung pada grafik, bukan hanya di legenda
→ Ukuran font cukup besar untuk dibaca dalam laporan yang dicetak

📋 TABEL YANG EFEKTIF:

Judul informatif: bukan "Tabel 1" tetapi "Tabel 1. Karakteristik Demografis Responden per Kabupaten (n=847)"
Kolom yang relevan saja — jangan memuat semua output software
Angka yang dibulatkan secara tepat: persentase 1 desimal untuk proporsi besar, 2 desimal untuk proporsi kecil
Footnotes: jelaskan singkatan, uji statistik yang digunakan, nilai p
Untuk tabel regresi: selalu sertakan OR/koefisien, CI 95%, dan p-value

C.1.3. Menulis Rekomendasi yang Actionable

⚠️ MASALAH UMUM DENGAN REKOMENDASI EVALUASI

TERLALU UMUM: "Program perlu meningkatkan kualitas layanan" — Siapa yang akan melakukan apa dan kapan?
TIDAK TERHUBUNG DENGAN TEMUAN: Rekomendasi yang bisa ditulis tanpa membaca laporan evaluasi sama sekali
TERLALU BANYAK: Laporan dengan 47 rekomendasi: tidak ada yang akan diimplementasikan
MENGABAIKAN KONTEKS: Rekomendasi yang memerlukan sumber daya yang jelas tidak tersedia dalam sistem yang ada

🎯 KERANGKA REKOMENDASI YANG BAIK: SMART+E

🎯 SPECIFIC (SPESIFIK)

Apa yang harus dilakukan, secara konkret?
Bukan: "Tingkatkan pelatihan petugas"
Ya: "Adakan pelatihan refresher konseling KB selama 2 hari untuk seluruh bidan di 14 Puskesmas Kabupaten B yang mendapat skor observasi di bawah 60/100"

📏 MEASURABLE (TERUKUR)

Bagaimana keberhasilan implementasi rekomendasi akan diketahui?
"...dengan indikator keberhasilan: ≥80% bidan lulus post-test dengan skor ≥70"

✅ ACHIEVABLE (DAPAT DICAPAI)

Realistis dengan sumber daya yang tersedia atau yang dapat dimobilisasi

🔗 RELEVANT (RELEVAN)

Terhubung langsung dengan temuan evaluasi yang spesifik
Cantumkan referensi: "Berdasarkan temuan Bagian 3.2 bahwa..."

⏰ TIME-BOUND (TERIKAT WAKTU)

Kapan harus dimulai? Kapan harus selesai?
"...dalam 3 bulan pertama tahun anggaran berikutnya"

🔝 EXPLICITLY PRIORITIZED

Bedakan: rekomendasi prioritas tinggi (harus segera) vs. menengah vs. jangka panjang
Berikan justifikasi prioritisasi

📝 CONTOH REKOMENDASI YANG BAIK:

REKOMENDASI 1 (PRIORITAS TINGGI):

Kepala Dinas Kesehatan Provinsi bersama Kepala Dinas Kabupaten B dan C harus mengalokasikan anggaran untuk renovasi sederhana ruang konseling KB di 17 Puskesmas yang tidak memiliki ruang konseling terpisah. Berdasarkan temuan Bagian 3.3, ketiadaan privasi adalah hambatan akses yang disebutkan oleh 73% informan wawancara dan berkorelasi secara signifikan dengan utilisasi layanan yang lebih rendah (OR 0.41, 95% CI 0.22–0.76). Indikator keberhasilan: 100% Puskesmas memiliki ruang konseling terpisah dalam 6 bulan. Estimasi biaya: Rp 8–15 juta per Puskesmas.

REKOMENDASI 2 (PRIORITAS MENENGAH):

Tim program harus merevisi strategi sosialisasi untuk mengintegrasikan peer educator remaja sebagai agen utama komunikasi program. Temuan Bagian 4.2 menunjukkan bahwa remaja yang direkrut melalui peer educator memiliki retensi program 2.3 kali lebih tinggi, namun saat ini hanya 8% Puskesmas yang memiliki peer educator terlatih. Target: minimal 2 peer educator terlatih per Puskesmas dalam 12 bulan, dengan anggaran dari realokasi 30% biaya sosialisasi media cetak yang terbukti tidak efektif.

C.2. Komunikasi Temuan untuk Audiens yang Berbeda

C.2.1. Memetakan Audiens dan Kebutuhan Komunikasinya

🎯 PRINSIP KOMUNIKASI EVALUASI

SATU TEMUAN, BANYAK VERSI:

Laporan teknis lengkap untuk evaluator, akademisi, donor teknis
Executive summary untuk pengambil keputusan
Policy brief untuk pejabat tinggi dan legislator
Fact sheet untuk manajer program
Infografis untuk komunikasi publik dan media
Presentasi untuk pertemuan stakeholder

📄 POLICY BRIEF

DEFINISI: Dokumen 2–4 halaman yang menyajikan temuan dan rekomendasi evaluasi untuk pembuat kebijakan. Bukan ringkasan teknis — bukan abstrak ilmiah. Dirancang untuk seseorang yang sibuk, non-teknis, dan perlu mengambil keputusan.

STRUKTUR POLICY BRIEF YANG EFEKTIF:

HEADLINE (1 kalimat): Klaim paling penting yang ingin disampaikan. Contoh: "Program KB Pasca Persalinan Provinsi Efektif untuk Ibu Perkotaan tetapi Gagal Menjangkau Kelompok Termiskin di Pedesaan — Perbaikan Spesifik Diperlukan"
PROBLEM STATEMENT (1 paragraf): Mengapa ini penting? Apa yang dipertaruhkan?
KEY FINDINGS (3–5 poin): Temuan paling penting dalam bahasa non-teknis. Setiap poin: 1–2 kalimat maksimum. Sertakan angka yang spesifik dan mudah dipahami. Jangan sembunyikan temuan negatif: pejabat yang membuat keputusan berdasarkan gambaran yang terlalu positif akan membuat keputusan yang salah
RECOMMENDATIONS (3–5 poin): Actionable, spesifik, bertahap. Prioritas jelas. Menyebut siapa yang harus melakukan apa
EVIDENCE BASE (1 paragraf pendek): Dari mana data ini berasal? Berikan kredibilitas tanpa detail teknis berlebihan

🎤 PRESENTASI KEPADA PENGAMBIL KEPUTUSAN:

🚀 PRINSIP PRESENTASI EVALUASI

MULAI DENGAN KESIMPULAN, BUKAN DENGAN METODE: Audiens kebijakan tidak peduli dengan metode sampling Anda sebelum mereka tahu apakah temuan Anda relevan untuk mereka. Slide 1: "Tiga hal yang perlu Bapak/Ibu ketahui dari evaluasi ini"
SATU PESAN PER SLIDE: Judul slide adalah CLAIM, bukan TOPIK. Bukan: "Cakupan Program". Ya: "Cakupan Program Tertinggal di Tiga Kabupaten Meskipun Anggaran Meningkat 40%"

🗣️ ANTISIPASI & DISKUSI

ANTISIPASI PERTANYAAN DEFENSIF: Pengambil keputusan sering merespons temuan kritis dengan: "Datanya tidak valid", "Ini bukan representatif", "Ada faktor eksternal yang tidak dikontrol". Persiapkan respons: transparansi tentang keterbatasan metodologis justru membangun kredibilitas. Jangan defensif: "Memang ada keterbatasan, dan inilah yang kami lakukan untuk mengatasinya, dan inilah mengapa kami masih meyakini kesimpulan ini"
BERI RUANG UNTUK DISKUSI: Presentasi bukan satu arah. Stakeholder yang merasa didengar lebih mungkin menggunakan temuan. Teknik: "Apakah temuan ini sesuai dengan pengalaman Bapak/Ibu di lapangan? Apakah ada yang mengejutkan?"

C.3. Utilisasi Hasil Evaluasi: Mengubah Temuan menjadi Perubahan

C.3.1. Teori Utilisasi dalam Evaluasi

🎯 UTILIZATION-FOCUSED EVALUATION (PATTON, 2008)

PREMIS DASAR:

Evaluasi harus dirancang dan dilaksanakan untuk memaksimalkan kemungkinan temuannya digunakan
Utilisasi tidak terjadi secara otomatis setelah laporan diserahkan
Evaluator bertanggung jawab untuk utilisasi, bukan hanya untuk kualitas teknis evaluasi

IMPLIKASI UNTUK DESAIN EVALUASI:

Identifikasikan intended users dan intended uses SEBELUM memulai evaluasi
Libatkan pengguna utama dalam proses evaluasi: memilih pertanyaan, mereview metode, menerima temuan
Fokuskan evaluasi pada pertanyaan yang benar-benar akan menghasilkan perbedaan dalam keputusan

📊 TIPE UTILISASI:

🔧 INSTRUMENTAL USE (PENGGUNAAN LANGSUNG)

Definisi: Temuan langsung digunakan untuk mengubah keputusan program atau kebijakan

Contoh: evaluasi menemukan bahwa strategi A tidak efektif → program beralih ke strategi B

Catatan: Paling mudah terlihat, tapi tidak selalu yang paling bermakna

🧠 CONCEPTUAL USE (PERUBAHAN PEMAHAMAN)

Definisi: Evaluasi mengubah cara stakeholder berpikir tentang masalah atau program, meskipun tidak ada perubahan kebijakan yang langsung

Contoh: evaluasi menunjukkan bahwa hambatan akses layanan KR bersifat sosial-budaya, bukan hanya geografis → mengubah mental model pembuat kebijakan tentang penyebab rendahnya cakupan

Catatan: Sering lebih berkelanjutan dari instrumental use

🔄 PROCESS USE (MANFAAT DARI PROSES)

Definisi: Perubahan terjadi karena PROSES evaluasi, bukan karena temuan

Contoh: selama proses evaluasi, program staf terlibat dalam wawancara dan analisis → membangun kapasitas evaluasi mereka sendiri, mengubah cara mereka memonitor program

Catatan: Sering diabaikan dalam perencanaan evaluasi, padahal sangat bernilai

🎭 SYMBOLIC/POLITICAL USE

Definisi: Evaluasi digunakan untuk melegitimasi keputusan yang sudah diambil sebelumnya

Contoh: evaluasi digunakan untuk membenarkan penghentian program yang secara politis tidak diinginkan, atau untuk membuktikan kepada donor bahwa uang mereka digunakan dengan baik

Catatan: Tidak selalu negatif, tapi perlu evaluator waspadai

⚖️ FAKTOR YANG MENENTUKAN UTILISASI:

✅ FAKTOR YANG MENDORONG

Relevansi: evaluasi menjawab pertanyaan yang benar-benar dihadapi pengguna
Kredibilitas: pengguna percaya pada kualitas metodologi
Komunikasi: temuan disampaikan dalam format yang dapat diakses pengguna
Keterlibatan: pengguna dilibatkan dalam proses evaluasi
Timing: temuan tersedia ketika keputusan harus dibuat (bukan setelah)
Championship: ada individu dalam organisasi yang aktif memperjuangkan penggunaan temuan

❌ FAKTOR YANG MENGHAMBAT

Temuan mengancam kepentingan yang ada
Kapasitas terbatas untuk mengimplementasikan rekomendasi
Turnover: pejabat yang dievaluasi sudah berganti ketika laporan selesai
Ketidakpercayaan pada evaluator atau pada proses
Temuan ambigu atau terlalu teknis
Tidak ada mekanisme follow-up dan akuntabilitas

C.3.2. Mengelola Dimensi Politik Pelaporan Evaluasi

🏛️ REALITAS POLITIK EVALUASI KR

Program KR sering kontroversial secara politik: KB, pendidikan seks, layanan untuk remaja tidak menikah
Pengelola program memiliki kepentingan untuk temuan positif
Donor menginginkan bukti bahwa investasi mereka berhasil
Lawan program menginginkan bukti kegagalan
Evaluator berada di tengah semua ini

🛡️ PRINSIP EVALUATOR YANG INDEPENDEN:

✅ INTEGRITAS TEMUAN TIDAK DAPAT DIKOMPROMIKAN

Tidak ada penyesuaian temuan berdasarkan tekanan stakeholder
Temuan negatif dilaporkan dengan keberanian yang sama dengan temuan positif
Keterbatasan metodologis diakui secara transparan meskipun membuat temuan tampak kurang meyakinkan

🗣️ NAMUN EVALUATOR BISA MEMILIH CARA MENYAMPAIKAN

Framing: temuan negatif bisa diframe sebagai "peluang perbaikan" tanpa mengubah substansinya
Kontekstualisasi: temuan kritis disandingkan dengan penjelasan tentang faktor kontekstual yang mungkin berkontribusi
Sequencing: dalam presentasi lisan, urutan penyampaian mempengaruhi penerimaan
Semua ini adalah komunikasi yang cerdas, bukan manipulasi

🎭 MENANGANI KONFLIK DENGAN STAKEHOLDER:

SCENARIO 1: Program manager meminta untuk menghapus temuan negatif dari laporan.
RESPONS:

Tidak: menghapus temuan negatif adalah pelanggaran integritas evaluasi
Tawarkan: penyesuaian framing atau tambahan konteks yang menempatkan temuan dalam perspektif yang lebih adil
Jelaskan: laporan yang lengkap dan jujur justru melindungi program dari kritik yang lebih besar di kemudian hari

SCENARIO 2: Kepala Dinas meminta laporan evaluasi tidak dipublikasikan karena akan digunakan lawan politik dalam masa kampanye.
RESPONS:

Ini lebih kompleks: evaluator perlu mempertimbangkan kontrak dan hak publikasi yang sudah disepakati
Jika tidak ada kesepakatan yang jelas: diskusikan timing publikasi (bukan penghapusan konten)
Jika ada ketentuan bahwa pengguna program berhak atas hasil: pengabaian hak ini adalah isu etis

SCENARIO 3: Temuan evaluasi digunakan oleh media untuk mengkritik program secara tidak akurat atau di luar konteks.
RESPONS:

Siapkan pernyataan singkat yang mengklarifikasi temuan secara akurat
Tawarkan briefing kepada jurnalis tentang konteks dan nuansa
Ini adalah risiko yang harus diantisipasi dalam strategi komunikasi evaluasi

C.4. Evaluasi yang Etis: Prinsip dalam Praktik

C.4.1. Kode Etik Evaluasi dan Penerapannya

📜 PRINSIP ETIKA EVALUASI (AEA GUIDING PRINCIPLES):

🔍 SYSTEMATIC INQUIRY

Evaluator melaksanakan evaluasi dengan standar metodologis tertinggi yang feasible dalam keterbatasan yang ada. Tidak mengklaim ketelitian yang melebihi metodologi yang digunakan. Melaporkan keterbatasan secara jelas.

🎓 COMPETENCE

Evaluator hanya menerima penugasan yang sesuai dengan kompetensinya. Untuk evaluasi KR: perlu kompetensi dalam metodologi evaluasi DAN pemahaman tentang program dan populasi KR.

⚖️ INTEGRITY/HONESTY

Transparansi tentang tujuan, kemampuan, temuan, dan keterbatasan. Menolak tekanan untuk mengubah temuan. Mengungkap konflik kepentingan.

🤝 RESPECT FOR PEOPLE

Menghormati keamanan, martabat, dan hak mandiri partisipan. Memperhatikan perbedaan budaya. Khusus untuk KR: populasi yang terlibat sering rentan dan sensitif.

🌍 RESPONSIBILITIES FOR GENERAL AND PUBLIC WELFARE

Evaluator mempertimbangkan dampak evaluasi terhadap publik yang lebih luas. Temuan evaluasi KR dapat mempengaruhi akses layanan bagi ribuan orang.

⚠️ ISU ETIS DALAM PELAPORAN:

🔐 CONFIDENTIALITY DALAM LAPORAN

Informan yang berpartisipasi dalam wawancara tidak dapat diidentifikasi dalam laporan
Bahkan tanpa nama: deskripsi yang terlalu spesifik dapat membuat individu dapat diidentifikasi dalam komunitas kecil
Trade-off: detail yang membuat temuan lebih kaya vs. perlindungan privasi informan

🚨 MELAPORKAN TEMUAN YANG DAPAT MEMBAHAYAKAN

Jika evaluasi menemukan bukti malpraktik, korupsi, atau pelanggaran hak pasien: evaluator memiliki kewajiban etis untuk melaporkan
Namun kepada siapa? Dalam konteks apa? Tanpa menjadi "penuntut umum"?
Umumnya: laporkan melalui saluran formal yang tepat, bukan langsung ke media

📝 MEMBERIKAN KREDIT

Kontribusi semua anggota tim evaluasi harus diakui
Data yang dikumpulkan oleh orang lain (mis. data program) harus dikreditkan dengan tepat
Menggunakan analisis atau temuan evaluasi lain tanpa kredit adalah pelanggaran integritas ilmiah

D. Pertanyaan Diskusi (Thread Dosen — Minggu 5)

Modul 5 diikuti oleh Quiz 1 Sesi 1 pada Minggu ke-5. Thread diskusi di bawah ini adalah refleksi paralel.

Pertanyaan 1: Dr. Farid menyelesaikan laporan evaluasi 87 halaman yang menemukan bahwa program KR Remaja efektif di tiga dari enam kabupaten, tidak efektif di dua kabupaten, dan bahkan menunjukkan tanda-tanda "program capture" oleh kelompok remaja yang sudah berpengetahuan tinggi — bukan yang paling membutuhkan — di satu kabupaten. Pengelola program memintanya untuk "menyeimbangkan" laporan dengan lebih banyak narasi keberhasilan agar tidak merusak moril staf. (a) Bagaimana Dr. Farid seharusnya merespons permintaan ini berdasarkan prinsip etika evaluasi? (b) Apakah ada cara untuk mengakomodasi kekhawatiran pengelola program tanpa mengkompromikan integritas temuan? (c) Bagaimana ia seharusnya mengkomunikasikan temuan tentang "program capture" kepada audiens yang berbeda: Kepala Dinas, staf program, dan perwakilan UNFPA?

Pertanyaan 2: Bayangkan Anda menerima laporan evaluasi program KR yang menemukan: (1) cakupan meningkat 23%, (2) pengetahuan remaja meningkat signifikan (Cohen's d = 0.41), dan (3) tidak ada perubahan dalam angka kehamilan remaja. (a) Bagaimana Anda menginterpretasikan kombinasi temuan ini secara kohesif — apakah program berhasil atau gagal? (b) Temuan mana yang paling penting untuk dilaporkan kepada Kepala Dinas, dan mengapa? (c) Rancang satu rekomendasi SMART+E berdasarkan temuan ketiga (tidak ada perubahan angka kehamilan) yang akan mengubah program secara konkret.

E. Rangkuman

Laporan evaluasi yang efektif dirancang untuk audiens yang berbeda dengan entry points yang berbeda — executive summary adalah komponen paling kritis karena sering menjadi satu-satunya bagian yang dibaca oleh pengambil keputusan; executive summary yang membuahkan hasil ditulis setelah laporan selesai, menggunakan bahasa non-teknis dan aktif, dan tidak menyembunyikan temuan kritis
Rekomendasi yang actionable mengikuti kerangka SMART+E — spesifik tentang siapa melakukan apa, terukur dengan indikator keberhasilan yang jelas, dapat dicapai dalam sumber daya yang tersedia, relevan dan terhubung langsung dengan temuan evaluasi yang spesifik, terikat waktu, dan diprioritaskan secara eksplisit; laporan dengan puluhan rekomendasi yang generik tidak akan mengubah apapun
Temuan evaluasi harus dikomunikasikan dalam format yang berbeda untuk audiens yang berbeda — policy brief untuk pengambil kebijakan, fact sheet untuk manajer program, infografis untuk komunikasi publik; prinsip komunikasi yang paling penting adalah memulai dengan kesimpulan bukan dengan metode, menggunakan satu pesan per slide/halaman, dan memberi ruang untuk diskusi
Utilisasi hasil evaluasi tidak terjadi secara otomatis — evaluator yang efektif merancang strategi utilisasi sejak awal dengan mengidentifikasikan intended users dan intended uses, melibatkan pengguna utama dalam proses evaluasi, dan memastikan timing pelaporan yang tepat; utilisasi dapat berbentuk instrumental (perubahan keputusan langsung), konseptual (perubahan cara berpikir), atau proses (manfaat dari keterlibatan dalam evaluasi)
Evaluator program KR beroperasi dalam lingkungan yang sarat kepentingan — tekanan untuk mengubah temuan, membatasi publikasi, atau menggunakan evaluasi untuk tujuan politis adalah realitas yang harus dikelola dengan integritas; integritas temuan tidak dapat dikompromikan, tetapi cara menyampaikan temuan yang sulit dapat disesuaikan dengan memperhatikan framing, kontekstualisasi, dan sequencing tanpa mengubah substansi

F. Referensi

Patton MQ. Utilization-Focused Evaluation. 4th ed. Thousand Oaks: SAGE; 2008.
American Evaluation Association. Guiding Principles for Evaluators. Washington DC: AEA; 2018. URL: https://www.eval.org/About/Guiding-Principles
Weiss CH. Evaluation: Methods for Studying Programs and Policies. 2nd ed. Upper Saddle River: Prentice Hall; 1998.
Tufte ER. The Visual Display of Quantitative Information. 2nd ed. Cheshire: Graphics Press; 2001.
Leeuw FL, Donaldson SI. Theory in evaluation: reducing confusion and promoting theory-based evaluation practice. Canadian Journal of Program Evaluation. 2015;30(2):100-119. DOI: https://doi.org/10.3138/cjpe.230
UNAIDS. A Framework for Monitoring and Evaluating HIV Prevention Programmes for Most-at-Risk Populations. Geneva: UNAIDS; 2007. URL: https://www.unaids.org/sites/default/files/media_asset/jc1516_framework_monitoring_en_0.pdf
WHO. Developing Sexual Health Programmes: A Framework for Action. Geneva: WHO; 2010. URL: https://www.who.int/reproductivehealth/publications/sexual_health/rhr_hrt_10_22/en
Bamberger M, Rugh J, Mabry L. RealWorld Evaluation: Working Under Budget, Time, Data, and Political Constraints. 3rd ed. Thousand Oaks: SAGE; 2019.
Donaldson SI, Christie CA, Mark MM, eds. What Counts as Credible Evidence in Applied Research and Evaluation Practice? Thousand Oaks: SAGE; 2009.
Alkin MC, ed. Evaluation Roots: A Wider Perspective of Theorists' Views and Influences. 2nd ed. Thousand Oaks: SAGE; 2013.

QUIZ 1 — SESI 1 (MINGGU 5)

Mata Kuliah: Evaluasi Program Kesehatan Reproduksi
Semester 3 | Periode 2 | Sesi 1

Petunjuk Teknis	Detail
Jenis Penilaian	Quiz Pertama — Sesi 1
Minggu	Minggu ke-5
Cakupan Materi	Modul 1–5 (Sesi 1)
Jumlah Soal	10 soal pilihan ganda
Bobot Nilai	10% dari nilai akhir mata kuliah
Waktu Pengerjaan	30 menit
Pengerjaan	Individual, closed book
Format Jawaban	Pilih satu jawaban yang paling tepat (A/B/C/D)

SOAL QUIZ

Soal 1

Dinas Kesehatan Kabupaten X ingin mengetahui mengapa cakupan KB pasca persalinan rendah di wilayah terpencil, meskipun data SIMPUS menunjukkan jumlah kunjungan Puskesmas sudah meningkat. Berdasarkan kerangka yang dibahas dalam Modul 2, pertanyaan evaluasi ini berada pada level:

A. Level 1 — Pertanyaan tentang deskripsi, karena menyangkut data cakupan yang dapat dihitung
B. Level 2 — Pertanyaan tentang penilaian, karena membandingkan cakupan dengan target yang ditetapkan
C. Level 3 — Pertanyaan tentang kausalitas, karena mencari penyebab dari fenomena yang diamati
D. Level 2 dan 3 sekaligus, karena pertanyaan "mengapa" mengandung elemen penilaian sekaligus eksplorasi kausal

Soal 2

Dr. Farid mengembangkan theory of change (ToC) program KR Remaja. Ia mengidentifikasikan asumsi kritis: "Remaja perempuan yang mendapat pengetahuan tentang kontrasepsi modern akan mengubah intensi perilakunya menuju penggunaan kontrasepsi." Pernyataan yang paling tepat tentang fungsi asumsi ini dalam evaluasi adalah:

A. Asumsi ini adalah hypothesis yang harus dibuktikan oleh evaluasi sebelum program dapat dilanjutkan
B. Asumsi ini adalah link dalam ToC yang jika tidak terbukti benar dapat menjelaskan mengapa program tidak menghasilkan dampak yang diinginkan meskipun output tercapai
C. Asumsi ini adalah kondisi eksternal di luar kendali program yang harus dipantau oleh evaluasi tetapi tidak dapat dipengaruhi
D. Asumsi ini adalah pertanyaan etis tentang apakah program menghormati otonomi reproduktif remaja

Soal 3

Sebuah evaluasi program kesehatan ibu menggunakan survei yang sama kepada 500 ibu hamil di awal program dan kepada 500 ibu hamil yang berbeda di akhir program dua tahun kemudian, untuk membandingkan pengetahuan ANC. Desain evaluasi ini disebut:

A. Pre-post dengan kelompok yang sama (repeated measures)
B. Cross-sectional perbandingan dua titik waktu (serial cross-sectional)
C. Quasi-experimental interrupted time series
D. Kohort prospektif non-eksperimental

Soal 4

Seorang enumerator melaporkan bahwa ketika mewawancarai remaja tentang penggunaan kontrasepsi, hampir semua responden menjawab bahwa mereka tidak aktif secara seksual — meskipun data klinik menunjukkan angka kehamilan remaja yang tinggi di area tersebut. Fenomena ini paling tepat dijelaskan oleh:

A. Selection bias — remaja yang bersedia diwawancarai berbeda karakteristiknya dari yang menolak
B. Social desirability bias — responden menjawab sesuai norma sosial yang dianggap "benar", bukan kondisi nyata
C. Attrition bias — remaja yang aktif secara seksual lebih sering hilang dari follow-up
D. Measurement effect — pengalaman mengisi survei mengubah perilaku responden

Soal 5

Evaluasi program KB menggunakan data SIMPUS dari 36 bulan sebelum program dan 24 bulan setelah program dimulai untuk menganalisis tren cakupan KB. Desain evaluasi ini memberikan estimasi dampak program yang lebih kuat dibandingkan desain pre-post sederhana karena:

A. Menggunakan lebih banyak data sehingga statistical power lebih besar
B. Memungkinkan pemisahan antara tren pre-program yang sudah ada sebelumnya dan perubahan yang terjadi setelah program dimulai
C. Data sekunder dari sistem informasi lebih valid dari data primer yang dikumpulkan khusus untuk evaluasi
D. Tidak memerlukan kelompok kontrol sehingga lebih etis

Soal 6

Dalam analisis thematic data kualitatif dari wawancara dengan 15 bidan tentang implementasi program KB pasca persalinan, tema yang muncul adalah: "Bidan menghadapi tekanan ganda — tekanan dari program untuk mencapai target akseptor KB dan tekanan dari klien yang memiliki preferensi metode tertentu — dan menyelesaikan konflik ini dengan cara yang tidak selalu konsisten dengan informed consent." Pernyataan yang paling tepat tentang tema ini adalah:

A. Ini bukan tema yang valid karena dibangun dari interpretasi evaluator, bukan dari kata-kata bidan secara langsung
B. Ini adalah tema yang kuat karena merupakan klaim substantif tentang pola yang bermakna dalam data, bukan sekadar ringkasan topik
C. Tema ini seharusnya dipecah menjadi dua tema terpisah: satu tentang tekanan program dan satu tentang preferensi klien
D. Tema ini belum valid sampai dikonfirmasi dengan data kuantitatif dari survei kepuasan klien

Soal 7

Evaluasi program KR menunjukkan: survei menemukan 78% responden menyatakan puas dengan layanan konseling KB; namun wawancara mendalam dengan 12 klien mengungkapkan bahwa sebagian besar merasa tidak dapat mengekspresikan ketidakpuasan karena khawatir akan mempengaruhi akses mereka ke layanan di masa depan. Cara terbaik untuk menginterpretasikan temuan yang divergen ini adalah:

A. Data survei lebih valid karena menggunakan sampel yang lebih besar dan metode yang lebih terstandarisasi
B. Data kualitatif lebih valid karena wawancara mendalam menghasilkan data yang lebih jujur tentang topik sensitif
C. Divergensi ini adalah temuan substantif yang mengungkapkan social desirability bias dalam survei kepuasan — angka kepuasan 78% tidak dapat diinterpretasikan tanpa nuansa ini
D. Kedua temuan tidak dapat diintegrasikan karena mengukur hal yang berbeda: kepuasan yang dilaporkan vs. ketakutan yang dirasakan

Soal 8

Seorang konsultan evaluasi menemukan bahwa program KR yang ia evaluasi tidak efektif dalam mengubah perilaku seksual remaja, meskipun cakupan dan pengetahuan meningkat. Pengelola program memintanya untuk "menekankan keberhasilan cakupan dan pengetahuan" dan "tidak menonjolkan temuan tentang perilaku karena datanya terbatas." Respons yang paling tepat dari evaluator yang menjunjung integritas adalah:

A. Mengikuti permintaan pengelola program karena mereka adalah klien yang membiayai evaluasi dan memiliki hak atas laporan
B. Menolak sepenuhnya dan mempublikasikan laporan lengkap tanpa konsultasi dengan pengelola program
C. Melaporkan semua temuan secara lengkap termasuk keterbatasan data perilaku, sambil mengakomodasi kekhawatiran dengan memberikan konteks yang memadai tanpa mengubah substansi temuan
D. Menghapus bagian tentang perilaku dari laporan utama dan menempatkannya sebagai annex teknis yang tidak menonjol

Soal 9

Sebuah laporan evaluasi program KB berisi 52 rekomendasi. Berdasarkan prinsip utilisasi hasil evaluasi, masalah utama dari pendekatan ini adalah:

A. Jumlah rekomendasi yang terlalu banyak menurunkan kredibilitas metodologis evaluasi
B. Dengan 52 rekomendasi, tidak ada yang akan diprioritaskan, tidak ada yang akan diimplementasikan, dan evaluasi akan gagal menghasilkan perubahan nyata
C. Rekomendasi yang terlalu banyak menunjukkan bahwa evaluator tidak memahami konteks program secara mendalam
D. Standar internasional evaluasi menetapkan bahwa laporan evaluasi tidak boleh berisi lebih dari 10 rekomendasi

Soal 10

Program kesehatan reproduksi remaja di Provinsi Z menunjukkan peningkatan pengetahuan yang signifikan (Cohen's d = 0.52) tetapi tidak ada perubahan dalam angka kehamilan remaja setelah 3 tahun program. Interpretasi yang paling tepat dan berguna untuk pengambilan keputusan program adalah:

A. Program gagal total karena indikator dampak utama (angka kehamilan) tidak berubah
B. Program berhasil karena tujuan jangka pendek (peningkatan pengetahuan) tercapai dengan effect size yang bermakna secara klinis
C. Temuan ini konsisten dengan ToC yang menunjukkan bahwa pengetahuan saja tidak cukup untuk mengubah perilaku — program perlu diperkuat dengan intervensi yang mengatasi hambatan akses layanan dan faktor sosial-normatif yang mempengaruhi perilaku
D. Data angka kehamilan tidak dapat diinterpretasikan tanpa kelompok kontrol, sehingga evaluasi belum dapat mengambil kesimpulan apapun

KUNCI JAWABAN DAN PEMBAHASAN

(Untuk Dosen — Tidak Didistribusikan kepada Peserta Didik)

Soal 1 — Jawaban: C
Pertanyaan "mengapa cakupan rendah" adalah pertanyaan kausal — mencari penjelasan mekanistik tentang penyebab fenomena. Ini bukan Level 1 (deskripsi tentang apa yang terjadi) dan bukan Level 2 (penilaian apakah sudah baik atau tidak). Level 3 adalah pertanyaan tentang kausalitas — baik dalam arti strict causal attribution maupun dalam arti lebih luas tentang mekanisme dan faktor penentu. Opsi D menarik tetapi kurang tepat: pertanyaan "mengapa" secara fundamental adalah kausal, bukan penilaian.

Soal 2 — Jawaban: B
Asumsi kritis dalam ToC adalah link mekanistik yang harus benar agar program dapat menghasilkan dampak. Jika asumsi ini tidak terbukti (pengetahuan tidak mengubah intensi), ini menjelaskan mengapa program bisa menghasilkan output (remaja yang berpengetahuan) tanpa outcome yang diinginkan (perubahan perilaku). Fungsi evaluasi adalah menguji asumsi-asumsi ini. Opsi A terlalu kuat — asumsi bukan sesuatu yang harus "dibuktikan" sebelum program dilanjutkan, tetapi dieksplorasi dalam evaluasi. Opsi C tentang kondisi eksternal tidak tepat — asumsi ini adalah tentang mekanisme internal program.

Soal 3 — Jawaban: B
Karena dua kelompok berbeda disurvei (bukan kelompok yang sama diikuti dari waktu ke waktu), ini bukan repeated measures. Ini adalah serial cross-sectional — dua survei cross-sectional pada dua titik waktu dengan sampel berbeda. Ini lebih lemah dari kohort (yang mengikuti individu yang sama) untuk menilai perubahan, tetapi lebih praktis dan valid untuk menilai tren populasi.

Soal 4 — Jawaban: B
Social desirability bias terjadi ketika responden menjawab sesuai norma sosial yang "benar" bukan kondisi nyata — sangat relevan untuk pertanyaan tentang perilaku seksual. Bukti tambahan adalah angka kehamilan yang tinggi di area yang sama, yang menunjukkan bahwa laporan "tidak aktif secara seksual" tidak mencerminkan realitas. Selection bias (A) tidak tepat karena masalahnya bukan tentang siapa yang bersedia diwawancarai. Attrition bias (C) tidak relevan karena tidak ada follow-up. Measurement effect (D) tentang perubahan perilaku akibat mengisi survei, bukan tentang jawaban yang tidak jujur.

Soal 5 — Jawaban: B
Kekuatan utama interrupted time series (ITS) adalah kemampuannya untuk memisahkan tren yang sudah ada sebelum program (pre-program trend) dari perubahan yang terjadi setelah program dimulai. Pre-post sederhana hanya melihat perbedaan dua titik dan tidak dapat membedakan apakah perubahan adalah kelanjutan tren yang sudah ada atau efek program. Opsi A tentang statistical power adalah efek samping bukan alasan utama. Opsi C salah — validitas tidak bergantung pada apakah data primer atau sekunder. Opsi D salah — pertanyaan etika tidak relevan di sini.

Soal 6 — Jawaban: B
Tema yang baik adalah klaim substantif tentang pola bermakna dalam data, bukan sekadar topik atau ringkasan. Tema ini melakukan hal tersebut dengan mengidentifikasikan "tekanan ganda" dan "penyelesaian konflik yang tidak konsisten dengan informed consent" — sebuah klaim interpretatif yang bermakna. Opsi A salah — tema kualitatif yang baik memang mengandung interpretasi evaluator, bukan hanya refleksi kata-kata informan. Opsi C kurang tepat — menggabungkan kedua tekanan dalam satu tema justru menangkap dinamika yang lebih kompleks. Opsi D salah — tema kualitatif tidak perlu "dikonfirmasi" oleh data kuantitatif untuk valid.

Soal 7 — Jawaban: C
Divergensi antara data survei (78% puas) dan data kualitatif (perasaan tidak dapat mengekspresikan ketidakpuasan) bukan masalah yang harus "diselesaikan" dengan memilih satu metode sebagai lebih valid. Ini adalah temuan substantif yang mengungkapkan social desirability bias yang mengkontaminasi data survei kepuasan. Temuan kualitatif memberikan penjelasan mekanistik mengapa survei menghasilkan angka kepuasan yang tinggi yang tidak mencerminkan pengalaman sebenarnya. Ini adalah contoh klasik bagaimana mixed methods menghasilkan pemahaman yang lebih dalam dari salah satu metode saja.

Soal 8 — Jawaban: C
Evaluator yang berintegritas tidak dapat mengubah substansi temuan atau menyembunyikan temuan kritis. Namun, mengakomodasi kekhawatiran yang legitim (data perilaku terbatas) dengan memberikan konteks yang memadai adalah komunikasi yang cerdas dan profesional. Opsi A melanggar integritas evaluasi. Opsi B terlalu konfrontatif dan tidak mempertimbangkan hubungan kerja yang konstruktif. Opsi D adalah bentuk penyembunyian temuan yang dikemas sebagai "technical annex" — ini tetap melanggar integritas.

Soal 9 — Jawaban: B
Masalah utama dengan 52 rekomendasi adalah utilisasi — tidak ada yang akan diprioritaskan dan diimplementasikan. Evaluasi yang menghasilkan banyak rekomendasi tanpa prioritisasi sering tidak mengubah apapun. Opsi A salah — jumlah rekomendasi tidak mempengaruhi kredibilitas metodologis. Opsi C adalah penilaian yang tidak adil. Opsi D salah — tidak ada standar internasional yang menetapkan jumlah maksimum rekomendasi secara numerik, meskipun praktik baik menyarankan prioritisasi.

Soal 10 — Jawaban: C
Ini adalah contoh temuan yang "mixed" yang paling informatif untuk program. Peningkatan pengetahuan tanpa perubahan perilaku adalah signal yang sangat jelas tentang kelemahan ToC: program mengasumsikan bahwa pengetahuan cukup untuk mengubah perilaku, tetapi bukti menunjukkan bahwa ada hambatan lain (akses, norma sosial, faktor relasional) yang harus diatasi. Opsi A terlalu nihilistik dan mengabaikan progress yang nyata. Opsi B terlalu optimistik dan mengabaikan kegagalan untuk mencapai dampak utama. Opsi D adalah penggunaan keterbatasan metodologis sebagai alasan untuk tidak mengambil kesimpulan — ini adalah contoh penghindaran yang tidak produktif.

Malang, Maret 2026
Penyusun