Mengukur dan mengevaluasi Tujuan Tingkat Layanan (SLO)
Bagaimana pelaporan peringatan membantu kami mengukur dan mengevaluasi SLO dalam 5 langkah sederhana.DITERBITKAN
Mengukur dan mengevaluasi Tujuan Tingkat Layanan (SLO). Mengelola layanan merupakan hal yang sulit bagi pemilik layanan dan pemangku kepentingan. Untuk mempermudah semua pihak, tetapkan serangkaian ekspektasi yang jelas sejak awal. Hal ini membantu mengukur dan mengevaluasi kesehatan layanan dengan lebih mudah.
Dalam konteks ini, SLA (Service Level Agreement) mungkin sudah tidak asing lagi. SLA adalah perjanjian tertulis antara klien dan penyedia layanan untuk memastikan tingkat kualitas yang baik. Jika kondisi tertentu tidak terpenuhi, akan ada konsekuensinya, dan konsekuensinya sering kali berupa kerugian finansial.
Namun, dunia nyata tidaklah sesederhana itu. Pemilik layanan bertanggung jawab untuk melayani pemangku kepentingan internal dan eksternal. Para pemangku kepentingan ini bergantung pada layanan untuk memenuhi tujuan bisnis mereka. Hal ini khususnya umum terjadi dalam arsitektur layanan mikro, di mana satu layanan bergantung pada layanan lainnya. Karena tidak masuk akal untuk memiliki kontrak tertulis untuk segala hal, pemilik layanan harus bertanggung jawab dengan menetapkan tujuan yang jelas. Tidak ada hukuman berat jika tujuan tersebut tidak terpenuhi. Namun, ini tidak berarti mereka tidak ada di sana tanpa alasan. Ada beberapa konsekuensi, atau lebih tepatnya– tindakan korektif, yang diperlukan untuk meningkatkan layanan tersebut.
Persamaan sederhana untuk menentukan hubungan SLA dan SLO adalah:
SLA = SLO + konsekuensi tertulis dan ditandatangani
Istilah penting lainnya yang perlu dipahami adalah SLI (Service Level Indicator). SLI adalah metrik yang digunakan saat mengevaluasi SLO. Setelah mengetahui pentingnya dan perbedaan antara SLA, SLO, dan SLI, mari kita fokus pada 5 langkah utama saat mengukur dan mengevaluasi SLO.
Tetapkan tujuan yang tepat
Menetapkan tujuan yang tepat merupakan langkah penting pertama menuju pembangunan SLO yang tepat. Ada beberapa hal penting yang perlu dipertimbangkan pada tahap ini:
- Identifikasi metrik utama (indikator tingkat layanan — SLI) dari sudut pandang pengguna akhir, seperti latensi
- Buatlah terukur– seperti latensi 100 ms.
- Berikan sedikit ruang (anggaran kesalahan) seperti 100 ms. 99,9% dari waktu
- Jelaskan apa yang Anda janjikan, misalnya 99,9% dari waktu (rata-rata lebih dari 10 menit), panggilan HTTP diselesaikan dalam waktu kurang dari 100 ms.
- Pertimbangkan implikasi produk dan bisnis karena menetapkan tujuan yang tepat untuk SLO tidak sepenuhnya teknis seperti yang dinyatakan dalam Buku SRE .
Meskipun poin-poin ini penting dan tampak jelas, sangat sulit untuk mengidentifikasi metrik yang tepat. Bicaralah secara terbuka dengan pengguna dan jelaskan apa yang dijanjikan.
Kumpulkan data pemantauan
Setelah metrik penting diidentifikasi, metrik tersebut perlu dikumpulkan. Tahap ini sangat bergantung pada SLO dan apa arti layanan tersebut bagi orang lain. Hal-hal yang berbeda mungkin perlu dipantau tergantung pada tingkat abstraksi. Sering kali yang dibutuhkan adalah alat pemantauan seperti DataDog untuk mengumpulkan dan memvisualisasikan data. Alat-alat ini memungkinkan agregasi dan pemberitahuan saat metrik mencapai ambang batas yang ditentukan.
Peringatan pada metrik yang dikumpulkan
Memberikan peringatan merupakan pekerjaan yang penting dan rumit. Memfilter peringatan dengan prioritas rendah dan memberi tahu tim tentang hal ini penting untuk kesehatan tim yang sedang bertugas. Namun, ini bukan satu-satunya tempat di mana solusi manajemen insiden seperti Opsgenie membantu. Alat manajemen insiden yang tepat melakukan “lebih dari itu”. Alat ini memusatkan semua peringatan dari berbagai alat pemantauan dalam satu dasbor dan memungkinkan pengguna untuk mengkategorikan peringatan penting untuk analisis selanjutnya. klik disini
Buat laporan dari peringatan
Setelah semua peringatan berada di satu tempat, penting untuk menyiapkan pelaporan peringatan, yang memudahkan untuk melihat titik data penting dalam tampilan terstruktur. Untuk melaporkan SLO, Laporan Kesehatan Layanan dan Infrastruktur digunakan di Opsgenie yang mencakup indikator utama yang dapat digunakan untuk mengevaluasi metrik dan berbagi dengan pelanggan sebagai satu tim. Contoh metrik ini adalah waktu rata-rata untuk menyelesaikan dan menutup insiden per layanan, persentase kesehatan Layanan (status sehat/tidak sehat berdasarkan pemadaman dan gangguan), tingkat keparahan insiden yang muncul dalam suatu layanan dan peringatan yang terkait dengan semua insiden (sehingga wawasan diperoleh tentang sistem pemantauan mana yang melaporkan insiden dengan cara apa) dan bagaimana pemangku kepentingan terpengaruh oleh gangguan layanan – apakah mereka diberi tahu secara tepat waktu dan tepat. Laporan kesehatan infrastruktur memberikan konteks seluruh infrastruktur dengan memungkinkan pemangku kepentingan melihat semua peringatan dan insiden di seluruh infrastruktur dalam satu tampilan. klik disini
Mengevaluasi dan membagikan laporan
Laporan tidak ada artinya jika tidak dievaluasi. Karena laporan merupakan bukti tertulis kinerja pada indikator tingkat layanan yang ditetapkan secara internal, dan membantu untuk melihat apakah SLO terpenuhi atau tidak. Evaluasi harus mencakup setiap anggota tim dan pemangku kepentingan. Ini berarti transparansi sangat penting– bersikaplah terbuka tentang hal itu dan bagikan hasilnya dengan orang lain. Untuk menggali lebih dalam dengan alat analitik atau membuat laporan yang lebih canggih untuk pemangku kepentingan, ekspor laporan agar mudah dibagikan.
SLO tidak menjadi masalah jika siklusnya tidak berulang
Setelah siklus selesai– dari membuat tujuan hingga menyelesaikan evaluasi– pekerjaan belum selesai. Pekerjaan dimulai lagi. Evaluasi ulang tujuan dan ambil tindakan korektif baik dengan menyempurnakan indikator atau membuat layanan lebih tangguh. Periksa anggaran kesalahan dengan jelas untuk memastikan bahwa pencapaian yang berlebihan dapat dihindari (ya, itu juga buruk). Penting untuk merancang tujuan dengan mempertimbangkan bahwa alat dan layanan akan gagal, karena memang akan gagal.
No responses yet