Bagaimana Mempertahankan Pemulihan Dampak Global IT Outage

(Business Lounge Journal – Essay on Global)

Pada tanggal 19 Juli, CrowdStrike (penyedia platform keamanan siber) merilis pembaruan yang menyebabkan kerusakan pada 8,5 juta PC dan server Microsoft Windows. Alih-alih menyala, komputer malah menunjukkan “layar biru kematian”, menutup pelabuhan, mencegah konsumen menggunakan ATM, dan menunda prosedur medis. Ketika CrowdStrike merilis perbaikan pada hari yang sama, perusahaan harus melakukan proses yang sulit dengan me-reboot puluhan ribu server dan PC secara manual dalam mode aman dan menghapus file yang terkait dengan pembaruan yang salah sebelum menginstal perbaikan.

Ini bukanlah serangan siber dan juga bukan serangan unik. Ada beberapa pemadaman perangkat lunak yang tersebar luas baru-baru ini yang menciptakan kekacauan di seluruh rantai nilai, seperti serangan ransomware tahun ini yang mencegah dealer mobil melakukan bisnis dan penyedia layanan kesehatan menerima pembayaran, atau sistem yang tidak stabil dan sudah tua yang membuat para pelancong liburan terlantar selama beberapa tahun yang lalu.

Sejak pemadaman listrik dimulai, tim teknologi telah bergerak untuk memperbaiki masalah yang dihadapi perusahaan mereka. Pemimpin bisnis senior juga mempunyai peran penting dalam menyediakan sumber daya, dukungan, dan bimbingan.

Pemahaman tentang Masalah Ini

Hampir tiga perempat komputer di dunia menjalankan sistem operasi Microsoft Windows, termasuk server perusahaan yang menjalankan aplikasi dan laptop atau PC yang digunakan karyawan.

Sensor CrowdStrike Falcon adalah produk deteksi dan respons titik akhir (EDR). Ia menginstal agen di PC dan server untuk mengidentifikasi dan menampung malware dan jenis serangan siber lainnya. Menanggapi ancaman yang terus berkembang, CrowdStrike menginstal pembaruan konfigurasi, terkadang beberapa kali sehari—yang dirilis pada 19 Juli ternyata salah. Karena agen Falcon berjalan pada tingkat rendah dan memuat di awal proses pengaktifan Windows, remediasi tidak dapat menggunakan alat distribusi perangkat lunak otomatis dan memerlukan intervensi manual.

Inilah yang terjadi:

  • Pada hari Jumat, 19 Juli, pukul 4:09 UTC, salah satu pembaruan file saluran mengalami kesalahan logika, yang jika dipicu, menyebabkan Windows mogok.
  • File saluran yang dimaksud (File Saluran 291) digunakan untuk memberikan logika untuk mengevaluasi dan melindungi terhadap penyalahgunaan named pipes (named pipes adalah mekanisme yang digunakan oleh Windows untuk komunikasi antarproses atau antarsistem ). Named pipes adalah salah satu mekanisme komunikasi antarproses (IPC) yang digunakan dalam sistem operasi Windows (dan juga dalam beberapa sistem operasi lain seperti Unix/Linux) untuk memungkinkan proses yang berbeda berkomunikasi satu sama lain.
  • Pembaruan pada file saluran dirancang untuk  menargetkan dan melindungi named pipes berbahaya yang baru diamati dan digunakan oleh kerangka kerja C2 (perintah dan kontrol) umum dalam serangan siber.

Kesalahan logika dalam file saluran memengaruhi semua sistem Microsoft Windows yang mengunduh pembaruan setelah pukul 4:09 UTC. Sistem yang online setelah pukul 5:27 UTC menerima file saluran yang diperbarui (dikembalikan ke versi stabil sebelumnya) dan tidak terpengaruh.

Mengingat posisi istimewa yang dimiliki agen CrowdStrike dengan kernel Windows, remediasi memerlukan aktivitas manual pada setiap titik akhir yang terkena dampak:

  • Untuk laptop/PC: perbaikannya melibatkan reboot berulang kali pada host Microsoft Windows untuk mencoba memperbaiki masalah secara otomatis; jika tidak berhasil, langkah selanjutnya memerlukan me-reboot komputer dalam mode aman dan menghapus file yang mengganggu. Remediasi menjadi lebih rumit bagi perusahaan yang memilih mengenkripsi hard drive pengguna akhir karena alasan keamanan.
  • Untuk host cloud: perbaikannya melibatkan “rollback” ke snapshot sebelum pukul 4:09 UTC atau melepaskan volume disk sistem, memperbaiki masalah secara manual, dan memasang kembali volume.

Sifat pemadaman ini menggambarkan trade-off yang harus dilakukan organisasi TI antara memperbarui lingkungan mereka untuk melindungi dari serangan siber versus mengelola perubahan yang dapat menimbulkan ketidakstabilan.

Bagaimana Mempercepat dan Mempertahankan Pemulihan

Organisasi teknologi di entitas yang terkena dampak meluncurkan upaya pemulihan pada hari yang sama dengan pemadaman listrik. Mereka mendirikan ruang perang, berkomunikasi dengan para pemangku kepentingan, dan mengembangkan rencana remediasi teknis untuk memulihkan operasi. Ini adalah masa yang sulit dan menegangkan bagi tim TI yang telah bekerja tanpa henti sejak pemadaman listrik. Berapa lama waktu yang mereka perlukan untuk mengikuti perkembangan tersebut akan bergantung pada kompleksitas lingkungan teknologi mereka dan jumlah komputer yang terkena dampaknya.

Para pemimpin senior dapat bertanya kepada tim pemulihan apa yang mereka perlukan agar upaya ini dapat berjalan hingga akhir—bisa berupa lebih banyak sumber daya untuk memulihkan sistem, atau bisa juga dengan kunjungan anggota tim eksekutif ke ruang perang untuk menunjukkan caranya. seberapa besar perusahaan menghargai upaya mereka.

Dalam beberapa kasus, staf TI ingin memperbaiki masalahnya sendiri. Upaya ini diperlukan untuk server, namun tidak begitu diperlukan untuk PC. Dengan instruksi yang jelas, pengguna akhir dapat mem-boot komputer mereka dalam mode aman, menghapus file yang bermasalah, dan melakukan boot ulang, sehingga personel pendukung TI tidak perlu lagi menyentuh ribuan mesin sendiri.

Pemadaman ini berdampak besar pada karyawan dan pelanggan. Pemadaman listrik di masa lalu menunjukkan bahwa meluangkan waktu untuk mengakui dampaknya dan berkomunikasi secara langsung tentang apa yang Anda ketahui (dan apa yang tidak Anda ketahui) sangatlah berarti. Setelah serangan ransomware besar-besaran, CEO salah satu perusahaan menelepon pelanggan besar untuk meminta maaf dan menjelaskan insiden tersebut. Bahkan bertahun-tahun kemudian, pelanggan masih menyadari dan menghargai hal ini.

Terkadang, transparansi dan empati saja tidak cukup. Banyak pelanggan dari perusahaan yang terkena dampak tidak hanya mengalami ketidaknyamanan tetapi juga kerugian ekonomi, dan mungkin terdapat tantangan dalam mengambil keputusan mengenai jenis kompensasi yang perlu dipertimbangkan.

Cara mengurangi risiko kejadian di masa depan

Peristiwa seperti ini akan terulang kembali. Penyedia layanan akan mengalami pemadaman listrik dan masalah lain yang akan mengganggu kemampuan perusahaan dalam menjalankan bisnisnya. Untuk mengelola risiko-risiko ini, para eksekutif senior harus mengajukan pertanyaan-pertanyaan yang dapat membantu perusahaan mereka mempersiapkan dan mengurangi dampak dari peristiwa-peristiwa tersebut:

Apakah kita memiliki transparansi ekonomi, operasional, dan teknis mengenai risiko kita?

Apa dampak ekonomi jika pabrik, proses, atau lokasi tidak dapat beroperasi selama beberapa—atau beberapa—hari? Banyak perusahaan tidak mengetahuinya. Aplikasi mana yang mendukung proses bisnis penting yang dijalankan pada platform teknologi yang tangguh, dan aplikasi mana yang terperosok dalam utang teknis sehingga menimbulkan risiko? Banyak perusahaan yang memahami hal ini tetapi tidak memiliki data yang sistematis dan dapat diandalkan. Vendor teknologi apa yang dapat membuat perusahaan gulung tikar selama beberapa hari jika mereka mengalami masalah? Berapa banyak perusahaan yang memantau platform EDR mereka sebagai risiko teknologi tingkat atas sebelum bulan lalu? Para eksekutif senior dapat dan harus mendorong kuantifikasi dan penentuan prioritas berbagai jenis risiko. EDR  (Endpoint Detection and Response) adalah solusi keamanan siber yang dirancang untuk mendeteksi, menganalisis, dan merespons ancaman yang terjadi pada endpoint dalam jaringan komputer.

Perubahan arsitektur apa yang harus kita lakukan untuk meningkatkan ketahanan—dan berapa biayanya?

CIO dan CTO sering kali kesulitan menghadapi antusiasme bisnis untuk berinvestasi pada fitur-fitur baru dibandingkan mengurangi utang teknis dan meningkatkan ketahanan. Kasus bisnisnya terbatas—sampai terjadi pemadaman listrik yang mengakibatkan hilangnya pendapatan jutaan dolar. Dalam hal ini, sistem berbasis cloud yang “dapat diaspal ulang” dan dapat dimulai kembali dengan satu sentuhan dapat mempercepat pemulihan.

Arsitektur aplikasi yang memiliki ketahanan geografis yang dapat melakukan failover antar wilayah dapat memastikan ketersediaan. Para eksekutif senior harus bertanya kepada tim teknologi: apa yang belum kita investasikan, dan apa yang harus kita investasikan? Dalam beberapa kasus, perusahaan mungkin perlu meningkatkan belanja teknologi mereka secara signifikan untuk mencapai ketahanan yang mereka perlukan.

Apakah kita perlu memperkenalkan lebih banyak tahapan dan pengujian ke dalam proses perubahan?

Hampir semua masalah ketahanan berasal dari perubahan. Seseorang mengubah konfigurasi atau memperbarui perangkat lunak yang mengganggu ekosistem teknologi rumit yang memungkinkan perusahaan menjalankan bisnisnya.

Namun, menerapkan pembaruan baru pada 1 persen atau 5 persen node dapat mengurangi gangguan secara drastis jika terjadi rilis yang cacat. Model bertahap ini memerlukan lebih banyak sumber daya namun mungkin bernilai investasi, mengingat pengurangan risiko gangguan.

Apakah perencanaan dan pengujian ‘disaster recovery/business continuity (DR/BC)’ kita cukup ekstensif dan kuat?

Setiap perusahaan merencanakan DR/BC. Namun, banyak perusahaan melakukannya dengan cara yang tidak lengkap dan asal-asalan. Eksekutif senior dapat mengajukan pertanyaan-pertanyaan berikut:

  • Apakah rencana DR/BC menguji dan mendorong berbagai skenario berdasarkan prioritas bisnis?
  • Apa yang diperlukan untuk melakukan lebih banyak pengujian langsung, di mana tim teknologi menampilkan aplikasi di lingkungan DR, dibandingkan melakukan latihan berbasis kertas?
  • Apakah masuk akal untuk melakukan simulasi krisis tingkat senior yang mempersiapkan tim eksekutif untuk mengambil keputusan sulit dengan informasi terbatas jika terjadi pemadaman listrik besar-besaran?

Seluruh perekonomian kita berjalan pada platform teknologi yang rumit, terkadang rapuh—dan perusahaan memiliki tanggung jawab kepada pemegang saham dan pelanggan untuk memberikan dukungan “sepanjang hari, setiap hari” untuk proses bisnis. Para eksekutif senior bisa mendapatkan wawasan yang mereka perlukan untuk mendukung dan mendorong manajer TI dalam hal ini dengan mengajukan pertanyaan tajam tentang kecepatan respons dan tentang mencegah atau membatasi dampak kejadian berikutnya.