START Summit Extension, Tokopedia Ajak Tingkatkan Budaya Kewaspadaan

Ditujukan untuk para pegiat teknologi

Agar selalu memberikan pengalaman dan pelayanan terbaik, Tokopedia perlu menanamkan budaya yang dapat diimplementasikan pada setiap divisi dan tim di dalamnya. Mengingat, Tokopedia adalah platform dengan total pengguna aktif lebih dari 100 juta setiap bulan dan menjadi ekosistem yang membantu lebih dari 9,9 juta penjual untuk mewujudkan mimpi mereka.

Perusahaan perlu menanamkan nilai customer-centric, memiliki budaya melayani pelanggan, dan memastikan pengalaman pengguna sebagai prioritas utama. Melalui acara START Summit Extension yang dihelat pada Kamis (17/12/2020), tim Engineer Tokopedia hadir untuk membagikan praktik terbaik mereka dalam membangun dan meningkatkan budaya kewaspadaan terhadap sistem platform Tokopedia.

Bertema “High Severity! Behind Tokopedia’s Reliable Incident Management”, START Summit Extension terbagi ke dalam beberapa sesi. Sesi pertama adalah pemaparan langsung dari tiga tim Engineer Tokopedia, yaitu Timothy Agustian, Software Engineer Lead – Purchase Platform, Danish Jatmiko, Engineering Manager – Order & Campaign, serta Viriya Saddha Pannindriya, Software Engineer Lead – Order. Mereka membagikan tips terbaik dalam mengelola insiden, lalu dilanjutkan dengan sesi panel diskusi dan tanya jawab.

Sebagai pembuka, Timothy Agustian menjelaskan tentang bagaimana budaya kerja yang diterapkan oleh setiap karyawan bisa membentuk keseharian tim Engineer. Bukan tuntutan atau paksaan dari pihak manajemen atau pemimpin, tetapi atas kesadaran diri sendiri.

Sebagai perusahaan yang dipercaya oleh jutaan penjual dan pembeli, seluruh tim teknologi Tokopedia bertanggung jawab untuk mengelola setiap insiden yang terjadi. Prioritas utama adalah menyelesaikan insiden tanpa ada pihak yang dirugikan, sehingga menanamkan budaya kewaspadaan tinggi, keandalan dalam mengelola, serta mengidentifikasi masalah teknis.

Untuk mengetahui lebih lanjut tentang START Summit Extension, baca di bawah ini!

1. Tahap pertama adalah Preparation & Monitoring

START Summit Extension, Tokopedia Ajak Tingkatkan Budaya Kewaspadaantokopedia.com

Tokopedia memiliki beberapa tahapan dalam mengelola insiden. Yang pertama adalah Preparation & Monitoring, di mana tahap ini merupakan fase pertama untuk mempersiapkan sistem ketika insiden belum terjadi. Fase ini adalah fase awal yang akan memengaruhi fase-fase berikutnya. Fase ini terbagi ke dalam beberapa poin penting, yakni:

  • Trained Team Member
    Hal utama yang perlu disiapkan adalah melatih anggota tim. Bagi setiap developer, mereka harus memiliki pengetahuan dasar tentang use case yang perlu ditangani. Selain itu, infrastruktur dan bagaimana alur dari setiap bisnis juga perlu dipahami untuk membantu mengidentifikasi masalah apa yang nantinya akan terjadi, dan bagaimana menangani masalah tersebut.
  • One-Stop for All Team Documentation. Sebagai developer yang berpengalaman dan terbiasa menangani insiden, sangat penting untuk mengumpulkan dan membuat dokumentasi, sehingga segala informasi yang berkaitan mudah diakses oleh anggota tim lainnya untuk dijadikan acuan.
  • Good Monitoring Platform
    Tahap ini berguna untuk membantu mengetahui keadaan server atau bisnis secara real time, sehingga dapat dipantau secara berkala dan mempersiapkan berbagai kemungkinan yang dapat terjadi.

2. Selanjutnya, tahap kedua adalah Alerting

START Summit Extension, Tokopedia Ajak Tingkatkan Budaya Kewaspadaantokopedia.com

Timothy menjelaskan tentang tahap kedua dalam proses mengelola insiden Tokopedia, yakni Alerting. Ini merupakan fase pertama yang dilakukan ketika terjadi insiden. Alarm berbunyi merupakan tanda terjadi insiden. Insiden yang baik = alerting-nya juga baik, sehingga dapat langsung diketahui saat insiden terjadi.

Alarm yang baik memiliki tiga kriteria, yaitu:

  1. Escalated Alert, di mana kita mengetahui seberapa bahaya insiden yang terjadi, dan seberapa cepat kita bisa menyelesaikan insiden tersebut.
  2. Informative, yaitu ketika ada tim member baru atau tim lain yang bukan merupakan tim teknologi melihat alarm tersebut, mereka akan langsung mengerti tentang situasi yang terjadi.
  3. To the Point, di mana alarm dapat langsung menjelaskan insiden secara tepat dan akurat.

Dalam fase Alerting, poin yang tak kalah penting adalah Basic Knowledge Alarm, di mana setiap anggota tim perlu memiliki pengetahuan dasar untuk mendefinisikan suatu alarm serta menentukan langkah apa yang harus segera dilakukan. Hal ini juga berguna untuk meminimalisir rasa panik yang muncul karena kita sudah mengetahui maksud dari setiap alarm yang ada.

Setelah Basic Knowledge Alarm, Incident Management Platform juga perlu diperhatikan. Ketika terjadi insiden, kita perlu membuat jalur komunikasi yang baik agar bisa menghubungi pihak-pihak yang berkaitan dengan insiden tersebut. Apabila tim yang menangani insiden tidak available, maka kita dapat dengan mudah melakukan eskalasi ke tim leader, head, dan seterusnya. Dengan platform ini, diharapkan semua stakeholders aware dan sigap dalam menangani insiden. 

Baca Juga: Tokopedia START Summit Extension, Berikan Ilmu seputar UI dan Platform

3. Berlanjut ke tahap ketiga, yakni Triage & Notify

START Summit Extension, Tokopedia Ajak Tingkatkan Budaya Kewaspadaanshutterstock.com

Tahap ketiga adalah Triage & Notify yang dijelaskan oleh Danish Jatmiko. Ia menjelaskan bahwa seluruh leader di Tokopedia menekankan agar setiap tim selalu berharap yang terbaik. Namun, jika hal buruk terjadi, kita juga diharapkan untuk sigap dengan SOP yang sudah dikemas dengan baik. 

Tahapan ini menjelaskan tentang apa yang perlu dilakukan saat insiden datang. Jika tahap sebelumnya sudah disiapkan dengan baik, maka kita akan memiliki sistem yang bagus. Melalui Alerting & Monitoring, kita dapat mengetahui keadaan atau kesehatan sistem. Lalu, apa yang harus dilakukan jika terjadi suatu insiden terhadap sistem?

Danish menjelaskan bahwa hal pertama yang perlu dilakukan adalah tidak panik. Terlebih, sebagai pemimpin, kita perlu mengendalikan dan mengatur situasi yang terjadi. Kita perlu menenangkan pikiran agar dapat mengambil keputusan dan membaca kondisi dengan maksimal. Selanjutnya, kita juga perlu mengetahui kondisi sistem kita seperti apa agar dapat mengenali dan mengidentifikasi musuh kita. Ini membantu kita untuk mengetahui kelemahan dan kelebihan yang kita miliki.

Sebagai contoh, ketika traffic sedang down, kita perlu tahu apa penyebabnya, apakah karena koneksi, PPN, atau lainnya. Dengan Alerting & Monitoring, kita dapat langsung mengetahui penyebabnya serta bagaimana mengatasi hal tersebut. Kita juga perlu tahu mengenai dampak yang terjadi setelahnya, baik itu dampak pada halaman penjualan, transaksi penjualan, dan sebagainya.

Setelah mengetahui semua dampak yang akan terjadi, lakukan over communicate kepada stakeholders yang memiliki andil terhadap produk/platform tersebut, seperti tim produk dan tim operasional yang akan membantu menyampaikan informasi terkait kendala sistem kepada pengguna. Dengan demikian, kita bisa mencegah hal-hal yang tidak diinginkan oleh pengguna maupun penjual Tokopedia.

Tak kalah penting adalah bagaimana cara kita meredam atau menghentikan insiden yang terjadi sesegera mungkin. Kita bisa memberikan solusi sementara untuk memperbaiki keadaan. Setelah insiden diatasi dan kembali normal, kita dapat mengetahui apa yang sebenarnya terjadi dan mencari tahu solusi jangka panjangnya.

4. Dan yang terakhir adalah Post-Mortem Investigation and Resolution

START Summit Extension, Tokopedia Ajak Tingkatkan Budaya Kewaspadaantokopedia.com

Tahap terakhir pada manajemen insiden adalah Post-Mortem Investigation and Resolution yang dijelaskan oleh Viriya Saddha Pannindriya. Di tahap ini, kita perlu mencari tahu lebih detail mengenai penyebab dari insiden yang terjadi. Viriya menjelaskan bahwa ketika mengalami insiden, kita menjadi panik dan mencari solusi dengan cara yang cepat.

Namun, bisa jadi itu bukanlah solusi yang tepat dan merupakan akar dari permasalahan. Kita harus terus menggali lebih dalam tentang root cause sehingga dapat menentukan solusi jangka panjang. Setelah itu, masuk ke tahap collateral damage, di mana kita perlu mencari tahu apakah root cause ini akan berdampak ke hal lainnya atau tidak.

Penting untuk melihat masalah sampai ke akar agar mengetahui seberapa luas isu yang dihadapi. Setelah mengetahui core problems dan akar permasalahannya, lanjutkan ke tahap berikutnya yakni memastikan agar insiden tersebut tidak terjadi lagi. Melalui Alerting dan Monitoring, kita dapat memperbaiki setiap temuan dan disesuaikan dengan prosedur dari Alerting dan Monitoring. 

Viriya menjelaskan langkah terakhir yang ada pada tahapan Post-Mortem Investigation and Resolution yakni Documentation. Pada fase ini, penting untuk menjaga bagaimana suatu insiden yang pernah terjadi tidak terjadi kembali di kemudian hari. Oleh karena itu, kita perlu membuat dokumentasi dari pengalaman atau insiden tersebut sebagai track record. Dokumentasi ini berisi tentang bagaimana mengatasi insiden, beserta cara-cara yang dilakukan untuk memperbaiki insiden tersebut. Tujuannya agar seluruh tim, baik yang sudah bekerja dalam waktu yang lama, maupun tim yang baru bergabung dapat belajar dan melihat kembali tentang berbagai cara untuk menangani suatu insiden. 

Sebagai penutup, Viriya membagikan kutipan yaitu “Organizational culture is a living creature and employees are the ones who faced it”. Kutipan ini memiliki makna bahwa setiap hal yang dilakukan oleh setiap tim yang ada di suatu perusahaan merupakan nilai yang mencerminkan perusahaan tersebut. Setiap karyawan atau anggota dari suatu organisasi perlu memahami apa yang dilakukan dan berusaha untuk melakukan yang terbaik agar organisasi tersebut menjadi satu tempat yang mendukung perkembangan setiap tim yang ada. 

START Summit Extension menutup akhir tahun dengan lebih dari 30 ribu penonton yang menyaksikan acara ini melalui Tokopedia Play. Di tahun 2021, Tokopedia melalui Tokopedia Academy akan kembali menghadirkan rangkaian acara teknologi yang membagikan dan membawakan tema serta praktik terbaik untuk mendorong perkembangan talenta digital masa depan di Indonesia. 

Baca Juga: Tokopedia Dorong Inklusivitas Teknologi, START Women in Tech 2020

Topik:

  • Bayu D. Wicaksono

Berita Terkini Lainnya