Kapan Data Dikatakan Imbalanced dalam Model Machine Learning?

Data yang imbalance memicu model machine learning jadi bias

Dalam ranah data science dan machine learning, data yang tidak seimbang atau imbalanced data adalah salah satu tantangan yang sulit diatasi. Ketidakseimbangan data terjadi ketika distribusi kelas dalam dataset sangat tidak merata. Hal ini bisa dilihat selang antara satu atau lebih kelas memiliki jumlah sampel yang jauh lebih sedikit dibandingkan dengan kelas lainnya. Kondisi ini dapat menyebabkan algoritma machine learning menjadi bias terhadap kelas yang lebih dominan, sehingga cenderung mengabaikan kelas yang kurang terwakili (minoritas). Akibatnya, performa model dalam memprediksi data dari kelas yang kurang terekspos menjadi tidak optimal.

Imbalanced data merujuk pada situasi di mana jumlah sampel dalam setiap kelas memiliki perbedaan secara signifikan. Misalnya, ada sebuah dataset yang digunakan untuk mendeteksi penipuan kartu kredit. Ternyata, dari sekian banyak data yang ter-capture hanya 1 persen dari transaksi terindikasi penipuan. Sementara 99 persen lainnya adalah transaksi yang sah. Dalam kasus ini, dataset yang merekam indikasi penipuan jumlahnya sangat sedikit dibandingkan dengan kelas transaksi sah. Tentu saja, melihat fenomena ini membuat data jadi timpang dan tidak seimbang. Sebagai seorang praktisi data, kira-kira kapan waktu yang tepat untuk menduga bahwa data dikatakan imbalanced dalam model machine learning? Mari perhatikan setiap indikatornya lewat artikel berikut.

1. Proporsi kelas dalam suatu dataset tidak merata

Kapan Data Dikatakan Imbalanced dalam Model Machine Learning?ilustrasi visualisasi data yang mengindikasikan terjadinya ketidakseimbangan (imbalance) (freepik.com/wirestock)

Penyebab utama suatu data dikatakan tidak seimbang adalah proporsi kelas yang tidak merata. Sebelum beranjak lebih jauh, setidaknya kamu perlu mengetahui soal istilah kelas minoritas dan kelas mayoritas agar memudahkan dalam proses pemahaman. Hal ini dilakukan agar penjelasan soal penyebab imbalanced data dapat tergambarkan bagi orang awam. Katakanlah dalam sebuah dataset yang digunakan untuk mendeteksi penipuan transaksi, terdapat dua kelas utama: kelas transaksi sah (selanjutnya disebut kelas mayoritas) dan kelas penipuan (selanjutnya disebut kelas minoritas).

  • Kelas Mayoritas: Kelas yang memiliki jumlah sampel lebih banyak dibandingkan dengan kelas lainnya. Dalam contoh deteksi fraud dalam penipuan transaksi, kelas mayoritas digambarkan dalam transaksi sah yang biasanya mencakup sebagian besar dari dataset, misalnya 95 persen dari total transaksi.
  • Kelas Minoritas: Kelas yang memiliki jumlah sampel lebih sedikit dibandingkan dengan kelas lainnya. Dalam konteks yang sama, kelas minoritas adalah transaksi penipuan yang mungkin hanya mencakup 5 persen dari total transaksi.

Bayangkan sebuah perusahaan kartu kredit memiliki dataset yang berisi 100 ribu transaksi untuk dianalisis. Dari jumlah tersebut, 95 ribu adalah transaksi sah (kelas mayoritas) dan hanya 5 ribu yang merupakan transaksi penipuan (kelas minoritas). Ketidakseimbangan ini bisa menyebabkan beberapa masalah kritis dalam proses analisis dalam model machine learning. Dalam kasus ini, kelas transaksi sah menjadi kelas mayoritas karena jumlahnya yang jauh lebih besar dibandingkan dengan kelas penipuan yang menjadi kelas minoritas. Hal ini menandakan ketidakseimbangan data yang cukup signifikan, di mana model cenderung lebih banyak memperhatikan kelas mayoritas dan mengabaikan kelas minoritas, yang pada gilirannya dapat mengakibatkan kinerja model yang buruk dalam mendeteksi transaksi penipuan yang sebenarnya. Oleh karena itu, penting untuk mengatasi ketidakseimbangan ini agar model dapat memberikan prediksi yang lebih akurat dan andal.

Baca Juga: NVIDIA Rilis Project G-Assist, Bikin Gaming Lancar Dibantu AI

2. Kesenjangan dalam proporsi antar kelas di suatu dataset

Kapan Data Dikatakan Imbalanced dalam Model Machine Learning?ilustrasi identifikasi email spam (freepik.com/rawpixel.com)

Sebuah penelitian yang dilakukan oleh Pratama et.al., tahun 2021 tentang Penanganan Imbalanced Data yang diterbitkan oleh Jurnal Eksplora Informatika menjelaskan bahwa ada satu tahap yang perlu dilakukan terlebih dahulu sebelum menuju ke tahap data mining. Tahap tersebut adalah pengecekan kondisi data apakah perlu penanganan atau tidak sehingga meminimalisasi terjadinya imbalanced class.

Salah satu penyebabnya adalah kesenjangan antar kelas menjadi tidak proporsional, di mana jumlah sampel dalam satu atau lebih kelas jauh lebih sedikit dibandingkan dengan kelas lainnya. Ketidakseimbangan ini dapat menyebabkan model machine learning bias terhadap kelas mayoritas dan kurang memperhatikan kelas minoritas. Akibatnya, performa model dalam memprediksi kelas minoritas menjadi kurang optimal, yang dapat mengarah pada keputusan atau hasil akhir yang tidak akurat atau tidak seimbang.

Misalnya dalam kasus deteksi email spam, jika dataset yang digunakan untuk melatih model memiliki jumlah email spam yang sangat sedikit dibandingkan dengan email non-spam, model cenderung lebih baik dalam memprediksi email yang murni tanpa spam daripada email yang merupakan spam. Dalam situasi seperti ini, model dapat mengabaikan pola-pola yang terkait dengan email spam karena jumlahnya sedikit dalam dataset. Akibatnya, ketika diterapkan pada data baru, model mungkin gagal secara signifikan dalam mengidentifikasi email spam. Dengan demikian, perilaku ini dapat meningkatkan risiko bagi pengguna untuk menerima pesan-pesan yang tidak diinginkan atau berbahaya di kotak masuk mereka.

3. Evaluasi metrik performansi model machine learning yang menyesatkan

Kapan Data Dikatakan Imbalanced dalam Model Machine Learning?ilustrasi data scientist mendeteksi penyakit langka dengan mempertimbangkan jumlah false positive (freepik.com/freepik)

Pada kasus dataset yang tidak seimbang, metrik akurasi yang tinggi bisa jadi keputusan yang menyesatkan karena model cenderung memprediksi kelas yang dominan dengan sangat baik namun gagal dalam mendeteksi kelas minoritas. Hal ini berarti bahwa meskipun model tampak performanya baik secara keseluruhan, sebenarnya ia mungkin tidak memberikan prediksi yang akurat untuk kasus-kasus yang lebih jarang atau kritis.

Contohnya, dalam konteks klasifikasi deteksi penyakit langka, seperti kanker langka atau penyakit genetik yang jarang terjadi. Jika data yang digunakan untuk melatih model memiliki ketidakseimbangan data yang signifikan antara pasien yang menderita penyakit langka dengan pasien yang tidak, maka hasil metrik akurasi bisa menyesatkan. Model yang didasarkan pada metrik tersebut mungkin cenderung memprediksi bahwa pasien tidak menderita penyakit karena kebanyakan sampel berasal dari kelas mayoritas (pasien sehat), sehingga meminimalkan jumlah false positive (pasien sehat diprediksi sehat) tetapi meningkatkan false negative (pasien sehat diprediksi menderita penyakit) untuk kasus penyakit langka tersebut. 

Maka dari itu, perlu kehati-hatian dalam mengevaluasi performa model, terutama ketika menghadapi kasus di mana kelas yang diamati tidak seimbang. Peningkatan false negative (pasien sehat diprediksi menderita penyakit) dapat memiliki konsekuensi serius, terutama dalam konteks kesehatan, di mana kesalahan dalam mendeteksi kondisi penyakit dapat berdampak pada kehidupan dan kesejahteraan pasien. Oleh karena itu, penting untuk menimbang baik-baik antara mengurangi false positive dan false negative, terutama dalam situasi di mana salah satu jenis kesalahan tersebut memiliki dampak yang lebih besar dari yang lain.

4. Ketimpangan dalam visualisasi data

Kapan Data Dikatakan Imbalanced dalam Model Machine Learning?ilustrasi visualisasi data yang mengindikasikan terjadinya ketidakseimbangan (imbalance) (freepik.com/master1305)

Inilah alasan mengapa visualisasi data sebegitu pentingnya di dunia data. Ketimpangan dalam visualisasi data dapat menjadi ciri suatu data terindikasi imbalance. Melalui visualisasi, kita dapat dengan cepat mengidentifikasi pola distribusi yang tidak merata antara kelas-kelas data. Grafik seperti histogram, pie chart, atau scatter plot dapat memberikan gambaran visual yang jelas tentang proporsi relatif dari setiap kelas dalam dataset.

Dengan melihat visualisasi data, baik data scientist maupun data analyst dapat lebih memahami struktur data dan mengambil langkah-langkah yang tepat untuk menangani ketidakseimbangan data tersebut, seperti menggunakan teknik oversampling, undersampling, atau pembobotan kelas. Dengan demikian, visualisasi data tidak hanya membantu dalam pemahaman data secara keseluruhan, tetapi juga menjadi alat yang berguna dalam mengidentifikasi masalah ketidakseimbangan yang mungkin mempengaruhi kinerja model machine learning.

5. Kesulitan dalam memprediksi kelas minoritas

Kapan Data Dikatakan Imbalanced dalam Model Machine Learning?ilustrasi fraud detection (freepik.com/freepik)

Indikasi terakhir ketika data terjadi imbalance dalam menyusun model machine learning adalah kesulitan dalam memprediksi kelas minoritas dengan akurat. Ketika model menghadapi kesulitan yang konsisten dalam mengidentifikasi atau memprediksi kelas yang kurang dominan, hal ini menandakan bahwa data memiliki ketidakseimbangan yang signifikan. Meskipun model mungkin menunjukkan kinerja yang baik dalam memprediksi kelas mayoritas, ketidakmampuan untuk mengenali pola atau karakteristik yang relevan dalam kelas minoritas menunjukkan bahwa data yang digunakan tidak merepresentasikan dengan baik distribusi sebenarnya dari set data.

Sebagai hasilnya, model dapat gagal dalam menghasilkan prediksi yang akurat dan andal untuk kasus-kasus yang penting tetapi jarang terjadi. Hal ini mempengaruhi kehandalan model dalam aplikasi praktis di mana deteksi yang tepat dari kelas minoritas sering kali sangat penting. Dengan mengidentifikasi indikasi ini, langkah-langkah khusus dapat diambil untuk menangani ketidakseimbangan data, memperbaiki kinerja model, dan meningkatkan hasil prediksi secara keseluruhan.

Sebagai seorang praktisi di dunia data science, mengenali data dikatakan imbalanced dalam model machine learning amatlah penting. Nantinya, kondisi tersebut sangatlah mempengaruhi hasil analisis dan performa model machine learning. Oleh sebab itu, memahami kapan dan bagaimana data dikategorikan sebagai imbalanced memungkinkan kamu dengan sigap untuk mengambil langkah-langkah proaktif guna mengatasi dampak negatif yang mungkin timbul, seperti bias terhadap kelas mayoritas pada sekumpulan data dan kegagalan penyusunan model dalam memprediksi kelas minoritas secara akurat dan tepat. Jangan abaikan ini, kalau memang ingin menghasilkan model machine learning yang robust dan andal.

Baca Juga: 6 Perbedaan Barcode dan QR Code, Jenis Data hingga Cara Kerja

Reyvan Maulid Photo Verified Writer Reyvan Maulid

Penyuka Baso Aci dan Maklor

IDN Times Community adalah media yang menyediakan platform untuk menulis. Semua karya tulis yang dibuat adalah sepenuhnya tanggung jawab dari penulis.

Topik:

  • Debby Utomo

Berita Terkini Lainnya