Dalam ranah data science dan machine learning, data yang tidak seimbang atau imbalanced data adalah salah satu tantangan yang sulit diatasi. Ketidakseimbangan data terjadi ketika distribusi kelas dalam dataset sangat tidak merata. Hal ini bisa dilihat selang antara satu atau lebih kelas memiliki jumlah sampel yang jauh lebih sedikit dibandingkan dengan kelas lainnya. Kondisi ini dapat menyebabkan algoritma machine learning menjadi bias terhadap kelas yang lebih dominan, sehingga cenderung mengabaikan kelas yang kurang terwakili (minoritas). Akibatnya, performa model dalam memprediksi data dari kelas yang kurang terekspos menjadi tidak optimal.
Imbalanced data merujuk pada situasi di mana jumlah sampel dalam setiap kelas memiliki perbedaan secara signifikan. Misalnya, ada sebuah dataset yang digunakan untuk mendeteksi penipuan kartu kredit. Ternyata, dari sekian banyak data yang ter-capture hanya 1 persen dari transaksi terindikasi penipuan. Sementara 99 persen lainnya adalah transaksi yang sah. Dalam kasus ini, dataset yang merekam indikasi penipuan jumlahnya sangat sedikit dibandingkan dengan kelas transaksi sah. Tentu saja, melihat fenomena ini membuat data jadi timpang dan tidak seimbang. Sebagai seorang praktisi data, kira-kira kapan waktu yang tepat untuk menduga bahwa data dikatakan imbalanced dalam model machine learning? Mari perhatikan setiap indikatornya lewat artikel berikut.