Baca artikel IDN Times lainnya di IDN App
For
You

Tips Menghadapi Overplotting pada Visualisasi Data

ilustrasi overplotting atau titik yang saling tumpang tindih (unsplash.com/KOBU Agency)
ilustrasi overplotting atau titik yang saling tumpang tindih (unsplash.com/KOBU Agency)

Visualisasi data merupakan salah satu keterampilan penting yang perlu dimiliki oleh data analyst. Ketika memiliki skill visualisasi data, seorang data analyst mampu menerjemahkan banyak data sekaligus dalam satu gambaran visual, seperti scatterplot, grafik, diagram, dan lain-lain. Visualisasi data juga dapat memudahkan pengambilan keputusan bagi tim manajemen berdasarkan data yang ada dan meminimalisir kekeliruan informasi akibat penggunaan visualisasi yang kurang tepat.

Salah satu problematika yang membuat visualisasi data kamu jadi tidak menarik adalah terjadinya overplotting. Overplotting merupakan kondisi di mana dalam visualisasi data terlalu banyak titik data dalam sebuah plot atau grafik tumpang tindih satu sama lain. Sebagai orang awam yang tidak paham data, kondisi ini justru menyulitkan mereka dalam memahami pola data. Overplotting biasa terjadi dalam grafik jenis scatter plot. Lalu, bagaimana, ya, caranya mengatasinya?

1. Mengubah ukuran titik yang berbeda

ilustrasi besar kecilnya titik pada data (unsplash.com/Clay Banks)
ilustrasi besar kecilnya titik pada data (unsplash.com/Clay Banks)

Cara pertama dalam mengatasi overplotting adalah menggunakan ukuran titik yang berbeda. Dengan meng-adjust ukuran titik-titik, kamu dapat memberikan penekanan yang berbeda berdasarkan bobot, frekuensi, atau atribut khusus. Misalnya, dalam situasi data penjualan produk, setiap titik mewakili total penjualan produk tertentu. Produk dengan penjualan yang tinggi dapat digambarkan sebagai titik dengan ukuran yang lebih besar, sementara produk dengan penjualan yang rendah dapat direpresentasikan dengan titik yang lebih kecil. Tak lupa juga untuk menyertakan label atau teks yang menjelaskan kriteria yang mendasari ukuran titik yang sebelumnya telah kamu klasifikasikan pada data tersebut.

2. Menggunakan teknik jittering

Ilustrasi teknik jittering (youtube.com/Karina Adcock)
Ilustrasi teknik jittering (youtube.com/Karina Adcock)

Grafik sebaran (scatter plot) kerap mengalami masalah overplotting, terutama ketika terdapat banyak titik data yang memiliki koordinat dan atribut serupa. Salah satu metode untuk mengatasi masalah ini adalah dengan menggunakan teknik jittering. Jittering merupakan teknik yang melibatkan penambahan variasi kecil ke dalam data agar titik-titik yang tadinya tumpang tindih menjadi tersebar lebih merata. Jittering dilakukan dengan menambahkan nilai acak ke posisi data yang menunjukkan tanda-tanda overplotting.

3. Menggunakan transparansi

ilustrasi elemen visual (unsplash.com/Markus Winkler)
ilustrasi elemen visual (unsplash.com/Markus Winkler)

Transparansi mengacu pada sejauh mana elemen visual, seperti titik-titik data dalam grafik, apakah terlihat jernih atau buram. Besarnya nilai transparansi biasanya diwakili dengan parameter alpha yang berkisar antara 0 (menunjukkan tingkat transparansi penuh) hingga 1 (menunjukkan tingkat keburaman pada visualisasi data). Ketika nilai alpha semakin kecil, titik-titik data dalam visualisasi tampak semakin transparan. Hal ini memungkinkan titik-titik data tetap terlihat meski dengan tingkat transparansi yang berbeda sekaligus meminimalisir tumpang tindih di antara mereka.

4. Pertimbangkan plot alternatif

ilustrasi hexbin plot (medium.com/@mattheweparker)
ilustrasi hexbin plot (medium.com/@mattheweparker)

Sebagian besar kesalahan overplotting umumnya terjadi dalam diagram scatterplot. Maka dari itu, kamu juga bisa mempertimbangkan penggunaan plot alternatif, seperti hexbin plot atau density plot. Hexbin plot membagi wilayah data menjadi segi enam dan menghitung jumlah titik data di setiap segi enam tersebut sehingga memungkinkan kamu untuk melihat kumpulan data dengan lebih jelas. Sementara itu, penggunaan density plot bisa menjadi alternatif yang sesuai untuk menggambarkan distribusi data dalam bentuk kontur atau heatmap.

5. Menggunakan teknik Density Plot

ilustrasi density plot (youtube.com/DataDaft)
ilustrasi density plot (youtube.com/DataDaft)

Density plot atau disebut juga Kernel Density Estimation (KDE) adalah salah satu teknik visualisasi yang digunakan untuk menggambarkan distribusi probabilitas data secara halus. Density plot sangat berguna untuk mengatasi overplotting pada data yang padat, khususnya dalam kasus scatter plots, karena menggantikan titik data dengan kurva kepadatan memungkinkan kamu melihat pola dengan lebih baik. Density plot sangat berguna untuk mengatasi overplotting karena menggantikan titik data yang tumpang tindih dengan representasi visual yang lebih informatif.

Masalah overplotting menjadi tantangan dalam proses visualisasi data, terutama saat kamu memiliki banyak titik data. Kalau kamu sudah bisa menerapkan teknik-teknik ini, kamu pun akan lebih mudah mengatasi potensi tumpang tindih pada plot sehingga visualisasi data menjadi lebih menarik. Semoga tips ini bermanfaat, ya!

This article is written by our community writers and has been carefully reviewed by our editorial team. We strive to provide the most accurate and reliable information, ensuring high standards of quality, credibility, and trustworthiness.
Share
Editor’s Picks
Topics
Editorial Team
Kidung Swara Mardika
EditorKidung Swara Mardika
Follow Us