Cara Melakukan Data Preprocessing
Data
mining atau penambangan data membutuhkan beberapa proses, salah satunya adalah
proses preprosessing. Loh, kenapa kok data perlu dilakukan preprosesing atau
proses pembersihan data? Oke, kita analogikan kita memiliki umbi, jika kita
akan memakannya maka kita harus mengupas, kemudian dicuci, baru direbus dan
bisa dimakan.
Nah
data yang akan kita olah sebenarnya masih kotor, haha… bukan kotor karena kuman
atau debu, tapi dari noisy atau gangguan data yang tidak berguna. Penyebabnya adalah
juga bukan karena hama wereng atau ulat, hehe… penyebabnya antara lain adalah Incomplete (kekurangan nilai-nilai yang
terkandung dalam atribute atau bahkan atributenya sendiri kurang), Noisy (nilai yang ada bersifat
menyimpang atau tidak sesuai dengan yang diharapkan), Inconsisten (data yang tidak cocok menurut kode atau nama) karena
kualitas data yang baik yang memerlukan kekonsistenan karena memerlukan
integrasi yang cukup tinggi.
Apakah sobat semua sudah tahu, hal yang sangat menarik untuk
kita perhatikan dalam pemrosesan data mining ini? Oke, mari kita list.
1. Accuracy (keakuratan)
2. Completeness (lengkap)
3. Timeliness (ketepatan waktu)
4. Value added (nilai tambah)
5. Interpretability (interpretability)
6. Accessibility (aksesbilitas)
7. Contextual (kontekstual)
8. Representational (menampilkan)
2. Completeness (lengkap)
3. Timeliness (ketepatan waktu)
4. Value added (nilai tambah)
5. Interpretability (interpretability)
6. Accessibility (aksesbilitas)
7. Contextual (kontekstual)
8. Representational (menampilkan)
Nah, kita harus memperhatikan bagian bagian itu
semua sobat, karena itu sangat penting bangetttt..
Tidak lupa teknik yang sering
digunakan dalam preprosesing data antaralain sebagai berikut sob,
Data cleaning (menghilangkan
nilai dari data yang tidak sesuai, memperbaiki dan memeriksa data agar menjadi
data yang bersifat konsisten)
Data integrasi ( mengintegrasikan
data dari sumber yang berbeda seperti DB atau file agar sesuai dengan
keinginan)
Data transformation ( normalisasi
data )
Data reduksi (mengkompres data
atau membuat ukuran data menjadi lebih kecil namun menghasilkan hasil yang
sama)
Data diskretisasi (data ini adalah seperti data
reduksi, namun data yang dimiliki tingkat kepentigan sendiri seperti data
numerik)
0 Komentar:
Post a Comment