Sunday 24 May 2015

Cara Melakukan Data Preprocessing

Cara Melakukan Data Preprocessing

Data mining atau penambangan data membutuhkan beberapa proses, salah satunya adalah proses preprosessing. Loh, kenapa kok data perlu dilakukan preprosesing atau proses pembersihan data? Oke, kita analogikan kita memiliki umbi, jika kita akan memakannya maka kita harus mengupas, kemudian dicuci, baru direbus dan bisa dimakan.

Nah data yang akan kita olah sebenarnya masih kotor, haha… bukan kotor karena kuman atau debu, tapi dari noisy atau gangguan data yang tidak berguna. Penyebabnya adalah juga bukan karena hama wereng atau ulat, hehe… penyebabnya antara lain adalah Incomplete (kekurangan nilai-nilai yang terkandung dalam atribute atau bahkan atributenya sendiri kurang), Noisy (nilai yang ada bersifat menyimpang atau tidak sesuai dengan yang diharapkan), Inconsisten (data yang tidak cocok menurut kode atau nama) karena kualitas data yang baik yang memerlukan kekonsistenan karena memerlukan integrasi yang cukup tinggi.

Apakah sobat semua sudah tahu, hal yang sangat menarik untuk kita perhatikan dalam pemrosesan data mining ini? Oke, mari kita list.
1. Accuracy (keakuratan)
2. Completeness (lengkap)
3. Timeliness (ketepatan waktu)
4. Value added  (nilai tambah)
5. Interpretability (interpretability)
6. Accessibility (aksesbilitas)
7. Contextual (kontekstual)
8. Representational (menampilkan)

Nah, kita harus memperhatikan bagian bagian itu semua sobat, karena itu sangat penting bangetttt..

Tidak lupa teknik yang sering digunakan dalam preprosesing data antaralain sebagai berikut sob,

Data cleaning (menghilangkan nilai dari data yang tidak sesuai, memperbaiki dan memeriksa data agar menjadi data yang bersifat konsisten)

Data integrasi ( mengintegrasikan data dari sumber yang berbeda seperti DB atau file agar sesuai dengan keinginan)

Data transformation ( normalisasi data )

Data reduksi (mengkompres data atau membuat ukuran data menjadi lebih kecil namun menghasilkan hasil yang sama)

Data diskretisasi (data ini adalah seperti data reduksi, namun data yang dimiliki tingkat kepentigan sendiri seperti data numerik)


0 Komentar:

luvne.com ayeey.com cicicookies.com mbepp.com kumpulanrumusnya.comnya.com tipscantiknya.com