Thursday 26 February 2015

Belajar Memahami Proses N-Gram

N-Gram......
Pertama kali mendengarnya, terdengar asing ditelinga saya dan saya berfikir, kok namanya seperti timbangan ya, hehe...   Namun lama kelamaan menjadi tuntutan bagi saya. Sesuatu yang mau tidak mau harus saya pelajari untuk mendukung studi saya.hehe....

N-Gram adalah sebuah proses pemecah kata yang tergolong popular. N dalam n-gram bisa diberi nilai secara acak sesuai dengan keinginan pengguna. Bobot pada N akan digunakan untuk memecah sebuah kalimat menjadi kecil-kecil sesuai dengan pemberian bobot pada N. Pada gambar diatas adalah proses N-Gram dengan jumlah N sebanyak 3 (Trigram).

Proses pemberian bobot pada N-Gram sangatlah bervariatif tergantung pada data yang akan diproses, bobot pada N juga akan mempengaruhi keakuratan pada hasil learning, jadi memilih bobot yang tepat adalah sebuah proses yang bisa dikatakan sulit. Karena salah memberikan bobot hasil yang didapat tidak akan sesuai harapan, bahkan mendekati harapan.

Pemrosesan n-gram
Pada pemrosesan n-gram akan diberikan contoh dengan kata "aku sayang kamu", maka akan diproses sebagai berikut:
Bobot
Hasil
Unigram
a, k, u, s, a, y, a, n, g, k, a, m, u
Bigram
ak, ku, us, sa, ay, ya, an, ng, gk, ka, am, mu
rigram
aku, kus, usa, say, aya, yan, ang, ngk, gka, kam, amu
Dst….


Dari hasil yang didapat akan dilakukan proses pembobotan dari frekuensi kemunculannya, semakin besar kemunculan suatu kata maka tingkat similarity terhadap dokumen akan semakin baik.

0 Komentar:

luvne.com ayeey.com cicicookies.com mbepp.com kumpulanrumusnya.comnya.com tipscantiknya.com