PENGERTIAN PENGGALIAN DATA DATA MINING
Pengertian Penggalian Data (Data Mining)
Penggalian data (bahasa Inggris: data mining) adalah ekstraksi pola yg menarik berdasarkan data dalam jumlah akbar. Suatu pola dikatakan menarik apabila pola tersebut nir sepele, implisit, tidak diketahui sebelumnya, serta bermanfaat. Pola yang tersaji haruslah mudah dipahami, berlaku buat data yg akan diprediksi menggunakan derajat kepastian eksklusif, bermanfaat, serta baru. Penggalian data memiliki beberapa nama cara lain , meskipun definisi eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola, arkeologi data, pemanenan berita, dan intelegensia usaha. Penggalian data dibutuhkan ketika data yg tersedia terlalu banyak (contohnya data yg diperoleh dari sistem basis data perusahaan, e-commerce, data saham, dan data bioinformatika), akan tetapi nir tahu pola apa yang mampu didapatkan.
Proses PencarianPola
Penggalian data adalahsalahsatubagiandari proses pencarianpola. Berikutiniurutan proses pencarianpola:
- Pembersihan Data: yaitu menghapus data pengganggu (noise) serta mengisi data yang hilang.
- Integrasi Data: yaitu menggabungkan berbagai asal data.
- Pemilihan Data: yaitu menentukan data yang relevan.
- Transformasi Data: yaitu mentransformasi data ke dalam format buat diproses pada penggalian data.
- Penggalian Data: yaitu menerapkan metode cerdas buat ekstraksi pola.
- Evaluasi pola: yaitu mengenali pola-pola yg menarik saja.
- Penyajian pola: yaitu memvisualisasi pola ke pengguna.
Tujuan berdasarkan text mining adalah buat mendapatkan kabar yg berguna dari sekumpulan dokumen. Jadi, sumber data yg dipakai dalam text mining merupakan perpaduan teks yg mempunyai format yg nir terstruktur atau minimal semi terstruktur. Adapun tugas spesifik dari text mining diantaranya yaitu pengkategorisasian teks (text categorization) dan pengelompokan teks text clustering).
Text Mining
- Text mining merupakan penerapan konsep dan teknik data mining buat mencari pola pada teks, yaitu proses penganalisisan teks guna menyarikan warta yg berguna buat tujuan eksklusif.
- Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa termin awal yg dalam intinya adalah mempersiapkan supaya teks dapat diubah menjadi lebih terstruktur.
Tahapan Text Mining
Masalah Umum yg ditangani
- Klasifikasi Dokumen
- Information Retrieval
- Pengorganisasian serta Clustering Dokumen
- Information Extraction
Clustering Dokumen
Analisis Cluster
- Analisis cluster adalah pengorganisasian gugusan pola ke pada cluster (grup-grup) berdasar atas kesamaannya.
- Pola-pola pada suatu cluster akan mempunyai kesamaan karakteristik/sifat daripada pola-pola dalam cluster yang lainnya.
- Clustering bermanfaat buat melakukan analisis pola-pola yg terdapat, mengelompokkan, membuat keputusan dan machine learning, termasuk data mining, document retrieval, segmentasi gambaran, serta pembagian terstruktur mengenai pola.
- Metodologi clustering lebih cocok dipakai buat eksplorasi hubungan antar data buat membuat suatu evaluasi terhadap strukturnya.
Information Retrieval
Konsep dasar dari IR merupakan pengukuran kesamaan
· sebuah perbandingan antara dua dokumen, mengukur sebearapa seperti keduanya.
Setiap input query yg diberikan, dapat dianggap menjadi sebuah dokumen yg akan dicocokan dengan dokumen-dokumen lain.
Pengukuran kemiripan serupa menggunakan metode pembagian terstruktur mengenai yg dianggap metode nearest-neighbour.
Information Extraction
- Information Extraction berguna buat menggali struktur fakta berdasarkan sekumpulan dokumen.
- Dalam menerapkan IE, perlu sekali dilakukan restriksi domain dilema.
- IE sangat memerlukan NLP buat mengetahui gramatikal dari setiap kalimat yang terdapat.
- Sebagai model:
- “Indonesia serta Singapore menandatangani MoU kerjasama pada bidang liputan serta komunikasi.”
- KerjaSama(Indonesia, Singapore, TIK)
- Dengan IE, kita dapat menemukan:
- concepts (CLASS)
- concept inheritance (SUBCLASS-OF)
- concept instantiation (INSTANCE-OF)
- properties/relations (RELATION)
- domain and range restrictions (DOMAIN/RANGE)
- equivalence
Algoritma yg digunakan dalam text mining, umumnya tidak hanya melakukan perhitungan hanya pada dokumen, namun pada jua feature. Empat macam feature yang tak jarang digunakan:
- Character, merupakan komponan individual, mampu alfabet , nomor , karakter khas serta spasi, merupakan block pembangun pada level paling tinggi pembentuk semantik feature, misalnya istilah, term serta concept. Pada umumnya, representasi character-based ini sporadis dipakai dalam beberapa teknik pemrosesan teks.
- Words.
- Terms, merupakan single word dan frasa multiword yang terpilih secara pribadi berdasarkan corpus. Representasi term-based menurut dokumen tersusun dari subset term pada dokumen.
- Concept, merupakan feature yg di-generate menurut sebuah dokumen secara manual, rule-based, atau metodologi lain. Pada tugas akhir ini, konsep pada-generate berdasarkan argument atau verb yg telah diberi label dalam suatu dokumen.
Proses text mining mencakup proses tokenizing, filtering, stemming, dan tagging.
Tokenizing
Tokenizing merupakan proses penghilangan indikasi baca pada kalimat yg ada dalam dokumen sebagai akibatnya membuat istilah-kata yg berdiri sendiri-sendiri.
Filtering
Tahap filtering merupakan termin pengambilan istilah-kata yg penting dari output tokenizing. Tahap filtering ini dapat menggunakan prosedur pemecahan stoplist atau wordlist. Stoplist yaitu penyaringan (filtering) terhadap istilah-istilah yang tidak layak buat dijadikan menjadi pembeda atau menjadi kata kunci pada pencarian dokumen sebagai akibatnya kata-istilah tersebut dapat dihilangkan menurut dokumen. Sedangkan wordlist merupakan daftar kata-istilah yang mungkin dipakai sebagai kata kunci dalam pencarian dokumen.
Stemming
Stemming merupakan proses mengubah istilah menjadi kata dasarnya menggunakan menghilangkan imbuhan-imbuhan pada kata dalam dokumen atau mengganti kata kerja sebagai kata benda. Stem (akar kata) adalah bagian dari kata yang tersisa selesainya dihilangkan imbuhannya (awalan dan akhiran).
Contoh: connect merupakan stem dari connected, connecting, connection, dan connections.
Gambar. Bagan metode stemming
Porter stemmermerupakan algoritma penghilangan akhiran morphological serta infleksional yang umum menurut bahasa Inggris. Step-step prosedur pemecahan Porter
Stemmer:
1. Step 1a : remove plural suffixation
2. Step 1b : remove ekspresi inflection
3. Step 1b1 : continued for -ed and -ing rules
4. Step 1c : y and i
5. Step 3
6. Step 4 : delete last suffix 4
7. Step 5a : remove e
8. Step 5b : reduction
Gambar. Control flow prosedur pemecahan Porter Stemmer
Tagging
Tahap tagging adalah tahap mencari bentuk awal / root dari tiap kata lampau atau kata hasil stemming. Contoh: was be, used use, stori story, dll.
Analyzing
Tahap analyzing adalah tahap penentuan seberapa jauh keterhubungan antar kata-istilah dengan dokumen yang ada.
Automatic Clustering
Clustering merupakan proses membuat pengelompokan sehingga semua anggota berdasarkan setiap partisi memiliki persamaan menurut matrik tertentu. Sebuah cluster merupakan sekumpulan objek yg digabung bersama karena persamaan atau kedekatannya. Clustering atau klasterisasi adalah sebuah teknik yang sangat berguna karena akan mentranslasi berukuran persamaan yang intuitif menjadi berukuran yang kuantitatif.
CLHM (Centroid Linkage Hierarchical Method)
Centroid Linkage merupakan proses pengklasteran yang berdasarkan pada jarak antar centroidnya [6]. Metode ini baik buat perkara clustering menggunakan normal data set distribution. Akan namun metode ini tidak cocok buat data yg mengandung outlier. Algoritma Centroid Linkage Hierarchical Method merupakan menjadi berikut:
1. Diasumsikan setiap data dipercaya sebagai cluster. Kalau n=jumlah data dan c=jumlah cluster, berarti ada c=n.
2. Menghitung jarak antar cluster menggunakan Euclidian distance.
3. Mencari dua cluster yang memiliki jeda centroid antar cluster yang paling minimal dan digabungkan (merge) kedalam cluster baru (sebagai akibatnya c=c-1).
4. Kembali ke langkah tiga, serta diulangi sampai dicapai cluster yang diinginkan.
Analisa Cluster
Analisa cluster merupakan suatu teknik analisa multivariate (poly variabel) buat mencari serta mengorganisir keterangan mengenai variabel tersebut sehingga secara nisbi bisa dikelompokkan dalam bentuk yg homogen dalam sebuah cluster. Secara generik, bisa dikatakan menjadi proses menganalisa baik tidaknya suatu proses pembentukan cluster. Analisa cluster bisa diperoleh berdasarkan kepadatan cluster yg dibentuk (cluster density). Kepadatan suatu cluster mampu ditentukan menggunakan variance within cluster (Vw) serta variance between cluster (Vb). Varian tiap tahap pembentukan
cluster bisa dihitung dengan rumus:
Dimana:
Vc2 = varian pada cluster c
c = 1..K, dimana k = jumlah cluster
nc = jumlah data pada cluster c
yi = data ke-i dalam suatu cluster
yi = rata-rata menurut data dalam suatu cluster
Selanjutnya menurut nilai varian diatas, kita mampu menghitung nilai variance within cluster (Vw) menggunakan rumus:
Dimana, N = Jumlah semua data
ni = Jumlah data cluster i
Vi = Varian pada cluster i
Dan nilai variance between cluster (Vb) menggunakan rumus:
Dimana, y = rata-homogen dari yi
Salah satu metode yang dipakai buat menentukan cluster yang ideal merupakan batasan variance, yaitu dengan menghitung kepadatan cluster berupa variance within cluster (Vw) serta variance between cluster (Vb). Cluster yg ideal memiliki Vw minimum yang merepresentasikan internal homogenity serta maksimum Vb yang menyatakan external homogenity.
Hill Climbing
Pada Hill-climbing didefinisikan bahwa kemungkinan mencapai dunia optimum terletak dalam tahap ke-i, jika memenuhi persamaan berikut:
Vi+1 >α. Vi
Dimana, α merupakan nilai tinggi.
Nilai tinggi dipakai buat menentukan seberapa mungkin metode ini mencapai global optimum. Nilai α yang biasa dipakai adalah 2,3, serta 4. Persamaan diatas, diperoleh berdasar analisa pergerakan varian pola Hill climbing yang ditunjukkan dalam gambar berikut:
Gambar. Pola nilai beda Hill-climbing
Berikut tabel yang memberitahuakn polapolavalley tracing serta hill climbingyang mungkinmencapai global optimum. Pola yang mungkin ditandai dengansimbol √.
Tabel. Tabel kemungkinan pola hill climbing mencapai dunia optimum
Selanjutnya, dengan pendekatan metode hill climbing dilakukan identifikasi perbedaan nilai tinggi (∂) pada tiap tahap, yang didefinisikan menggunakan:
∂ = Vi+1 . (Vi * α)
Nilai ∂ dipakai buat menghindari local optima, dimana persamaan ini diperoleh dari maksimum ∂ yg dipenuhi pada persamaan 6. Untuk membentuk cluster secara otomatis, yaitu cluster yang mencapai dunia optima, dipakai nilai ë menjadi threshold, sebagai akibatnya cluster secara otomatis terbentuk waktu memenuhi:
max(∂) ≥
Untuk mengetahui keakuratan berdasarkan suatu metode pembentukan cluster pada hierarchical method, dengan menggunakan hill climbing dipakai persamaan.
Comments
Post a Comment