Pengertian Data Mining, Apa Itu Data Mining?
Secara sederhana data mining merupakan penambangan atau penemuan fakta baru dengan mencari pola atau anggaran eksklusif dari sejumlah data yang sangat akbar (Davies, 2004). Data mining jua disebut menjadi serangkaian proses buat menggali nilai tambah berupa pengetahuan yang selama ini nir diketahui secara manual berdasarkan suatu perpaduan data (Pramudiono, 2007). Data mining, sering juga diklaim sebagai knowledge discovery in database (KDD). KDD adalah aktivitas yang mencakup pengumpulan, pemakaian data, historis buat menemukan keteraturan, pola atau interaksi dalam set data berukuran akbar (Santoso, 2007).
Data mining adalah aktivitas menemukan pola yang menarik menurut data pada jumlah akbar, data bisa disimpan pada database, data warehouse, atau penyimpanan berita lainnya. Data mining berkaitan dengan bidang ilmu – ilmu lain, seperti database system, data warehousing, statistik, machine learning, information retrieval, dan komputasi taraf tinggi. Selain itu, data mining didukung oleh ilmu lain seperti neural network, pengenalan pola, spatial data analysis, image database, signal processing (Han, 2006). Data mining didefinisikan menjadi proses menemukan pola-pola pada data. Proses ini otomatis atau seringnya semiotomatis. Pola yg ditemukan harus penuh arti dan pola tersebut memberikan keuntungan, umumnya keuntungan secara ekonomi. Data yg diperlukan dalam jumlah besar (Witten, 2005).
Karakteristik data mining sebagai berikut
Data mining herbi penemuan sesuatu yg tersembunyi serta pola data eksklusif yg nir diketahui sebelumnya.
Data mining biasa menggunakan data yang sangat akbar. Biasanya data yang akbar digunakan buat membuat hasil lebih dianggap.
Data mining bermanfaat buat membuat keputusan yang kritis, terutama dalam strategi (Davies, 2004).
Berdasarkan beberapa pengertian tersebut dapat ditarik konklusi bahwa data mining adalah suatu teknik menggali liputan berharga yang terpendam atau tersembunyi dalam suatu koleksi data (database) yg sangat akbar sehingga ditemukan suatu pola yg menarik yg sebelumnya nir diketahui. Kata mining sendiri berarti usaha buat mendapatkan sedikit barang berharga berdasarkan sejumlah besar material dasar. Lantaran itu data mining sebenarnya mempunyai akar yg panjang dari bidang ilmu seperti kecerdasan protesis (artificial intelligent), machine learning, statistik dan database. Beberapa metode yang seringkali diklaim-sebut pada literatur data mining diantaranya clustering, lassification, association rules mining, neural network, genetic algorithm dan lain-lain (Pramudiono, 2007).
Pengenalan Pola, Data Mining, serta Machine Learning
Pengenalan pola adalah suatu disiplin ilmu yang menyelidiki cara-cara mengklasifikasikan obyek ke beberapa kelas atau kategori serta mengenali kesamaan data. Tergantung dalam aplikasinya, obyek-obyek ini mampu berupa pasien, mahasiswa, pemohon kredit, image atau signal atau pengukuran lain yg perlu diklasifikasikan atau dicari fungsi regresinya (Santoso, 2007).data mining, acapkali juga dianggap knowledge discovery in database (KDD), merupakan kegiatan yang meliputi pengumpulan, pemakaian data historis buat menemukan keteraturan, pola atau interaksi pada set data ukuran akbar. Keluaran dari data mining ini sanggup digunakan buat memperbaiki pengambilan keputusan di masa depan. Sehingga istilah pattern recognition sporadis digunakan lantaran termasuk bagian berdasarkan data mining (Santoso, 2007).
Machine Learning adalah suatu area pada artificial intelligence atau kecerdasan protesis yg berhubungan dengan pengembangan teknik-teknik yg mampu diprogramkan serta belajar menurut data masa lalu. Pengenalan pola, data mining dan machine learning sering digunakan buat menyebut sesuatu yang sama. Bidang ini bersinggungan dengan ilmu probabilitas serta statistik kadang pula meningkatkan secara optimal. Machine learning sebagai alat analisis dalam data mining. Bagaimana bidang-bidang ini bekerjasama mampu dicermati pada gambar (Santoso, 2007).
Tahap-Tahap Data mining
Sebagai suatu rangkaian proses, data mining bisa dibagi sebagai beberapa tahap yg diilustrasikan pada Gambar Tahap-tahap tersebut bersifat interaktif, pemakai terlibat eksklusif atau dengan perantaraan knowledge base
Tahap-termin data mining ada 6 yaitu :
1. Pembersihan data (data cleaning)
Pembersihan data adalah proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan. Pada umumnya data yg diperoleh, baik berdasarkan database suatu perusahaan juga hasil eksperimen, memiliki isian-isian yang tidak paripurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar keliru ketik. Selain itu, terdapat jua atribut-atribut data yang nir relevan menggunakan hipotesa data mining yg dimiliki. Data-data yang tidak relevan itu pula lebih baik dibuang. Pembersihan data jua akan mempengaruhi performasi berdasarkan teknik data mining lantaran data yg ditangani akan berkurang jumlah dan kompleksitasnya.
2. Integrasi data (data integration)
Integrasi data merupakan penggabungan data berdasarkan aneka macam database ke dalam satu database baru. Tidak jarang data yang dibutuhkan buat data mining tidak hanya asal dari satu database namun pula berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yg mengidentifikasikan entitas-entitas yg unik seperti atribut nama, jenis produk, nomor pelanggan serta lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yg menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh apabila integrasi data menurut jenis produk ternyata menggabungkan produk menurut kategori yg berbeda maka akan dihasilkan korelasi antar produk yang sebenarnya nir terdapat.
3. Seleksi Data (Data Selection)
Data yg ada pada database acapkali kali tidak semuanya digunakan, oleh karenanya hanya data yg sesuai untuk dianalisis yg akan diambil menurut database. Sebagai contoh, sebuah masalah yang meneliti faktor kesamaan orang membeli dalam kasus market basket analysis, tidak perlu merogoh nama pelanggan, relatif menggunakan id pelanggan saja.
4. Transformasi data (Data Transformation)
Data diubah atau digabung ke pada format yg sinkron buat diproses pada data mining. Beberapa metode data mining membutuhkan format data yang spesifik sebelum mampu diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya mampu mendapat input data kategorikal. Karenanya data berupa nomor numerik yg berlanjut perlu dibagi-bagi sebagai beberapa interval. Proses ini acapkali disebut transformasi data.
5. Proses mining,
Merupakan suatu proses primer ketika metode diterapkan untuk menemukan pengetahuan berharga serta tersembunyi menurut data.
6. Evaluasi pola (pattern evaluation),
Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam termin ini hasil dari teknik data mining berupa pola-pola yang khas juga model prediksi dinilai buat menilai apakah hipotesa yg ada memang tercapai. Jika ternyata output yg diperoleh tidak sinkron hipotesa terdapat beberapa cara lain yg dapat diambil seperti menjadikannya umpan kembali buat memperbaiki proses data mining, mencoba metode data mining lain yg lebih sesuai, atau mendapat output ini menjadi suatu hasil yang pada luar dugaan yang mungkin berguna.
7. Presentasi pengetahuan (knowledge presentation),
Merupakan visualisasi dan penyajian pengetahuan tentang metode yang dipakai buat memperoleh pengetahuan yang diperoleh pengguna. Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi menurut output analisis yg didapat. Ada kalanya hal ini wajib melibatkan orang-orang yg tidak tahu data mining. Karenanya presentasi output data mining pada bentuk pengetahuan yang bisa dipahami seluruh orang merupakan satu tahapan yg diharapkan pada proses data mining. Dalam presentasi ini, visualisasi pula mampu membantu mengkomunikasikan output data mining (Han, 2006)
Metode Data mining
Dengan definisi data mining yang luas, terdapat poly jenis metode analisis yg bisa digolongkan dalam data mining.
Association rules
Association rules (aturan asosiasi) atau affinity analysis (analisis afinitas) berkenaan menggunakan studi tentang “apa bersama apa”. Sebagai model dapat berupa berupa studi transaksi pada pasar swalayan, misalnya seorang yang membeli susu bayi pula membeli sabun mandi. Pada masalah ini berarti susu bayi bersama menggunakan sabun mandi. Lantaran awalnya berasal menurut studi mengenai database transaksi pelanggan buat memilih kebiasaan suatu produk dibeli bersama produk apa, maka aturan asosiasi juga tak jarang dinamakan market basket analysis. Aturan asosiasi ingin memberikan warta tersebut pada bentuk hubungan “if-then” atau “jika-maka”. Aturan ini dihitung berdasarkan data yang sifatnya probabilistik (Santoso, 2007). Analisis asosiasi dikenal jua menjadi salah satu metode data mining yang menjadi dasar menurut berbagai metode data mining lainnya. Khususnya galat satu tahap berdasarkan analisis asosiasi yg disebut analisis pola frekuensi tinggi (frequent pattern mining) menarik perhatian banyak peneliti buat membuat algoritma yang efisien. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan 2 parameter, support (nilai penunjang) yaitu prosentase kombinasi item tersebut. Pada database serta confidence (nilai kepastian) yaitu kuatnya interaksi antar item dalam aturan assosiatif. Analisis asosiasi didefinisikan suatu proses buat menemukan semua aturan assosiatif yang memenuhi kondisi minimum buat support (minimum support) dan kondisi minimum buat confidence (minimum confidence) (Pramudiono, 2007).
Ada beberapa prosedur pemecahan yang telah dikembangkan tentang anggaran asosiasi, tetapi ada satu prosedur pemecahan klasik yg sering dipakai yaitu prosedur pemecahan apriori. Ide dasar berdasarkan algoritma ini merupakan menggunakan menyebarkan frequent itemset. Dengan memakai satu item serta secara rekursif membuatkan frequent itemset dengan dua item, tiga item serta seterusnya sampai frequent itemset dengan seluruh ukuran. Untuk menyebarkan frequent set menggunakan dua item, bisa memakai frequent set item. Alasannya adalah apabila set satu item nir melebihi support minimum, maka sembarang berukuran itemset yang lebih besar tidak akan melebihi support minimum tersebut. Secara generik, mengembangkan set dengan fc-item menggunakan frequent set menggunakan k – 1 item yg dikembangkan dalam langkah sebelumnya. Setiap langkah memerlukan sekali inspeksi ke seluruh isi database.
Dalam asosiasi masih ada kata antecedent dan consequent, antecedent buat mewakili bagian “apabila” serta consequent buat mewakili bagian “maka”. Dalam analisis ini, antecedent dan consequent adalah sekelompok item yang nir punya interaksi secara bersama (Santoso, 2007). Dari jumlah akbar anggaran yg mungkin dikembangkan, perlu memiliki aturan-anggaran yg relatif kuat taraf ketergantungan antar item pada antecedent dan consequent. Untuk mengukur kekuatan aturan asosiasi ini, digunakan ukuran support dan confidence. Support adalah rasio antara jumlah transaksi yg memuat antecedent dan consequent menggunakan jumlah transaksi. Confidence adalah rasio antara jumlah transaksi yang mencakup seluruh item dalam antecedent dan consequent dengan jumlah transaksi yg meliputi seluruh item pada antecedent.
Langkah pertama prosedur pemecahan apriori adalah, support berdasarkan setiap item dihitung menggunakan men-scan database. Setelah support berdasarkan setiap item didapat, item yang mempunyai support lebih akbar dari minimum support dipilih sebagai pola frekuensi tinggi menggunakan panjang 1 atau acapkali disingkat 1-itemset. Singkatan k-itemset berarti satu set yang terdiri dari k item. Iterasi ke 2 menghasilkan 2-itemset yang tiap set-nya mempunyai dua item. Pertama dibentuk kandidat 2-itemset menurut kombinasi seluruh 1-itemset. Lalu buat tiap
kandidat dua-itemset ini dihitung support-nya menggunakan men-scan database. Support artinya jumlah transaksi dalam database yg mengandung ke 2 item dalam kandidat dua-itemset. Setelah support dari semua kandidat 2-itemset didapatkan, kandidat 2-itemset yang memenuhi syarat minimum support dapat ditetapkan sebagai dua-itemset yang jua adalah pola frekuensi tinggi menggunakan panjang dua.(Pramudiono, 2007)
Untuk selanjutnya iterasi iterasi ke-k dapat dibagi lagi menjadi beberapa bagian :
1. Pembentukan kandidat itemset
Kandidat k-itemset dibuat berdasarkan kombinasi (k-1)-itemset yang didapat berdasarkan perulangan sebelumnya. Satu karakteristik menurut prosedur pemecahan apriori merupakan adanya pemangkasan kandidat k-itemset yg subset-nya yang berisi k-1 item nir termasuk pada pola frekuensi tinggi dengan panjang k-1.
2. Penghitungan support menurut tiap kandidat k-itemset
Support berdasarkan tiap kandidat k-itemset didapat dengan men-scan database buat menghitung jumlah transaksi yang memuat seluruh item pada dalam kandidat k-itemset tersebut. Ini adalah jua ciri menurut algoritma apriori yaitu diperlukan penghitungan dengan scan seluruh database sebesar k-itemset terpanjang.
3. Tetapkan pola frekuensi tinggi
Pola frekuensi tinggi yg memuat k item atau k-itemset ditetapkan dari kandidat k-itemset yg support-nya lebih akbar dari minimum support. Kemudian dihitung confidence masing-masing kombinasi item. Iterasi berhenti ketika seluruh item sudah dihitung sampai nir terdapat kombinasi item lagi. (Pramudiono, 2007)
Secara ringkas algoritma apriori sebagai berikut :
Create L1 = set of supported itemsets of cardinality one
Set k to 2
while (Lk−1 _= ∅)
Create Ck from Lk−1
Prune all the itemsets in Ck that are not
supported, to create Lk
Increase k by 1
}
The set of all supported itemsets is L1 ∪ L2 ∪ · · · ∪ Lk
Selain algoritma apriori, terdapat jua prosedur pemecahan lain seperti FP-Grwoth.
Perbedaan algoritma apriori dengan FP-Growth pada banyaknya scan database. Algoritma apriori melakukan scan database setiap kali iterasi sedangkan algoritma FP-Growth hanya melakukan sekali pada awal (Bramer, 2007).
Decision Tree
Dalam decision tree nir menggunakan vector jarak buat mengklasifikasikan obyek. Seringkali data observasi mempunyai atribut-atribut yang bernilai nominal. Seperti yg diilustrasikan pada gambar 2.6, misalkan obyeknya adalah sekumpulan butir-buahan yang mampu dibedakan berdasarkan atribut bentuk, warna, ukuran serta rasa. Bentuk, warna, ukuran dan rasa adalah besaran nominal, yaitu bersifat kategoris serta tiap nilai tidak sanggup dijumlahkan atau dikurangkan. Dalam atribut warna ada beberapa nilai yg mungkin yaitu hijau, kuning, merah. Dalam atribut ukuran terdapat nilai akbar, sedang serta mini . Dengan nilai-nilai atribut ini, kemudian dibuat decision tree buat memilih suatu obyek termasuk jenis butir apa jika nilai tiap-tiap atribut diberikan (Santoso, 2007).
Ada beberapa macam prosedur pemecahan decision tree diantaranya CART serta C4.5. Beberapa gosip utama dalam decision tree yang sebagai perhatian yaitu seberapa detail pada menyebarkan decision tree, bagaimana mengatasi atribut yang bernilai continues, menentukan ukuran yg cocok buat penentuan atribut, menangani data pelatihan yg memiliki data yg atributnya tidak memiliki nilai, memperbaiki efisiensi perhitungan (Santoso, 2007).decision tree sinkron digunakan buat perkara-masalah yg keluarannya bernilai diskrit. Walaupun poly variasi contoh decision tree menggunakan taraf kemampuan dan syarat yang tidak selaras, pada umumnya beberapa karakteristik yang cocok buat diterapkannya decision tree adalah sebagai berikut :
1. Data dinyatakan menggunakan pasangan atribut dan nilainya
2. Label/keluaran data umumnya bernilai diskrit
3. Data memiliki missing value (nilai berdasarkan suatu atribut tidak diketahui)
Dengan cara ini akan gampang mengelompokkan obyek ke dalam beberapa gerombolan . Untuk menciptakan decision tree perlu memperhatikan hal-hal berikut adalah :
1. Atribut mana yg akan dipilih buat pemisahan obyek
2. Urutan atribut mana yang akan dipilih terlebih dahulu
3. Struktur tree
4. Kriteria pemberhentian
5. Pruning
(Santoso, 2007)
Clustering
Clustering termasuk metode yang telah relatif dikenal dan banyak dipakai pada data mining. Sampai sekarang para ilmuwan pada bidang data miningmasih melakukan banyak sekali bisnis buat melakukan perbaikan contoh clustering lantaran metode yg dikembangkan sekarang masih bersifat heuristic. Usaha-bisnis buat menghitung jumlah cluster yg optimal dan pengklasteran yang paling baik masih terus dilakukan. Dengan demikian menggunakan metode yg kini , tidak bisa mengklaim hasil pengklasteran sudah merupakan output yang optimal. Tetapi, output yang dicapai biasanya sudah relatif rupawan dari segi praktis.
Tujuan utama berdasarkan metode clustering merupakan pengelompokan sejumlah data/obyek ke alam cluster (group) sebagai akibatnya pada setiap cluster akan berisi data yg semirip mungkin seperti diilustrasikan dalam gambar dua.7. Dalam clustering metode ini berusaha buat menempatkan obyek yang mirip (jaraknya dekat) dalam satu klaster serta membuat jeda antar klaster sejauh mungkin. Ini berarti obyek dalam satu cluster sangat mirip satu sama lain dan tidak sama menggunakan obyek pada cluster-cluster yg lain. Dalam metode ini tidak diketahui sebelumnya berapa jumlah cluster dan bagaimana pengelompokannya (Santoso, 2007).
Software Aplikasi
Software pelaksanaan terdiri atas acara yang berdiri sendiri yg mampu mengatasi kebutuhan bisnis tertentu. Aplikasi memfasilitasi operasi bisnis atau pengambilan keputusan manajemen juga teknik menjadi tambahan pada aplikasi pemrosesan data konvensional. Sofware aplikasi digunakan buat mengatur fungsi usaha secara real time (Pressman, 2005).
Desain Model Aplikasi
Desain contoh berdasarkan pelaksanaan terdiri menurut physical contoh serta logical model. Physical contoh bisa digambarkan dengan bagan alir sistem. Logical contoh pada sistem liputan lebih menjelaskan kepada pengguna bagaimana nantinya fungsi-fungsi pada sistem warta secara logika akan bekerja. Logical contoh dapat digambarkan menggunakan DFD (Data Flow Diagram) serta kamus data (Data Dictionary). Adapun penjelasan berdasarkan indera bantu pada desain contoh adalah sebagai berikut :
1. Diagram Konteks (Context Diagram)
Diagram konteks merupakan sebuah diagram sederhana yg mendeskripsikan interaksi antara proses serta entitas luarnya. Adapun simbol-simbol pada diagram konteks seperti dijelaskan dalam tabel dua.2.
DFD (Data Flow Diagram)
DFD adalah suatu contoh akal yg mendeskripsikan dari data dan tujuan data yg keluar berdasarkan sistem, serta menggambarkan penyimpanan data dan proses yg mentranformasikan data. DFD memberitahuakn interaksi antara data dalam sistem dan proses dalam sistem. Beberapa simbol yg dipakai dalam DFD diterangkan pada tabel
Perancangan Perangkat Lunak
Proses perancangan sistem membagi persyaratan dalam sistem perangkat keras atau perangkat lunak. Kegiatan ini memilih arsitektur sistem secara keseluruhan. Perancangan aplikasi melibatkan identifikasi serta deskripsi abstraksi sistem aplikasi yang fundamental dan hubungan-hubungannya (Sommerville, 2003). Sebagaimana persyaratan, desain didokumentasikan serta menjadi bagian berdasarkan konfigurasi aplikasi (Pressman, 1997). Tahap desain mencakup perancangan data, perancangan fungsional, serta perancangan antarmuka.
1. Perancangan data
Perancangan data mentransformasikan contoh data yg didapatkan sang proses analisis sebagai struktur data yang diperlukan pada ketika pembuatan program (coding). Selain itu juga akan dilakukan desain terhadap struktur database yg akan dipakai.
2. Perancangan fungsional
Perancangan fungsional menggambarkan kebutuhan fungsi-fungsi primer perangkat lunak.
3. Perancangan antarmuka
Perancangan antarmuka mendefinisikan bagaimana pengguna (user) serta aplikasi berkomunikasi dalam menjalankan fungsionalitas aplikasi.
Implementasi serta Pengujian Unit
Pada tahap ini, perancangan software direalisasikan menjadi serangkaian program atau unit program. Kemudian pengujian unit melibatkan pembuktian bahwa setiap unit acara sudah memenuhi spesifikasinya (Sommerville, 2003).program sebaiknya dirilis sesudah dikembangkan, diuji buat memperbaiki kesalahan yang ditemukan dalam pengujian buat mengklaim kualitasnya (Padmini, 2005). Terdapat 2 metode pengujian yaitu :
1) Metode white box yaitu pengujian yang serius dalam nalar internal aplikasi (source code program).
2) Metode black box yaitu mengarahkan pengujian buat menemukan kesalahan-mesalahan dan memastikan bahwa input yg dibatasi akan memberikan output aktual yang sinkron dengan hasil yg diperlukan. Pada tahap pengujian, penulis melakukan metode black box yaitu menguji fungsionalitas berdasarkan software saja tanpa harus mengetahui struktur internal program (source code).