PENGERTIAN DATA MINING APA ITU DATA MINING

Pengertian Data Mining, Apa Itu Data Mining?
Secara sederhana data mining adalah penambangan atau inovasi liputan baru menggunakan mencari pola atau aturan tertentu berdasarkan sejumlah data yg sangat besar (Davies, 2004). Data mining juga diklaim sebagai serangkaian proses buat menggali nilai tambah berupa pengetahuan yg selama ini nir diketahui secara manual menurut suatu deretan data (Pramudiono, 2007). Data mining, tak jarang jua dianggap menjadi knowledge discovery in database (KDD). KDD adalah aktivitas yg mencakup pengumpulan, pemakaian data, historis buat menemukan keteraturan, pola atau hubungan pada set data berukuran akbar (Santoso, 2007). 

Data mining merupakan aktivitas menemukan pola yg menarik menurut data dalam jumlah akbar, data dapat disimpan pada database, data warehouse, atau penyimpanan keterangan lainnya. Data mining berkaitan dengan bidang ilmu – ilmu lain, misalnya database system, data warehousing, statistik, machine learning, information retrieval, dan komputasi tingkat tinggi. Selain itu, data mining didukung oleh ilmu lain misalnya neural network, sosialisasi pola, spatial data analysis, image database, signal processing (Han, 2006). Data mining didefinisikan menjadi proses menemukan pola-pola pada data. Proses ini otomatis atau seringnya semiotomatis. Pola yg ditemukan wajib penuh arti serta pola tadi memberikan keuntungan, biasanya keuntungan secara ekonomi. Data yg diharapkan dalam jumlah besar (Witten, 2005).

Karakteristik data mining menjadi berikut
Data mining herbi inovasi sesuatu yg tersembunyi dan pola data eksklusif yang nir diketahui sebelumnya. 
Data mining biasa memakai data yg sangat besar . Biasanya data yang besar dipakai buat menciptakan output lebih dipercaya. 

Data mining bermanfaat buat menciptakan keputusan yg kritis, terutama pada taktik (Davies, 2004).
Berdasarkan beberapa pengertian tersebut bisa ditarik konklusi bahwa data mining merupakan suatu teknik menggali informasi berharga yg terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat akbar sebagai akibatnya ditemukan suatu pola yg menarik yg sebelumnya tidak diketahui. Kata mining sendiri berarti usaha buat mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Lantaran itu data mining sebenarnya memiliki akar yg panjang menurut bidang ilmu misalnya kecerdasan buatan (artificial intelligent), machine learning, statistik serta database. Beberapa metode yang sering diklaim-sebut pada literatur data mining diantaranya clustering, lassification, association rules mining, neural network, genetic algorithm serta lain-lain (Pramudiono, 2007).

Pengenalan Pola, Data Mining, dan Machine Learning
Pengenalan pola merupakan suatu disiplin ilmu yg menyelidiki cara-cara mengklasifikasikan obyek ke beberapa kelas atau kategori dan mengenali kecenderungan data. Tergantung dalam aplikasinya, obyek-obyek ini sanggup berupa pasien, mahasiswa, pemohon kredit, image atau signal atau pengukuran lain yang perlu diklasifikasikan atau dicari fungsi regresinya (Santoso, 2007).data mining, acapkali juga diklaim knowledge discovery in database (KDD), merupakan kegiatan yg meliputi pengumpulan, pemakaian data historis buat menemukan keteraturan, pola atau interaksi dalam set data berukuran besar . Keluaran dari data mining ini sanggup digunakan buat memperbaiki pengambilan keputusan di masa depan. Sehingga kata pattern recognition sporadis dipakai karena termasuk bagian dari data mining (Santoso, 2007).

Machine Learning merupakan suatu area dalam artificial intelligence atau kecerdasan protesis yang herbi pengembangan teknik-teknik yg sanggup diprogramkan serta belajar menurut data masa kemudian. Pengenalan pola, data mining dan machine learning acapkali digunakan buat menyebut sesuatu yg sama. Bidang ini bersinggungan menggunakan ilmu probabilitas serta statistik kadang jua optimasi. Machine learning menjadi alat analisis dalam data mining. Bagaimana bidang-bidang ini berafiliasi sanggup ditinjau pada gambar (Santoso, 2007).

Tahap-Tahap Data mining
Sebagai suatu rangkaian proses, data mining bisa dibagi menjadi beberapa termin yang diilustrasikan di Gambar  Tahap-tahap tadi bersifat interaktif, pemakai terlibat langsung atau menggunakan perantaraan knowledge base

Tahap-termin data mining ada 6 yaitu :

1. Pembersihan data (data cleaning)
Pembersihan data adalah proses menghilangkan noise serta data yg nir konsisten atau data nir relevan. Pada biasanya data yang diperoleh, baik menurut database suatu perusahaan juga hasil eksperimen, memiliki isian-isian yang nir sempurna seperti data yang hilang, data yang tidak valid atau pula hanya sekedar keliru ketik. Selain itu, ada jua atribut-atribut data yang tidak relevan menggunakan hipotesa data mining yg dimiliki. Data-data yg tidak relevan itu juga lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi berdasarkan teknik data mining karena data yg ditangani akan berkurang jumlah serta kompleksitasnya.

2. Integrasi data (data integration)
Integrasi data adalah penggabungan data menurut banyak sekali database ke dalam satu database baru. Tidak jarang data yang dibutuhkan buat data mining tidak hanya berasal berdasarkan satu database tetapi juga berasal dari beberapa database atau arsip teks. Integrasi data dilakukan dalam atribut-aribut yang mengidentifikasikan entitas-entitas yg unik seperti atribut nama, jenis produk, nomor pelanggan serta lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan dalam integrasi data sanggup membentuk output yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh apabila integrasi data dari jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan dihasilkan korelasi antar produk yang sebenarnya tidak ada. 

3. Seleksi Data (Data Selection)
Data yg ada dalam database tak jarang kali tidak semuanya digunakan, sang karenanya hanya data yg sinkron buat dianalisis yg akan diambil dari database. Sebagai contoh, sebuah perkara yg meneliti faktor kecenderungan orang membeli dalam kasus market basket analysis, nir perlu merogoh nama pelanggan, cukup dengan id pelanggan saja.

4. Transformasi data (Data Transformation)
Data diubah atau digabung ke pada format yg sesuai buat diproses dalam data mining. Beberapa metode data mining membutuhkan format data yg khusus sebelum sanggup diaplikasikan. Sebagai contoh beberapa metode baku seperti analisis asosiasi serta clustering hanya mampu mendapat input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi sebagai beberapa interval. Proses ini seringkali dianggap transformasi data. 

5. Proses mining, 
Merupakan suatu proses primer saat metode diterapkan untuk menemukan pengetahuan berharga serta tersembunyi berdasarkan data. 

6. Evaluasi pola (pattern evaluation), 
Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yg ditemukan. Dalam termin ini output berdasarkan teknik data mining berupa pola-pola yang spesial maupun contoh prediksi dinilai untuk menilai apakah hipotesa yang terdapat memang tercapai. Jika ternyata hasil yg diperoleh nir sinkron hipotesa ada beberapa cara lain yang bisa diambil seperti menjadikannya umpan pulang buat memperbaiki proses data mining, mencoba metode data mining lain yang lebih sesuai, atau menerima output ini menjadi suatu hasil yg di luar dugaan yang mungkin berguna.

7. Presentasi pengetahuan (knowledge presentation), 
Merupakan visualisasi serta penyajian pengetahuan mengenai metode yg digunakan buat memperoleh pengetahuan yg diperoleh pengguna. Tahap terakhir dari proses data mining merupakan bagaimana memformulasikan keputusan atau aksi dari hasil analisis yg didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi output data mining pada bentuk pengetahuan yang bisa dipahami seluruh orang adalah satu tahapan yg diharapkan pada proses data mining. Dalam presentasi ini, visualisasi juga sanggup membantu mengkomunikasikan output data mining (Han, 2006)

Metode Data mining
Dengan definisi data mining yang luas, terdapat poly jenis metode analisis yang bisa digolongkan dalam data mining. 

Association rules
Association rules (aturan asosiasi) atau affinity analysis (analisis afinitas) berkenaan menggunakan studi tentang “apa beserta apa”. Sebagai model bisa berupa berupa studi transaksi di pasar swalayan, contohnya seorang yg membeli susu bayi juga membeli sabun mandi. Pada perkara ini berarti susu bayi bersama dengan sabun mandi. Lantaran awalnya berasal berdasarkan studi tentang database transaksi pelanggan untuk menentukan norma suatu produk dibeli beserta produk apa, maka aturan asosiasi pula seringkali dinamakan market basket analysis. Aturan asosiasi ingin menaruh fakta tersebut dalam bentuk interaksi “if-then” atau “jika-maka”. Aturan ini dihitung dari data yang sifatnya probabilistik (Santoso, 2007). Analisis asosiasi dikenal pula sebagai salah satu metode data mining yg menjadi dasar berdasarkan banyak sekali metode data mining lainnya. Khususnya salah satu termin menurut analisis asosiasi yang diklaim analisis pola frekuensi tinggi (frequent pattern mining) menarik perhatian banyak peneliti buat membentuk prosedur pemecahan yg efisien. Penting tidaknya suatu aturan assosiatif bisa diketahui dengan 2 parameter, support (nilai penunjang) yaitu prosentase kombinasi item tersebut. Pada database serta confidence (nilai kepastian) yaitu kuatnya hubungan antar item pada aturan assosiatif. Analisis asosiasi didefinisikan suatu proses buat menemukan seluruh aturan assosiatif yg memenuhi kondisi minimum buat support (minimum support) dan syarat minimum buat confidence (minimum confidence) (Pramudiono, 2007).

Ada beberapa prosedur pemecahan yang sudah dikembangkan tentang aturan asosiasi, namun terdapat satu prosedur pemecahan klasik yang sering dipakai yaitu algoritma apriori. Ide dasar berdasarkan prosedur pemecahan ini merupakan dengan mengembangkan frequent itemset. Dengan menggunakan satu item serta secara rekursif membuatkan frequent itemset dengan 2 item, 3 item dan seterusnya sampai frequent itemset menggunakan semua ukuran. Untuk menyebarkan frequent set menggunakan 2 item, bisa menggunakan frequent set item. Alasannya merupakan apabila set satu item nir melebihi support minimum, maka sembarang ukuran itemset yg lebih besar nir akan melebihi support minimum tersebut. Secara umum, berbagi set menggunakan fc-item memakai frequent set menggunakan k – 1 item yg dikembangkan dalam langkah sebelumnya. Setiap langkah memerlukan sekali inspeksi ke semua isi database. 

Dalam asosiasi masih ada istilah antecedent serta consequent, antecedent buat mewakili bagian “apabila” dan consequent buat mewakili bagian “maka”. Dalam analisis ini, antecedent serta consequent adalah sekelompok item yg nir punya hubungan secara bersama (Santoso, 2007). Dari jumlah akbar aturan yg mungkin dikembangkan, perlu memiliki anggaran-aturan yang cukup bertenaga tingkat ketergantungan antar item pada antecedent dan consequent. Untuk mengukur kekuatan anggaran asosiasi ini, digunakan berukuran support dan confidence. Support adalah rasio antara jumlah transaksi yang memuat antecedent dan consequent menggunakan jumlah transaksi. Confidence adalah rasio antara jumlah transaksi yg meliputi seluruh item pada antecedent dan consequent menggunakan jumlah transaksi yg mencakup semua item pada antecedent.

Langkah pertama prosedur pemecahan apriori adalah, support berdasarkan setiap item dihitung dengan men-scan database. Setelah support menurut setiap item didapat, item yg mempunyai support lebih besar menurut minimum support dipilih menjadi pola frekuensi tinggi menggunakan panjang 1 atau seringkali disingkat 1-itemset. Singkatan k-itemset berarti satu set yg terdiri dari k item. Iterasi ke 2 membuat 2-itemset yang tiap set-nya memiliki 2 item. Pertama dibentuk kandidat dua-itemset menurut kombinasi semua 1-itemset. Lalu buat tiap 

kandidat dua-itemset ini dihitung support-nya dengan men-scan database. Support artinya jumlah transaksi dalam database yang mengandung ke 2 item pada kandidat dua-itemset. Setelah support dari semua kandidat 2-itemset didapatkan, kandidat 2-itemset yg memenuhi kondisi minimum support dapat ditetapkan sebagai dua-itemset yang pula merupakan pola frekuensi tinggi dengan panjang 2.(Pramudiono, 2007)

Untuk selanjutnya perulangan iterasi ke-k bisa dibagi lagi sebagai beberapa bagian :

1. Pembentukan kandidat itemset
Kandidat k-itemset dibuat berdasarkan kombinasi (k-1)-itemset yg didapat menurut iterasi sebelumnya. Satu ciri menurut prosedur pemecahan apriori adalah adanya pemangkasan kandidat k-itemset yg subset-nya yg berisi k-1 item nir termasuk pada pola frekuensi tinggi menggunakan panjang k-1.

2. Penghitungan support dari tiap kandidat k-itemset
Support dari tiap kandidat k-itemset didapat menggunakan men-scan database untuk menghitung jumlah transaksi yg memuat seluruh item di dalam kandidat k-itemset tersebut. Ini adalah jua ciri menurut prosedur pemecahan apriori yaitu dibutuhkan penghitungan dengan scan seluruh database sebesar k-itemset terpanjang.

3. Tetapkan pola frekuensi tinggi
Pola frekuensi tinggi yg memuat k item atau k-itemset ditetapkan berdasarkan kandidat k-itemset yang support-nya lebih akbar berdasarkan minimum support. Kemudian dihitung confidence masing-masing kombinasi item. Iterasi berhenti ketika semua item telah dihitung hingga nir terdapat kombinasi item lagi. (Pramudiono, 2007)

Secara ringkas algoritma apriori sebagai berikut :
Create L1 = set of supported itemsets of cardinality one 
Set k to 2
while (Lk−1 _= ∅)  
Create Ck from Lk−1
Prune all the itemsets in Ck that are not
supported, to create Lk
Increase k by 1
}
The set of all supported itemsets is L1 ∪ L2 ∪ · · · ∪ Lk 

Selain prosedur pemecahan apriori, terdapat pula prosedur pemecahan lain seperti FP-Grwoth. 
Perbedaan prosedur pemecahan apriori menggunakan FP-Growth dalam banyaknya scan database. Algoritma apriori melakukan scan database setiap kali perulangan sedangkan prosedur pemecahan FP-Growth hanya melakukan sekali pada awal (Bramer, 2007).

Decision Tree
Dalam decision tree tidak memakai vector jeda buat mengklasifikasikan obyek. Seringkali data observasi memiliki atribut-atribut yg bernilai nominal. Seperti yg diilustrasikan dalam gambar 2.6, misalkan obyeknya adalah sekumpulan buah-buahan yg mampu dibedakan menurut atribut bentuk, warna, berukuran dan rasa. Bentuk, warna, ukuran dan rasa adalah besaran nominal, yaitu bersifat kategoris dan tiap nilai tidak sanggup dijumlahkan atau dikurangkan. Dalam atribut rona ada beberapa nilai yang mungkin yaitu hijau, kuning, merah. Dalam atribut ukuran ada nilai akbar, sedang serta mini . Dengan nilai-nilai atribut ini, lalu dibentuk decision tree buat memilih suatu obyek termasuk jenis buah apa apabila nilai tiap-tiap atribut diberikan (Santoso, 2007).

Ada beberapa macam algoritma decision tree diantaranya CART dan C4.5. Beberapa gosip primer pada decision tree yg sebagai perhatian yaitu seberapa lebih jelasnya pada menyebarkan decision tree, bagaimana mengatasi atribut yang bernilai continues, menentukan ukuran yg cocok buat penentuan atribut, menangani data training yg memiliki data yang atributnya tidak memiliki nilai, memperbaiki efisiensi perhitungan (Santoso, 2007).decision tree sesuai dipakai buat perkara-perkara yang keluarannya bernilai diskrit. Walaupun poly variasi model decision tree menggunakan tingkat kemampuan serta syarat yg tidak sinkron, dalam umumnya beberapa ciri yang cocok buat diterapkannya decision tree merupakan sebagai berikut :
1. Data dinyatakan dengan pasangan atribut dan nilainya
2. Label/keluaran data umumnya bernilai diskrit
3. Data memiliki missing value (nilai dari suatu atribut tidak diketahui)

Dengan cara ini akan gampang mengelompokkan obyek ke dalam beberapa grup. Untuk membuat decision tree perlu memperhatikan hal-hal berikut ini :
1. Atribut mana yang akan dipilih untuk pemisahan obyek
2. Urutan atribut mana yg akan dipilih terlebih dahulu
3. Struktur tree
4. Kriteria pemberhentian
5. Pruning 
(Santoso, 2007)

Clustering
Clustering termasuk metode yang sudah relatif dikenal dan poly dipakai dalam data mining. Sampai kini para ilmuwan pada bidang data miningmasih melakukan banyak sekali bisnis untuk melakukan pemugaran contoh clustering karena metode yg dikembangkan sekarang masih bersifat heuristic. Usaha-usaha buat menghitung jumlah cluster yang optimal dan pengklasteran yang paling baik masih terus dilakukan. Dengan demikian memakai metode yang sekarang, nir sanggup menjamin hasil pengklasteran telah adalah output yang optimal. Namun, hasil yang dicapai umumnya telah cukup indah berdasarkan segi mudah.

Tujuan primer dari metode clustering merupakan pengelompokan sejumlah data/obyek ke alam cluster (class) sehingga dalam setiap cluster akan berisi data yg semirip mungkin misalnya diilustrasikan pada gambar 2.7. Dalam clustering metode ini berusaha buat menempatkan obyek yang seperti (jaraknya dekat) dalam satu klaster serta membuat jeda antar klaster sejauh mungkin. Ini berarti obyek dalam satu cluster sangat seperti satu sama lain dan berbeda menggunakan obyek dalam cluster-cluster yg lain. Dalam metode ini tidak diketahui sebelumnya berapa jumlah cluster serta bagaimana pengelompokannya (Santoso, 2007).

Software Aplikasi
Software aplikasi terdiri atas program yang berdiri sendiri yg bisa mengatasi kebutuhan bisnis eksklusif. Aplikasi memfasilitasi operasi bisnis atau pengambilan keputusan manajemen juga teknik sebagai tambahan dalam pelaksanaan pemrosesan data konvensional. Sofware pelaksanaan dipakai buat mengatur fungsi bisnis secara real time (Pressman, 2005).

Desain Model Aplikasi
Desain model berdasarkan aplikasi terdiri menurut physical model dan logical model. Physical contoh dapat digambarkan dengan bagan alir sistem. Logical model dalam sistem liputan lebih menjelaskan pada pengguna bagaimana nantinya fungsi-fungsi pada sistem fakta secara nalar akan bekerja. Logical model bisa digambarkan menggunakan DFD (Data Flow Diagram) serta kamus data (Data Dictionary). Adapun penerangan dari alat bantu pada desain contoh adalah menjadi berikut :

1. Diagram Konteks (Context Diagram)
Diagram konteks adalah sebuah diagram sederhana yg mendeskripsikan hubungan antara proses dan entitas luarnya. Adapun simbol-simbol dalam diagram konteks seperti dijelaskan dalam tabel 2.2.


DFD (Data Flow Diagram)
DFD merupakan suatu contoh akal yg menggambarkan dari data dan tujuan data yg keluar berdasarkan sistem, serta mendeskripsikan penyimpanan data serta proses yg mentranformasikan data. DFD memperlihatkan interaksi antara data pada sistem dan proses dalam sistem. Beberapa simbol yang dipakai pada DFD diterangkan dalam tabel


Perancangan Perangkat Lunak
Proses perancangan sistem membagi persyaratan pada sistem perangkat keras atau perangkat lunak. Kegiatan ini menentukan arsitektur sistem secara holistik. Perancangan software melibatkan identifikasi dan pelukisan abstraksi sistem aplikasi yg fundamental serta interaksi-hubungannya (Sommerville, 2003). Sebagaimana persyaratan, desain didokumentasikan serta sebagai bagian menurut konfigurasi perangkat lunak (Pressman, 1997). Tahap desain mencakup perancangan data, perancangan fungsional, serta perancangan antarmuka. 

1. Perancangan data
Perancangan data mentransformasikan contoh data yg didapatkan sang proses analisis menjadi struktur data yang dibutuhkan dalam saat pembuatan acara (coding). Selain itu jua akan dilakukan desain terhadap struktur database yg akan dipakai. 

2. Perancangan fungsional
Perancangan fungsional mendeskripsikan kebutuhan fungsi-fungsi primer software.

3. Perancangan antarmuka 
Perancangan antarmuka mendefinisikan bagaimana pengguna (user) dan perangkat lunak berkomunikasi pada menjalankan fungsionalitas aplikasi.

Implementasi serta Pengujian Unit
Pada termin ini, perancangan perangkat lunak direalisasikan menjadi serangkaian acara atau unit program. Kemudian pengujian unit melibatkan pembuktian bahwa setiap unit acara sudah memenuhi spesifikasinya (Sommerville, 2003).program usahakan dirilis sesudah dikembangkan, diuji buat memperbaiki kesalahan yg ditemukan dalam pengujian buat menjamin kualitasnya (Padmini, 2005). Terdapat 2 metode pengujian yaitu : 
1) Metode white box yaitu pengujian yg serius dalam akal internal software (source code program).
2) Metode black box yaitu mengarahkan pengujian buat menemukan kesalahan-mesalahan dan memastikan bahwa input yg dibatasi akan memberikan output aktual yg sesuai dengan hasil yg diharapkan. Pada tahap pengujian, penulis melakukan metode black box yaitu menguji fungsionalitas menurut perangkat lunak saja tanpa harus mengetahui struktur internal acara (source code).

Comments