PENGERTIAN DAN FUNGSI CLUSTER DATABASE
Pengertian Dan Fungsi Cluster Database
Clustering adalah proses mengelompokkan objek berdasarkan warta yang diperoleh menurut data yg mengungkapkan interaksi antar objek menggunakan prinsip buat memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kecenderungan antar kelas/cluster. Tujuannya menemukan cluster yang berkualitas pada waktu yg layak. Clustering dalam data mining berguna buat menemukan pola distribusi di dalam sebuah data set yg bermanfaat buat proses analisa data. Kesamaan objek umumnya diperoleh dari kedekatan nilai-nilai atribut yang menjelaskan objek-objek data, sedangkan objek-objek data biasanya direpresentasikan sebagai sebuah titik pada ruang multidimensi.
Clustering adalah suatu indera buat analisa data, yang memecahkan permasalahan penggolongan.
Obyek nya adalah buat perkara pendistribusian (orang-orang, objek, insiden dll.) ke dalam kelompok, sedemikian sebagai akibatnya derajat tingkat keterhubungan antar anggota cluster yg sama merupakan bertenaga dan lemah antar anggota dari cluster yang tidak sama. Dengan Cara ini masing-masing cluster menguraikan, pada kaitan dengan perpaduan/koleksi data, class dimana milik anggota-anggotanya.
Cluster : Data item dikelompokkan berdasarkan pilihan konsumen atau hubungan logis. Sebagai model, data bisa dimaknakan buat mengidentifikasi segmen pasar atau ketertarikan konsumen.
Hasil berdasarkan analisis cluster mungkin berperan buat definisi berdasarkan suatu rencana penggolongan yang formal, seperti suatu taksonomi untuk binatang yg terkait, serangga atau tanaman ; atau menyarankan contoh statistik yg menguraikan populasi; atau menandai anggaran buat menugaskan kasus yg baru ke group buat identifikasi serta tujuan yang diagnostik; atau menyediakan berukuran dari definisi, berukuran serta perubahan dalam konsep sebelumnya yg nir hanya luas. Bisnis apapun yg sedang anda lakukan, cepat atau lambat anda akan berhadapan dengan suatu masalah penggolongan.
Dengan menggunakan clustering, bisa diidentifikasi wilayah yg padat, pola-pola distribusi secara keseluruhan dan keterkaitan yang menarik antara atribut-atribut data. Dalam data mining usaha difokuskan dalam metode-metode inovasi buat cluster dalam basisdata berukuran besar secara efektif dan efisien. Banyaknya pendekatan clustering menyulitkan dalam menentukan ukuran kualitas yang universal. Tetapi, beberapa hal yang perlu diperhatikan merupakan input parameter yang tidak menyulitkan user, cluster output yg dapat dianalisa, dan skalabilitas terhadap penambahan berukuran dimensi dan record dataset. Secara garis akbar terdapat beberapa kategori prosedur pemecahan clustering yg dikenal yaitu:
- Metode Partisi, dimana pemakai harus menentukan jumlah k partisi yg diinginkan kemudian setiap data dites buat dimasukkan pada salah satu partisi sebagai akibatnya tidak terdapat data yg overlap serta satu data hanya memiliki satu cluster. Contohnya: prosedur pemecahan K-Means.
- Metode Hierarki, yg menghasilkan cluster yg bersarang merupakan suatu data bisa memiliki cluster lebih menurut satu. Metode ini terbagi sebagai 2 yaitu buttom-up yg menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yg memecah cluster akbar menjadi cluster yang lebih kecil. Kelemahan metode ini merupakan apabila keliru satu penggabungan/pemecahan dilakukan pada tempat yang keliru, nir akan didapatkan cluster yg optimal. Contohnya: Agglomerative (FINDIT, PROCLUS), Divisive Hierarchical Clustering (CLIQUE, MAFIA, ENCLUE).
Subspace Clustering
Subspace clustering merupakan suatu teknik clustering yang mencoba menemukan cluster pada dataset multidimensi menggunakan pemilihan dimensi yg paling relevan buat setiap cluster, lantaran dalam data multidimensi kemungkinan masih ada dimensi-dimensi yang nir relevan yg dapat membingungkan prosedur pemecahan clustering sehingga mampu mengaburkan cluster sebenarnya yg seharusnya bisa ditemukan.
Masalah lainnya, cluster dapat saja berada dalam subspace yang tidak selaras, dimana setiap subspace dibentuk menurut kombinasi dimensi yang bhineka. Akibatnya, semakin banyak dimensi yang dipakai, cluster akan sulit ditemukan. Subspace clustering secara otomatis akan menemukan unit-unit yg padat pada tiap subspace. Pada Gambar diatas, mengilustrasikan bagaimana peningkatan jumlah dimensi menyebabkan terpecahnya titik dalam dataset.
Cara yg telah dikenal buat mengatasi peningkatan jumlah dimensi merupakan menggunakan teknik reduksi dimensi atau feature selection. Dengan cara ini, dimensionalitas dataset dikurangi dengan menghilangkan beberapa dimensi, pendekatan ini membuahkan dalam hilangnya beberapa liputan dan sekaligus mengurangi efektifitas inovasi cluster yang mungkin melibatkan dimensi yg dihilangkan tersebut. Jika konsep ini diterapkan dalam masalah di Gambar di bawah, membuahkan hilangnya satu atau dua cluster yg seharusnya ada, lantaran masingmasing dimensi sebagai bagian dari satu buah cluster.
Misalnya ada suatu dataset tiga-dimensi yg memiliki dua cluster, satu cluster berada pada bidang (x, y) dan (x, z). Untuk dataset misalnya ini, metode reduksi dimensi dan feature selection nir mampu memperoleh pulang semua struktur cluster, lantaran setiap dimensi adalah keliru satu subspace cluster yg terbentuk. Dengan memakai metode subspace clustering, dua cluster yang terbentuk pada Gambar dua-tiga dibutuhkan dapat diperoleh lantaran teknik clustering ini dapat menemukan cluster menggunakan subspace yang berbeda dalam dataset. Berdasarkan taktik pencariannya algoritma susbsapce clustering dapat dikatagorikan ke pada dua kategori yaitu metode top down search iterative serta metode bottom up search grid based. Algoritma MAFIA termasuk prosedur pemecahan yg menggunakan taktik metode bottom up search grid based.
Lemma 1 (monotonicity):
Jika formasi titik S merupakan cluster pada ruang dimensi–k maka S juga adalah bagian suatu cluster pada ruang proyeksi dimensi-(k-1) Penjelasan:
Suatu cluster C yang berdimensi-k memasukkan titik yang jatuh di dalam campuran dense unit berdimensi-k yg masing-masing memiliki selectivity minimal. Proyeksi setiap unit u dalam C wajib mempunyai selectivity minimal agar bersifat padat. Karena semua unit dalam cluster terhubung, maka proyeksinya juga terhubung. Artinya, proyeksi titik pada cluster C yang berdimensi-k juga berada pada cluster yg sama pada proyeksi dimensi (k-1). Algoritma diproses level demi level. Pertama-tama, menentukan calon dense unit berdimensi 1 menggunakan melakukan pass over data. Setelah menentukan dense unit berdimensi-k-1, calon dense unit berdimensi-k ditentukan dengan menggunakan prosedur candidate generation. Algoritma berhenti jika nir ada dense unit yg dibangkitkan. Prosedur candidat generation menyatakan Dk-1 menjadi formasi dense unit berdimensi (k-1). Prosedur ini mengembalikan superset gugusan calon dense unit berdimensi-k yang akan pada bandingkan menggunakan density treshold apakah layak atau tidak dipakai menjadi penentu cluster.
Berbeda menggunakan association rule mining dan classification dimana kelas data sudah ditentukan sebelumnya, clustering melakukan penge-lompokan data tanpa dari kelas data eksklusif. Bahkan clustering bisa dipakai buat menaruh label pada kelas data yang belum diketahui itu. Karena itu clustering seringkali digolongkan menjadi metode unsupervised learning. Prinsip berdasarkan clustering adalah memaksimalkan kecenderungan antar anggota satu kelas serta meminimumkan kesamaan antar kelas/cluster.
Clustering bisa dilakukan dalam data yan mempunyai beberapa atribut yang dipetakan sebagai ruang multidimensi. Banyak algoritma clustering memerlukan fungsi jeda buat mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori prosedur pemecahan clustering yg banyak dikenal merupakan metode partisi dimana pemakai harus memilih jumlah k partisi yg diinginkan lalu setiap data dites buat dimasukkan dalam keliru satu partisi, metode lain yg sudah usang dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yg menggabungkan cluster mini sebagai cluster lebih akbar serta top-down yang memecah cluster akbar menjadi cluster yang lebih mini .
Kelemahan 3 metode ini merupakan apabila apabila salah satu penggabungan/pemecahan dilakukan dalam loka yg keliru, nir dapat didapatkan cluster yg optimal. Pendekatan yg poly diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yg dilakukan sang Chameleon. Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah data yg ada pada sekitar suatu data yang sudah teridentifikasi pada suatu cluster. Jika jumlah data pada jangkauan tertentu lebih besar berdasarkan nilai ambang batas, data-data tsb dimasukkan pada cluster. Kelebihan metode ini merupakan bentuk cluster yg lebih fleksibel. Algoritma yang populer adalah DBSCAN.
Cluster digunakan buat menerima high availability dan scalability.
Pada high available cluster, bisa digunakan failover database cluster, dimana hanya terdapat satu node yang aktif melayani user, sedangkan node lainnya standby. Storage yg digunakan mempunyai koneksi ke setiap node dalam cluster, sehingga jika primary node meninggal, database engine, listener process, serta logical host ip address akan dijalankan dalam secondary node tanpa perlu menunggu operating system boot, sehingga downtime bisa diminimalisasi. High availability mempunyai standard uptime 99.999 persen, atau hanya boleh meninggal selama lima mnt dalam setahun. Beberapa contoh aplikasi yg dapat digunakan buat membuat HA cluster merupakan Sun Cluster dan Veritas Cluster.
Pada scalable cluster, digunakan produk Oracle RAC, dimana setiap node aktif melayani user, sehingga diperoleh performa yg semakin baik menggunakan menggunakan lebih banyak node. Sun cluster bisa dipakai hingga 16 node, sedangkan Veritas Storage Foundation for Oracle RAC sanggup sampai 32 node. Apabila terdapat node yg meninggal, tentu akan menurunkan performa, tetapi nir terjadi down time. Pada scalable cluster, semua node bisa terhubung secara pribadi ke shared storage, namun bisa juga tidak memiliki koneksi fisik ke storage, melainkan melalui private cluster transport.
Teknologi Cluster
Kebutuhan akan komunikasi data dewasa ini sangat krusial seiring menggunakan kemajuan dan perkembangan teknologi komunikasi data yang semakin sophisticated. Hal yang sangat penting bagi Teknologi komunikasi data merupakan database menjadi penyedia data. Aplikasi-aplikasi database dituntut buat sanggup melayani banyak akses data. Hal ini bisa dimaklumi karena database server sudah di rancang buat dapat melayani beragam jenis akses data. Saat ini aplikasi databse semakin berkembang, baik dalam hal kegunaan, berukuran, juga kompleksitas. Hal ini secara pribadi akan berdampak dalam server database menjadi penyedia layanan terhadap akses databse, konsekuensi menurut semua itu merupakan beban databse server akan semakin bertambah berat serta menyebabkan kurang optimalnya kinerja dari server tadi. Oleh sebab itu, diperlukan perancangan yang sempurna dan handal pada membangun databse server. Solusi mudah serta tepat yang dapat diterapkan untuk mengatasi perseteruan diatas antara lain dengan penerapan Teknologi Cluster.
Banyak sekali manfaat yang diperoleh dari teknologi cluster diantaranya menaikkan ketersediaan dan performansi system. Pada server database yg besar pada pelayanannya nir menggunakan server databse tunggal, tetapi dilayani sang sekelompok server database, beberapa buah server databse dihubungkan menjadi satu dalam lingkungan yg sangat kompleks. Arsitektur yang dipakai harus mengklaim bahwa sistem bekerja dengan baik, setiap server mengerjakan beban semestinya, serta nir terdapat bottleneck. Berbagai jenis server diikat menjadi satu untuk berakibat suatu pelayanan tunggal (one stop shopping). Database tercluster tadi bisa dianggap personal desktop atau database tunggal bagi penggunanya.
Database dalam masa kini ini dituntut supaya bisa berjalan dengan cepat dan memiliki kehandalan yg tinggi, Dengan clustering ini database yang disimpan dapat terbagi ke beberapa mesin dan dalam waktu aplikasi berjalan, semua mesin yang menyimpan data tersebut dianggap sebagai satu kesatuan. Metode clustering misalnya ini sangat baik buat load balancing serta penanganan system failure lantaran kemampuan tiap mesin akan digunakan serta jika terdapat keliru satu mesin yang mengalami failure maka sistem tidak akan eksklusif terganggu lantaran mesin lain akan tetap berfungsi. Kemampuan clustering memungkinkan sebuah database permanen hayati dalam waktu yang usang. MySQL berani menjanjikan nomor 99.999 % ketersediaan databasenya. Sederhananya, pada satu tahun kira-kira hanya lima mnt ketika database itu tidak hidup.
MySQL Cluster
MySQL Cluster memakai mesin penyimpanan cluster NDB baru yg bisa menjalankan beberapa MySQL Server di pada sebuah cluster. Mesin penyimpanan cluster NDB tersedia pada dalam BitKepper menurut MySQL release 4.1.dua serta pada dalam binary releases berdasarkan MySQL-Max 4.1.3. System operasi yang didukung adalah Linux, Mac OS X, serta Solaris, pihak MySQL sedang menciptakan/menyebarkan supaya cluster NDBdapat berjalan pada semua system operasi yg didukung sang MySQL termasuk Windows.
Overview
MySQL Cluster adalah sebuah teknologi baru buat memungkinkan clustering di dalam memory database pada sebuah sistem share-nothing. Arsitektur share-nothing mengijinkan sistem bisa bekerja dengan hardware/perangkat keras yang sangat murah, dan nir membutuhkan perangkat keras dan lunak dengan spesifikasi spesifik. Arsitektur tadi jua handal karena masing-masing komponen mempunyai memory serta disk tersendiri. MySQL Cluster menggabungkan MySQL Server biasa menggunakan sebuah mesin penyimpanan in-memory tercluster yg dinamakan NDB. NDB berarti bagian berdasarkan suatu rangkaian yang dikhususkan sebagai mesin penyimpanan, sedangkan MySQL Cluster diartikan sebagai kombinasi atau campuran berdasarkan MySQL dan mesin penyimpanan yg baru tadi.
Sebuah MySQL Cluster terdiri dari sekumpulan personal komputer , masing-masing menjalankan sejumlah proses meliputi beberapa MySQL server, node-node penyimpanan buat cluster NDB, server-server manajemen dan program-acara pengakses data yg spesifik. Semua acara-acara tadi bekerja bersama-sama buat menciptakan MySQL Cluster. Ketika data disimpan pada pada mesin penyimpan media NDB cluster, tabel-tabel disimpan didalam node-node penyimpanan pada NDB Cluster. Tabel-tabel seperti itu bisa diakses secara eksklusif menurut seluruh MySQL server yg lain di dalam cluster tersebut. Dengan cara demikian, sebuah pelaksanaan daftargaji menyimpan data pada pada sebuah cluster, apabila sebuah pelaksanaan mengupdate/memperbaharui gaji seseorang karyawan, semua MySQL server yg lain yg meminta data ini dapat melihat perubahannya dengan seketika.
Data yang disimpan pada dalam node-node penyimpanan pada MySQL Cluster bisa di mirror (dicerminkan), cluster tadi bisa menangani kegagalan berdasarkan node-node penyimpanan individual menggunakan nir terdapat efek lain berdasarkan sejumlah transaksi dilarang lantaran kegagalan proses transaksi. Sejak pelaksanaan buat proses-proses transaksi diharapkan mampu menangani kegagalan transaksi, ini seluruh tidak seharusnya menjadi sumber konflik. Dengan memperkenalkan MySQL Cluster dalam dunia open source, MySQL menciptakan manajemen data cluster menggunakan ketersediaan yg tinggi, perfomance yg tinggi serta skalabilitas ketersediaan buat siapa saja yang memerlukannya.
Dasar konsep-konsep MySQL Cluster
NDB adalah sebuah mesin penyimpanan memory yg memperlihatkan ketersediaan yang tinngi dan fitur-fitur persistensi data. Mesin penyimpanan NDB dapat diatur dengan sebuah bidang failover serta pilihan-pilhan load-balancing, namun untuk memulai paling mudah dengan mesin penyimpanan pada level cluster. Mesin penyimpanan NDB dalam MySQL Cluster berisi sebuah deretan lengkap dari data, bergantung hanya dalam data lainnya di dalam cluster itu sendiri. Sekarang akan diuraikan bagaimana mengatur sebuah MySQL Cluster yang terdiri dari sebuah mesin penyimpanan NDB serta beberapa MySQL server. Sebagian berdasarkan MySQL Cluster dikonfigurasi nir tergantung/bebas dari server-server MySQL yang lain. Di dalam MySQL Cluster, masing-masing bagian dari cluster dianggap menjadi sebuah node.
Analisis Cluster (Lanjutan)
Clustering serta segmentasi sebenarnya mempartisi database, karena itu setiap partisi atau class adalah sama menurut kriteria atau metrik eksklusif. Jika pengukuran kesamaan tersedia, maka terdapat sejumlah teknik buat menciptakan cluster. Kebanyakan aplikasi2 data mining memakai clusteing menurut similarity (kecenderungan), misalnya segmentasi basis klien. Clustering dari optimasi menurut sekumpulan fungsi-fungsi digunakan dalam analisis data, contohnya waktu mensetting tarif iuran pertanggungan klien bisa disegmentasi menurut sejumlah parameter. Contoh aplikasi :
- Perangkat ‘stand-alone’ : explore data distribution
- Langkah preprocessing buat prosedur pemecahan lain
- Pengenalan pola, analisis data spasial, sosialisasi citra, market research, WWW, …
- clustering dokumen
- clustering data log web buat mendapatkan group dengan pola akses yg sama
Penggelompokkan data ke cluster
- Data yang sama satu sama lain berada pada cluster yg sama
- Yang tidak sama berada pada cluster lain
- ‘Unsupervised learning’: klas yang belum ditentukan
Clustering Yang Baik
Intraclass similarity (Kesamaan pada pada klas) yg tinggi serta interclass similarity (kesamaan antar klas) yang rendah bergantung pada pengukuran kesamaan
Kemampuan buat menerima beberapa atau seluruh pola yg tersembunyi
Kebutuhan Clustering
Scalability : Kemampuan mengerjakan atribut2 berdasarkan aneka macam tipe
Penemuan clusters dengan bentuk yang tidak tentu
Kebutuhan minimal buat pengetahuan domain buat menentukan parameter input
Dapat menerima noise dan outlier
Tidak mengindahkan susunan record dari input
Dimensi yang tinggi
Menyatu dengan batasan yang dispesifikasikan oleh user
Interpretability and usability
Tipe-tipe Data dalam Clustering
Variabel berskala interval
Variabel biner
Variabel nominal, ordinal dan rasio
Variable berdasarkan banyak sekali tipe variable
Kategori Pendekatan Clustering
Algoritma Partisi
Mempartisi objek2 ke dalam k cluster
Realokasi objek2 secara iteratif buat memperbaiki clustering
Algoritma Hirarkis
- Agglomerative: setiap objek adalah cluster, adonan dari cluster-cluster membangun cluster yg besar
- Divisive: seluruh objek berada pada suatu cluster, pembagian cluster tersebut membangun cluster2 yang kecil
Metode berbasis densitas
- Berbasis koneksitas dan fungsi densitas
- Noise disaring, lalu temukan cluster pada bentuk sembarang
- Metode berbasis grid
- Kuantisasi ruang objek ke dalam struktur grid
Berbasis Model
- Gunakan model buat menemukan keadaan data yang baik.
Comments
Post a Comment