Pengertian Dan Fungsi Cluster Database
Clustering adalah proses mengelompokkan objek menurut warta yang diperoleh dari data yang menyebutkan hubungan antar objek menggunakan prinsip buat memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Tujuannya menemukan cluster yang berkualitas pada saat yg layak. Clustering dalam data mining bermanfaat buat menemukan pola distribusi di pada sebuah data set yg bermanfaat buat proses analisa data. Kesamaan objek biasanya diperoleh menurut kedekatan nilai-nilai atribut yg menjelaskan objek-objek data, sedangkan objek-objek data umumnya direpresentasikan menjadi sebuah titik dalam ruang multidimensi.
Clustering merupakan suatu indera buat analisa data, yang memecahkan perseteruan penggolongan.
Obyek nya adalah buat kasus pendistribusian (orang-orang, objek, insiden dll.) ke dalam grup, sedemikian sebagai akibatnya derajat taraf keterhubungan antar anggota cluster yang sama adalah bertenaga dan lemah antar anggota berdasarkan cluster yg tidak sinkron. Dengan Cara ini masing-masing cluster menguraikan, dalam kaitan dengan formasi/koleksi data, class dimana milik anggota-anggotanya.
Cluster : Data item dikelompokkan dari pilihan konsumen atau interaksi logis. Sebagai model, data dapat dimaknakan untuk mengidentifikasi segmen pasar atau ketertarikan konsumen.
Hasil menurut analisis cluster mungkin berperan buat definisi menurut suatu rencana penggolongan yg formal, seperti suatu taksonomi buat hewan yang terkait, serangga atau tanaman ; atau menyarankan model statistik yg menguraikan populasi; atau menandai anggaran buat menugaskan perkara yang baru ke group buat identifikasi dan tujuan yg diagnostik; atau menyediakan berukuran dari definisi, berukuran serta perubahan pada konsep sebelumnya yang nir hanya luas. Bisnis apapun yg sedang anda lakukan, cepat atau lambat anda akan berhadapan menggunakan suatu perkara penggolongan.
Dengan menggunakan clustering, bisa diidentifikasi wilayah yang padat, pola-pola distribusi secara keseluruhan serta keterkaitan yang menarik antara atribut-atribut data. Dalam data mining usaha difokuskan dalam metode-metode penemuan buat cluster dalam basisdata ukuran besar secara efektif serta efisien. Banyaknya pendekatan clustering menyulitkan pada memilih ukuran kualitas yang universal. Tetapi, beberapa hal yg perlu diperhatikan adalah input parameter yang tidak menyulitkan user, cluster hasil yang dapat dianalisa, dan skalabilitas terhadap penambahan berukuran dimensi serta record dataset. Secara garis akbar ada beberapa kategori prosedur pemecahan clustering yang dikenal yaitu:
- Metode Partisi, dimana pemakai harus memilih jumlah k partisi yg diinginkan lalu setiap data dites buat dimasukkan pada salah satu partisi sebagai akibatnya tidak ada data yang overlap dan satu data hanya memiliki satu cluster. Contohnya: algoritma K-Means.
- Metode Hierarki, yang menghasilkan cluster yg bersarang adalah suatu data dapat mempunyai cluster lebih dari satu. Metode ini terbagi menjadi dua yaitu buttom-up yg menggabungkan cluster kecil sebagai cluster lebih akbar dan top-down yang memecah cluster besar sebagai cluster yang lebih mini . Kelemahan metode ini adalah bila keliru satu penggabungan/pemecahan dilakukan dalam tempat yg galat, nir akan dihasilkan cluster yang optimal. Contohnya: Agglomerative (FINDIT, PROCLUS), Divisive Hierarchical Clustering (CLIQUE, MAFIA, ENCLUE).
Subspace Clustering
Subspace clustering merupakan suatu teknik clustering yang mencoba menemukan cluster dalam dataset multidimensi menggunakan pemilihan dimensi yang paling relevan buat setiap cluster, karena dalam data multidimensi kemungkinan terdapat dimensi-dimensi yang tidak relevan yang dapat membingungkan algoritma clustering sebagai akibatnya mampu mengaburkan cluster sebenarnya yang seharusnya dapat ditemukan.
Masalah lainnya, cluster bisa saja berada dalam subspace yang tidak selaras, dimana setiap subspace dibuat menurut kombinasi dimensi yang bhineka. Akibatnya, semakin poly dimensi yg digunakan, cluster akan sulit ditemukan. Subspace clustering secara otomatis akan menemukan unit-unit yang padat dalam tiap subspace. Pada Gambar diatas, mengilustrasikan bagaimana peningkatan jumlah dimensi menyebabkan terpecahnya titik dalam dataset.
Cara yang sudah dikenal buat mengatasi peningkatan jumlah dimensi merupakan menggunakan teknik reduksi dimensi atau feature selection. Dengan cara ini, dimensionalitas dataset dikurangi menggunakan menghilangkan beberapa dimensi, pendekatan ini menjadikan dalam hilangnya beberapa liputan serta sekaligus mengurangi efektifitas penemuan cluster yg mungkin melibatkan dimensi yang dihilangkan tersebut. Apabila konsep ini diterapkan dalam masalah di Gambar di bawah, membuahkan hilangnya satu atau dua cluster yang seharusnya ada, lantaran masingmasing dimensi menjadi bagian berdasarkan satu butir cluster.
Misalnya terdapat suatu dataset tiga-dimensi yg memiliki 2 cluster, satu cluster berada di bidang (x, y) serta (x, z). Untuk dataset seperti ini, metode reduksi dimensi serta feature selection tidak mampu memperoleh balik seluruh struktur cluster, karena setiap dimensi adalah salah satu subspace cluster yang terbentuk. Dengan memakai metode subspace clustering, 2 cluster yg terbentuk pada Gambar dua-3 dibutuhkan bisa diperoleh lantaran teknik clustering ini bisa menemukan cluster dengan subspace yg tidak sama dalam dataset. Berdasarkan taktik pencariannya prosedur pemecahan susbsapce clustering dapat dikatagorikan ke dalam 2 kategori yaitu metode top down search iterative dan metode bottom up search grid based. Algoritma MAFIA termasuk prosedur pemecahan yg memakai taktik metode bottom up search grid based.
Lemma 1 (monotonicity):
Jika gugusan titik S merupakan cluster pada ruang dimensi–k maka S pula merupakan bagian suatu cluster pada ruang proyeksi dimensi-(k-1) Penjelasan:
Suatu cluster C yang berdimensi-k memasukkan titik yang jatuh pada pada adonan dense unit berdimensi-k yang masing-masing memiliki selectivity minimal. Proyeksi setiap unit u dalam C wajib memiliki selectivity minimal agar bersifat padat. Lantaran seluruh unit pada cluster terhubung, maka proyeksinya pula terhubung. Artinya, proyeksi titik pada cluster C yang berdimensi-k juga berada pada cluster yang sama dalam proyeksi dimensi (k-1). Algoritma diproses level demi level. Pertama-tama, memilih calon dense unit berdimensi 1 dengan melakukan pass over data. Setelah menentukan dense unit berdimensi-k-1, calon dense unit berdimensi-k ditentukan dengan memakai mekanisme candidate generation. Algoritma berhenti jika tidak terdapat dense unit yang dibangkitkan. Prosedur candidat generation menyatakan Dk-1 menjadi kumpulan dense unit berdimensi (k-1). Prosedur ini mengembalikan superset gugusan calon dense unit berdimensi-k yg akan pada bandingkan menggunakan density treshold apakah layak atau nir digunakan sebagai penentu cluster.
Berbeda dengan association rule mining dan classification dimana kelas data sudah ditentukan sebelumnya, clustering melakukan penge-lompokan data tanpa menurut kelas data eksklusif. Bahkan clustering bisa digunakan buat memberikan label pada kelas data yang belum diketahui itu. Lantaran itu clustering tak jarang digolongkan sebagai metode unsupervised learning. Prinsip berdasarkan clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster.
Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Banyak prosedur pemecahan clustering memerlukan fungsi jeda buat mengukur kemiripan antar data, dibutuhkan pula metode buat normalisasi bermacam atribut yang dimiliki data. Beberapa kategori algoritma clustering yang banyak dikenal merupakan metode partisi dimana pemakai harus memilih jumlah k partisi yg diinginkan lalu setiap data dites buat dimasukkan dalam keliru satu partisi, metode lain yg telah usang dikenal merupakan metode hierarki yg terbagi dua lagi : bottom-up yang menggabungkan cluster kecil sebagai cluster lebih akbar dan top-down yang memecah cluster akbar sebagai cluster yg lebih mini .
Kelemahan tiga metode ini merupakan jika jika salah satu penggabungan/pemecahan dilakukan pada tempat yg keliru, tidak bisa didapatkan cluster yg optimal. Pendekatan yg banyak diambil merupakan menggabungkan metode hierarki dengan metode clustering lainnya seperti yang dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan pula metode berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi pada suatu cluster. Jika jumlah data pada jangkauan tertentu lebih besar berdasarkan nilai ambang batas, data-data tsb dimasukkan dalam cluster. Kelebihan metode ini merupakan bentuk cluster yg lebih fleksibel. Algoritma yang terkenal merupakan DBSCAN.
Cluster dipakai buat mendapatkan high availability dan scalability.
Pada high available cluster, bisa dipakai failover database cluster, dimana hanya ada satu node yang aktif melayani user, sedangkan node lainnya standby. Storage yang dipakai mempunyai koneksi ke setiap node dalam cluster, sehingga jika primary node mangkat , database engine, listener process, serta logical host ip address akan dijalankan dalam secondary node tanpa perlu menunggu operating system boot, sehingga downtime dapat diminimalisasi. High availability mempunyai standard uptime 99.999 persen, atau hanya boleh mati selama lima menit dalam setahun. Beberapa model aplikasi yg bisa dipakai buat menciptakan HA cluster adalah Sun Cluster dan Veritas Cluster.
Pada scalable cluster, digunakan produk Oracle RAC, dimana setiap node aktif melayani user, sebagai akibatnya diperoleh performa yg semakin baik dengan memakai lebih poly node. Sun cluster dapat dipakai hingga 16 node, sedangkan Veritas Storage Foundation for Oracle RAC mampu sampai 32 node. Apabila ada node yg mangkat , tentu akan menurunkan performa, tetapi nir terjadi down time. Pada scalable cluster, seluruh node dapat terhubung secara pribadi ke shared storage, namun dapat pula nir mempunyai koneksi fisik ke storage, melainkan melalui private cluster transport.
Teknologi Cluster
Kebutuhan akan komunikasi data dewasa ini sangat krusial seiring menggunakan kemajuan dan perkembangan teknologi komunikasi data yang semakin canggih. Hal yang sangat krusial bagi Teknologi komunikasi data adalah database sebagai penyedia data. Aplikasi-aplikasi database dituntut buat mampu melayani poly akses data. Hal ini dapat dimaklumi lantaran database server sudah di rancang buat bisa melayani beragam jenis akses data. Saat ini aplikasi databse semakin berkembang, baik pada hal kegunaan, berukuran, maupun kompleksitas. Hal ini secara eksklusif akan berdampak dalam server database sebagai penyedia layanan terhadap akses databse, konsekuensi dari semua itu adalah beban databse server akan semakin bertambah berat serta menyebabkan kurang optimalnya kinerja dari server tadi. Oleh karena itu, dibutuhkan perancangan yang tepat serta handal dalam menciptakan databse server. Solusi mudah serta tepat yg dapat diterapkan buat mengatasi pertarungan diatas antara lain dengan penerapan Teknologi Cluster.
Banyak sekali manfaat yang diperoleh menurut teknologi cluster antara lain menaikkan ketersediaan dan performansi system. Pada server database yang besar dalam pelayanannya tidak memakai server databse tunggal, tetapi dilayani oleh sekelompok server database, beberapa butir server databse dihubungkan sebagai satu pada lingkungan yang sangat kompleks. Arsitektur yg digunakan harus menjamin bahwa sistem bekerja menggunakan baik, setiap server mengerjakan beban semestinya, dan nir ada bottleneck. Berbagai jenis server diikat sebagai satu buat berakibat suatu pelayanan tunggal (one stop shopping). Database tercluster tersebut dapat dipercaya personal desktop atau database tunggal bagi penggunanya.
Database dalam masa kini ini dituntut agar bisa berjalan dengan cepat dan memiliki kehandalan yg tinggi, Dengan clustering ini database yg disimpan bisa terbagi ke beberapa mesin serta dalam ketika aplikasi berjalan, semua mesin yang menyimpan data tersebut dianggap sebagai satu kesatuan. Metode clustering seperti ini sangat baik buat load balancing serta penanganan system failure lantaran kemampuan tiap mesin akan dipakai dan apabila terdapat galat satu mesin yang mengalami failure maka sistem tidak akan langsung terganggu lantaran mesin lain akan permanen berfungsi. Kemampuan clustering memungkinkan sebuah database permanen hidup dalam waktu yg usang. MySQL berani menjanjikan angka 99.999 persen ketersediaan databasenya. Sederhananya, pada satu tahun kira-kira hanya lima mnt ketika database itu nir hayati.
MySQL Cluster
MySQL Cluster menggunakan mesin penyimpanan cluster NDB baru yg sanggup menjalankan beberapa MySQL Server pada dalam sebuah cluster. Mesin penyimpanan cluster NDB tersedia pada pada BitKepper menurut MySQL release 4.1.2 serta pada pada binary releases berdasarkan MySQL-Max 4.1.3. System operasi yang didukung adalah Linux, Mac OS X, serta Solaris, pihak MySQL sedang menciptakan/menyebarkan agar cluster NDBdapat berjalan dalam seluruh system operasi yang didukung sang MySQL termasuk Windows.
Overview
MySQL Cluster adalah sebuah teknologi baru buat memungkinkan clustering pada pada memory database pada sebuah sistem share-nothing. Arsitektur share-nothing mengijinkan sistem dapat bekerja menggunakan hardware/perangkat keras yang sangat murah, dan tidak membutuhkan perangkat keras dan lunak dengan spesifikasi spesifik. Arsitektur tadi jua handal lantaran masing-masing komponen memiliki memory serta disk tersendiri. MySQL Cluster menggabungkan MySQL Server biasa menggunakan sebuah mesin penyimpanan in-memory tercluster yang dinamakan NDB. NDB berarti bagian berdasarkan suatu rangkaian yg dikhususkan sebagai mesin penyimpanan, sedangkan MySQL Cluster diartikan sebagai kombinasi atau gabungan dari MySQL dan mesin penyimpanan yg baru tersebut.
Sebuah MySQL Cluster terdiri menurut sekumpulan komputer, masing-masing menjalankan sejumlah proses mencakup beberapa MySQL server, node-node penyimpanan buat cluster NDB, server-server manajemen serta program-program pengakses data yang spesifik. Semua acara-program tersebut bekerja beserta-sama buat membangun MySQL Cluster. Ketika data disimpan di dalam mesin penyimpan media NDB cluster, tabel-tabel disimpan didalam node-node penyimpanan dalam NDB Cluster. Tabel-tabel seperti itu dapat diakses secara eksklusif menurut semua MySQL server yang lain pada dalam cluster tadi. Dengan cara demikian, sebuah pelaksanaan daftargaji menyimpan data di pada sebuah cluster, jika sebuah aplikasi mengupdate/memperbaharui gaji seorang karyawan, semua MySQL server yg lain yang meminta data ini bisa melihat perubahannya dengan seketika.
Data yang disimpan di dalam node-node penyimpanan pada MySQL Cluster dapat pada mirror (dicerminkan), cluster tadi dapat menangani kegagalan dari node-node penyimpanan individual dengan nir terdapat dampak lain berdasarkan sejumlah transaksi tidak boleh lantaran kegagalan proses transaksi. Sejak aplikasi buat proses-proses transaksi diharapkan bisa menangani kegagalan transaksi, ini seluruh tidak seharusnya sebagai asal konflik. Dengan memperkenalkan MySQL Cluster pada dunia open source, MySQL membuat manajemen data cluster dengan ketersediaan yg tinggi, perfomance yang tinggi serta skalabilitas ketersediaan buat siapa saja yang memerlukannya.
Dasar konsep-konsep MySQL Cluster
NDB merupakan sebuah mesin penyimpanan memory yg memberikan ketersediaan yang tinngi dan fitur-fitur persistensi data. Mesin penyimpanan NDB bisa diatur dengan sebuah bidang failover dan pilihan-pilhan load-balancing, tetapi buat memulai paling mudah menggunakan mesin penyimpanan dalam level cluster. Mesin penyimpanan NDB dalam MySQL Cluster berisi sebuah gugusan lengkap menurut data, bergantung hanya dalam data lainnya pada dalam cluster itu sendiri. Sekarang akan diuraikan bagaimana mengatur sebuah MySQL Cluster yang terdiri berdasarkan sebuah mesin penyimpanan NDB dan beberapa MySQL server. Sebagian menurut MySQL Cluster dikonfigurasi tidak tergantung/bebas menurut server-server MySQL yang lain. Di dalam MySQL Cluster, masing-masing bagian dari cluster dipercaya menjadi sebuah node.
Analisis Cluster (Lanjutan)
Clustering dan segmentasi sebenarnya mempartisi database, karenanya setiap partisi atau group adalah sama berdasarkan kriteria atau metrik eksklusif. Apabila pengukuran kecenderungan tersedia, maka masih ada sejumlah teknik buat membangun cluster. Kebanyakan aplikasi2 data mining menggunakan clusteing dari similarity (kecenderungan), contohnya segmentasi basis klien. Clustering dari optimasi berdasarkan sekumpulan fungsi-fungsi digunakan pada analisis data, misalnya saat mensetting tarif iuran pertanggungan klien bisa disegmentasi dari sejumlah parameter. Contoh pelaksanaan :
- Perangkat ‘stand-alone’ : explore data distribution
- Langkah preprocessing buat prosedur pemecahan lain
- Pengenalan pola, analisis data spasial, pengenalan gambaran, market research, WWW, …
- clustering dokumen
- clustering data log web buat menerima group menggunakan pola akses yg sama
Penggelompokkan data ke cluster
- Data yg sama satu sama lain berada pada cluster yang sama
- Yang nir sama berada dalam cluster lain
- ‘Unsupervised learning’: klas yg belum ditentukan
Clustering Yang Baik
Intraclass similarity (Kesamaan pada dalam klas) yg tinggi dan interclass similarity (kesamaan antar klas) yg rendah bergantung dalam pengukuran kesamaan
Kemampuan buat mendapatkan beberapa atau semua pola yg tersembunyi
Kebutuhan Clustering
Scalability : Kemampuan mengerjakan atribut2 berdasarkan banyak sekali tipe
Penemuan clusters dengan bentuk yg tidak tentu
Kebutuhan minimal buat pengetahuan domain buat memilih parameter input
Dapat mendapat noise dan outlier
Tidak mengindahkan susunan record menurut input
Dimensi yg tinggi
Menyatu dengan batasan yang dispesifikasikan sang user
Interpretability and usability
Tipe-tipe Data dalam Clustering
Variabel berskala interval
Variabel biner
Variabel nominal, ordinal serta rasio
Variable berdasarkan aneka macam tipe variable
Kategori Pendekatan Clustering
Algoritma Partisi
Mempartisi objek2 ke dalam k cluster
Realokasi objek2 secara iteratif buat memperbaiki clustering
Algoritma Hirarkis
- Agglomerative: setiap objek merupakan cluster, adonan berdasarkan cluster-cluster membangun cluster yg besar
- Divisive: semua objek berada pada suatu cluster, pembagian cluster tersebut membentuk cluster2 yg kecil
Metode berbasis densitas
- Berbasis koneksitas serta fungsi densitas
- Noise disaring, kemudian temukan cluster pada bentuk sembarang
- Metode berbasis grid
- Kuantisasi ruang objek ke dalam struktur grid
Berbasis Model
- Gunakan model buat menemukan keadaan data yg baik.