CARA MEMBUAT GRAFIK CHART DI MICROSOFT WORD DAN EXCEL

Cara membuat grafik atau chart di microsoft word dan excel - Berikut ini adalah tutorial cara membuat grafik dengan menggunakan microsoft word serta microsoft excel. Fungsi grafik itu sendiri adalah sebagai objek visualisasi data traffic (naik turun) sebuah table data guna buat menganalisa statistik sebuah data. Grafik pula bisa digunakan menjadi laporan keuangan atau mempresentasikan data keuangan perusahaan, produksi dll. Bagaimana cara membuat grafik dengan memakai microsoft word serta microsoft excel? Yuk ikuti tutorial komputer microsoft word serta excel "cara menciptakan grafik (chart) di microsoft word serta excel" ini dia.
Cara Membuat Grafik Chart pada Microsoft Word serta Excel
  1. Nyalakan laptop atau komputer anda
  2. Klik start > microsoft office lalu pilih microsoft word
  3. Pilih tab insert dalam pilihan menu atas microsoft word, kemudian
  4. Pilih Chart serta pilih jenis (template) grafik misal grafik batang (column)
  5. Kemudian klik "Ok" buat membuat / mengedit grafik
Lihat contoh gambar berikut adalah.
Setelah meng-klik tombol "Ok" maka secara otomatis personal komputer anda akan membuka 2 ventilasi (window) yaitu microsoft word serta microsoft excel seperti terlihat pada gambar berikut adalah.
Selanjut-nya ubah data input atau data grafik chart yang terdapat dalam microsoft excel (lihat gambar sebelah kanan) sesuai dengan keperluan grafik anda maka tampilan grafik yg terdapat pada microsoft word (lihat grafik btg pada gambar sebelah kiri) akan berubah secara otomatis mengikuti data yg anda tambahkan pada sebelah kanan "microsoft excel", misal grafik produksi, stok serta pengiriman produk perusahaan.
  • Ubah Category 1,dua,3 serta 4 dalam microsoft excel menjadi bulan (Jan, feb, mart serta april)
  • Ubah Series 1,2 dan tiga sebagai (Produksi, Pemgiriman dan Stok)
Lihat model gambar dibawah ini
Sesuaikan juga jumlah data yang ada misal grafik produksi = 100%, Pengiriman 75% dan Stok barang 25% Sehingga menjadi seperti grafik chart ini dia sebagai output dari tutorial "Cara membuat grafik chart pada microsoft word dan excel".
Nah, kini engkau sudah berhasil menciptakan grafik dengan memakai microsoft word dan excel, agar pembahasan ini tuntas serta kamu kuasai sepenuh nya, bagaimana apabila kita lanjutkan sedikit lagi tutorial cara menciptakan grafik chart pada microsoft word serta excel ini yaitu membuat tittle atau judul pada grafik microsoft word dan Format Axis grafik.

Menambahkan Judul Grafik dalam Microsoft Word

  1. Masih pada Grafik (Chard) Microsoft word
  2. Klik "Desgn" lalu pilih Chart Layout, dan
  3. Pilih layout 1 atau layout 2 buat menambahkan title (Judul) dalam grafik chart
  4. Edit atau sesuaikan judul "chart title" dengan judul grafik anda
Lihat model gambar dibawah ini
Edit format axis grafik chart dalam microsoft word
  • Select atau klik kiri mouse pada format axis
  • Kemudian pilih format axis > Number (currency, accounting, date, special atau text)
Example:
Format axis pada gambar diatas adalah format axis buat grafik chart accounting, nilai uang "usd" bisa diubah sesuai menggunakan mata uang yg anda pakai. Nah, demikianlah penerangan aku mengenai "Cara membuat grafik chart pada microsoft word dan excel" lebih dan kurang mohon dimaafkan, saya harap ini dapat berguna dan menambah pengetahuan kita mengenai trik-trik microsoft office (word dan excel).

Jangan lupa follow situs kami dan share artikel cara membuat grafik chart di microsoft word dan excel ini bila menurut anda ini sangat membantu anda pada memakai microsoft office dan excel. Atau abaikan saja kami bila tidak membantu ☺...gx papa :( !

CARA MEMBUAT GRAFIK 3D DI MICROSOFT EXCEL

Gambar diambil dari Microsoft Store
Chart 3D merupakan aplikasi Windows 10 yang memungkinkan Anda membuat grafik bar, line charts, scatter plot dan geospatial plots pada bentuk 3D. Aplikasi ini dikembangkan oleh Microsoft India Development Center yang terletak pada Hyderabad, India. Chart 3D memungkinkan Anda memvisualisasikan data MS Excel serta CSV dalam grafik 3D interaktif. Anda dapat memperbesar dengan roda mouse dan memutarnya dalam bidang 3D buat melihat berdasarkan banyak sekali sudut. Anda jua bisa mengubah kolom grafik buat memvisualisasikan statistik yang tidak sinkron menurut deretan data. Aplikasi ini jua memungkinkan Anda menangkap grafik sebagai gambar PNG yang bisa Anda pakai dalam presentasi.
Cara membuat grafik 3D dengan Charts 3D
Grafik 3D mengambil contoh menurut 3D serta MR (Mix Reality) buat menciptakan grafik 3D yang menarik. UI dari aplikasi ini memiliki banyak sekali alat yang tersebar di semua antarmuka menggunakan area visualisasi akbar di pusat. Di sisi kiri, memiliki banyak sekali opsi terkait file buat membuat proyek, membuka proyek yg disimpan, mengimpor data, dan mengekspor visualisasi. Opsi ekspor visualisasi memungkinkan Anda mengekspor grafik Anda sebagai arsip .bin. Di sisi kanan, mempunyai indera buat mengganti, memanipulasi, serta memfilter visualisasi. Di sisi kiri bawah, memperlihatkan file data spreadsheet / CSV Anda waktu ini. Dan, pada sisi atas, ada opsi untuk beralih mode 2D dan 3D dan memvisualisasikan aneka macam plan secara individual. Ada juga ikon kamera dan ikon mikrofon. Dengan ikon kamera, Anda bisa menangkap visualisasi saat ini dan menyimpannya sebagai file PNG. Dan, mic merupakan buat perintah bunyi yg bisa Anda gunakan buat memanipulasi serta berinteraksi dengan visualisasi menggunakan perintah suara sederhana.
Berikut adalah jenis visualisasi bagan yang dapat Anda buat dengan Diagram 3D:
Scatter

Opsi visualisasi ini adalah buat membuat Plot Scatter data Anda dalam bidang 3D. Di sini, Anda dapat memilih kolom data buat arah x, y, z dan memvisualisasikannya pada 3D. Anda juga bisa menciptakan visualisasi garis terhubung dengan memilih group column serta order column. Ada beberapa bidang opsional pula di mana Anda bisa memilih kolom buat warna, ukuran, dan nama.
Bar Chart

Opsi visualisasi ini adalah buat menciptakan grafik btg data Anda. Di sini, Anda bisa memilih 2 kategori kolom data menurut gugusan data Anda dan tetapkan kolom nilai buat menciptakan grafik btg 3D.
Line Chart

Opsi visualisasi Line chart merupakan buat merencanakan visualisasi garis terhubung menurut 2 kolom data. Mirip dengan Grafik Batang, Anda dapat menentukan 2 kolom kategori buat visualisasi ini bersama dengan kolom nilai. Anda dapat memvisualisasikan Bagan Baris ini menggunakan model 2D serta 3D dan menampilkan / menyembunyikan penanda juga.
Geospatial Plot

Dengan opsi Geospatial Plot, Anda sanggup memplot dataset Anda pada peta. Cukup pilih asal serta kolom tujuan menurut formasi data Anda bersama dengan kolom nilai dan klik tombol "Apply" buat memvisualisasikan data tadi di peta. Anda dapat menggunakan peta Bumi bulat yg berputar atau memakai peta datar untuk visualisasi ini. Dengan tombol Add to Library sempurna pada sebelah tombol apply, Anda dapat menyematkan visualisasi waktu ini ke sisi kiri buat referensi.
Charts 3D mendukung format spreadsheet Excel 2007 ke atas buat pengimporan data. Kolom rumus dan pivot tabel belum didukung pada aplikasi ini. Selain spreadsheet, Anda jua bisa mengimpor data menurut file CSV.

Fitur Chart 3D
Data Import - Impor spreadsheet (arsip CSV atau XLSX) menggunakan file explorer atau copy-paste konten arsip data Anda pribadi ke aplikasi
Create Visualization - Pilih jenis grafik yang akan dipakai buat memvisualisasikan data pada antara plot Bar, Scatter, Garis dan Geospasial.
Chart Interaction - Zoom, Rotate serta Pan grafik buat melihat dari perspektif yang berbeda menggunakan mouse dan sentuh.
Analytical Tools - Mengkonsumsi & memahami wawasan memakai indera analitis terintegrasi seperti Filtering, Connected lines dan 2D Plane.
2D View - Beralih antara tampilan grafik 2D dan 3D ketika menyajikan wawasan.
Eksport - Ekspor & bagikan visualisasi dengan mudah dengan kolaborator Anda dengan lancar.
Save Visualization - Tambahkan visualisasi yang dibuat ke dalam library dan simpan proyek buat referensi nanti.
Voice Commands - Memanipulasi dan berinteraksi menggunakan visualisasi memakai perintah bunyi sederhana.
Persyaratan Sistem
Untuk memakai pelaksanaan ini, OS windows anda minimal Windows 10 32 bit atau 64 bit.
Anda bisa mengunduh Chart 3D menurut Microsoft Store pada sini.
Closing words: Chart 3D merupakan aplikasi yang rupawan buat menciptakan grafik 3D yang interaktif serta menarik pada microsoft excel. Ini relatif lebih ringan daripada opsi visualisasi 3D lainnya serta bisa menggunakan mudah dijalankan dalam perangkat Windows 10 dan pastinya perdeo.

BELAJAR MUDAH MEMBUAT GRAFIK CHART DI MICROSOFT WORDS

Menurut Wikipedia, Grafik, Bagan atau Chart (Bhs. Inggris) merupakan representasi grafis berdasarkan data, di mana "data diwakili oleh simbol, misalnya bar dalam diagram btg, garis dalam bagan garis, atau irisan pada diagram bulat". [1] Bagan dapat mewakili data numerik tabular, fungsi atau beberapa jenis struktur kualitatif serta menaruh berita yang tidak selaras. 

Bagan atau grafik dipakai buat memperjelas penyajian data sebagai akibatnya pembaca menjadi lebih jelas membedakan data satu menggunakan data lainnya. Grafik poly digunakan pada segala bidang, contohnya dalam laporan penelitian, perdagangan, perbankan, statistik dan lain-lain. 

Jika anda seseorang mahasiswa, Dosen, Peneliti, Ekonom serta sebagainya tentu harus menguasai cara menciptakan grafik. Grafik bisa memperjelas penyajian data sehingga penelitian atau presentasi bisa lebih dimengerti audiens.

Untuk menciptakan grafik anda mampu membuatnya di Microsoft Words atau Excel. Kali ini admin akan menyebutkan cara menciptakan grafik pada MS. Word.  Adapun langkah-langkahnya adalah sebagai berikut: 

  1. Buka aplikasi Microsoft Words pada laptop/personal komputer anda.
  2. Klik Menu Insert dan lalu klik Chart
  3. Pilih jenis chart yg sinkron. Di sana poly pilihan jenis grafik. Ada Kolom, Garis, Lingkaran, dll.
  4. Misalnya kita akan memilih kolom. Klik pada galat satu pilihan berdasarkan kolom yg tersedia, lalu tekan ok. Maka akan muncul dua jendela. Yang satu Microsoft Word , dan Microsoft Excel.
  5. Siapkan data yang akan dibuatkan grafiknya. Misalnya kita akan menciptakan grafik penjualan beras selama satu minggu. Hari senin terjual 25 kg, Selasa 30 kg, Rabu, 15 kg, Kamis 27 kg, Jum`at 40 kg serta Sabtu 35 kg. Ganti Tulisan kategori dengan nama-nama hari berdasarkan senin hingga sabtu. Tulisan series 1 ganti dengan kilogram. 
  6. Grafik yang tadi kita pilih di MS  Words, masih ada 3 butir grafik btg dalam satu bagiannya. Lantaran kita hanya punya satu data untuk tiap hari, maka 2 grafik batangnya harus kita buang. Caranya, bawa kursor ke sudut kaan bawah garis yg berwarna biru sebagai akibatnya muncul indikasi panah sepertipada gambar. Untuk menghilangkan dua grafik btg tekan mouse sebelah kanan sambil membawa kursor sampai batas garis B misalnya yang terlihat di gambar pada bawah (Atau jika nir menggunakan mouse, tekan navigasi laptop sebelah kanan sembari membawa kursor ke garis b).
  7. Masukan data penjualan beras yag terjual tiap harinya.
  8. Maka pada Microsoft Word akan secara otomatis muncul grafik sesuai dengan data yg dimasukan. Apabila data telah benar, tutup jendela microsoft excel. 
  9. Jika akan mengedit kembali data, klik kanan di area grafik dan pilih edit data. Maka akan ada pulang pelaksanaan MS Excel yang berisi data yang tadi kita masukan.
  10. Untuk memperbesar atau memperkecil grafik, bawa kursor ke sudut garis pinggir grafik sebagai akibatnya muncul pertanda panah. Bawa panah ke dalam buat memperkecil atau ke luar buat memperbesar grafik.
  11. Pembuatan grafik terselesaikan. Untuk memperlancar coba kembali dengan memilih jenis grafik yang tidak sama. Selamat mencoba.

STATISTIK TERAPAN UNTUK PENELITIAN ILMUILMU SOSIAL

Statistik Terapan Untuk Penelitian Ilmu-Ilmu Sosial
Pengolahan dan analisis data adalah galat satu langkah pada Penelitian Tindakan Kelas. Mettetal (2001) mengemukakan tujuh langkah pada berbagi proyek Penelitian Tindakan Kelas. Langkah-langkah yang dimaksud mencakup: “statement of the problem, review of literature, research strategy, data gathering, data analysis, taking action, and sharing the findings”. 

Agar output analisis data bisa bermakna buat langkah selanjutnya yaitu buat pengambilan keputusan (taking action) dan buat ditawarkan kepada lembaga atau orang lain (sharing the findings) maka selain teknik analisisnya wajib benar serta tepat, langkah-langkah sebelum analisis data pun harus sahih serta tepat pula. Jangan sampai data yang dianalisis itu seperti ada menggunakan tiba-tiba, tidak kentara diperoleh dengan cara apa, bagaimana hubungannya menggunakan tujuan penelitian serta bagaimana strategi penelitiannya. Masalah penelitian hendaknya kentara serta bermakna, landasan teorinya tepat, taktik penelitiannya sempurna serta kentara, dan cara serta alat pengumpul data jua wajib tepat dan kentara.

Strategi penelitian hendaknya berisi desain penelitian, subjek penelitian, dan rapikan cara penelitian. Menurut Mattetal (2001): “both quantitative and qualitative methods were appropriate to assess the outcomes of a classroom action research project. Three major research designs could be used for classroom action research projects: pretest-posttest designs atau before-after design, comparisons of similar classes atau matched-pairs design, and case studies”. 

Pretest-posttest designs merupakan desain penelitian yang bertujuan buat menguji efektifitas suatu tindakan menggunakan membandingkan output postes atau keadaan setelah dilakukan tindakan menggunakan output pretes atau keadaan sebelum dilakukan tindakan.. Comparisons of similar classes adalah desain penelitian yg bertujuan buat melihat disparitas efektifitas tindakan yang berbeda dalam kelas-kelas yg sama. Case studies merupakan desain penelitian yang bertujuan buat meneliti kasus-masalah tertentu contohnya ingin mengetahui bagaimana persepsi murid terhadap penggunaan 2 macam strategi pembelajaran yg berbeda dan bagaimana output belajar mereka. (Lihat contoh PTK-1)

Mengenai analisis data Mettetal (2001) menyatakan bahwa: ”the researcher should be looking for findings with practical significance when analyzing the data, in addition to statistical significance. She further suggested that simple statistical analyses of quantitative data, such as simple t-tests, ANOVA, Chi Square (Chi Kuadrat), and correlations, were sufficient”.

Maksud Pengolahan dan Analisis Data:
1. Deskriptif.
a. Memberikan gambaran tentang keadaan data yang ada menggunakan menghitung antara lain: nilai homogen-rata serta baku deviasi, frekuensi dan proporsi, perbandingan dan interaksi atau ketergantungan antar variabel melalui analisis regresi dan hubungan. 

b. Menampilkan output perhitungan data dalam bentuk diantaranya: tabel, serta grafik atau diagram sehingga bisa dibaca serta dipahami dengan mudah.

2. Inferensial.
a. Menguji sejauh mana hasil perhitungan data yang diperoleh berdasarkan sample itu sahih-benar bermakna (signifikan). Misalnya: PTK menggunakan Pretest-posttest designs ingin menguji apakah nilai rata-rata hasil postes berbeda secara signifikan dengan nilai homogen-homogen output pretes. Contoh lain: PTK menggunakan desain Comparisons of similar classes ingin melihat apakah disparitas nilai homogen-homogen output tindakan yg tidak selaras dalam kelas-kelas yang sama merupakan disparitas yang signifikan atau hanya disparitas yg bersifat kebetulan contohnya lantaran kesalahan sampling.

b. Menguji sejauh mana output perhitungan data yang diperoleh menurut sampel bisa berlaku bagi populasi menggunakan memakai statistik parametrik dan atau statistik non-parametrik, antara lain menggunakan menghitung dengan memakai tingkat kepercayaan atau taraf signifikansi eksklusif:: 
1). Keberartian nilai rata-rata
2). Keberartian perbedaan nilai rata-homogen memakai t-test atau uji-t.
3). Keberartian proporsi( persentasi).
4). Keberartian perbedaan frekuensi atau proporsi melalui uji-z. Atau teknik Chi Kuadrat.
5). Keberartian koefisien regresi serta koefisien korelasi.
6). Ketergantungan antara dua variabel melalui Chi-Kuadrat (Chi-Square)

3. Teknik Pengolahan serta Analisis Data
Teknik yg dipilih buat pengolahan dan analisis data disesuaikan dengan tujuan penelitian, sifat/bentuk serta skala pengukuran data, dan persyaratan statistik, antara lain: normalitas distribusi data, penggunaan hipotesis nol, serta kriteria penerimaan atau penolakan hipotesis.

Jika tujuan penelitian hanya bersifat naratif yaitu sekedar menggambarkan keadaan yang terjadi dalam sample, maka analisis datanya relatif dengan menghitung nilai homogen-rata, standar deviasi, disparitas nilai homogen-rata, frekuensi atau proporsi, disparitas proporsi, analisis regresi dan korelasi. Namun bila tujuan penelitiannya bersifat inferensial yaitu ingin meramalkan keadaan populasi dari data yang diperoleh menurut sample, maka hasil-output perhitungan di atas perlu diuji kebermaknaannya atau tingkat signifikansinya.

Selanjutnya tentang sifat/bentuk serta skala pengukuran data, data PTK dapat bersifat kualitatif atau kuantitatif. Data kualitatif berbentuk kategori misalnya tinggi/sedang/rendah, berat/sedang/ringan, baik/rusak, laki-laki /perempuan , sepakat/ netral/nir putusan bulat, dan sebagainya. Data kuantitatif berbentuk sapta terdiri berdasarkan data diskrit dan data kontinu. Data deskrit yaitu data hasil menghitung atau membilang misalnya jumlah orang, jumlah gedung, angka/ranking 1, 2, tiga, dst., dan sebagainya. Data konstan merupakan data output mengukur atau menimbang tinggi badan, luas gedung, berat badan, dan sebagainya.

Data deskrit terdiri berdasarkan data skala nominal serta ordinal, sedangkan data konstan terdiri dari data skala interval dan rasio.

Pengolahan serta analisis data hasil PTK bisa dilakukan dengan dua cara yaitu dengan cara manual serta dengan melalui personal komputer dengan program SPSS atau acara statistic Microsoft Excel.

Menghitung Nilai Rata-Rata (Mean)
Menghitung secara Manual




Menghitung menggunakan Komputer
1. Masukkan data ke acara Microsoft Excel sebagai berikut:

2. Click icon Tools, akan keluar tampilan sbb:

3. Click icon Data Analysis, akan keluar tampilan menjadi berikut:

4. Click icon Descriptive Statistics--- OK, akan keluar tampilan sbb:

5. Isi Imput Range misalnya berikut:

6. Click OK, akan tampil hasil analisis sbb:

Perhatikan: Perhitungan dengan personal komputer di atas membuat nilai homogen-homogen (Mean) sebanyak 7,dua yg sama menggunakan hasil perhitungan secara manual di atas ( = 7,2) dan sekaligus membentuk standar deviasi sebanyak 1,32 yang sama benar menggunakan hasil perhitungan secara manual (S = 1,32) sebagai berikut:

Menghitung Standar Deviasi Secara Mmanual






Menguji Hipotesis
Uji Perbedaan Dua Rata-Rata (uji-t atau t-Test).
Pengujian Secara Manual:
Hasil Belajar Siswa Melalui Uji Coba Strategi Pembelajaran
Pembelajaran Tradisional

(X1)

Pembelajaran On-Line

(X2)


X1²


X2²

72

87

95

67

90

84

76

79

92

80

63

66

75

84

78

69

87

81

90

72

5184

7569

9025

4489

8100

7056

5776

6241

8464

6400

3969

4356

5625

7056

6084

4769

7569

6561

8100

5184

822

765

68304

59265





Catatan: Ternyata bahwa t hitung sebesar t = 1.41 berada pada wilayah penerimaan Ho, baik pada tingkat nyata 5% juga 1%. Ini berarti bahwa Ho diterima serta H1 ditolak. Dengan demikian dapat disimpulkan bahwa nir ada perbedaan yg berarti menurut homogen-rata hasil belajar dari ke 2 strategi pembelajaran itu.

Dari konklusi pada atas dapat diambil keputusan sebagai tindak lanjut berdasarkan PTK ini (taking action) yaitu: terserah pada guru buat menentukan galat satu menurut taktik itu atau mengintegrasikannya.

Pengujian Dengan Komputer
1. Masukkan Data ke Program Microsoft Excel menjadi berikut:

2. Ikuti petunjuk dalam No.4.2. 2
3. Ikuti petunjuk pada No.4.2. Tiga, muncul tampilan sbb:

4. Click icon t-Test: Paired Two Sample for Means-OK, timbul tampilan sbb:

5. Isi Variable 1 Range dan Variable dua Range seperti di atas, lalu Click OK, muncul hasil perhitungan terakhir menjadi berikut:

Perhatikan: Perhitungan menggunakan Komputer pada atas menghasilkan t hitung sebesar 1,42 dengan t kritis sebesar. 2,26. Hasil ini nir tidak sinkron jauh dengan hasil melalui perhitungan dengan cara manual yg membentuk t hitung sebanyak t = 1,41 dengan t kritis sebanyak dua,88. Kedua-duanya menerima Ho serta dengan sendirinya menolak H1.

Uji Perbedaan Lebih menurut Dua Rata-Rata (Analisis Varians / F-tes)).
Contoh: Peneliti ingin membandingkan efektivitas tiga macam cara belajar anak didik, yaitu belajar dengan sahabat yg sama jenis kelamin, belajar dengan sahabat yang tidak sama jenis kelamin serta belajar mandiri, menggunakan membandingkan nilai rata-rata hasil belajar dari masing-masing cara belajar itu. Peneliti juga ingin mengetahui apakah ada perbedaan hasil belajar menurut jenis kelamin.

Datanya menjadi berikut:
SEJENIS
CAMPURAN
MANDIRI
7
9
10
12
8
14
8
11
12
10
9
11
14
9
7
6
4
5
11
3
4
5
11
8
2
10
9
4
9
8

Pengujian Dengan Komputer: 

1. Masukkan Data ke Program Microsoft Excel menjadi berikut:

2. Click berturut-turut: Tools, Data Analisis, muncul tampilan sbb:

3. Click pada Anova: Two Factor With Replication-OK, ada tampilan sbb:

4. Isi Input Range dan Rows per Sample sbb:

5. Click OK, muncul hasil sbb:

PENGERTIAN DAN MANFAAT DATA MINING EMAIL

Pengertian Dan Manfaat Data Mining Email
Database ketika ini boleh jadi berkembang menjadi sangat besar secara cepat ke pada berukuran terabyte. Di pada tumpukan data tadi mungkin masih ada kabar-informasi tersembunyi yang sangat krusial atau sebagai penting pada saat diharapkan. Akan tetapi bagaimana caranya kita menemukan sebuah jarum pada tumpukan jerami? Dalam hal ini dapat kita katakan bahwa seluruh data belum berarti warta.

Kita sudah mengetahui bahwa data mentah (raw data) tidak terlalu berguna karena ukurannya yang begitu besar sehingga nir mungkin dianalisa. Kita perlu mengekstrak pola menurut data mentah tadi. Jawabannya merupakan dengan data mining. Banyak organisasi di dunia telah memakai data mining buat mencari dan menarik kesimpulan menurut data yang mereka miliki. Berikut beberapa model pelaksanaan data mining:
  • Perusahaan pemasaran memakai data sejarah respon pembelian terhadap suatu tawaran produk buat membentuk contoh buat memperkirakan pelanggan potensial yg akan di raih menggunakan metode penawaran tertentu.
  • Agen pemerintah menyaring data transaksi keuangan untuk mendeteksi money laundering serta penyelundupan obat terlarang.
  • Dalam tahapan diagnosis, para fisikawan menciptakan expert system menurut banyak percobaan yg sudah dilakukan.
Secara definisi data mining merupakan ekstraksi fakta potensial yang sebelumnya tidak diketahui atau implisit, suatu kelas dari aplikasi database yang mencari pola tersembunyi pada suatu grup data. Atau, data mining bisa pula didefinisikan menjadi suatu proses yang menggunakan berbagai perangkat analisis data untuk menemukan pola serta rekanan data supaya bisa digunakan buat menciptakan prediksi menggunakan sempurna.

Dari tinjauan keamanan sistem berita, data mining memang bagai pisau bermata ganda. Di satu sisi sanggup bermanfaat bagi pihak pemilik data buat hal-hal yang sudah disebutkan pada atas, tetapi bisa jadi illegal bila data-data tadi disalahgunakan untuk hal-hal yang bersifat melanggar privasi orang lain atau bahkan bila pengumpulan data tadi dilakukan secara tidak etis dan tanpa sepengetahuan pihak yg memiliki informasi.

Makalah ini hanya akan membahas apa itu data mining, kemungkinan aplikasinya pada mencari pola dalam email, serta sedikit demonstrasi sederhana dengan memakai aplikasi jadi misalnya outlook serta Access buat parsing email ke database, dan software open source Weka (Waikato Environment for Knowledge Analysis) yang dikembangkan pada Universitas Waikato. Software ini sudah memiliki beberapa library dasar buat melakukan data mining.

Aplikasi data mining sendiri bukanlah suatu aplikasi sederhana. Ia melibatkan algorithma machine learning yang membutuhkan algoritma kecerdasan protesis yang cukup kompleks dan berada pada luar cakupan makalah ini.

1. Data Mining
Data mining merupakan proses yang menggunakan berbagai perangkat analisis data untuk menemukan pola serta interaksi pada data yg mungkin bisa dipakai untuk membuat prediksi yg valid.

Langkah pertama serta paling sederhana pada data mining yaitu menggambarkan data – menyimpulkan atribut statistik (seperti rata-homogen dan baku deviasi), mereview secara visual menggunakan diagram serta grafik, dan mencari rekanan berarti yang potensial antar variabel (misalnya nilai yg acapkali timbul bersamaan). Mengumpulkan, mengeksplor, dan memilih data yang sempurna merupakan sangat penting.

Pada dasarnya terdapat empat langkah utama dalam melakukan data mining:
1. Mendeskripsikan data, yakni menyimpulkan atribut statistik (seperti homogen-homogen serta standard deviasi), mereview secara visual memakai grafik serta diagram, dan mencari interaksi-hubungan potensial antar variabel (seperti contohnya, nilai-nilai yg tak jarang keluar bersamaan). 

2. Membangun model asumsi (predictive contoh) menurut dalam pola-pola yg ditemukan pada langkah sebelumnya. 

3. Menguji contoh pada luar sampel orisinil. Sebuah contoh yg baik tidak wajib sama persis menggunakan kenyataan sebenarnya (seperti peta bukanlah representasi sempurna dari jalan yg sebenarnya), akan tetapi bisa sebagai pedoman yang berguna buat mengerti bisnis kita. 

4. Memverifikasi/menguji model. Misalnya, berdasarkan suatu database pelanggan yg telah merespon tawaran yg pernah diiklankan pada mereka, kita menciptakan sebuah model asumsi yg memiliki prospek akan mendapat respon yang sama menurut pelanggan menggunakan tipikal tadi tersebut. Tapi bisakah kita sahih-sahih bergantung dalam asumsi kita tersebut? Kita perlu menerangkan model asumsi kita tersebut ke sample pelanggan yang lain dan melihat output yang kita dapatkan.

Untuk melakukan hal tadi diatas maka setidaknya diperlukan suatu program yang dapat menampilkan (bila tidak mendeteksi) pola serta keteraturan pada data sebagai akibatnya pola-pola yg kuat atau sangat kentara terlihat dapat digunakan buat melakukan prediksi. 

Keterbatasan Data Mining
Data mining hanyalah sebuah alat, bukan tongkat ajaib. Data mining tidak secara otomatis mengamati apa yg terjadi pada database lalu mengirimkan laporan ketika masih ada pola-pola menarik. Penggunaan data mining permanen saja mengharuskan kita buat mengerti data kita serta mengerti metode-metode analisis data. Data mining membantu analis buat menemukan pola dan rekanan data akan namun nir secara langsung mengungkapkan nilai berdasarkan pola tersebut. Lebih jauh lagi, pola-pola yg nir diketemukan melalui data mining harus diverifikasi pulang pada global nyata.

Perlu diingat bahwa hubungan prediktif yang ditemukan melalui data mining nir selalu adalah sebab dari suatu prilaku atau tindakan. Misalnya, datamining sanggup jadi menemukan bahwa pria menggunakan pendapatan Rp. Lima – 10 juta per bulan adalah pelanggan berdasarkan majalah-majalah eksklusif dan kemungkinan akbar adalah pembeli berdasarkan suatu produk. Suatu perusahaan mampu saja mengambil keuntungan dari pola ini menggunakan menargetkan pemasaran kepada orang-orang yg memenuhi pola tadi. Tapi permanen saja perusahaan tersebut tidak boleh mengasumsikan bahwa hanya faktor inilah yang mengakibatkan mereka membeli produk perusahaan tadi.

Model serta Algoritma Data Mining
Dalam bagian ini akan dibahas suatu model serta algoritma yg tak jarang digunakan pada melakukan data mining. Yang wajib diperhatikan adalah bahwa contoh atau algoritma ini bukan adalah satu-satunya yg terdapat dan nir wajib dipakai secara tertentu. Pemilihan contoh tentu saja sangat bergantung pada tujuan yang ingin dicapai dalam melakukan data mining dan data yg akan dihadapi.

Neural Network
Neural Network biasa dipakai pada perkara pembagian terstruktur mengenai (pada mana outputnya adalah variabel kategoris) atau regresi (outputnya kontinyu). Neural network dimulai dengan layer input, dimana tiap simpul berkorespondensi menggunakan variabel prediktor. Simpul-simpul input ini terhubung ke beberapa simpul dalam hidden layer. Tiap simpul input terhubung menggunakan tiap simpul pada hidden layer. Simpul pada hidden layer sanggup jadi terhubung ke simpul lain pada hidden layer, atau ke output layer. Output layer terdiri berdasarkan satu atau beberapa variabel respon.

Gambar Neural network dengan satu hidden layer

Setelah layer input, tiap simpul mengambil satu himpunan input, mengalikan input-input tersebut menggunakan bobot Wxy (contohnya, bobot dari simpul 1 ke tiga adalah W13 – lihat gambar), menambahkan kedua bobot, menerapkan fungsi (biasa dipanggil fungsi aktivasi atau squashing), serta melewatkan outputnya ke simpul pada layer berikutnya. Misalnya, nilai yang dilewatkan berdasarkan node 4 ke node 6 merupakan:

Activation function applied to ([W14 * value of node 1] + [W24 * value of node 2])

Gambar Wxy merupakan bobot berdasarkan simpul x ke simpul y

Tiap simpul sanggup dicermati menjadi variabel prediktor (dalam hal ini simpul 1 dan 2) atau sebagai kombinasi menurut variabel prediktor (simpul 3 hingga 6). Simpul 6 adalah kombiasi non linear menurut nilai simpul 1 dan 2, karena fungsi aktivasi terhadap nilai penjumlahan pada simpul-simpul tersembunyi. Jika masih ada fungsi aktivasi tanpa hidden layer, jaringan saraf akan ekivalen menggunakan regresi linear; dan dengan fungsi aktivasi non-linear eksklusif, jaringan saraf akan ekivalen menggunakan regresi logistik. 

Bobot koneksi (W) adalah parameter nir diketahui yg diestimasi dengan metode training. Awalnya, metode pembinaan yang umum merupakan backpropagation; metode-metode yang baru kemudian bermunculan misalnya gradien konjugasi, quasi-Newton, Levenberg-Marquardt, dan algoritma genetic. Tiap metode training memiliki satu himpunan parameter yg mengatur berbagai aspek dari training seperti contohnya menghindari local optima atau mengatur kecepatan konversi. 

Arsitektur (atau topologi) menurut jaringan saraf merupakan jumlah dari simpul dan layer-layer tersembunyi, dan bagaimana mereka saling bekerjasama. Dalam merancang jaringan saraf, baik user maupun perangkat lunak wajib memilih jumlah simpul serta layer tersembunyi, fungsi aktivasi, dan batasan-batasan bobot. Meskipun terdapat anggaran umum, kita umumnya tetap harus bereksperimen dengan parameter-parameter tersebut.

Tipe yg paling generik berdasarkan jaringan saraf merupakan jaringan feed forward backpropagation. Untuk kesederhanaan bahasan, kita akan membahas jaringan menggunakan satu hidden layer.

Training Backpropagation hanyalah salah satu versi berdasarkan gradien descent, suatu jenis algoritma yg mencoba buat mengurangi nilai sasaran (error, pada perkara jaringan saraf) dalam tiap langkah. Algoritma ini bekerja seperti berikut:

Feed forward: Nilai menurut simpul output dihitung menurut nilai simpul input dan bobot-bobot awal. Nilai-nilai berdasarkan simpul input ini dikombinasikan pada hidden layers, serta nilai dari simpul-simpul pada hidden layer digabungkan buat menghitung nilai output.

Backpropagation: Error pada output dihitung menggunakan mencari beda antara hasil terhitung serta hasil yg diinginkan. Kemudian, error berdasarkan output dimasukkan kembali ke hidden layer secara proporsional, sinkron menggunakan bobotnya. Hal ini akan membuat error dihitung buat tiap simpul output dan simpul tersembunyi dalam jaringan. Akhirnya, error pada tiap simpul tersembunyi dan simpul output dipakai sang algoritma buat mengatur bobot yg masuk ke simpul buat mengurangi error.

Proses ini berulang buat tiap baris pada himpunan traininng. Tiap lewatan terhadap tiap baris pada himpunan traininng diklaim epoch. Himpunan pelatihan ini akan dipakai berulang kali, sampai error yg didapatkan nir lagi berkurang. Pada titik tersebut jaringan saraf dianggap teah terlatih buat menemukan pola dalam himpunan test. Karena poly sekali parameter yang mungkin ada dalam jaringan tersembunyi, suatu jaringan saraf dengan simpul-simpul tersembunyi yang cukup akan selalu menyelesaikan training set jika dibiarkan berjalan relatif usang. Tapi seberapa baikkah jaringan saraf tersebut untuk data yang lain? Untuk menghiondari jaringan saraf yang overfitted yang akan hanya bekerja dengan baik dalam data training, kita harus memahami kapan wajib berhenti melakukan pelatihan. Beberapa implementasi akan mengevaluasi jaringan saraf pada data penguji secara periodik selama latihan. Selama error rate pada hipunan penguji terus menurun, training akan terus dilakukan. Apabila error rate bertambah, meskipun error rate dalam data traininng terus menurun, maka jaringan saraf mungkin mengalami overfitting. Grafik pada gambar mengilustrasikan bagaimana himpunan data penguji bisa menolong kita menghindari overfitting. Kita dapat melihat bahwa error rate terus menurun pada tiap lewatan jariingan saraf terhadap data (garis titik-titik), akan tetapi error rate buat data penguji mengalami kenaikan. Karena tujuan menurut data mining adalah buat membuat prediksi pada data yg bukan himpunan traininng, maka kita tentu saja harus menggunakan jaringan saraf yg akan meminimalisasi error dalam data penguji, bukan data pelatihan.

Gambar Error rate sebagai fungsi jumlah epoch dalam jaringan saraf

Jaringan saraf berbeda secara filosofis dari banyak metode statistik dalam beberapa hal. Pertama, jaringan saraf umumnya mempunyai lebih poly parameter. Misalnya, terdapat tiga belas parameter (9 bobot serta 4 bias) dalam jaringan saraf pada gambar 4. Lantaran banyaknya parameter, serta kombinasi berdasarkan parameter menghasilkan prediksi yg similar, parameter sebagai uninterpretable dan jaringan bertindak sebagai prediktor “black box”. Pada kenyataannya, suatu output bisa diasosiasikan menggunakan beberapa himpunan bobot yg tidak selaras. Oleh karenanya, bobot network secara generik tidak membantu dalam usaha buat mengerti proses yang membentuk prediksi. Akan tetapi hal ini bisa diterima pada banyak pelaksanaan. Suatu bank hanya ingin mengenali secara otomatis suatu pertanda tangan, akan tetapi nir peduli bentuk rekanan fungsional antara pixel dan karakter yang diwakilinya. Beberapa pelaksanaan yang memiliki ratusan variabel menjadi input ke dalam model dengan ribuan parameter (bobot simpul) meliputi pabrik kimia, robot dan pasar keuangan, serta perkara-kasus sosialisasi pola seperti bunyi, vision dan karakter.

Satu keuntungan menurut contoh jaringan saraf merupakan jaringan saraf gampang untuk diimplementasikan buat dijalankan dalam paralel personal komputer dengan tiap node menjalankan kalkulasinya sendiri-sendiri secara simultan.

Pengguna wajib sadar terhadap beberapa informasi mengenai jaringan saraf: pertama, jaringan saraf tidak mudah buat ditafsirkan. Tidak ada penjelasan rasional yang eksplisit tentang bagaimana suatu jaringan saraf melakukan keputusan atau prediksi. Kedua, jaringan saraf cenderung mengalami overfit data training kecuali pengukuran yang sangat ketat, untuk acakan bobot atau validasi silang dilakukan secara hati-hati.ketiga, jaringan saraf membutuhkan waktu lama buat melakukan pelatihan kecuali masalahnyas sangat kecil. Setelah ditrain, jaringan saraf bisa melakukan prediksi menggunakan cukup cepat. Keempat, jaringan saraf membutuhkan persiapan data yang poly. Implementasi yang sukses dari jaringan saraf membutuhkan pemililihan dan preprocessing data yang baik. Misalnya, jaringan saraf mensyaratkan semua variabel harus numerik. Oleh karenanya, data kategoris seperti “propinsi” umumnya dipecah menjadi variabel dikotomis (contohnya “jawa barat”, “jawa timur”), masing-masing dengan nilai “1” (yes) atau “0” (no). Akhirnya, jaringan saraf akan bekerja menggunakan baik jika set data yg dipakai cukup akbar serta rasio frekuwensi terhadap noise relatif tingggi.

Decision trees
Decision tree adalah cara merepresentasikan perpaduan anggaran yang mengacu ke suatu nilai atau kelas. Misalnya kita bisa mengklasifikasikan suatu proposal pinjaman uang memiliki resiko baik atau tidak baik. Gambar ? Menunjukkan decision tree sederhana: decision node, branches and leaves.

Gambar Classification tree sederhana

Komponen pertama adalah simpul top decision, atau simpul root, yg menentukan test yang akan dijalankan. Simpul root dalam contoh ini merupakan “income > $40.000”. Hasil dari tes ini menyebabkan tree terpecah menjadi 2 cabang, menggunakan tiap cabang meepresentasikan satu berdasarkan jawaban yg mungkin. Dalam perkara ini, jawabannya adalah “ya” dan “nir”, sebagai akibatnya kita mendapatkan dua cabang.

Bergantung dalam algoritma yang digunakan. Tiap simpul sanggup mempunyai 2 atau lebih cabang. Misalnya, CART akan menggenerate hanya 2 cabang pada tiap simpul. Tree misalnya ini diklaim binary tree. Ketika lebih menurut 2 cabang diperbolehkan maka diklaim menjadi multiway tree.

Tiap cabang akan mempunyai simpul node yg lain atau dasar tree, yang dianggap leaf. Dengan mengikuti decision tree kita bisa menaruh nilai dalam suatu masalah menggunakan menetapkan cabang mana yg akan diambil, dimulai berdasarkan simpul root serta bergerak ke bawah sampai leaf. Dengan memakai metode ini, seorang petugas yg bertanggung jawab buat memutuskan pemberian pinjaman terhadap nasabah mampu menentukan apakah seseorang nasabah memiliki resiko kredit yg baik atau tidak baik.

Model decision tree umum dipakai dalam data mining buat menelaah data serta menginduksi tree serta anggaran yang akan dipakai untuk menciptakan prediksi. Sejumlah algoritma yang tidak sama bisa dipakai buat menciptakan tree pada antara nya adalah CHAID (Chi squared Automatic Interactin Detection), CART (Classification and Regression Trees), Quest dan C5.0.

Decision tree berkembang melalui pemecahan iteratif menurut data ke pada kelompok-kelompok diskrit, yang tujuannya adalah buat memaksimalkan “jeda” antara gerombolan pada tiap pemecahan. 

Contoh yg kita gunakan hingga ketika ini sangatlah sederhana. Tree ini sangat gampang buat dimengerti serta diinterpretasikan. Akan namun, tree sanggup menjadi sangat kompleks. Bisa dibayangkan kompleksitas suatu tree yg diturunkan dari database dengan ratusan atribut dan variabel respon dengan lusinan kelas input. Tree sperti ini akan sangat sulit buat dimengerti, meskipuntiap path dari tree umumnya bisa dimengerti. Dalam hal ini decision tree sanggup menjelaskan prediksinya, yang adalah keuntungan penting.

Akan tetapi, kejelasan ini bisa jadi menyesatkan. Misalnya, percabangan berdasarkan suatu decision tree mengimplikasikan suatu presisi yg jarang ditemui dalam global konkret. (Kenapa seorang yang gajinya $40.001 akan sebagai nasabah dengan resiko kredit yang baik sedangkan seorang menggunakan honor $40.000 tidak?)

Selain dua butir algoritma yg dibahas pada atas, masih banyak lagi prosedur pemecahan lain seperti Multivariate Adaptive Regression Splines (MARS), Rule induction, K-nearest neighbor and memory-based reasoning (MBR), Logistic regression, Discriminant analysis, Generalized Additive Models (GAM), Boosting, dan Genetic algorithms.

2. Implementasi Data Mining Email
Mengenali suatu pendekatan yg sistematis merupakan hal yg sangat krusial supaya kita dapat melakukan data mining dengan sukses. Banyak vendor serta organisasi konsultan telah menentukan urutan langkah yg akan membentuk output yg memuaskan. 

Langkah-langkah dasar pada data mining adalah menjadi berikut: 
1. Define business problem
2. Build data mining database
3. Explore data
4. Prepare data for modeling
5. Build model
6. Evaluate model
7. Deploy contoh and results

Mengikuti langkah-langkah di atas, maka pertama kali kita harus memilih dulu perkara yang hendak dipecahkan. Dalam hal ini tujuan kita melakukan data mining email wajib terlebih dahulu didefinisikan. Dalam perkara email, data mining umumnya dilakukan buat mengetahui prilaku pelanggan dari order yg masuk via email, atau mampu pula mengetahui prilaku konsumsi seseorang. Suatu model konkret, Google melakukan data mining email buat mengetahui iklan yg relevan buat ditampilkan ke web interface layanan email mereka. 

Tujuan yang berbeda membutuhkan pemodelan database dan data yg berbeda jua.
Pada makalah ini akan didemonstrasikan bagaimana suatu data bisa diambil menurut pelaksanaan email client misalnya outlook buat kemudian diparse ke database. Setelah data terkumpul pada database kemudian dilakukan data analisis menggunakan menggunakan aplikasi open source Weka (Weikato Environment for Knowledge Analysis).

Karena kesulitan pada mengumpulkan data yg baik (dalam hal ini email yang representatif) maka digunakan data fiktif yg kiranya akan menarik untuk dianalisis. Walaupun begitu, permanen akan didemonstrasikan bagaimana email penulis diparse ke dalam database Access.

Aplikasi Pendukung
Pada bagian ini akan dibahas aplikasi-aplikasi atau bahasa pendukung yang dipakai buat membangun aplikasi data mining email dalam makalah ini, yaitu Outlook Express, Visual Basic for Application, serta Microsoft Access.

Outlook Express
Outlook Express merupakan galat satu pelaksanaan email client yang bekerja pada platform Windows selain Eudora, Mozilla ThunderBird, Pegasus Mail, serta masih banyak lagi yg lainnya.

Alasan penggunaan Outlook dalam makalah ini merupakan karena interoperabilitasnya yang sangat baik dengan sistem aplikasi Ms Office lainnya (dalam hal ini kita akan menggunakan relational database Ms Access) dan umumnya telah terpaket pada Windows yang kita gunakan. Akan namun selain itu, Outlook pula memiliki kemampuan pengorganisasian email yang relatif baik (impian folders, versatile searching) dan penyaringan spam yg relatif solid. 

Berikut merupakan beberapa fitur dasar dari Outlook Email Client:
  • Kemampuan mengelola banyak account email serta newsgroup
  • Kemudahan pada mengeksplorasi pesan/email masuk
  • Memiliki addressbook untuk menyimpan serta melihat alamat-alamat email
  • Kemampuan mendownload email/newsgroup buat dibaca secara offline
  • Mengirim serta menerima pesan secara kondusif menggunakan enkripsi
Microsoft Access
Pada dasarnya Access adalah suatu Database Management System (DBMS). Seperti halnya produk lain pada kategori ini, Access meyimpan dan memanggil liputan/data, mempresentasikan data yg diminta, serta mengotomasi repetitive tasks. Dengan akses kita sanggup membuat form masukan yang mudah digunakan misalnya diperlihatkan dalam gambar ?

Gambar Screenshot form dalam Access

Akses pula adalah pelaksanaan database windows yang cukup powerful. Lantaran baik Windows juga Access merupakan produk Microsoft, ke 2 produk tadi berafiliasi dengan sangat baik. Access berjalan di seluruh versi windows.

Dengan memakai OLE (Object Linking Embedding) pada Windows dan produk Ms Office (Excel, Word, Power Point serta Outlook) kita mampu membuatkan kemampuan Access. OLE memungkinkan produk yg satu menggunakan lainnya saling bertukar keterangan dengan mudah.

Berikut beberapa fitur yg ditawarkan Access:
  • Database management system yang benar-sahih relasional
  • Wizard yang mudah digunakan
  • Importing, exporting, dan linking tabel
  • Form dan laporan menggunakan fitur WYSIWYG
  • Multiple table queries and relationships
  • Business graph and chart
  • Kemampuan DDE dan OLE
  • True Client/server
  • Dukungan modul VBA
Gambar ? Mengilustrasikan kemampuan Access dalam banyak level

Gambar Kemampuan Access dalam banyak level

VBA Pada Access
Access mempunyai poly tool yg relatif baik yang memungkinkan kita bekerja dengan database serta tabel, queries, form, dan report yg dimilikinya tanpa menulis satu baris kode pun. Akan namun, pada kasus-perkara tertentu, kita mungkin membutuhkan pengembangan pelaksanaan yang lebih rumit misalnya misalnya validasi input yg lebih ekstensif atau error handling yang lebih baik.

Untuk situasi-situasi seperti ini, kita membutuhkan suatu bahasa taraf tinggi. Access menyediakan bahasa pemrograman yg dianggap Visual Basic for Application (VBA) yang sanggup menaikkan kemampuan berdasarkan Access dan melebihi kemampuan yg ditawarkan oleh Macro.

Visual Basic sudah menjadi bahasa generik untuk semua aplikasi Microsoft. Visual Basic terdapat pada seluruh pelaksanaan Ms Office XP, termasuk Excel, Word, Power Point, dan outlook. Visual Basic adalah bahasa pemrograman terstruktur yang memperlihatkan bnyak struktur pemrograman yang sudah biasa digunakan sang programmer misalnya If .. Then … Else, Select Case, dan seterusnya. Visual Basic memungkinkan seseorang programmer bekerja dengan fungsi dan subrutin di pada bahasa yang hampir misalnya layaknya bahasa Inggris. Bahasa ini jua sangat ekstensibel (mampu memanggil rutin Windows API) serta mampu berinteraksi melalui ADO (Active Data Objects) atau DAO (Data Access Objects) menggunakan semua tipe data Access atau Visual Basic. 

Weka
Weka merupakan koleksi algoritma data mining buat tugas-tugas data mining. Algoritma ini bisa diterapkan secara eksklusif ke dalam dataset atau sanggup pula dipanggil berdasarkan kode java kita sendiri. Weka mempunyai tools buat data pre-processing, classification, regression, clustering, association rules, serta visualization. Weka pula cocok buat dipakai dalam pengembangan skema baru learning machine. Weka adalah software open source yang diterbitkan dibawah lisensi GNU General Public License.

Perancangan dan Implementasi
Tujuan dari aplikasi ini adalah buat men data-mine email yg berada pada mailbox Outlook. Kita akan mengekstrak warta email serta memasukkan fakta tersebut ke pada relational database sebagai akibatnya kemudian kita mampu menganalisanya dengan beberapa prosedur pemecahan data mining. 

Jadi langkah perancangan pertama kali adalah menggunakan merancang acara pengekstrak data email Outlook buat kemudian di ekspor ke Access. Selanjutnya membentuk contoh data mining menurut data mentah yg telah kita masukkan ke database tadi. 

Secara garis besar model dari pelaksanaan data mining ini dapat diilustrasikan menjadi berikut:

Gambar Alur proses data mining

Program Pengekstrak serta Pengimpor Data Email
Sebenarnya kita bisa menghubungkan Outlook menggunakan Access tanpa melakukan pemrograman sedikitpun. Yakni dengan menggunakan driver yang sudah terpasang secara built-in pada Office 2000. Sayangnya metode ini memiliki kekurangan dalam hal kesulitan dalam kustomisasi database. Untuk pertimbangan kemudahan kita hanya akan memakai import wizard berdasarkan Access yang akan mengimport seluruh data email yang terdapat dalam inbox outlook. Untuk membuat database yg lebih baik, mungkin kita bisa mendesign sendiri struktur database yg baik dan kemudian menulis script sederhana menggunakan visual basic editor di outlook supaya setiap email yg diterima akan pribadi dimasukkan ke database. Berikut acara sederhana berbentuk modul pada Microsoft Access buat mengimport email dari outlook menggunakan memakai bahasa Visual Basic for Application.

Option Compare Database 
  • Dim ol As New Outlook.application 
  • Dim PublicFolder As MAPIFolder 
  • Dim OldTaskItems As Items 
  • Dim itm As Outlook.taskItem 
  • Dim AppPath As String 
Sub ImportItems() 
Set PublicFolder = ol.getnamespace("MAPI").folders("Public Folders").folders("All Public Folders").folders("PT").folders("Help Desk Application").folders("Tarefas Antigas") 

Set OldTaskItems = PublicFolder.items.restrict("[Subject] > ''") 

Dim nmritens As Integer 
nmritens = OldTaskItems.count ' 
' If nmritens = 0 Then 
' MsgBox "Tidak ada item baru" 
' Else 
' MsgBox " Terdapat" & nmritens & " buat diimport" 
' End If 

For Each itm In OldTaskItems 
If nmritens > 1 Then 
Set appAccess = CreateObject("Access.application") 
strAccessPath = appAccess.syscmd(9) 
strDBName = "c:/documents and Settings/doni/my Documents/mdb/" & "importoutlook.mdb" 'strAccessPath & "email.mdb" 
Set dbe = CreateObject("DAO.dbengine.36") 
Set wks = dbe.workspaces(0) 
Set dbs = wks.openDatabase(strDBName) 
Set rst = dbs.openRecordset("tblHdrs") 
rst.addnew 
rst.remetente = itm.userProperties("Behalf") 
rst.assunto = itm.userProperties("Subject") 
rst.recebido = itm.userProperties("Received Date") 
rst.fechado = itm.userProperties("Close Date") 
rst.update 
rst.close 
dbs.close 
End If 
Next 
End Sub 

Hal yg sama mampu kita lakukan bila kita lebih memilih memakai server misalnya MSSQL, MySQL, atau PostGreSQL. 

Berikut merupakan data yang mungkin didapatkan:

Gambar Tabel import menurut outlook

Bisa dilihat data diatas nir terlalu menarik untuk dianalisis, karena sifatnya yang terlalu luas dan nir khusus. Beberapa hal yang mampu dianalisis mungkin buat menemukan kata terbanyak yg muncul sehingga bisa digunakan buat memilih ketertarikan oleh empunya email, atau siapa pengirim email terbanyak. Dalam bagian berikutnya kita akan mensimulasikan data yang lebih menarik buat disimulasikan namun tidak terlalu besar .

Analisis Data
Misalkan suatu pasangan orang tua yg sibuk memiliki account email yg digunakan buat menerima email berisi laporan cuaca tiap hari dan kegiatan bermain anak menurut oleh baby sitter. Template email telah diatur sedemikian rupa sehingga membentuk data sebagai berikut: 

Gambar Data cuaca dan aktivitas bermain anak

Data tadi akan disimulasikan dengan memakai Weka. Dalam manualnya aplikasi Weka hanya mendapat format arsip ARFF. Walaupun kita mampu saja eksklusif menggunakan format file Access menggunakan mengganti kode atau menciptakan kode kita sendiri dengan memanfaatkan library yg sudah ada pada Weka.

Berikut merupakan isi arsip weather.arff yg adalah hasil konversi berdasarkan tabel email dalam database Access.
@relation weather
@attribute outlook sunny, overcast, rainy
@attribute temperature real
@attribute humidity real
@attribute windy TRUE, FALSE
@attribute play yes, no
@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no

Sekarang kita sanggup memulai menganalisa data tadi menggunakan memakai prosedur pemecahan yang telah disediakan. Untuk menampakan apa yang dapat dilakukan decision tree learner pada data tersebut, kita dapat memakai prosedur pemecahan j4.8, yang adalah implementasi Weka buat decision tree learner. Kita bisa mengetik:

java weka.classifiers.J48.J48 -t weather.arff
Pada command line. Atau menggunakan Graphical User Interface yg tersedia.

Berikut hasil yang kita dapatkan:
J48 pruned tree
outlook = sunny
humidity <= 75: yes (2.0)
humidity > 75: no (3.0)
outlook = overcast: yes (4.0)
outlook = rainy
windy = TRUE: no (dua.0)
windy = FALSE: yes (3.0)
Number of Leaves : 5
Size of the tree : 8

=== Error on training data ===
Correctly Classified Instances 14 100 %
Incorrectly Classified Instances 0 0 %
Mean absolute error 0
Root mean squared error 0
Total Number of Instances 14

=== Confusion Matrix ===
a b <-- as="" classified="" o:p="">-->
9 0 a = yes
0 5 b = no

=== Stratified cross-validation ===
Correctly Classified Instances 9 64.2857 %
Incorrectly Classified Instances 5 35.7143 %
Mean absolute error 0.3036
Root mean squared error 0.4813
Total Number of Instances 14

=== Confusion Matrix ===
a b <-- as="" classified="" o:p="">-->
7 dua a = yes
3 dua b = no

Bagian pertama merupakan decision tree dalam bentuk teks. Seperti dapat kita lihat, percabangan pertama adalah dalam atribut outlook, serta lalu pada level selanjutnya, percabangan terjadi masing-masing pada humidity serta windy. Dalam struktur pohon, titik 2 merepresentasikan label kelas yang telah diberikan ke leaf tertentu, diikuti dengan angka yg merepresentasikan jumlah instans yang memenuhi persyaratan tadi. 

Dibawah struktur pohon, jumlah leaf dicetak, kemudian total jumlah simpul pada pohon (size of the tree).
Bagian ke 2 hasil memberitahuakn kesalahan yang terjadi dalam data trining. Dalam masalah ini, semua 14 data sudah diklasifikasi dengan sahih, dan tak satupun yg dibiarkan tidak terklasifikasi. Suatu instans mampu tidak diklasifikasi apabila skema pembelajaran menahan pemberian suatu kelas label ke instans tersebut.

Kesimpulan berdasarkan data pembinaan dapat dilihat pada confusion
matrix, yg menampakan berapa poly instans dari tiap kelas sudah diassign ke tiap kelas. Dalam kasus ini, hanya elemen diagonal menurut matriks yg non-zero lantaran seluruh instans sudah diklasifikasikan secara benar. 

Bagian terakhir menurut hasil memperlihatkan hasil yg didapat dari stratified ten-fold cross-validation. Modul penilaian secara otomatis melakukan ten-fold cross-validation jika tidak diberikan file test. Seperti dapat kita lihat, lebih berdasarkan 30% instans (5 menurut 14) telah diklasifikasikan secara keliru pada validasi silang. Hal ini menandakan bahwa output yg didapatakan dari training data dangat optimistik dibandingkan menggunakan apa yg mungkin didapat dari himpunan tes yg independen berdasarkan source yg sama. Dari confusion matrix kita bisa melihat bahwa 2 instans kelas yes telah dikelompokkan ke kelas no, dan 3 kelas no diassign ke kelas yes.