Minggu, 15 November 2015

Posted by Unknown |
Penggalian data (bahasa Inggris: data mining) adalah ekstraksi pola yang menarik dari data dalam jumlah besar. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari Sistem basis data perusahaan, e-commerce, data saham, dan data bioinformatika), tapi tidak tahu pola apa yang bisa didapatkan.
  
Latar belakang
Perkembangan yang pesat di bidang pengumpulan data dan teknologi penyimpanan di berbagai bidang, menghasilkan basis data yang terlampau besar. Namun, data yang dikumpulkan jarang dilihat lagi, karena terlalu panjang, membosankan, dan tidak menarik. Seringkali, keputusan -yang katanya berdasarkan data- dibuat tidak lagi berdasarkan data, melainkan dari intuisi para pembuat keputusan. Sehingga, lahirlah cabang ilmu penggalian data ini. 
Analisis data tanpa menggunakan otomasi dari penggalian data adalah tidak memungkinkan lagi, kalau 1) data terlalu banyak, 2) dimensionalitas data terlalu besar, 3) data terlalu kompleks untuk dianalisis manual (misalnya: data time series, data spatiotemporal, data multimedia, data streams ).

Metode-metode dalam DM
Ada banyak metode untuk melakukan kajian DM, antara lain ‘classification’ (klasifikasi), ‘regression’ (regresi), ‘clustering’, dan ‘association’ (asosiasi). Kebanyakan tool software DM menerapkan lebih dari satu teknik (atau algoritma) untuk setiap metode-metode tersebut. Bagian seri ini akan menyajikan metode-metode DM yang paling popular dan menjelaskan teknik-teknik penyajiannya.
 
Beberapa faktor yang digunakan untuk menilai model adalah sebagai berikut:
  • Predictive accuracy (akurasi prediksi). Kemampuan model dalam memprediksi secara akurat terhadap label kelas dari data yang baru atau yang tak pernah terlihat sebelumnya. Akurasi prodiksi adalah faktor penilaian yang paling umum digunakan untuk model-model dalam classification. Untuk menghitung ukuran ini, label-label kelas riil dari dataset yang diuji dicocokkan dengan label-label kelas yang diprediksi oleh model. Akurasi kemudian bisa dihitung sebagai ‘angka akurasi’ (accuracy rate), yang merupakan persentase dari sampel-sampel dataset yang diuji yang dengan tepat di-klasifikasi-kan oleh model tersebut (lebih jauh mengenai topik ini diberikan nanti di seri ini).
  • Speed (kecepatan). Biaya komputasi yang digunakan untuk menghasilkan dan memanfaatkan model, yang berarti lebih cepat lebih baik.
  • Robustness (kehandalan). Kemampuan model untuk membuat prediksi yang cukup akurat, meskipun dengan data yang ‘noisy’ atau data yang nilainya hilang atau salah.
  • Scalability (skalabilitas). Kemampuan untuk membuat model prediksi secara efisien dengan pertimbangan jumlah data yang agak besar.
  • Interpretability (interpretabilitas). Tingkat pemahaman dan ‘insight’ yang diberikan oleh model (misalnya, bagaimana dan/atau apakah model membuat kesimpulan mengenai prediksi tertentu).

Classification
Classification adalah metode yang paling umum pada data mining. Persoalan bisnis sperti Churn Analysis, dan Risk Management biasanya melibatkan metode Classification.

Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi dari input attribute.
 
Clustering

Clustering juga disebut sebagai segmentation. Metoda ini digunakan untuk mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut.
 
Association 
 
Association juga disebut sebagai Market Basket Analysis. Sebuah problem bisnis yang khas adalah menganalisa tabel transaksi penjualan dang mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer, misalnya apabila orang membeli sambal, biasanya juga dia membeli kecap. Kesamaan yang ada dari data pembelian digunakan untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling.
 
Regression
Metode Regression mirip dengan metode Classification, yang membedakannya adalah metode regression tidak bisa mencari pola yang dijabarkan sebagai class (kelas).
Metoda regression bertujuan untuk mecari pola dan menentukan sebuah nilai numerik.
Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari Regression, dimana hasilnya adalah sebuah fungsi untuk menentukan hasil yang berdasarkan nilai dari input.
Regression digunakan untuk memecahkan banyak problem bisnis – contohnya untuk memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk memperkirakan kecepatan angin berdasarkan temperatur, tekanan udara, dan kelembaban.
 
Forecasting
Forecasting juga adalah metode data mining yang sangat penting.Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas. Sebagai inputnya teknik Forecasting akan mengambil sederetan angka yang menunjukkan nilai yang berjalan seiring waktu dan kemudian Teknik Forecasting ini akan menghubungkan nilai masa depan dengan menggunakan bermacam-macam teknik machine-learning dan teknik statistik yang berhubungan dengan musim, trend, dan noise pada data.
 
Sequence Analysis
Sequence Anlysis digunakan untuk mencari pola pada serangkaian kejadian yang disebut dengan Sequence. Sebagai contoh sebuah DNA terdiri dari rangaian bagian: A, G, C, dan T. dan rangkaian klik pada sebuah website berisi rentetan URL.
 

0 komentar:

Posting Komentar