Penggalian data (bahasa Inggris: data mining) adalah ekstraksi pola yang menarik dari data dalam jumlah besar.
Suatu pola dikatakan menarik apabila pola tersebut tidak sepele,
implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan
haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan
derajat kepastian tertentu, berguna, dan baru. Penggalian data memiliki
beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti
KDD (knowledge discovery in database), analisis pola, arkeologi data,
pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan
saat data yang tersedia terlalu banyak (misalnya data yang diperoleh
dari Sistem basis data perusahaan, e-commerce, data saham, dan data bioinformatika), tapi tidak tahu pola apa yang bisa didapatkan.
Latar belakang
Perkembangan yang pesat di bidang pengumpulan data dan teknologi penyimpanan di berbagai bidang, menghasilkan basis data yang terlampau besar.
Namun, data yang dikumpulkan jarang dilihat lagi, karena terlalu
panjang, membosankan, dan tidak menarik. Seringkali, keputusan -yang
katanya berdasarkan data- dibuat tidak lagi berdasarkan data, melainkan
dari intuisi para pembuat keputusan. Sehingga, lahirlah cabang ilmu
penggalian data ini.
Analisis data tanpa menggunakan otomasi dari penggalian data adalah tidak memungkinkan lagi, kalau 1) data terlalu banyak, 2) dimensionalitas data terlalu besar, 3) data terlalu kompleks untuk dianalisis manual (misalnya: data time series, data spatiotemporal, data multimedia, data streams ).
Metode-metode dalam DM
Ada banyak metode untuk melakukan kajian DM, antara lain
‘classification’ (klasifikasi), ‘regression’ (regresi), ‘clustering’,
dan ‘association’ (asosiasi). Kebanyakan tool software DM menerapkan
lebih dari satu teknik (atau algoritma) untuk setiap metode-metode
tersebut. Bagian seri ini akan menyajikan metode-metode DM yang paling
popular dan menjelaskan teknik-teknik penyajiannya.
Beberapa faktor yang digunakan untuk menilai model adalah sebagai berikut:
- Predictive accuracy (akurasi prediksi). Kemampuan model dalam memprediksi secara akurat terhadap label kelas dari data yang baru atau yang tak pernah terlihat sebelumnya. Akurasi prodiksi adalah faktor penilaian yang paling umum digunakan untuk model-model dalam classification. Untuk menghitung ukuran ini, label-label kelas riil dari dataset yang diuji dicocokkan dengan label-label kelas yang diprediksi oleh model. Akurasi kemudian bisa dihitung sebagai ‘angka akurasi’ (accuracy rate), yang merupakan persentase dari sampel-sampel dataset yang diuji yang dengan tepat di-klasifikasi-kan oleh model tersebut (lebih jauh mengenai topik ini diberikan nanti di seri ini).
- Speed (kecepatan). Biaya komputasi yang digunakan untuk menghasilkan dan memanfaatkan model, yang berarti lebih cepat lebih baik.
- Robustness (kehandalan). Kemampuan model untuk membuat prediksi yang cukup akurat, meskipun dengan data yang ‘noisy’ atau data yang nilainya hilang atau salah.
- Scalability (skalabilitas). Kemampuan untuk membuat model prediksi secara efisien dengan pertimbangan jumlah data yang agak besar.
- Interpretability (interpretabilitas). Tingkat pemahaman dan ‘insight’ yang diberikan oleh model (misalnya, bagaimana dan/atau apakah model membuat kesimpulan mengenai prediksi tertentu).
Classification
Classification
adalah metode yang paling umum pada data mining. Persoalan bisnis
sperti Churn Analysis, dan Risk Management biasanya melibatkan metode
Classification.
Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi dari input attribute.
Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi dari input attribute.
Clustering
Clustering
juga disebut sebagai segmentation. Metoda ini digunakan untuk
mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada
sebuah kelompok atribut, mengelompokkan data yang memiliki kemiripan
atribut.
Association
Association juga disebut sebagai Market Basket Analysis.
Sebuah problem bisnis yang khas adalah menganalisa tabel transaksi
penjualan dang mengidentifikasi produk-produk yang seringkali dibeli
bersamaan oleh customer, misalnya apabila orang membeli sambal, biasanya
juga dia membeli kecap. Kesamaan yang ada dari data pembelian digunakan
untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa
yang terjadi guna kepentingan cross-selling.
Regression
Metode
Regression mirip dengan metode Classification, yang membedakannya
adalah metode regression tidak bisa mencari pola yang dijabarkan sebagai
class (kelas).
Metoda regression bertujuan untuk mecari pola dan menentukan sebuah nilai numerik.
Sebuah
Teknik Linear Line-fitting sederhana adalah sebuah contoh dari
Regression, dimana hasilnya adalah sebuah fungsi untuk menentukan hasil
yang berdasarkan nilai dari input.
Regression digunakan untuk memecahkan banyak
problem bisnis – contohnya untuk memperkirakan metode distribusi,
kapasitas distribusi, musim dan untuk memperkirakan kecepatan angin
berdasarkan temperatur, tekanan udara, dan kelembaban.
Forecasting
Forecasting juga adalah metode data mining yang sangat penting.Teknik Forecasting dapat membantu menjawab
pertanyaan-pertanyaan diatas. Sebagai inputnya teknik Forecasting akan
mengambil sederetan angka yang menunjukkan nilai yang berjalan seiring
waktu dan kemudian Teknik Forecasting ini akan menghubungkan nilai masa
depan dengan menggunakan bermacam-macam teknik machine-learning dan
teknik statistik yang berhubungan dengan musim, trend, dan noise pada
data.
Sequence Analysis
Sequence
Anlysis digunakan untuk mencari pola pada serangkaian kejadian yang
disebut dengan Sequence. Sebagai contoh sebuah DNA terdiri dari rangaian
bagian: A, G, C, dan T. dan rangkaian klik pada sebuah website berisi
rentetan URL.
0 komentar:
Posting Komentar