Minggu, 15 April 2018

Konsep Data Mining (Contoh kasus yang melingkup KDD)

PENERAPAN ANALYSIS CLUSTERING PADA PENJUALAN KOMPUTER DENGAN PERANCANGANAN APLIKASI DATA MINING MENGGUNAKAN ALGORITMA K-MEANS (STUDY KASUS TOKO TRI BUANA KOMPUTER KOTA SOLOK)



Abstrak - Clustering merupakan salah satu metode Data Mining yang bersifat tanpa arahan (unsupervised), dan K-Means merupakan salah satu metode data Clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Tujuan pembuatan aplikasi ini yaitumemberi informasi yang terkandung dari suatu data, sehingga usermendapatkan informasi yang belum didapatkandari data tersebut. Berdasarkan hasil uji coba,cepat atau lambatnya proses pengelompokan data (Clustering) dipengaruhi oleh spesifikasi suatu perangkat keras yang menjalankan aplikasi ini, operating sistem yang digunakan dan banyaknya data atau pembagiankelompok dari suatu data.

Kata kunci : Clustering, K-Means, Informasi



1.     PENDAHULUAN
Latar Belakang

Dengan kemajuan teknologi informasi dewasa ini, kebutuhan akan informasi yang akurat sangat dibutuhkan dalam kehidupan sehari-hari, sehingga informasi akan menjadi suatu elemen penting dalam perkembangan masyarakat saat ini dan waktu mendatang. Namun kebutuhan informasi yang tinggi kadang tidak diimbangi dengan penyajian informasi yang memadai, sering kali informasi tersebut masih harus digali ulang dari data yang jumlahnya sangat besar.
Toko Tri Buwana Komputer merupakan toko yang bergerak dalam penjualan computer. Dalam rangka menghadapi persaingan bisnis terdapat beberapa permasalahan yang kerap muncul mengenai penjualan laptop. Toko Tri Buwana Computer sulit mendapatkan informasi-informasi strategis seperti tingkat penjualan per periode. Ketersediaan data penjualan yang besar DI Toko Tri Buwana Computer tidak digunakan semaksimal mungkin, sehingga data penjualan tersebut tidak dimanfaatkan secara optimal.
Berdasarkan pada latar belakang diatas maka permasalahan diatas maka permasalahan yang ada yaitu belum adanya penerapan data mining untuk mengolah data penjualan computer. Berdasarkan kebutuhan diatas penulis mencoba memberi alternatif bantuan yang diwujudkan dalam sebuah penelitian dengan judul “PENERAPAN ANALYSIS CLUSTERING PADA PENJUALAN KOMPUTER DENGAN PERANCANGAN APLIKASI DATA MINING MENGGUNAKAN ALGORITMA K-MEANS (STUDY KASUS TOKO TRI BUWANA KOMPUTER KOTA SOLOK)”

Perumusan Masalah

Berdasarkan permasalahan diatas, maka rumusan masalah yang akan dibahas dalam penelitian ini adalah sebagai berikut :

1.    Bagaimanakah aplikasi data mining mengefektifkan kinerja Toko Tri Buwana Komputer yang masih cenderung lambat?

2.       Bagaimana aplikasi data mining memberikan arti yang sempurna dalam pengolahan data, karena dengan pengolahan data yang baik akan mudah mengakses data yang dibutuhkan?

3.       Bagaimana aplikasi data mining ini dapat membantu pihak toko dalam memprediksi tingkat penjualan laptop di Toko Tri Buwana Komputer?

Hipotesa

Dari rumusan diatas maka dapat dikemukakan hipotesa yaitu, dengan menganalisa data penjualan laptop pada Toko Tri Buwana Komputer diharapkan membantu pihak toko dalam menganalisa dan mengambil keputusan serta dapat mengefektifkan kinerja toko yang masih cenderung lambat.

Tujuan Penelitian

Penelitian ini bertujuan untuk membangun sebuah perangkat lunak untuk memprediksi presentase suatu produk laptop, dimana perangkat lunak ini dapat mudah dioperasikan dan dipahami oleh pihak toko Tri Buwana Computer dalam menganalisa dan mengambil keputusan serta dapat mengoptimalkan dan mengefektifkan kinerja toko tersebut.


2.     LANDASAN TEORI

Data mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis ( Fajar Astuti Hermawati, 2009).
Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan didalam database. Data mining adalah proses yang menggunakan teknik statistic, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terakit dari berbagai database besar (Turban,dkk. 2005) / (Kusrini & Luthfi,2009).

Pengelompokan Data Mining

Data Mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dilakukan, yaitu (Larose, 2005) / (Kusrini & Luthfi,2009) :

1.          Deskripsi

Terkadang peneliti dan analisis secara sederhana ingin mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suaramungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup professional akan sedikit didukung dalam pemilihan presiden.
Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan.


2.          Estimasi

Estimasi hamper sama dengan klasifikasi, kecuali variable target estimasilebih kearah numeric dari pada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variable target sebagai nilai prediksi. Selanjutnya , pada peninjauan berikutnya estimasi nilai dari variabel target dapat dibuat berdasarkan nilai variable prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variable prediksi dalam proses pembelajararn akan menghasilkan model estimasi. Model estimasi yang digunakan untuk kasus baru lainnya.


3.          Prediksi

Prediksi hamper sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada dimasa mendatang.

Contoh prediksi dalam bisnis dan penelitian adalah:

a.          Prediksi harga beras dalam tiga bulan yang akan datang.
b.          Prediksi  presentase  kenaikan kecelakaan  lalu  lintas  tahun  depan jika batas bawah kecepatan dinaikkan Beberapa  metode  dan  teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.

4.          Klasifikasi

Dalam klasifikasi, terdapat target variable kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah. Contoh lain klasifikasi dalam bisnis dan penelitian adalah:

a.         Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan.

b.         Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik atau buruk.
c.          Mendiagnosa penyakit seorang pasien untuk mendapatkan termasuk kategori apa.


5.          Pengklusteran
Pengklusteran merupakan pengelompokan record pengamatan , atau memperhatikan atau membentuk kelas objek-objek yang memiliki kemiripan. Kluster adalah kumpulan record yang memiliki kemiripan suatu dengan yang lainnya dan memiliki ketidakmiripan dengan record dalam kluster lain.
Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variable target dalam pengklusteran. Pengklusteran tidak mencoba           untuk    melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variable target. Akan tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan dengan record dalam kelompok lain akan bernilai minimal.

Contoh pengklusteran dalam bisnis dan penelitian adalah:

a.         Mendapatkan    kelompok - kelompok konsumen  untuk  target  pemasaran dari  suatu produk bagi  perusahaan yang tidak memiliki dana pemasaran yang besar.
b.         Untuk  tujuan  audit akutasi, yaitu melakukan pemisahan terhadap prilaku financial dalam baik dan mencurigakan.
c.          Melakukan pengklusteran terhadap ekspresi dari gen, dalam jumlah besar.

6.          Asosiasi

Tugas asosisasi dalam data mining adalah menentukan atribut yang muncul dalam suatu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja.

Contoh asosiasi dalam penelitian adalah:

a.         Meneliti        jumlah pelanggan  dari  perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respon positif terhadap penawaran upgrade layanan yang diberikan.
b.         Menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli secara bersamaan.


Tantangan Dalam Data Mining

Tantangan dalam data mining meliputi ( Fajar Astuti Hermawati, 2009) :

1.         Scalability, yaitu besarnya ukuran basis data yang digunakan.
2.         Dimensionality, yaitu banyaknya jumlah atribut dalam data yang akan diproses.
3.         Complex and Heterogeneous Data, yaitu data yang kompleks dan mempunyai variasi yang beragam.
4.         Data Quality, kualitas data yang akan diproses seperti data yang bersih dari noise, missing value, dsb.

5.         Data Ownership and Distribution, yaitu siapa yang memiliki data dan bagaimana distribusinya.

6.         Privacy Preservation, yaitu menjaga kerahasiaan data yang banyak dierapkan pada data nasabah perbankan.

7.         Streaming Data, yaitu aliran data itu sendiri.

Kemajuan Dalam Data Mining Kemajuan luar biasa yang terus berlanjut dalam bidang data mining didorong oleh beberapa factor, antara lain (Larose, 2005) / (Kusrini & Luthfi,2009).

1.       Pertumbuhan yang cepat dalm kumpulan data.
2.       Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan memiliki akses ke dalam database yang andal.
3.       Adanya peningkatan akses data melalui navigasi web dan intranet.
4.       Tekanan kompetensi bisnis untuk meningkatkan penguasaan pasar dalam globalisasi ekonomi.
5.       Perkembangan teknologi perangkat lunak untuk data mining (ketersediaan teknologi).
6.       Perkembangan yang hebat dalam kemampuan komputasi dan pengembangan kapasitas media penyimpanan.


Tahap-tahap Data Mining

Istilah data mining dan knowledge discovery in database (KDD) sering kali

digunakan secara bergantian unutk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda,tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut (Fayyad, 1996) / ((Kusrini & Luthfi,2009).

1.       Data Selection

Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai dari data hasil seleksi yang akan digunakan untuk proses data mining disimpan dalam suatu berkas, terpisah dari basis data operasional.

2.       Pre-processing / Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang konsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada. Dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

       
3.         Transformation

Coding adalah proses transformasi pada data yang telah dipilih sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung kepada jenis atau pola informasi yang akan dicari dalam bisnis data.

                  
4.         Data Mining
                    
Data Mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5.         Interpretation/Evaluation
                    
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

                    

Clustering

Analisa cluster yaitu menemukan kumpulan objek hingga objek-objek dalam satu kelompok sama (atau punya hubungan) dengan yang lain dan berbeda (atau tidak berhubungan) dengan objek-objek dalam kelompok lain (Fajar Astuti Hermawati,2013).
Clustering adalah metode penganalisaan data, yang sering dimasukkan sebagai salah satu metode Data Mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik yang sama ke suatu „wilayah‟ yang sama dan data dengan karakteristik yang berbeda ke „wilayah‟ yang lain.
Ada beberapa pendekatan yang digunakan dalam mengembangkan metode clustering.
Dua pendekatan utama adalah clustering dengan pendekatan partisi dan clustering dengan pendekatan hirarki. Clustering dengan pendekatan partisi atau sering disebut dengan partition-based clustering mengelompokkan data dengan memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada. Clustering dengan pendekatan hirarki atau sering disebut dengan hierarchical clustering mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang berjauhan.

Tujuan Clustering

Ada pun tujuan dari data clustering ini adalah untuk meminimalisasikan objective function yang diset dalam proses clustering, yang pada umumnya berusaha meminimalisasikan variasi di dalam suatu cluster dan memaksimalisasikan variasi antar cluster (Jurnal Sistem dan Informatika Vol. 3, 2007).

K-means

Defenisi K-means

K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok. Metode ini mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain. (Jurnal Sistem dan Informatika Vol. 3, 2007).

K-means Clustering

Menggunakan pendekatan partitional clustering . Tiap cluster dihubungkan dengan sebuah centroid (titik pusat). Tiap titik pusat ditempatkan          ke            dalam    cluster    dengan centroid terdekat. Jumlah cluster, K, harus ditentukan. Algoritma dasarnya sangat sederhana, yaitu (Fajar Astuti Hermawati, 2013) :

1.       Pilih K titik sebagai centroid  awal
2.       Ulangi

3.       Bentuk K cluster dengan menempatkan semua titik yang terdekat.

4.       Ulangi perhitungan centroid dari tiap cluster.

5.       Sampai centroid  tidak berubah.

3.      Analisa dan Hasil

1.       Analisa Sistem

Untuk analisa sistem, penulis menggunakan aturan asosiasi dimana bentuk umum dari aturan asosiasi adalah :

Algoritma pengelompokkan data :

a.       Ambil nilai jarak tiap pusat cluster dengan data
b.       Cari nilai jarak terkecil
c.        Kelompokkan data dengan pusat cluster yang memiliki jarak terkecil.

1.       Penentuan pusat cluster baru Untuk mendapatkan pusat cluster baru bisa dihitung dari rata-rata nilai anggota cluster dan pusat cluster. Pusat cluster yang baru digunakan untuk melakukan iterasi selanjutnya, jika hasil yang didapatkan belum konvergen. Proses iterasi akan berhenti jika telah memenuhi maksimum iterasi yang dimasukkan oleh user atau hasil yang dicapai sudah konvergen (pusat cluster baru sama dengan pusat cluster lama). Algoritma penentuan pusat cluster :

a.     Cari jumlah anggota tiap cluster
b.     Hitung pusat baru dengan rumus







Dimana :
X1, X2, X3,.... Xn = anggota cluster

Xp = pusat lama
Dari  aturan-aturan  asosiasi  tersebut,  penulis merancang sistem dengan melakukan perhitungan terhadap data yang telah didapat. Data yang masuk dalam perhitungan, penulis menggunakan beberapa data transaksi saja sebagai sampel dari perancangan sistem.


Tabel Transaksi Penjualan



Pada tahap ini akan dilakukan proses utama yaitu segmentasi atau pengelompokkan data Penjualan Barang yang diakses dari database, yaitu sebuah metode clustering algoritma K-Means.
Dari banyak data penjualan yang diperoleh, Percobaan dilakukan dengan menggunakan parameter-parameter berikut :

Jumlah cluster : 2
Jumlah data : 18
Jumlah atribut : 2

Pada table dibawah ini merupakan sampel data yang digunakan untuk melakukan percobaan perhitungan manual.

2.       Proses Iterasi ke-1

1.  Penentuan pusat awal cluster

Pusat awal cluster atau centroid didapatkan secara random, untuk penentuan awal cluster di asumsikan :
Pusat Cluster 1: (37 ,24)
Pusat Cluster 2: (19,8)

  2.    Perhitungan jarak pusat cluster
Untuk mengukur jarak antara    data        dengan   pusat      cluster digunakan Euclidian distance, kemudian akan didapatkan matrik jarak sebagai berikut:

                   Rumus           euclidian      distance             :
       
             d =| x - y |= ån= (xi  - yi )2

i     1



X = Pusat cluster

Y = data

Dari 10 data yang dijadikan sampel telah dipilih pusat awal cluster yaitu C1 (37 , 24), dan C2 (19 , 8). Lalu dilakukan penghitungan jarak dari sisa sampel data dengan pusat cluster yang dimisalkan dengan M(a,b), dimana a merupakan jumlah stock, dan b jumlah terjual yang diperkecil menjadi angka puluhan juta agar cara penghitungan lebih mudah.

1.     M1 = (34,17)
2.     M2 = (35,24)
3.     M3 = (55,31)

4.     M4 = (27, 24)
5.     M5 = (36,24)
6.     M6 = (31,26)
7.     M7 = (14,5)

8.     M8 = (25,10)
9.     M9 = (13,7)

10.  M10 = (27,11)
11.  M11 = (23,11)
12.  M12 = (19,11)
13.  M13 = (14,2)
14.  M14 = (45,26)

15.  M15 = (23,13)
16.  M16 = (16,7)
17.  M17= (20,5)

18.                M18 = (19,11)






       Gambar Hasil Diagram Clustering

       Hitung Euclidean distance dari semua data kesetiap titik pusat pertama :
       Dengan cara yang sama hitung jarak titik ketitik pusat ke-2 dan kita akan mendapatkan :


       Dari hasil penghitungan Euclidean distance, kita dapat membandingkan :
       Antara C1 dan C2, C1 menerangkan barang yang tidak laris sedangkan C2 menerangkan barang yang laris. Disini penulis hanya mengambil dua cluster karena penulis ingin membatasinya.

Tabel Hasil Iterasi 1
{M1, M2,M3,M4,M5,M6,M14}: Anggota C1
{,M7,M8,M9,M10,M11,M12,M13,M15,M16,17,M18}    : Anggota C2

Kesimpulan : M1,M2,M3,M4,M5,M6,M14 merupakan anggota dari cluster 1 dan M7,M8,M9,M10,M11,M12,M15,M16,M17,M 18 merupakan anggota dari cluster 2.

                               

{,M7,M8,M9,M10,M11,M12,M13,M15,M16,17,M18}         : Anggota C2

Kesimpulan :
M1,M2,M3,M4,M5,M6,M14 merupakan anggota dari cluster 1 dan M7,M8,M9,M10,M11,M12,M15,M16,M17,M 18 merupakan anggota dari cluster 2.

5.  PENUTUP Kesimpulan
Dari  penulisan  penelitian  ini  mulai dari tahapan analisa permasalahan yang ada, hingga  pengujian  aplikasi  sistem  yang  baru maka  dapat  diambil    beberapa   kesimpulan yaitu :                   1. Aplikasi data mining ini dapat membantu pimpinan untuk mengambil keputusan dalam menigkatkan efektifitas penjualan laptop di toko Tri Buana Computer yang sebelumnya masing cenderung lambat.

   2. Aplikasi data mining memberikan kemudahan dalam pengolahan data, pimpinan hanya menginputkan data lalu aplikasi akan melakukan proses dan melakukan hasil analisa.

   3. Dari hasil analisa yang telah dilakukan maka aplikasi dapat membantu mempermudah pihak toko dalam memprediksi tingkat penjualan.

Dari hasil analisis yang dilakukan, sistem yang dirancang masih memiliki keterbatasan yaitu, aplikasi data mining ini pada intinya hanya bisa memberikan informasi kepada pimpinan untuk menganalisa dan mengambil keputusan terhadap proses analisa barang
         



DAFTAR PUSTAKA

Hermawati, Fajar Astuti.2013, Data MiningBandung : Dunia Koputer.

Kusrini, Emha Taufiq Lutfhi, 2011 Algoritma Data  Mining.  Bandung  :  Andi Publisher.

Oktavian, Diar Puji, 2013. Komputerpedia Membuat ebsite Powerfull menggunakan PHP. Yogyakarta : MEDIA KOM

Sommerville, lan, 2013, Softare Enginering. Jakarta : Erlangga.

S, Rosa A. dan M Shalahuddin, 2013. Rekayasa Perangkat Lunak Terstruktur dan Berorientasi Objek. Bandung : Informatika

Tidak ada komentar:

Posting Komentar

Kasus yang Terkait dari Faktor Ekonomi, Biologis, Sikologis, dan Budaya

1. Faktor Psikologis Faktor keempat penyebab masalah sosial terjadi di masyarakat adalah faktor psikologis. Faktor psikologis berhubung...