Anda di halaman 1dari 12

LAPORAN ANALISIS BIG DATA

ANALISIS REGRESI LINIER


(STUDI KASUS PENJUALAN BAJU KAOS)

Oleh :

MUHAMMAD FAUZAN 20081027/2020


ALFATUR DEVAKI
LAURA ARIFAH HANUM 20081023/2020

PROGRAM STUDI MAGISTER MANAJEMEN


FAKULTAS EKONOMI
UNIVERSITAS NEGERI PADANG
2021
BAB I
PENDAHULUAN

A. LATAR BELAKANG
Data mining merupakan sekumpulan proses yang berguna mengeksplorasi
dan mencari nilai berupa informasi juga relasi-relasi kompleks yang selama ini
tersimpan dari suatu basis data. Data mining digunakan untuk pengelolaan data
yang besar serta membantu proses penyimpanan data transaksi dan memproses
data warehousing agar mendapatkan informasi yang diperlukan bagi
penggunanya. Prediksi adalah suatu proses memperkirakan secara sistematis
tentang sesuatu yang paling mungkin terjadi di masa depan berdasarkan informasi
masa lalu dan sekarang dimiliki, agar kesalahannya (selisih antara sesuatu yang
terjadi dengan hasil perkiraan) dapat diperkecil. Data mining selain digunakan
dalam penelitian pada sektor pendidikan, saat ini juga sudah mulai marak
digunakan untuk dalam bisnis baik sektor usaha baik jasa dan produk. Data
mining sendiri sangat bermanfaat apabila jumlah data yang tersedia sangat besar
yang tidak bisa diolah oleh teknik tradisional.
Untuk sektor UMKM khususnya penjualan baju kaos dinilai juga dapat
memanfaatkan analisis big data untuk melakukan prediksi khususnya terkait jam
kerja yang efektif dan efisien sehingga dapat meningkatkan produksi baju dan
kepuasan pelanggan dan dapat berjalan lancar dan memiliki keuntungan. Terlebih
lagi di tengah persaingan usaha yang semakin tinggi maka pelaku usaha harus
beroperasi secara efektif dan efisien.
A. RUMUSAN MASALAH
1. Apa itu Data Mining?
2. Apa itu Linear Regression Menggunakan RapidMiner Studio?
3. Bagaimana penggunaan Rapidminer pada penjualan baju kaos?
4. Bagaimana dari percobaan dan hasil percobaan Linear Regression
Menggunakan RapidMiner Studio dari Kasus Penjualan Baju Kaos?
BAB II
KAJIAN TEORI

A. DATA MINING
Data mining merupakan sebuah analisa dari observasi data dalam jumlah besar
untuk menemukan hubungan yang tidak diketahui sebelumnya dan dua metode
baru untuk meringkas data agar mudah dipahami penggunanya. Data mining bisa
menangani beberapa hal yang tidak bisa dilakukan oleh teknik tradisional seperti
Jumlah data yang sangat besar, dimensi data yang tinggi, dan data yang heterogen
dan berbeda sifat. Adapun untuk karakteristik data mining sebagai berikut :
a. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan
pola data tertentu yang tidak diketahui sebelumnya.
b. Data mining biasa menggunakan data yang sangat besar. Biasanya data yang
besar digunakan untuk membuat hasil lebih dipercaya.
c. Data mining berguna untuk membuat keputusan yang kritis, terutama dalam
strategi (Davies, 2004).

B.LINEAR REGRESSION
Regresi (regression) adalah proses identifikasi relasi dan pengaruhnya
pada nilai-nilai objek. Regresi bertujuan menemukan suatu fungsi yang
memodelkan data dengan meminimalkan galat atau selisih atara nilai
prediksi dengan nilai sebnarnya. Regresi dapat diapandang sebagai alat ukur
untuk mengetahui adanya korelasi antar variabel dan bisa juga untuk
menentukan tingkat perubahan suatu variabel terhadap variabel lainnya.
Regresi linier merupakan suatu alat ukur yang dapat digunakan untuk
mengetahui adanya korelasi antara beberapa variabel. Dalam regresi linier ada
beebrapa hal yang harus dipahami diantaranya variabel terikat, variabel bebas,
konstanta dan koefisien regresi. Kalau ditinjau keakurasianya dalam
pemecahan sebuah kasus, regresi memiliki tingkat akurasi yang lebih baik di
dalam di dalam konsep analisis sebuah hubungan anatara 1 (satu) vari dengan
variabel lainnya.
Regreresi adalah analisis yang bertujuan untuk mengetahui hubungan
antara satu atau lebih variabel bebas (independen) dengan variabel tidak bebas
(dependen). Karena regresi bersifat prediktif, varibel bebas disebut juga sebagai
variabel prediktor/deskriptor dan variabel tidak bebas disebut juga sebagai
variabel respon. Regresi menghasilkan suatu persamaan matematika yang
disebut sebagai model regresi yang memprediksi satu variabel kontinyu. Jika
hanya terdapat satu variabel prediktor dalam model regresi maka maka disebut
sebagai regresi sederhana sedangkan jika terdapat lebih dari satu variabel
prediktor dalam model maka disebut sebagai regresi berganda.
Satu model regresi dikatakan liner jika hubungan antar variabel prediktor
dengan variabel respon bersifat atau linier, dalam scatter plot akan terlihat
bahwa jika variabel prediktor naik, maka variabel respon juga akan naik dengan
proporsi tertentu.
C.RAPIDMINER STUDIO
RapidMiner adalah platform perangkat lunak data ilmu pengetahuan
yang dikembangkan oleh perusahaan dengan nama yang sama, yang
menyediakan lingkungan terpadu untuk pembelajaran mesin (machine learning),
pembelajaran mendalam (deep learning), penambangan teks (text mining), dan
analisis prediktif (predictive analytics). Aplikasi ini digunakan untuk aplikasi
bisnis dan komersial serta untuk penelitian, pendidikan, pelatihan, pembuatan
prototype dengan cepat, dan pengembangan aplikasi serta mendukung semua
langkah proses pembelajaran mesin termasuk persiapan data, visualisasi hasil,
validasi dan pengoptimalan. RapidMiner dikembangkan dengan model open
core.
RapidMiner menggunakan berbagai teknik deskriptif dan prediksi
dalam memberikan wawasan kepada pengguna sehingga dapat membuat
keputusan yang paling baik. RapidMiner memiliki kurang lebih 500 operator
data mining, termasuk operator untuk input, output, data preprocessing dan
visualisasi. RapidMiner ditulis dengan menggunakan bahasa java sehingga dapat
bekerja di semua sistem operasi.
RapidMiner sebelumnya bernama YALE (Yet Another Learning
Environment), dimana versi awalnya mulai dikembangkan pada tahun 2001 oleh
RalfKlinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence
Unit dari University of Dortmund. RapidMiner di distribusikan dibawah lisensi
AGPL (GNU Affero General Public License) versi 3. Hingga saat ini telah
ribuan aplikasi yang dikembangkan menggunakan RapidMiner di lebih dari 40
negara.
RapidMiner menyediakan GUI (Graphic User Interface) untuk
merancang sebuah pipeline analitis. GUI ini akan menghasilkan file XML
(Extensible Markup Language) yang mendefinisikan proses analitis keinginan
pengguna untuk di terapkan ke data. File ini kemudian dibaca oleh RapidMiner
untuk menjalankan analis secara otomatis.
RapidMiner memiliki beberapa sifat sebagai berikut:
1) Ditulis dengan bahasa pemrograman Java sehingga dapat dijalankan
di berbagai sistem operasi.
2) Proses penemuan pengetahuan di modelkan sebagai operator trees.
3) Representasi XML internal untuk memastikan format standar
pertukaran data.
4) Bahasa scripting memungkinkan untuk eksperimen skala besar dan
otomatisasi eksperimen.
5) Konsep multilayer untuk menjamin tampilan data yang efisien dan
menjamin penanganan data.
6) Memiliki GUI, command line mode, dan Java API yang dapat
dipanggil dari program lain.
Beberapa fitur dari RapidMiner, antara lain:
1) Banyaknya algoritma data mining, seperti decision tree dan self-
organization map.
2) Bentuk grafis yang canggih, seperti tumpang tindih diagram
histogram, tree chart, dan 3D scatter plots.
3) Banyaknya variasi plugin, seperti text plugin untuk melakukan
analisis teks.

D. Bisnis Kaos
Penggunaan kaos tidak terlepas dari kehidupan sehari-hari manusia karena
fungsinya yang sangat penting, yaitu sebagai sandang yang menutupi dan
melindungi tubuh manusia. Hal ini mendorong masyarakat untuk mengoleksi
berbagai jenis kaos dan pada akhirnya akan meningkatkan permintaan masyarakat
terhadap kaos. Melihat fenomena tersebut, maka timbulah ide untuk
mengembangkan suatu usaha kaos dimana masyarakat dapat memenuhi kebutuhan
primernya. Selain itu masyarakat juga tidak perlu mempersoalkan harga kaos yang
terlalu mahal dan desain serta bahan yang terkesan “pasaran”. Kaos saat ini tidak
hanya dijadikan kebutuhan akan fungsinya sebagai sandang, tetapi juga sebagai
gaya hidup.
BAB III
HASIL DAN PEMBAHASAN

1. Percobaan
Untuk memperkirakan jam kerja yang sesuai dengan jumlah produksi, maka
dilakukan analisis regresi linier sederhana yakni sebuah pola hubungan antar dua
variabel saja yakni variabel x (independent/bebas) dan variabel y
(dependent/terikat). Adapun yang bertindak sebagai variabel x yakni produksi dan
variabel y nya yakni jam kerja. Kemudian data tersebut akan diolah dengan
aplikasi RapidMiner untuk dapat diketahui hasil hubungan antar variabel serta
prediksi variabel y (jam kerja). Nantinya dari hal tersebut akan menghasilkan
sebuah aturan-aturan yang dapat membantu pimpinan perusahaan dalam
memprediksi jam kerja yang diharapkan agar operasional lebih efisien dan efektif.
Adapun langkah-langkah untuk melakukan uji regresi linear sederhana yakni:
1. Mengambil data set (data produksi dan jam kerja pelaku penjualan kaos).
2. Memilih atribut (menentukan 1 variabel dependen dan 1 variabel
independent)
3. Memilih set role (memilih produksi sebagai variabel independen dan
variabel jam kerja sebagai dependen)
4. Membagi data testing dan data training pada operator split data. Data
training terdapat 19 data (80%) dan data testing ada 5 data (20%).
5. Memasukkan data ke dalam proses linier regresi
6. Mendapatkan model data melalui operator apply model
7. Menginput keseluruhan melalui operator performance regression.
Gambar Pengolahan dataset melalui rapidminer

2. Hasil Percobaan
1. Nilai Root mean squared error (RMSE) pada performance training: 13.690
+/- 0.000
2. Nilai Squared correlation pada performance training: 0.975
3. Nilai: Root mean squared error (RMSE) pada performance testing: 5.812 +/-
0.000
4. Nilai: Squared correlation pada performance testing: 1.000
Secara umum untuk hubungan antara variabel x (jumlah produksi) dengan
variabel y (jam kerja) berdasarkan nilai square correlation baik hasil training
dan testing sama sama berada di nilai 0.9 yang berarti memiliki korelasi yang
sangat kuat dan positif antar variabel. Sementara untuk nilai RMSE jauh lebih
besar daripada standar nilai yang ada yakni sebesar 13.7 pada data training
dan 5.8 pada data testing, sehingga dapat dikatakan memiliki nilai eror yang
cukup tinggi.

Sedangkan untuk hasil regresi linier sendiri sbb:


1. Konstanta/intercept (b0) = 5.031 menunjukkan bahwa jika variabel x atau
produksi konstan maka rata-rata nilai variabel y atau jam kerja adalah
5.031. Sedangkan (b1) = 1,981 menunjukkan bahwa jika variabel x atau
produksi meningkat sebesar 1 satuan maka akan meningkatkan variabel y
atau masa kerja sebesar 1,981. Tanda (+) menujukkan bahwa jika variabel
x meningkat maka variabel y akan meningkat.
2. Terdapat pengaruh signifikan antara nilai intercept terhadap produksi serta
produksi terhadap jam kerja
3. Produksi secara parsial berpengaruh terhadap jam kerja
Gambar hasil regresi

Pada Hasil Model Testing dan training baik antara jumlah jam kerja
dengan prediksi jam kerja penjualan kaos terdapat perbedaan meski tidak
signifikan. Adanya perbedaan tersebut juga disebabkan karena besarnya nilai
RMSE yang lebih dari 1.

Hasil Model Testing

Hasil Model Training

Anda mungkin juga menyukai