Linear Regresi Zirkonia
Linear Regresi Zirkonia
DISIAPKAN OLEH
MURALIDHARAN N
REGRESI LINIER
Anda dipekerjakan oleh perusahaan Gem Stones co ltd, yang merupakan produsen
zirkonia kubik. Anda diberikan kumpulan data yang berisi harga dan atribut lain
dari hampir 27.000 kubik zirkonia (yang merupakan alternatif berlian murah
dengan banyak kualitas yang sama dengan berlian). Perusahaan menghasilkan
keuntungan yang berbeda pada slot hadiah yang berbeda. Anda harus membantu
perusahaan dalam memprediksi harga batu berdasarkan rincian yang diberikan
dalam kumpulan data sehingga dapat membedakan antara batu yang
menguntungkan lebih tinggi dan batu yang menguntungkan lebih rendah sehingga
memiliki pembagian keuntungan yang lebih baik. Juga, berikan mereka 5 atribut
terbaik yang paling penting.
Kamus data:
Nama Variabel Keterangan
Karat Berat karat dari zirkonia kubik.
1.1 .Baca data dan lakukan analisis data eksplorasi. Jelaskan data secara
singkat. (Periksa nilai nol, tipe data, bentuk, EDA). Lakukan Analisis
Univariat dan Bivariat.
Memuat semua pustaka yang diperlukan untuk pembuatan model.
Sekarang, baca head dan tail dari kumpulan data untuk memeriksa apakah data
telah dimasukkan dengan benar.
KEPALA DATA
Tanpa nama: 0 karat memotong warna kejelasa kedala meja X y Z harga
n man
0 1 0.30 Ideal e SI1 82.1 58.0 4.27 4.29 2.66 499
EKOR DATA
kejelasa kedala
Tanpa nama: 0 karat memotong warna n man meja X y z harga
26962 26963 1 11 Premium G SI1 82.3 58.0 6 81 6 52 4.09 5408
26963 26984 0.33 Ideal H F 81.9 55.0 4.44 4.42 2.74 1114
Kami memiliki tipe data float, int dan objek dalam data.
DESKRIPSI DATA
menghit unik atas freku berarti std min 25% 50% 75% maks
ung ensi
Tanpa nama:
25967 NaN NaN NaN 13484 7784.85 1 6742.5 13484 20225.5 26967
0
karat 26967 NaN NaN NaN 0.798375 0.477745 0.2 04 0.7 1 05 4.5
memotong 26967 5 Ideal 10816 NaN NaN NaN NaN NaN NaN NaN
warna 26967 7 G 5661 NaN NaN NaN NaN NaN NaN NaN
kejelasan 26967 8 SI1 6571 NaN NaN NaN NaN NaN NaN NaN
kedalaman 26270 NaN NaN NaN 61.7451 1.41286 50.8 61 61.8 62.5 73.6
z 26967 NaN NaN NaN 3.53806 0.720624 0 2.9 3.52 4.04 31.8
harga 26967 NaN NaN NaN 3939.52 4024.86 326 945 2375 5360 18818
Kami memiliki 5 potongan dan yang ideal tampaknya merupakan potongan yang paling disukai
WARNA: 7
J 1443
saya 2771
D 3344
H 4102
F 4729
E 4917
G 5661
KEJELASAN: 8
REGRESI LINIER..........................................................................................................................1
REGRESI LINIER.......................................................................................................................2
DESKRIPSI DATA.....................................................................................................................4
Nilai unik dalam data kategorikal................................................................................................5
Kualitas semakin meningkat Sesuai pesanan Adil, Bagus, Sangat
Bagus, Premium, Ideal .................................................................................................11
DISTRIBUSI DATA.................................................................................................................17
MATRIKS KORELATIOM......................................................................................................18
SKALA......................................................................................................................................20
SEBELUM PENSkalaan – NILAI VIF.....................................................................................21
SETELAH SKALA – NILAI VIF.............................................................................................21
MEMERIKSA OUTLIER DALAM DATA..............................................................................21
SEBELUM MENGOBATI OUTLIER......................................................................................21
Dummies telah dikodekan.........................................................................................................29
Latihan/ Uji split........................................................................................................................29
4575
6099
6571
Analisis Univariat / Bivariat
5
Distribusi data dalam karat tampaknya condong positif, karena ada beberapa titik puncak
dalam distribusi yang mungkin multimode dan plot kotak karat tampaknya memiliki
sejumlah besar outlier. Dalam kisaran 0 hingga 1 di mana sebagian besar data berada.
condong
1.116481
tabel -0.028618
kedalam
0.765758
an karat
0. 387986
X
3.850189
yz 2.568257
tipe 1.618550
harga :
float64
ANALISIS BIVARIAT
MEMOTONG :
Kualitas semakin meningkat Sesuai pesanan Adil, Bagus,
Sangat Bagus, Premium, Ideal .
Alasan untuk potongan ideal yang paling disukai adalah karena berlian tersebut
dihargai lebih rendah daripada potongan lainnya.
WARNA:
d arity
Data tidak memiliki berlian FL, dari sini kita dapat dengan jelas memahami
bahwa berlian tanpa cela tidak membawa keuntungan apa pun ke toko.
Lebih banyak hubungan antara variabel
kategorikal
Potong dan
warnai
Potong dan
kejelasan
KORLEASI
KARAT VS
HARGA
KEDALAMAN VS
HARGA
X VS
HARGA
Y VS HARGA
Z VS HARGA
DISTRIBUSI DATA
MATRIKS KORELATIOM
Tanpa nama:
1.00 0.00 -0.00 0.00 0.00 0.01 0.00 0.00
0
kedala
-0.00 1.00 -0.30 -0.02 -0.02 -0.00
man
1
y 0.01 0.94 -0.02 096 1.00 0.93 0.86
Tanpa kedala
nama: □ karat man meja K y z harga
1.2 Hitung nilai nol jika ada, periksa juga nilai yang sama dengan nol. Apakah mereka memiliki
arti atau apakah kita perlu mengubahnya atau membuangnya? Apakah menurut Anda penskalaan
diperlukan dalam kasus ini?
: df . isnull() . jumlah()
Tanpa nama: 0
0
karat 0
memotong 0
warna 0
kejelasan 0
tabel kedalaman 697
X 0
0
0
harga 0
dtype: int64 0
Ya, kami memiliki nilai Null secara mendalam, karena kedalaman berarti variabel kontinu
atau imputasi median dapat dilakukan.
Persentase nilai Null kurang dari 5%, kita juga bisa membuangnya jika kita mau.
Setelah imputasi median, kami tidak memiliki nilai nol dalam kumpulan data.
REGRESI LINIER.....................................................................................................................1
REGRESI LINIER..................................................................................................................2
DESKRIPSI DATA................................................................................................................4
Nilai unik dalam data kategorikal...........................................................................................5
Kualitas semakin meningkat Sesuai pesanan Adil, Bagus, Sangat Bagus,
Premium, Ideal ............................................................................................................11
DISTRIBUSI DATA............................................................................................................17
MATRIKS KORELATIOM.................................................................................................18
SKALA.................................................................................................................................20
SEBELUM PENSkalaan – NILAI VIF................................................................................21
SETELAH SKALA – NILAI VIF........................................................................................21
MEMERIKSA OUTLIER DALAM DATA.........................................................................21
SEBELUM MENGOBATI OUTLIER.................................................................................21
Dummies telah dikodekan....................................................................................................29
Latihan/ Uji split...................................................................................................................29
dtype: int64
6034 6035 2.02 Premium H VS2 62.7 53.0 8.02 7.95 0.0 18207
6215 6216 0.71 Bagus F SI 2 84.1 60.0 0.00 0.00 0.0 2130
10827 10828 2.20 Premium H SI1 61.2 59.0 8.42 8.37 0.0 17265
17506 17507 1 14 Adil G VS1 57.5 67.0 0.00 0.00 0.0 6381
Kami memiliki baris tertentu yang memiliki nilai nol, x, y, z adalah dimensi berlian
sehingga ini tidak dapat dimasukkan ke dalam model. Karena jumlah barisnya sangat
sedikit.
Kita dapat menghapus baris ini karena tidak memiliki arti apa pun dalam pembuatan
model.
SKALA
Penskalaan dapat berguna untuk mengurangi atau memeriksa multikolinearitas dalam data,
jadi jika penskalaan tidak diterapkan, saya menemukan nilai faktor inflasi varians VIF
sangat tinggi. Yang menunjukkan adanya multicollinearity
Nilai-nilai ini dihitung setelah membangun model regresi linier. Untuk memahami
multikolinearitas dalam model
Penskalaan tidak berdampak pada skor model atau koefisien atribut maupun intersep.
SEBELUM PENSkalaan – NILAI VIF
karat ---> 124.32595405062301
kedalaman ---> 1497.6352441517224
tabel ---> 1002.8676766903022
x - --> 12004.212489729716
y ---> 11533.491914672943
Z ---> 3442. 374035538099
1
cut_Bagus ---> 4,5067464355335495
8
cut_Ideal ---> 18.17410430875144
cut_Premium ---> 10.884031423492264
cut_Sangat Bagus ---> 10,062010659328735
warna E ---> 2 .479075675651354
SETELAH SKALA – NILAI VIF
karat ---> 33.35287649550623
kedalaman ---> 4,574003842337535 tabel ---> 1,7722022611198975
X ---> 463.94494858728734
y ---> 463.08309600508517
Z ---> 238.6002431605187
cut_Good - --> 3 . 6104961328079184 cut_Ideal ---> 14.347409690217962 cut_Premium ---> 8.623207030351887
cut_Sangat Bagus ---> 7.852218650260111 warna E ---> 2.371053795458172
0 2 4 6 3
karat
20
21
22
-1.0 -0.5 0.0 0.5 1.0 1.5 20 25
karat
kedala
man
24
1.3 Enkode data (memiliki nilai string) untuk Pemodelan. Pemisahan Data: Pisahkan data
menjadi tes dan latih (70:30). Terapkan regresi Linear. Metrik Performa: Periksa performa
Predictions on Train and Test set menggunakan Rsquare, RMSE.
ENCODING NILAI STRING
DAPATKAN DUMMIES
Indeks(L'Tanpa Nama: 0', 'karat', 'kedalaman', 'meja', 'x", "y', 'z', "harga',
' cut_Good ' , ' cut_Ideal ' , "cut Premium' j 'cut_VeryGood', 'color_E' "color_F', 'colon_G', 'color_H', "color_I',
'colonr_J', 'clarity_IF 'clarity_s1', 'clarity_S12', 'kejelasan_Vs1', 'kejelasan_Vs2', 'kejelasan_ws1' , 'kejelasan_Ws2' ]
,
dtype= 1 objek " )
Dummies telah dikodekan.
Model regresi linier tidak mengambil nilai kategori sehingga kami
telah menyandikan nilai kategori ke bilangan bulat untuk hasil yang
lebih baik.
# jatuhkan kolom id karena digunakan Less untuk modelL data_model = data.drop(columns=[ 'Unnamed: 0'], axis=l)
data_model . kolom
Index([ ' carat', 'depth', 'table', 'x', 'y', 'z', 'price', 'cut_Good', 'cut_Ideal', 'cut_Premium', 'cut_Very Good', 'color E',
'color_F', 'color_G', 'colorH', 'color_I', 'color_J', 'clarity_IF', 'clarity_SI1 'clarity_s2', 'clarity_Vs1' ,
'clarity_Vs2', 'clarity_wVs1', 'clarityws2' ] ,
dtype= ' objek " }
Model Regresi Linear
]: # aktifkan fungsi LinearRegression dan temukan model yang paling cocok pada data pelatihan
0.9419557931252712
0.20690072466418796
0.21647817772382869
VIF –NILAI
karat ---> 33.35086119845924 kedalaman ---> 4.573918951598579 tabel ---> 1.7728852812618958 X --->
463.5542785436457 y ---> 462.769821645584 z ---> 238,6 5819968687333 cut_Baik ---> 3,509618194943713 cutIdeal --->
14,34812508118844 cut_Premium - --> 8.623414379121153 cut_Sangat Bagus ---> 7.848451571723695 warna E --->
2.371070464762613
Kami masih menemukan kami memiliki multi collinearity dalam dataset, untuk
menjatuhkan nilai-nilai ini ke level yang lebih rendah, kami dapat menghapus kolom
setelah melakukan model statistik.
2
9
Dari model statistik kita dapat memahami fitur-fitur yang tidak berkontribusi pada
Model
Kami dapat menghapus fitur tersebut setelah itu Nilai Vif akan berkurang
STATSMODEL
Kuadrat F-statistik : 1
Metode: 330e+04 Terkecil
Jum , 15 Januari Prob (F-statistik):
Tanggal:
0.00 2021
Kemungkinan Log:
Waktu:
2954.6 22:15:37
TIDAK. AIC:
Pengamatan: - 18870
5861. BIC:
Residu Df: -5673. 18846
Model Df:
Jenis Kovarian: 23
tidak kuat
=================
========== koef
std salah T P>|t| [0.025
isien
Untuk idealnya menurunkan nilai ke level yang lebih rendah, kita dapat membuang
salah satu variabel yang berkorelasi tinggi.
Menjatuhkan variabel akan menurunkan tingkat multikolinearitas.
1.4 Kesimpulan: Berdasarkan prediksi ini, apa wawasan dan rekomendasi bisnisnya.
Kami memiliki masalah bisnis untuk memprediksi harga batu dan memberikan wawasan bagi
perusahaan tentang keuntungan pada slot hadiah yang berbeda. Dari analisis EDA kita
dapat memahami pemotongan, pemotongan yang ideal memiliki jumlah keuntungan bagi
perusahaan. Warna H, I, J telah membeli keuntungan bagi perusahaan. Secara jelas jika kita
bisa melihat tidak ada batu yang sempurna dan tidak ada keuntungan yang berasal dari batu
l1, l2, l3. Jenis pemotongan yang ideal, premium dan sangat baik mendatangkan keuntungan
sedangkan yang adil dan baik tidak mendatangkan keuntungan.
Prediksi mampu menangkap 95% variasi harga dan dijelaskan oleh prediktor dalam set
pelatihan.
Menggunakan model statistik jika kita dapat menjalankan model lagi kita dapat memiliki nilai
P dan koefisien yang akan memberi kita pemahaman yang lebih baik tentang hubungan
tersebut, sehingga nilai lebih dari 0,05 kita dapat membuang variabel tersebut dan
menjalankan kembali model tersebut untuk hasil yang lebih baik.
Untuk akurasi yang lebih baik, jatuhkan kolom kedalaman dalam iterasi untuk hasil yang
lebih baik.
Rekomendasi
1. Jenis potongan yang ideal, premium, dan sangat bagus adalah yang menghasilkan
keuntungan sehingga kami dapat menggunakan pemasaran untuk ini untuk
menghasilkan lebih banyak keuntungan.
2. Kejernihan berlian adalah atribut penting berikutnya, semakin jelas batunya, semakin
banyak keuntungannya
Karat,
Y diameter batu kejernihan_IF kejernihan_SI1 kejernihan_SI2
kejernihan_VS1 kejernihan_VS2 kejernihan_VVS1 kejernihan_VVS2
TAMAT