Linear Regresi Zirkonia

REGRESI LINIER
DISIAPKAN OLEH
MURALIDHARAN N
REGRESI LINIER
Anda dipekerjakan oleh perusahaan Gem Stones co ltd, yang merupakan produsen
zirkonia kubik. Anda diberikan kumpulan data yang berisi harga dan atribut lain
dari hampir 27.000 kubik zirkonia (yang merupakan alternatif berlian murah
dengan banyak kualitas yang sama dengan berlian). Perusahaan menghasilkan
keuntungan yang berbeda pada slot hadiah yang berbeda. Anda harus membantu
perusahaan dalam memprediksi harga batu berdasarkan rincian yang diberikan
dalam kumpulan data sehingga dapat membedakan antara batu yang
menguntungkan lebih tinggi dan batu yang menguntungkan lebih rendah sehingga
memiliki pembagian keuntungan yang lebih baik. Juga, berikan mereka 5 atribut
terbaik yang paling penting.
Kamus data:
Nama Variabel Keterangan
Karat Berat karat dari zirkonia kubik.
Jelaskan kualitas potongan zirkonia

Memotong kubik. Kualitas meningkat agar Adil,
Bagus, Sangat Bagus, Premium, Ideal.
Warna zirkonia kubik. Dengan D
Warna menjadi yang terbaik dan J yang
terburuk.
Kejelasan zirkonia kubik mengacu
pada tidak adanya Inklusi dan Noda.
(Dalam urutan dari Terbaik ke Terburuk,
Kejelasan
FL = sempurna, I3= inklusi level 3) FL,
IF, VVS1, VVS2, VS1, VS2, SI1, SI2,
I1, I2, I3
Ketinggian zirkonia kubik, diukur dari

Kedalaman Culet ke meja, dibagi dengan Diameter
Girdle rata-rata.
Lebar Tabel zirkonia kubik dinyatakan

Meja
sebagai Persentase Diameter Rata-Rata.
Harga Harga zirkonia kubik.

X Panjang zirkonia kubik dalam mm.
Y Lebar zirkonia kubik dalam mm.
Ketinggian zirkonia kubik dalam mm.
1.1 .Baca data dan lakukan analisis data eksplorasi. Jelaskan data secara
singkat. (Periksa nilai nol, tipe data, bentuk, EDA). Lakukan Analisis
Univariat dan Bivariat.
Memuat semua pustaka yang diperlukan untuk pembuatan model.
Sekarang, baca head dan tail dari kumpulan data untuk memeriksa apakah data
telah dimasukkan dengan benar.
KEPALA DATA
Tanpa nama: 0 karat memotong warna kejelasa kedala meja X y Z harga
n man
0 1 0.30 Ideal e SI1 82.1 58.0 4.27 4.29 2.66 499
1 2 0.33 Premium □ F 60 8 58.0 4.42 4.46 2.70 984

Sangat
2 3 0.90 e WS2 82.2 80.0 8.04 8.12 3.78 6209
bagus
3 4 0.42 Ideal F VS1 81.6 56.0 4.82 4.80 2.96 1082
4 5 0.31 Ideal F WS1 60.4 59.0 4.35 4.43 2.65 779
EKOR DATA
kejelasa kedala
Tanpa nama: 0 karat memotong warna n man meja X y z harga
26962 26963 1 11 Premium G SI1 82.3 58.0 6 81 6 52 4.09 5408
26963 26984 0.33 Ideal H F 81.9 55.0 4.44 4.42 2.74 1114
26964 26965 0.51 Premium e VS2 81.7 58.0 5 12 5 15 3 17 1656

Sangat
26965 26986 0.27 F VVS2 81.8 56.0 4.19 4.20 2.60 682
bagus
26966 26967 1 25 Premium J 811 62.0 58.0 6.90 6 S3 4.27 5166
Memeriksa bentuk data (26967, 11)
Memeriksa info data

< kelas ' panda . core.frame . Data Frame ' > RangeIndex: 26967 entri, 0 hingga 26966 Kolom data (total
11 kolom):
# Kolom Hitungan Non-Null Dtype
Tanpa nama :
0 0 26967 bukan nol int64
1 karat 26967 bukan nol f
2 memotong 26967 bukan nol banyak64
obyek
3 warna 26967 bukan nol obyek
4 kejelasan 26967 bukan nol obyek
3 kedalaman 26270 bukan nol float64
6 meja 26967 bukan nol float64
7 X 26967 bukan nol float64
8 y 26967 bukan nol float64
9 z 26967 bukan nol f
16 harga 26967 bukan nol banyak64
int64
dtypes: float64(6), int64(2), objek(3)
penggunaan memori: 2,3+ MB
Kami memiliki tipe data float, int dan objek dalam data.
DESKRIPSI DATA
menghit unik atas freku berarti std min 25% 50% 75% maks
ung ensi
Tanpa nama:
25967 NaN NaN NaN 13484 7784.85 1 6742.5 13484 20225.5 26967
0
karat 26967 NaN NaN NaN 0.798375 0.477745 0.2 04 0.7 1 05 4.5
memotong 26967 5 Ideal 10816 NaN NaN NaN NaN NaN NaN NaN
warna 26967 7 G 5661 NaN NaN NaN NaN NaN NaN NaN
kejelasan 26967 8 SI1 6571 NaN NaN NaN NaN NaN NaN NaN
kedalaman 26270 NaN NaN NaN 61.7451 1.41286 50.8 61 61.8 62.5 73.6
meja 26967 NaN NaN NaN 57.4581 2.23207 49 56 57 59 79
X 26967 NaN NaN NaN 5.72985 1 0 4.71 5 69 6 55 10.23

12852
y 26967 NaN NaN NaN 5.73357 1 16606 0 4.71 5.71 6 54 58.9
z 26967 NaN NaN NaN 3.53806 0.720624 0 2.9 3.52 4.04 31.8
harga 26967 NaN NaN NaN 3939.52 4024.86 326 945 2375 5360 18818
Kami memiliki data kategorikal dan berkelanjutan,

Untuk data kategori, kami telah memotong, warna, dan kejelasan
Untuk data kontinu kami memiliki karat, kedalaman, tabel, x. y, z dan harga
Harga akan menjadi variabel target.
Memeriksa duplikat dalam data,
dups = df.duplikat()
print ( "Jumlah baris duplikat = %d ' % (cangkir .sum () ) )
Jumlah baris rangkap = 0
Nilai unik dalam data kategorikal

POTONG: 5
Adil 781
Bagus 2441
Sangat Bagus 6030
Premi 6899
Idealnya 10816
Kami memiliki 5 potongan dan yang ideal tampaknya merupakan potongan yang paling disukai
WARNA: 7
J 1443
saya 2771
D 3344
H 4102
F 4729
E 4917
G 5661
KEJELASAN: 8
REGRESI LINIER..........................................................................................................................1
REGRESI LINIER.......................................................................................................................2
DESKRIPSI DATA.....................................................................................................................4
Nilai unik dalam data kategorikal................................................................................................5
Kualitas semakin meningkat Sesuai pesanan Adil, Bagus, Sangat
Bagus, Premium, Ideal .................................................................................................11
DISTRIBUSI DATA.................................................................................................................17
MATRIKS KORELATIOM......................................................................................................18
SKALA......................................................................................................................................20
SEBELUM PENSkalaan – NILAI VIF.....................................................................................21
SETELAH SKALA – NILAI VIF.............................................................................................21
MEMERIKSA OUTLIER DALAM DATA..............................................................................21
SEBELUM MENGOBATI OUTLIER......................................................................................21
Dummies telah dikodekan.........................................................................................................29
Latihan/ Uji split........................................................................................................................29
4575
6099
6571
Analisis Univariat / Bivariat
5
Distribusi data dalam karat tampaknya condong positif, karena ada beberapa titik puncak
dalam distribusi yang mungkin multimode dan plot kotak karat tampaknya memiliki
sejumlah besar outlier. Dalam kisaran 0 hingga 1 di mana sebagian besar data berada.
Distribusi kedalaman tampaknya distribusi normal,

Kedalamannya berkisar antara 55 hingga 65
Plot kotak dari distribusi kedalaman memiliki banyak outlier.
Distribusi tabel juga tampaknya condong positif

Plot kotak tabel memiliki outlier
Sebaran data yang paling banyak berdistribusi adalah antara 55 sampai dengan 65.
Distribusi x (Panjang zirkonia kubik dalam mm.) miring positif
Kotak petak data terdiri dari banyak outlier
Distribusi mengamuk dari 4 menjadi 8
Distribusi Y (Lebar zirkonia kubik dalam mm.) miring positif

Plot kotak juga terdiri dari outlier
Distribusi terlalu condong positif. Kecondongan itu mungkin karena berlian selalu dibuat
dalam bentuk tertentu. Mungkin tidak ada terlalu banyak ukuran di pasar
Distribusi z (Tinggi zirkonia kubik dalam mm.) miring positif
Plot kotak juga terdiri dari outlier
Distribusi terlalu condong positif. Kecondongan itu mungkin karena berlian selalu dibuat
dalam bentuk tertentu. Mungkin tidak ada terlalu banyak ukuran di pasar
Harga tampaknya miring positif. Kemiringannya positif

Harga memiliki outlier dalam data
Distribusi harga dari rs 100 hingga 8000.
HARGA –
HIST
condong
1.116481
tabel -0.028618
kedalam
0.765758
an karat
0. 387986
X
3.850189
yz 2.568257
tipe 1.618550
harga :
float64
ANALISIS BIVARIAT
MEMOTONG :
Kualitas semakin meningkat Sesuai pesanan Adil, Bagus,
Sangat Bagus, Premium, Ideal .
Alasan untuk potongan ideal yang paling disukai adalah karena berlian tersebut
dihargai lebih rendah daripada potongan lainnya.
Potongan yang paling disukai tampaknya merupakan

potongan yang ideal untuk berlian.
WARNA:
D menjadi yang terbaik dan J yang terburuk.

Kami memiliki 7 warna dalam data, G tampaknya menjadi warna yang
disukai,
Kami melihat harga G berada di tengah-tengah tujuh warna, sedangkan J

sebagai harga warna terburuk tampaknya terlalu tinggi.
KEJELASAN:
Terbaik ke Terburuk, FL = sempurna, I3= inklusi level 3) FL, JIKA,
VVS1, VVS2, VS1, VS2, SI1, SI2, I1, I2, I3
d arity
Kejelasan VS2 tampaknya lebih disukai oleh orang-orang
d arity
Data tidak memiliki berlian FL, dari sini kita dapat dengan jelas memahami
bahwa berlian tanpa cela tidak membawa keuntungan apa pun ke toko.
Lebih banyak hubungan antara variabel
kategorikal
Potong dan
warnai
Potong dan
kejelasan
KORLEASI
KARAT VS
HARGA
KEDALAMAN VS
HARGA
X VS
HARGA
Y VS HARGA
Z VS HARGA
DISTRIBUSI DATA
MATRIKS KORELATIOM
Tanpa nama:
1.00 0.00 -0.00 0.00 0.00 0.01 0.00 0.00
0
karat 0.00 100 0.98 0.94 0.94 0.92
kedala
-0.00 1.00 -0.30 -0.02 -0.02 -0.00
man
meja 0.00 -0.30 1.00 0.20 0.18 015 0.13
K 0.00 0.98 -0.02 1.00 0.96 0.96 0.89
1
y 0.01 0.94 -0.02 096 1.00 0.93 0.86
Z 0.00 0.94 0.96 0.93 1.00 0.85
harga 0.00 0.92 -0.00 0.89 0.36 0.35 1.00
Tanpa kedala
nama: □ karat man meja K y z harga
Matriks ini dengan jelas menunjukkan adanya multikolinearitas dalam

dataset.
0 10000 20000 30000 0 2 50 60 70 50 60 70 80 0 5 10 0 20 40 60

Tanpa nama: 0 karat kedalaman meja X y
1
8
1.2 Hitung nilai nol jika ada, periksa juga nilai yang sama dengan nol. Apakah mereka memiliki
arti atau apakah kita perlu mengubahnya atau membuangnya? Apakah menurut Anda penskalaan
diperlukan dalam kasus ini?
: df . isnull() . jumlah()
Tanpa nama: 0
0
karat 0
memotong 0
warna 0
kejelasan 0
tabel kedalaman 697
X 0
0
0
harga 0
dtype: int64 0
Ya, kami memiliki nilai Null secara mendalam, karena kedalaman berarti variabel kontinu
atau imputasi median dapat dilakukan.
Persentase nilai Null kurang dari 5%, kita juga bisa membuangnya jika kita mau.
Setelah imputasi median, kami tidak memiliki nilai nol dalam kumpulan data.
REGRESI LINIER.....................................................................................................................1
REGRESI LINIER..................................................................................................................2
DESKRIPSI DATA................................................................................................................4
Nilai unik dalam data kategorikal...........................................................................................5
Kualitas semakin meningkat Sesuai pesanan Adil, Bagus, Sangat Bagus,
Premium, Ideal ............................................................................................................11
DISTRIBUSI DATA............................................................................................................17
MATRIKS KORELATIOM.................................................................................................18
SKALA.................................................................................................................................20
SEBELUM PENSkalaan – NILAI VIF................................................................................21
SETELAH SKALA – NILAI VIF........................................................................................21
MEMERIKSA OUTLIER DALAM DATA.........................................................................21
SEBELUM MENGOBATI OUTLIER.................................................................................21
Dummies telah dikodekan....................................................................................................29
Latihan/ Uji split...................................................................................................................29
dtype: int64
Memeriksa apakah ada nilai yang "0"

Tanpa nama: tabel kedalaman kejelasan warna potongan 0 karat Harga XyZ
5821 5822 0.71 Bagus F SI 2 64.1 60.0 0.00 0.00 0.0 2130
6034 6035 2.02 Premium H VS2 62.7 53.0 8.02 7.95 0.0 18207
6215 6216 0.71 Bagus F SI 2 84.1 60.0 0.00 0.00 0.0 2130
10827 10828 2.20 Premium H SI1 61.2 59.0 8.42 8.37 0.0 17265
12498 12499 2 18 Premium H SI 2 59.4 61.0 8.49 8.45 0.0 12631
12689 12690 1 10 Premium G SI2 63.0 59.0 6 50 6.47 0.0 3696
17506 17507 1 14 Adil G VS1 57.5 67.0 0.00 0.00 0.0 6381
18194 18195 1.01 Premium H 11 58.1 59.0 6 66 6 60 0.0 3167
23758 23759 1 12 Premium G 11 60.4 59.0 6.71 6 67 0.0 2383
Kami memiliki baris tertentu yang memiliki nilai nol, x, y, z adalah dimensi berlian
sehingga ini tidak dapat dimasukkan ke dalam model. Karena jumlah barisnya sangat
sedikit.
Kita dapat menghapus baris ini karena tidak memiliki arti apa pun dalam pembuatan
model.
SKALA
Penskalaan dapat berguna untuk mengurangi atau memeriksa multikolinearitas dalam data,
jadi jika penskalaan tidak diterapkan, saya menemukan nilai faktor inflasi varians VIF
sangat tinggi. Yang menunjukkan adanya multicollinearity
Nilai-nilai ini dihitung setelah membangun model regresi linier. Untuk memahami
multikolinearitas dalam model
Penskalaan tidak berdampak pada skor model atau koefisien atribut maupun intersep.
SEBELUM PENSkalaan – NILAI VIF
karat ---> 124.32595405062301
kedalaman ---> 1497.6352441517224
tabel ---> 1002.8676766903022
x - --> 12004.212489729716
y ---> 11533.491914672943
Z ---> 3442. 374035538099
1
cut_Bagus ---> 4,5067464355335495
8
cut_Ideal ---> 18.17410430875144
cut_Premium ---> 10.884031423492264
cut_Sangat Bagus ---> 10,062010659328735
warna E ---> 2 .479075675651354
SETELAH SKALA – NILAI VIF
karat ---> 33.35287649550623
kedalaman ---> 4,574003842337535 tabel ---> 1,7722022611198975
X ---> 463.94494858728734
y ---> 463.08309600508517
Z ---> 238.6002431605187
cut_Good - --> 3 . 6104961328079184 cut_Ideal ---> 14.347409690217962 cut_Premium ---> 8.623207030351887
cut_Sangat Bagus ---> 7.852218650260111 warna E ---> 2.371053795458172
MEMERIKSA OUTLIER DALAM DATA

SEBELUM MENGOBATI OUTLIER
0 2 4 6 3
karat
20
21
22
-1.0 -0.5 0.0 0.5 1.0 1.5 20 25
karat
kedala
man
24
1.3 Enkode data (memiliki nilai string) untuk Pemodelan. Pemisahan Data: Pisahkan data
menjadi tes dan latih (70:30). Terapkan regresi Linear. Metrik Performa: Periksa performa
Predictions on Train and Test set menggunakan Rsquare, RMSE.
ENCODING NILAI STRING
DAPATKAN DUMMIES
data = pd.get_dummies(df, kolom=[ 'potong warna' , 'kejelasan '] ,drop_first=True)
Tanpa potong_Ba kejelasan J F

nama: karat kedalaman meja X y z harga cut_Ideal .. .. warna_H warna J warna_J
gus c
0
0 -1.731904 -1.043125 0.253399 0.244112 -1.295920 -1.240065 -1.224865 -0.854851 0 1 .. . 0 0 0 0
1 -1.731776 -0.980310 -0.679158 0.244112 -1.162787 -1.094057 -1.169142 -0.734303 0 0 .. . 0 0 0 1
2 -1.731647 0.213173 0.325134 1.140496 0.275049 0.331668 0.335404 0.584271 0 0 .. . 0 0 0 0
3 -1.731519 -0.791865 -0.105277 -0.652273 -0.807766 -0.802041 -0.806936 -0.709945 0 1 .. . 0 0 0 0
4 -1.731390 -1.022187 -0.966099 0.692304 -1.224916 -1.119823 -1.238796 -0.785257 0 1 .. .. 0 0 0 0

5 baris x 25 kolom
Indeks(L'Tanpa Nama: 0', 'karat', 'kedalaman', 'meja', 'x", "y', 'z', "harga',
' cut_Good ' , ' cut_Ideal ' , "cut Premium' j 'cut_VeryGood', 'color_E' "color_F', 'colon_G', 'color_H', "color_I',
'colonr_J', 'clarity_IF 'clarity_s1', 'clarity_S12', 'kejelasan_Vs1', 'kejelasan_Vs2', 'kejelasan_ws1' , 'kejelasan_Ws2' ]
,
dtype= 1 objek " )
Dummies telah dikodekan.
Model regresi linier tidak mengambil nilai kategori sehingga kami
telah menyandikan nilai kategori ke bilangan bulat untuk hasil yang
lebih baik.
MENJATUHKAN KOLOM YANG TIDAK DIINGINKAN

Latihan/ Uji split
# jatuhkan kolom id karena digunakan Less untuk modelL data_model = data.drop(columns=[ 'Unnamed: 0'], axis=l)
data_model . kolom
Index([ ' carat', 'depth', 'table', 'x', 'y', 'z', 'price', 'cut_Good', 'cut_Ideal', 'cut_Premium', 'cut_Very Good', 'color E',
'color_F', 'color_G', 'colorH', 'color_I', 'color_J', 'clarity_IF', 'clarity_SI1 'clarity_s2', 'clarity_Vs1' ,
'clarity_Vs2', 'clarity_wVs1', 'clarityws2' ] ,
dtype= ' objek " }
Model Regresi Linear
]: # aktifkan fungsi LinearRegression dan temukan model yang paling cocok pada data pelatihan
model_regresi = LinearRegresi() model_regresi.fit(X_train, y_train)
Koefisien karat adalah 1,1009417847804501

Koefisien untuk kedalaman adalah 0,005605143445570377
Koefisien untuk tabel adalah -0,013319500386804035
Koefisien untuk x adalah -0,30504349819633475
Koefisien untuk y adalah 0,30391448957926553
Koefisien untuk z adalah -0,13916571567987943
Koefisien untuk cut_Good adalah 0,09403402912977911
Koefisien cut_Ideal adalah 0,1523107462056746
Koefisien untuk cut_Premium adalah 0,14852774839849378
Koefisien untuk cut_Very Good adalah 0,12583881878452705
Koefisien untuk color_E adalah -0,04705442233369822
Koefisien untuk color_F adalah -0,06268437439142825
Koefisien untuk color_G adalah -0,10072161838356786
Koefisien untuk color_H adalah -0,20767313311661612 Koefisien untuk color_I adalah -
0,3239541927462737
Koefisien untuk color_J adalah -0,46858930275015803
Koefisien untuk kejelasan_JIKA adalah 0,9997691394634902
Koefisien untuk kejelasan_SI1 adalah 0,6389785818271332 Koefisien untuk
kejelasan_SI2 adalah 0,42959662348315514
Koefisien untuk kejelasan_VS1 adalah 0,8380875826737564 Koefisien untuk
kejelasan_VS2 adalah 0,7660244466083613
Koefisien untuk kejelasan_VVS1 adalah 0,9420769630114072 Koefisien untuk
kejelasan_VVS2 adalah 0,9313670288415696
# R square pada data pelatihan

model regresi . skor (X_train, y_train
0.9419557931252712
# R square pada data pengujian

regresi_model.score(X_test, y_test i
0.9381643998102491
# RMSE pada data Pelatihan

predict_train=regression_model.fit(X_train, y_train) . prediksi (X_train) np . sqrt
(metrics.mean_squared_error(y_train,predicted_train))
0.20690072466418796
#RMSE pada data Pengujian

predict_test=regression_model . f it(X_train, y_train) . memprediksi(X_test) np . sqrt
( metrics.mean_squared_error(y_test , predict_test) )
0.21647817772382869
VIF –NILAI
karat ---> 33.35086119845924 kedalaman ---> 4.573918951598579 tabel ---> 1.7728852812618958 X --->
463.5542785436457 y ---> 462.769821645584 z ---> 238,6 5819968687333 cut_Baik ---> 3,509618194943713 cutIdeal --->
14,34812508118844 cut_Premium - --> 8.623414379121153 cut_Sangat Bagus ---> 7.848451571723695 warna E --->
2.371070464762613
Kami masih menemukan kami memiliki multi collinearity dalam dataset, untuk
menjatuhkan nilai-nilai ini ke level yang lebih rendah, kami dapat menghapus kolom
setelah melakukan model statistik.
2
9
Dari model statistik kita dapat memahami fitur-fitur yang tidak berkontribusi pada
Model
Kami dapat menghapus fitur tersebut setelah itu Nilai Vif akan berkurang
Nilai VIF yang ideal kurang dari 5%.
STATSMODEL
RINGKASAN PARAMS TERBAIK

Hasil Regresi OLS
Dep. Variabel: harga R-kuadrat:

0.942
Model: 0,942 OLS Adj. R-kuadrat:
Kuadrat F-statistik : 1
Metode: 330e+04 Terkecil
Jum , 15 Januari Prob (F-statistik):
Tanggal:
0.00 2021
Kemungkinan Log:
Waktu:
2954.6 22:15:37
TIDAK. AIC:
Pengamatan: - 18870
5861. BIC:
Residu Df: -5673. 18846
Model Df:
Jenis Kovarian: 23
tidak kuat
=================
========== koef
std salah T P>|t| [0.025
isien
---------- -0.7568 0.016 -46.999 0.000 -0.788

Cegat -0,725
karat 1.1009 0.009 121.892 0.000 1.083
1.119
kedalaman 0,013 0.0056 0.004 1.525 0.127 -0.002
meja -0.0133 0.002 -6.356 0.000 -0.017

-0.009
X -0.3050 0.032 -9.531 0.000 -0.368
-0.242
0.3039 0.034 8.934 0.000 0.237
y 0,371
z -0.1392 0.024 -5.742 0.000 -0.187
-0.092
cut_Good 0,115 0.0940 0.011 8.755 0.000 0.073
potong Ideal 0.1523 0.010 14.581 0.000 0.132

0.173
30
H
cut_Premium 0.1485 0.010 14.785 0.000 0.129
0.168 2953.5
Waktu:
cut_Sangat_Bagus 22:16:56
0.1258 Log-
0.010 12.269 0.000 0.106
0.146
TIDAK. Kemungkinan -5861.
warna_E -0.0471 18870 AIC:
0.006 -8.429 0.000 -0.058
Pengamatan:
-0.036
Df Residu:
warna_F -0.062718847 BI:
0.006 -11.075 -5680.
0.000 -0.074
-0.052
Model Df:
warna_G -0.1007 22 0.006 -18.258 0.000 -0.112
-0.090
warna_H
Jenis Kovarian: -0.2077tidak 0.006
kuat -35.323 0.000 -0.219
-0.196
color_I -0.3240 0.007 -49.521 0.000 -0.337
-0.311
warna_J -0.4686 0.008 -58.186 0.000 -0.484
-0.453
kejelasan_IF 0.9998 0.016 62.524 0.000 0.968
1.031
kejelasan_SI1 0.6390 0.014 46.643 0.000 0.612
0.666
kejelasan_SI2 0.4296 0.014 31.177 0.000 0.403
0.457
kejelasan_VS1 0.8381 0.014 59.986 0.000 0.811
0.865
kejelasan_VS2 0.7660 0.014 55.618 0.000 0.739
0.793
kejelasan_VVS1 0.9421 0.015 63.630 0.000 0.913
0.971
kejelasan_VVS2 0.9314 0.014 64.730 0.000 0.903
0.960
=============== ===========
======= 4696.785 Durbin-Watson:
1.994
Masalah 0.000 Jarque-Bera (JB): 17
(Omnibus):
654.853
Condong: 1.208 Masalah(JB)
0.00 :
Kurtosis: 7.076 Kond.
57.0 TIDAK.
Setelah menjatuhkan variabel kedalaman

Hasil Regresi OLS
Dep. Variabel: harga R-kuadrat: 0.942

Model: OLS Adj. R-kuadrat: 0.942
Metode: Kuadrat Terkecil F-statistik: 1.390e+04
Tang Jum, 15 Jan 2021 Prob (F-statistik): 0.00
gal:
koef std err t P>|t| [0.025 0.975]
Mencegat -0.7567 0.016 -46.991 0.000 -0.788 -0.725

karat 1.1020 0.009 122.331 0.000 1.084 1.120
meja -0.0139 0.002 -6.770 0.000 -0.018 -0.010
X -0.3156 0.031 - 10.101 0.000 -0.377 -0.254
y 0.2834 0.031 9.069 0.000 0.222 0.345
z -0.1088 0.014 -7.883 0.000 -0.136 -0.082
potong_B 0.0951 0.011 8.876 0.000 0.074 0.11
agus 6
potong 0.1512 0.010 14.50 0.000 0.131 0.172
Ideal 8
cut_Premium 0,1474 0.010 14.711 0.000 0.128 0.167
cut_Sangat_Bagus 0,1255 0.010 12.239 0.000 0.105 0.146
warna_E -0.0471 0.006 -8.439 0.000 -0.058 -0.036
warna_F -0.0627 0.006 -11.082 0.000 -0.074 -0.052
warna_G -0.1007 0.006 -18.246 0.000 -0.111 -0.090
warna_H -0.2076 0.006 -35.306 0.000 -0.219 -0.196
color_I -0.3237 0.007 -49.497 0.000 -0.337 -0.311
warna_J -0.4684 0.008 -58.169 0.000 -0.484 -0.453
kejelasan_I 1.0000 0.016 62.544 0.000 0.969 1.031
F
kejelasan_S 0.6398 0.014 46.738 0.000 0.613 0.667
I1
kejelasan_S 0.4302 0.014 31.232 0.000 0.403 0.457
I2
0.904 0.960
0.866
kejelasan_VS1 0.8386 0.014 60.042 0.000 0.811
0.794
kejelasan_VS2 0.7667 0.014 55.691 0.000 0.740
0.971
kejelasan_VV 0.9424 0.015 63.655 0.000 0.913
kejelasan_VV
S1 0.9319 0.014 64.784 0.000
S2
Omnibus: 4699.504 Durbin-Watson: 1.994
Masalah 0.000 Jarque-Bera (JB):
(Omnibus):
Condong: 1.208 Prob(JB): 0.00
Kurtosis: 7.084 Kond. TIDAK. 56.5
Untuk idealnya menurunkan nilai ke level yang lebih rendah, kita dapat membuang
salah satu variabel yang berkorelasi tinggi.
Menjatuhkan variabel akan menurunkan tingkat multikolinearitas.
1.4 Kesimpulan: Berdasarkan prediksi ini, apa wawasan dan rekomendasi bisnisnya.
Kami memiliki masalah bisnis untuk memprediksi harga batu dan memberikan wawasan bagi
perusahaan tentang keuntungan pada slot hadiah yang berbeda. Dari analisis EDA kita
dapat memahami pemotongan, pemotongan yang ideal memiliki jumlah keuntungan bagi
perusahaan. Warna H, I, J telah membeli keuntungan bagi perusahaan. Secara jelas jika kita
bisa melihat tidak ada batu yang sempurna dan tidak ada keuntungan yang berasal dari batu
l1, l2, l3. Jenis pemotongan yang ideal, premium dan sangat baik mendatangkan keuntungan
sedangkan yang adil dan baik tidak mendatangkan keuntungan.
Prediksi mampu menangkap 95% variasi harga dan dijelaskan oleh prediktor dalam set
pelatihan.
Menggunakan model statistik jika kita dapat menjalankan model lagi kita dapat memiliki nilai
P dan koefisien yang akan memberi kita pemahaman yang lebih baik tentang hubungan
tersebut, sehingga nilai lebih dari 0,05 kita dapat membuang variabel tersebut dan
menjalankan kembali model tersebut untuk hasil yang lebih baik.
Untuk akurasi yang lebih baik, jatuhkan kolom kedalaman dalam iterasi untuk hasil yang
lebih baik.
Persamaannya, (-0,76) * Intercept + (1,1) * karat + (-0,01) * table + (-0,32) * x + (0,2 8)

* y + (-0,11) * z + (0,1) * cut_Good + (0,15) * cut_Ideal + (0,15) * cut_Premiu m +
(0,13) * cut_Sangat_Baik + (-0,05) * color_E + (-0,06) * color_F + (-0,1) * warna _G +
(-0,21) * color_H + (- 0,32) * color_I + (-0,47) * color_J + (1,0) * kejelasan_IF + ( 0,64)
* kejelasan_SI1 + (0,43) * kejelasan_SI2 + (0,84) * kejelasan_VS1 + (0,77) *
kejelasan_ VS2 + (0,94) * kejelasan_VVS1 + ( 0,93) * kejelasan_VVS2 +
Rekomendasi
1. Jenis potongan yang ideal, premium, dan sangat bagus adalah yang menghasilkan
keuntungan sehingga kami dapat menggunakan pemasaran untuk ini untuk
menghasilkan lebih banyak keuntungan.
2. Kejernihan berlian adalah atribut penting berikutnya, semakin jelas batunya, semakin
banyak keuntungannya
Lima atribut terbaik adalah
Karat,
Y diameter batu kejernihan_IF kejernihan_SI1 kejernihan_SI2
kejernihan_VS1 kejernihan_VS2 kejernihan_VVS1 kejernihan_VVS2
TAMAT

Linear Regresi Zirkonia

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Linear Regresi Zirkonia

Diunggah oleh

Hak Cipta:

Format Tersedia

REGRESI LINIER

Jelaskan kualitas potongan zirkonia

Ketinggian zirkonia kubik, diukur dari

Lebar Tabel zirkonia kubik dinyatakan

Harga Harga zirkonia kubik.

1 2 0.33 Premium □ F 60 8 58.0 4.42 4.46 2.70 984

4 5 0.31 Ideal F WS1 60.4 59.0 4.35 4.43 2.65 779

26964 26965 0.51 Premium e VS2 81.7 58.0 5 12 5 15 3 17 1656

Memeriksa bentuk data (26967, 11)

Memeriksa info data

meja 26967 NaN NaN NaN 57.4581 2.23207 49 56 57 59 79

X 26967 NaN NaN NaN 5.72985 1 0 4.71 5 69 6 55 10.23

Kami memiliki data kategorikal dan berkelanjutan,

Jumlah baris rangkap = 0

Nilai unik dalam data kategorikal

Distribusi kedalaman tampaknya distribusi normal,

Distribusi tabel juga tampaknya condong positif

Distribusi Y (Lebar zirkonia kubik dalam mm.) miring positif

Harga tampaknya miring positif. Kemiringannya positif

Potongan yang paling disukai tampaknya merupakan

D menjadi yang terbaik dan J yang terburuk.

Kami melihat harga G berada di tengah-tengah tujuh warna, sedangkan J

Kejelasan VS2 tampaknya lebih disukai oleh orang-orang

karat 0.00 100 0.98 0.94 0.94 0.92

meja 0.00 -0.30 1.00 0.20 0.18 015 0.13

K 0.00 0.98 -0.02 1.00 0.96 0.96 0.89

Z 0.00 0.94 0.96 0.93 1.00 0.85

harga 0.00 0.92 -0.00 0.89 0.36 0.35 1.00

Matriks ini dengan jelas menunjukkan adanya multikolinearitas dalam

0 10000 20000 30000 0 2 50 60 70 50 60 70 80 0 5 10 0 20 40 60

Memeriksa apakah ada nilai yang "0"

12498 12499 2 18 Premium H SI 2 59.4 61.0 8.49 8.45 0.0 12631

12689 12690 1 10 Premium G SI2 63.0 59.0 6 50 6.47 0.0 3696

18194 18195 1.01 Premium H 11 58.1 59.0 6 66 6 60 0.0 3167

23758 23759 1 12 Premium G 11 60.4 59.0 6.71 6 67 0.0 2383

MEMERIKSA OUTLIER DALAM DATA

data = pd.get_dummies(df, kolom=[ 'potong warna' , 'kejelasan '] ,drop_first=True)

Tanpa potong_Ba kejelasan J F

1 -1.731776 -0.980310 -0.679158 0.244112 -1.162787 -1.094057 -1.169142 -0.734303 0 0 .. . 0 0 0 1

2 -1.731647 0.213173 0.325134 1.140496 0.275049 0.331668 0.335404 0.584271 0 0 .. . 0 0 0 0

3 -1.731519 -0.791865 -0.105277 -0.652273 -0.807766 -0.802041 -0.806936 -0.709945 0 1 .. . 0 0 0 0

4 -1.731390 -1.022187 -0.966099 0.692304 -1.224916 -1.119823 -1.238796 -0.785257 0 1 .. .. 0 0 0 0

MENJATUHKAN KOLOM YANG TIDAK DIINGINKAN

model_regresi = LinearRegresi() model_regresi.fit(X_train, y_train)

Koefisien karat adalah 1,1009417847804501

# R square pada data pelatihan

# R square pada data pengujian

# RMSE pada data Pelatihan

#RMSE pada data Pengujian

Nilai VIF yang ideal kurang dari 5%.

RINGKASAN PARAMS TERBAIK

Dep. Variabel: harga R-kuadrat:

---------- -0.7568 0.016 -46.999 0.000 -0.788

meja -0.0133 0.002 -6.356 0.000 -0.017

potong Ideal 0.1523 0.010 14.581 0.000 0.132

Setelah menjatuhkan variabel kedalaman

Dep. Variabel: harga R-kuadrat: 0.942

Mencegat -0.7567 0.016 -46.991 0.000 -0.788 -0.725

Persamaannya, (-0,76) * Intercept + (1,1) * karat + (-0,01) * table + (-0,32) * x + (0,2 8)

Lima atribut terbaik adalah

Anda mungkin juga menyukai