Anda di halaman 1dari 35

REGRESI LINIER

DISIAPKAN OLEH
MURALIDHARAN N
REGRESI LINIER
Anda dipekerjakan oleh perusahaan Gem Stones co ltd, yang merupakan produsen
zirkonia kubik. Anda diberikan kumpulan data yang berisi harga dan atribut lain
dari hampir 27.000 kubik zirkonia (yang merupakan alternatif berlian murah
dengan banyak kualitas yang sama dengan berlian). Perusahaan menghasilkan
keuntungan yang berbeda pada slot hadiah yang berbeda. Anda harus membantu
perusahaan dalam memprediksi harga batu berdasarkan rincian yang diberikan
dalam kumpulan data sehingga dapat membedakan antara batu yang
menguntungkan lebih tinggi dan batu yang menguntungkan lebih rendah sehingga
memiliki pembagian keuntungan yang lebih baik. Juga, berikan mereka 5 atribut
terbaik yang paling penting.

Kamus data:
Nama Variabel Keterangan
Karat Berat karat dari zirkonia kubik.

Jelaskan kualitas potongan zirkonia


Memotong kubik. Kualitas meningkat agar Adil,
Bagus, Sangat Bagus, Premium, Ideal.
Warna zirkonia kubik. Dengan D
Warna menjadi yang terbaik dan J yang
terburuk.
Kejelasan zirkonia kubik mengacu
pada tidak adanya Inklusi dan Noda.
(Dalam urutan dari Terbaik ke Terburuk,
Kejelasan
FL = sempurna, I3= inklusi level 3) FL,
IF, VVS1, VVS2, VS1, VS2, SI1, SI2,
I1, I2, I3

Ketinggian zirkonia kubik, diukur dari


Kedalaman Culet ke meja, dibagi dengan Diameter
Girdle rata-rata.

Lebar Tabel zirkonia kubik dinyatakan


Meja
sebagai Persentase Diameter Rata-Rata.

Harga Harga zirkonia kubik.


X Panjang zirkonia kubik dalam mm.
Y Lebar zirkonia kubik dalam mm.
Ketinggian zirkonia kubik dalam mm.

1.1 .Baca data dan lakukan analisis data eksplorasi. Jelaskan data secara
singkat. (Periksa nilai nol, tipe data, bentuk, EDA). Lakukan Analisis
Univariat dan Bivariat.
Memuat semua pustaka yang diperlukan untuk pembuatan model.
Sekarang, baca head dan tail dari kumpulan data untuk memeriksa apakah data
telah dimasukkan dengan benar.
KEPALA DATA
Tanpa nama: 0 karat memotong warna kejelasa kedala meja X y Z harga
n man
0 1 0.30 Ideal e SI1 82.1 58.0 4.27 4.29 2.66 499

1 2 0.33 Premium □ F 60 8 58.0 4.42 4.46 2.70 984


Sangat
2 3 0.90 e WS2 82.2 80.0 8.04 8.12 3.78 6209
bagus
3 4 0.42 Ideal F VS1 81.6 56.0 4.82 4.80 2.96 1082

4 5 0.31 Ideal F WS1 60.4 59.0 4.35 4.43 2.65 779

EKOR DATA

kejelasa kedala
Tanpa nama: 0 karat memotong warna n man meja X y z harga
26962 26963 1 11 Premium G SI1 82.3 58.0 6 81 6 52 4.09 5408

26963 26984 0.33 Ideal H F 81.9 55.0 4.44 4.42 2.74 1114

26964 26965 0.51 Premium e VS2 81.7 58.0 5 12 5 15 3 17 1656


Sangat
26965 26986 0.27 F VVS2 81.8 56.0 4.19 4.20 2.60 682
bagus
26966 26967 1 25 Premium J 811 62.0 58.0 6.90 6 S3 4.27 5166

Memeriksa bentuk data (26967, 11)

Memeriksa info data


< kelas ' panda . core.frame . Data Frame ' > RangeIndex: 26967 entri, 0 hingga 26966 Kolom data (total
11 kolom):
# Kolom Hitungan Non-Null Dtype
Tanpa nama :
0 0 26967 bukan nol int64
1 karat 26967 bukan nol f
2 memotong 26967 bukan nol banyak64
obyek
3 warna 26967 bukan nol obyek
4 kejelasan 26967 bukan nol obyek
3 kedalaman 26270 bukan nol float64
6 meja 26967 bukan nol float64
7 X 26967 bukan nol float64
8 y 26967 bukan nol float64
9 z 26967 bukan nol f
16 harga 26967 bukan nol banyak64
int64
dtypes: float64(6), int64(2), objek(3)
penggunaan memori: 2,3+ MB

Kami memiliki tipe data float, int dan objek dalam data.
DESKRIPSI DATA

menghit unik atas freku berarti std min 25% 50% 75% maks
ung ensi
Tanpa nama:
25967 NaN NaN NaN 13484 7784.85 1 6742.5 13484 20225.5 26967
0
karat 26967 NaN NaN NaN 0.798375 0.477745 0.2 04 0.7 1 05 4.5

memotong 26967 5 Ideal 10816 NaN NaN NaN NaN NaN NaN NaN

warna 26967 7 G 5661 NaN NaN NaN NaN NaN NaN NaN

kejelasan 26967 8 SI1 6571 NaN NaN NaN NaN NaN NaN NaN

kedalaman 26270 NaN NaN NaN 61.7451 1.41286 50.8 61 61.8 62.5 73.6

meja 26967 NaN NaN NaN 57.4581 2.23207 49 56 57 59 79

X 26967 NaN NaN NaN 5.72985 1 0 4.71 5 69 6 55 10.23


12852
y 26967 NaN NaN NaN 5.73357 1 16606 0 4.71 5.71 6 54 58.9

z 26967 NaN NaN NaN 3.53806 0.720624 0 2.9 3.52 4.04 31.8

harga 26967 NaN NaN NaN 3939.52 4024.86 326 945 2375 5360 18818

Kami memiliki data kategorikal dan berkelanjutan,


Untuk data kategori, kami telah memotong, warna, dan kejelasan
Untuk data kontinu kami memiliki karat, kedalaman, tabel, x. y, z dan harga
Harga akan menjadi variabel target.
Memeriksa duplikat dalam data,
dups = df.duplikat()
print ( "Jumlah baris duplikat = %d ' % (cangkir .sum () ) )

Jumlah baris rangkap = 0

Nilai unik dalam data kategorikal


POTONG: 5
Adil 781
Bagus 2441
Sangat Bagus 6030
Premi 6899
Idealnya 10816

Kami memiliki 5 potongan dan yang ideal tampaknya merupakan potongan yang paling disukai

WARNA: 7
J 1443
saya 2771
D 3344
H 4102
F 4729
E 4917
G 5661

KEJELASAN: 8
REGRESI LINIER..........................................................................................................................1
REGRESI LINIER.......................................................................................................................2
DESKRIPSI DATA.....................................................................................................................4
Nilai unik dalam data kategorikal................................................................................................5
Kualitas semakin meningkat Sesuai pesanan Adil, Bagus, Sangat
Bagus, Premium, Ideal .................................................................................................11
DISTRIBUSI DATA.................................................................................................................17
MATRIKS KORELATIOM......................................................................................................18
SKALA......................................................................................................................................20
SEBELUM PENSkalaan – NILAI VIF.....................................................................................21
SETELAH SKALA – NILAI VIF.............................................................................................21
MEMERIKSA OUTLIER DALAM DATA..............................................................................21
SEBELUM MENGOBATI OUTLIER......................................................................................21
Dummies telah dikodekan.........................................................................................................29
Latihan/ Uji split........................................................................................................................29

4575
6099
6571
Analisis Univariat / Bivariat
5

Distribusi data dalam karat tampaknya condong positif, karena ada beberapa titik puncak
dalam distribusi yang mungkin multimode dan plot kotak karat tampaknya memiliki
sejumlah besar outlier. Dalam kisaran 0 hingga 1 di mana sebagian besar data berada.

Distribusi kedalaman tampaknya distribusi normal,


Kedalamannya berkisar antara 55 hingga 65
Plot kotak dari distribusi kedalaman memiliki banyak outlier.

Distribusi tabel juga tampaknya condong positif


Plot kotak tabel memiliki outlier
Sebaran data yang paling banyak berdistribusi adalah antara 55 sampai dengan 65.
Distribusi x (Panjang zirkonia kubik dalam mm.) miring positif
Kotak petak data terdiri dari banyak outlier
Distribusi mengamuk dari 4 menjadi 8

Distribusi Y (Lebar zirkonia kubik dalam mm.) miring positif


Plot kotak juga terdiri dari outlier
Distribusi terlalu condong positif. Kecondongan itu mungkin karena berlian selalu dibuat
dalam bentuk tertentu. Mungkin tidak ada terlalu banyak ukuran di pasar
Distribusi z (Tinggi zirkonia kubik dalam mm.) miring positif
Plot kotak juga terdiri dari outlier
Distribusi terlalu condong positif. Kecondongan itu mungkin karena berlian selalu dibuat
dalam bentuk tertentu. Mungkin tidak ada terlalu banyak ukuran di pasar

Harga tampaknya miring positif. Kemiringannya positif


Harga memiliki outlier dalam data
Distribusi harga dari rs 100 hingga 8000.
HARGA –
HIST

condong
1.116481
tabel -0.028618
kedalam
0.765758
an karat
0. 387986
X
3.850189
yz 2.568257
tipe 1.618550
harga :
float64
ANALISIS BIVARIAT
MEMOTONG :
Kualitas semakin meningkat Sesuai pesanan Adil, Bagus,
Sangat Bagus, Premium, Ideal .
Alasan untuk potongan ideal yang paling disukai adalah karena berlian tersebut
dihargai lebih rendah daripada potongan lainnya.

Potongan yang paling disukai tampaknya merupakan


potongan yang ideal untuk berlian.

WARNA:

D menjadi yang terbaik dan J yang terburuk.


Kami memiliki 7 warna dalam data, G tampaknya menjadi warna yang
disukai,

Kami melihat harga G berada di tengah-tengah tujuh warna, sedangkan J


sebagai harga warna terburuk tampaknya terlalu tinggi.
KEJELASAN:
Terbaik ke Terburuk, FL = sempurna, I3= inklusi level 3) FL, JIKA,
VVS1, VVS2, VS1, VS2, SI1, SI2, I1, I2, I3
d arity

Kejelasan VS2 tampaknya lebih disukai oleh orang-orang

d arity

Data tidak memiliki berlian FL, dari sini kita dapat dengan jelas memahami
bahwa berlian tanpa cela tidak membawa keuntungan apa pun ke toko.
Lebih banyak hubungan antara variabel
kategorikal
Potong dan
warnai

Potong dan
kejelasan
KORLEASI
KARAT VS
HARGA

KEDALAMAN VS
HARGA

X VS
HARGA
Y VS HARGA

Z VS HARGA
DISTRIBUSI DATA
MATRIKS KORELATIOM

Tanpa nama:
1.00 0.00 -0.00 0.00 0.00 0.01 0.00 0.00
0

karat 0.00 100 0.98 0.94 0.94 0.92

kedala
-0.00 1.00 -0.30 -0.02 -0.02 -0.00
man

meja 0.00 -0.30 1.00 0.20 0.18 015 0.13

K 0.00 0.98 -0.02 1.00 0.96 0.96 0.89

1
y 0.01 0.94 -0.02 096 1.00 0.93 0.86

Z 0.00 0.94 0.96 0.93 1.00 0.85

harga 0.00 0.92 -0.00 0.89 0.36 0.35 1.00

Tanpa kedala
nama: □ karat man meja K y z harga

Matriks ini dengan jelas menunjukkan adanya multikolinearitas dalam


dataset.

0 10000 20000 30000 0 2 50 60 70 50 60 70 80 0 5 10 0 20 40 60


Tanpa nama: 0 karat kedalaman meja X y
1
8

1.2 Hitung nilai nol jika ada, periksa juga nilai yang sama dengan nol. Apakah mereka memiliki
arti atau apakah kita perlu mengubahnya atau membuangnya? Apakah menurut Anda penskalaan
diperlukan dalam kasus ini?

: df . isnull() . jumlah()

Tanpa nama: 0
0
karat 0
memotong 0
warna 0
kejelasan 0
tabel kedalaman 697
X 0
0
0
harga 0
dtype: int64 0

Ya, kami memiliki nilai Null secara mendalam, karena kedalaman berarti variabel kontinu
atau imputasi median dapat dilakukan.
Persentase nilai Null kurang dari 5%, kita juga bisa membuangnya jika kita mau.
Setelah imputasi median, kami tidak memiliki nilai nol dalam kumpulan data.

REGRESI LINIER.....................................................................................................................1
REGRESI LINIER..................................................................................................................2
DESKRIPSI DATA................................................................................................................4
Nilai unik dalam data kategorikal...........................................................................................5
Kualitas semakin meningkat Sesuai pesanan Adil, Bagus, Sangat Bagus,
Premium, Ideal ............................................................................................................11
DISTRIBUSI DATA............................................................................................................17
MATRIKS KORELATIOM.................................................................................................18
SKALA.................................................................................................................................20
SEBELUM PENSkalaan – NILAI VIF................................................................................21
SETELAH SKALA – NILAI VIF........................................................................................21
MEMERIKSA OUTLIER DALAM DATA.........................................................................21
SEBELUM MENGOBATI OUTLIER.................................................................................21
Dummies telah dikodekan....................................................................................................29
Latihan/ Uji split...................................................................................................................29

dtype: int64

Memeriksa apakah ada nilai yang "0"


Tanpa nama: tabel kedalaman kejelasan warna potongan 0 karat Harga XyZ
5821 5822 0.71 Bagus F SI 2 64.1 60.0 0.00 0.00 0.0 2130

6034 6035 2.02 Premium H VS2 62.7 53.0 8.02 7.95 0.0 18207

6215 6216 0.71 Bagus F SI 2 84.1 60.0 0.00 0.00 0.0 2130

10827 10828 2.20 Premium H SI1 61.2 59.0 8.42 8.37 0.0 17265

12498 12499 2 18 Premium H SI 2 59.4 61.0 8.49 8.45 0.0 12631

12689 12690 1 10 Premium G SI2 63.0 59.0 6 50 6.47 0.0 3696

17506 17507 1 14 Adil G VS1 57.5 67.0 0.00 0.00 0.0 6381

18194 18195 1.01 Premium H 11 58.1 59.0 6 66 6 60 0.0 3167

23758 23759 1 12 Premium G 11 60.4 59.0 6.71 6 67 0.0 2383

Kami memiliki baris tertentu yang memiliki nilai nol, x, y, z adalah dimensi berlian
sehingga ini tidak dapat dimasukkan ke dalam model. Karena jumlah barisnya sangat
sedikit.
Kita dapat menghapus baris ini karena tidak memiliki arti apa pun dalam pembuatan
model.
SKALA
Penskalaan dapat berguna untuk mengurangi atau memeriksa multikolinearitas dalam data,
jadi jika penskalaan tidak diterapkan, saya menemukan nilai faktor inflasi varians VIF
sangat tinggi. Yang menunjukkan adanya multicollinearity
Nilai-nilai ini dihitung setelah membangun model regresi linier. Untuk memahami
multikolinearitas dalam model
Penskalaan tidak berdampak pada skor model atau koefisien atribut maupun intersep.
SEBELUM PENSkalaan – NILAI VIF
karat ---> 124.32595405062301
kedalaman ---> 1497.6352441517224
tabel ---> 1002.8676766903022
x - --> 12004.212489729716
y ---> 11533.491914672943
Z ---> 3442. 374035538099
1
cut_Bagus ---> 4,5067464355335495
8
cut_Ideal ---> 18.17410430875144
cut_Premium ---> 10.884031423492264
cut_Sangat Bagus ---> 10,062010659328735
warna E ---> 2 .479075675651354
SETELAH SKALA – NILAI VIF
karat ---> 33.35287649550623
kedalaman ---> 4,574003842337535 tabel ---> 1,7722022611198975
X ---> 463.94494858728734
y ---> 463.08309600508517
Z ---> 238.6002431605187
cut_Good - --> 3 . 6104961328079184 cut_Ideal ---> 14.347409690217962 cut_Premium ---> 8.623207030351887
cut_Sangat Bagus ---> 7.852218650260111 warna E ---> 2.371053795458172

MEMERIKSA OUTLIER DALAM DATA


SEBELUM MENGOBATI OUTLIER

0 2 4 6 3
karat
20
21
22
-1.0 -0.5 0.0 0.5 1.0 1.5 20 25
karat

kedala
man
24
1.3 Enkode data (memiliki nilai string) untuk Pemodelan. Pemisahan Data: Pisahkan data
menjadi tes dan latih (70:30). Terapkan regresi Linear. Metrik Performa: Periksa performa
Predictions on Train and Test set menggunakan Rsquare, RMSE.
ENCODING NILAI STRING
DAPATKAN DUMMIES

data = pd.get_dummies(df, kolom=[ 'potong warna' , 'kejelasan '] ,drop_first=True)

Tanpa potong_Ba kejelasan J F


nama: karat kedalaman meja X y z harga cut_Ideal .. .. warna_H warna J warna_J
gus c
0
0 -1.731904 -1.043125 0.253399 0.244112 -1.295920 -1.240065 -1.224865 -0.854851 0 1 .. . 0 0 0 0

1 -1.731776 -0.980310 -0.679158 0.244112 -1.162787 -1.094057 -1.169142 -0.734303 0 0 .. . 0 0 0 1

2 -1.731647 0.213173 0.325134 1.140496 0.275049 0.331668 0.335404 0.584271 0 0 .. . 0 0 0 0

3 -1.731519 -0.791865 -0.105277 -0.652273 -0.807766 -0.802041 -0.806936 -0.709945 0 1 .. . 0 0 0 0

4 -1.731390 -1.022187 -0.966099 0.692304 -1.224916 -1.119823 -1.238796 -0.785257 0 1 .. .. 0 0 0 0


5 baris x 25 kolom

Indeks(L'Tanpa Nama: 0', 'karat', 'kedalaman', 'meja', 'x", "y', 'z', "harga',
' cut_Good ' , ' cut_Ideal ' , "cut Premium' j 'cut_VeryGood', 'color_E' "color_F', 'colon_G', 'color_H', "color_I',
'colonr_J', 'clarity_IF 'clarity_s1', 'clarity_S12', 'kejelasan_Vs1', 'kejelasan_Vs2', 'kejelasan_ws1' , 'kejelasan_Ws2' ]
,
dtype= 1 objek " )
Dummies telah dikodekan.
Model regresi linier tidak mengambil nilai kategori sehingga kami
telah menyandikan nilai kategori ke bilangan bulat untuk hasil yang
lebih baik.

MENJATUHKAN KOLOM YANG TIDAK DIINGINKAN


Latihan/ Uji split

# jatuhkan kolom id karena digunakan Less untuk modelL data_model = data.drop(columns=[ 'Unnamed: 0'], axis=l)

data_model . kolom

Index([ ' carat', 'depth', 'table', 'x', 'y', 'z', 'price', 'cut_Good', 'cut_Ideal', 'cut_Premium', 'cut_Very Good', 'color E',
'color_F', 'color_G', 'colorH', 'color_I', 'color_J', 'clarity_IF', 'clarity_SI1 'clarity_s2', 'clarity_Vs1' ,
'clarity_Vs2', 'clarity_wVs1', 'clarityws2' ] ,
dtype= ' objek " }
Model Regresi Linear

]: # aktifkan fungsi LinearRegression dan temukan model yang paling cocok pada data pelatihan

model_regresi = LinearRegresi() model_regresi.fit(X_train, y_train)

Koefisien karat adalah 1,1009417847804501


Koefisien untuk kedalaman adalah 0,005605143445570377
Koefisien untuk tabel adalah -0,013319500386804035
Koefisien untuk x adalah -0,30504349819633475
Koefisien untuk y adalah 0,30391448957926553
Koefisien untuk z adalah -0,13916571567987943
Koefisien untuk cut_Good adalah 0,09403402912977911
Koefisien cut_Ideal adalah 0,1523107462056746
Koefisien untuk cut_Premium adalah 0,14852774839849378
Koefisien untuk cut_Very Good adalah 0,12583881878452705
Koefisien untuk color_E adalah -0,04705442233369822
Koefisien untuk color_F adalah -0,06268437439142825
Koefisien untuk color_G adalah -0,10072161838356786
Koefisien untuk color_H adalah -0,20767313311661612 Koefisien untuk color_I adalah -
0,3239541927462737
Koefisien untuk color_J adalah -0,46858930275015803
Koefisien untuk kejelasan_JIKA adalah 0,9997691394634902
Koefisien untuk kejelasan_SI1 adalah 0,6389785818271332 Koefisien untuk
kejelasan_SI2 adalah 0,42959662348315514
Koefisien untuk kejelasan_VS1 adalah 0,8380875826737564 Koefisien untuk
kejelasan_VS2 adalah 0,7660244466083613
Koefisien untuk kejelasan_VVS1 adalah 0,9420769630114072 Koefisien untuk
kejelasan_VVS2 adalah 0,9313670288415696

# R square pada data pelatihan


model regresi . skor (X_train, y_train

0.9419557931252712

# R square pada data pengujian


regresi_model.score(X_test, y_test i
0.9381643998102491

# RMSE pada data Pelatihan


predict_train=regression_model.fit(X_train, y_train) . prediksi (X_train) np . sqrt
(metrics.mean_squared_error(y_train,predicted_train))

0.20690072466418796

#RMSE pada data Pengujian


predict_test=regression_model . f it(X_train, y_train) . memprediksi(X_test) np . sqrt
( metrics.mean_squared_error(y_test , predict_test) )

0.21647817772382869

VIF –NILAI
karat ---> 33.35086119845924 kedalaman ---> 4.573918951598579 tabel ---> 1.7728852812618958 X --->
463.5542785436457 y ---> 462.769821645584 z ---> 238,6 5819968687333 cut_Baik ---> 3,509618194943713 cutIdeal --->
14,34812508118844 cut_Premium - --> 8.623414379121153 cut_Sangat Bagus ---> 7.848451571723695 warna E --->
2.371070464762613

Kami masih menemukan kami memiliki multi collinearity dalam dataset, untuk
menjatuhkan nilai-nilai ini ke level yang lebih rendah, kami dapat menghapus kolom
setelah melakukan model statistik.
2
9

Dari model statistik kita dapat memahami fitur-fitur yang tidak berkontribusi pada
Model

Kami dapat menghapus fitur tersebut setelah itu Nilai Vif akan berkurang

Nilai VIF yang ideal kurang dari 5%.

STATSMODEL

RINGKASAN PARAMS TERBAIK


Hasil Regresi OLS

Dep. Variabel: harga R-kuadrat:


0.942
Model: 0,942 OLS Adj. R-kuadrat:

Kuadrat F-statistik : 1
Metode: 330e+04 Terkecil
Jum , 15 Januari Prob (F-statistik):
Tanggal:
0.00 2021
Kemungkinan Log:
Waktu:
2954.6 22:15:37
TIDAK. AIC:
Pengamatan: - 18870
5861. BIC:
Residu Df: -5673. 18846
Model Df:
Jenis Kovarian: 23
tidak kuat
=================
========== koef
std salah T P>|t| [0.025
isien

---------- -0.7568 0.016 -46.999 0.000 -0.788


Cegat -0,725
karat 1.1009 0.009 121.892 0.000 1.083
1.119
kedalaman 0,013 0.0056 0.004 1.525 0.127 -0.002

meja -0.0133 0.002 -6.356 0.000 -0.017


-0.009
X -0.3050 0.032 -9.531 0.000 -0.368
-0.242
0.3039 0.034 8.934 0.000 0.237
y 0,371
z -0.1392 0.024 -5.742 0.000 -0.187
-0.092
cut_Good 0,115 0.0940 0.011 8.755 0.000 0.073

potong Ideal 0.1523 0.010 14.581 0.000 0.132


0.173
30
H
cut_Premium 0.1485 0.010 14.785 0.000 0.129
0.168 2953.5
Waktu:
cut_Sangat_Bagus 22:16:56
0.1258 Log-
0.010 12.269 0.000 0.106
0.146
TIDAK. Kemungkinan -5861.
warna_E -0.0471 18870 AIC:
0.006 -8.429 0.000 -0.058
Pengamatan:
-0.036
Df Residu:
warna_F -0.062718847 BI:
0.006 -11.075 -5680.
0.000 -0.074
-0.052
Model Df:
warna_G -0.1007 22 0.006 -18.258 0.000 -0.112
-0.090
warna_H
Jenis Kovarian: -0.2077tidak 0.006
kuat -35.323 0.000 -0.219
-0.196
color_I -0.3240 0.007 -49.521 0.000 -0.337
-0.311
warna_J -0.4686 0.008 -58.186 0.000 -0.484
-0.453
kejelasan_IF 0.9998 0.016 62.524 0.000 0.968
1.031
kejelasan_SI1 0.6390 0.014 46.643 0.000 0.612
0.666
kejelasan_SI2 0.4296 0.014 31.177 0.000 0.403
0.457
kejelasan_VS1 0.8381 0.014 59.986 0.000 0.811
0.865
kejelasan_VS2 0.7660 0.014 55.618 0.000 0.739
0.793
kejelasan_VVS1 0.9421 0.015 63.630 0.000 0.913
0.971
kejelasan_VVS2 0.9314 0.014 64.730 0.000 0.903
0.960
=============== ===========
======= 4696.785 Durbin-Watson:
1.994
Masalah 0.000 Jarque-Bera (JB): 17
(Omnibus):
654.853
Condong: 1.208 Masalah(JB)
0.00 :
Kurtosis: 7.076 Kond.
57.0 TIDAK.

Setelah menjatuhkan variabel kedalaman


Hasil Regresi OLS

Dep. Variabel: harga R-kuadrat: 0.942


Model: OLS Adj. R-kuadrat: 0.942
Metode: Kuadrat Terkecil F-statistik: 1.390e+04
Tang Jum, 15 Jan 2021 Prob (F-statistik): 0.00
gal:
koef std err t P>|t| [0.025 0.975]

Mencegat -0.7567 0.016 -46.991 0.000 -0.788 -0.725


karat 1.1020 0.009 122.331 0.000 1.084 1.120
meja -0.0139 0.002 -6.770 0.000 -0.018 -0.010
X -0.3156 0.031 - 10.101 0.000 -0.377 -0.254
y 0.2834 0.031 9.069 0.000 0.222 0.345
z -0.1088 0.014 -7.883 0.000 -0.136 -0.082
potong_B 0.0951 0.011 8.876 0.000 0.074 0.11
agus 6
potong 0.1512 0.010 14.50 0.000 0.131 0.172
Ideal 8
cut_Premium 0,1474 0.010 14.711 0.000 0.128 0.167
cut_Sangat_Bagus 0,1255 0.010 12.239 0.000 0.105 0.146
warna_E -0.0471 0.006 -8.439 0.000 -0.058 -0.036
warna_F -0.0627 0.006 -11.082 0.000 -0.074 -0.052
warna_G -0.1007 0.006 -18.246 0.000 -0.111 -0.090
warna_H -0.2076 0.006 -35.306 0.000 -0.219 -0.196
color_I -0.3237 0.007 -49.497 0.000 -0.337 -0.311
warna_J -0.4684 0.008 -58.169 0.000 -0.484 -0.453
kejelasan_I 1.0000 0.016 62.544 0.000 0.969 1.031
F
kejelasan_S 0.6398 0.014 46.738 0.000 0.613 0.667
I1
kejelasan_S 0.4302 0.014 31.232 0.000 0.403 0.457
I2
0.904 0.960
0.866
kejelasan_VS1 0.8386 0.014 60.042 0.000 0.811
0.794
kejelasan_VS2 0.7667 0.014 55.691 0.000 0.740
0.971
kejelasan_VV 0.9424 0.015 63.655 0.000 0.913
kejelasan_VV
S1 0.9319 0.014 64.784 0.000
S2
Omnibus: 4699.504 Durbin-Watson: 1.994
Masalah 0.000 Jarque-Bera (JB):
(Omnibus):
Condong: 1.208 Prob(JB): 0.00
Kurtosis: 7.084 Kond. TIDAK. 56.5

Untuk idealnya menurunkan nilai ke level yang lebih rendah, kita dapat membuang
salah satu variabel yang berkorelasi tinggi.
Menjatuhkan variabel akan menurunkan tingkat multikolinearitas.
1.4 Kesimpulan: Berdasarkan prediksi ini, apa wawasan dan rekomendasi bisnisnya.
Kami memiliki masalah bisnis untuk memprediksi harga batu dan memberikan wawasan bagi
perusahaan tentang keuntungan pada slot hadiah yang berbeda. Dari analisis EDA kita
dapat memahami pemotongan, pemotongan yang ideal memiliki jumlah keuntungan bagi
perusahaan. Warna H, I, J telah membeli keuntungan bagi perusahaan. Secara jelas jika kita
bisa melihat tidak ada batu yang sempurna dan tidak ada keuntungan yang berasal dari batu
l1, l2, l3. Jenis pemotongan yang ideal, premium dan sangat baik mendatangkan keuntungan
sedangkan yang adil dan baik tidak mendatangkan keuntungan.
Prediksi mampu menangkap 95% variasi harga dan dijelaskan oleh prediktor dalam set
pelatihan.
Menggunakan model statistik jika kita dapat menjalankan model lagi kita dapat memiliki nilai
P dan koefisien yang akan memberi kita pemahaman yang lebih baik tentang hubungan
tersebut, sehingga nilai lebih dari 0,05 kita dapat membuang variabel tersebut dan
menjalankan kembali model tersebut untuk hasil yang lebih baik.
Untuk akurasi yang lebih baik, jatuhkan kolom kedalaman dalam iterasi untuk hasil yang
lebih baik.

Persamaannya, (-0,76) * Intercept + (1,1) * karat + (-0,01) * table + (-0,32) * x + (0,2 8)


* y + (-0,11) * z + (0,1) * cut_Good + (0,15) * cut_Ideal + (0,15) * cut_Premiu m +
(0,13) * cut_Sangat_Baik + (-0,05) * color_E + (-0,06) * color_F + (-0,1) * warna _G +
(-0,21) * color_H + (- 0,32) * color_I + (-0,47) * color_J + (1,0) * kejelasan_IF + ( 0,64)
* kejelasan_SI1 + (0,43) * kejelasan_SI2 + (0,84) * kejelasan_VS1 + (0,77) *
kejelasan_ VS2 + (0,94) * kejelasan_VVS1 + ( 0,93) * kejelasan_VVS2 +

Rekomendasi
1. Jenis potongan yang ideal, premium, dan sangat bagus adalah yang menghasilkan
keuntungan sehingga kami dapat menggunakan pemasaran untuk ini untuk
menghasilkan lebih banyak keuntungan.
2. Kejernihan berlian adalah atribut penting berikutnya, semakin jelas batunya, semakin
banyak keuntungannya

Lima atribut terbaik adalah

Karat,
Y diameter batu kejernihan_IF kejernihan_SI1 kejernihan_SI2
kejernihan_VS1 kejernihan_VS2 kejernihan_VVS1 kejernihan_VVS2
TAMAT

Anda mungkin juga menyukai