Anda di halaman 1dari 15

Masalah 1: Regresi Linier

Anda adalah bagian dari perusahaan investasi dan pekerjaan Anda adalah
melakukan penelitian tentang 759 perusahaan ini. Anda diberikan kumpulan data
yang berisi penjualan dan atribut lain dari 759 perusahaan ini. Prediksikan
penjualan perusahaan-perusahaan ini berdasarkan perincian yang diberikan
dalam kumpulan data untuk membantu perusahaan Anda dalam berinvestasi
secara sadar. Juga, berikan mereka 5 atribut yang paling penting.

Langkah pertama analisis kami, kami harus mengimpor semua perpustakaan yang diperlukan. Setelah
memuat pustaka, kami harus memuat data_set(Firm_level_data) kami untuk analisis kami.

1. Pertama, kami telah menemukan semua entri dalam kumpulan data dengan memeriksa 5 baris
teratas.

Dari penjelasan di atas, kita sekarang mendapat gambaran tentang bagaimana data di
masukkan.

2. Langkah selanjutnya adalah, kita perlu mengetahui detail kolom beserta berapa entri dan tipe
data dari semua variabel.

Dari penjelasan di atas, kita dapat menyimpulkan bahwa ada 10 kolom dengan 759 entri, kecuali
sp500 , semua variabelnya adalah int dan float, di mana sp500 adalah sebuah objek.
3. Sekarang, kita perlu mengetahui apakah semua variabel memiliki nilai nol dalam kumpulan data
yang diberikan.

Dari output di atas, kecuali “tobinq” semua variabel tidak memiliki nilai null. Karena, jumlah nilai
nol dari "tobinq" lebih sedikit, kita dapat memodifikasinya dengan nilai rata-rata. Setelah proses
ini, kami melihat bahwa semua nilai nol diubah.

4. Kemudian, sekarang kita perlu mengetahui apakah ada nilai yang digandakan atau tidak.

Tidak ada duplikasi hadir dalam dataset yang disediakan.

5. Sekarang, kita perlu mendeskripsikan kumpulan data.


6. Analisis univariat:

i) Penjualan:

Tidak ada outlier hadir dalam "Penjualan". Nilai berkisar antara 0 dan 2000.

ii) Modal:

Tidak ada outlier yang hadir di "Modal". Nilai berkisar antara 0 dan 1000.
iii) Paten:

Dari penjelasan di atas, dapat dipahami bahwa tidak ada outlier dan nilainya berkisar antara
0 hingga 12.

iv) R dan D:
"Randd" tidak memiliki outlier dan data berkisar antara 0 dan 150.

v) Pekerjaan:

Variabel “pekerjaan” tidak memiliki outlier dan data berkisar dari 0 t 10.
vi) Tobinq:

Ada banyak outlier yang ada dalam data, yang perlu dijaga. Nilai berkisar antara 1 dan 3.
vii) Nilai:

Tidak ada outlier hadir dalam dataset. Nilai berkisar antara 0 dan 2000.
viii) Institusi:

Tidak ada outlier hadir dalam dataset. Nilainya berkisar antara 20 hingga 60.
Memeriksa Korelasi antar variabel:

Penjualan dan modal memiliki hubungan yang lebih umum. Jadi, untuk memprediksi penjualan, kita bisa
mengambil “Modal” untuk membagi data.
Analisis Multivariat:
1.2 Hitung nilai nol jika ada? Apakah menurut Anda penskalaan diperlukan dalam kasus ini?
(8
tanda)

Semua nilai nol yang ada di basis data telah diperhitungkan. Penskalaan diperlukan untuk
mengubah variabel dengan pengukuran yang berbeda menjadi pengukuran yang sama.

Penskalaan juga diperlukan dalam kumpulan data kami. Kami telah memperlakukan outlier
yang ada dalam kumpulan data dan kemudian kami melakukan normalisasi StandardScaler.

Ans 1.3 Kami telah menyandikan data (memiliki nilai string) untuk Model ling dan juga
selesai Pemisahan Data: Pisahkan data menjadi tes dan latih (70:30).

Kita harus membagi dataset yang diberikan menjadi pelatihan dan pengujian dengan
memisahkan X dan Y, X train,X_test,Y_train,Y_test.

Dan kemudian kami menyesuaikan modelnya.

Metrik kinerja adalah sebagai berikut:

R Square pada data latih adalah 83,15%


RMSE pada data pelatihan adalah 6%
RMSE pada data pengujian adalah 5,19%

1.4 Inferensi:
Sebelum pergi untuk yang baru, kita perlu memeriksa apakah modal yang diinvestasikan
bagus yang tercermin dalam scatterplot.

Variabel penting adalah nilai, pekerjaan, penjualan dan paten.

Atribut yang sangat penting adalah Ketenagakerjaan dan Paten.

Masalah 2: Regresi Logistik dan LDA


Anda disewa oleh Pemerintah untuk melakukan analisis tentang kecelakaan mobil. Anda
diberikan rincian
kecelakaan mobil, di antaranya beberapa orang selamat dan beberapa tidak. Anda harus
membantu
pemerintah dalam memprediksi apakah seseorang akan bertahan atau tidak atas dasar
informasi yang diberikan dalam kumpulan data sehingga dapat memberikan wawasan yang
akan membantu pemerintah untuk
membuat undang-undang yang lebih kuat bagi produsen mobil untuk memastikan langkah-
langkah keselamatan. Juga, cari tahu
faktor-faktor penting yang menjadi dasar Anda membuat prediksi.

2.1 Penyerapan Data: Baca kumpulan data. Lakukan statistik deskriptif dan lakukan nilai nol
periksa kondisi, tulis kesimpulan di atasnya. Lakukan Analisis Univariat dan Bivariat.
Lakukan analisis data eksplorasi. (8 tanda)

Kami harus mengimpor semua file perpustakaan yang diperlukan untuk memproses analisis
data. Perlu memeriksa entri kepala.

Keterangan:
Informasi:

Dari penjelasan di atas, kita dapat menyimpulkan bahwa ada total 15 kolom dengan 11217 entri. Kolom
pertama tidak diberi nama . Tipe datanya adalah integer, float, object.

Untuk memeriksa nilai nol dalam kumpulan data:


Kecuali “injSeverity”, semua variabel tidak memiliki nilai null.
Analisis Multivariat:

Di atas menunjukkan kolinearitas antara variabel.

2.2 Kami telah menyandikan data (memiliki nilai string) untuk Pemodelan.
Pemisahan Data: Kami telah membagi data menjadi pelatihan dan pengujian (70:30).

Dengan mengambil "Bertahan" sebagai variabel target, kami telah membagi data menjadi
pelatihan dan pengujian.
Ans 2.3 Metrik kinerja regresi Logistik dan Diskriminan Linear
Model analisis adalah seperti yang diberikan di bawah ini:

Kami telah membagi data menjadi pelatihan dan pengujian.

Dari output di atas, kami menyimpulkan bahwa kami memiliki akurasi 96% pada pengujian dataset.

Berdasarkan matriks konfusi, akurasinya adalah 98%.

2.4 Wawasan:
 Keakuratan pelatihan dan pengujian kurang lebih sama yaitu 98%. Kebingungan
matriks juga menunjukkan kesamaan. Dapat disimpulkan bahwa metode logistik
lebih baik untuk memprediksi analisis.

Anda mungkin juga menyukai