Anda di halaman 1dari 4

ANALISIS KLASIFIKASI DATA SENSUS MENGGUNAKAN ALGORITMA

REGRESI LOGISTIK

THOMY PONGSONGGA (H13115021)


ILMU KOMPUTER
sendiri. Namun, untuk beberapa
PENDAHU permasalahan dibutuhkan waktu learning
LUAN
yang sangat cepat seperti halnya vision pada
Machine learning (ML), bagian dari robotika, sistem kontrol dan aplikasi realtime
kecerdasan buatan (artificial intelligence),
learning lainnya. Dengan demikian,
merupakan metode untuk mengoptimalkan
algoritma yang memiliki kecepatan learning
performa dari sistem dengan mempelajari data
yang tinggi dengan performa
sampel atau data histori (Alpaydin, 2009).
menggeneralisasi yang baik akan membantu
Dalam kehidupan sehari-hari, obyek dapat
untuk mengatasi permasalahan yang
diidentifikasi dengan mudah oleh manusia,
namun belum tentu dapat dijelaskan secara membutuhkan waktu yang sangat cepat (real
spesifik. Di sinilah peran ML dalam time).
men mengident a LANGKAH KERJA
genali, ifikasi, taupun
memprediksi data tertentu dengan
mempelajari data histori (experience data). Pada data set ini saya menggunakan
Dengan ML, model dibuat baik secara langsung model regresi logistik untuk mengolah data
ataupun tidak, dengan mengekstrak set yang telah di tentukan.
pengetahuan dari pakar ataupun dari data yang
Berikut ini adalah langkah – langkah
bahkan belum diketahui hubungannya dengan
kerjanya :
cara mempelajarinya dengan algoritme tertentu.
Algoritme merupakan rentetan proses yang • Pertama yaitu memanggil data set ke
terstruktur untuk dalam aplikasi R Studio
menyelesaikan permasalahan tertentu.
(Cormen, et al., 2009) menjelaskan bahwa
algoritme adalah prosedur komputasi yang
didefinisikan dengan baik yang mengambil
beberapa nilai, atau himpunan nilai-nilai,
sebagai masukan dan menghasilkan beberapa
nilai, atau himpunan nilai-nilai, sebagai
keluaran. Dengan demikian, sebuah algoritme
merupakan urutan langkah komputasi yang
mengubah masukan menjadi keluaran.
Beberapa algoritme memiliki kecepatan waktu
learning tersendiri pada

permasalahan tertentu sesuai dengan


kompleksitas algoritme dan permasalahan itu
• Kemudian install library caTools

• kemudian data di bagi dua bagian • Kemunian install lagi


70% dimasukkan ke dalam set package library
pelatihan dan 30% ke dalam set jejak
• Dan kemudian mengetahui akurasi

• selanjutnya Semua variabel


digunakan untuk membangun model
regresi logistik untuk memprediksi
variabel X.

• selanjutnya

• selanjutnya tes table

• nrow tes

• Akurasi model baseline adalah SOURCE KODE


0,759. Dengan demikian, model
> Census<-read.csv("adultdata.csv")
regresi logistik mengungguli model > str(Census)
baseline. 'data.frame': 32561 obs. of 15 variables:
$ age : int 39 50 38 53 28 37 49 52
$ workclass : Factor w/ 9 levels " ?"," Fe
$ fnlwgt : int 77516 83311 215646 2347
49 ...
$ education : Factor w/ 16 levels " 10th",
..
$ education..num: int 13 13 9 7 13 14 5 9 14
$ marital.status: Factor w/ 7 levels " Divorce
3 5 3 ...
$ occupation : Factor w/ 15 levels " ?"," A
.
$ relationship : Factor w/ 6 levels " Husband
• Akurasi LR 1 ...
$ race : Factor w/ 5 levels " Ameroccupation-Indian-Eskimo",Craft-repair..:5 5 5 3 3 5 3 5 5 5 ...250
$ sex : Factor w/ 2 levels " Female","occupationMale":Exec-2managerial22211 1 2 1 2 ... 9.83
$ capital.gain : int 2174 0 0 0 0 0 0 0occupation140845178Farming... -fishing -8.28
$ capital.loss : int 0 0 0 0 0 0 0 0 0 occupation0... Handlers-cleaners -4.78
$ hours.per.week: int 40 13 40 40 40 40 occupation16455040Machine... -op-inspct -6.45
$ native.country: Factor w/ 42 levels " ?","occupCatimbondia",Other..-:service4040 40 40 6 40 24 40 40-5.4082
... occupation Priv-house-serv -1.38
$ X : Factor w/ 2 levels " <=50K","occupation>50K":Prof1- specialty11111 1 2 2 2 ... 6.85
> library(caTools) occupation Protective-serv 7.93
Warning message: occupation Sales 4.71
package ‘caTools’ was built under R versionoccupation3.3.3 Tech-support 7.71
> set.seed(1000) occupation Transport-moving
> spl<-sample.split(Census$X, SplitRatio=0relationship.7) Not-in-family 6.51
> train<-subset(Census,spl== TRUE) relationship Other-relative -3.00
> test <-subset(Census, spl== FALSE) relationship Own-child -6.40
> adultdataglm<-glm(X ~ ., data=train, family=brelationshipnomial)Unmarried 6.15
Warning message: relationship Wife 1.42
glm.fit: fitted probabilities numerically race0or Asian1occurred-Pac-Islander 4.16
> summary(adultdataglm) race Black 2.66
race Other -4.19
Call: race White 5.18
glm(formula = X ~ ., family = binomial, datasex =Maletrain) 8.60
capital.gain 3.14
Deviance Residuals: capital.loss 6.28
Min 1Q Median 3Q Maxhours.per.week 2.98
-5.0537 -0.5107 -0.1848 -0.0011 3.6264native.country Cambodia 2.12
native.country Canada 4.65
Coefficients: (2 not defined because of sinativegularities).country China -4.06
nativeEstimate.countryStd .ColumbiaErrorz value Pr(>|z|) -2.53
(Intercept) native-9.108e+00.country5. 201eCuba-01 -17.514 < 2e-16 *** 5.66
age native2.542e.country-021. 971eDominican-0312-Republic.899< 2e-16 ***- 1.36
workclass Federal-gov native1.035e+00.country1. 812eEcuador-01 5.714 1.10e-08 ***- 4.14
workclass Local-gov native3.046e.country-011. 668eEl-Salvador-011.826 0.067895 . -3.03
workclass Never-worked native-1.240e+01.country7. 409e+02England -0.017 0.986643 6.57
workclass Private native5.342e.country-011. 486eFrance-01 3.596 0.000323 *** 8.26
workclass Self-emp-inc nativ7.291e.country-011. 774eGermany-01 4.110 3.96e-05 *** 5.79
workclass Self-emp-not-inc native8.491e.country-021. 627eGrece-01 0.522 0.601766 -6.81
workclass State-gov native1.987e.country-011. 809eGuatemala-01 1.098 0.272178 2.54
workclass Without-pay native-1.418e+01.country7. 069e+02Haiti -0.020 0.983998 -1.49
fnlwgt native7.357e.country-072. 022eHoland-07-Netherlands3.6380.000275 ***- 1.22
education 11th native2.714e.country-022. 489eHonduras-01 0.109 0.913166 -9.06
education 12th native6.485e.country-013. 007eHong-01 2.157 0.031024 * -2.27
education 1st-4th native-1.659e+00.country8. 521eHungary-01 -1.947 0.051527 . 1.38
education 5th-6th native-5.017e.country-023. 506eIndia-01 -0.143 0.886215 3.18
education 7th-8th native-5.289e.country-012. 745eIran-01 -1.927 0.054032 . 1.20
education 9th native-3.789e.country-013. 236eIrland-01 -1.171 0.241552 4.47
education Assoc-acdm native1.240e+00.country2. 085eItaly-01 5.949 2.70e-09 *** 9.33
education Assoc-voc native1.347e+00.country1. 994eJamaica-01 6.754 1.44e-11 ***- 2.03
education Bachelors native1.858e+00.country1. 852eJapan-01 10.030 < 2e-16 *** 8.11
education Doctorate native2.932e+00.country2. 536eLaos-01 11.562 < 2e-16 ***- 1.37
education HS-grad native7.287e.country-011. 805eMexico-01 4.038 5.39e-05 ***- 2.54
education Masters native2.245e+00.country1. 978eNicaragua-0111.349 < 2e-16 ***- 4.56
education Preschool native-2.052e+01.country2. 775e+02Outlying-US(Guam0.0740-.USVI941054-etc) -1.34
education Prof-school native2.693e+00.country2. 364ePeru-01 11.393 < 2e-16 ***- 3.78
education Some-college native1.106e+00.country1. 829ePhilippines-016.047 1.48e-09 *** 7.79
education..num native.countryNA PolandNA NA NA -3.12
marital.status Married-AF-spouse native2.360e+00.country6. 822ePortugal-01 3.459 0.000543 ***- 1.85
marital.status Married-civ-spouse native2.310e+00.country3. 151ePurto-01-Rico7.329 2.32e-13 ***- 2.05
marital.status Married-spouse-absent native-2.253e.country-012. 831eScotland-01 -0.796 0.426239 -4.53
marital.status Never-married nativ-4.500e.country-011. 055eSouth-01 -4.264 2.01e-05 ***- 5.84
marital.status Separated native-1.726e.country-012. 010eTaiwan-01 -0.859 0.390452 1.04
marital.status Widowed native2.681e.country-011. 784eThailand-01 1.503 0.132801 -9.04
occupation Adm-clerical native1.865e.country-011. 197eTrinadad&Tobago-011.557 0.119355 2.85
occupation Armed-Forces native-1.411e+01.country8. 327e+02United-States-0.017 0.986481 4.03
native.country Vietnam -2.746e-01 7.282e-01 -0.377 0.706064
native.country Yugoslavia 1.014e+00 8.125e-01 1.248 0.211849
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)


Null deviance: 25165 on 22792 degrees of freedom
Residual deviance: 14498 on 22694 degrees of freedom
AIC: 14696

Number of Fisher Scoring iterations: 15


> table(test$X)

<=50K >50K
7416 2352
> 9713/nrow(test)
[1] 0.9943694
> predict_LR<-predict(censusglm, newdata=test, type="response")
Error in predict(censusglm, newdata = test, type = "response") :
object 'censusglm' not found
> predict_LR<-predict(adultdataglm, newdata=test,
type="response") Warning message:
In predict.lm(object, newdata, se.fit, scale = 1, type = ifelse(type == :
prediction from a rank-deficient fit may be misleading
> confusionmatrix_LR<- table(test$X, predict_LR > 0.5)
> accuracy_LR <-(confusionmatrix_LR[1,1] +
confusionmatrix_LR[2,2])/sum(confusionmatrix_ LR)
> accuracy_LR
[1] 0.8585176 >
library(ROCR)
Loading required package: gplots

Attaching package: ‘gplots’

The following object is masked from ‘package:stats’:

lowess
Warning messages:
1: package ‘ROCR’ was built under R version 3.3.3
2: package ‘gplots’ was built under R version 3.3.3
> ROCRpred<- prediction(predict_LR, test$X)
> perf<- performance(ROCRpred, "tpr",
"fpr") > plot(perf)
> ROCRpred<- prediction(predict_LR, test$X)
> as.numeric(performance(ROCRpred, "auc")@y.values)as.numeric(performance(ROCRpred,
"auc ")@y.values)
Error: unexpected symbol in "as.numeric(performance(ROCRpred, "auc")@y.values)as.numeric
"

>

Anda mungkin juga menyukai