Anda di halaman 1dari 32

TUGAS BIOSTATISTIKA TUTORIAL 5

Correlation, Simple and Multiple Linear Regression

NAMA : BETI HERLINA


NIM : 22/500055/PKU/20384

UNIVERSITAS GADJAH MADA


FAKULTAS KEDOKTERAN KESEHATAN MASYARAKAT DAN
KEPERAWATAN PROGRAM STUDI KEBIJAKAN DAN
MANAJEMEN KESEHATAN
MINAT KEBIJAKAN DAN MANAJEMEN PELAYANAN
KESEHATAN
2023
TUTORIAL 5
Correlation, Simple and Multiple Linear Regression

1. LEARNING OBJECTIVES
Upon completion of this course, students will be able to
a. Demonstrate the process of estimation and inference for the simple and multiple
linear regression model
b. Evaluate the regression assumption
c. Demonstrate how to use correlation method from health data
d. Analyse the use of multiple linear regression for data analysis in public health research.
2. TUTORIAL’S GUIDE
Please finish CASE STUDY 1 exercise before in class session and upload it in Elok
before in class practical session which is July 2, 2022 8-12.00. If students submit more
or equal than
8.00 then they will get “-20”. In this tutorial session, we will use Tutorial 5.omv.
Please download the data from Elok.

3. CASE STUDY 1 (Simple Linear Regression and Correlation)


a. Before we can do a simple linear regression analysis, there are several
assumptions need to be fulfilled. Please state what kind of assumptions needed
for simple linear regression?
Jawab :
Asumsi yang diperlukan untuk regresi linier sederhana yaitu
1. Asumsi linearitas : hubungan antara variabel independen dan variable
dependen harus bersifat linear
2. Asumsi independensi : nilai – nilai observasi harus saling independen satu
sama lain
3. Asumsi homoskedastisitas : variansi dari nilai – nilai observasi harus konstan
4. Asumsi normalitas : nilai – nilai residual (perbedaan antara nilai yang diamati
dan nilai yang diprediksi) harus berdistribusi normal
5. Asumsi tidak adanya multikolinieritas : tidak ada hubungan linear yang kuat di
antara variable independen
b. What kind of test needed to conclude whether our dependent variable (DV) has a
normal distribution or not?
Jawab :
Tes yang digunakan untuk menguji apakah variable dependen memiliki
distribusi normalitas :
1. Kolmogorov-Smirnov Test (KS Test)
2. Shapiro-Wilk Test
3. Anderson-Darling Test
4. Histogram
5. Q-Q Plot

c. How do you test for a linear relationship between DV and independent variable (IV)?
Jawab :
Untuk menguji hubungan linier antara DV dan variabel independen (IV),
menggunakan metode :
1. Korelasi Pearson
Metode ini menghasilkan koefisien korelasi Pearson (r) yang dapat bernilai antara -1
hingga 1. Nilai positif menunjukkan hubungan positif, nilai negatif menunjukkan
hubungan negatif, dan nilai nol menunjukkan tidak adanya hubungan linier.

2. Scatter plot
Metode visual yang menampilkan titik-titik data pada grafik dengan sumbu x dan y
yang mewakili variabel independen dan dependen. Dengan melihat pola penyebaran
titik-titik pada scatter plot, dapat dilihat apakah terdapat pola garis lurus atau pola
linier lainnya, yang menunjukkan adanya hubungan linier antara DV dan IV.

3. Analisis regresi linear


Regresi linier memodelkan hubungan antara variabel dependen dan variabel
independen dengan persamaan garis regresi. Dalam analisis regresi linier, dilakukan
estimasi parameter regresi dan pengujian hipotesis untuk melihat apakah koefisien
regresi signifikan secara statistic.

4. Coeffisien of Determination (R-squared)


Koefisien determinasi (R-squared) digunakan untuk mengukur sejauh mana variasi
dalam variabel dependen dapat dijelaskan oleh variabel independen dalam model
regresi linier. Nilai R-squared berkisar antara 0 hingga 1, dan semakin mendekati 1,
semakin baik variabel independen menjelaskan variasi dalam variabel dependen.
d. What is the meaning of independent data?
Jawab :
Data independen merujuk pada kondisi di mana setiap pengamatan atau sampel dalam
dataset tidak terkait atau tidak bergantung satu sama lain. Data independen juga
dikenal sebagai variabel prediktor atau variabel eksplanatori. Data independen
digunakan untuk memprediksi atau menjelaskan variasi dalam variabel dependen. Data
independen penting dalam analisis statistik karena memastikan bahwa setiap
pengamatan memberikan kontribusi informasi yang unik dan tidak dipengaruhi oleh
pengamatan lainnya.

e. Table 1 below was taken from SPSS output between cry count after birth and IQ
of a children 3 years later, what is the effect size used in simple linear regression?
How much is the effect size of cry count? Please interpret the result below (B =
beta coefficient; Sig=p- value)! Is there any relationship between cry count and
IQ?
Table 1. Output table of SPSS for relationship between crycount and IQ

Jawab :

 Pada tabel 1 diatas, efek size yang digunakan adalah koefisien Beta (B) = 0.591. Hal
ini menunjukkan bahwa pada tiap peningkatan satu unit dalam cry count terkait
dengan peningkatan sebesar 0.591 standar deviasi dalam IQ anak 3 tahun
kemudian.
 Nilai p (Sig.) = 0.000 (<0.05), berarti ada hubungan yang signifikan antara cry
count dengan IQ anak
 Dengan demikian dapat disimpulkan bahwa terdapat hubungan yang signifikan
antara cry count setelah lahir dengan IQ anak 3 tahun kemudian.
f. What is the difference between simple and multiple linear regression?
Jawab :
Perbedaannya :
Regresi linier sederhana :
 Melibatkan satu variable independen dan satu variable dependen
 Hubungan antara variable independen dan variable dependen bersifat linier
 Tujuannya adalah untuk memprediksi atau menjelaskan variasi dalam variable
dependen
Regresi linier berganda :
 Melibatkan lebih dari satu variable independen dan satu variable dependen
 Hubungan antara variable independen dan variable dependen dapat bersifat linier
atau non linier
 Tujuannya adalah untuk memprediksi atau menjelaskan variasi dalam variable
dependen dengan mempertimbangkan pengaruh dari beberapa variable independen

g. Why do we need to conduct multivariate analysis using multiple linear regression?


Jawab :
 Analisis multivariate menggunakan regresi linier berganda diperlukan ketika kita
ingin mempelajari hubungan antara satu variabel dependen dengan lebih dari satu
variabel independen.
 Analisis multivariate memungkinkan kita untuk mempelajari hubungan antara
beberapa variabel independen dan variabel dependen secara bersamaan sehingga
dapat memberikan gambaran yang lebih lengkap tentang hubungan antar variabel
 Analisis multivariate dapat membantu mengidentifikasi interaksi antara variabel
independen dan mengevaluasi apakah ada variabel independen yang tidak
memberikan kontribusi signifikan terhadap model

h. Are there any criteria for independent variabel to be included in multivariate analysis?
Jawab :
Kriteria yang harus dipenuhi oleh variabel independen untuk dimasukkan dalam analisis
multivariate :
 variabel independen harus memiliki hubungan yang signifikan dengan variabel
dependen
 variabel independen harus saling independen satu sama lain
 variabel independen harus memiliki hubungan linier dengan variabel dependen
 variabel independen harus memiliki distribusi normal
 variabel independen harus memiliki variansi yang konstan
i. Please state two post regression assumption that need to be checked!
Jawab :
Dua asumsi pasca regresi yang perlu diperiksa :
1. Normalitas
Untuk melihat apakah nilai residu terdistribusi normal atau tidak. Model regresi yang
baik adalah yang memiliki residu yang terdistribusi normal.

2. Homoskedastisitas
Semua gangguan atau residual dalam fungsi regresi memiliki variansi yang sama /
seragam / homogen.

j. What is the assumptions needed before we can analyse using Pearson correlation test?
Jawab :
Asumsi yang diperlukan sebelum kita menganalisis mengunakan uji korelasi Pearson :
1. Data berdistribusi normal
2. Hubungan antara kedua variabel harus bersifat linier
3. Sampel data berpasangan (x,y) berasal dari sampel acak dan merupakan data
kuantitatif
k. Please take a look at figure 1 below, what is your interpretation for this scatter plot?

Figure 1. Scatter plot between cry count and IQ


Jawab :
Interpretasi :
 Terdapat pola hubungan positif antara jumlah tangisan bayi dengan IQ, artinya
semakin banyak tangisan bayi maka semakin tinggi nilai IQ yang dimiliki
 Hubungan antara jumlah tangisan bayi dengan IQ terlihat rendah artinya tidak ada
korelasi yang kuat antara variabel tangisan bayi dan varabel IQ
 Terdapat beberapa outlier
 Terdapat variasi yang cukup besar pada data, artinya terdapat variasi IQ pada bayi
yang memiliki jumlah tangisan yang sama.
l. What is the effect size used in Pearson correlation test?
Jawab :
 Efek ukuran yang digunakan dalam uji korelasi Pearson adalah koefisien korelasi
Pearson (r). Koefisien korelasi Pearson digunakan untuk mengukur kekuatan dan arah
hubungan linier antara dua variabel.
 Nilai r berkisar antara -1 hingga +1, dengan interpretasi :
 Nilai r = -1, menunjukkan hubungan negative sempurna
 Nilai r = 0, menunjukkan tidak ada hubungan
 Nilai r = +1, menunjukkan hubungan positive sempurna
 Nilai absolut dari r = mengindikasi kekuatan hubungan. Semakin mendekati 1 (positif
atau negative), semakin kuat hubungan linier antara dua variabel.
 Koefisien korelasi Pearson digunakan untuk menentukan apakah hubungan antara
kedua variabel signifikan atau tidak

m. Please explain what do you know about coefficient determination (R2)!


Jawab :
Koefisien determinasi (R2) bertujuan untuk mengetahui seberapa besar kemampuan
variabel bebas (variabel independen) menjelaskan variabel terikat (variabel dependen).
Nilai koefisien determinasi (R2)= antara 0 hingga 1
Jika nilai R2 mendekati 1, artinya variabel independen memberikan hamper semua
informasi yang dibutuhkan untuk memprediksi variabel dependen.
Semakin tinggi nilai R2, semakin baik model regresi dalam menjelaskan variasi pada
variabel dependen.
4. Case study II (Practical session in class using Jamovi)
We are going to do a practical session using Jamovi and data “tutorial 5.omv”.
In this exercise, we use an observational analysis from a 20% random sub-sample
of post- menopausal women with heart disease and without diabetes who
participated in the HERS trial. There are five variables in this dataset which are
smoking (ever smoking yes/no), drinkany (ever drink alcohol yes/no), physact (level
of physical activity), bmi and age10 (age per 10 years). Please answer several
question below using this dataset.
a. What is the most likely variable to be used as DV?
Jawab :
Variabel yang mungkin untuk variabel dependen adalah BMI

b. Please do a descriptive analysis for each variables and check for normality test.
Jawab :
1. Variabel Current Smoker
Descriptive Statistics
N Range Minimum Maximum Mean Std. Deviation Variance
current smoker 553 1 0 1 .13 .341 .116
Valid N (listwise) 553
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
current smoker 553 100.0% 0 0.0% 553 100.0%
Descriptives
Statistic Std. Error
current smoker Mean .13 .014
95% Confidence Interval for Lower Bound .11
Mean Upper Bound .16
5% Trimmed Mean .09
Median .00
Variance .116
Std. Deviation .341
Minimum 0
Maximum 1
Range 1
Interquartile Range 0
Skewness 2.157 .104
Kurtosis 2.662 .207
Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
current smoker .519 553 .000 .402 553 .000
a. Lilliefors Significance Correction
Interpretasi :
Pada uji normalitas Kolmogorov-Smirnov dan Shapiro-Wilk, menunjukkan bahwa data
pada variabel current smoker tidak terdistribusi normal karena nilai signifikansi (Sig.)
untuk kedua uji = 0,000 (< 0,05).

2. Variabel Drinkany
Descriptive Statistics
N Range Minimum Maximum Mean Std. Deviation Variance
any current alcohol 553 1 0 1 .37 .484 .235
consumption
Valid N (listwise) 553

Case Processing Summary


Cases
Valid Missing Total
N Percent N Percent N Percent
any current alcohol 553 100.0% 0 0.0% 553 100.0%
consumption

Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
any current alcohol .406 553 .000 .613 553 .000
consumption
a. Lilliefors Significance Correction
Interpretasi :
Pada uji normalitas Kolmogorov-Smirnov dan Shapiro-Wilk, menunjukkan bahwa data
pada variabel drinkany tidak terdistribusi normal karena nilai signifikansi (Sig.) untuk
kedua uji = 0,000 (< 0,05).

3. Variabel Physact
Descriptive Statistics
N Range Minimum Maximum Mean Std. Deviation Variance
comparative physical activity 553 4 1 5 3.15 1.093 1.194
Valid N (listwise) 553
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
comparative physical activity 553 100.0% 0 0.0% 553 100.0%
Descriptives
Statistic Std. Error
comparative physical activity Mean 3.15 .046
95% Confidence Interval for Lower Bound 3.06
Mean Upper Bound 3.24
5% Trimmed Mean 3.16
Median 3.00
Variance 1.194
Std. Deviation 1.093
Minimum 1
Maximum 5
Range 4
Interquartile Range 2
Skewness -.260 .104
Kurtosis -.582 .207
Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
comparative physical activity .188 553 .000 .910 553 .000
a. Lilliefors Significance Correction

Interpretasi :

Pada uji normalitas Kolmogorov-Smirnov dan Shapiro-Wilk, menunjukkan bahwa data


pada variabel physact tidak terdistribusi normal karena nilai signifikansi (Sig.) untuk kedua
uji = 0,000 (< 0,05).
4. Variabel BMI

Case Processing Summary


Cases
Valid Missing Total
N Percent N Percent N Percent
BMI (kg/m^2) 551 99.6% 2 0.4% 553 100.0%

Descriptives
Statistic Std. Error
BMI (kg/m^2) Mean 28.86 .227
95% Confidence Interval for Lower Bound 28.41
Mean Upper Bound 29.30
5% Trimmed Mean 28.66
Median 28.14
Variance 28.368
Std. Deviation 5.326
Minimum 17
Maximum 50
Range 32
Interquartile Range 7
Skewness .653 .104
Kurtosis .587 .208

Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
BMI (kg/m^2) .065 551 .000 .975 551 .000
a. Lilliefors Significance Correction
Interpretasi :

Pada uji normalitas Kolmogorov-Smirnov dan Shapiro-Wilk, menunjukkan bahwa data


pada variabel BMI tidak terdistribusi normal karena nilai signifikansi (Sig.) untuk kedua uji
= 0,000 (< 0,05).

5. Variabel age10
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
age (per 10 years) 553 100.0% 0 0.0% 553 100.0%

Descriptives
Statistic Std. Error
age (per 10 years) Mean 6.66 .029
95% Confidence Interval for Lower Bound 6.60
Mean Upper Bound 6.72
5% Trimmed Mean 6.67
Median 6.70
Variance .464
Std. Deviation .681
Minimum 5
Maximum 8
Range 3
Interquartile Range 1
Skewness -.303 .104
Kurtosis -.576 .207
Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
age (per 10 years) .078 553 .000 .980 553 .000
a. Lilliefors Significance Correction

Pada uji normalitas Kolmogorov-Smirnov dan Shapiro-Wilk, menunjukkan bahwa data


pada variabel age10 tidak terdistribusi normal karena nilai signifikansi (Sig.) untuk kedua
uji = 0,000 (< 0,05).
c. Please conduct a pearson correlation between BMI and age10 and interpret the result.
Jawab :

Descriptive Statistics
Mean Std. Deviation N
BMI (kg/m^2) 28.86 5.326 551
age (per 10 years) 6.66 .681 553

Correlations
age (per 10
BMI (kg/m^2) years)
BMI (kg/m^2) Pearson Correlation 1 -.190**
Sig. (2-tailed) .000
N 551 551
age (per 10 years) Pearson Correlation -.190** 1
Sig. (2-tailed) .000
N 551 553
**. Correlation is significant at the 0.01 level (2-tailed).

Interpretasi :
Dari tabel diatas menunjukkan bahwa rata-rata BMI adalah 28,86 dengan simpangan
baku 5,326 dan rata-rata usia adalah 6,66 dengan simpangan baku 0,681. Korelasi
antara BMI dan usia menunjukkan korelasi negatif yang lemah (r = -0,190, p <0,01).
Hasil uji normalitas menunjukkan bahwa distribusi BMI tidak normal (p <0,05). Hal ini
menunjukkan bahwa semakin tua usia seseorang, semakin rendah BMI-nya.
Kesimpulan = tidak ada hubungan yang kuat antara jumlah tangisan setelah lahir dan IQ
anak 3 tahun kemudian.

d. Please estimate an independent t-test for smoking and drinkany with BMI and
interpret the result

Jawab :

1. Variabel Smoking with BMI


Group Statistics
current smoker N Mean Std. Deviation Std. Error Mean
BMI (kg/m^2) no 478 29.07 5.363 .245
yes 73 27.47 4.892 .573
Independent Samples Test

Levene's Test
for Equality of
Variances t-test for Equality of Means
95% Confidence
Interval of the
Sig. (2- Mean Std. Error Difference
F Sig. t df tailed) Difference Difference Lower Upper
BMI Equal 1.958 .162 2.395 549 .017 1.596 .666 .287 2.905
(kg/m^2) variances
assumed
Equal 2.563 100.348 .012 1.596 .623 .360 2.832
variances
not
assumed

Interpretasi =
menunjukkan bahwa rata-rata BMI adalah 28,86 dengan simpangan baku 5,326 dan
rata-rata usia adalah 6,66 dengan simpangan baku 0,681. Terdapat 478 kasus yang
tidak merokok dan rata-rata BMI mereka adalah 29,07, sedangkan 73 kasus yang
merokok memiliki rata-rata BMI 27,47. Uji t-test menunjukkan bahwa perbedaan rata-
rata BMI antara kelompok yang merokok dan tidak merokok adalah signifikan secara
statistik (t = 2,395, df = 549, p = 0,017). Hal ini menunjukkan bahwa merokok
memiliki hubungan yang signifikan dengan penurunan BMI. 

2. Variabel Drinkany with BMI

Group Statistics
any current alcohol
consumption N Mean Std. Deviation Std. Error Mean
BMI (kg/m^2) no 344 28.90 5.415 .292
yes 207 28.78 5.187 .361
Independent Samples Test
Levene's Test for
Equality of
Variances t-test for Equality of Means
95% Confidence
Interval of the
Sig. (2- Mean Std. Error Difference
F Sig. t df tailed) Difference Difference Lower Upper
BMI Equal .680 .410 .256 549 .798 .120 .469 -.801 1.041
(kg/m^2) variances
assumed
Equal .258 448.811 .796 .120 .464 -.792 1.032
variances not
assumed

Interpretasi :
menunjukkan bahwa rata-rata BMI kelompok yang tidak minum alkohol adalah 28,90
dengan simpangan baku 5,415 dan rata-rata BMI kelompok yang minum alkohol adalah
28,78 dengan simpangan baku 5,187. Uji t-test menunjukkan bahwa perbedaan rata-
rata BMI antara kedua kelompok tidak signifikan secara statistik (t = 0,256, df = 549, p
= 0,798). Hal ini menunjukkan bahwa tidak ada perbedaan yang signifikan dalam rata-
rata BMI antara kelompok yang tidak minum alkohol dan kelompok yang minum alkohol.

e. Please estimate a one-way ANOVA for level of physical activity and BMI and
interpret the result
Jawab :

Descriptives
BMI (kg/m^2)
95% Confidence Interval for Mean
N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum
much less active 47 29.22 6.004 .876 27.45 30.98 18 42
somewhat less active 98 30.92 5.989 .605 29.72 32.12 17 50
about as active 182 29.68 5.150 .382 28.92 30.43 18 45
somewhat more 172 27.50 4.601 .351 26.81 28.19 18 42
active
much more active 52 26.29 4.059 .563 25.16 27.42 20 37
Total 551 28.86 5.326 .227 28.41 29.30 17 50
ANOVA
BMI (kg/m^2)
Sum of Squares df Mean Square F Sig.
Between Groups 1203.774 4 300.944 11.412 .000
Within Groups 14398.468 546 26.371
Total 15602.242 550

Interpretasi :
 Terdapat perbedaan yang signifikan dalam rata-rata BMI antara kelompok-kelompok
tersebut (F = 11.412, p < 0.001).
 Variabel tingkat aktivitas fisik memiliki pengaruh yang signifikan terhadap BMI.

f. How many variables can be included in the multiple linear regression?


Jawab :
Jumlah variabel yang dapat dimasukkan dalam analisis regresi linier berganda
tergantung pada ukuran sampel yang digunakan dalam analisis. Jumlah variabel yang
dapat dimasukkan tergantung pada ukuran sampel dan ukuran umumnya adalah rasio
10:1. Setidaknya ada 10 observasi per variabel predictor untuk menghindari masalah
dan menjaga kekuatan uji statistic. Namun harus diperhatikan aspek-aspek seperti
multikolinearitas dan overfitting saat memilih variabel independen yang akan
dimasukkan dalam analisis regresi linier berganda.

g. Please estimate a multiple linear regression model for BMI with independent variables
Jawab :
1. BMI with current smoker

Descriptive Statistics
Mean Std. Deviation N
BMI (kg/m^2) 28.86 5.326 551
current smoker .13 .339 551

Correlations
BMI (kg/m^2) current smoker
Pearson Correlation BMI (kg/m^2) 1.000 -.102
current smoker -.102 1.000
Sig. (1-tailed) BMI (kg/m^2) . .008
current smoker .008 .
N BMI (kg/m^2) 551 551
current smoker 551 551
Variables Entered/Removeda
Variables Variables
Model Entered Removed Method
1 current smoker b
. Enter
a. Dependent Variable: BMI (kg/m^2)
b. All requested variables entered.

Model Summary
Adjusted R Std. Error of the
Model R R Square Square Estimate
1 .102 a
.010 .009 5.303
a. Predictors: (Constant), current smoker

ANOVAa
Model Sum of Squares df Mean Square F Sig.
1 Regression 161.342 1 161.342 5.736 .017b
Residual 15440.900 549 28.126
Total 15602.242 550
a. Dependent Variable: BMI (kg/m^2)
b. Predictors: (Constant), current smoker

Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 29.070 .243 119.844 .000
current smoker -1.596 .666 -.102 -2.395 .017
a. Dependent Variable: BMI (kg/m^2)

2. BMI with drinkany

Descriptive Statistics
Mean Std. Deviation N
BMI (kg/m^2) 28.86 5.326 551
any current alcohol .38 .485 551
consumption
Correlations
any current
alcohol
BMI (kg/m^2) consumption
Pearson Correlation BMI (kg/m^2) 1.000 -.011
any current alcohol -.011 1.000
consumption
Sig. (1-tailed) BMI (kg/m^2) . .399
any current alcohol .399 .
consumption
N BMI (kg/m^2) 551 551
any current alcohol 551 551
consumption

Variables Entered/Removeda
Variables Variables
Model Entered Removed Method
1 any current . Enter
alcohol
consumptionb
a. Dependent Variable: BMI (kg/m^2)
b. All requested variables entered.

Model Summary
Adjusted R Std. Error of the
Model R R Square Square Estimate
1 .011 a
.000 -.002 5.331
a. Predictors: (Constant), any current alcohol consumption

ANOVAa
Model Sum of Squares df Mean Square F Sig.
1 Regression 1.856 1 1.856 .065 .798b
Residual 15600.385 549 28.416
Total 15602.242 550
a. Dependent Variable: BMI (kg/m^2)
b. Predictors: (Constant), any current alcohol consumption
Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 28.904 .287 100.567 .000
any current alcohol -.120 .469 -.011 -.256 .798
consumption
a. Dependent Variable: BMI (kg/m^2)

3. BMI with Physact

Descriptive Statistics
Mean Std. Deviation N
BMI (kg/m^2) 28.86 5.326 551
comparative physical activity 3.15 1.090 551

Correlations
comparative
BMI (kg/m^2) physical activity
Pearson Correlation BMI (kg/m^2) 1.000 -.231
comparative physical activity -.231 1.000
Sig. (1-tailed) BMI (kg/m^2) . .000
comparative physical activity .000 .
N BMI (kg/m^2) 551 551
comparative physical activity 551 551

Variables Entered/Removeda
Variables Variables
Model Entered Removed Method
1 comparative . Enter
physical activity b

a. Dependent Variable: BMI (kg/m^2)


b. All requested variables entered.

Model Summary
Adjusted R Std. Error of the
Model R R Square Square Estimate
1 .231a .053 .051 5.187
a. Predictors: (Constant), comparative physical activity
ANOVAa
Model Sum of Squares df Mean Square F Sig.
1 Regression 830.385 1 830.385 30.861 .000b
Residual 14771.856 549 26.907
Total 15602.242 550
a. Dependent Variable: BMI (kg/m^2)
b. Predictors: (Constant), comparative physical activity

Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 32.413 .677 47.884 .000
comparative physical activity -1.128 .203 -.231 -5.555 .000
a. Dependent Variable: BMI (kg/m^2)

4. BMI with age10

Descriptive Statistics
Mean Std. Deviation N
BMI (kg/m^2) 28.86 5.326 551
age (per 10 years) 6.66 .682 551

Correlations
age (per 10
BMI (kg/m^2) years)
Pearson Correlation BMI (kg/m^2) 1.000 -.190
age (per 10 years) -.190 1.000
Sig. (1-tailed) BMI (kg/m^2) . .000
age (per 10 years) .000 .
N BMI (kg/m^2) 551 551
age (per 10 years) 551 551

Variables Entered/Removeda
Variables Variables
Model Entered Removed Method
1 age (per 10 . Enter
years) b

a. Dependent Variable: BMI (kg/m^2)


b. All requested variables entered.
Model Summary
Adjusted R Std. Error of the
Model R R Square Square Estimate
1 .190 a
.036 .035 5.233
a. Predictors: (Constant), age (per 10 years)

ANOVAa
Model Sum of Squares df Mean Square F Sig.
1 Regression 566.070 1 566.070 20.668 .000b
Residual 15036.171 549 27.388
Total 15602.242 550
a. Dependent Variable: BMI (kg/m^2)
b. Predictors: (Constant), age (per 10 years)

Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 38.766 2.191 17.697 .000
age (per 10 years) -1.487 .327 -.190 -4.546 .000
a. Dependent Variable: BMI (kg/m^2)

5. BMI with seluruh variabel independen

Descriptive Statistics
Mean Std. Deviation N
BMI (kg/m^2) 28.86 5.326 551
age (per 10 years) 6.66 .682 551
current smoker .13 .339 551
any current alcohol .38 .485 551
consumption
comparative physical activity 3.15 1.090 551
Correlations
age (per current any current alcohol comparative physical
BMI (kg/m^2) 10 years) smoker consumption activity
Pearson BMI (kg/m^2) 1.000 -.190 -.102 -.011 -.231
Correlatio age (per 10 -.190 1.000 -.159 -.083 .156
n years)
current smoker -.102 -.159 1.000 .062 -.099
any current -.011 -.083 .062 1.000 .074
alcohol
consumption
comparative -.231 .156 -.099 .074 1.000
physical activity
Sig. (1- BMI (kg/m^2) . .000 .008 .399 .000
tailed) age (per 10 .000 . .000 .025 .000
years)
current smoker .008 .000 . .074 .010
any current .399 .025 .074 . .042
alcohol
consumption
comparative .000 .000 .010 .042 .
physical activity
N BMI (kg/m^2) 551 551 551 551 551
age (per 10 551 551 551 551 551
years)
current smoker 551 551 551 551 551
any current 551 551 551 551 551
alcohol
consumption
comparative 551 551 551 551 551
physical activity

Variables Entered/Removeda
Variables Variables
Model Entered Removed Method
1 comparative . Enter
physical activity,
any current
alcohol
consumption,
current smoker,
age (per 10
years)b
a. Dependent Variable: BMI (kg/m^2)
b. All requested variables entered.

Model Summary
Adjusted R Std. Error of the
Model R R Square Square Estimate
1 .316a .100 .093 5.071
a. Predictors: (Constant), comparative physical activity, any current
alcohol consumption, current smoker, age (per 10 years)

ANOVAa
Model Sum of Squares df Mean Square F Sig.
1 Regression 1560.387 4 390.097 15.168 .000b
Residual 14041.854 546 25.718
Total 15602.242 550
a. Dependent Variable: BMI (kg/m^2)
b. Predictors: (Constant), comparative physical activity, any current alcohol consumption, current
smoker, age (per 10 years)
Coefficientsa
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 41.921 2.210 18.969 .000
age (per 10 years) -1.410 .326 -.181 -4.330 .000
current smoker -2.383 .648 -.152 -3.676 .000
any current alcohol -.006 .450 -.001 -.014 .989
consumption
comparative physical activity -1.063 .202 -.217 -5.252 .000
a. Dependent Variable: BMI (kg/m^2)

h. What is the most influential variables in the model? (use standardized estimate
in the model coefficient)

Jawab :

Variabel yang paling berpengaruh dalam model adalah comparative physical


activity, dengan standardized coefficient sebesar -0.217. Hal ini dapat dilihat dari
nilai standardized coefficient yang paling besar di antara variabel lainnya pada
tabel Coefficients. Variabel lainnya yang mempengaruhi BMI adalah age (per 10
years) dan current smoker, dengan standardized coefficient masing-masing
sebesar -0.181 dan -0.152. Variabel any current alcohol consumption tidak
signifikan mempengaruhi BMI, dengan standardized coefficient sebesar -0.001.
Ini dapat dilihat dari nilai p-value yang lebih besar dari 0.05 pada tabel
Coefficients.
i. Please interpret the result of physical activity! Is there a trend observed in the
physical activity variable?
Jawab :
Nilai koefisien regresi standar (standardized regression coefficient) untuk variabel
comparative physical activity adalah -0.231, yang menunjukkan adanya
hubungan negatif antara comparative physical activity dan BMI. Semakin tinggi
nilai comparative physical activity, semakin rendah nilai BMI. Hal ini dapat
diartikan bahwa semakin aktif seseorang secara fisik, semakin rendah
kemungkinan untuk mengalami obesitas atau kelebihan berat badan.

j. Is there any multicollinearity among IVs? (use collinearity statistics in assumption


checks)
Jawab :
Coefficientsa
Unstandardized Standardized Collinearity
Coefficients Coefficients Statistics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) 41.921 2.210 18.969 .000
age (per 10 years) -1.410 .326 -.181 -4.330 .000 .948 1.055
current smoker -2.383 .648 -.152 -3.676 .000 .966 1.035
any current alcohol -.006 .450 -.001 -.014 .989 .982 1.018
consumption
comparative physical activity -1.063 .202 -.217 -5.252 .000 .962 1.040
a. Dependent Variable: BMI (kg/m^2)

Dasar pengambilan keputusan untuk Uji multikolinearitas adalah

 Melihat nilai Tolerance : jika nilai tolerance > 0.10 = tidak terjadi multikolinearitas

 Melihat nilai VIF (Variance Inflation Factor) : jika nilai VIF < 10.00 = tidak terjadi
multikolinearitas

Interpretasi :

Berdasarkan tabel diatas, dapat dilihat bahwa semua variabel independen memiliki nilai
tolerance cukup tinggi (> 0.10) dan dan nilai VIF yang cukup rendah (<10.00), sehingga
tidak terdapat indikasi adanya multikolinearitas antara variabel independen (VI).
k. Is there any normal distribution of residuals and homogeneity of variance
between residul with model fittet data? (use normality test, q-q plot of residuals
and residual plots)
Jawab :
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
BMI (kg/m^2) 551 99.6% 2 0.4% 553 100.0%

Descriptives
Statistic Std. Error
BMI (kg/m^2) Mean 28.86 .227
95% Confidence Interval for Lower Bound 28.41
Mean Upper Bound 29.30
5% Trimmed Mean 28.66
Median 28.14
Variance 28.368
Std. Deviation 5.326
Minimum 17
Maximum 50
Range 32
Interquartile Range 7
Skewness .653 .104
Kurtosis .587 .208

Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
BMI (kg/m^2) .065 551 .000 .975 551 .000
a. Lilliefors Significance Correction
l. Please give your conclusion based on this multiple linear regression result
Jawab :
Berdasarkan hasil analisis regresi linier berganda, dapat disimpulkan :
 nilai p-value yang kurang dari 0.05 pada tabel Coefficients dan nilai F-test
yang signifikan pada tabel ANOVA = terdapat hubungan yang signifikan
antara variabel independen (IV) comparative physical activity, age (per 10
years), current smoker, dan any current alcohol consumption dengan
variabel dependen BMI (kg/m^2).
 Variabel comparative physical activity memiliki pengaruh paling besar
terhadap BMI, diikuti oleh age (per 10 years) dan current smoker.
Sedangkan variabel any current alcohol consumption tidak signifikan
mempengaruhi BMI.
 Hasil analisis deskriptif menunjukkan bahwa rata-rata BMI pada sampel
adalah 28.86 kg/m^2 dengan standar deviasi sebesar 5.326. Distribusi BMI
pada sampel memiliki skewness positif (0.653) dan kurtosis yang mendekati
normal (0.587). Hasil uji normalitas menunjukkan bahwa distribusi BMI pada
sampel tidak normal (p < 0.05), dapat diartikan adanya variasi dalam
distribusi BMI pada sampel.

m. Please create the prediction model for BMI based on this result
Jawab :
Untuk membuat model prediksi BMI berdasarkan hasil analisis regresi linier berganda,
menggunakan persamaan regresi linier berganda yang dihasilkan dari analisis tersebut.
Persamaan regresi linier berganda dapat digunakan untuk memprediksi nilai BMI
berdasarkan nilai comparative physical activity, age (per 10 years), current smoker, dan
any current alcohol consumption.

BMI adalah variabel dependen yang ingin diprediksi, sedangkan age, current smoker,
any current alcohol consumption, dan comparative physical activity adalah variabel
independen yang digunakan untuk memprediksi nilai BMI. 

Persamaan regresi linier berganda :


y = a + b1x1 + b2x2 + ... + bkxk
BMI = 41.921 - 1.410(age) - 2.383(current smoker) - 0.006(any current alcohol

consumption) - 1.063(comparative physical activity)

Model prediksi ini hanya untuk nilai BMI pada populasi yang serupa dengan sampel
yang digunakan dalam analisis regresi linier berganda.

Anda mungkin juga menyukai