Anda di halaman 1dari 24

STATISKA PROBABILITAS

PART I HALAMAN 1 – 20
KELOMPOK 1
Dosen Pengampu:
ARRY AVORIZANO, S.KOM,. M.KOM
Anggota:
1. Hadi Setiawan_2203015131(KETUA)
2. Royhan Falaha_2203015145 (penulis/ketik)
3. Yoga prasetya_2203015023 (penulis/penerjemah)
4. Maisie Elviana_2203015031(Gambar dan rumus)
5. Muhammad Athaillah Al Ghazi_2203015123 (Salin Program)
6. Rafiq Setyo Aji_2203015059 (Presentasi)
7. Apriyadi Firmansyah _2203015017 (kesimpulan)
8. Gusnul Mahesa_2203015031 (Soal)
9. Desyana Ramadhan_2203015031(Support)
10. Muhammad Raihan Amar Ma’ruf_2203015111 (Support)
11. Muhammad Rizki Kurniawan_2203015067 (Support)

PROGRAM STUDI TEKNIK INFORMATIK (S1)

FAKULTAS TEKNOLOGI INDUSTRI DAN INFORMATIKA

UNIVERSITAS MUHAMMADIYYAH PROF. DR. HAMKA

JAKARTA
Bagian I
Python dan Statistik

Bagian pertama dari buku ini menyajikan pengenalan statistik berdasarkan Python. Tidak mungkin untuk
membahas seluruh bahasa dalam 30 atau 40 halaman, jadi jika Anda seorang pemula, silakan lihat salah satu
pengantar Python yang sangat baik yang tersedia di internet untuk detailnya. Tautan diberikan di bawah ini.
Bagian ini adalah permulaan untuk Python; bagian ini menunjukkan cara menginstal Python di Windows, Linux,
atau MacOS, dan membahas langkah demi langkah melalui contoh-contoh pemrograman yang terdokumentasi.
Tips-tips disertakan untuk membantu menghindari beberapa masalah yang sering ditemui saat belajar Python.
Karena sebagian besar data untuk analisis statistik biasanya diperoleh dari file teks, file Excel, atau data yang
telah diproses sebelumnya oleh Matlab, bab kedua menyajikan cara-cara sederhana untuk mengimpor jenis data
ini ke dalam Python.
Bab terakhir dari bagian ini mengilustrasikan berbagai cara untuk memvisualisasikan data dalam Python.
Karena fleksibilitas Python untuk analisis data interaktif telah menyebabkan kerumitan tertentu yang dapat
membuat frustasi para pemrogram Python baru, contoh kode yang disajikan dalam Bab 3 untuk berbagai jenis
plot interaktif akan membantu para Pythonistas di masa depanuntuk menghindari masalah ini.
Bab 1
Mengapa Statistik?

Statistik adalah penjelasan dari varians dengan mempertimbangkan hal-hal yang masih belumdijelaskan.

Setiap hari kita dihadapkan pada situasi dengan hasil yang tidak pasti, dan harus membuat keputusan
berdasarkan data yang tidak lengkap: "Haruskah saya mengejar bus? Saham mana yang harus saya beli?
Pria mana yang harus saya nikahi? Haruskah saya minum obat ini? Haruskah saya memvaksinasi anak-
anak saya?" Beberapa dari pertanyaan-pertanyaan ini berada di luar ranah statistik ("Orang mana yang
harus saya nikahi?"), karena melibatkan terlalu banyak variabel yang tidak diketahui. Namun dalam
banyak situasi, statistik dapat membantu mengekstrak pengetahuan maksimal dari informasi yang
diberikan, dan dengan jelas menjelaskan apa yang kita ketahui dan apa yang tidak kita ketahui. Sebagai
contoh, statistik dapat mengubah pernyataan yang tidak jelas seperti "Obat ini dapat menyebabkan
mual," atau "Anda dapat meninggal jika tidak meminum obat ini" menjadi pernyataan yang lebih
spesifik seperti "Tiga dari seribu pasien mengalami mual saat meminum obat ini," atau "Jika Anda
tidak meminum obatini, ada kemungkinan 95% Anda akan meninggal."
Tanpa statistik, interpretasi data dapat dengan cepat menjadi sangat salah. Sebagai contoh, perkiraan
jumlah tank Jerman yang diproduksi selama Perang Dunia II, yang juga dikenal sebagai "Masalah Tank
Jerman". Perkiraan jumlah tank Jerman yang diproduksi per bulan dari data intelijen standar adalah
1.550; namun, perkiraan statistik berdasarkan jumlah tank yang diamati adalah 327, yang sangat dekat
dengan jumlah produksi sebenarnya, yaitu 342 (http://en. wikipedia.org/wiki/German_tank_problem).
Demikian pula, menggunakan tes yang salah juga dapat menyebabkan hasil yang salah.
Secara umum, statistik akan membantu untuk
• Memperjelas pertanyaan.
• Identifikasi variabel dan ukuran variabel tersebut yang akan menjawabpertanyaan
tersebut.
• Tentukan ukuran sampel yang diperlukan.

© Springer International Publishing Switzerland 2016 3


• Jelaskan variasi
• Membuat pernyataan kuantitatif tentang parameter yang diestimasi.
• Buat prediksi berdasarkan data Anda.
Membaca Buku Statistik pada awalnya diciptakan - seperti banyak hal lainnya - oleh ahli matematika terkenal
C.F. Gauss, yang mengatakan tentang karyanya sendiri, "Ich habe fleissig sein müssen; wer es gleichfalls ist, wird
eben so weit kommen." ("Saya harus bekerja keras; jika Anda juga bekerja keras, Anda juga akan sukses."). Sama
seperti membaca buku tentang bermain piano tidak akan membuat Anda menjadi seorang pianis yang hebat,
membaca buku ini tidak akan mengajarkan Anda analisis data statistik. Jika Anda tidak memiliki data Anda sendiri
untuk dianalisis, Anda perlu melakukan latihan yang disertakan. Jika Anda merasa frustasi atau buntu, Anda selalu
dapat memeriksa contoh solusi yangdisediakan di bagian akhir buku ini.
Solusi untuk latihan yang disediakan dapat ditemukan di bagian akhir buku ini. Menurut pengalaman saya, sangat
sedikit orang yang mengerjakan sendiri sejumlah besar contoh, jadi saya tidak menyertakan latihan tambahan
dalam buku ini.
Jika informasi di sini tidak mencukupi, materi tambahan dapat ditemukan di buku-buku teks statistik lainnya
dan di web:
Buku Ada sejumlah buku bagus tentang statistik. Favorit saya adalah Altman (1999): buku ini tidak hanya
membahas tentang komputer dan pemodelan, tetapi memberikan pengantar yang sangat berguna untuk bidang ini,
terutama untukaplikasi ilmu hayati dan medis. Banyak formulasi dan contoh dalam naskah ini yang diambil dari
buku tersebut. Buku yang lebih modern, yang lebih tebal dan, menurut saya, sedikit lebih sulit untuk dibaca,
adalah Riffenburgh (2012). Kaplan (2009) memberikan pengantar sederhana untuk pemodelan regresi modern.
Jika Anda mengetahui statistik dasar Anda, pengantar yang sangat baik untuk Generalized Linear Models dapat
ditemukan di Dobson dan Barnett (2008), yang memberikan perlakuan yang baik dan canggih untuk pemodelan
statistik.
WWW Di web, Anda akan menemukan informasi yang sangat luas tentang statistik dalam bahasa Inggris di
• http://www.statsref.com/
• http://www.vassarstats.net/
• http://www.biostathandbook.com/
• http://onlinestatbook.com/2/index.html
• http://www.itl.nist.gov/div898/handbook/index.htm
Halaman web Jerman yang bagus tentang statistik dan masalah regulasi adalah http://www. reiter1.com/.
Saya berharap dapat meyakinkan Anda bahwa Python menyediakan alat yang jelas dan fleksibel untuk
sebagian besar masalah statistik yang akan Anda temui, dan bahwa Anda akan senang menggunakanny
Bab 2
Python

Python adalah bahasa pemrograman sumber terbuka yang sangat populer. Padasaat artikel ini ditulis, codeeval
menempatkan Python sebagai "bahasa yang palingpopuler" selama empat tahun berturut-turut
(http://blog.codeeval.com/codeevalblog). Ada tiga alasan mengapa saya beralih dari bahasa pemrograman lain ke
Python:
1. Ini adalah bahasa pemrograman paling elegan yang saya tahu.
2. Ini gratis.
3. Ini sangat kuat.

2.1 Memulai

2.1.1 Konvensi

Dalam buku ini, konvensi berikut ini akan digunakan:


• Teks yang akan diketik di komputer ditulis dalam font Courier, misalnya,
plot(x,y).

• Teks opsional pada entri baris perintah dinyatakan dengan tanda kurung siku dan garis bawah, contohnya,
[_InstallationDir_]\bin. (Saya menggunakangaris bawah sebagai tambahan, karena terkadang tanda
kurung siku akan digunakan untuk perintah).
• Nama yang merujuk pada program dan aplikasi komputer ditulis dengan huruf miring, misalnya IPython.
• Saya juga akan menggunakan huruf miring ketika memperkenalkan istilah atau ungkapan baru untuk pertama
kalinya.

© Springer International Publishing Switzerland 2016 5

T. Haslwanter, Pengantar Statistik dengan Python, Statistik dan Komputasi, DOI10.1007/978-3-319-28316-6_2


Contoh kode ditandai sebagai berikut:

Sampel kode Python.

Semua contoh kode yang ditandai tersedia secara gratis, di http://www.quantlet.de.


Skrip Python tambahan (daftar program lengkap, serta kode Python yang digunakan untuk menghasilkan
angka-angka) tersedia di github:https://github.com/ thomas-haslwanter/statsintro_python.git, dalam direktori ISP
(untuk "Pengantar Statistik dengan Python"). ISP berisi subfolder-subfolder berikut ini:
Latihan_Solusi berisi solusi untuk latihan yang disajikan di akhir sebagian besar bab.
Daftar berisi program-program yang secara eksplisit tercantum dalam buku ini.Angka mencantumkan
semua kode yang digunakan untuk menghasilkan gambar-gambar yang tersisa di dalam buku.
Code_Quantlets berisi semua contoh kode yang ditandai, dikelompokkanberdasarkan bab buku.
Paket-paket di github disebut repositori, dan dapat dengan mudah disalin ke komputer Anda: ketika git diinstal
di komputer Anda, cukup ketik
git clone [_Nama Repositori_]

dan seluruh repositori-kode serta data-akan "dikloning" ke sistem Anda. (Lihat Bagian 2.4.4 untuk informasi
lebih lanjut tentang git, github, dan pembuatan versi kode).

2.1.2 Distribusi dan Paket

a) Paket Python untuk Statistik

Distribusi inti Python hanya berisi fitur-fitur penting dari bahasa pemrograman umum. Sebagai contoh, distribusi
ini bahkan tidak berisi modul khusus untuk bekerja secara efisien dengan vektor dan matriks! Modul-modul
khusus ini sedangdikembangkan oleh para sukarelawan yang berdedikasi. Hubungan paket Python yang paling
penting untuk aplikasi statistik digambarkan pada Gambar 2.1.

Gbr. 2.1 Struktur paket Python yang paling penting untuk aplikasi statistik
Untuk memfasilitasi penggunaan Python, distribusi Python mengumpulkan versi yang cocok dari paket-paket
yang paling penting, dan saya sangat menyarankan untuk menggunakan salah satu dari distribusi ini ketika
memulai. Jika tidak, seseorang dapat dengan mudah menjadi kewalahan dengan banyaknya paket Python yang
tersedia. Distribusi Python favorit saya adalah
• WinPython direkomendasikan untuk pengguna Windows. Pada saat penulisan, versi terbaru adalah 3.5.1.3
(versi yang lebih baru juga tidak masalah). https://winpython.github.io/
• Anaconda oleh Continuum. Untuk Windows, Mac, dan Linux. Dapat digunakanuntuk menginstal Python 2.x
dan 3.x, bahkan secara bersamaan! Versi terbaru Anaconda pada saat artikel ini ditulis adalah 4.0.0 (versi
yang lebih baru juga bisa digunakan). https://store.continuum.io/cshop/anaconda/
Tak satu pun dari kedua distribusi ini yang memerlukan hak administrator. Saat ini saya menggunakan
WinPython, yang gratis dan dapat dikustomisasi. Anaconda telah menjadi sangat populer akhir-akhir ini, dan
gratis untuk tujuan pendidikan.
Kecuali Anda memiliki persyaratan khusus untuk versi 64-bit, Anda mungkin ingin menginstal Python versi
32-bit: Python versi 32-bit memfasilitasi banyak kegiatan yang membutuhkan kompilasi bagian modul, misalnya,
untuk statistik Bayesian (PyMC), atau ketika Anda ingin mempercepat program Anda dengan Python. Karena
semua paket Python yang diperlukan untuk kursus ini sekarang tersedia untuk Python 3.x, saya akan menggunakan
Python 3 untuk buku ini. Namun, semua skrip yang disertakan juga dapat digunakan untuk Python 2.7. Pastikan
Anda menggunakan versi terbaru dari IPython/Jupyter (4.x), karena bukucatatan Jupyter yang disediakan dengan
buku ini tidak akan berjalan pada IPython2.x.1
Program-program yang disertakan dalam buku ini telah diuji dengan Python
2.7.10 dan 3.5.1, di bawah Windows dan Linux, menggunakan versi paket berikut:
• ipython 4.1.2 . . . Untuk pekerjaan interaktif.
• numpy 1.11.0 . . . Untuk bekerja dengan vektor dan larik.
• scipy 0.17.1 . . . Semua algoritma ilmiah yang penting, termasuk algoritmauntuk statistik dasar.
• matplotlib 1.5.1 . . . Modul standar de-facto untuk plotting dan visualisasi.
• panda 0.18.0 ... Menambahkan DataFrames (bayangkan spreadsheet yang kuat)ke Python.
• patsy 0.4.1 . . . Untuk bekerja dengan rumus statistik.
• statsmodels 0.8.0 . . . Untuk pemodelan statistik dan analisis lanjutan.
• lahir di laut 0.7.0 . . . Untuk visualisasi data statistik.
Selain paket-paket yang cukup umum ini, beberapa paket khusus juga telah digunakan dalam contoh-contoh
yang menyertai buku ini:
• xlrd 0.9.4 . . . Untuk membaca dan menulis file MS Excel.
• PyMC 2.3.6 . . . Untuk statistik Bayesian, termasuk simulasi Monte Carlo rantaiMarkov.

1Selama penulisan buku ini, IPython yang tadinya monolitik dipecah menjadi dua proyek terpisah: Jupyter menyediakan front end
(notebook, qtconsole, dan konsol), dan IPython kernel komputasi yang menjalankan perintah-perintah Python.
• scikit-learn 0.17.1 . . . Untuk pembelajaran mesin.
• scikits.bootstrap 0.3.2 . . . Menyediakan algoritma interval kepercayaanbootstrap untuk scipy.
• garis hidup 0.9.1.0 . . . Analisis kelangsungan hidup dalam Python.
• rpy2 2.7.4 . . . Menyediakan pembungkus untuk fungsi-fungsi R dalam Python.
Sebagian besar paket ini datang dengan distribusi WinPython atau Anaconda, atau dapat diinstal dengan
mudah menggunakan pip atau conda. Untuk menjalankan PyMC, Anda mungkin perlu menginstal kompilator
C. Pada platform Windows saya, saya menginstal Visual Studio 15, dan mengatur variabel lingkungan SET
VS90COMNTOOLS = %VS14COMNTOOLS%.

Untuk menggunakan fungsi R dari dalam Python, Anda juga harus menginstal
R. Seperti Python, R tersedia secara gratis, dan dapat diunduh dari Comprehensive R Archive Network, rilis
terbaru pada saat tulisan ini dibuat adalah R-3.3.0 (http://cran.r-project. org/).

b) PyPI: Indeks Paket Python

Python Package Index (PyPI) (Saat ini di https://pypi.python.org/pypi, tetapi akan berpindah ke https://pypi.io)
adalah sebuah tempat penyimpanan perangkat lunak untuk bahasa pemrograman Python. Saat ini berisi lebih dari
80.000 paket!
Paket-paket dari PyPI dapat diinstal dengan mudah, dari command shell Windows (cmd) atau terminal
Linux, dengan
pip install [_package_]

Untuk memperbarui paket, gunakan


pip install [_package_] -U

Untuk mendapatkan daftar semua paket Python yang terinstal di komputer Anda, ketik
daftar pip

Anaconda menggunakan conda, manajer instalasi yang lebih kuat. Tetapi pip

juga dapat digunakan dengan Anaconda.

2.1.3 Instalasi Python

a) Di bawah Windows

Baik WinPython maupun Anaconda tidak memerlukan hak administrator untukinstalasi.

WinPython

Berikut ini, saya mengasumsikan bahwa [_WinPythonDir_] adalah direktoriinstalasi untuk


WinPython.
Tip: JANGAN menginstal WinPython ke dalam direktori program Windows (biasanya C:\Program Files atau
C:\Program Files (x86)), karena hal ini biasanya akan menyebabkan masalah perijinan saat eksekusi
WinPython.

• Unduh WinPython dari https://winpython.github.io/.


• Jalankan yang unduh .exe-file, dan instal
WinPython ke dalam folder

[_WinPythonDir_] pilihan Anda.

• Setelah instalasi, buatlah perubahan pada Lingkungan Windows Anda, denganmengetik Win -> env ->
Edit variabel lingkungan untuk akun Anda:

– Add [_WinPythonDir_]\python-3.5.1; [_WinPythonDir_]


\python-3.5.1\Scripts\; ke PATH Anda. (Ini membuat Python dan

ipython

dapat diakses dari baris perintah Windows standar).2


– Jika Anda memiliki hak administrator, Anda harus mengaktifkan
[_WinPythonDir_]\WinPython Control Panel.exe -> Advanced -> Register
Distribution. (Ini mengasosiasikan file .py dengan distribusi Python ini).

Anaconda

• Unduh Anaconda dari https://store.continuum.io/cshop/anaconda/.


• Ikuti petunjuk instalasi dari halaman web. Selama instalasi, izinkan Anaconda
untuk membuat modifikasi yang disarankan pada PATH lingkungan Anda.
• Setelah instalasi: di Anaconda Launcher, klik update (di samping Aplikasi),untuk memastikan bahwa
Anda menjalankan versi terbaru.

Menginstal Paket Tambahan

Catatan Penting: Ketika saya mengalami kesulitan dalam menginstal paket tambahan, saya telah diselamatkan
lebih dari satu kali oleh paket yang telah dikompilasi sebelumnya dari Christoph Gohlke, yang tersedia di
http://www.lfd.uci.edu/~gohlke/pythonlibs/: dari sana Anda bisa mengunduh file [_xxx_x].whl untuk versi
Python Anda saat ini, dan kemudian menginstalnya hanya dengan pip install [_xxx_].whl.

b) Di bawah Linux

Prosedur berikut ini bekerja pada Linux Mint 17.1:

• Unduh Anaconda untuk Python 3.5 (saya menggunakan versi 64 bit, karenasaya memiliki Instalasi Linux
Mint 64-bit).

2Dilingkungan Windows 10 saya saat ini, saya harus mengubah jalur secara langsung denganmenggunakan perintah "regedit"
untuk memodifikasi variabel "HKEY_CURRENT_USER | Environment"
• Buka terminal, dan arahkan ke lokasi tempat Anda mengunduh file.
• Instal Anaconda dengan bash Anaconda3-4.0.0-Linux-x86.sh
• Perbarui instalasi Linux Anda dengan sudo apt-get update

Catatan

• Anda TIDAK memerlukan hak akses root untuk menginstal Anaconda, jika Andamemilih lokasi instal yang
dapat ditulis oleh pengguna, seperti ~/Anaconda.
• Setelah ekstraksi sendiri selesai, Anda harus menambahkan direktori biner
Anaconda ke variabel lingkungan PATH Anda.

• Karena semua Anaconda berada dalam satu direktori, menghapus Anacondasangatlah mudah: Anda
cukup menghapus seluruh direktori lokasi instalasi.
• Jika m a s i h ada masalah, pengguna Mac dan Unix harus mencari tipsinstalasi dari Johansson:
(https://github.com/jrjohansson/scientific-python-lectures).

c) Di bawah Mac OS X

Mengunduh Anaconda untuk Mac OS X sangatlah mudah. Cukup

• buka continuum.io/downloads
• pilih penginstal Mac (pastikan Anda memilih Penginstal Grafis Mac OS X Python 3.x), dan ikuti petunjuk yang
tercantum di samping tombol ini.
• Setelah instalasi: di Anaconda Launcher, klik update (di samping Aplikasi), untuk memastikan bahwa Anda
menjalankan versi terbaru.
Setelah instalasi, ikon Anaconda akan muncul di desktop. Tidak diperlukan kata sandi admin. Versi Anaconda
yang diunduh ini mencakup notebook Jupyter, Jupyter qtconsole dan IDE Spyder.

Untuk melihat paket mana (misalnya, numpy, scipy, matplotlib, pandas, dll.) yang disertakan dalam instalasi
Anda, lihatlah Daftar Paket Anaconda untuk versi Python Anda. Sebagai contoh, pemasang Python mungkin
tidak menyertakan seaborn. Untuk menambahkan paket tambahan, misalnya, seaborn, buka terminal, dan
masukkan pip install seaborn.

2.1.4 Pemasangan R dan rpy2

Jika Anda belum pernah menggunakan R sebelumnya, Anda bisa melewatkan bagian ini dengan aman. Namun,
jika Anda sudah terbiasa menggunakan R, penyesuaian berikut ini akan memungkinkan Anda untuk juga
memanfaatkankekuatan R dari dalam Python, menggunakan paket rpy2.
a) Di bawah Windows

R juga tidak memerlukan hak administrator untuk instalasi. Anda dapat mendownload versi terbaru (pada saat
penulisan R 3.0.0) dari http://cran.r- project.org/, dan menginstalnya pada direktori instalasi [_RDir_] yang
Anda pilih.

Dengan WinPython

• Setelah instalasi R, tambahkan dua variabel berikut ini ke Lingkungan Windows


Anda, dengan mengetik
Win -> env -> Edit variabel lingkungan untuk akun Anda:

- R_HOME = [_RDir_]\R-3.3.0

– R_USER = [Nama Login Anda]


Entri pertama diperlukan untuk rpy2. Entri terakhir tidak terlalu diperlukan, hanya gaya yang lebih baik.

Dengan Anaconda

Anaconda hadir tanpa rpy2. Jadi, setelah instalasi Anaconda dan R, Anda harus melakukannya:

• Dapatkan rpy2 dari http://www.lfd.uci.edu/~gohlke/pythonlibs/: Christoph Gohlkes Paket Binari Windows


Tidak Resmi untuk Paket Ekstensi Python adalah salah satu andalan komunitas Python-Terima kasih banyak,
Christoph!
• Buka prompt perintah Anaconda
• Instal rpy2 dengan pip. Dalam kasus saya, perintahnya adalah
pip rpy2-2.6.0-cp35-none-win32.whl

b) Di bawah Linux

• Setelah instalasi Anaconda, instal R dan rpy2 dengan


conda install -c https://conda.binstar.org/r rpy2

2.1.5 Mempersonalisasi IPython/Jupyter

Ketika mengerjakan masalah baru, saya selalu memulai dengan Jupyter qtconsole (lihat Bagian 2.3). Setelah saya
memiliki langkah-langkah individual yang berfungsi, saya menggunakan perintah IPython
%history untuk mendapatkan urutan perintah yang telah saya gunakan, dan beralih ke IDE (lingkungan
pengembangan terintegrasi), biasanya Wing atau Spyder (lihat di bawah).
Berikut ini, [_mydir_] harus diganti dengan direktori rumah Anda (yaitu direktori yang terbuka saat Anda
menjalankan cmd di Windows, atau terminaldi Linux). Dan [_myname_] harus diganti dengan nama Anda
atau userID Anda.
Untuk memulai IPython di folder pilihan Anda, dan dengan skrip startup yang dipersonalisasi, lanjutkan
sebagai berikut.

a) Di Windows

• Ketik Win+R, dan mulai shell perintah dengan cmd


• Pada shell perintah yang baru saja dibuat, ketik ipython. (Ini akan meluncurkan
ipython

dan buat direktori [_mydir_]\.ipython).

• Tambahkan variabel IPYTHONDIR ke lingkungan Anda (lihat di atas), dan setel ke [_mydir_]\.ipython.
Direktori ini berisi perintah-perintah startup untuk sesi ipython Anda.
• Ke dalam folder startup [_mydir_].ipython\profile_default\startup letakkan sebuah berkas
dengan, misalnya, nama 00_[_nama_].py, yang berisiperintah-perintah startup yang ingin Anda jalankan
setiap kali Anda meluncurkan ipython. File startup pribadi saya berisi baris-baris berikut:
import pandas as pd import os
os.chdir(r'C:\[_mydir_]')

Ini akan mengimpor panda, dan mulai bekerja di direktori pilihan Anda.
Catatan: karena Windows menggunakan \ untuk memisahkan direktori, tetapi \ juga merupakan karakter
escape pada string, jalur direktori yang menggunakan garis miring sederhana harus diawali dengan "r", yang
mengindikasikan "string mentah".
• Buatlah berkas "ipy.bat" di mydir, yang berisi
jupyter qtconsole

Untuk melihat semua Notebook Jupyter yang disertakan dengan buku ini, misalnya, lakukan hal berikut:
• Ketik Win+R, dan mulai shell perintah dengan cmd
• Jalankan perintah
cd [_ipynb- dir_] jupyternotebook

• Sekali lagi, jika Anda mau, Anda bisa memasukkan urutan perintah ini ke dalam file batch.

b) Di Linux

• Memulai terminal Linux dengan terminal perintah


• Pada command shell yang baru dibuat, jalankan perintah berikut
ipython

(Ini menghasilkan folder .ipython)


• Ke dalam sub-folder .ipython/profile_default/startup, letakkan sebuah berkas dengan, misalnya,
nama 00[_nama_].py, yang berisi baris
import pandas as pdimport os
os.chdir([_mydir_])

• Pada berkas .bashrc Anda (yang berisi perintah-perintah startup untuk skripshell Anda), masukkan baris
alias ipy='jupyter qtconsole'IPYTHONDIR='~/.ipython'

• Untuk melihat semua Notebook Jupyter, lakukan hal berikut:


– Pergi ke [_mydir_]
– Buat berkas ipynb.sh, yang berisi baris
#!/bin/bash

cd [dimanapun_anda_memiliki_file_ipynb]jupyter notebook

– Buat berkas tersebut dapat dieksekusi, dengan chmod 755 ipynb.sh


Sekarang Anda dapat memulai IPython "Anda" hanya dengan mengetikkan ipy,
dan Notebook Jupyter

dengan mengetik ipynb.sh

c) Di Mac OS X

• Mulai Terminal dengan membuka Spotlight secara manual atau pintasan


CMD + SPASI lalu masuk ke Terminal dan cari "Terminal."

• Pada Terminal, jalankan ipython, yang akan menghasilkan sebuah folder di bawah [_mydir_]/. ipython.
• Masukkan perintah pwd ke dalam Terminal. Ini berisi daftar [_mydir_]; salin ini untuk digunakan nanti.
• Sekarang buka Anaconda dan jalankan sebuah editor, misalnya spyder-app atauTextEdit.3 Buat sebuah
file yang berisi baris perintah yang biasa Anda gunakan saat menulis kode (Anda selalu dapat membuka file
ini dan mengeditnya). Sebagai permulaan, Anda dapat membuat file dengan baris perintah berikut:
mengimpor panda sebagai pd mengimporos

os.chdir('[_mydir_]/.ipython/profile_[_nama_]')

• Langkah-langkah selanjutnya agak rumit. Mac OS X menyembunyikan folderyang dimulai dengan ".".
Jadi untuk mengakses .i\python, buka File ->
Simpan sebagai Sekarang buka Finder

jendela, klik menu Pergi, pilih Buka Folder dan masukkan

3 Bantuan
lebih lanjut tentang file teks dapat ditemukan di http://support.smqueue.com/support/solutions/articles/ 31751-bagaimana-
cara-membuat-file-tek
2.1 Memulai

a) Di bawah Windows
Juga R tidak memerlukan hak administrator untuk instalasi. Anda dapat mengunduh

versi terbaru (pada saat penulisan R 3.0.0) dari http://cran.r-project.org/, dan

instal ke direktori instalasi [_RDir_] pilihan Anda.

Dengan WinPython

 Setelah instalasi R, tambahkan dua variabel berikut ke Windows Anda Lingkungan, dengan
mengetik
Menangkan -> env -> Edit variabel lingkungan untuk akun Anda:
– R_HOME=[_RDir_]\R-3.3.0
– R_USER=[_NamaLoginAnda_]
Entri pertama diperlukan untuk rpy2. Entri terakhir tidak terlalu diperlukan, cukup gaya yang
lebih baik.

Dengan Anaconda

Anaconda hadir tanpa rpy2. Jadi setelah instalasi Anaconda dan R, Anda sebaiknya:

 Dapatkan rpy2 dari http://www.lfd.uci.edu/~gohlke/pythonlibs/ : Christoph Gohlkes Paket


Ekstensi Biner Windows untuk Python tidak resmi adalah salah satunya andalan komunitas
Python—Terima kasih banyak, Christoph!
 Buka prompt perintah Anaconda
 Instal rpy2 dengan pip. Dalam kasus saya, perintahnya adalah
pip rpy2-2.6.0-cp35-none-win32.whl

b) Di Linux
• Setelah instalasi Anaconda, instal R dan rpy2 dengan

conda install -c https://conda.binstar.org/r rpy2

2.1.5 Personalisasi IPython/Jupyter


Saat mengerjakan masalah baru, saya selalu memulai dengan Jupyter qtconsole (lihat Sekte. 2.3).
Setelah langkah-langkah individual saya berfungsi, saya menggunakan perintah Ipython %history untuk
mendapatkan urutan perintah yang saya gunakan, dan beralih ke IDE (lingkungan pengembangan
terintegrasi), biasanya Wing atau Spyder (lihat di bawah).

2 Piton

Berikut ini, [_mydir_] harus diganti dengan direktori home Anda (yaitu, direktori yang terbuka saat Anda
menjalankan cmd di Windows, atau terminal di Linux). Dan [_namasaya_] harus diganti dengan nama
atau ID pengguna Anda.

Untuk memulai IPython di folder pilihan Anda, dan dengan startup yang dipersonalisasi skrip, lanjutkan
sebagai berikut.
a) Di Windows
 Ketik Win+R, dan jalankan command shell dengan cmd
 Di shell perintah yang baru dibuat, ketik ipython. (Ini akan meluncurkan ipython sesi, dan buat
direktori [_mydir_]\.ipython).
 Tambahkan Variabel IPYTHONDIR ke lingkungan Anda (lihat di atas), dan setel ke
[_mydir_]\.ipython. Direktori ini berisi perintah startup untuk Anda sesi ipython.
 Ke dalam folder startup [_mydir_].ipython\profile_default\startup
 tempatkan file dengan, misalnya, nama 00_[_namasaya_].py, yang berisi startup perintah yang
ingin Anda jalankan setiap kali Anda meluncurkan ipython. -ku file startup pribadi berisi baris
berikut:

import pandas as pd

import os

os.chdir(r'C:\[_mydir_]')

Ini akan mengimpor pandas, dan Anda mulai bekerja di direktori pilihan Anda.

Catatan: karena Windows menggunakan \ untuk memisahkan direktori, tetapi \ juga merupakan
jalan keluar karakter dalam string, jalur direktori yang menggunakan garis miring terbalik harus
didahului dengan “r,” menunjukkan “string mentah”.

 Hasilkan file “ipy.bat” di mydir, yang berisi

jupyter qtconsole

Untuk melihat semua Notebook Jupyter yang disertakan dengan buku ini, misalnya, lakukan mengikuti:

 Ketik Win+R, dan jalankan command shell dengan cmd


 Jalankan perintah

cd [_ipynb-dir_]

jupyter notebook

 Sekali lagi, jika Anda mau, Anda dapat memasukkan urutan perintah ini ke dalam file batch.

b) Di Linux
 Jalankan terminal Linux dengan terminal perintah
 Di shell perintah yang baru dibuat, jalankan perintah berikut

ipython

(Ini menghasilkan folder .ipython)

2.1 Memulai

 Ke dalam sub-folder .ipython/profile_default/startup, letakkan file dengan misal, nama


00[_namasaya_].py, berisi baris-baris

import pandas as pd

import os

os.chdir([_mydir_])

 Dalam file .bashrc Anda (yang berisi perintah startup untuk skrip shell Anda), masukkan
baris-barisnya

alias ipy='jupyter qtconsole'

IPYTHONDIR='~/.ipython'

 Untuk melihat semua Notebook Jupyter, lakukan hal berikut:


– Pergi ke [_mydir_]

– Buat file ipynb.sh, yang berisi baris-barisnya

#!/bin/bash cd

[wherever_you_have_the_ipynb_files]

jupyter notebook

– Jadikan file dapat dieksekusi, dengan chmod 755 ipynb.sh

Sekarang Anda dapat memulai IPython "Anda" hanya dengan mengetik ipy, dan Notebook
Jupyter dengan mengetik ipynb.sh

c) Di Mac OS X
• Jalankan Terminal dengan membuka Spotlight secara manual atau dengan pintasan CMD + SPACE dan
masuk ke Terminal dan cari “Terminal.”

• Di Terminal, jalankan ipython, yang akan menghasilkan folder di bawah [_mydir_]/. ipython.

• Masukkan perintah pwd ke Terminal. Ini mencantumkan [_mydir_]; salin ini untuk digunakan nanti.

• Sekarang buka Anaconda dan luncurkan editor, misalnya aplikasi spyder atau TextEdit. Buat file yang
berisi baris perintah yang biasa Anda gunakan saat menulis kode (Anda selalu dapat membuka file ini
dan mengeditnya). Sebagai permulaan, Anda dapat membuat file dengan baris perintah berikut:

impor panda sebagai pd

impor os

os.chdir('[_mydir_]/.ipython/profile_[_nama_saya_]')

• Langkah selanjutnya agak rumit. Mac OS X menyembunyikan folder yang dimulai dengan

“.”. Jadi untuk mengakses .ipython buka File -> Save as n . . . . Sekarang buka Penemu

jendela, klik menu Go, pilih Go to Folder dan enter

2 Piton

[ _mydir_ ]/.ipython/profile_default/startup. Ini akan membuka Finder jendela dengan header bernama
"startup". Di sebelah kiri teks ini seharusnya ada ikon folder biru. Seret dan lepas folder ke dalam
Simpan sebagai. . . jendela terbuka di editor. IPython memiliki file README yang menjelaskan konvensi
penamaan. Di dalam dalam hal ini file harus dimulai dengan 00-, jadi kita bisa menamainya 00-[
_namasaya_ ].

• Buka .bash_profile Anda (yang berisi perintah startup untuk Anda shellscripts), dan masukkan baris

alias ipy='jupyter qtconsole'

• Untuk melihat semua Notebook Jupyter, lakukan hal berikut:

– Pergi ke [_mydir_]

– Buat file ipynb.sh, yang berisi baris-barisnya

#!/bin/bash

cd [di mana pun_Anda_memiliki_file_ipynb_]

buku catatan jupyter

– Jadikan file dapat dieksekusi, dengan chmod 755 ipynb.sh

2.1.6 Sumber Daya Python


Jika Anda memiliki pengalaman pemrograman, buku ini mungkin adalah satu-satunya yang Anda
butuhkan analisis statistik data Anda berjalan. Tetapi jika diperlukan, tambahan yang sangat bagus
informasi dapat ditemukan di web, di mana terdapat tutorial serta buku-buku gratis yang bagus tersedia
daring. Tautan berikut ini merupakan sumber informasi yang direkomendasikan jika Anda memulai
dengan Python:

• Catatan Kuliah Ilmiah Python Jika Anda tidak membaca apa pun, bacalah ini!

(http://scipy-lectures.github.com)

• NumPy untuk Pengguna Matlab Mulai di sini jika Anda memiliki pengalaman Matlab.

(https://docs.scipy.org/doc/numpy-dev/user/numpy-for-matlab-users.html; juga

periksa http://mathesaurus.sourceforge.net/matlab-numpy.html)

• Kuliah tentang komputasi ilmiah dengan Python Great Jupyter Notebooks, dari JR

Johansson!

(https://github.com/jrjohansson/scientific-python-lectures)

• Tutorial Python Pengenalan resmi.

(http://docs.python.org/3/tutorial)

Selain itu, buku Python gratis juga tersedia untuk berbagai tingkat pemrograman

keterampilan:

• A Byte of Python Buku yang sangat bagus, pada tingkat pengantar.

(http://swaroopch.com/notes/python)

• Belajar Python dengan Cara yang Sulit (Edisi ke-3rd) Sebuah buku populer yang dapat Anda baca.

(http://learnpythonthehardway.org/book/)

2.1 Memulai

 Pikirkan Python Untuk pemrogram tingkat lanjut. (http://www.greenteapress.com/thinkpython)


 Pengantar Python untuk Perkenalan Ekonometrika, Statistika dan Analisis Data Python dengan fokus
pada statistik (Sheppard 2015).
 Pemrograman Probabilistik dan Metode Bayesian untuk Hacker Yang Sangat Baik pengenalan
pemikiran Bayesian. Bagian statistik Bayesian di sini buku juga didasarkan pada buku itu (Pilon 2015).

Saya belum melihat banyak buku teks tentang Python yang sangat saya sukai. Kesukaanku buku
pengantarnya adalah Harms dan McDonald (2010), dan Scopatz yang lebih baru dan Huff (2015).

Saat saya mengalami masalah saat mengembangkan kode baru, sebagian besar saat itu saya hanya
mencari di Google; oleh karena itu saya tetap berpegang pada (a) pada Python resmi halaman
dokumentasi, dan (b) ke http://stackoverflow.com/. Juga, saya telah menemukan pengguna kelompok
ternyata sangat aktif dan membantu!

2.1.7 Program Python Pertama


a) Hello Word

Python Shell

Python adalah bahasa yang ditafsirkan. Cara paling sederhana untuk memulai Python adalah dengan
mengetik python di baris perintah. (Ketika saya mengatakan baris perintah, saya mengacu pada
Windows shell perintah dimulai dengan cmd, dan di Linux atau Mac OS X ke terminal.) Kemudian Anda
sudah bisa mulai menjalankan perintah Python, misalnya perintah untuk mencetak “Hello World” ke
layar: print('Hello World'). Di komputer Windows saya, ini menghasilkan

Python 3.5.1 (v3.5.1:37a07cee5969, Dec 6 2015, 01:54:25) [


MSC v.1900 64 bit (AMD64)] on win32

Type "help", "copyright", "credits" or "license" for more

information.

>>> print('Hello World')

Hello World >>>

Namun, saya tidak pernah menggunakan shell dasar Python lagi, tetapi selalu memulai dengan
qtconsole IPython/Jupyter dijelaskan lebih detail di Sect. 2.3. Konsol Qt adalah lingkungan pemrograman
interaktif yang menawarkan sejumlah keunggulan. Misalnya, saat Anda mengetik print( di konsol Qt,
Anda langsung melihatnya informasi tentang kemungkinan argumen masukan untuk perintah print.

2 Piton

Modul Python

Seringkali kita ingin menyimpan perintah kita dalam sebuah file untuk digunakan kembali nanti. File
Python memiliki ekstensi .py, dan disebut sebagai modul Python. Mari kita buat file baru dengan nama
helloWorld.py, berisi baris

print('Hello World')

File ini sekarang dapat dijalankan dengan mengetikkan python helloWorld.py di garis komando.

Di Windows Anda sebenarnya dapat menjalankan file dengan mengklik dua kali, atau cukup
dengan mengetik helloWorld.py jika ekstensi .py dikaitkan dengan program Python diinstal pada
komputer Anda. Di Linux dan Mac OS X, prosedurnya sedikit lebih rumit terlibat. Di sana, file tersebut
perlu berisi baris pertama tambahan yang menentukan jalurnya ke instalasi Python.

#! \usr\bin\python

print('Hello World')

Pada kedua sistem ini, Anda juga harus membuat file tersebut dapat dieksekusi, dengan
mengetik chmod +x helloWorld.py, sebelum Anda dapat menjalankannya dengan helloWorld.py.

b) KotakSaya
Untuk meningkatkan tingkat kerumitan, mari kita menulis modul Python yang mencetak keluar kuadrat
angka dari nol sampai lima. Kami memanggil file squareMe.py, dan itu berisi baris berikut Daftar 2.1
squareMe.py

2.2 Struktur Data Python


2.2. Python Datatypes
Python menawarkan sejumlah struktur data yang kuat, dan bermanfaat jika Anda membuatnya sendiri
akrab dengan mereka. Seseorang dapat menggunakan

• Tupel untuk mengelompokkan objek dengan tipe berbeda.

• Daftar untuk mengelompokkan objek dengan tipe yang sama.


• Array untuk bekerja dengan data numerik. (Python juga menawarkan matriks tipe data. Namun,
disarankan untuk menggunakan array, karena banyak yang bersifat numerik dan ilmiah fungsi tidak akan
menerima data masukan dalam format matriks.)

• Kamus untuk kumpulan data terstruktur dan diberi nama.

• DataFrames untuk analisis data statistik.

Tuple ( ) Kumpulan hal yang berbeda. Tupel bersifat “tidak dapat diubah”, yaitu mereka

tidak dapat diubah setelah pembuatan.

2 Piton

Daftar [] Daftar bersifat “mutable”, yaitu elemen-elemennya dapat dimodifikasi. Oleh karena itu daftar
biasanya digunakan untuk mengumpulkan item dengan tipe yang sama (angka, string, :::). Catatan
bahwa “+” menggabungkan daftar.

Array [] vektor dan matriks, untuk manipulasi data numerik. Didefinisikan dalam numpy. Perhatikan
bahwa vektor dan array 1-d berbeda: vektor TIDAK BISA dialihkan! Dengan array, “+” menambahkan
elemen terkait; dan metode array .dot melakukan perkalian skalar dari dua array. (Dari Python 3.5
seterusnya, hal ini juga dapat dicapai dengan operator “@”.).

Kamus {} Kamus adalah kumpulan konten (kunci/nilai) yang tidak berurutan, di mana konten
dialamatkan sebagai dict['key']. Kamus dapat dibuat dengan perintah dict, atau dengan menggunakan
tanda kurung kurawal {...}:

DataFrame Struktur data dioptimalkan untuk bekerja dengan data statistik bernama. Didefinisikan
dalam panda. (Lihat Bagian 2.5.)

2.2 Struktur Data Python

2.2.2 Pengindeksan dan Pemotongan


Aturan untuk menangani elemen individual dalam daftar atau tupel Python atau dalam numpy array
sebenarnya cukup sederhana, dan telah dirangkum dengan baik oleh Greg Hewgill di stackoverflow4:

Ada juga nilai langkah, yang dapat


digunakan dengan salah satu hal di atas:

Poin penting yang perlu diingat adalah pengindeksan dimulai dari 0, bukan 1; dan itu nilai :end
mewakili nilai pertama yang tidak ada dalam potongan yang dipilih. Sehingga perbedaan antara akhir
dan awal adalah jumlah elemen yang dipilih (jika langkahnya 1, bawaannya).

Ciri lainnya adalah awal atau akhir mungkin berupa angka negatif, yang artinya itu dihitung dari
akhir array, bukan dari awal. Jadi:

Hasilnya, a[:5] memberi Anda lima elemen pertama (Halo pada Gambar 2.2), dan a[-5:]

lima elemen terakhir (Dunia).

2.2.3 Vektor dan Array


numpy adalah modul Python yang membuat bekerja dengan angka menjadi efisien. Dia umumnya
diimpor dengan

impor numpy sebagai np

Gambar 2.2 Pengindeksan dimulai dari 0, dan pemotongan tidak menyertakan nilai terakhir

2 Piton

Secara default, ini menghasilkan vektor. Perintah yang paling sering digunakan untuk menghasilkan
angkanya adalah:

np.zeros menghasilkan angka nol. Perhatikan bahwa ini hanya membutuhkan satu (!) masukan.
Jika kamu ingin menghasilkan matriks nol, masukan ini harus sebuah tupel, berisi jumlah
baris/kolom!

np.ones menghasilkan yang.

np.random.randn menghasilkan angka yang terdistribusi normal, dengan mean 0 dan deviasi
standar 1.
np.arange menghasilkan rentang angka. Parameternya bisa mulai, akhir, interval loncatan.
Perhatikan bahwa nilai akhir dikecualikan! Meskipun hal ini terkadang terasa
sedikit canggung, namun hal ini memang benar adanya memiliki keuntungan
bahwa urutan yang berurutan dapat dilakukan dengan mudah dihasilkan, tanpa
tumpang tindih, dan tanpa kehilangan data apa pun poin:

np.linspace menghasilkan angka dengan spasi linier.


KESIMPULAN

Bagian 1: Python dan Statistik

Bagian ini memberikan pengenalan tentang penggunaan Python dalam analisis statistik.

Mendiskusikan instalasi Python pada berbagai platform (Windows, Linux, MacOS) dan langkah-langkah
yang terkait.

Membahas cara mengimpor berbagai jenis data, seperti file teks dan Excel, ke Python.

Mengilustrasikan berbagai cara untuk memvisualisasikan data dalam Python.

Bab 1: Mengapa Statistik?

Ini adalah pengantar untuk topik statistik.

Membahas pentingnya statistik dalam situasi di mana kita dihadapkan pada hasil yang tidak pasti dan
harus membuat keputusan berdasarkan data yang tidak lengkap.

Menyajikan contoh-contoh tentang bagaimana statistik dapat mengubah pernyataan yang tidak jelas
menjadi pernyataan yang lebih spesifik dan informatif.

Menyebutkan beberapa aplikasi statistik dalam perhitungan jumlah tank Jerman selama Perang Dunia II
sebagai contoh kasus.

Bab 2: Python

Membahas pengenalan Python sebagai bahasa pemrograman yang kuat dan populer.

Memberikan panduan instalasi Python menggunakan distribusi seperti WinPython dan Anaconda di
berbagai sistem operasi (Windows, Linux, MacOS).

Menyajikan beberapa paket Python penting yang sering digunakan dalam analisis statistik, seperti
numpy, scipy, matplotlib, pandas, dsb.

Seluruh buku sepertinya berfokus pada penggunaan Python dalam konteks analisis statistik dan
memberikan panduan tentang penggunaan Python dan paket-paket yang relevan untuk tujuan tersebut.
Bagian yang Anda sertakan adalah pengantar dan beberapa informasi tentang persyaratan instalasi.
Selanjutnya, buku tersebut kemungkinan akan menyajikan lebih banyak materi terkait statistik, analisis
data, dan cara mengimplementasikannya menggunakan Python.

Hello World dan Modul Python: Buku ini memulai dengan contoh sederhana "Hello World" dalam
Python dan menjelaskan cara membuat modul Python dengan ekstensi .py.

Struktur Data Python: Buku ini menjelaskan berbagai struktur data yang digunakan dalam Python,
termasuk tupel, daftar, array, kamus, dan DataFrames.

Pengindeksan dan Pemotongan: Penggunaan pengindeksan dan pemotongan dalam daftar, tupel, dan
array Python dijelaskan dengan jetail, termasuk contoh penggunaan.

Menggunakan NumPy: NumPy diidentifikasi sebagai modul Python yang berguna untuk manipulasi data
numerik. Ada contoh penggunaan np.zeros, np.ones, np.random.randn, np.arange, dan np.linspace
untuk menghasilkan vektor dan matriks dengan berbagai properti.
Buku ini memberikan informasi awal yang diperlukan untuk memulai dengan Python dan memahami
struktur data dasar yang digunakan dalam pemrograman dan analisis statistik. Itu merupakan dasar bagi
pembaca untuk memahami konsep dan aplikasi statistik yang lebih canggih yang akan ditampilkan dalam
buku tersebut.

SOAL:

1. Apa yang dicakup dalam bagian pertama buku ini yang merupakan pengenalan statistik
berdasarkan Python?
2. Apa yang dibahas dalam bab kedua buku ini?
3. Apa yang akan dibahas dalam bab terakhir dari bagian ini?
4. Mengapa statistik dianggap penting dalam kehidupan sehari-hari dan pengambilan
keputusan?
5. Bagaimana statistik dapat membantu mencegah kesalahan dalam interpretasi data, seperti
yang terjadi dalam "Masalah Tank Jerman"?

Anda mungkin juga menyukai