AD Modul 11. Akses File
AD Modul 11. Akses File
MODUL PERKULIAHAN
W542100001 –
Analisis Data
Akses File
Abstrak Sub-CPMK
11.1. Pengantar
Saya baru-baru ini menemukan banyak calon ilmuwan data yang bertanya-tanya
mengapa begitu sulit untuk mengimpor format file yang berbeda dengan Python.
Sebagian besar dari Anda mungkin akrab dengan fungsi read_csv() di Pandas tetapi hal-
hal menjadi rumit dari sana.
Bagaimana cara membaca file JSON dengan Python? Bagaimana dengan file gambar?
Bagaimana dengan banyak file sekaligus? Ini adalah pertanyaan yang harus Anda
ketahui jawabannya – tetapi mungkin sulit untuk dipahami pada awalnya.
Dan menguasai format file ini sangat penting untuk kesuksesan Anda di industri ilmu data.
Anda akan bekerja dengan semua jenis format file yang dikumpulkan dari berbagai
sumber data – itulah realitas era digital modern yang kita jalani.
Jadi dalam artikel ini, saya akan memperkenalkan Anda pada beberapa format file paling
umum yang harus diketahui oleh seorang ilmuwan data. Kami akan belajar cara
membacanya dengan Python sehingga Anda siap sebelum memasuki medan perang!
Saya sangat merekomendasikan untuk mengambil kursus ' Python untuk Ilmu Data '
populer kami jika Anda baru mengenal bahasa pemrograman Python. Ini gratis dan
bertindak sebagai titik awal yang sempurna dalam perjalanan Anda.
Setelah Anda menjalankan kode di atas, Anda dapat melihat file yang diekstrak di folder
yang sama dengan skrip Python Anda:
Fungsi read() mengimpor semua data dalam file dalam bentuk terstruktur yang benar.
# read text file
with open(r'./Importing files/Analytics Vidhya.txt','r') as
f:
print(f.read(10))
Dengan memberikan nomor dalam fungsi read() , kami dapat mengekstrak jumlah byte
yang ditentukan dari file.
# read text file
with open(r'./Importing files/Analytics Vidhya.txt','r') as
f:
print(f.readline())
Di sini, fungsi readline() mengekstrak semua data file teks dalam format daftar.
The Panda perpustakaan membuatnya sangat mudah untuk membaca file CSV
menggunakan read_csv () fungsi:
# import pandas
import pandas as pd
# read csv file into a DataFrame
df = pd.read_csv(r'./Importing
files/Products.csv')
# display DataFrame
df
import pandas as pd
df = pd.read_csv(r'./Importing files/Employee.txt',delimiter='\
t')
df
Setelah melakukan itu, kita dapat dengan mudah membaca data dari sheet mana pun
yang kita inginkan dengan memberikan namanya di parameter sheet_name di fungsi
read_Excel() :
import pandas as pd
import sqlite3
# open engine connection
con=sqlite3.connect('./Importing
Anda dapat membaca lebih lanjut tentang SQLite dengan Python dari dokumentasi resmi
import json
# open json file
with open('./Importing files/sample_json.json','r') as
file:
data = json.load(file)
# json dictionary
print(type(data))
# loading into a DataFrame
df_json = pd.DataFrame(data)
df_json
Tetapi Anda bahkan dapat memuat file JSON secara langsung ke dalam kerangka data
menggunakan fungsi pandas.read_json() seperti yang ditunjukkan di bawah ini:
import requests
# url =
"https://weather.com/en-IN/weather/tenday/l/aff9460b9160c73ff01769fd83ae82cf37cb
27fb7eb73c70b91257d413147b69"
url = "https://en.wikipedia.org/wiki/Delhi"
# response object
resp = requests.get(url)
# using text attribute of the response object, return the HTML of webpage as string
text = resp.text
print(text)
import requests
from bs4 import BeautifulSoup
# url
# url =
"https://weather.com/en-IN/weather/tenday/l/aff9460b9160c73ff01769fd83ae82cf37cb
27fb7eb73c70b91257d413147b69"
url = "https://en.wikipedia.org/wiki/Delhi"
# Package the request, send the request and catch the response: r
r = requests.get(url)
# Extracts the response as html: html_doc
html_doc = r.text
# Create a BeautifulSoup object from the HTML: soup
soup = BeautifulSoup(html_doc)
# Print the response
print(soup.prettify())
title = soup.title
title
Halaman web memiliki banyak gambar monumen terkenal di Delhi dan hal-hal lain yang
berhubungan dengan Delhi. Mari kita coba dan simpan ini di folder lokal.
Kita akan membutuhkan library urllib Python untuk mengambil URL gambar yang ingin
kita simpan. Ini memiliki fungsi urllib.request() yang digunakan untuk membuka dan
membaca URL. Memanggil fungsi urlretrieve() pada objek ini memungkinkan kita untuk
mengunduh objek yang dilambangkan dengan URL ke file lokal:
import urllib
# function to save image from the passed URL
def download_img(url, i):
# folder = r'C:\Users\Dell\Desktop\Analytics Vidhya\
Delhi\\'
folder = r'./Importing files/Delhi/'
# define the file path to store images
filepath = folder + str(i) +'.jpg'
# retrieve the image from the URL and save in the folder
urllib.request.urlretrieve(url,filepath)
Gambar disimpan dalam tag "img" dalam HTML. Ini dapat ditemukan dengan memanggil
find_all() pada objek sup. Setelah ini, kita dapat mengulangi gambar dan mendapatkan
sumbernya dengan memanggil fungsi get() pada objek gambar. Sisanya ditangani oleh
fungsi unduhan kami:
images = soup.find_all('img')
i = 1
for image in images[2:10]:
try:
download_img('https:'+image.get('src'),
i)
i = i+1
Saat mengimpor hanya file Python sepanjang 5 karakter, kita dapat menggunakan "?"
kartu pengganti:
Saat mengimpor file gambar yang berisi nomor dalam nama file, kita dapat menggunakan
wildcard “[0-9]” :
Sebelumnya, kami mengimpor beberapa gambar dari halaman Wikipedia di Delhi dan
menyimpannya di folder lokal. Saya akan mengambil gambar-gambar ini menggunakan
modul glob dan kemudian menampilkannya menggunakan perpustakaan PIL :
import cv2
import matplotlib.pyplot as plt
# import glob
filepath = r'./Importing files/Delhi'
images = glob.glob(filepath+'\
*.jpg')
for i in images[:3]:
im = Image.open(i)
plt.imshow(im)
plt.show()