pengenalan pandas
Halo semua pada kesempatan kali ini kita akan membahas tentang library Pandas.
Apa itu Pandas?
Pandas adalah sebuah library di Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Struktur data dasar pada Pandas dinamakan DataFrame, yang memudahkan kita untuk membaca sebuah file dengan banyak jenis format seperti file .txt, .csv, dan .tsv. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL.
Dapat disimpulkan, bahwa Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah. Untuk lebih memahami apa saja yang ada dalam library Pandas
Pastikan telah menginstall library pandas
terlebih dahulu. Jika belum gunakan pip
atau conda
untuk menginstallnya
pip install pandas
from bs4 import BeautifulSoup
import requests
import pandas as pd
data = []
# quotes di halaman 1 - 10
for page in range(1,11):
if page == 1:
url = "http://quotes.toscrape.com"
else:
url = "http://quotes.toscrape.com/page/"+str(page)
page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
quotes = soup.find_all('div', class_='quote')
for q in quotes:
quote = q.find('span', class_='text').text
author = q.find('small', class_='author').text
tags = [tag.text for tag in q.find('div', class_='tags').find_all('a', class_='tag')]
data.append({
'quote': quote,
'author': author,
'tags': tags
})
df = pd.DataFrame(data)
df.to_csv('all_quotes.csv', index=False, encoding="utf-8")
ini hasil nya dalam microsoft exel ,jadi terhitung otomatis jumlah quotes yang ditulis oleh masing- masing author
Komentar
Posting Komentar