まず、BeautifulSoupとurllib3という2つのライブラリをインポートします。次に、urllib3のPoolManager
クラスを使用してWebページを読み込みます。そして、BeautifulSoup
を使用してHTMLコードを解析し、必要な情報を抽出します。
import bs4
import urllib3
http = urllib3.PoolManager()
# Webページを読み込む
response = http.request('GET', 'http://www.example.com/ai-news')
# HTMLコードを解析する
soup = bs4.BeautifulSoup(response.data, 'html.parser')
# AIニュースのタイトルを抽出する
titles = soup.find_all('h2')
for title in titles:
print(title.text)
# AIニュースの記事本文を抽出する
articles = soup.find_all('p')
for article in articles:
print(article.text)
上記のコードでは、BeautifulSoupを使用してHTMLのh2
タグで囲まれた要素を抽出し、そのテキストを表示しています。また、p
タグで囲まれた要素も同様に抽出し、そのテキストを表示しています。このようにして、WebページからAIニュースのタイトルと記事本文をスクレイピングすることができます。