指定のページからテキストや画像を抽出!「Scraper」プラグインの使い方とコツ

指定のページからテキストや画像を抽出!「Scraper」プラグインの使い方とコツ

最終更新日:2023年10月20日

『Scraper』プラグインはWebページから情報を効率的に抽出するツールです。この記事では、『Scraper』プラグインの基本的な使い方から、その活用コツまで詳しく解説します。Webスクレイピングが初めての方でも安心して使い始められるように、具体的な手順を紹介します。

ChatGPTや生成AIの社内活用でお困りの際は、無料相談会を実施中ですのでぜひお気軽にご相談ください!

あわせて読みたいChatGPTプラグインのおすすめまとめ 導入方法から使い方、注意点も解説

「Scraper」プラグインとは

『Scraper』プラグインは、ウェブページからデータを簡単に抽出するためのツールです。特にプログラミングの知識がなくても、マウスのクリックだけで情報を取得できます。このプラグインは、マーケティングリサーチや競合分析など、多くのビジネスシーンで活用されています。

プラグインのインストール方法

「Scraper」のインストールは簡単です。以下はExpediaプラグインのインストール例ですが、手順は同じですので参考にしてみてください。

1.「No plugins enabled」をクリック

https://appliv-gai-production.s3.ap-northeast-1.amazonaws.com/images/articles/dEeoI0nMsAu3TbBQdSyYmqMobaa7Nsmg7j12tiXm.png

2.「Plugin store」をクリック

https://appliv-gai-production.s3.ap-northeast-1.amazonaws.com/images/articles/AJCmQnYf3wEAULgBW0Gv3KFaQ5BohMyyHO0ZH06c.png

▲既にインストールしているプラグインは上部に表示される。

3.使いたいプラグインを探す

https://appliv-gai-production.s3.ap-northeast-1.amazonaws.com/images/articles/DCIHhrXjM9B7XkfJ4vw7EgJGfUIckKJYMjNUovCt.png

▲「Most popular」で人気順、「All plugins」で全てのプラグインを探せる。「Search Plugins」からテキスト検索も可能。

4.「Install」ボタンをクリック

https://appliv-gai-production.s3.ap-northeast-1.amazonaws.com/images/articles/JmFgtMI6n75xdvXmUnpJrL9U9N30lza3RfY912Iw.png

5.TOP画面に戻る

https://appliv-gai-production.s3.ap-northeast-1.amazonaws.com/images/articles/MtDrTvTk1NguzvSI5NzD2GKcIZj3lrMIZN4QbJv7.png

▲インストールしたプラグインは「Uninstall」ボタンに変わっている。

https://appliv-gai-production.s3.ap-northeast-1.amazonaws.com/images/articles/dO6BQeFwcedOQEsWPGjymQkO31RHo9btFRwI2E1E.png

▲インストールしたプラグインのアイコンが表示されているので、ここをクリックする。

6.インストールされたプラグインにチェックマークがついていたらOK。プロンプトを投げよう!

https://appliv-gai-production.s3.ap-northeast-1.amazonaws.com/images/articles/p19CizylaKlIJHuFb9QPghcUBACVwCoE5mhoUWXq.png

こちらの記事ではChatGPTプラグインのインストール方法について詳しく解説しているので、参考にしてみてください。

「Scraper」プラグインの使い方

このプラグインはテキスト、画像、リンクなどのデータを抽出したり、抽出したデータをCSVやExcelで出力したりする機能があります。主な使い方は以下の通りです。

1.ページのURLを指定する

情報を抽出するページのURL(ブラウザのアドレスバーに表示されている文字列)を指定します。

2.抽出する情報のtypeを指定する

"text":ページ内のテキストを抽出する

"links":ページ内のリンクを抽出する

"Images":ページ内の画像を抽出する

3.テンプレートに沿ってプロンプトを入力

web_scraper.scrape({
  "url": "https://example.com",
  "type": "text"
})

実際に以下のページでImagesを出力した例

https://appliv-gai-production.s3.ap-northeast-1.amazonaws.com/images/articles/YxE9755bVqGAIq5XoXkeTkJxyzGyyBBA0PcyD7yo.png

「Scraper」プラグインができること

<b>機能</b> できること
テキスト抽出 ウェブページ上の記事や商品説明など、特定のテキストを簡単に取得できます。これは、競合分析や市場調査に役立ちます。
画像ダウンロード 商品画像やアイコンなど、ウェブページから画像を一括でダウンロードすることができます。
リンク収集 ウェブページにある外部リンクや内部リンクを一覧で取得できます。これにより、リンク先の情報も簡単に調査できます。

「Scraper」プラグインを上手く使うコツ

テンプレートを使用せずに指示を出してもデータの抽出は可能です。試しに以下のプロンプトを投げてみました。

以下のページから新着ニュース一覧のテキストを抽出してください。
https://www3.nhk.or.jp/news/catnew.html
https://appliv-gai-production.s3.ap-northeast-1.amazonaws.com/images/articles/xsUZoGCsr72UxmXn9EkwjgalABWXARGh6TWWMVX7.png

ただし、すべてのページでデータが抽出できるわけではないようです。プロンプトを変えても抽出できない場合は別の方法を検討しましょう。

https://appliv-gai-production.s3.ap-northeast-1.amazonaws.com/images/articles/4JQkXNlMRHo4dpwiGIJcncRagvnLXwUJMlpzKPZu.png

ChatGPTプラグインのおすすめまとめ

こちらの記事もおすすめ

新着記事

無料相談会実施中!
ChatGPTや生成AIの社内活用でお困りの際は、下記フォームからぜひお気軽にご相談ください!