GPT駆動の汎用ウェブクローラー

GPTを筆頭とする言語モデルは、クローラーの作成方法を根本的に変えました。以前は、各ウェブサイトのクローラーに特別な設定や処理(各サイトには独自の構造がある)が必要で、必要な情報を抽出できました。しかし、GPTを使用することで、1つのクローラーですべてのウェブサイトから必要な情報を抽出することが可能になりました。そのため、私はクロール過程でGPTを使用して情報を抽出する汎用クローラーを作成し、Githubで公開しました。

1 介绍

GPT-Web-Crawler は、PythonとPuppeteerに基づくウェブクローラーで、ウェブページをクロールしてウェブページからコンテンツを抽出できます(ウェブページのタイトル、URL、キーワード、説明、すべてのテキストコンテンツ、すべての画像とスクリーンショットを含む)。非常に簡単に使用でき、数行のコードでウェブページをクロールしてコンテンツを抽出することができ、ウェブクロールに不慣れでウェブページからコンテンツを抽出したい人に非常に適しています。

爬虫工作

クローラーの出力はJSONファイルであり、CSVファイルに変換したり、データベースにインポートしたり、AIエージェントを構築したりするのが簡単です。

助手演示

2 開始

ステップ1. パッケージをインストールします。

1
pip install gpt-web-crawler

ステップ2. config_template.pyをコピーしてconfig.pyにリネームします。その後、config.pyファイルを編集してopenai apiキーやその他の設定を構成します。ProSpiderを使用してウェブページからコンテンツを抽出する場合に必要です。AIを使用してウェブページからコンテンツを抽出する必要がない場合は、config.pyファイルをそのままにしておくことができます。

ステップ3. 以下のコードを実行してクローラーを起動します。

1
2
3
4
5
6
from gpt_web_crawler import run_spider,NoobSpider
run_spider(NoobSpider, 
           max_page_count= 10 ,
           start_urls="https://www.jiecang.cn/", 
           output_file = "test_pakages.json",
           extract_rules= r'.*\.html' )

3 爬虫

上記のコードでは、NoobSpiderを使用しています。このパッケージには4種類のクローラーがあり、ウェブページから抽出できるコンテンツが異なります。以下の表はそれらの違いを示しています。

クローラータイプ 説明 返されるコンテンツ
NoobSpider 基本的なウェブ情報を取得 - title
- URL
- keywords
- description
- body :ウェブページのすべてのテキストコンテンツ
CatSpider スクリーンショット付きのウェブ情報を取得 - title
- URL
- keywords
- description
- body :ウェブページのすべてのテキストコンテンツ
- screenshot_path:スクリーンショットパス
ProSpider 基本情報を取得しながらAIでコンテンツを抽出 - title
- URL
- keywords
- description
- body :ウェブページのすべてのテキストコンテンツ
- ai_extract_content:GPTが抽出した本文テキスト
LionSpider 基本情報を取得しながらすべての画像を抽出 - title
- URL
- keywords
- description
- body :ウェブページのすべてのテキストコンテンツ
- directory:ウェブページ上のすべての画像のディレクトリ

3.1 Cat Spider

Cat spiderはウェブページのスクリーンショットを撮ることができるクローラーです。Noob spiderに基づいており、Puppeteerを使用してブラウザ操作をシミュレートし、ウェブページ全体のスクリーンショットを撮影して画像として保存します。したがって、Cat spiderを使用する場合は、まずPuppeteerをインストールする必要があります。

1
npm install puppeteer
Buy me a coffee~
Tim 支付宝支付宝
Tim 贝宝贝宝
Tim 微信微信
0%