GPT駆動の汎用ウェブクローラー
GPTを筆頭とする言語モデルは、クローラーの作成方法を根本的に変えました。以前は、各ウェブサイトのクローラーに特別な設定や処理(各サイトには独自の構造がある)が必要で、必要な情報を抽出できました。しかし、GPTを使用することで、1つのクローラーですべてのウェブサイトから必要な情報を抽出することが可能になりました。そのため、私はクロール過程でGPTを使用して情報を抽出する汎用クローラーを作成し、Githubで公開しました。
1 介绍
GPT-Web-Crawler は、PythonとPuppeteerに基づくウェブクローラーで、ウェブページをクロールしてウェブページからコンテンツを抽出できます(ウェブページのタイトル、URL、キーワード、説明、すべてのテキストコンテンツ、すべての画像とスクリーンショットを含む)。非常に簡単に使用でき、数行のコードでウェブページをクロールしてコンテンツを抽出することができ、ウェブクロールに不慣れでウェブページからコンテンツを抽出したい人に非常に適しています。
クローラーの出力はJSONファイルであり、CSVファイルに変換したり、データベースにインポートしたり、AIエージェントを構築したりするのが簡単です。
2 開始
ステップ1. パッケージをインストールします。
|
|
ステップ2. config_template.pyをコピーしてconfig.pyにリネームします。その後、config.pyファイルを編集してopenai apiキーやその他の設定を構成します。ProSpiderを使用してウェブページからコンテンツを抽出する場合に必要です。AIを使用してウェブページからコンテンツを抽出する必要がない場合は、config.pyファイルをそのままにしておくことができます。
ステップ3. 以下のコードを実行してクローラーを起動します。
|
|
3 爬虫
上記のコードでは、NoobSpiderを使用しています。このパッケージには4種類のクローラーがあり、ウェブページから抽出できるコンテンツが異なります。以下の表はそれらの違いを示しています。
クローラータイプ | 説明 | 返されるコンテンツ |
---|---|---|
NoobSpider | 基本的なウェブ情報を取得 | - title - URL - keywords - description - body :ウェブページのすべてのテキストコンテンツ |
CatSpider | スクリーンショット付きのウェブ情報を取得 | - title - URL - keywords - description - body :ウェブページのすべてのテキストコンテンツ - screenshot_path:スクリーンショットパス |
ProSpider | 基本情報を取得しながらAIでコンテンツを抽出 | - title - URL - keywords - description - body :ウェブページのすべてのテキストコンテンツ - ai_extract_content:GPTが抽出した本文テキスト |
LionSpider | 基本情報を取得しながらすべての画像を抽出 | - title - URL - keywords - description - body :ウェブページのすべてのテキストコンテンツ - directory:ウェブページ上のすべての画像のディレクトリ |
3.1 Cat Spider
Cat spiderはウェブページのスクリーンショットを撮ることができるクローラーです。Noob spiderに基づいており、Puppeteerを使用してブラウザ操作をシミュレートし、ウェブページ全体のスクリーンショットを撮影して画像として保存します。したがって、Cat spiderを使用する場合は、まずPuppeteerをインストールする必要があります。
|
|