Crawler web universel piloté par GPT

Tim inclus dans Réseau Outils-Applications

2023-12-30 2025-05-16 environ 600 mots 3 minutes - vues

Contenus

Les modèles de langage dirigés par GPT ont complètement changé la manière d’écrire des crawlers. Auparavant, il était peut-être nécessaire de configurer ou de traiter chaque site web de manière spéciale (chaque site ayant sa propre structure unique) pour extraire les informations souhaitées. Mais grâce à GPT, il n’est pas impossible pour un crawler d’extraire les informations souhaitées de tous les sites web. Pour cela, j’ai écrit un crawler universel qui utilise GPT pour extraire des informations lors du processus de crawling, et je l’ai open-sourcé sur Github.

1 Introduction

GPT-Web-Crawler est un crawler web basé sur Python et Puppeteer, capable de crawler des pages web et d’en extraire le contenu (y compris le titre de la page, l’URL, les mots-clés, la description, tout le contenu textuel, toutes les images et les captures d’écran). Il est très simple à utiliser, nécessitant seulement quelques lignes de code pour crawler des pages web et en extraire le contenu, ce qui le rend particulièrement adapté aux personnes peu familières avec le crawling web mais souhaitant extraire du contenu des pages web.

爬虫工作

La sortie du crawler peut être un fichier JSON, facilement convertible en fichier CSV, importable dans une base de données ou utilisable pour construire un agent AI.

助手演示

2 Commencer

Étape 1. Installer le package.

1

pip install gpt-web-crawler

Étape 2. Copier config_template.py et le renommer en config.py. Ensuite, éditer le fichier config.py pour configurer la clé API OpenAI et d’autres paramètres, si vous avez besoin d’utiliser ProSpider pour vous aider à extraire du contenu des pages web. Si vous n’avez pas besoin d’utiliser l’AI pour extraire du contenu des pages web, vous pouvez laisser le fichier config.py inchangé.

Étape 3. Exécuter le code suivant pour démarrer un crawler.

1
2
3
4
5
6


from gpt_web_crawler import run_spider,NoobSpider
run_spider(NoobSpider, 
           max_page_count= 10 ,
           start_urls="https://www.jiecang.cn/", 
           output_file = "test_pakages.json",
           extract_rules= r'.*\.html' )

3 Crawler

Dans le code ci-dessus, NoobSpider est utilisé. Ce package contient quatre types de crawlers, chacun pouvant extraire différents contenus des pages web. Le tableau ci-dessous montre les différences entre eux.

Type de Crawler	Description	Contenu retourné
NoobSpider	Extraction des informations de base des pages web	- title - URL - keywords - description - body : tout le contenu textuel de la page web
CatSpider	Extraction des informations des pages web avec capture d’écran	- title - URL - keywords - description - body : tout le contenu textuel de la page web - screenshot_path : chemin de la capture d’écran
ProSpider	Extraction des informations de base avec extraction de contenu AI	- title - URL - keywords - description - body : tout le contenu textuel de la page web - ai_extract_content : texte du corps extrait par GPT
LionSpider	Extraction des informations de base avec extraction de toutes les images	- title - URL - keywords - description - body : tout le contenu textuel de la page web - directory : répertoire de toutes les images sur la page web

3.1 Cat Spider

Cat spider est un crawler qui peut prendre des captures d’écran des pages web. Il est basé sur Noob spider et utilise Puppeteer pour simuler les opérations du navigateur afin de capturer l’ensemble de la page web et de l’enregistrer sous forme d’image. Donc, lorsque vous utilisez Cat spider, vous devez d’abord installer Puppeteer.

1

npm install puppeteer

Buy me a coffee~

Faire un don

Alipay

PayPal

WeChat Pay

Crawler Web Universel Piloté Par GPT

1 Introduction

2 Commencer

3 Crawler

3.1 Cat Spider