Crawler Web Universel Piloté Par GPT
Les modèles de langage dirigés par GPT ont complètement changé la manière d’écrire des crawlers. Auparavant, il était peut-être nécessaire de configurer ou de traiter chaque site web de manière spéciale (chaque site ayant sa propre structure unique) pour extraire les informations souhaitées. Mais grâce à GPT, il n’est pas impossible pour un crawler d’extraire les informations souhaitées de tous les sites web. Pour cela, j’ai écrit un crawler universel qui utilise GPT pour extraire des informations lors du processus de crawling, et je l’ai open-sourcé sur Github.
1 Introduction
GPT-Web-Crawler est un crawler web basé sur Python et Puppeteer, capable de crawler des pages web et d’en extraire le contenu (y compris le titre de la page, l’URL, les mots-clés, la description, tout le contenu textuel, toutes les images et les captures d’écran). Il est très simple à utiliser, nécessitant seulement quelques lignes de code pour crawler des pages web et en extraire le contenu, ce qui le rend particulièrement adapté aux personnes peu familières avec le crawling web mais souhaitant extraire du contenu des pages web.
La sortie du crawler peut être un fichier JSON, facilement convertible en fichier CSV, importable dans une base de données ou utilisable pour construire un agent AI.
2 Commencer
Étape 1. Installer le package.
|
|
Étape 2. Copier config_template.py et le renommer en config.py. Ensuite, éditer le fichier config.py pour configurer la clé API OpenAI et d’autres paramètres, si vous avez besoin d’utiliser ProSpider pour vous aider à extraire du contenu des pages web. Si vous n’avez pas besoin d’utiliser l’AI pour extraire du contenu des pages web, vous pouvez laisser le fichier config.py inchangé.
Étape 3. Exécuter le code suivant pour démarrer un crawler.
|
|
3 Crawler
Dans le code ci-dessus, NoobSpider est utilisé. Ce package contient quatre types de crawlers, chacun pouvant extraire différents contenus des pages web. Le tableau ci-dessous montre les différences entre eux.
Type de Crawler | Description | Contenu retourné |
---|---|---|
NoobSpider | Extraction des informations de base des pages web | - title - URL - keywords - description - body : tout le contenu textuel de la page web |
CatSpider | Extraction des informations des pages web avec capture d’écran | - title - URL - keywords - description - body : tout le contenu textuel de la page web - screenshot_path : chemin de la capture d’écran |
ProSpider | Extraction des informations de base avec extraction de contenu AI | - title - URL - keywords - description - body : tout le contenu textuel de la page web - ai_extract_content : texte du corps extrait par GPT |
LionSpider | Extraction des informations de base avec extraction de toutes les images | - title - URL - keywords - description - body : tout le contenu textuel de la page web - directory : répertoire de toutes les images sur la page web |
3.1 Cat Spider
Cat spider est un crawler qui peut prendre des captures d’écran des pages web. Il est basé sur Noob spider et utilise Puppeteer pour simuler les opérations du navigateur afin de capturer l’ensemble de la page web et de l’enregistrer sous forme d’image. Donc, lorsque vous utilisez Cat spider, vous devez d’abord installer Puppeteer.
|
|