Source de Données Web Scraping

La source de données WebScraping est un outil puissant pour extraire automatiquement le contenu de sites web. Ce guide vous accompagnera dans la configuration et l’utilisation de WebScraper pour collecter des données de sites web et les importer dans votre espace de travail.

Commencer

1. Créer un Nouvel Import WebScraper

Pour créer un nouvel import :

Naviguez vers la section Sources de Données
Cliquez sur “Ajouter une Nouvelle Source de Données” ou sélectionnez une source de données WebScraper existante
Cliquez sur ”+ Nouvel Import” pour configurer un nouvel import

Configuration de Base

Configuration URL

URL de Départ : L’URL spécifique où l’exploration commencera. C’est le point d’entrée pour le scraper.
- Exemple : https://fr.wikipedia.org/wiki/Intelligence_artificielle

Paramètres d’Exploration

Profondeur Max d’Exploration : Contrôle à quelle profondeur l’explorateur naviguera depuis l’URL de départ.
- 0 : Explore seulement l’URL de départ
- 1 : Inclut les pages directement liées depuis l’URL de départ
- 2 : Inclut les liens de ces liens directs
- 3 : Va trois niveaux de profondeur (maximum)

Configuration Avancée

Pages Max : Limite le nombre total de pages explorées.
- Activez “Limiter Pages Max” pour définir une limite spécifique
- Recommandé pour les grands sites web pour éviter un crawling excessif

Pertinence du Contenu

Mots-clés de Pertinence : Mots-clés qui déterminent quelles pages sont plus importantes à explorer.
- Les pages contenant ces mots-clés reçoivent une priorité plus élevée
- Séparez plusieurs mots-clés avec des virgules
- Exemple : IA, apprentissage automatique, réseaux de neurones
Poids des Mots-clés : À quel point prioriser fortement les pages avec des mots-clés.
- 0.0 : Ignorer complètement les mots-clés
- 1.0 : Prioriser les mots-clés au-dessus de tous les autres facteurs
- 0.7 : (Par défaut) Équilibre la correspondance des mots-clés avec d’autres facteurs

Modèles d’URL

Modèles d’URL à Inclure : Restreint quelles URLs seront explorées basées sur des modèles.
- Utilisez * comme joker
- Exemple : /produits/* correspond à toutes les pages dans le répertoire produits
- Utilisez * seul ou laissez vide pour inclure toutes les URLs
- Séparez plusieurs modèles avec des virgules
Modèles d’URL à Exclure : Spécifiez les modèles d’URL qui ne doivent PAS être explorés.
- Exemple : /admin/*, /login/ exclut les pages admin et la page de connexion
- Séparez plusieurs modèles avec des virgules

Sélection de Contenu

Sélecteur CSS de Contenu : Sélecteur CSS qui définit quel contenu extraire des pages.
- Cela limite à la fois la portée d’exploration et d’extraction de contenu—tout contenu en dehors de ces sélecteurs sera ignoré.
- Exemple : article.content,.main,.data-container
Éléments à Exclure : Sélecteur CSS pour les éléments à supprimer du traitement.
- Cela fonctionne comme le Sélecteur CSS de Contenu mais en inverse—les éléments spécifiés seront exclus de la génération markdown et de l’exploration.
- Exemple : #ads, .cookies pour supprimer les publicités et cookies
Éléments Cibles : Sélecteurs CSS pour l’extraction de contenu spécifique.
- Ces éléments seront utilisés pour la génération markdown tout en permettant à l’explorateur de traiter tous les liens de page et médias.
- Exemple : article.content,.main,.data-container
Balises à Exclure : Balises HTML à ignorer pendant l’extraction de contenu.
- Ces balises seront ignorées pendant la génération markdown mais toujours vérifiées pour les liens explorables.
- Exemple : nav

Paramètres de Proxy

Activer Proxy : Basculer pour utiliser un serveur proxy pour les requêtes de web scraping
- Lorsqu’activé, des champs de configuration de proxy supplémentaires apparaîtront

Paramètres d’Import

Espace de Travail : Sélectionnez l’espace de travail où le contenu scrapé sera importé
Fréquence (minutes) : Définissez à quelle fréquence le scraper doit s’exécuter
- Définissez à 0 pour déclenchement manuel uniquement

Bonnes Pratiques

Commencer Petit : Commencez avec une profondeur d’exploration faible et des pages limitées pour tester
Affiner Graduellement : Étendez votre configuration après confirmation des résultats initiaux
Utiliser la Sélection de Contenu : Appliquez des sélecteurs HTML et CSS pour spécifier quel contenu extraire et traiter des pages
Utiliser les Mots-clés de Pertinence : Pour les grands sites, utilisez des mots-clés pour prioriser le contenu
Respecter les Règles du Site Web : Évitez l’exploration agressive qui pourrait surcharger les sites
Vérifier les Résultats : Examinez régulièrement le contenu importé pour assurer la qualité

Dépannage

Résultats Vides : Vérifiez les modèles d’URL et les sélecteurs de contenu
Trop de Contenu : Réduisez la profondeur max ou les pages, ou ajoutez des modèles de sélection/exclusion
Contenu Non Pertinent : Affinez les sélecteurs CSS pour cibler des zones de contenu spécifiques
Échecs d’Import : Vérifiez les règles robots.txt du site ou essayez d’utiliser un proxy

Exemple de Configuration

Pour explorer les articles Wikipedia sur l’IA :

URL de Départ : https://fr.wikipedia.org/wiki/Intelligence_artificielle
Profondeur Max d’Exploration : 1
Pages Max : 20
Mots-clés de Pertinence : apprentissage automatique, réseau de neurones, apprentissage profond
Poids des Mots-clés : 0.7
Sélecteur CSS de Contenu : main
Élément à Exclure : .sidebar,.vector-column-end,.vector-page-toolbar,.vector-body-before-content,.navigation-not-searchable

Démarrage

Gestion des Utilisateurs

Configuration Organisation

Configuration Système

Sources de Données

Surveillance et Analytiques

Administration Avancée

Commencer

1. Créer un Nouvel Import WebScraper

Configuration de Base

Configuration URL

Paramètres d’Exploration

Configuration Avancée

Pertinence du Contenu

Modèles d’URL

Sélection de Contenu

Paramètres de Proxy

Paramètres d’Import

Bonnes Pratiques

Dépannage

Exemple de Configuration

Démarrage

Gestion des Utilisateurs

Configuration Organisation

Configuration Système

Sources de Données

Surveillance et Analytiques

Administration Avancée

​Commencer

​1. Créer un Nouvel Import WebScraper

​Configuration de Base

​Configuration URL

​Paramètres d’Exploration

​Configuration Avancée

​Pertinence du Contenu

​Modèles d’URL

​Sélection de Contenu

​Paramètres de Proxy

​Paramètres d’Import

​Bonnes Pratiques

​Dépannage

​Exemple de Configuration

Commencer

1. Créer un Nouvel Import WebScraper

Configuration de Base

Configuration URL

Paramètres d’Exploration

Configuration Avancée

Pertinence du Contenu

Modèles d’URL

Sélection de Contenu

Paramètres de Proxy

Paramètres d’Import

Bonnes Pratiques

Dépannage

Exemple de Configuration