Passer au contenu principal
La source de données WebScraping est un outil puissant pour extraire automatiquement le contenu de sites web. Ce guide vous accompagnera dans la configuration et l’utilisation de WebScraper pour collecter des données de sites web et les importer dans votre espace de travail.

Commencer

1. Créer un Nouvel Import WebScraper

Pour créer un nouvel import :
  1. Naviguez vers la section Sources de Données
  2. Cliquez sur “Ajouter une Nouvelle Source de Données” ou sélectionnez une source de données WebScraper existante
  3. Cliquez sur ”+ Nouvel Import” pour configurer un nouvel import

Configuration de Base

Configuration URL

  • URL de Départ : L’URL spécifique où l’exploration commencera. C’est le point d’entrée pour le scraper.
    • Exemple : https://fr.wikipedia.org/wiki/Intelligence_artificielle

Paramètres d’Exploration

  • Profondeur Max d’Exploration : Contrôle à quelle profondeur l’explorateur naviguera depuis l’URL de départ.
    • 0 : Explore seulement l’URL de départ
    • 1 : Inclut les pages directement liées depuis l’URL de départ
    • 2 : Inclut les liens de ces liens directs
    • 3 : Va trois niveaux de profondeur (maximum)

Configuration Avancée

  • Pages Max : Limite le nombre total de pages explorées.
    • Activez “Limiter Pages Max” pour définir une limite spécifique
    • Recommandé pour les grands sites web pour éviter un crawling excessif

Pertinence du Contenu

  • Mots-clés de Pertinence : Mots-clés qui déterminent quelles pages sont plus importantes à explorer.
    • Les pages contenant ces mots-clés reçoivent une priorité plus élevée
    • Séparez plusieurs mots-clés avec des virgules
    • Exemple : IA, apprentissage automatique, réseaux de neurones
  • Poids des Mots-clés : À quel point prioriser fortement les pages avec des mots-clés.
    • 0.0 : Ignorer complètement les mots-clés
    • 1.0 : Prioriser les mots-clés au-dessus de tous les autres facteurs
    • 0.7 : (Par défaut) Équilibre la correspondance des mots-clés avec d’autres facteurs

Modèles d’URL

  • Modèles d’URL à Inclure : Restreint quelles URLs seront explorées basées sur des modèles.
    • Utilisez * comme joker
    • Exemple : /produits/* correspond à toutes les pages dans le répertoire produits
    • Utilisez * seul ou laissez vide pour inclure toutes les URLs
    • Séparez plusieurs modèles avec des virgules
  • Modèles d’URL à Exclure : Spécifiez les modèles d’URL qui ne doivent PAS être explorés.
    • Exemple : /admin/*, /login/ exclut les pages admin et la page de connexion
    • Séparez plusieurs modèles avec des virgules

Sélection de Contenu

  • Sélecteur CSS de Contenu : Sélecteur CSS qui définit quel contenu extraire des pages.
    • Cela limite à la fois la portée d’exploration et d’extraction de contenu—tout contenu en dehors de ces sélecteurs sera ignoré.
    • Exemple : article.content,.main,.data-container
  • Éléments à Exclure : Sélecteur CSS pour les éléments à supprimer du traitement.
    • Cela fonctionne comme le Sélecteur CSS de Contenu mais en inverse—les éléments spécifiés seront exclus de la génération markdown et de l’exploration.
    • Exemple : #ads, .cookies pour supprimer les publicités et cookies
  • Éléments Cibles : Sélecteurs CSS pour l’extraction de contenu spécifique.
    • Ces éléments seront utilisés pour la génération markdown tout en permettant à l’explorateur de traiter tous les liens de page et médias.
    • Exemple : article.content,.main,.data-container
  • Balises à Exclure : Balises HTML à ignorer pendant l’extraction de contenu.
    • Ces balises seront ignorées pendant la génération markdown mais toujours vérifiées pour les liens explorables.
    • Exemple : nav

Paramètres de Proxy

  • Activer Proxy : Basculer pour utiliser un serveur proxy pour les requêtes de web scraping
    • Lorsqu’activé, des champs de configuration de proxy supplémentaires apparaîtront

Paramètres d’Import

  • Espace de Travail : Sélectionnez l’espace de travail où le contenu scrapé sera importé
  • Fréquence (minutes) : Définissez à quelle fréquence le scraper doit s’exécuter
    • Définissez à 0 pour déclenchement manuel uniquement

Bonnes Pratiques

  1. Commencer Petit : Commencez avec une profondeur d’exploration faible et des pages limitées pour tester
  2. Affiner Graduellement : Étendez votre configuration après confirmation des résultats initiaux
  3. Utiliser la Sélection de Contenu : Appliquez des sélecteurs HTML et CSS pour spécifier quel contenu extraire et traiter des pages
  4. Utiliser les Mots-clés de Pertinence : Pour les grands sites, utilisez des mots-clés pour prioriser le contenu
  5. Respecter les Règles du Site Web : Évitez l’exploration agressive qui pourrait surcharger les sites
  6. Vérifier les Résultats : Examinez régulièrement le contenu importé pour assurer la qualité

Dépannage

  • Résultats Vides : Vérifiez les modèles d’URL et les sélecteurs de contenu
  • Trop de Contenu : Réduisez la profondeur max ou les pages, ou ajoutez des modèles de sélection/exclusion
  • Contenu Non Pertinent : Affinez les sélecteurs CSS pour cibler des zones de contenu spécifiques
  • Échecs d’Import : Vérifiez les règles robots.txt du site ou essayez d’utiliser un proxy

Exemple de Configuration

Pour explorer les articles Wikipedia sur l’IA :
  • URL de Départ : https://fr.wikipedia.org/wiki/Intelligence_artificielle
  • Profondeur Max d’Exploration : 1
  • Pages Max : 20
  • Mots-clés de Pertinence : apprentissage automatique, réseau de neurones, apprentissage profond
  • Poids des Mots-clés : 0.7
  • Sélecteur CSS de Contenu : main
  • Élément à Exclure : .sidebar,.vector-column-end,.vector-page-toolbar,.vector-body-before-content,.navigation-not-searchable
I