Doc produitsMenu

Configuration et indexation d'une source Sites Web

Une source définit un groupe de paramètres de connecteur qui spécifient où et comment analyser un site Web.

Pour configurer et indexer une source Sites Web

  1. Dans le serveur Coveo, accédez à l'Outil d'administration (voir Ouverture de l'Outil d'administration).

  2. Sélectionnez Index > Sources et collections.

  3. Dans la section Collections :

    1. Sélectionnez une collection existante dans laquelle vous souhaitez ajouter la nouvelle source.

      OU

    2. Cliquez sur Ajouter pour créer une nouvelle collection (voir Ajout d'une collection).

  4. Dans la section Sources, cliquez sur Ajouter.

    La page Ajouter une source qui apparaît est organisée en trois sections.

  5. Dans la section Paramètres généraux (General Settings) de la page Ajouter une source (Add Source) :

    1. Tapez la bonne valeur pour les paramètres obligatoires suivants :

      Nom (Name)

      Tapez un nom descriptif de votre choix pour la source du connecteur.

      Exemple : My Organization Website

      Type de source

      Le connecteur qui est utilisé par cette source. Dans ce cas, sélectionnez Web Pages.

      Adresses

      L'URL racine du contenu de site web que vous souhaitez indexer.

      Exemple : http://www.myorganization.com/

      Vous pouvez également spécifier plusieurs URL si elles partagent la même configuration. Ceci est utile si vous souhaitez n'indexer que des sections spécifiques d'un site web. Chaque URL doit se situer dans une ligne différente dans la boîte.

      Note : Il est conseillé de créer des sources indépendantes pour des sites web indépendants.

      Horaire d'actualisation (Refresh Schedule)

      Intervalle de temps à laquelle l'index est automatiquement actualisé afin de garder le contenu de l'index à jour. Par défaut, l'option Chaque jour (Every day) force CES à actualiser la source chaque jour, à minuit. Choisissez le taux d'actualisation qui est approprié pour le taux auquel le contenu du site web est mis à jour.

      Note : Vous pouvez créer de nouveaux horaires d'actualisation de source ou modifier ceux qui existent (voir Création ou modification d'un horaire de source).

    2. Évaluez la valeur des paramètres suivants, qui, la plupart du temps, n'ont pas à être modifiés :

      Appréciation (Rating)

      Changez la valeur seulement si vous souhaitez changer globalement la cote associée à tous les éléments de cette source par rapport à la cote d'autres sources (voir Fonctionnement du classement des résultats de recherche).

      Types de document (Document Types)

      Si vous avez défini des groupes personnalisés de types de documents, sélectionnez celui qui convient le mieux à cette source (voir Que sont les groupes de types de documents?).

      Langues actives (Active Languages)

      Si vous avez défini un groupe de langues personnalisé pour cette source, sélectionnez-le.

      Champs (Fields)

      Si vous avez défini des groupes de champs personnalisés, sélectionnez celui qui convient le mieux à cette source (voir Que sont les groupes de champs?).

  6. Dans la section Paramètres spécifiques au connecteur (Specific Connector Parameters & Options) de la page Ajouter une source, vérifiez si vous devez changer les valeurs par défaut des paramètres :

    Agent utilisateur (User Agent)

    Détermine le nom utilisé par le connecteur de pages Web afin de s'identifier lorsque des pages sont en téléchargement. À laisser vide afin d'utiliser la valeur par défaut (CoveoEnterpriseSearch) configurée pour toutes les sources Sites Web dans la page Web Connector (Configuration > Connecteurs > Web Crawler).

    Identifiant d'agent d'utilisateur

    Détermine le nom utilisé par le connecteur de pages Web afin de s'identifier lorsque des pages sont en téléchargement.

    Certains sites Web utilisent la chaîne d'identification agent d'utilisateur afin de déterminer si le visiteur est un navigateur spécifique ou un connecteur de moteur de recherche. Le champ http de la chaîne d'identification agent d'utilisateur permet aux sites Web de vérifier et de détecter le navigateur et les versions. Cette information peut être utilisée afin de faire sortir un html et du contenu différents.

    Exemple : Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US) AppleWebKit/532.5 (KHTML, like Gecko) Safari/532.5

    À laisser vide afin d'utiliser la valeur par défaut (Mozilla/4.0 (compatible; MSIE 5.0; Windows 95)) configurée pour toutes les sources Pages Web dans la page Connecteur Web (Configuration > Connecteurs > Web Crawler).

    Inter-domaines Kerberos (Kerberos Cross Domain)

    Spécifie une liste de Noms de principal du service, séparés par des points-virgules, pour l'authentification inter-domaines avec Kerberos.

    Dans la section Option:

    Indexer les métadonnées des documents (Index the document's metadata)

    Lorsque cette option est sélectionnée, CES indexe toutes les métadonnées des documents, même celles qui ne sont pas associées à un champ. Les métadonnées orphelines sont ajoutées au body du document afin qu'elles puissent être recherchées.

    Lorsque non-coché (par défaut), seules les valeurs de champs système et personnalisés dont l'attribut Requêtes textuelles est sélectionné pourront être recherchées sans l'aide d'une requête de champ (voir Ajout d'un champ à utiliser pour la recherche et Que sont les requêtes par champs et les requêtes en texte libre?).

    Exemple : Un document contient deux métadonnées :

    • LastEditedBy, renfermant la valeur Hector Smith

    • Department, renfermant la valeur RH

    Dans CES, le champ personnalisé CorpDepartment est lié à la métadonnée Department, et son attribut Free Text Queries est sélectionné.

    Si l'option Indexer les métadonnées des documents n'est pas cochée, rechercher RH retourne le document, car un champ indexe cette valeur. Rechercher hector ne retourne pas le document, car aucun champ n'indexe cette valeur.

    Si l'option Indexer les métadonnées des documents est sélectionnée, rechercher hector retourne également le document, car CES a indexé les métadonnées orphelines.

    Les adresses de document sont sensibles à la casse (Document's addresses are case-sensitive)

    À sélectionner seulement si les adresses des documents du site web sont sensibles à la casse. Cette option est désélectionnée par défaut.

    Générer une version HTML en cache des documents indexés (Generate a cached HTML version of indexed documents)

    Gardez cette case cochée (recommandé). Pendant l'indexation, CES crée des versions HTML des documents indexés. Dans les interfaces de recherche, les utilisateurs peuvent alors évaluer plus rapidement le contenu en cliquant sur le lien Aperçu rapide plutôt qu'en ouvrant la page web d'origine. Vous devriez décocher ces cases seulement si vous ne souhaitez pas utiliser les liens Aperçu rapide ou enregistrer des ressources pendant la génération de la source. Cette option est sélectionnée par défaut.

    Ouvrir les résultats avec la version cache (Open results with cached version)

    Laissez cette case décochée (recommandé) afin que, dans les interfaces de recherche, le lien principal de résultats de recherche ouvre la page web d'origine. Vous devriez cocher cette case seulement si vous ne souhaitez pas que les utilisateurs puissent ouvrir la page web d'origine, mais qu'ils ne voient que la version HTML du document en tant qu'Aperçu rapide. Dans ce cas, vous devez également sélectionner Générer une version HTML en cache des documents indexés. Cette option est désélectionnée par défaut.

    Réutiliser les connexions HTTP (Reuse HTTP Connection)

    En balayant un site web sécurisé par l'authentification Kerberos, cochez cette case pour garder la connexion Kerberos en vie entre les requêtes HTTP GET. Ceci empêche de répéter l'authentification Kerberos pour chaque requête et peut améliorer de façon significative l'analyse.

    Ignorez les adresses qui renferment le mot ''parameters'' (domain.com?parameters)

    Cochez cette case afin d'empêcher CES (Coveo Enterprise Search) d'indexer des pages dont les adresses renferment une portion de requête qui peut retourner du contenu identique, et ainsi empêcher l'indexation de pages doublées et enregistrer de l'espace disque. Décochez cette case si des adresses identiques avec des paramètres différents retournent du contenu différent. Cette option est sélectionnée par défaut.

  7. Dans la section Sécurité (Security) de la page Ajouter une source, si l'authentification est nécessaire afin d'analyser le site Web, tapez la bonne valeur pour les paramètres suivants :

    1. Dans la section Authentification (Authentication), sélectionnez l'une des options suivantes :

      • analyser anonymement (Crawl anonymously)

        À sélectionner si l'ensemble du contenu du site Web est disponible pour tout le monde.

      • analyser en utilisant l'identité du service (Crawl using the service identity)

        À sélectionner si le site Web est sécurisé et l'identité d'utilisateur du service CES a l'accès total au site Web (voir À propos du compte d'ouverture de session du service CES).

      • analyser au moyen de cette identité (Crawl using this identity)

        À sélectionner si le site Web est sécurisé et vous souhaitez utiliser une identité d'utilisateur spécifique afin d'analyser le contenu du site Web (voir Ajout d'une identité d'utilisateur).

        Note : Vous pouvez implanter une authentification Kerberos pour personnifier un utilisateur en créant et en sélectionnant une identité d'utilisateur pour cet utilisateur. Les fils de robot seront personnifiés avec cet utilisateur. L'utilisateur doit provenir du même domaine que le serveur web analysé. Vous devriez sélectionner l'option Réutiliser les connexions HTTP.

    2. Dans la liste déroulante Fournisseur de sécurité (Security Provider), si vous choisissez de ne pas analyser anonymement, sélectionnez le fournisseur de sécurité qui peut authentifier l'identité d'utilisateur qui est spécifiée dans la section Authentification.

    3. Cliquez sur Enregistrer (Save) pour enregistrer la configuration de la source et commencer l'indexation de cette dernière.

  8. Lorsque le site web que vous indexez utilise l'authentification Kerberos et vous avez assigné une identité d'utilisateur Kerberos à la source :

    1. Dans le panneau de navigation situé à gauche, sélectionnez Avancé.

    2. CES 7.0.6424+ (février 2014) À droite, dans la section Crawling, sélectionnez l'option Enable Kerberos authentication. L'authentification NTLM ou de base est utilisée lorsque l'option est décochée.

      Note : Vous devriez décocher Enable Kerberos authentication pour ne pas obtenir de messages d'erreurs comme celui-ci :

      An error occurred while warming up search page [URL]: class CGLNetwork::NetworkAccessDenied: The login information of server (SERVER NAME) is invalid.

  9. Cliquez sur Démarrer pour générer votre source.

  10. Confirmez que le processus de génération de la source est exécuté sans erreur :

    • Dans le panneau de navigation situé à gauche, cliquez sur État, puis confirmez que l'indexation se fait sans erreur.

      OU

    • Ouvrez la console CES afin de surveiller les activités de génération de la source (voir Utilisation de la Console CES.

Prochaines étapes?

Les permissions au niveau de la source ne sont pas indexées pour les sources Sites Web. Toutefois, si les fichiers de sites Web sont enregistrés dans le même réseau que le serveur maître Coveo, vous pouvez y associer des permissions de serveur de fichier (voir Modification des permissions de sécurité de la source).

CES prend également en charge l'authentification par formulaire afin d'accéder à certains sites Web sécurisés (voir Indexation de pages Web sécurisées avec des formulaires).