Doc produitsMenu

Plateforme Coveo 7.0 >
Aide à l'administrateur > Connecteurs > Connecteur Sitemap > Configuration et indexation d'une source Sitemap

Configuration et indexation d'une source Sitemap

Une source définit un groupe de paramètres de configuration pour un ou plusieurs fichiers Sitemap (ou fichiers d'index Sitemap).

Pour configurer et indexer une source avec le connecteur Sitemap

  1. Dans le serveur Coveo, accédez à l'Outil d'administration (voir Ouverture de l'Outil d'administration).

  2. Sélectionnez Index > Sources et collections.

  3. Dans la section Collections :

    1. Sélectionnez une collection existante dans laquelle vous souhaitez ajouter la nouvelle source.

      OU

    2. Cliquez sur Ajouter pour créer une nouvelle collection (voir Ajout d'une collection).

  4. Dans la section Sources, cliquez sur Ajouter.

  5. Dans la section Paramètres généraux (General Settings) de la page Ajouter une source (Add Source) :

    1. Tapez la bonne valeur pour les paramètres obligatoires suivants :

      Nom (Name)

      Tapez un nom descriptif de votre choix pour la source du connecteur.

      Exemple : My Organization Website Sitemap

      Type de source

      Le connecteur qui est utilisé par cette source. Dans ce cas, sélectionnez Sitemap.

      Adresses

      Saisissez les URL de fichiers Sitemap ou fichiers d'index Sitemap en format http:// ou https://.

      Notes :

      • Par défaut, les fichiers Sitemap et les fichiers d’index Sitemap qui ne respectent pas les validations suivantes selon le protocole Sitemap sont ignorés pendant le processus d’indexation (voir Sitemap protocol):

        • Un fichier Sitemap non-compressé ne doit pas être plus gros que 10 Mo (même si le fichier est compressé avec GZIP).

        • Un fichier Sitemap ne peut contenir plus de 50 000 URL.

        • Tous les URL cités doivent contenir au plus 2 048 caractères.

        • Tous les URL cités doivent être reliés au Sitemap qui les cite et dans le même domaine. L’emplacement d’un fichier Sitemap détermine le groupe d’URL qui peut être inclus dans ce Sitemap.

          Exemple : Un fichier Sitemap qui se trouve dans http://myorgwebsite.com/tech/Sitemap.xml peut inclure tout URL qui commence par http://myorgwebsite.com/tech/ mais ne peut inclure des URL qui débutent par http://myorgwebsite/catalog/.

      • Lorsque vous ne souhaitez pas que vos fichiers Sitemap et vos fichiers d’index Sitemap soient validés, ajoutez le paramètre caché ParseSitemapInStrictMode avec la valeur false (voir Modification de paramètres de source cachés de Sitemap). Dans ce cas, les validations ci-dessus ne sont pas effectuées. Par conséquent, toutes les pages web sont indexées si leur URL de référence est valide et absolu.

      Exemples :

      • http://myorgwebsite.com/Sitemap.xml (Site web public Sitemap)

      • http://myorgwebsite.com/Sitemap.xml (Site web public Sitemap compressé avec GZIP)

      Vous pouvez saisir plus d'un fichier Sitemap ou fichier d'index Sitemap dans des lignes distinctes, mais vous devez vérifier si tous les paramètres de source s'appliquent à tous les fichiers Sitemap. Sinon, créez d’autres sources.

      Horaire d'actualisation (Refresh Schedule)

      Intervalle de temps à laquelle l'index est automatiquement actualisé afin de garder le contenu de l'index à jour. Par défaut, l'option Every day donne à CES (Coveo Enterprise Search) la consigne d'actualiser la source chaque jour, à minuit (voir Création ou modification d'un horaire de source) .

    2. Évaluez la valeur des paramètres suivants, qui, la plupart du temps, n'ont pas à être modifiés :

      Appréciation (Rating)

      Changez la valeur seulement si vous souhaitez changer globalement la cote associée à tous les éléments de cette source par rapport à la cote d'autres sources (voir Fonctionnement du classement des résultats de recherche).

      Exemple : Si cette source était pour un Sitemap important, vous devriez définir ce paramètre à Élevée afin que, dans l'interface de recherche, les résultats de cette source apparaissent plus tôt dans la liste de résultats de recherche, contrairement à ceux d'autres sources.

      Types de document (Document Types)

      Si vous avez défini des groupes personnalisés de types de documents, veillez à sélectionner celui qui convient le mieux à cette source (voir Que sont les groupes de types de documents?).

      Langues actives (Active Languages)

      Si vous avez défini des groupes de langues personnalisés, veillez à sélectionner celui qui convient le mieux à cette source (voir Ajout et configuration d'un groupe de langues).

      Champs (Fields)

      Sélectionnez le groupe de champs que vous avez créé plus tôt (voir Vue d'ensemble du déploiement du connecteur Sitemap).

  6. Dans la section Paramètres et options spécifiques au connecteur (Specific Connector Parameters & Options) de la page Ajouter une source (Add Source) :

    1. Vérifiez si vous devez changer les valeurs par défaut des paramètres suivants :

      Nombre de fils d'exécution (Number of Refresh Threads)

      Détermine le nombre de pages web téléchargées simultanément par le connecteur. La valeur par défaut est de 2 pages.

      Note : Augmenter cette valeur peut augmenter la vitesse de l'actualisation de source, mais met plus de charge dans le serveur du site web.

      Fichier de correspondances (Mapping File)

      Le chemin d'accès vers le fichier de correspondances. Laissez la valeur par défaut pour utiliser le fichier de correspondances par défaut qui vient avec le connecteur (Coveo.CES.CustomCrawlers.Sitemap.MappingFile.xml). Si vous créez un fichier de correspondances personnalisé, saisissez le chemin d'accès complet vers votre fichier de correspondances personnalisé. Contactez Assistance Coveo pour obtenir de l'aide si vous avez besoin de personnaliser le fichier de correspondances.

      User-Agent HTTP header

      Détermine le nom utilisé par le connecteur Sitemap afin de s'identifier lorsque des pages sont en téléchargement. La valeur par défaut est Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.110 Safari/537.36.

    2. Dans la section Option, évaluez la valeur par défaut des options à cocher suivantes :

      Indexer les sous-dossiers (Index Subfolders)

      Lorsque sélectionné, CES indexe tous les sous-dossiers sous les adresses de départ spécifiées.

      Indexer les métadonnées des documents (Index the document's metadata)

      Lorsque sélectionné, CES indexe toutes les métadonnées du document, mêmes celles qui ne sont pas associées à un champ. Les métadonnées orphelines sont ajoutées au body du document afin qu'elles puissent être recherchées à l'aide de requêtes en texte libre.

      Lorsque non-coché (par défaut), seules les valeurs de champs système et personnalisés dont l'attribut Requêtes textuelles est sélectionné pourront être recherchées sans l'aide d'une requête de champ (voir Ajout d'un champ à utiliser pour la recherche et Que sont les requêtes par champs et les requêtes en texte libre?).

      Exemple : Un document contient deux métadonnées :

      • LastEditedBy, renfermant la valeur Hector Smith

      • Department, renfermant la valeur RH

      Dans CES, le champ personnalisé CorpDepartment est lié à la métadonnée Department, et son attribut Free Text Queries est sélectionné.

      Si l'option Indexer les métadonnées des documents n'est pas cochée, rechercher RH retourne le document, car un champ indexe cette valeur. Rechercher hector ne retourne pas le document, car aucun champ n'indexe cette valeur.

      Si l'option Indexer les métadonnées des documents est sélectionnée, rechercher hector retourne également le document, car CES a indexé les métadonnées orphelines.

      Générer une version HTML en cache des documents indexés (Generate a cached HTML version of indexed documents)

      Si vous cochez cette case (recommandé), en temps d'indexation, CES crée des versions HTML des documents indexés. Dans les interfaces de recherche, les utilisateurs peuvent alors évaluer plus rapidement le contenu en cliquant sur le lien Aperçu rapide plutôt qu'en ouvrant le document d’origine avec l'application originale. Vous devriez décocher ces cases seulement si vous ne souhaitez pas utiliser les liens Aperçu rapide ou enregistrer des ressources pendant la génération de la source.

      Ouvrir les résultats avec la version cache (Open results with cached version)

      Laissez cette case décochée (recommandé) afin que, dans les interfaces de recherche, le lien principal de résultats de recherche ouvre le document d'origine avec l'application originale. Vous devriez cocher cette case seulement si vous ne souhaitez pas que les utilisateurs puissent ouvrir le document original, mais qu'ils ne voient que la version HTML du document en tant qu'Aperçu rapide. Dans ce cas, vous devez également sélectionner Générer une version HTML en cache des documents indexés.

  7. Lorsque vous avez une authentification dans votre site web, dans la section Sécurité de la page Ajouter une source :

    1. Dans la liste déroulante Identité d'utilisateur, sélectionnez l'identité d'utilisateur Sitemap que vous avez créée pour cette source (voir Vue d'ensemble du déploiement du connecteur Sitemap). Sinon, sélectionnez (aucun).

      Note : En spécifiant une Identité d'utilisateur, le connecteur peut authentifier à l’aide des schémas d’authentifications suivants pris en charge :

      • Basic

      • Digest

      • NTLM

      • Negotiate/Kerberos

      Certaines installations peuvent présenter des problèmes, mais la plupart d’entre elles devraient être prises en charge. Vous pouvez utiliser le paramètre caché ManualCookies lorsque votre site web n’utilise pas l’un de ces schémas d’authentification (voir Modification de paramètres de source cachés de Sitemap).

    2. Cliquez sur Enregistrer et activer (Save and Start) pour sauvegarder la configuration de la source et générer cette source.

  8. Définissez manuellement la sécurité de cette source, en changeant l’option Permissions par défaut pour définir les permissions globalement dans la source :

    Note : Vous obtenez le message d'erreur suivant dans la Console CES lorsque l'option Indexer les permissions de sécurité est sélectionnée par défaut.

    L’indexation de permissions n’est pas fournie par le connecteur Sitemap. Vous devez configurer manuellement les permissions dans la source.

    1. Dans le panneau de navigation à gauche, sélectionnez Permissions.

    2. Dans la page Permissions :

      1. Sélectionnez l'option Précise les permissions de sécurité à indexer.

      2. Facultativement, dans la liste Utilisateurs autorisés, ajoutez ou retirez des utilisateurs ou des groupes afin de spécifier précisément qui a accès au contenu de cette source.

        Par défaut, le groupe everyone \S-1-1-0\ d'Active Directory spécifie que tout utilisateur d'Active Directory peut voir l'ensemble du contenu de cette source.

      3. Facultativement, dans la liste Utilisateurs refusés, ajoutez ou retirez des utilisateurs ou des groupes afin de spécifier qui n'a pas accès au contenu de cette source.

      4. Cliquez sur Appliquer les modifications.

  9. Dans la barre d'outils, cliquez sur Start/Rebuild pour débuter l'indexation de votre source.

  10. Confirmez que le processus de génération de la source est exécuté sans erreur :

    • Dans le panneau de navigation situé à gauche, cliquez sur État, puis confirmez que l'indexation se fait sans erreur.

      OU

    • Ouvrez la console CES afin de surveiller les activités de génération de la source (voir Utilisation de la Console CES.

Prochaines étapes?

Définissez un horaire d'actualisation incrémentale pour votre source (voir Planification d'une actualisation incrémentale de source).