Doc produitsMenu

Plateforme Coveo 7.0 >
Aide à l'administrateur > Connecteurs > Connecteur Sitecore > Configuration et indexation d'une source Sitecore

Configuration et indexation d'une source Sitecore

Une source définit un groupe de paramètres de configurations pour un site Web Sitecore spécifique. Si vous souhaitez indexer plus d'un site web Sitecore, configurez une source pour chaque site web.

Parmi les meilleures pratiques du connecteur Sitecore, on retrouve l'activation de l'option Extract HTML Content de la source et l'attribution, à Crawler User Agent, d'un nom pour lequel un appareil personnalisé, défini dans Sitecore, retourne des HTML rendus appropriés (voir Création d'un appareil Sitecore pour le robot Coveo).

Pour configurer et indexer une source avec le connecteur Sitecore

  1. Dans le serveur Coveo, accédez à l'Outil d'administration (voir Ouverture de l'Outil d'administration).

  2. Sélectionnez Index > Sources et collections.

  3. Dans la section Collections :

    1. Sélectionnez une collection existante dans laquelle vous souhaitez ajouter la nouvelle source.

      OU

    2. Cliquez sur Ajouter pour créer une nouvelle collection (voir Ajout d'une collection).

  4. Dans la section Sources, cliquez sur Ajouter.

    La page Ajouter une source qui apparaît est organisée en trois sections.

  5. Dans la section Paramètres généraux (General Settings) de la page Ajouter une source (Add Source) :

    1. Tapez la bonne valeur pour les paramètres obligatoires suivants :

      Nom (Name)

      Tapez un nom descriptif de votre choix pour la source du connecteur.

      Exemple : Sitecore Website

      Type de source

      Le connecteur qui est utilisé par cette source. Dans ce cas, sélectionnez Sitecore.

      Note : Pour CES 7.0.4863 à 5785, le connecteur Sitecore apparaissait dans la liste sous le nom Sitecore2 tandis que l'ancien connecteur Sitecore (voir Ancien connecteur Sitecore) apparaissait sous le nom Sitecore.

      Adresses

      Tapez l'adresse du serveur Sitecore qui héberge le site Web à indexer sous la forme suivante :

      https://sitecoreservername

      Ne tapez qu'une adresse de serveur Sitecore. Créez d'autres sources pour d'autres serveurs. Le connecteur prend en charge à la fois les sites sécurisés (https) et publics (http).

      Important : Alors que la valeur dans la boîte Adresses pointe vers votre serveur Sitecore, le paramètre caché par défaut TargetSite spécifie d'indexer le site website qui est hébergé dans ce serveur. website est le nom par défaut d'un site dans Sitecore. Lorsque le site que vous souhaitez indexer a un nom différent, par exemple lorsque vos hôtes de serveur ont plus d'un site, vous devez spécifier le nom du site dans le paramètre caché TargetSite à la fois dans la source et le fournisseur de sécurité (voir TargetSite (chaîne)). Vous pouvez également utiliser le paramètre caché ContentStartPaths afin de restreindre l'indexation à une ou à plusieurs branches de l'arbre de contenu (voir ContentStartPaths (Chaîne)).

      Astuce : Une fois que vous avez indexé votre contenu de Sitecore, si vous obtenez des URI cliquables renfermant http deux fois, comme dans http://http/www.MyServer.com, dans la définition site de votre fichier web.config de Sitecore, veillez à ce que hostName ne contienne pas http://. Si vous souhaitez spécifier explicitement le protocole, utilisez le paramètre scheme (ex.: <site name="WWWPortal" hostName="www.mysite.com" scheme="http" rootPath="/sitecore/content/Home" startItem="/Portal" contentStartItem="/Portal" />).

      Champs (Fields)

      Sélectionnez le groupe de champs personnalisé que vous avez créé pour vos métadonnées de Sitecore (voir Vue d'ensemble du déploiement du connecteur Sitecore).

      Horaire d'actualisation (Refresh Schedule)

      Sélectionnez l'intervalle de temps à laquelle une actualisation complète de la source est automatiquement effectuée afin de garder le contenu de l'index à jour (voir Actualisation complète).

      Notes :

    2. Évaluez la valeur des paramètres suivants, qui, la plupart du temps, n'ont pas à être modifiés :

      Appréciation (Rating)

      Changez la valeur seulement si vous souhaitez changer globalement la cote associée à tous les éléments de cette source par rapport à la cote d'autres sources (voir Fonctionnement du classement des résultats de recherche).

      Exemple : Si cette source était pour un ancien site Sitecore, vous devriez définir ce paramètre à Basse afin que, dans l'interface de recherche, les résultats de cette source apparaissent plus tard dans la liste, contrairement à ceux d'autres sources.

      Types de document (Document Types)

      Si vous avez défini des groupes personnalisés de types de documents, veillez à sélectionner celui qui convient le mieux à cette source (voir Que sont les groupes de types de documents?).

      Langues actives (Active Languages)

      Si vous avez défini des groupes de langues personnalisés, veillez à sélectionner celui qui convient le mieux à cette source (voir Ajout et configuration d'un groupe de langues).

  6. Dans la section Paramètres et options spécifiques au connecteur (Specific Connector Parameters & Options) de la page Ajouter une source (Add Source) :

    1. Veillez à ce que les paramètres suivants apparaissent et soient définis :

      Note : Si les paramètres suivants ne sont pas disponibles, vous devez les ajouter (voir Ajout de paramètres clés du connecteur Sitecore).

      Crawler User Agent

      Saisissez un nom tel que CoveoCrawler pour l'agent utilisateur avec lequel le connecteur est identifié pendant l'analyse du contenu Sitecore.

      Si vous sélectionnez l'option Extract Html Content, les meilleures pratiques de Sitecore exigent que vous définissiez le paramètre Crawler User Agent afin que Sitecore puisse sélectionner un appareil dédié que vous avez créé dans Sitecore afin d'afficher du HTML spécifiquement pour le robot Coveo (voir Création d'un appareil Sitecore pour le robot Coveo).

      Ce paramètre peut également être utile afin de mieux identifier les requêtes qui sont effectuées par le connecteur Coveo pendant la surveillance du site web Sitecore.

      Extraction du contenu HTML (Extract Html Content)

      Une meilleure pratique consiste à sélectionner cette option afin que le robot soit affiché en HTML par Sitecore. Vous devez également définir le paramètre Crawler User Agent afin que Sitecore puisse identifier de façon unique le robot Coveo et sélectionner un appareil qui afficher HTML pour ne présenter que ce qui doit être indexé (dont les métadonnées) et à utiliser comme Aperçu rapide (voir Création d'un appareil Sitecore pour le robot Coveo). Le robot retrouve du HTML pour les éléments qui ne sont pas médias, n'ont pas de correspondance pour le corps dans le fichier de correspondances, et ont un URI qui peut être cliqué.

      Pour un site privé, vous devez ajouter et configurer les paramètres cachés de l'authentification par formulaire afin d'obtenir du contenu (voir Modification de paramètres de source cachés de Sitecore).

      Important : Si un fichier de correspondances est spécifié et des éléments ont un corps HTML défini dans le fichier de correspondances, le robot obtient HTML du corps du fichier de correspondances, pas du HTML affiché par Sitecore, même si l'option Extract Html Content est sélectionnée.

    2. Vérifiez si vous devez changer les valeurs par défaut des paramètres suivants :

      Fichier de correspondances (Mapping File)

      Le chemin d'accès vers le fichier de correspondances facultatif (voir Création et utilisation d'un fichier de correspondances de Sitecore).

      Nombre de fils d'exécution (Number of Refresh Threads)

      Détermine le nombre de téléchargements simultanés que le connecteur prend en charge pour cette source. La valeur par défaut est 2.

      Inclure la bibliothèque média (Include Media Library)

      Cochez cette case afin d'indexer l'ensemble du contenu de la bibliothèque média. Par défaut, cette case est décochée.

      Sélectionner cette option produit le même effet qu'ajouter /Sitecore/content/media library au paramètre avancé ContentStartPaths (voir Modification de paramètres de source cachés de Sitecore).

      Note : Les éléments média référencés qui sont spécifiés pour l'indexation dans le fichier de configuration sont indexés même si cette case n'est pas cochée (voir Création et utilisation d'un fichier de configuration Sitecore).

      Inclure les éléments sans disposition (Include items without layout)

      Par défaut, les éléments sans mise en page ne peuvent être trouvés directement dans un navigateur Web, et ne sont donc pas indexés. Cochez cette case afin d'indexer les éléments qui n'ont pas de structure définie.

      Base de données (Database)

      Le nom de la base de données Sitecore à indexer. La valeur par défaut est web. Vous pouvez également taper master afin d'indexer le contenu non-publié du site cible. S'il est laissé vide, la valeur par défaut correspond à la base de données qui est définie dans le paramètre caché TargetSite (voir TargetSite (chaîne)).

      Note : Si vous spécifiez une valeur autre que celle par défaut et utilisez un fournisseur de sécurité, vous cliquez sur Ajouter un paramètre afin de définir le paramètre Base de données du fournisseur de sécurité à la même valeur (voir Configuration d'un fournisseur de sécurité Sitecore).

    3. Dans la section Paramètres (Parameters), cliquez sur Ajouter un paramètre (Add Parameter) afin de pouvoir changer la valeur par défaut des paramètres cachés (voir Modification de paramètres de source cachés de Sitecore).

    4. Dans la section Option, évaluez la valeur par défaut des options à cocher suivantes :

      Indexer les sous-dossiers (Index Subfolders)

      Cochez afin d'indexer tous les sous-dossiers situés sous l'adresse spécifiée de serveur Sitecore. Sélectionné par défaut.

      Indexer les métadonnées des documents (Index the document's metadata)

      Lorsque sélectionné, CES indexe toutes les métadonnées du document, mêmes celles qui ne sont pas associées à un champ. Les métadonnées orphelines sont ajoutées au body du document afin qu'elles puissent être recherchées à l'aide de requêtes en texte libre.

      Lorsque non-coché (par défaut), seules les valeurs de champs système et personnalisés dont l'attribut Requêtes textuelles est sélectionné pourront être recherchées sans l'aide d'une requête de champ (voir Ajout d'un champ à utiliser pour la recherche et Que sont les requêtes par champs et les requêtes en texte libre?).

      Exemple : Un document contient deux métadonnées :

      • LastEditedBy, renfermant la valeur Hector Smith

      • Department, renfermant la valeur RH

      Dans CES, le champ personnalisé CorpDepartment est lié à la métadonnée Department, et son attribut Free Text Queries est sélectionné.

      Si l'option Indexer les métadonnées des documents n'est pas cochée, rechercher RH retourne le document, car un champ indexe cette valeur. Rechercher hector ne retourne pas le document, car aucun champ n'indexe cette valeur.

      Si l'option Indexer les métadonnées des documents est sélectionnée, rechercher hector retourne également le document, car CES a indexé les métadonnées orphelines.

      Générer une version HTML en cache des documents indexés (Generate a cached HTML version of indexed documents)

      Si vous cochez cette case (recommandé), en temps d'indexation, CES crée des versions HTML des documents indexés. Dans les interfaces de recherche, les utilisateurs peuvent alors évaluer plus rapidement le contenu en cliquant sur le lien Aperçu rapide plutôt qu'en ouvrant le document d’origine avec l'application originale. Vous devriez décocher ces cases seulement si vous ne souhaitez pas utiliser les liens Aperçu rapide ou si vous souhaitez enregistrer des ressources pendant la génération de la source.

      Ouvrir les résultats avec la version cache (Open results with cached version)

      Laissez cette case décochée (recommandé) afin que, dans les interfaces de recherche, le lien principal de résultats de recherche ouvre le document d'origine avec l'application originale. Vous devriez cocher cette case seulement si vous ne souhaitez pas que les utilisateurs puissent ouvrir le document original, mais qu'ils ne voient que la version HTML du document en tant qu'Aperçu rapide. Dans ce cas, vous devez également sélectionner Générer une version HTML en cache des documents indexés.

  7. Dans la section Sécurité (Security) de la page Ajouter une source :

    1. Dans la liste déroulante Fournisseur de sécurité Sitecore2 (Sitecore2 Security Provider), sélectionnez le fournisseur de sécurité que vous avez créé pour cette source (voir Configuration d'un fournisseur de sécurité Sitecore).

    2. Dans la liste déroulante Authentification (Authentication), sélectionnez l'identité d'utilisateur que vous avez créée pour le serveur Sitecore.

      Note : Si Authentification est laissé à (aucun), le connecteur utilise, par défaut, le compte extranet\Anonymous de Sitecore afin de se connecter à Sitecore et y retrouver du contenu. Les meilleures pratiques du connecteur consistent à créer et sélectionner un compte exclusif. De plus, si votre site Sitecore contient du contenu sécurisé, le compte extranet\Anonymous peut ne pas avoir accès à tous les éléments de Sitecore.

    3. Cliquez sur Enregistrer et activer (Save and Start) pour sauvegarder la configuration de la source et débuter l'indexation de cette source.

  8. Confirmez que le processus de génération de la source est exécuté sans erreur :

    • Dans le panneau de navigation situé à gauche, cliquez sur État, puis confirmez que l'indexation se fait sans erreur.

      OU

    • Ouvrez la console CES afin de surveiller les activités de génération de la source (voir Utilisation de la Console CES.

    Note : Dans la console CES, alors que votre source Sitecore est indexée : 

    • Il est normal d'obtenir des messages d'erreur identiques au suivant pendant l'analyse d'éléments de la bibliothèque média qui n'ont pas de disposition. Ces messages disparaîtront si vous décochez l'option Inclure les éléments sans disposition.

      Unable to get html content for uri http://SitecoreServer/en/sitecore/media library.aspx (The remote server returned an error: (500) Internal Server Error.).

    • Dans des régénérations, il est possible que vous aperceviez des messages selon lesquels des fichiers Sitecore sont Removed (retirés) pour indiquer qu'ils sont filtrés par le robot selon leur type (habituellement parce qu'ils ne renferment pas de contenu ou renferment du contenu inutile) et qu'ils ne sont donc jamais indexés.

Prochaines étapes?

Alors que l'actualisation incrémentale est activée (voir Activation de l'actualisation incrémentale dans une base de données Sitecore), définissez un horaire d'actualisation incrémentale pour votre source (voir Planification d'une actualisation incrémentale de source).

Vous devriez modifier des paramètres de source avancés (voir Modification de paramètres de source cachés de Sitecore).