Doc produitsMenu

Plateforme Coveo 7.0 >
Aide à l'administrateur > Connecteurs > Connecteur Amazon S3 > Configuration et indexation d'une source Amazon S3

Configuration et indexation d'une source Amazon S3

Une source définit un groupe de paramètres de configurations pour l'indexation du contenu d'un site Amazon S3 spécifique.

Pour configurer et indexer une source Amazon S3

  1. Dans le serveur Coveo, accédez à l'Outil d'administration (voir Ouverture de l'Outil d'administration).

  2. Sélectionnez Index > Sources et collections.

  3. Dans la section Collections :

    1. Sélectionnez une collection existante dans laquelle vous souhaitez ajouter la nouvelle source.

      OU

    2. Cliquez sur Ajouter pour créer une nouvelle collection (voir Ajout d'une collection).

  4. Dans la section Sources, cliquez sur Ajouter.

    La page Ajouter une source qui apparaît est organisée en trois sections.

  5. Dans la section Paramètres généraux (General Settings) de la page Ajouter une source (Add Source) :

    1. Tapez la bonne valeur pour les paramètres obligatoires suivants :

      Nom

      Un nom descriptif de votre choix pour la source du connecteur.

      Exemple : Amazon S3 Site

      Type de source

      Le connecteur qui est utilisé par cette source. Dans ce cas, sélectionnez Amazon S3.

      Adresses

      L’adresse du site de cases Amazon S3 dans l’un des types suivants :

      • Style hôte virtuel

        Exemples :

        • http://[bucket].s3.amazonaws.com/

        • http://[bucket].s3-[aws-region].amazonaws.com/

        où vous remplacez [bucket] par votre nom de case actuel et [aws-region] par le point de terminaison spécifique à votre région.

      • Style chemin d'accès

        Exemples :

        • http://s3.amazonaws.com/[bucket]

        • http://s3-[aws-region].amazonaws.com/[bucket]

        où vous remplacez [bucket] par votre nom de case actuel et [aws-region] par le point de terminaison spécifique à votre région.

      Vous pouvez saisir plus d'une adresse de case dans des lignes distinctes, mais vous devez vérifier si tous les paramètres de source s'appliquent à toutes les cases Amazon S3. Sinon, créez d'autres sources pour d'autres compartiments.

      Notes :

      • L’adresse de départ doit spécifier un compartiment avec sa région. Les URL qui ne spécifient pas de région utilisent le point de terminaison de la région US Standard (us-east-1).

      • Lorsque l’URL pointe vers un dossier au sein d’un compartiment, seules les clés qui commencent par ce préfixe seront analysées.

      • Vous pouvez indexer plus d’un compartiment.

      Champs (Fields)

      Si vous avez défini un groupe de champs Amazon S3, sélectionnez-le (voir Vue d'ensemble du déploiement du connecteur Amazon S3 et Que sont les groupes de champs?).

      Horaire d'actualisation (Refresh Schedule)

      Intervalle de temps à laquelle l'index est automatiquement actualisé afin de garder le contenu de l'index à jour. Par défaut, l'option Chaque jour (Every day) force CES à actualiser la source chaque jour, à minuit. Étant donné que l'actualisation incrémentale s'occupe de garder la source à jour, vous pouvez sélectionnez une intervalle plus longue, comme Every Sunday (Chaque dimanche) (voir Quelle devrait être la fréquence des horaires d'actualisation de la source?).

      Note : Vous pouvez créer un nouvel horaire d'actualisation de source ou en modifier un qui existe déjà (voir Création ou modification d'un horaire de source).

    2. Évaluez la valeur des paramètres suivants, qui, la plupart du temps, n'ont pas à être modifiés :

      Appréciation (Rating)

      Changez la valeur seulement si vous souhaitez changer globalement la classification associée à tous les éléments de cette source par rapport à la cote d'autres sources (voir Fonctionnement du classement des résultats de recherche).

      Exemple : Si cette source était pour un ancien PLM, vous devriez définir ce paramètre à Basse afin que, dans l'interface de recherche, les résultats de cette source apparaissent plus tard dans la liste, contrairement à ceux d'autres sources.

      Types de document (Document Types)

      Si vous avez créé un groupe personnalisé de types de documents pour cette source, sélectionnez-le (voir Création d'un groupe de types de documents). Sinon, laissez-le à Default.

      Langues actives (Active Languages)

      Si vous avez défini des groupes personnalisés de langues actives, veillez à sélectionner celui qui convient le mieux à cette source (voir Ajout et configuration d'un groupe de langues).

  6. Dans la section Paramètres et options spécifiques au connecteur (Specific Connector Parameters & Options) de la page Ajouter une source (Add Source) :

    1. Tapez la bonne valeur pour les paramètres obligatoires suivants :

      Note : La Clé d’accès et la Clé secrète sont accessibles dans la console IAM (voir Getting Your Access Key ID and Secret Access Key).

      Clé d'accès

      L’identifiant de la clé d’accès du compte IAM qui est utilisée pour demander des données des serveurs Amazon S3..

      Exemple : AKIAIOSFODNN74152KOP

      Clé secrète

      La clé d’accès secrète du compte IAM qui est utilisée pour demander des données des serveurs Amazon S3.

      Exemple : wJalrXUtnFEMI/K7MDENG/bPxRfiCYifc51AYQQf

    2. Dans le champ Mapping File, laissez le nom du fichier de correspondances par défaut (Coveo.CES.CustomCrawlers.AmazonS3.MappingFile.xml) sauf si vous avez créé un fichier de correspondances personnalisé. Dans ce cas, saisissez le chemin d’accès complet de votre fichier de correspondances valide.

    3. Cliquez sur Ajouter un paramètre (Add Parameter) si vous souhaitez afficher et changer la valeur des paramètres de source avancés (voir Modification de paramètres de source cachés d'Amazon S3).

    4. Dans la section Option, l'état des boîtes à cocher n'a pas besoin, en général, d'être modifié.

      Indexer les sous-dossiers (Index Subfolders)

      Cochez pour indexer tous les sous-dossiers sous les adresses de départ spécifiées.

      Indexer les métadonnées des documents (Index the document's metadata)

      Lorsque sélectionné, CES indexe toutes les métadonnées du document, mêmes celles qui ne sont pas associées à un champ. Les métadonnées orphelines sont ajoutées au body du document afin qu'elles puissent être recherchées à l'aide de requêtes en texte libre.

      Lorsque non-coché (par défaut), seules les valeurs de champs système et personnalisés dont l'attribut Requêtes textuelles est sélectionné pourront être recherchées sans l'aide d'une requête de champ (voir Ajout d'un champ à utiliser pour la recherche et Que sont les requêtes par champs et les requêtes en texte libre?).

      Exemple : Un document contient deux métadonnées :

      • LastEditedBy, renfermant la valeur Hector Smith

      • Department, renfermant la valeur RH

      Dans CES, le champ personnalisé CorpDepartment est lié à la métadonnée Department, et son attribut Free Text Queries est sélectionné.

      Si l'option Indexer les métadonnées des documents n'est pas cochée, rechercher RH retourne le document, car un champ indexe cette valeur. Rechercher hector ne retourne pas le document, car aucun champ n'indexe cette valeur.

      Si l'option Indexer les métadonnées des documents est sélectionnée, rechercher hector retourne également le document, car CES a indexé les métadonnées orphelines.

      Générer une version HTML en cache des documents indexés (Generate a cached HTML version of indexed documents)

      Si vous cochez cette case (recommandé), en temps d'indexation, CES crée des versions HTML des documents indexés et les enregistre dans l'index unifié. Dans les interfaces de recherche, les utilisateurs peuvent alors évaluer plus rapidement le contenu en cliquant sur le lien Aperçu rapide pour ouvrir la version HTML de l'élément plutôt qu'en ouvrant le document d’origine avec l'application originale.

      Vous devriez décocher ces cases seulement si vous ne souhaitez pas utiliser les liens Aperçu rapide ou enregistrer des ressources pendant la génération de la source.

      Ouvrir les résultats avec la version cache (Open results with cached version)

      Laissez cette case décochée (recommandé) afin que, dans les interfaces de recherche, le lien principal de résultats de recherche ouvre le document d'origine avec l'application originale. Vous devriez cocher cette case seulement si vous ne souhaitez pas que les utilisateurs puissent ouvrir le document original, mais qu'ils ne voient que la version HTML du document en tant qu'Aperçu rapide. Si cette option est sélectionnée, vous devez également cocher Générer une version HTML en cache des documents indexés.

    5. Cliquez sur Enregistrer (Save) pour enregistrer la configuration de la source.

  7. Étant donné que le modèle de sécurité Amazon S3 n'est pas encore pris en charge, le connecteur Amazon S3 n'indexe pas de permissions et vous devez modifier l'option Permissions par défaut pour définir les permissions globalement dans la source :

    Note : Vous obtenez le message d'erreur suivant dans la Console CES lorsque l'option Indexer les permissions de sécurité est sélectionnée par défaut.

    Permissions indexing is not provided by AmazonS3Crawler.

    1. Dans le panneau de navigation à gauche, sélectionnez Permissions.

    2. Dans la page Permissions :

      1. Sélectionnez l'option Précise les permissions de sécurité à indexer.

      2. dans la liste Utilisateurs autorisés, ajoutez ou retirez des utilisateurs ou des groupes afin de spécifier précisément qui a accès au contenu de cette source.

        Par défaut, le groupe everyone d'Active Directory spécifie que tout utilisateur d'Active Directory peut voir l'ensemble du contenu de cette source.

      3. Facultativement, dans la liste Utilisateurs refusés, ajoutez ou retirez des utilisateurs ou des groupes afin de spécifier qui n'a pas accès au contenu de cette source.

      4. Cliquez sur Appliquer les modifications.

  8. Dans la barre d'outils, cliquez sur Start/Rebuild pour débuter l'indexation de votre source.

  9. Confirmez que le processus de génération de la source est exécuté sans erreur :

    • Dans le panneau de navigation situé à gauche, cliquez sur État, puis confirmez que l'indexation se fait sans erreur.

      OU

    • Ouvrez la console CES afin de surveiller les activités de génération de la source (voir Utilisation de la Console CES.