Doc produitsMenu

Plateforme Coveo 7.0 >
Aide à l'administrateur > Outils Coveo > Module Analytique de texte > Configuration du pipeline d'Analytique de texte

Configuration du pipeline d'Analytique de texte

Les opérations d'analytique de texte sont définies dans un pipeline comprenant une ou plusieurs étapes. Les étapes du pipeline sont définies dans un fichier de configuration XML qui débute par une section de configuration globale (voir Paramètres globaux de configuration d'Analytique de texte). Chaque fichier de configuration XML peut définir une ou plusieurs mises en marche ou tâches d'analytique de texte (voir Comparaison entre les mises en marche et les tâches).

Les pipelines d'analytique de texte sont enregistrés dans le service Coveo Job Scheduler (CJS) à l'aide de TAnGO (voir Gestion de configurations des pipelines d'Analytique de texte). Le service CJS gère le lancement d'un pipeline une fois ou à des intervalles réguliers spécifiés.

À propos des mises en marche

Une mise en marche est un pipeline d'analytique de texte qui applique séquentiellement un ensemble d'étapes sur un ensemble de documents.

Exemple : Habituellement, un ensemble de documents est récupéré de l'index unifié Coveo, des métadonnées d'analytique de texte sont extraites, et les métadonnées sont injectées de nouveau dans l'index sous la forme de champs d'étiquetage.

Le pipeline est composé d'étapes des types suivants dans l'ordre suivant :

Fetcher

Une mise en marche démarre toujours avec un plug-in pour la récupération, qui retrouve des documents à être traités par le pipeline (voir Récupérateur prédéfini d'Analytique de texte). Il ne peut y avoir qu'un plug-in de récupération dans un pipeline.

Filtres

Le pipeline peut renfermer un ou plusieurs plug-ins de filtrage, utilisés afin d'exclure un type spécifique de contenu des documents récupérés avant que ces derniers soient davantage traités (voir Filtres prédéfinis d'Analytique de texte).

Extracteurs

Au centre du processus d'analytique de texte, un ou plusieurs plug-ins d'extraction créent et joignent des métadonnées à des documents traités (voir Extracteurs prédéfinis d'Analytique de texte).

Normalisateurs

Un ou plusieurs plug-ins de normalisation nettoient les métadonnées créées par les extracteurs (voir Normalisateurs prédéfinis d'Analytique de texte).

Outputter

À la fin du pipeline, un plug-in de rendement sauvegarde les résultats d'analytique de texte dans un certain emplacement. Il n'y peut y avoir qu'un plug-in de rendement dans un pipeline (voir Plug-ins de rendement prédéfinis d'Analytique de texte).

La structure de pipeline d'une mise en marche est affichée dans l'échantillon suivant d'un fichier de configuration XML.

<?xml version="1.0" encoding="utf-8"?>
<TextAnalyticsService>
  <!-- Global configuration parameters -->
  <Configuration>
    ...
  </Configuration>
  <!-- Definition of the run -->
  <!-- Set the name of your run -->
  <Run Name="MainRun">
    <!-- Plugin used to fetch the documents to process -->
    <Fetcher>
      ...
    </Fetcher>
    <!-- Extract stuff -->
    <Extractors>
      <!-- First extractor -->
      <Extractor>...</Extractor>
			...
      <!-- Nth extractor -->
      <Extractor>...</Extractor>      
    </Extractors>
    <!-- Normalize metadata names and values -->
    <Normalizers>
      <!-- First normalizer -->
      <Normalizer>...</Normalizer>
			...
      <!-- Nth normalizer -->
      <Normalizer>...</Normalizer> 
	</Normalizers>
    <!-- Plugin used to output the result of the text analytics run -->
    <Outputter>
			...
    </Outputter>
  </Run>
</TextAnalyticsService>

À propos des tâches

Une tâche est un pipeline à une étape que vous pouvez utiliser si vous devez exécuter des tâches générales qui ne devraient pas être exécutées dans chaque document individuel.

Exemple : Vous pouvez utiliser une tâche si vous souhaitez utiliser les requêtes d'étiquetage CES (Coveo Enterprise Search), copier des fichiers, changer programmatiquement une configuration dans CES, effectuer une tâche d'entretien, etc.

Prochaines étapes?

Évaluez la procédure de création, de mise en marche et d'affinement des pipelines d'analytique de texte (voir Gestion de configurations des pipelines d'Analytique de texte).