Doc produitsMenu

Filtres prédéfinis d'Analytique de texte

Les plug-ins de filtrage sont responsables du retrait de types spécifiques de contenu de chaque document récupéré afin d'empêcher leur traitement dans le reste du pipeline. Ils sont utilisés entre l'étape de récupération et l'étape d'extraction.

LongNonSentenceLinesFilter

Le plug-in LongNonSentenceLinesFilter détermine si un segment de texte est structuré comme une phrase en vérifiant la présence de ponctuation, d'espaces, etc. Si ce n'est pas le cas, comme dans l'exemple du chemin d'accès d'un dossier ou une ligne de code de langue de programmation, le segment de texte est retiré du contenu qui est envoyé au reste du pipeline. Ce filtre est utile afin d'empêcher l'envoi de contenu non syntagmatique au plug-in de découverte d'entité qui pourrait consommer beaucoup de ressources d'unité centrale sur le segment de texte et n'extraire aucune information. Ce filtre ne contient pas de paramètres.

<Filter>
  <Impl>Coveo.TextAnalytics.Implementations.LongNonSentenceLinesFilter, Coveo.TextAnalytics.Implementations</Impl>
  <Configuration>
  </Configuration>
</Filter>

NonSentenceFilter

Le plug-in NonSentenceFilter analyse chaque ligne de texte et détermine s'il s'agit d'une phrase valide en anglais, selon la recherche de mots tels que les mots vides (a, the, of...) et l'analyse statistique (nombre de symboles, nombres, etc.). Si la ligne s'avère ne pas être une phrase, la ligne est retirée du contenu qui est envoyé au reste du pipeline. Ce filtre est utile afin d'empêcher l'envoi de contenu non syntagmatique au plug-in de découverte d'entité qui pourrait consommer beaucoup de ressources d'unité centrale sur le segment de texte et n'extraire aucune information. Ce filtre ne contient pas de paramètres.

<Filter>
  <Impl>Coveo.TextAnalytics.Implementations.NonSentenceFilter, Coveo.TextAnalytics.Implementations</Impl>
  <Configuration>
  </Configuration>
 </Filter>

RegexLineFilter

Le plug-in RegexLineFilter évalue chaque ligne des documents traités par rapport à une ou plusieurs expressions régulières (regex) définies par le paramètre <Regex>. Si l'un des regex correspond à la ligne, celle-ci est retirée du contenu qui est envoyé au reste du pipeline. Ce filtre est générique et puissant, mais peut exiger beaucoup de ressources d'unité centrale si des expressions régulières complexes sont spécifiées.

Exemple : Le filtre suivant retire les lignes débutant par le symbole #.

<Filter>
  <Impl>Coveo.TextAnalytics.Implementations.RegexLineFilter, Coveo.TextAnalytics.Implementations</Impl>
  <Configuration>
    <Regex>#.*$</Regex>
  </Configuration>
</Filter>

EmailHeaderFilter

Le plug-in EmailHeaderFilter retire les lignes d'en-tête de courriel qui commencent par De :, Envoyé à :, Sujet :, À :, et Importance :. En général, dans l'index, le corps de courriel qui est retrouvé par le plug-in de récupération ne contient pas de lignes d'en-tête. Ce filtre est utile dans de rares cas où les documents de courriel indexés contiennent les lignes d'en-tête de courriel et vous souhaitez traiter ces messages courriel sans le contenu d'en-tête. Notez que le sujet est généralement défini en tant que titre du document afin qu'il soit traité, et ce, même si la ligne Sujet : est retirée. Ce filtre ne contient pas de paramètres.

<Filter>
  <Impl>Coveo.TextAnalytics.Implementations.EmailHeaderFilter, Coveo.TextAnalytics.Implementations</Impl>
  <Configuration>
  </Configuration>
</Filter>

Prochaines étapes?

Évaluez les extracteurs disponibles (voir Extracteurs prédéfinis d'Analytique de texte).