Filtres prédéfinis d'Analytique de texte
LongNonSentenceLinesFilter
Le plug-in LongNonSentenceLinesFilter détermine si un segment de texte est structuré comme une phrase en vérifiant la présence de ponctuation, d'espaces, etc. Si ce n'est pas le cas, comme dans l'exemple du chemin d'accès d'un dossier ou une ligne de code de langue de programmation, le segment de texte est retiré du contenu qui est envoyé au reste du pipeline. Ce filtre est utile afin d'empêcher l'envoi de contenu non syntagmatique au plug-in de découverte d'entité qui pourrait consommer beaucoup de ressources d'unité centrale sur le segment de texte et n'extraire aucune information. Ce filtre ne contient pas de paramètres.
<Filter>
<Impl>Coveo.TextAnalytics.Implementations.LongNonSentenceLinesFilter, Coveo.TextAnalytics.Implementations</Impl>
<Configuration>
</Configuration>
</Filter>
NonSentenceFilter
Le plug-in NonSentenceFilter analyse chaque ligne de texte et détermine s'il s'agit d'une phrase valide en anglais, selon la recherche de mots tels que les mots vides (a, the, of...) et l'analyse statistique (nombre de symboles, nombres, etc.). Si la ligne s'avère ne pas être une phrase, la ligne est retirée du contenu qui est envoyé au reste du pipeline. Ce filtre est utile afin d'empêcher l'envoi de contenu non syntagmatique au plug-in de découverte d'entité qui pourrait consommer beaucoup de ressources d'unité centrale sur le segment de texte et n'extraire aucune information. Ce filtre ne contient pas de paramètres.
<Filter>
<Impl>Coveo.TextAnalytics.Implementations.NonSentenceFilter, Coveo.TextAnalytics.Implementations</Impl>
<Configuration>
</Configuration>
</Filter>
RegexLineFilter
Le plug-in RegexLineFilter évalue chaque ligne des documents traités par rapport à une ou plusieurs expressions régulières (regex) définies par le paramètre <Regex>. Si l'un des regex correspond à la ligne, celle-ci est retirée du contenu qui est envoyé au reste du pipeline. Ce filtre est générique et puissant, mais peut exiger beaucoup de ressources d'unité centrale si des expressions régulières complexes sont spécifiées.
Exemple : Le filtre suivant retire les lignes débutant par le symbole #.
<Filter>
<Impl>Coveo.TextAnalytics.Implementations.RegexLineFilter, Coveo.TextAnalytics.Implementations</Impl>
<Configuration>
<Regex>#.*$</Regex>
</Configuration>
</Filter>
EmailHeaderFilter
Le plug-in EmailHeaderFilter retire les lignes d'en-tête de courriel qui commencent par De :, Envoyé à :, Sujet :, À :, et Importance :. En général, dans l'index, le corps de courriel qui est retrouvé par le plug-in de récupération ne contient pas de lignes d'en-tête. Ce filtre est utile dans de rares cas où les documents de courriel indexés contiennent les lignes d'en-tête de courriel et vous souhaitez traiter ces messages courriel sans le contenu d'en-tête. Notez que le sujet est généralement défini en tant que titre du document afin qu'il soit traité, et ce, même si la ligne Sujet : est retirée. Ce filtre ne contient pas de paramètres.
<Filter>
<Impl>Coveo.TextAnalytics.Implementations.EmailHeaderFilter, Coveo.TextAnalytics.Implementations</Impl>
<Configuration>
</Configuration>
</Filter>
Prochaines étapes?
Évaluez les extracteurs disponibles (voir Extracteurs prédéfinis d'Analytique de texte).