Doc produitsMenu

Normalisateurs prédéfinis d'Analytique de texte

Vous pouvez utiliser des plug-ins de normalisation dans les étapes post-extraction afin de faire le ménage dans les métadonnées, en remplaçant ou en éliminant des valeurs afin de produire un ensemble plus homogène de valeurs de métadonnées.

MetadataBlackLister

Le plug-in MetadataBlackLister supprime, des métadonnées spécifiées, des valeurs qui sont définies dans une liste noire sous la forme d'un fichier de texte plat, une valeur de liste noire par ligne.

Exemple : Avec la définition suivante de normalisateur, les valeurs du fichier blacklist.txt qui sont retrouvées avec la même capitalisation que les métadonnées Theme sont supprimées des métadonnées.

<Normalizer>
  <Impl>Coveo.TextAnalytics.Implementations.MetadataBlackLister, Coveo.TextAnalytics.Implementations</Impl>
  <Configuration>
    <FilePath>D:\TextAnalytics\Config\BlackLists\blacklist.txt</FilePath>
    <CaseSentitive>True</CaseSensitive>
    <TypeRestriction>Theme</TypeRestriction>
  </Configuration>
</Normalizer>

MetadataRegexBlacklister

Le plug-in MetadataRegexBlacklister supprime, des métadonnées spécifiées, les valeurs qui correspondent à au moins une des expressions régulières spécifiées. Ce normalisateur est générique et puissant, mais peut exiger beaucoup de ressources d'unité centrale si des expressions régulières complexes sont spécifiées.

Exemple : Avec la définition de normalisateur suivante, les séquences de caractères numériques et les chaînes commençant par ' sont supprimées des métadonnées Theme et Place.

<Normalizer>
  <Impl>Coveo.TextAnalytics.Implementations.MetadataRegexBlacklister, Coveo.TextAnalytics.Implementations</Impl>
  <Configuration>
    <CaseSensitive>False</CaseSensitive>
    <TypeRestriction>Theme</TypeRestriction>
    <TypeRestriction>Place</TypeRestriction>
    <Regex>^[0-9]+$</Regex>
    <Regex>^'.*$</Regex>
  </Configuration>
</Normalizer>

MetadataFilter

Si vous utilisez le plug-in de découverte d'entité SalienceMetadataExtractor, il extrait des entités nommées pour toutes les catégories qu'il connaît (voir SalienceMetadataExtractor). Vous pouvez utiliser le plug-in MetadataFilter afin d'éliminer les métadonnées pour des catégories non désirées d'entités nommées.

Exemples :

Avec la définition de normalisateur suivante, seules les métadonnées Person, Company, et Place sont conservées.

<Normalizer>
  <Impl>Coveo.TextAnalytics.Implementations.MetadataFilter, Coveo.TextAnalytics.Implementations</Impl>
  <Configuration>
    <InverseMode>True</InverseMode>
    <FilteredName>Company</FilteredName>
    <FilteredName>Person</FilteredName>
    <FilteredName>Place</FilteredName>
  </Configuration>
</Normalizer>

Avec la définition de normalisateur suivante, seules les métadonnées Person sont supprimées, et toutes les autres métadonnées d'entité nommée sont conservées.

<Normalizer>
  <Impl>Coveo.TextAnalytics.Implementations.MetadataFilter, Coveo.TextAnalytics.Implementations</Impl>
  <Configuration>
    <InverseMode>False</InverseMode>
    <FilteredName>Person</FilteredName>
  </Configuration>
</Normalizer>

MetadataNormalizer

Le plug-in MetadataNormalizer télécharge un fichier texte spécifié ou tous les fichiers texte retrouvés dans le dossier spécifié. Les fichiers texte doivent contenir des expressions séparées par des tabulations. La première colonne contient une expression unique à rechercher. La deuxième colonne contient l'expression de remplacement, ou des expressions séparées par des points-virgule (;). Vous pouvez restreindre la normalisation à un ou plusieurs noms de métadonnées; sinon, la normalisation des valeurs de métadonnées de tous les fichiers d'applique à toutes les métadonnées.

Astuce : Dans un pipeline, vous pouvez utiliser plus d'une instance de MetadataNormalizer, chacune appliquant, habituellement, le contenu d'un fichier de normalisation à une métadonnée.

Exemple : Avec la définition de normalisateur suivante, le plug-in télécharge les paires d'expressions de normalisation à partir du fichier D:\TXTAN\Config\Normalizations\PeopleNameNormalization.txt.

<Normalizer>
  <Impl>Coveo.TextAnalytics.Implementations.MetadataNormalizer, Coveo.TextAnalytics.Implementations</Impl>
  <Configuration>
    <FilePath>D:\TXTAN\Config\Normalizations\PeopleNameNormalization.txt</FilePath>
    <CaseSensitive>False</CaseSensitive>
    <TypeRestriction>People</TypeRestriction>
  </Configuration>
</Normalizer>

Si le fichier contient les lignes suivantes :

RKennedy Robert F. Kennedy R. Kennedy Robert F. Kennedy Bob Kennedy Robert F. Kennedy B. Obama Barack Obama;President

Si elles sont retrouvées dans les métadonnées People, les variantes de nom spécifiées de Robert Kennedy sont remplacées par Robert F. Kennedy. Si B. Obama est retrouvé, il est remplacé par deux valeurs : Barack Obama et President.