Plug-ins pour la découverte d'entité
Thèmes
Les Thèmes sont des syntagmes nominaux qui sont extraits du texte intégral selon une analyse linguistique. Un syntagme nominal est une séquence d'un ou plusieurs termes pouvant être remplacés par un nom ou un pronom. Habituellement, le plug-in pour la découverte d'entité extrait des thèmes à deux mots.
Exemple : L'expression community account management est une séquence de termes pouvant être remplacée par it, et peut donc être extraite en tant que thème.
L'extraction de thèmes fonctionne mieux dans des documents renfermant du texte régulier, fait de phrases complètes, et pas très bien dans des documents renfermant des segments de texte tels que des fichiers journal.
La pertinence d'un thème qui est extrait d'un seul document est amplifiée s'il apparaît dans une facette classée selon la corrélation, ce qui permet aux utilisateurs finaux de retirer des documents reliés au sujet de sources dispersées.
Entités nommées
Les Entités nommées sont des éléments de texte uniques qui peuvent être classifiés dans des catégories prédéfinies. Le plug-in pour la découverte d'entité peut extraire des entités nommées pour un nombre modéré de catégories (noms de compagnie, noms de produits, personnes, titres d'emploi, lieux, dates...). Si elles sont retrouvées dans un document, les valeurs d'entité nommée sont sauvegardées en tant que métadonnées qui sont nommées selon la catégorie correspondante et jointes au document.
Exemple : Si l'extraction d'entités nommées est activée, pendant le traitement de la phrase suivante :
Cet article parle des restaurants préférés de Paul Baker à Boston.
Les métadonnées et valeurs suivantes sont créées :
-
Personnes = Paul Baker
-
Lieu = Boston
Lorsque l'extraction d'entités nommées est activée, le plug-in pour la découverte d'entités génère toujours des métadonnées pour toutes les catégories qu'il prend en charge et retrouve. Dans le pipeline d'analytique de texte, vous pouvez utiliser un plug-in pour le filtrage uniquement afin de faire passer les métadonnées de catégories d'entités nommées d'intérêt au stage de production (voir SalienceMetadataExtractor et MetadataFilter).
Les facettes qui utilisent des entités nommées permettent aux utilisateurs finaux de trouver facilement des documents faisant référence à des entités nommées spécifiques.
Analyse d'opinions
Le plug-in pour la découverte d'entité peut utiliser, facultativement, l'Analyse d'opinions afin de calculer l'opinion générale d'un document en trouvant des expressions prédéfinies qui sont associées à des opinions positives ou négatives et en résumant l'appréciation générale pour ces deux catégories. L'analyse d'opinions produit de meilleurs résultats avec des phrases complètes, dont des jugements, des opinions ou des humeurs, qui proviennent, par exemple, de publications dans des communautés d'évaluations par les clients.
Exemple : Si l'analyse d'opinions est activée, pendant le traitement de la phrase suivante :
Il s'agit de la pire et plus douloureuse installation de logiciel que j'ai effectuée. Toutefois, dès que l'installation est complétée, ses fonctionnalités sont superbes.
Un sentiment Négatif général est retourné, puisque les termes pire et plus douloureuse ont une forte connotation négative, contrairement au mot superbes, qui a une connotation positive. Les autres termes sont Neutres, car ils n'ont pas de connotation.
Par défaut, l'analyse d'opinions retourne une opinion Positive, Neutre, ou Négative. Vous pouvez toutefois configurer plusieurs niveaux d'opinion et personnaliser les noms de ces niveaux (voir SalienceMetadataExtractor).