Doc produitsMenu

Plateforme Coveo 7.0 >
Aide à l'administrateur > Outils Coveo > Outil d'administration > Onglet Configuration > Menu Langues > Amélioration de la pertinence pour le chinois, le japonais, le coréen et le thaï

Amélioration de la pertinence pour le chinois, le japonais, le coréen et le thaï

La Plateforme 7 de Coveo a toujours pris en charge le chinois, le japonais, le coréen et le thaï, mais offre maintenant une pertinence améliorée pour ces quatre langues.

Ces langues n'utilisent pas de caractères d'espacement pour séparer les mots. Précédemment, Coveo Enterprise Search (CES) indexait chaque caractère séparément comme s'il était un mot, et utilisait des paires de tels caractères pour effectuer de la récupération. Cette méthode d'indexation permet aux utilisateurs finaux de trouver du contenu, mais n'était pas optimale pour, par exemple, la précision et la classification de résultats de recherche.

Avec la nouvelle méthode d'indexation, Coveo Enterprise Search (CES) utilise des marqueurs de mots reconnaissant la langue afin d'identifier et séparer des expressions dans des groupes individuels de caractères inséparables, qui sont ici désignés mots CJKT (Chinese, Japanese, Korean, Thai). Chaque mot CJKT est alors indexé sous mots normaux. La signification des mots CJKT est ainsi préservée, et la classification est effectuée sur des mots plutôt que sur des caractères individuels, ce qui permet l'amélioration de la pertinence.

Exemple : Vous pouvez taper des mots chinois, japonais, coréens ou thaïs dans la boîte de recherche afin d'obtenir des documents pertinents dans les résultats de recherche et voir des occurrences surlignées de mots clés CJKT dans les titres et les extraits des résultats de recherche comme dans cet exemple en chinois.

Notes :

  • L'amélioration de la pertinence pour le chinois, le japonais et le coréen débute avec CES 7.0.6547, publié en mars 2014.

  • L'amélioration de la pertinence pour le thaï débute avec CES 7.0.6424, publié en février 2014.

  • Le nouvel index créé avec CES 7.0.6547+ utilise la nouvelle méthode d'indexation pour la pertinence améliorée de CJKT. Lorsque vous mettez à jour CES d'une version antérieure à CES 7.0.6547 à une version CES 7.0.6547+, un index existant continuera, par défaut, à utiliser la méthode d'origine d'indexation de CJKT. Si vous souhaitez passer à la nouvelle méthode d'indexation de CJKT, contactez Assistance Coveo pour obtenir de l'aide.

Dans les exemples présentés ci-dessous, un groupe de lettres en majuscules identiques (ex. : TTT) représente un mot CJKT, tandis qu'un groupe de lettres en minuscules différentes (ex. : abc) représente un mot ou un terme qui n'est pas CJKT.

Exemple : L'expression chinoise simplifiée pour Coveo prend en charge plusieurs langues est décomposée comme suit :

Expression originale :

coveo支持多国语言

Représentée par : abc TTTUUU
où :

abc représente coveo

TTT représente 支持 (soutien)

UUU représente 多国语言 (plurilingue)

Fonctionnalité prise en charge Description
Indexation

Détection automatique de contenu CJKT selon chaque ensemble et encodage de caractère Unicode spécifique à une langue.

Comme dans le cas de mots d'autres langues, les mots CJKT sont indexés afin d'identifier les documents dans lesquels ils apparaissent ainsi que leur emplacement dans chaque document.

Recherche

En temps de requête, une expression CJKT est divisée en mots CJKT et les résultats de recherche présentent tous les documents renfermant tous les mots CJKT. Dans l'interface de recherche, les mots CJKT recherchés sont surlignés dans les titres et les extraits des résultats de recherche.

Les utilisateurs finaux peuvent rechercher des mots CJKT mélangés avec des mots ou des termes qui ne sont pas CJKT.

Exemple :

Requête tapée : abcTTTUUUdef
Requête transformée : (abc TTT UUU def)

Note : Les documents retournés sont classés selon le même procédé et le même critère que d'autres langues (voir Outil d'administration - Menu Classement).

Préfixes et opérateurs

Dans la boîte de recherche des interfaces de recherche Coveo, les utilisateurs finaux peuvent utiliser des préfixes et des opérateurs de recherche avec des expressions CJKT (voir Préfixes et opérateurs de recherche). Les opérateurs booléens doivent être épelés en anglais (AND (et), OR (ou), NEAR (près), NOT (sauf)).

Exemple : Les utilisateurs finaux peuvent utiliser l'opérateur OR (ou) entre un mot et une expression CJKT :

Requête tapée : abc OR TTTUUU
Requête transformée : (abc OR (TTT UUU))

Exemples : Les utilisateurs finaux peuvent utiliser l'opérateur NEAR (près) entre un mot et une expression CJKT :

Requête tapée : abc NEAR TTTUUU
Requête transformée : (abc NEAR "TTT UUU")
Requête tapée : r-cTTTUUU NEAR def
Requête transformée : ("r c TTT UUU" NEAR def)

Note : L'opérateur NEAR prend en charge la correspondance d'un mot ou d'une phrase, mais pas d'une sous-expression.

Exemples : Les utilisateurs finaux peuvent utiliser l'opérateur NOT ou moins, qui atteindra une correspondance de phrase exacte si elle précède une expression CJKT :

Requête tapée : NOT TTTUUU
Requête transformée : NOT "TTT UUU"
Requête tapée : -TTTUUU
Requête transformée : -"TTT UUU"

Exemples : Bien que la lemmatisation ne s'applique pas à CJKT (voir À propos de l'indexation par radicaux), les utilisateurs finaux peuvent toujours utiliser les opérateurs plus (+) ou symbole numéro (#) en face d'une expression CJKT afin d'agrandir l'expression en tant que phrase exacte. L'opérateur sera extrait.

Requête tapée : +TTTUUU
Requête transformée : "TTT UUU"
Requête tapée : #TTTUUU
Requête transformée : "TTT UUU"
Recherche de phrase

Dans la boîte de recherche d'interfaces de recherche Coveo, les utilisateurs finaux peuvent rechercher une phrase CJKT spécifique. La phrase sémantique sera préservée.

Exemple : Les utilisateurs finaux peuvent utiliser des guillemets pour délimiter une expression à mettre en équivalence exacte (voir Recherche d'une phrase):

Requête tapée : abc"TTTUUUdef"
Requête transformée : abc "TTT UUU def"

Les caractères autres que les mots génèrent une phrase exacte composée de caractères avoisinants.

Exemple : La présence du tiret (-) force une conversion en une correspondance de phrase exacte :

Requête tapée : TTTUUU-VVV
Requête transformée : "TTT UUU VVV"
Thésaurus

Un administrateur Coveo peut saisir des expressions CJKT dans des entrées de thésaurus afin d'agrandir des requêtes (voir Ajout d'entrées de thésaurus à partir de l'Outil d'administration).

Note : Les entrées de thésaurus CJKT sont appliquées à des mots CJKT afin qu'une expression CJKT et ses mots CJKT soient considérés comme étant équivalents.

Exemple : Taper TTTUUU ou TTT UUU dans une entrée de thésaurus a le même effet.

Requêtes de champ

Des expressions en thaï peuvent être utilisées dans des requêtes de champ (voir Que sont les requêtes par champs et les requêtes en texte libre?). Des correspondances situées dans des champs sont plus précises, car elles sont converties en correspondances de phrases exactes.

Exemples :

Requête tapée : @field=abcTTTUUU
Requête transformée : @field="abc TTT UUU"
Requête tapée : @field=(abc,TTTUUU)
Requête transformée : @field=(abc, "TTT UUU")
Requête tapée : @field=(abc,"TTTUUU")
Requête transformée : @field=(abc, "TTT UUU")

 

Mots vides Un administrateur Coveo peut inclure des mots CJKT en tant que mots vides (voir Configuration de mots vides à ignorer dans les requêtes).
Essayez cette orthographe Le correcteur syntaxique prend en charge les mots CJKT afin qu'une expression CJKT mal tapée puisse mener à des suggestions Essayez cette orthographe en temps de requête (voir Comment sont gérés les mots mal orthographiés?).

Note : L'utilisation de caractères de remplacement n'est pas prise en charge pour le chinois, le japonais, le coréen et le thaï.