Paramètres de construction du dictionnaire

Le dictionnaire est formé de racines, c'est-à-dire des mots ou des termes significatifs. Vous pouvez définir les paramètres de construction du dictionnaire suivants :

  • Suppression des mots vides

    Cochez cette option pour supprimer les mots vides de la liste des racines.

  • Réduction par règle de lemmatisation

    Cette option vous permet de supprimer les affixes pour limiter le nombre de racines.

  • Regroupement de concepts

    Cette option vous permet d'utiliser un fichier externe associant des termes (c'est-à-dire des groupes de mots désignant un concept unique, tels que "la Maison Blanche" ou "carte bancaire") à des concepts. Étant donné que cette option traite des groupes de mots, elle est appliquée avant la suppression des mots vides et la règle de lemmatisation. Vous pouvez créer votre propre dictionnaire de concepts en créant un fichier texte nommé ConceptList_<CodeLangue> (sans extension) et contenant à chaque ligne un terme et le concept qui lui est associé. Par exemple, vous pouvez regrouper les concepts dans le domaine des compagnies aériennes :

    word=concept

    business-class=BusinessClass

    first-class=FirstClass

    flying-blue=FlyingBlue

    Ou vous pouvez créer le concept "cartebancaire" qui remplacera toutes les cartes bancaires (telles que "Carte Visa", "American Express", "Carte bleue") :

    credit-card=creditcard

    american-express=creditcard

    visa-card=creditcard

    mastercard=creditcard

    Notez que vous devez remplacer les espaces entre les termes par des dashes, séparer les termes et concepts par le signe égal "=" et écrire les termes en minuscules (car les majuscules sont retirées avant le regroupement de concepts).

    Et notez qu'il faut préciser le terme au singulier et au pluriel pour prendre en compte toutes les occurrences.

    La liste de concepts est dépendante de la langue ; la liste appropriée est automatiquement sélectionnée une fois que la langue du jeu de données a été identifiée ou choisie par l'utilisateur.

  • Remplacement des synonymes

    Cette option vous permet d'utiliser un fichier externe définissant des racines synonymes. Il sera utilisé pour remplacer certaines racines par une seule spécifiée par l'utilisateur. Cette option est appliquée après la suppression des mots vides et la règle de lemmatisation. Vous pouvez créer votre propre dictionnaire de synonymes en créant un fichier texte nommé SynonymList_<CodeLangue> et contenant sur chaque ligne une racine trouvée par encodage textuel associée à la racine synonyme, comme indiqué ci-dessous :

    <found root>=<replacement root>

    Remarque

    La racine et son synonyme associé sont séparés par le signe égal (=).

    La liste de synonymes est dépendante de la langue ; la liste appropriée est automatiquement sélectionnée une fois que la langue du jeu de données a été identifiée ou choisie par l'utilisateur.

  • Nombre maximal de racines générées

    Cette option vous permet de choisir combien de racines vous souhaitez conserver dans le dictionnaire. Par défaut, les racines les plus fréquentes sont conservées, mais vous pouvez aussi choisir d'ignorer une partie des racines les plus fréquentes en cliquant sur le bouton Avancé