El diccionario está compuesto por raíces, es decir, palabras o términos con significado. Puede establecer los siguientes parámetros de construcción de diccionario:
Al seleccionar esta opción, las palabras vacías se eliminan de la lista de raíces.
Al seleccionar esta opción, se eliminan los afijos para limitar el número de raíces.
Esta opción le permite utilizar un fichero externo que asocia términos (es decir, grupos de palabras que designan un único concepto, como "la Casa Blanca" o "tarjeta de crédito") con conceptos. Puesto que trata grupos de palabras, esta opción se aplica antes de la lematización y de eliminar las palabras vacías. Puede crear su propio diccionario de conceptos creando un fichero de texto llamado ConceptList_<LanguageCode> (sin extensión) que, en cada línea, contenga un grupo de palabras asociadas al concepto correspondiente. Por ejemplo, puede crear una lista de conceptos para una compañía aérea:
word=concept
business-class=BusinessClass
first-class=FirstClass
flying-blue=FlyingBlue
O bien, puede aplicar el concepto “tarjetacrédito” a cualquier tarjeta de crédito (como “American Express”, “tarjeta Visa”,…):
credit-card=creditcard
american-express=creditcard
visa-card=creditcard
mastercard=creditcard
Tenga en cuenta que debe escribir un signo "=" entre las palabras y los conceptos, sustituir los espacios en blanco por dashes y escribir las palabras en minúsculas (puesto que la integración de conceptos se aplica después de la eliminación de todas las mayúsculas).
Y tenga en cuenta que debe realizar la integración de conceptos para la forma singular y plural de las palabras para cubrir las ocurrencias.
Puesto que uso de la lista de conceptos depende del idioma, la lista correspondiente se selecciona automáticamente cuando el idioma se identificado automáticamente o lo ha seleccionado el usuario.
Esta opción le permite utilizar un fichero externo para definir raíces sinonímicas. Se utilizará para sustituir algunas raíces por una raíz seleccionada por el usuario. Esta opción se aplica después de eliminar las palabras vacías y de aplicar las reglas de lematización. Puede crear su propio diccionario de sinónimos creando un fichero de texto llamado SynonymList_<LanguageCode> que, en cada línea, contenga una raíz encontrada mediante la codificación de texto asociada a la raíz del sinónimo, como se muestra a continuación:
<found root>=<replacement root>
El separador utilizado para diferenciar raíces y sinónimos es el signo igual (=).
Puesto que uso de la lista de sinónimos depende del idioma, la lista correspondiente se selecciona automáticamente cuando el idioma se identificado automáticamente o lo ha seleccionado el usuario.
Esta opción le permite seleccionar cuántas raíces desea conservar en el diccionario. De forma predeterminada, se conservan las raíces con las mayores frecuencias, pero puede seleccionar un porcentaje de las raíces más frecuentes a excluir haciendo clic en el botón Avanzado.