Parámetros de construcción de diccionario

El diccionario está compuesto por raíces, es decir, palabras o términos con significado. Puede establecer los siguientes parámetros de construcción de diccionario:

  • Eliminar palabras vacías

    Al seleccionar esta opción, las palabras vacías se eliminan de la lista de raíces.

  • Reducción de lematización

    Al seleccionar esta opción, se eliminan los afijos para limitar el número de raíces.

  • Integración de conceptos

    Esta opción le permite utilizar un fichero externo que asocia términos (es decir, grupos de palabras que designan un único concepto, como "la Casa Blanca" o "tarjeta de crédito") con conceptos. Puesto que trata grupos de palabras, esta opción se aplica antes de la lematización y de eliminar las palabras vacías. Puede crear su propio diccionario de conceptos creando un fichero de texto llamado ConceptList_<LanguageCode> (sin extensión) que, en cada línea, contenga un grupo de palabras asociadas al concepto correspondiente. Por ejemplo, puede crear una lista de conceptos para una compañía aérea:

    word=concept

    business-class=BusinessClass

    first-class=FirstClass

    flying-blue=FlyingBlue

    O bien, puede aplicar el concepto “tarjetacrédito” a cualquier tarjeta de crédito (como “American Express”, “tarjeta Visa”,…):

    credit-card=creditcard

    american-express=creditcard

    visa-card=creditcard

    mastercard=creditcard

    Tenga en cuenta que debe escribir un signo "=" entre las palabras y los conceptos, sustituir los espacios en blanco por dashes y escribir las palabras en minúsculas (puesto que la integración de conceptos se aplica después de la eliminación de todas las mayúsculas).

    Y tenga en cuenta que debe realizar la integración de conceptos para la forma singular y plural de las palabras para cubrir las ocurrencias.

    Puesto que uso de la lista de conceptos depende del idioma, la lista correspondiente se selecciona automáticamente cuando el idioma se identificado automáticamente o lo ha seleccionado el usuario.

  • Sustitución de sinónimos

    Esta opción le permite utilizar un fichero externo para definir raíces sinonímicas. Se utilizará para sustituir algunas raíces por una raíz seleccionada por el usuario. Esta opción se aplica después de eliminar las palabras vacías y de aplicar las reglas de lematización. Puede crear su propio diccionario de sinónimos creando un fichero de texto llamado SynonymList_<LanguageCode> que, en cada línea, contenga una raíz encontrada mediante la codificación de texto asociada a la raíz del sinónimo, como se muestra a continuación:

    <found root>=<replacement root>

    Nota

    El separador utilizado para diferenciar raíces y sinónimos es el signo igual (=).

    Puesto que uso de la lista de sinónimos depende del idioma, la lista correspondiente se selecciona automáticamente cuando el idioma se identificado automáticamente o lo ha seleccionado el usuario.

  • Número máximo de raíces generadas

    Esta opción le permite seleccionar cuántas raíces desea conservar en el diccionario. De forma predeterminada, se conservan las raíces con las mayores frecuencias, pero puede seleccionar un porcentaje de las raíces más frecuentes a excluir haciendo clic en el botón Avanzado.