Параметры составления словаря

Словарь создается из корней, то есть значащих слов или терминов. Можно установить следующие параметры построения словаря.

  • Удаление игнорируемых слов

    При выборе этой опции игнорируемые слова удаляются из списка корней.

  • Сокращение выделения основы

    При выборе этой опции удаляются аффиксы для ограничения числа корней.

  • Объединение концепций

    Эта опция позволяет использовать внешний файл, связывающий термины (то есть группы слов, обозначающие одно понятие, такие как “Белый дом” или “кредитная карта”) с концепциями. Из-за обработки групп слов эта опция применяется перед удалением игнорируемых слов и выделения основы. Можно создать собственный словарь концепций в виде текстового файла с именем ConceptList_<код_языка> (без расширения), каждая строка которого содержит группу слов, связанных с соответствующей концепцией. Например, можно создать список концепций для авиакомпании.

    word=concept

    business-class=BusinessClass

    first-class=FirstClass

    flying-blue=FlyingBlue

    Или можно применить концепцию “creditcard” к любой кредитной карте (такой как “American Express”, “Visa”, …):

    credit-card=creditcard

    american-express=creditcard

    visa-card=creditcard

    mastercard=creditcard

    Обратите внимание, что следует ставить знак "=" между словами и концепциями, заменять пробелы на dashes и писать слова строчными буквами (так как объединение концепций применяется после удаления всех прописных букв).

    Кроме того, следует объединять концепции для форм слов в единственном и множественном числе, чтобы охватить все вхождения.

    Поскольку список концепций зависит от языка, подходящий список выбирается автоматически после автоматического определения языка или выбирается пользователем.

  • Замена синонимов

    Эта опция позволяет использовать внешний файл, определяющий синонимические корни. Она будет использована для замены корней на корень, выбранный пользователем. Эта опция применяется после удаления игнорируемых слов и применения правил выделения основы. Можно создать собственный словарь синонимов в виде текстового файла с именем SynonymList_<код_языка>, каждая строка которого содержит корень, находимый по кодировке текста, связанной с корнем синонима, как показано ниже.

    <found root>=<replacement root>

    Примечание

    В качестве разделителя корней и синонимов используется знак равенства (=).

    Поскольку использование списка концепций зависит от языка, подходящий список выбирается автоматически после автоматического определения языка или выбирается пользователем.

  • Максимальное число сгенерированных корней

    Эта опция позволяет выбрать число корней, которое требуется хранить в словаре. По умолчанию сохраняются наиболее часто используемые корни, но можно выбрать процент наиболее часто используемых корней для исключения, нажав кнопку Расширенно.