Словарь создается из корней, то есть значащих слов или терминов. Можно установить следующие параметры построения словаря.
При выборе этой опции игнорируемые слова удаляются из списка корней.
При выборе этой опции удаляются аффиксы для ограничения числа корней.
Эта опция позволяет использовать внешний файл, связывающий термины (то есть группы слов, обозначающие одно понятие, такие как “Белый дом” или “кредитная карта”) с концепциями. Из-за обработки групп слов эта опция применяется перед удалением игнорируемых слов и выделения основы. Можно создать собственный словарь концепций в виде текстового файла с именем ConceptList_<код_языка> (без расширения), каждая строка которого содержит группу слов, связанных с соответствующей концепцией. Например, можно создать список концепций для авиакомпании.
word=concept
business-class=BusinessClass
first-class=FirstClass
flying-blue=FlyingBlue
Или можно применить концепцию “creditcard” к любой кредитной карте (такой как “American Express”, “Visa”, …):
credit-card=creditcard
american-express=creditcard
visa-card=creditcard
mastercard=creditcard
Обратите внимание, что следует ставить знак "=" между словами и концепциями, заменять пробелы на dashes и писать слова строчными буквами (так как объединение концепций применяется после удаления всех прописных букв).
Кроме того, следует объединять концепции для форм слов в единственном и множественном числе, чтобы охватить все вхождения.
Поскольку список концепций зависит от языка, подходящий список выбирается автоматически после автоматического определения языка или выбирается пользователем.
Эта опция позволяет использовать внешний файл, определяющий синонимические корни. Она будет использована для замены корней на корень, выбранный пользователем. Эта опция применяется после удаления игнорируемых слов и применения правил выделения основы. Можно создать собственный словарь синонимов в виде текстового файла с именем SynonymList_<код_языка>, каждая строка которого содержит корень, находимый по кодировке текста, связанной с корнем синонима, как показано ниже.
<found root>=<replacement root>
В качестве разделителя корней и синонимов используется знак равенства (=).
Поскольку использование списка концепций зависит от языка, подходящий список выбирается автоматически после автоматического определения языка или выбирается пользователем.
Эта опция позволяет выбрать число корней, которое требуется хранить в словаре. По умолчанию сохраняются наиболее часто используемые корни, но можно выбрать процент наиболее часто используемых корней для исключения, нажав кнопку Расширенно.