Параметры кодировки

Каждый корень преобразуется в переменную и при появлении корня в тексте его присутствие может кодировано тремя способами.

  • Булево: присутствие слова кодируется 1, а отсутствие 0.
  • Частота термина: число появлений корня в текущем тексте, разделенное общим числом слов в документе.
  • Обратная частота документа - частота термина: показатель общей важности корня в текущем документе относительно всему набору документов на основе частоты термина.

    TF­IDF = TF*log10(TotalNumberOfDocuments/NumberOfDocumentsContainingTheRoot)

  • Число терминов: число появлений корня в текущем тексте.
  • Обратная частота документа - частота термина: показатель общей важности корня в текущем документе относительно всему набору документов на основе числа терминов.

    TC­IDF = TC*log10(TotalNumberOfDocuments/NumberOfDocumentsContainingTheRoot)