Parámetros de codificación

Cada raíz se convierte en una variable y, cuando la raíz aparece en un texto, su presencia se puede codificar de tres maneras:

  • Booleano: la presencia de la palabra se codifica en 1 y su ausencia en 0.
  • Frecuencia de un término: el número de veces que aparece la raíz en el texto entre el número total de palabras del documento.
  • Frecuencia de término – Frecuencia inversa de documento: medida de la importancia general de una raíz en el documento en relación con el conjunto total de documentos en base a la frecuencia de un término.

    TF­IDF = TF*log10(TotalNumberOfDocuments/NumberOfDocumentsContainingTheRoot)

  • Recuento de términos: número de veces que aparece la raíz en el texto actual.
  • Recuento de términos – Frecuencia inversa de documento: medida de la importancia general de una raíz en el documento en relación con el conjunto total de documentos en base al recuento de términos.

    TC­IDF = TC*log10(TotalNumberOfDocuments/NumberOfDocumentsContainingTheRoot)