Paramètres de codage

Chaque racine est transformée en une colonne et lorsque la racine apparaît dans un texte, sa présence peut être codée selon une des méthodes suivantes :

  • Booléen : si le mot est présent dans le texte, la colonne prend la valeur 1 et sinon la valeur 0.
  • Fréquence (TF) : nombre de fois où la racine apparaît dans le texte en cours divisé par le nombre total de mots du document.
  • TF-IDF : mesure de l'importance générale d'une racine dans le document en cours par rapport à l'ensemble des documents sur la base de la fréquence.

    TF­IDF = TF*log10(TotalNumberOfDocuments/NumberOfDocumentsContainingTheRoot)

  • Compte (TC) : nombre de fois où la racine apparaît dans le texte en cours.
  • TC-IDF : mesure de l'importance générale d'une racine dans le document en cours par rapport à l'ensemble des documents sur la base du compte.

    TC­IDF = TC*log10(TotalNumberOfDocuments/NumberOfDocumentsContainingTheRoot)