Kodierungsparameter

Jeder Stamm wird in eine Variable konvertiert. Tritt der Stamm im Text auf, gibt es drei Möglichkeiten zur Kodierung des Vorkommens:

  • Boolescher Wert: Das Vorhandensein des Worts wird mit 1 und die Abwesenheit mit 0 kodiert.
  • Terminushäufigkeit: Die Häufigkeit, mit der der Stamm im aktuellen Text auftritt, geteilt durch die Gesamtanzahl der Wörter im Text.
  • TF-inverse Dokumenthäufigkeit: Eine auf der Terminushäufigkeit basierende Kennzahl für die allgemeine Wichtigkeit eines Stammes im aktuellen Dokument in Relation zum gesamten Satz an Dokumenten.

    TF­IDF = TF*log10(TotalNumberOfDocuments/NumberOfDocumentsContainingTheRoot)

  • Terminusanzahl: Die Häufigkeit, mit der der Stamm im aktuellen Dokument auftritt.
  • TC-inverse Dokumenthäufigkeit: Eine auf der Terminusanzahl basierende Kennzahl für die allgemeine Wichtigkeit eines Stammes im aktuellen Dokument in Relation zum gesamten Satz an Dokumenten.

    TC­IDF = TC*log10(TotalNumberOfDocuments/NumberOfDocumentsContainingTheRoot)