Jeder Stamm wird in eine Variable konvertiert. Tritt der Stamm im Text auf, gibt es drei Möglichkeiten zur Kodierung des Vorkommens:
TFIDF = TF*log10(TotalNumberOfDocuments/NumberOfDocumentsContainingTheRoot)
TCIDF = TC*log10(TotalNumberOfDocuments/NumberOfDocumentsContainingTheRoot)