Dokumentfrequenz

Beschreibung:

Entspricht für ein Wort w der Anzahl der Dokumente in denen w mindestens einmal vorkommt. Dieses Maß wird sowohl in der Computerlinguistik (cf. TF/IDF; Salton and McGill, 1983) als auch in der Psycholinguistik verwendet (als contextual diversity; Adelman, Brown und Quesada, 2006).

Für case-insensitive-Dokumentfrequenz, siehe Dokumentfrequenz DC in der Tabelle Types DC.

Datentyp:

Datentyp
Dokumentfrequenz
Untertypen
absolut, normalisiert, absolut log10, normalisiert log10, Frequenzrang, Frequenzrang 123
Basis für die Normalisierung
pro 10.000 Dokumente
Abfrageoperatoren
größer oder gleich, kleiner oder gleich
Nullwert
-1

In folgenden Tabellen vorhanden:

In folgenden N-Gramm-Tabellen können Sie den Filter auf jede einzelne Komponente anwenden: