Dokumentfrequenz
Beschreibung:
Entspricht für ein Wort w der Anzahl der Dokumente in denen w mindestens einmal vorkommt. Dieses Maß wird sowohl in der Computerlinguistik (cf. TF/IDF; Salton and McGill, 1983) als auch in der Psycholinguistik verwendet (als contextual diversity; Adelman, Brown und Quesada, 2006).
Für case-insensitive-Dokumentfrequenz, siehe Dokumentfrequenz DC in der Tabelle Types DC.
Datentyp:
- Dokumentfrequenz
- absolut, normalisiert, absolut log10, normalisiert log10, Frequenzrang, Frequenzrang 123
- pro 10.000 Dokumente
- größer oder gleich, kleiner oder gleich
- -1
In folgenden Tabellen vorhanden:
In folgenden N-Gramm-Tabellen können Sie den Filter auf jede einzelne Komponente anwenden:Inhalt
Aktuelle Version
- 0.3
- Neue Tabellen: alle Maße auch schreibungsunabhängig verfügbar