Tabelle Types
Ein Textkorpus besteht aus Elementen wie Wörtern, Zahlen und Satzzeichen. Diese Elemente werden Tokens genannt. Orthographisch identische Tokens bezeichnet man als Instanzen ein und desselben Types. Die Types-Tabelle enthält alle Types, die zumindest einmal im zugrundeliegenden Korpus vorkommen. Bei Types wird wird zwischen Groß- und Kleinschriebung unterschieden, d.h. singt, Singt und SINGT sind drei verschiedene Types.
Die Types-Tabelle enthält Type-bezogene Informationen wie Frequenz, Familiarität, Regularität, Häufigkeit des Wortanfangs, Nachbarschaftsmaße und mehr.
dlexDB bietet auch Varianten dieser Maße an, die ohne Berücksichtigung von Groß-/Kleinschreibung berechnet wurden. Diese Maße sind ind der Types DC-Tabelle zu finden.
Auf der anderen Seite enthält die Annotierte Types-Tabelle noch spezifischere Frequenzmaße, nämlich die Häufigkeiten von Types unter Berücksichtigung der morphosyntaktischen Analyse im jeweiligen Kontext.
Die Types-Tabelle enthält folgende Spalten zur Anzeige oder Filterung:
- Oberflächenfilter
- Frequenzfilter
- Numerische Filter
- Familiarität
- Regularität
- Dokumentfrequenz
- Satzfrequenz
- Kumulierte Silben-Korpusfrequenz
- Kumulierte Silben-Lexikonfrequenz
- Kumulierte Zeichen-Korpusfrequenz
- Kumulierte Zeichen-Lexikonfrequenz
- Kumulierte Zeichenbigramme-Korpusfrequenz
- Kumulierte Zeichenbigramme-Lexikonfrequenz
- Kumulierte Zeichentrigramme-Korpusfrequenz
- Kumulierte Zeichentrigramme-Lexikonfrequenz
- Initiales Zeichen
- Initiales Zeichenbigramm
- Initiales Zeichentrigramm
- Uniqueness-Point orth. Präfixlänge
- Uniqueness-Point orth. neg. Offs.
- Uniqueness-Point lemmabez. Präfixlänge
- Uniqueness-Point lemmabez. neg. Offs.
- Durchschn. bed. Wahrsch., bigrammbasiert
- Durchschn. Inf.-Geh., bigrammbasiert
- Durchschn. bed. Wahrsch., trigrammbasiert
- Durchschn. Inf.-Geh., trigrammbasiert
- Nachbarschaftsmaße
Inhalt
Aktuelle Version
- 0.3
- Neue Tabellen: alle Maße auch schreibungsunabhängig verfügbar