Durchschn. Inf.-Geh., bigrammbasiert
Beschreibung:
Durchschnittlicher Informationsgehalt eines Types, betrachtet in Bigrammkontexten. Betrachtet werden alle Bigramme mit dem gegebenen Type als zweiter Komponente.
Für jedes einzelne Bigramm kann der Informationsgehalt der zweiten Komponente angegeben werden basierend auf der bedingten Wahrscheinlichkeit der zweiten Komponente. Informell dargestellt ist eine hohe bedingte Wahrscheinlichkeit gleichbedeutend mit einem niedrigen Informationsgehalt (jeweils der zweiten Komponente), und eine niedrige bedingte Wahrscheinlichkeit ist gleichbedeutend mit einem hohen Informationsgehalt (jeweils der zweiten Komponente).
Der hier angegebene durchschnittliche Informationsgehalt eines Types, gemittelt über alle Bigrammkontexte mit diesem Type als zweiter Komponente, ist definiert als die negative durchschnittliche logarithmierte bedingte Wahrscheinlichkeit dieses Types in den betrachteten Kontexten:
AvgInfCont(w2) = -1*sum(C(w1w2)*log10(P(w2|w1))) / sum(C(w1w2))
C steht für die absolute Häufigkeit eines Types bzw. eines Bigramms. Wir folgen mit dieser Definition der Arbeit von Piantadosi et al., 2011.
Datentyp:
- numerisch
- Gleitkommazahl (double precision)
- größer oder gleich, kleiner oder gleich
- -1.0
In folgenden Tabellen vorhanden:
In folgenden N-Gramm-Tabellen können Sie den Filter auf jede einzelne Komponente anwenden:Inhalt
Aktuelle Version
- 0.3
- Neue Tabellen: alle Maße auch schreibungsunabhängig verfügbar