Reguläre Ausdrücke
Textfelder in dlexDB
Es gibt fünf Kategorien von Textfeldern in dlexDB:
- unveränderte Korpuszitate (Type, Typebigramm, Typetrigramm, Zeichen, Zeichenbigramm, Zeichentrigramm)
- schreibungsnormalisierte Korpuszitate (Type DC (schreibungsnormalisiert), Typebigramm DC (schreibungsnormalisiert), Typetrigramm DC (schreibungsnormalisiert), Zeichen DC (schreibungsnormalisiert), Zeichenbigramm DC (schreibungsnormalisiert), Zeichentrigramm DC (schreibungsnormalisiert))
- Repräsentationen von linguistischen Analysen (Silben)
- linguistisches Material als Ergebnis der Korpusanalyse (muss selbst nicht buchstäblich im Korpus vorkommen) (Silbe, Lemma)
- andere Codes (PoS-Tag)
Alle diese Textfelder können mit Hilfe von regulären Ausdrücken abgefragt werden. Dazu können Sie Ihre Abfrage einfach in das Eingabefeld beim entsprechenden Filter eingeben und sie durch zwei Schrägstriche als regulären Ausdruck markieren.
Beispiele:
- Wort muss an beliebiger Stelle gen enthalten; z.B. genug, irgendwo, morgen, gen
- Wort muss mit gen beginnen; z.B. genug, gen. Das Sonderzeichen ^ markiert in einem regulären Ausdruck den Wortanfang.
- Wort muss auf gen enden; z.B. morgen, gen. Das Sonderzeichen $ markiert in einem regulären Ausdruck das Wortende.
Wenn Sie ein Textfeld abfragen, das mit Unterscheidung von Groß-/Kleinschreibung vorliegt, wirkt sich die Checkbox Groß-/Kleinschreibung ignorieren auch auf die Interpretation Ihres regulären Ausdrucks aus.
Vollständige Syntax der regulären Ausdrücke
dlexDB unterstützt den größten Teil der sogenannten erweiterten regulären Ausdrücke (Spencer, 2007). Die am häufigsten benötigten Operatoren sind:
- Wort muss an beliebiger Stelle gen enthalten; z.B. genug, irgendwo, morgen, gen
- Wort muss mit gen beginnen; z.B. genug, gen. Das Sonderzeichen ^ markiert in einem regulären Ausdruck den Wortanfang.
- Wort muss auf gen enden; z.B. morgen, gen. Das Sonderzeichen $ markiert in einem regulären Ausdruck das Wortende.
- Wort enthält Üb, gefolgt von beliebig vielen - auch null - beliebigen Zeichen, gefolgt von ung; z.B. Überlegung, Übung
- Wort enthält Üb, gefolgt von beliebig vielen - aber mindestens einem - beliebigen Zeichen, gefolgt von ung; z.B. Überlegung (aber nicht: Übung)
- Wort enthält R, gefolgt von genau einem beliebigen Zeichen, gefolgt von ck; z.B. Reck, Rock, Ruck
- Wort enthält R, gefolgt von entweder e oder o, gefolgt von ck; z.B. Reck, Rock
- findet Oberammergau und Unterammergau
Hinweis
In dlexDB gibt es einige wenige Types, die aus mehreren Worten bestehen. Hier wurden die Leerzeichen durch Unterstriche ersetzt (New_York). Leerzeichen kommen in dlexDB nur in Typebigrammen und Typetrigrammen vor; hier dienen sie dazu, die konstituierenden Types voneinander zu trennen.
Inhalt
Aktuelle Version
- 0.3
- Neue Tabellen: alle Maße auch schreibungsunabhängig verfügbar