Tabelle artikel(↩ zurück zur Übersicht)
Beschreibung
Diese Tabelle enthält eine Liste von (grammatikalischen) Artikeln. Diese wird bei der Tokenisierung verwendet, um entsprechende Tokens automatisch zu klassifizieren.
Diese Tabelle enthält eine Liste von (grammatikalischen) Artikeln. Diese wird bei der Tokenisierung verwendet, um entsprechende Tokens automatisch zu klassifizieren.
Spalten
Der Name von Spalten, die Teil des Primärschlüssels sind wird fett dargestellt, die Namen von Fremdschlüsseln unterstrichen. Kursivierte Werte im Feld Datentyp bedeuten, dass der Wert optional (nullable) ist.
Spaltenname | Datentyp | Mögliche Werte | Beschreibung |
---|---|---|---|
artikel | varchar(20) | beliebig | Textuelle Repräsentation des Artikels. Das jeweilige Transkriptionssystem wird nicht unterschieden, d.h. die Einträge können im Betacode oder in einer quellenspezifischen Transkription kodiert sein. |
genus | enum | '','m','f','n' | In dieser Spalte wird das Genus des Artikels angegeben, falls dieses in der jeweiligen Sprachfamilie eindeutig ist. Das ist nicht immer der Fall: Die Zeichenkette "le" kann für den französischen maskulinen Artikel oder den italienischen femininen Artikel stehen (ob der Beleg im Singular oder Plural ist, wird an dieser Stelle nicht überprüft, da dies in den meisten Fällen nicht möglich ist). Falls ein Genus angegeben ist und der entsprechende Artikel das erste Token einer Äußerung ist, kann dem folgenden Token / der folgenden Tokengruppe dieses Genus automatisch zugewiesen werden (vgl. Tokenisierung). |
sprache | enum | '','rom','ger','sla' | Gibt die Sprachfamilie des Artikels an. Dies ist nötig, um zu verhindern, dass Zeichenketten, die auch in anderen Sprachen verwendet werden, irrtümlich als Artikel markiert werden. |
Ausschnitt
artikel | genus | sprache |
---|---|---|
la1{e}s? | f | rom |
as | n | ger |
la1n | f | rom |
DA, | m | ger |
DE | f | ger |
DA | m | ger |
ils$ | m | rom |
Der | m | ger |
DA,2 | m | ger |
i(lts | m | rom |