Tabelle z_ling(↩ zurück zur Übersicht)
Vorbemerkung
Tabellen mit dem Präfix "z_" sind Teil der Datenzugriffsschicht von VerbaAlpina. Sie haben eine persistente Strukur und werden aus den zugrundeliegenden (veränderlichen) Tabellen der Kategorie "Projektdaten" automatisiert befüllt. Im Gegensatz zu den Tabellen mit dem Präfix "vap_" dienen sie hauptsächlich dem maschinellen Zugriff.
Die Inhalte dieser Tabelle werden durch die folgende Prozedur erstellt: zling
Die Daten in dieser Tabelle werden (mindestens) einmal täglich aus den jeweils zugrundeliegenden Primärtabellen neu erstellt.
Tabellen mit dem Präfix "z_" sind Teil der Datenzugriffsschicht von VerbaAlpina. Sie haben eine persistente Strukur und werden aus den zugrundeliegenden (veränderlichen) Tabellen der Kategorie "Projektdaten" automatisiert befüllt. Im Gegensatz zu den Tabellen mit dem Präfix "vap_" dienen sie hauptsächlich dem maschinellen Zugriff.
Die Inhalte dieser Tabelle werden durch die folgende Prozedur erstellt: zling
Die Daten in dieser Tabelle werden (mindestens) einmal täglich aus den jeweils zugrundeliegenden Primärtabellen neu erstellt.
Beschreibung
Diese Tabelle enthält alle sprachlichen Projektdaten in gebündelter Form. Sie wird aus den entsprechenden Daten-Tabellen automatisch generiert. Dadurch enthält sie nicht normalisierte Daten; hauptsächlich bedeutet das, dass es mehrere Zeilen für den selben Sprachbeleg gibt, wenn er beispielsweise verschiedene Typisierungen hat oder ihm mehrere Konzepte zugeordnet sind. Außerdem sind in einigen Spalten nicht-atomare Werte enthalten (vgl. z.B. Spalte "Type_Reference")
Diese Tabelle enthält alle sprachlichen Projektdaten in gebündelter Form. Sie wird aus den entsprechenden Daten-Tabellen automatisch generiert. Dadurch enthält sie nicht normalisierte Daten; hauptsächlich bedeutet das, dass es mehrere Zeilen für den selben Sprachbeleg gibt, wenn er beispielsweise verschiedene Typisierungen hat oder ihm mehrere Konzepte zugeordnet sind. Außerdem sind in einigen Spalten nicht-atomare Werte enthalten (vgl. z.B. Spalte "Type_Reference")
Spalten
Der Name von Spalten, die Teil des Primärschlüssels sind wird fett dargestellt, die Namen von Fremdschlüsseln unterstrichen. Kursivierte Werte im Feld Datentyp bedeuten, dass der Wert optional (nullable) ist.
Spaltenname | Datentyp | Mögliche Werte | Beschreibung |
---|---|---|---|
id_instance | bigint(20) unsigned | beliebig | Eindeutige numerische ID für diesen Beleg. Die Daten zu einem Beleg können aus mehreren Zeilen bestehen, d.h. es kann auch mehrere Einträge mit der selben ID geben. Da sowohl Daten aus der Tabelle `tokens` als auch aus der Tabelle `tokengruppen` enthalten sind (vgl. Mehrwortlexie), werden die jeweiligen IDs aus den Ursprungstabellen zusammengeführt. Tokens behalten ihre ID, die ID einer Tokengruppe wird aus der Summe der maximalen Token-ID und der ID der Tokengruppe berechnet. |
instance | varchar(5000) | beliebig | Textuelle Repräsentation des Belegs. Prinzipiell gibt es drei Möglichkeiten, wie der Beleg kodiert sein kann:
Falls das Ausgangsmaterial ausschließlich bereits typisierte Belege liefert, ist dieses Feld leer. Der Typ, der aus der Quelle übernommen wurde, ist im Feld "Type" mit ensprechenden Angabe im Feld "Source_Typing" angegeben (Falls es zusätzlich eine Typisierung von VerbaAlpina gibt, enthält mindestens eine Zeile den Quellentyp und eine den VA-Typ). Für Mehrwortlexien gibt es sowohl einen Eintrag für die gesamte Bezeichung, als auch für die Einzelwörter. Letztere werden durch Angabe der vollständigen Bezeichnung (getrennt durch ###) ergänzt, z.B. kaʒˈiːnɑ###kaʒˈiːnɑ dɑl fˈøːk |
instance_encoding | enum | '1','2','3','4' | Gibt an, wie der Beleg codiert ist (vgl. Transkription): |
instance_original | varchar(5000) | beliebig | Gibt (falls vorhanden) die Originaltranskription der Quelle an. Wenn keine IPA-Darstellung des Belegs vorhanden ist (und eine Originaltranskription existiert), sind die Werte in "Instance" und "Instance_Original" identisch. |
id_informant | int(10) unsigned | beliebig | Eindeutige ID für den jeweiligen Informanten (aus der Tabelle `informanten`). Die Felder "Id_Stimulus" und "Id_Informant" zusammen bestimmen den Inhalt des Felds "Instance_Source". |
instance_source | varchar(200) | beliebig | Quelleninformation des Belegs im folgenden Format: <Quelle>#<Stimulus- oder Kartennummer>#<Nummer innerhalb der Karte>#<Informantnummer#<Erhebungsort> z.B. VALTS#IV_101#1#A28#Füssen Die Ausgangsdaten stammen aus den Tabellen `stimuli` und `informanten` |
id_stimulus | int(10) unsigned | beliebig | Eindeutige Id für den Stimulus, der für die Erhebung dieses Beleges verwendet wurde (aus der Tabelle `stimuli`). Der Stimulus entspricht im Prinzip der Frage, die dem jeweiligen Informanten gestellt wurde. Die Felder "Id_Stimulus" und "Id_Informant" zusammen bestimmen den Inhalt des Felds "Instance_Source". |
id_concept | int(11) unsigned | beliebig | Eindeutige ID für das jeweilige Konzept (aus der Tabelle `konzepte`). Im Gegensatz zu den lokalisierten Tabellen mit dem Präfix "vap_" enthält diese Tabelle keine textuelle Repräsentation des Konzepts. Alle vorhanden Konzeptbeschreibungen/-namen in den verschiedenen Portalsprachen sind in der Tabelle `z_concepts` enthalten. |
qid | int(10) unsigned | beliebig | Gibt die ID in der Wikidata-Datenbank (https://www.wikidata.org/) an, die diesem Konzept entspricht (Der Präfix "Q" ist nicht enthalten). |
geo_data | varchar(100) | beliebig | Georeferenzierung des Belegs im WKT-Format. |
alpine_convention | tinyint(1) | beliebig | Gibt an, ob sich der Beleg in der Alpenkonvention befindet (1) oder nicht (0). |
id_community | int(10) unsigned | beliebig | Eindeutige ID für die jeweilige Gemeinde (aus der Tabelle `orte`). |
community_name | varchar(200) | beliebig | Name der Gemeinde. Im Gegensatz zum Feld "Instance_Source" wird hier immer der offizielle Gemeindename angegeben. Der Wert dort entspricht oft dem Gemeindenamen, ist aber quellenabhängig und kann unter Umständen auch einen kleineren Ort innerhalb einer Gemeinde angeben. Falls es für eine Gemeinde weitere Namen in anderen Sprachen gibt, werden diese getrennt durch ### angegeben, z.B. Bolzano###D:Bozen. Hierbei sind die Sprachen D (Deutsch), I (Italienisch), F (Französisch), S (Slowenisch), R (Rätoromanisch) oder L (Ladinisch) möglich. |
community_center | varchar(100) | beliebig | Referenzpunkt der Gemeinde im WKT-Format. Dies entspricht in den meisten Fällen dem geometrischen Mittelpunkt der Gemeinde. Besonders bei Gemeinden aus mehreren Teilstücken muss das aber nicht der Fall sein. |
geonames_id | int(10) unsigned | beliebig | ID der jeweiligen Gemeinde in der Geonames-Datenbank |
year_publication | varchar(50) | beliebig | Jahr, in dem der Beleg publiziert wurde. Mögliche Formate:
|
year_survey | binary(0) | beliebig | Jahr, in dem der Beleg erhoben wurde. (Dieses Feld ist aktuell nur ein Platzhalter und enthält keine Werte) |
informant_lang | char(9) | beliebig | Sprachfamilie des Informanten (falls bekannt). Kann die Werte "rom" (romanisch), "ger" (germanisch) oder "sla" (slawisch) enthalten. (Die Werte werden langfristig auf die entsprechenden ISO 639-5-Werte "roa", "ger" und "sla" umgestellt) |
type_kind | varchar(1) | 'L','P' | Gibt an ob der Wert im Feld "Type" ein morpho-lexikalischer (L) oder phonetischer (P) Typ ist. VerbaAlpina typisiert aktuell nicht phonetisch, d.h. alle mit "P" markierten Typen stammen aus den Originalquellen. |
id_type | int(11) unsigned | beliebig | Eindeutige Nummer für den jeweiligen Typ (Die Nummer ist allerdings nur innerhalb einer "Typgattung" eindeutig, es können durchaus morpho-lexikalische und phonetische Typen mit der selben Nummer vorkommen). |
type | varchar(200) | beliebig | Textuelle Darstellung des Typs. |
type_lang | enum | '','sla','roa','gem' | Sprachfamilie des Typs laut ISO 639-5. Kann die Werte "roa" (romanisch), "gem" (germanisch) oder "sla" (slawisch) enthalten. |
type_reference | varchar(1000) | beliebig | Lemmata aus Referenzwörterbüchern, die dem jeweiligen Typ entsprechen. Die Einträge haben das Format: <Wörterbuch>|<Stichwort>|<bibliographischer Verweis (z.B. Seitenzahl)>|<Link> z.B. Idiotikon|Teien|12, 31|https://digital.idiotikon.ch/idtkn/id12.htm#!page/120031/mode/1up |
source_typing | varchar(50) | beliebig | Gibt an, woher die Typisisierung stammt. Enthält "VA" oder das Kürzel der jeweiligen Quelle aus der Tabelle `bibliographie`. |
pos | varchar(8) | "v", "art", "sub", "pron", "adj", "PPP", "PPA", "adv", "num", "praep", "konj", "mod", "int" | Wortart des Typs. |
affix | varchar(20) | beliebig | Affix des Typs. |
gender | varchar(1) | "m", "f", "n" | Genus des Typs. |
id_base_type | int(10) unsigned | beliebig | Eindeutige ID für den jeweiligen Basistyp (aus der Tabelle `basistypen`). |
base_type | varchar(200) | beliebig | Textuelle Darstellung des Basistyps. |
base_type_lang | char(3) | beliebig | Sprache des Basistyps. Falls vorhanden in ISO 639-3-Codierung. Eine Liste mit allen Sprachabkürzungen befindet sich im Methodologie-Eintrag Abkürzungen. |
base_type_unsure | tinyint(1) | beliebig | Wird auf 1 gesetzt, wenn die Zuordnung des Basistyps unsicher ist. |
base_type_reference | varchar(1000) | beliebig | Lemmata aus etymoglogischen Referenzwörterbüchern, die dem jeweiligen Basistyp entsprechen. Die Einträge haben das Format: <Wörterbuch>|<Stichwort>|<bibliographischer Verweis (z.B. Seitenzahl)>|<Link> z.B. FEW|abbĭbĕrare|24, 23|https://apps.atilf.fr/lecteurFEW/lire/volume/240/page/23 |
id_etymon | int(10) unsigned | beliebig | Eindeutige ID für das Etymon (wird aktuell nicht verwendet). |
etymon | varchar(200) | beliebig | Etymon des Belegs (wird aktuell nicht verwendet). |
etymon_lang | char(3) | beliebig | Sprache des Etymons (wird aktuell nicht verwendet). |
remarks | binary(0) | beliebig | Bemerkungen (wird aktuell nicht verwendet). |
cluster_id | int(11) | beliebig | Eindeutige Id für die Georeferenz dieses Informanten. Wird zur Optimierung von Anfragen der interaktiven Karte verwendet. |
external_id | varchar(20) | beliebig | Gibt die ID des Belegs in der jeweiligen Ursprungstabelle an. S(ingle) steht für Tokens, G(roup) für Tokengruppen (vgl. Identifikatoren). |
number | enum | '','sg','pl','sg+pl' | Numerus des Belegs. |
informant_dialect | varchar(100) | beliebig | Nur relevant für Belege, die von der CROWD erstellt wurden. Gibt eine textuelle Repräsentation des Dialekts an, der im Crowdsorucing Tool ausgewählt wurde. |
meaning | varchar(500) | beliebig | Gibt die (einzelsprachige) Bedeutung des Belegs an. Diese wird nur bei Massenimporten verwendet, um eine Bedeutungsangabe anzeigen zu können, solange noch keine Konzeptzuordnung vorhanden ist (vgl. `bedeutungen`). |
type_lids | varchar(100) | beliebig | Enthält (falls vorhanden) eine komma-separierte Liste von Lexem-IDs aus Wikidata, die dem entsprechenden morpho-lexikalischem Typ zugeordnet sind (vgl. auch `lids`). |
qid_community | int(10) unsigned | beliebig | Spaltenbeschreibung fehlt! |
Ausschnitt
Das Beispiel zeigt den Datensatz zum Beleg "T323" (vgl. Identifikatoren), der das Token "kaʒˈiːnɑ" beschreibt, welches im Atlas AIS als Teil von "kaʒˈiːnɑ pɑr kɑʒˈɛ" belegt ist. Der Beleg ist mit einem Konzept, einem morpho-lexikalischen Typ und einem Basistyp (siehe Typisierung) verknüpft. Da der morpho-lexikalische Typ mit drei und der Basistyp mit zwei externen Referenzen verknüpft ist, besteht der Datensatz insgesamt aus sechs Zeilen.
Das Beispiel zeigt den Datensatz zum Beleg "T323" (vgl. Identifikatoren), der das Token "kaʒˈiːnɑ" beschreibt, welches im Atlas AIS als Teil von "kaʒˈiːnɑ pɑr kɑʒˈɛ" belegt ist. Der Beleg ist mit einem Konzept, einem morpho-lexikalischen Typ und einem Basistyp (siehe Typisierung) verknüpft. Da der morpho-lexikalische Typ mit drei und der Basistyp mit zwei externen Referenzen verknüpft ist, besteht der Datensatz insgesamt aus sechs Zeilen.
id_instance | instance | instance_encoding | instance_original | number | id_informant | instance_source | id_stimulus | id_concept | qid | meaning | geo_data | alpine_convention | id_community | community_name | community_center | geonames_id | qid_community | year_publication | year_survey | informant_lang | informant_dialect | type_kind | id_type | type | type_lang | type_reference | source_typing | type_lids | pos | affix | gender | id_base_type | base_type | base_type_lang | base_type_unsure | base_type_reference | id_etymon | etymon | etymon_lang | remarks | cluster_id | external_id |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
323 | kaʒˈiːnɑ###kaʒˈiːnɑ pɑr kɑʒˈɛ | 2 | kaží̄nα | 26 | AIS#1192#1#45#Soglio | 11 | 1 | 136689 | POINT(9.538622 46.34241) | 1 | 60173 | Soglio (Graubünden) | POINT(9.535092856337505 46.39291753102101) | 2658567 | 1928-1940 | rom | L | 41 | cascina | roa | Treccani|cascina||http://www.treccani.it/vocabolario/cascina/|0 | VA | sub | f | 18 | căpsa(m) | lat | 0 | Georges|capsa, ae|1, 985|http://www.zeno.org/Georges-1913/A/capsa+%5B1%5D?hl=capsa|0 | 13199 | S323 | |||||||||||
323 | kaʒˈiːnɑ###kaʒˈiːnɑ pɑr kɑʒˈɛ | 2 | kaží̄nα | 26 | AIS#1192#1#45#Soglio | 11 | 1 | 136689 | POINT(9.538622 46.34241) | 1 | 60173 | Soglio (Graubünden) | POINT(9.535092856337505 46.39291753102101) | 2658567 | 1928-1940 | rom | L | 41 | cascina | roa | Treccani|cascina||http://www.treccani.it/vocabolario/cascina/|0 | VA | sub | f | 18 | căpsa(m) | lat | 0 | FEW|capsa|2, 310|https://apps.atilf.fr/lecteurFEW/lire/volume/20/page/310|0 | 13199 | S323 | |||||||||||
323 | kaʒˈiːnɑ###kaʒˈiːnɑ pɑr kɑʒˈɛ | 2 | kaží̄nα | 26 | AIS#1192#1#45#Soglio | 11 | 1 | 136689 | POINT(9.538622 46.34241) | 1 | 60173 | Soglio (Graubünden) | POINT(9.535092856337505 46.39291753102101) | 2658567 | 1928-1940 | rom | L | 41 | cascina | roa | HWdR|caschigna|1, 160|https://www.verba-alpina.gwi.uni-muenchen.de/?attachment_id=3343|0 | VA | sub | f | 18 | căpsa(m) | lat | 0 | Georges|capsa, ae|1, 985|http://www.zeno.org/Georges-1913/A/capsa+%5B1%5D?hl=capsa|0 | 13199 | S323 | |||||||||||
323 | kaʒˈiːnɑ###kaʒˈiːnɑ pɑr kɑʒˈɛ | 2 | kaží̄nα | 26 | AIS#1192#1#45#Soglio | 11 | 1 | 136689 | POINT(9.538622 46.34241) | 1 | 60173 | Soglio (Graubünden) | POINT(9.535092856337505 46.39291753102101) | 2658567 | 1928-1940 | rom | L | 41 | cascina | roa | HWdR|caschigna|1, 160|https://www.verba-alpina.gwi.uni-muenchen.de/?attachment_id=3343|0 | VA | sub | f | 18 | căpsa(m) | lat | 0 | FEW|capsa|2, 310|https://apps.atilf.fr/lecteurFEW/lire/volume/20/page/310|0 | 13199 | S323 | |||||||||||
323 | kaʒˈiːnɑ###kaʒˈiːnɑ pɑr kɑʒˈɛ | 2 | kaží̄nα | 26 | AIS#1192#1#45#Soglio | 11 | 1 | 136689 | POINT(9.538622 46.34241) | 1 | 60173 | Soglio (Graubünden) | POINT(9.535092856337505 46.39291753102101) | 2658567 | 1928-1940 | rom | L | 41 | cascina | roa | TLIO|cascina s.f.||http://tlio.ovi.cnr.it/voci/011330.htm|0 | VA | sub | f | 18 | căpsa(m) | lat | 0 | Georges|capsa, ae|1, 985|http://www.zeno.org/Georges-1913/A/capsa+%5B1%5D?hl=capsa|0 | 13199 | S323 | |||||||||||
323 | kaʒˈiːnɑ###kaʒˈiːnɑ pɑr kɑʒˈɛ | 2 | kaží̄nα | 26 | AIS#1192#1#45#Soglio | 11 | 1 | 136689 | POINT(9.538622 46.34241) | 1 | 60173 | Soglio (Graubünden) | POINT(9.535092856337505 46.39291753102101) | 2658567 | 1928-1940 | rom | L | 41 | cascina | roa | TLIO|cascina s.f.||http://tlio.ovi.cnr.it/voci/011330.htm|0 | VA | sub | f | 18 | căpsa(m) | lat | 0 | FEW|capsa|2, 310|https://apps.atilf.fr/lecteurFEW/lire/volume/20/page/310|0 | 13199 | S323 |