Datenbank-Dokumentation

Tabelle Aeusserungen(↩ zurück zur Übersicht)

Beschreibung
Diese Tabelle enthält unbearbeitete Sprachbelege, die in die VerbaAlpina-Datenbank eingefügt werden. Die hauptsächlichen Quellen sind dabei das Transkriptionstool, das Crowdsourcing-Tool und aus den Partnerdatenbanken importierte Belege (vgl. Kooperation).

Die Belege werden im Zuge der Tokenisierung verarbeitet und in die Tabellen `Tokens` und `Tokengruppen` übertragen, die dann als Grundlage für die Publikation dienen.

Diese Tabelle wird von folgenden Tabellen referenziert:

Spalten

Der Name von Spalten, die Teil des Primärschlüssels sind wird fett dargestellt, die Namen von Fremdschlüsseln unterstrichen. Kursivierte Werte im Feld Datentyp bedeuten, dass der Wert optional (nullable) ist.

Spaltenname

Datentyp

Mögliche Werte

Beschreibung

id_aeusserung

int(10) unsigned

beliebig

Eindeutige ID.

id_stimulus

int(10) unsigned

beliebig

Fremdschlüssel, der auf die Tabelle `stimuli` verweist. Stimulus, durch den dieser Beleg produziert wurde.

id_informant

int(10) unsigned

beliebig

Fremdschlüssel, der auf die Tabelle `informanten` verweist. Informant, von dem dieser Beleg stammt.

aeusserung

varchar(500)

beliebig

Die eigentliche Äußerung. Die Kodierung ist abhängig von der jeweiligen Quelle, die über den Stimulus bzw. den Informanten festgelegt wird.

Diese Spalte kann außer einer transkribierten Äußerung auch einen speziellen Wert in spitzen Klammern enthalten. Die folgende Tabelle erklärt diese Sonderfälle:

Wert	Erklärung
<vacat>	Bedeutet, dass die jeweilige Quelle für diese Informant-Stimulus-Kombination keinen Beleg angibt und dient zur Markierung, welche Belege bereits bearbeitet wurden. In den weiteren Verarbeitungsschritten werden diese Einträge ignoriert.
<problem>	Mit dieser Markierung können im Transkriptionstool Belege versehen werden, die (aktuell) nicht transkribiert werden können. Dies kann verschiedene Gründe haben, z.B. Zeichen oder Transkriptionskonventionen, die durch die aktuelle Version des Betacodes nicht abgedeckt werden. Die Problemfälle können nachträglich gesammelt nachbearbeitet werden.
<Bezeichnung nicht bekannt>	Markiert, dass dem Informanten für dieses Konzept keine Bezeichnung bekannt ist.
<Konzept nicht vorhanden>	Markiert, dass der Informant dieses Konzept nicht kennt.

Dieses Feld kann mehrere Belege in einer Zeile enhalten, falls ein Informant mehrere Belege geliefert hat. Diese werden entweder durch ein Semikolon (verschiedene Worttypen) oder ein Komma (nur grammatikalische Variation, z.B. Numerus) getrennt.

bemerkung

varchar(5000)

beliebig

Freitextfeld für Bemerkungen.

Bei Belegen, die über das Crowdsourcing-Tool eingegeben werden, wird in diesem Feld auch die originale Nutzereingabe angegeben, falls die Äußerung strukturell nicht den Anforderungen entspricht. Dies ist hauptsächlich bei falschen Trennzeichen oder abkürzenden Schreibweisen der Fall (siehe die folgenden Beispiele).

Korrigierte Äußerung	Bemerkung
hocka, Hackl	Nutzereingabe: "hocka oder Hackl"
Milch siibä, Milch siänä	Nutzereingabe: "Milch siibä / siänä"

erfasst_von

varchar(50)

beliebig

Nutzername der Person, die diese Äußerung eingegeben/importiert hat.

erfasst_am

timestamp

beliebig

Zeitpunkt der Erstellung.

version

tinyint(4) unsigned

Aufsteigende Nummer um redundante Mehrfachtranskriptionen zum Auffinden von Fehlern zu ermöglichen. Dies wird aktuell nicht verwendet; das Feld enthält somit immer den Wert 1.

klassifizierung

enum

'B','P','M'

Jede Äußerung ist entweder ein Einzelbeleg (B), d.h. eine direkte phonetische Transkription der Sprecheräußerung, oder bereits von der Quelle vortypisiert. Je nachdem welche Eigenschaften der verschiedenen Äußerungen eines Stimulus noch unterscheidbar ist, werden solche Belege als phonetischer Typ (P) oder morpho-lexikalischer Typ (M) markiert. Die Einteilung ist in vielen Fällen rein quellenabhängig, muss aber bei gewissen Quellen nach Einzelfall bei der Transkription entschieden werden.

tokenisiert

tinyint(1)

beliebig

Gibt an, ob diese Äußerung bereits tokenisiert ist. Dieses Flag ist nicht zwingend notwendig, da sein Wert aus der Tabelle `Tokens` abgeleitet werden kann, es dient lediglich zur Optimierung.

gesperrt

tinyint(1)

beliebig

Nur relevant für Belege, die über das Crowdsourcing-Tool eingegeben werden. Solange eine Äußerung nicht gesperrt ist, kann der jeweilige Nutzer sie noch im Tool abändern. Die Sperrung wird als Vorstufe zur Tokenisierung verwendet und erlaubt keine weiteren Änderungen.

portalsprache

varchar(10)

'deu', 'ita', 'fra', 'slv'

Nur relevant für Belege, die über das Crowdsourcing-Tool eingegeben werden. Gibt die Sprache an, die jeweilige Nutzer im Tool gewählt hat. Diese entspricht nicht der Sprache der Äußerung, sondern nur der der Oberfläche (Bedienelemente, Hinweise, etc.)

id_dialekt

int(10) unsigned

beliebig

Fremdschlüssel, der auf die Tabelle `dialects` verweist. Nur relevant für Belege, die über das Crowdsourcing-Tool eingegeben werden. Gibt den im Tool ausgewählten Dialekt an. Da diese Möglichkeit in älteren Versionen des Tools noch nicht gegeben war, gibt es auch Crowdsourcing-Äußerungen, bei denen dieses Feld leer ist.

ignoriert

tinyint(1)

beliebig

Nur relevant für Belege, die über das Crowdsourcing-Tool eingegeben werden. Dieses Flag dient der Markierung von Äußerungen, die offensichtlich absichtliche Falschangaben sind oder so formatiert sind, dass sie technisch nicht verarbeitet werden können. Diese werden bei der Tokensierung (aktuell) nicht berücksichtigt.

geaendert_am

timestamp

beliebig

Zeitpunkt der letzten Änderung

verifiziert_am

timestamp

beliebig

Temporäres Feld zur Verfikation der Tokensierung von älteren Belegen. Gibt den Zeitpunkt der Verifikation an.

nicht_verifizieren

tinyint(1)

beliebig

Temporäres Feld zur Verfikation der Tokensierung von älteren Belegen. Gibt an, dass diese Äußerung übersprungen werden soll.

Ausschnitt

id_aeusserung	id_stimulus	id_informant	aeusserung	erfasst_von	erfasst_am	version	klassifizierung	tokenisiert	gesperrt	portalsprache	id_dialekt	geaendert_am
65074	12276	4187	KXE5-S	MKunzmann	2016-02-10 14:09:30	1	B	1	0			2021-03-18 13:53:45
528366	117596	3326	avαdíč	admin	2020-09-25 15:30:18	1	B	1	0			2020-09-25 16:49:31
402970	3493	1626	<vacat>	ester24	2020-04-04 13:32:32	1	B	1	0			2020-07-20 10:35:58
287948	500	153	<vacat>	BColcuc	2019-08-06 09:17:01	1	B	1	0			2020-07-20 10:35:58
264138	93233	1495	a!\gre$!\na{e!}	coline	2019-05-13 09:49:02	1	B	1	0			2019-05-20 14:40:51
411204	685	50	a1l fu(-/ns^; i fu(-/ns^	ester24	2020-04-20 13:19:56	1	B	1	0			2021-01-07 10:26:03
327030	23517	4181	<vacat>	MKunzmann	2019-11-20 11:52:30	1	B	1	0			2020-07-20 10:35:58
217114	30815	4837	s^to(a2nlo$me1r, s^toa2nlo$me1r, s^to(a2nlo$mo, s^toa2nlo$mo, s^tua2nlo$me1r, s^tua2nlo$me1r, s^tua2nlo$mo, s^tua2nlo$mo, lo$me1r, lo$mo	mpantele	2019-03-19 15:36:52	1	P	0	0			2019-03-19 15:36:52
534674	117718	3350	balαbáñ	admin	2020-09-25 15:38:05	1	B	1	0			2020-09-25 16:50:14
906044	122938	73898	Müll	anonymousCrowder_1773	2022-06-24 05:47:57	1	B	1	1	deu	61	2022-07-04 13:52:17