Stand VerbaAlpina (Zitieren)

Beatrice Colcuc


(901 Wörter)

Projektphase für Zeitraum 1, 2, 3
Konzeptdomäne 1, 2, 3

Dieser Beitrag bietet einen Überblick über die Daten von VerbaAlpina, wobei der Schwerpunkt auf der dritten Phase liegt.

Crowd-Belege gesamt

[[SELECT COUNT(*) AS Crowd_Belege_gesamt
FROM tokens t
JOIN informanten i USING (id_informant)
LEFT JOIN VTBL_Token_Konzept USING (id_token)
WHERE i.Erhebung = 'CROWD']]

Crowd-Belege noch zu typisieren, gesamt

 

SELECT
(SELECT count(*)
FROM tokens t
JOIN informanten i USING (Id_Informant)
LEFT JOIN vtbl_token_morph_typ vtmt USING (id_token)
WHERE Erhebung = 'Crowd' AND Id_morph_Typ IS NULL)
+
(SELECT count(*)
FROM tokengruppen tg
JOIN tokens USING (id_tokengruppe)
JOIN informanten i USING (Id_Informant)
LEFT JOIN vtbl_tokengruppe_morph_typ vtmt USING (id_tokengruppe)
WHERE Erhebung = 'Crowd' AND Ebene_1 = 1 AND Ebene_2 = 1 AND Ebene_3 = 1 AND Id_morph_Typ IS NULL) AS Anzahl_nicht_Typ

Crowd-Belege zu Phase 3, gesamt

1624 sono i token per il dominio vita moderna,
numero dei token per la terza fase: vedere con timestamp

Stand Typisierung Crowd-Belege, gesamt

TOT: 63% typisiert

Stand Typisierung Crowd-Belege, nach Dialekt

Variation

Morpho-lexikalische Typen zum Konzept TOURIST

Hypothese: wenige(r) Typen, die in einem kleineren Areal belegt sind? (Mehr Vermischung und Konkurrenz der Typen?)

Durchschnitt der Morph_Typen pro Konzept nach VA_Phase

Durchschnitt der unterschiedlichen morpho-lexikalischen Typen pro Konzept, pro va_phase

Morpho-lexikalische Typen für va_3

Romanische morpho-lexikalische Typen = 301

Germanische morpho-lexikalische Typen = 82

Slovenische morpho-lexikalische Typen

Sprachliches

Situation der Alpendialekte: Verschwund oder Entwicklung?

Beispiel 1:

Beispiel 2:

Transkriptionsstrategien der Crowder

Beispiel: Phonen /kw/ im Italienischen, Verschriftung der Crowder:

Mehr Tokens, die von der Standardverschriftung abweichen (trotz Priming).
Arealdistribution berücksichtigen

Dialekte

145 Dialekte (Stand 21.06)
> Verbesserungsbedürftig

Tokens, die mit dem Stimulus identisch sind

Phase 1, in %

Phase 2, in %

Phase 3, in %

20 beliebteste Konzepte va_3

Morpho-lexikalische Typen, die keine Entsprechung in den RefWB finden
Morph_typen, die nicht mit Lemmata aus Treccani, Nuovo de Mauro, TLIO oder TLFI CNRTL verknüpft sind

 

 

Die Abfrage zu "Crowd-Belege gesamt" würde ich umformulieren zu
SELECT COUNT(*) AS Crowd_Belege_gesamt
FROM tokens t
JOIN informanten i USING (id_informant)
LEFT JOIN VTBL_Token_Konzept USING (id_token)
WHERE i.Erhebung = 'CROWD';
Der entscheidende Unterschied ist dabei das "LEFT", das dafür sorgt, dass auch Tokens ohne Konzeptzuordnung gezählt werden. Das sind aber alle Tokens, was ich nicht unbedingt mit "Belege" gleichsetzen würde, weil nicht tokensierte Belege fehlen und aufgespaltene Mehtwortlexien mehrfach gezählt werden. Ich würde vielleicht eher über die Äußerungen gehen und über Eintragungen im CS-Tool sprechen. Oder man nimmt diese Abfrage, die Einzelwortbelege und Mehrwortlexien zählt, aber Bestandteile von längeren Äußerungen ignoriert:
SELECT
(SELECT COUNT(*)
FROM tokens t
JOIN informanten i USING (id_informant)
LEFT JOIN VTBL_Token_Konzept USING (id_token)
WHERE i.Erhebung = 'CROWD' AND Id_Tokengruppe IS NULL)
+
(SELECT COUNT(DISTINCT Id_Tokengruppe, Id_Konzept)
FROM tokens t
JOIN informanten i USING (id_informant)
LEFT JOIN VTBL_Tokengruppe_Konzept USING (id_tokengruppe)
WHERE i.Erhebung = 'CROWD' AND Id_Tokengruppe IS NOT NULL
) AS Crowd_Belege_gesamt
Das wäre für mich am ehesten die Zahl der (verarbeiteten, d.h. tokenisierten) Belege.
Mir ist dabei zufällig noch ein Problem aufgefallen: Bei allen CS-Belegen, sollte jeder Beleg genau einem Konzept zugeordnet sein. Das ist aber nicht immer so. Bei Token 174879 (Oim) sind z.B. ALM und ALMHÜTTE zugeordnet, obwohl die Äußerunng sich nur auf ALMHÜTTE bezieht. Genauso auch bei 864838 (Acqua) mit WASSER und TRINKWASSER, obwohl im CS-Tool TRINKWASSER verwendet wurde. Kann es sein, dass da im Typisierungstool aus Versehen zusätzliche Konzepte zugeordnet wurden? Die vollständige Liste kann mit
SELECT * FROM tokens t
JOIN informanten i USING (id_informant)
JOIN vtbl_token_konzept vtk USING (id_token)
WHERE i.Erhebung LIKE 'CROWD' AND Id_Tokengruppe IS null
GROUP BY Id_Token
HAVING count(*) > 1
erzeugt werden.
Die Abfrage zu "Crowd-Belege noch zu typisieren, gesamt" könnte man vereinfachen zu
SELECT count(*) AS Anzahl_nicht_Typ
FROM tokens t
JOIN informanten i USING (Id_Informant)
LEFT JOIN vtbl_token_morph_typ vtmt USING (id_token)
WHERE Erhebung = 'Crowd' AND Id_morph_Typ IS NULL;
So oder so würde ich aber den JOIN mit dialects weglassen, weil so die Belege ignoriert werden, die älter sind und denen noch kein Dialekt zugeordnet wurde. Auch hier sind das natürlich nur die Tokens. Am sinnvollsten wäre es wohl auch die nicht typisierten Tokengruppen zu addieren, dann hat man alles, was noch typisiert werden muss:
SELECT
(SELECT count(*)
FROM tokens t
JOIN informanten i USING (Id_Informant)
LEFT JOIN vtbl_token_morph_typ vtmt USING (id_token)
WHERE Erhebung = 'Crowd' AND Id_morph_Typ IS NULL)
+
(SELECT count(*)
FROM tokengruppen tg
JOIN tokens USING (id_tokengruppe)
JOIN informanten i USING (Id_Informant)
LEFT JOIN vtbl_tokengruppe_morph_typ vtmt USING (id_tokengruppe)
WHERE Erhebung = 'Crowd' AND Ebene_1 = 1 AND Ebene_2 = 1 AND Ebene_3 = 1 AND Id_morph_Typ IS NULL) AS Anzahl_nicht_Typ
Die beiden nächsten Abfragen sind ja dann quasi identisch zu den ersten beiden. Bei der letzten würde ich evtl. auch wieder die Tokens ohne Dialekt mitzählen:
SELECT IFNULL(d.Name, 'OHNE DIALEKTZUORDNUNG') AS Dialekt, count(*) AS Anzahl_nicht_Typ
FROM tokens t
JOIN informanten i USING (id_informant)
LEFT JOIN dialects d ON t.Id_Dialekt = d.Id_dialect
LEFT JOIN vtbl_token_morph_typ vtmt USING (id_token)
WHERE i.Erhebung = 'Crowd' AND Id_morph_Typ IS NULL
GROUP BY d.Id_dialect
ORDER BY anzahl_nicht_Typ DESC
Auch hier wäre es grundsätzlich sinnvoller auch die Tokengruppen mitzuzählen, das wäre dann aber eine eher komplizierte Abfrage. Kann ich aber aufstellen, wenn du willst.