Projektphase für Zeitraum 1, 2, 3
Konzeptdomäne 1, 2, 3
Dieser Beitrag bietet einen Überblick über die Daten von VerbaAlpina, wobei der Schwerpunkt auf der dritten Phase liegt.
Crowd-Belege gesamt
[[SELECT COUNT(*) AS Crowd_Belege_gesamt
FROM tokens t
JOIN informanten i USING (id_informant)
LEFT JOIN VTBL_Token_Konzept USING (id_token)
WHERE i.Erhebung = 'CROWD']]
Crowd-Belege noch zu typisieren, gesamt
SELECT
(SELECT count(*)
FROM tokens t
JOIN informanten i USING (Id_Informant)
LEFT JOIN vtbl_token_morph_typ vtmt USING (id_token)
WHERE Erhebung = 'Crowd' AND Id_morph_Typ IS NULL)
+
(SELECT count(*)
FROM tokengruppen tg
JOIN tokens USING (id_tokengruppe)
JOIN informanten i USING (Id_Informant)
LEFT JOIN vtbl_tokengruppe_morph_typ vtmt USING (id_tokengruppe)
WHERE Erhebung = 'Crowd' AND Ebene_1 = 1 AND Ebene_2 = 1 AND Ebene_3 = 1 AND Id_morph_Typ IS NULL) AS Anzahl_nicht_Typ
Crowd-Belege zu Phase 3, gesamt
1624 sono i token per il dominio vita moderna,
numero dei token per la terza fase: vedere con timestamp
Stand Typisierung Crowd-Belege, gesamt
TOT: 63% typisiert
Stand Typisierung Crowd-Belege, nach Dialekt
Variation
Morpho-lexikalische Typen zum Konzept TOURIST
Hypothese: wenige(r) Typen, die in einem kleineren Areal belegt sind? (Mehr Vermischung und Konkurrenz der Typen?)
Durchschnitt der Morph_Typen pro Konzept nach VA_Phase
Durchschnitt der unterschiedlichen morpho-lexikalischen Typen pro Konzept, pro va_phase
Morpho-lexikalische Typen für va_3
Romanische morpho-lexikalische Typen = 301
Germanische morpho-lexikalische Typen = 82
Slovenische morpho-lexikalische Typen
Sprachliches
Situation der Alpendialekte: Verschwund oder Entwicklung?
Beispiel 1:
Beispiel 2:
Transkriptionsstrategien der Crowder
Beispiel: Phonen /kw/ im Italienischen, Verschriftung der Crowder:
Mehr Tokens, die von der Standardverschriftung abweichen (trotz Priming).
Arealdistribution berücksichtigen
Dialekte
145 Dialekte (Stand 21.06)
> Verbesserungsbedürftig
Tokens, die mit dem Stimulus identisch sind
Phase 1, in %
Phase 2, in %
Phase 3, in %
20 beliebteste Konzepte va_3
Morpho-lexikalische Typen, die keine Entsprechung in den RefWB finden
Morph_typen, die nicht mit Lemmata aus Treccani, Nuovo de Mauro, TLIO oder TLFI CNRTL verknüpft sind
Die Abfrage zu "Crowd-Belege gesamt" würde ich umformulieren zu
SELECT COUNT(*) AS Crowd_Belege_gesamt
FROM tokens t
JOIN informanten i USING (id_informant)
LEFT JOIN VTBL_Token_Konzept USING (id_token)
WHERE i.Erhebung = 'CROWD';
Der entscheidende Unterschied ist dabei das "LEFT", das dafür sorgt, dass auch Tokens ohne Konzeptzuordnung gezählt werden. Das sind aber alle Tokens, was ich nicht unbedingt mit "Belege" gleichsetzen würde, weil nicht tokensierte Belege fehlen und aufgespaltene Mehtwortlexien mehrfach gezählt werden. Ich würde vielleicht eher über die Äußerungen gehen und über Eintragungen im CS-Tool sprechen. Oder man nimmt diese Abfrage, die Einzelwortbelege und Mehrwortlexien zählt, aber Bestandteile von längeren Äußerungen ignoriert:
SELECT
(SELECT COUNT(*)
FROM tokens t
JOIN informanten i USING (id_informant)
LEFT JOIN VTBL_Token_Konzept USING (id_token)
WHERE i.Erhebung = 'CROWD' AND Id_Tokengruppe IS NULL)
+
(SELECT COUNT(DISTINCT Id_Tokengruppe, Id_Konzept)
FROM tokens t
JOIN informanten i USING (id_informant)
LEFT JOIN VTBL_Tokengruppe_Konzept USING (id_tokengruppe)
WHERE i.Erhebung = 'CROWD' AND Id_Tokengruppe IS NOT NULL
) AS Crowd_Belege_gesamt
Das wäre für mich am ehesten die Zahl der (verarbeiteten, d.h. tokenisierten) Belege.
Mir ist dabei zufällig noch ein Problem aufgefallen: Bei allen CS-Belegen, sollte jeder Beleg genau einem Konzept zugeordnet sein. Das ist aber nicht immer so. Bei Token 174879 (Oim) sind z.B. ALM und ALMHÜTTE zugeordnet, obwohl die Äußerunng sich nur auf ALMHÜTTE bezieht. Genauso auch bei 864838 (Acqua) mit WASSER und TRINKWASSER, obwohl im CS-Tool TRINKWASSER verwendet wurde. Kann es sein, dass da im Typisierungstool aus Versehen zusätzliche Konzepte zugeordnet wurden? Die vollständige Liste kann mit
SELECT * FROM tokens t
JOIN informanten i USING (id_informant)
JOIN vtbl_token_konzept vtk USING (id_token)
WHERE i.Erhebung LIKE 'CROWD' AND Id_Tokengruppe IS null
GROUP BY Id_Token
HAVING count(*) > 1
erzeugt werden.
Die Abfrage zu "Crowd-Belege noch zu typisieren, gesamt" könnte man vereinfachen zu
SELECT count(*) AS Anzahl_nicht_Typ
FROM tokens t
JOIN informanten i USING (Id_Informant)
LEFT JOIN vtbl_token_morph_typ vtmt USING (id_token)
WHERE Erhebung = 'Crowd' AND Id_morph_Typ IS NULL;
So oder so würde ich aber den JOIN mit dialects weglassen, weil so die Belege ignoriert werden, die älter sind und denen noch kein Dialekt zugeordnet wurde. Auch hier sind das natürlich nur die Tokens. Am sinnvollsten wäre es wohl auch die nicht typisierten Tokengruppen zu addieren, dann hat man alles, was noch typisiert werden muss:
SELECT
(SELECT count(*)
FROM tokens t
JOIN informanten i USING (Id_Informant)
LEFT JOIN vtbl_token_morph_typ vtmt USING (id_token)
WHERE Erhebung = 'Crowd' AND Id_morph_Typ IS NULL)
+
(SELECT count(*)
FROM tokengruppen tg
JOIN tokens USING (id_tokengruppe)
JOIN informanten i USING (Id_Informant)
LEFT JOIN vtbl_tokengruppe_morph_typ vtmt USING (id_tokengruppe)
WHERE Erhebung = 'Crowd' AND Ebene_1 = 1 AND Ebene_2 = 1 AND Ebene_3 = 1 AND Id_morph_Typ IS NULL) AS Anzahl_nicht_Typ
Die beiden nächsten Abfragen sind ja dann quasi identisch zu den ersten beiden. Bei der letzten würde ich evtl. auch wieder die Tokens ohne Dialekt mitzählen:
SELECT IFNULL(d.Name, 'OHNE DIALEKTZUORDNUNG') AS Dialekt, count(*) AS Anzahl_nicht_Typ
FROM tokens t
JOIN informanten i USING (id_informant)
LEFT JOIN dialects d ON t.Id_Dialekt = d.Id_dialect
LEFT JOIN vtbl_token_morph_typ vtmt USING (id_token)
WHERE i.Erhebung = 'Crowd' AND Id_morph_Typ IS NULL
GROUP BY d.Id_dialect
ORDER BY anzahl_nicht_Typ DESC
Auch hier wäre es grundsätzlich sinnvoller auch die Tokengruppen mitzuzählen, das wäre dann aber eine eher komplizierte Abfrage. Kann ich aber aufstellen, wenn du willst.