Der folgende Vortrag wurde im Rahmen der Ringvorlesung des BA-Studiengangs Digital Humanities in den Sprachwissenschaften am 14.06.2021 gehalten. Eine Videoaufzeichnung ist online abrufbar (Link).
- Focus des Vortrags: Aspekte der technischen Realisierung von VerbaAlpina
- Der fachwissenschaftliche Hintergrund bereits letzte Woche von Beatrice Colcuc und Christina Mutter dargelegt
- Allerdings: Fachwissenschaft und informatische Methoden sind in den DH so eng miteinander verwoben, dass eine klare Trennung nur schwer möglich ist – Zwei Seiten einer Medaille:
- Fachwissenschaften und Informationstechnologie beeinflussen sich wechselseitig
- Das neue Ganze (= Digital Humanities) ist mehr als die Summe seiner Teile
- Im Folgenden werden einige intuitiv ausgewählte Aspekte vorgestellt
- Zahlreiche Aspekte der technischen Realisierung von VA werden in der Methodologie erläutert:
- Überschneidungen und Wiederholungen können daher nicht vollkommen ausgeschlossen werden
Übersicht
- Eckpunkte des Projekts (z. T. Wiederholung)
- Datengrundlage von VA
- Zentrale Kategorien des sprachlichen Kernbestands
- Datenaufbereitung: Transkription
- Datenvisualisierung: Die interaktive online-Karte
- VA und die Herausforderungen der Virtualität
Das Projekt
- kurze Wiederholung: Worum geht es bei VerbaAlpina?
- Interdisziplinäres DH-Projekt: 2 Sprachwissenschaftler, 2 Informatiker
- DFG-Förderung seit 2014 bis mindestens 2023
- VA ein Projekt im Bereich der Geolinguistik: sprachliche Variation vor dem Hintergrund von Raum und Zeit
- Im Mittelpunkt: Die Lexik – Welche Wörter werden im Alpenraum für ausgewählte Begriffe verwendet?
- Es geht um Dialektwörter, Nationalsprachen spielen eine untergeordnete Rolle
- Beschränkung auf Bezeichnungen für "typisch" alpine Konzepte (Milch- und Almwirtschaft, Flora, Fauna, traditionelle Küche, Tourismus)
- Geographischer Rahmen: Die Grenze der Alpenkonvention
- Sprache und außersprachliche Realität sind folgendermaßen aufeinander bezogen:
Bezeichnung | Konzept/Begriff |
Butter ⇒ |
- Auf den ersten Blick ist diese Zuordnung sehr simpel. Sie erlangt jedoch große Komplexität in dem Moment, in dem man die Dimensionen des Raumes und der Zeit in dieses System einbezieht
- Konvention: Konzepte werden in VERSALIEN, Bezeichnungen kursiv geschrieben ⇒ BUTTER vs. Butter
- Informatisch gesprochen: m:n-Beziehung: eine Bezeichnung kann mehrere Bedeutungen haben, für eine Sache/Konzept gibt es mehrere Bezeichnungen
- Bezeichnungen variieren in Raum und Zeit. Regionale Bezeichnungsvariation am Beispiel von malga:
- Regionale Verbreitung von Wörtern und ihren Bedeutungen kann sich im Lauf der Zeit verändern
- Weitere Veränderung über die Zeit: Sprachwandel: lat. lac ⇒ ital. latte, frz. lait
- Ergebnis: komplexes, vierdimensionales, bewegliches Geflecht von Wörtern und ihren Bedeutungen
- VerbaAlpina ist VOLLSTÄNDIG digital konzipiert
- Einsatz von Webtechnologie (WordPress)
- strukturierte Daten in online-Datenbank (MySQL)
- Projektpublikationen online
Datengrundlage von VA
- Datenquellen:
- Sprachatlanten
- Wörterbücher mit Informationen über die lokale Verbreitung von Wörtern (Georeferenzierung)
- Crowd Sourcing
- Partnerprojekte
- Wie sieht ein Sprachatlas aus?:
- Wie sieht ein georeferenziertes Wörterbuch aus?:
- Daten aus Sprachatlanten und Wörterbüchern werden von VA strukturiert in einer relationalen Datenbank erfasst
- Grundschema ist folgende Zuordnung:
Bezeichnung | Konzept | Georeferenz | Chronoreferenz | Quelle |
painch | BUTTER | Ardez (10.1399 46.8577) | 1928-1940 | AIS 1207, 7 |
Anke | BUTTER | Malters (8.2514 47.0124) | 2962-2003 | SDS V 179, LU24 |
... |
Verschiedene Probleme:
- Bezeichnung: Viele Quellen, v. a. die Sprachatlanten, liefern nicht-typisierte Daten (z. B. unmittelbare Sprecheräußerungen in phonetischer Transkription) ⇒ Typisierung erforderlich
- Georeferenz: Quelle gibt entweder zu vage ("Tirol") oder sehr präzise ("Bergeralm bei Steinach") Georeferenz an ⇒ VA-Referenzmatrix sind die politischen Gemeinden innerhalb der Alpenkonvention (einmal festgelegt; keine Aktualisierung)
- Chronoreferenz: bislang nur mittelbar über die Publikationsjahre der Datenquellen (Sprachatlanten, Wörterbücher, Crowdsourcing) möglich
- VA Datenbank zwischenzeitlich deutlich komplexer: aktuell 140 Tabellen, 18 Views, 25 Funktionen, 47 Prozeduren, 5 Trigger
Datenstruktur: Zentrale Kategorien des sprachlichen Kernbestands
- VA unterscheidet:
- morpholexikalische Typen: Leitkategorie der Verwaltung der sprachlichen Daten
- ein morpholexikalischer Typ ist definiert durch:
- Sprachfamilie,
- Orthographie,
- Wortart,
- Genus,
- Affigierung,
- Basistyp;
- ein morpholexikalischer Typ ist definiert durch:
- Einzelbelege: (meist) konkrete Sprecheräußerung mit phonetischen Spezifika
- Phonetische Typen: Zusammenfassung der phonetischen Charakteristika einer Vielzahl von Einzelbelegen
- Basistypen: Vorstufe eines morpholexikalischen Typen (Beispiel: lat. salamandra als Vorstufe von ital. salamandra und deu. Salamander; die Zuweisung eines "Basistyps" zu einem Morpholexikalischen Typen stellt lediglich einen offenkundigen, grundsätzlichen Zusammenhang zwischen beiden fest, sagt aber nichts über die konkrete Art dieses Zusammenhang aus:
- Beispiel Butter:
- Sprachfamilie: Germanisch, Orthographie: Butter, Wortart: Substantiv, Genus: feminin, Basistyp: lat. Butyrum (VA-ID: L565)
- Sprachfamilie: Germanisch, Orthographie: Butter, Wortart: Substantiv, Genus: maskulin, Basistyp: lat. Butyrum (VA-ID: L566)
- Sprachfamilie: Germanisch, Orthographie: Butter, Wortart: Substantiv, Genus: neutrum, Basistyp: lat. Butyrum (VA-ID: L567)
- Zuweisung von Einzelbelegen und phonetischen Typen zu einem morpholexikalischen Typen am Beispiel des Morphtyps "Butter, gem, f." (VA-ID L565),
Datenaufbereitung: Transkription
- Problem: Erfassung von Daten speziell aus Sprachatlanten
- Dort verwendete Transkriptionssysteme ([Bibl:AIS]: Böhmer-Ascoli) zumindest teilweise nicht in Unicode kodiert:
- Selbst wenn: Erfassung mit Standardtastaturen sehr umständlich und fehleranfällig, Lösung: sog. Betacode:
- Kernidee übernommen vom Thesaurus Linguae Graecae (TLG) – Beispiel (TLG-Link [Login erforderlich]):
Μῆνιν ἄειδε, θεά, Πηληϊάδεω Ἀχιλῆος,
οὐλομένην, ἣ μυρί’ Ἀχαιοῖς ἄλγε’ ἔθηκεν,
⇓
*MH=NIN A)/EIDE, QEA/, *PHLHI+A/DEW *)AXILH=OS,
OU)LOME/NHN, H(\ MURI/' *)AXAIOI=S A)/LGE' E)/QHKEN,
- Betacode: Entwickelt Ende der 1970er Jahre von David Woodly Packard für den TLG
- Betacode ursprünglich nur für Altgriechisch, später auch für andere Schriftsysteme, z. B. Hebräisch (Link)
- Übertragung in andere Schriftsysteme durch automatische Ersetzung auf Basis von Codepages. Beispiel aus dem AIS:
- Potentielles Problem: Informationsverlust durch Inkongruenzen bezüglich abbildbarer phonetischer Granularität
- Einsatz von OCR grundsätzlich möglich; Beispiel: Zuweisung der HTML-Entity θ zum griechischen Buchstaben Theta:
- Analog zum o. a. OCR-Verfahren könnten auch phonetische Schriftzeichen der Sprachatlanten automatisch in ASCII-Zeichenfolgen umgesetzt werden
- Problem jedoch speziell bei Sprachatlanten: Zuordnung von Schrift zu Erhebungspunkten:
- Monitoring der Zooniverse-Aktivitäten auf https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=14476&db=xxx&dev=1
Datenpräsentation
Online-Karte
- zentrales Visualisierungsinstrument: Interaktive online-Karte
- Funktionsbereiche:
- Datenselektion (semasiologisch *und* onomasiologisch; ergänzende Daten wie etwa "raetische Inschriften" ⇒ Parameter für die Verbreitung der raetischen Sprache ⇒ interessant für Substratforschung [möglicher Ursprung moderner Lexeme im raetischen])
- SQL: Direkte Eingabe von SQL-Abfragen, z. B.: "finde alle Einzelbelege des morpholexikalischen Typs 'Butter', die mit einem 'P' (statt mit einem 'B') beginnen
- Demo anhand des Konzepts "BUTTER"
- Quantifizierende Darstellungen
Lexicon Alpinum
- online-Demo anhand des Konzepts "BUTTER"
API
- API: „application programming interface“ ‚Anwendungsprogrammierschnittstelle‘
- API von VerbaAlpina
VA und die Herausforderungen der Virtualität
Zu diesem Thema s. den https://www.verba-alpina.gwi.uni-muenchen.de/?p=14940
Ich danke für die Aufmerksamkeit!
***
Bibliographie
- AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
- Idiotikon = (1881 ff.): Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch, Basel. Link