Das DFG-Langfristvorhaben „VerbaAlpina“ unter besonderer Berücksichtigung des Aspekts des Forschungsdatenmanagements




(1963 Wörter)

Vorbemerkung

Der folgende Themenvorschlag wurde am 28.9.18 über das „Conftool“ der DHd2019-Konferenz eingereicht. Dabei wurde der Text zusätzlich in einer Conftool-spezifischen Word- und in einer XML-Datei abgelegt (download als ZIP-Datei). Diese Dateien bildeten dann die Grundlage für die Begutachtung durch insgesamt vier Gutachter. Der Themenvorschlag wurde von zwei der Gutachter abgelehnt, einer empfahl, die Annahme als Posterpräsentation zu erwägen, der vierte Gutachter stimmte für die Annahme des Themenvorschlags. Im Endergebnis wurde der Themenvorschlag abgelehnt.

Die Einbindung von Stellungnahmen zu den Gutachten in den Entscheidungsprozess ist von der DHd2019 nicht vorgesehen. Da wir es wichtig finden, uns der geäußerten Kritik zu stellen, veröffentlichen wir an dieser Stelle, unterhalb des im Folgenden präsentierten Themenvorschlags, eine Stellungnahme zu den von den Gutachtern der DHd2019 vorgebrachten Kritikpunkten. Ursprünglich hatten wir oberhalb der Stellungnahme die Wortlaute der Gutachten präsentiert. Dies erschien uns im Sinne der Nachvollziehbarkeit unserer Stellungnahme unverzichtbar und gleichzeitig aufgrund der Anonymität der Gutachter vertretbar. Das Programmkommitee der DHd2019 sah indes darin eine Störung des Vertrauensverhältnisses zwischen ihm, dem Programmkommitee, und den Gutachtern und hat uns daher eindringlich darum gebeten, die Gutachten nicht öffentlich zugänglich zu machen. Wir haben diesem Wunsch im Geist der Kollegialität entsprochen und die Gutachten wieder entfernt — obwohl wir eigentlich der Ansicht sind, dass angesichts der Anonymität der Gutachter keine Persönlichkeitsrechte verletzt würden.

VerbaAlpina ist der Ansicht, dass der wissenschaftliche Diskurs jederzeit in der Öffentlichkeit stattfinden kann und nach Möglichkeit auch sollte. Gerade wenn unsere Arbeit Kritik erfährt, *müssen* wir, so unsere Auffassung, uns dieser in transparenter und nachvollziehbarer Weise stellen. Dies sind wir allein schon unserem Geldgeber schuldig, mehr aber noch der wissenschaftlichen Öffentlichkeit. In prädigitaler Zeit war es schwer, ein wünschenswertes Maß an Transparenz zu erzielen. Mit Einzug der neuen Medien hat sich die Lage jedoch auch in dieser Hinsicht fundamental geändert. Nunmehr ist es technisch vollkommen problemlos, den wissenschaftlichen Diskurs in allen Details offenzulegen. Wir sind davon überzeugt, dass dies nur positive Effekte auf die Produktivität der Akteure und die Qualität ihrer wissenschaftlichen Arbeit haben wird, und hoffen, dass dieser Paradigmenwechsel sich wenigstens mittelfristig flächendeckend durchsetzen wird.


Stephan Lücke

Themenvorschlag für einen Vortrag auf der DHd-Konferenz 2019 in Mainz und Frankfurt/M.: Bericht über die Entwicklung einer digitalen Ressource

Das Projekt VerbaAlpina – Kurzvorstellung

In der prädigitalen Welt hatten sich im Umfeld der Lexikographie zwei grundsätzlich voneinander unterschiedene Publikationsgattungen etabliert. Während das Wörterbuch von den Bezeichnungen ausging und, in alphabetischer Reihung, die unterschiedlichen Bedeutungen der einzelnen Wörter dokumentierte, präsentierte der sog. Sprachatlas, ausgehend von den Bedeutungen, die unterschiedlichen Wörter, die für deren Bezeichnung verwendet wurden. Die Bezeichnung „Sprachatlas“ verweist dabei auf die diatopische Dimension der Lexikographie, die darin begründet ist, dass Wörter in unterschiedlichen Regionen unterschiedliche Bedeutungen haben können. Während die georeferenzierte Abbildung der Verhältnisse das wesentliche Charakteristikum eines Sprachatlasses ist, finden sich Informationen zur geographischen Verbreitung der Wortbedeutungen nur in manchen Wörterbüchern. Als ein prominentes Beispiel für letztere Variante kann das Wörterbuch der schweizer-deutschen Sprache, das sog. Idiotikon (https://www.idiotikon.ch/), genannt werden.

Das Projekt VerbaAlpina (https://www.verba-alpina.gwi.uni-muenchen.de/), das seit dem Jahr 2014 von der DFG als Langfristvorhaben gefördert wird (http://gepris.dfg.de/gepris/projekt/253900505) und sich seit 2017 in seiner zweiten Förderphase befindet, nutzt die Möglichkeiten der Digitalisierung, um die beiden traditionell einander ausschließenden Perspektiven, also den Blick vom Wort zu dessen Bedeutung und den von der Bedeutung zu den Wörtern, in einem System zu vereinigen und schafft auf diese Weise eine innovative lexikographische Publikationsform, die überdies durch den Einsatz von Datenbanktechnologie eine Reihe erweiterter Analysemöglichkeiten wie etwa statistische Auswertungen des Datenmaterials ermöglicht.

Rein inhaltlich konzentriert sich das Projekt auf den Alpenraum und die dort gesprochenen Nationalsprachen und deren Dialekte. Als Datenbasis dienen zunächst die für diesen Raum verfügbaren traditionellen Sprachatlanten und Wörterbücher mit georeferenzierten Belegen, deren Inhalt partiell erfasst und in eine relationale Datenbank eingetragen wurde bzw. wird. Da eine vollständige Erfassung des lexikalischen Materials mit den vorhandenen Mitteln nicht zu leisten ist, erfolgt eine selektive Dokumentation von Vokabular, das mit bestimmten Konzeptdomänen verbunden ist. In der ersten Phase des Projekts stand das lexikalische Material im Umfeld von Almwesen und Milchwirtschaft im Mittelpunkt, in der laufenden Phase geht es hauptsächlich um Flora, Fauna und traditionelle Küche. Die geplante dritte Phase wird sich mit der modernen Lebenswelt und dem Tourismus bzw. vielmehr dem damit verbundenen Vokabular befassen.

Das gleichsam "historische" Material aus Sprachatlanten und Wörterbüchern wird über ein Crowd-Sourcing-Tool (https://www.verba-alpina.gwi.uni-muenchen.de/en?page_id=1741) um aktuelles Material ergänzt. Unter anderem durch dieses im Netz gesammelte Material erhält das Projekt auch eine diachrone Perspektive, die die Beobachtung von Sprachwandel z.B. vor dem Hintergrund wirtschaftlicher und/oder demographischer Veränderungen erlaubt. Um dies zu ermöglichen, sammelt VerbaAlpina auch die Sprachdaten ergänzende Daten, etwa zur Bevölkerungsentwicklung oder zur Infrastruktur. Sehr wichtig ist für VerbaAlpina auch die Kooperation mit Partnern überwiegend aus dem Bereich der Sprachwissenschaften, die über eigene Sprachkorpora verfügen. Spezielle Kooperationsvereinbarungen regeln den Austausch von Datenmaterial zum wechselseitigen Nutzen. In diesem Zusammenhang, aber auch grundsätzlich, fühlt sich VerbaAlpina dem Ideal des Open Access verpflichtet. Sämtliche Inhalte werden nach Möglichkeit unter der CC-Lizenz BY-SA zur Verfügung gestellt.

Aus sprachwissenschaftlicher Sicht entsteht durch die Wahl des Alpenraums als Untersuchungsgebiet insofern ein besonderer Mehrwert, als die Dokumentation von Wortschatz sich traditionell am Verlauf der Sprach- und/oder der Nationalgrenzen orientierte. Da der Alpenraum von einer ganzen Reihe von Sprach- und politischen Grenzen durchzogen ist, versammelt VerbaAlpina demnach Sprachmaterial, das bislang nur in voneinander getrennten Publikationen dokumentiert und konsultierbar gewesen ist. Auf diese Weise ergibt sich die Möglichkeit, grenzüberschreitende Zusammenhänge wie etwa die Verbreitung ein und derselben lexematischen Basis sowohl im germanischen wie auch im romanischen Sprachraum zu entdecken. Als Beispiel lassen sich etwa das im germanischen Sprachraum u.a. in Kärnten belegte Wort Kasel und der vor allem im oberitalienischen Alpenraum verbreitete morpholexikalische Typ Casel anführen. Beide morpholexikalischen Typen hängen unverkennbar und zwar insofern miteinander zusammen, als ihnen jeweils das lateinische Wort căsa als lexematische Basis innewohnt. Diese Erkenntnis wirft sofort die Frage nach der Ursache dieses Zusammenhangs auf, die in den unterschiedlichen Szenarien des Sprachkontakts zu suchen ist. Spätestens in diesem Moment erhält das Projekt VerbaAlpina auch eine historische Dimension, denn nahezu ausschließlich ist Sprachkontakt mit historischen Prozessen wie etwa Wanderungsbewegungen, Eroberungen oder auch Handelsbeziehungen verknüpft. Neben dieser historischen Dimension beinhaltet VerbaAlpina auch einen Konnex mit der Ethnographie, zumal die Arbeit mit den Wörtern und Bezeichnungen auch zur Auseinandersetzung mit der damit verbundenen Lebenswelt zwingt. Insofern präsentiert sich VerbaAlpina also auch als ein interdisziplinäres Forschungsvorhaben.

Die Herausforderung des "Forschungsdatenmanagements" – Nachhaltigkeit, Auffindbarkeit, Zitierbarkeit

VerbaAlpina versteht sich als vollständig digitales Online-Projekt, das konsequent speziell die damit gegebenen Möglichkeiten der Vernetzung und Verknüpfung nutzt. Mit diesem Anspruch ist eine ganze Reihe von Herausforderungen verbunden, die teils über die Kernbelange des Projekts hinausreichen und grundsätzliche Probleme berühren, die für die digitalen Geisteswissenschaften ganz allgemein gelöst werden müssen. Als das orientierunggebende Paradigma betrachtet VerbaAlpina dabei zunächst das gedruckte Buch, das bei allen mit diesem Medium verbundenen Nachteilen zwei ganz wesentliche und auch künftig unverzichtbare Eigenschaften besitzt: Es ist text- bzw. allgemein inhaltsstabil und dadurch zitierfähig und es ist in materieller Hinsicht dauerhaft. Die wesentliche Herausforderung, der sich VerbaAlpina und im Grunde alle digital arbeitenden Projekte gegenübersehen, ist demnach die Verbindung der neuen, erweiterten Möglichkeiten der Digitalisierung mit eben jenen unverzichtbaren Eigenschaften des Buches.

Für das Konzept der Dauerhaftigkeit wird aktuell verbreitet die Vokabel „Nachhaltigkeit“ bzw. „Nachnutzbarkeit“ verwendet. Vor dem Hintergrund der Digitalisierung besitzt dieses Postulat wiederum zwei Seiten: eine technische und eine inhaltliche. Die rein technische Bewahrung stellt sich dabei als das geringere Problem dar, denn die Sicherung digitaler Daten kann zuverlässig von Rechenzentren oder vergleichbaren Institutionen übernommen und gewährleistet werden. Wesentlich anspruchsvoller ist die Sicherstellung der künftigen und im Idealfall zeitlich unbegrenzten Nutzbarkeit der erzeugten Inhalte, die sich bei vollständig digitalen Projekten nur zu einem Bruchteil als von Menschen lesbarer Text in natürlicher Sprache darstellen. Soweit uns bekannt, gibt es in dieser Hinsicht noch keine allgemeingültigen und etablierten Verfahren, vielmehr befinden wir uns derzeit in einer Übergangsphase, in der allenthalben nach tragfähigen Konzepten in diesem Zusammenhang gesucht wird. Sämtliche Bemühungen müssen schließlich in der Etablierung allgemein akzeptierter Standardverfahren münden.

Zur Sicherstellung der Zitierbarkeit sämtlicher Inhalte bedient sich VerbaAlpina des Konzepts regelmäßiger Versionierungen. Derzeit wird jeweils zur Jahresmitte und zum Jahresende eine Version erzeugt, deren Zustand ab diesem Moment unverändert bleibt. Auf der Homepage des Projekts kann zwischen den verschiedenen Versionen gewählt werden. Eine Vielzahl der Inhalte von VerbaAlpina kann über URLs direkt adressiert werden, wobei jede dieser URLs die jeweilige Versionsnummer als URL-Parameter in sich trägt.

Im Hinblick auf mögliche künftige Umzüge der Projekthomepage, mithin eine Änderung der Domain, wurde bislang bereits ein sog. Digital Object Identifier (DOI) registriert, der die grundsätzliche Erreichbarkeit des Projektportals auch in solchen Fällen weiterhin garantieren kann. Derzeit sind Bestrebungen im Gange, DOIs nicht nur für das Projektportal als Ganzes, sondern vielmehr auch für definierte Inhalte in sehr feiner Granularität registrieren zu lassen. So ist beabsichtigt, u.a. die im Projekt versammelten morpholexikalischen Typen sowie die von diesen bezeichneten Konzepte (= Begriffe) mit individuellen DOIs zu versehen, so dass eine gezielte Referenzierung auf diese Einzeldaten möglich wird.

Neben der Registrierung dieser DOIs sind Bestrebungen im Gang, aus den im Projekt verwalteten Daten etwa nach dem Vorbild der GND Normdaten zu generieren. Konkret soll u.a. jeder morpholexikalische Typ, definiert durch lexematische Basis, Sprachfamilienzugehörigkeit, Genus und Affigierung, sowie jedes außersprachliche Konzept zu einem Normdatum deklariert werden. Die Vergabe entsprechender Normdaten-IDs in Verbindung mit der Registrierung feingranularer DOIs ist unverzichtbar für die gezielte Verknüpfung von Daten über Projektgrenzen hinweg und ist ein wichtiges Element im Umfeld des aktuell wissenschaftspolitisch stark geförderten Forschungsdatenmanagements. Durch die strukturierte Erfassung der Metadaten im weithin etablierten DataCite-Format finden die Forschungsdaten einschließlich der Normdaten-IDs auch Eingang in die Bibliothekskataloge. Auf diese Weise wird ihre Auffindbarkeit über OPAC-Recherchen ermöglicht.

VerbaAlpina befasst sich derzeit sehr intensiv mit dieser Thematik und ist in zwei aktuell laufende einschlägige Forschungsvorhaben (GeRDI [https://www.gerdi-project.eu/] und "eHumanities – interdisziplinär" [https://www.fdm-bayern.org/]) zum Thema Forschungsdatenmanagement eingebunden.

Von noch grundsätzlicherer Bedeutung ist die Frage nach der Etablierung institutioneller Zuständigkeiten und Workflows, die die Einhaltung und Weiterentwicklung der einschlägigen Konzepte zur Nachhaltigkeit, Zitierbarkeit und Verknüpfungsmöglichkeit garantieren. Auch zu dieser Thematik hat VerbaAlpina bereits Ideen entwickelt und niedergelegt (Krefeld/Lücke 2017). Unter anderem findet sich darin ein Plädoyer für die Beibehaltung bzw. Stärkung der Rolle der Bibliotheken auch in der Phase nach der digitalen Revolution: Sie waren seit jeher für die Bewahrung und Auffindbarkeit von Informationen zuständig und ihr langfristiger Fortbestand erscheint, anders als dies bei manchen temporär geförderten Repositoriumsprojekten der Fall ist, gesichert.

Der hier unterbreitete Themenvorschlag besteht zusammenfassend darin, das Projekt VerbaAlpina kurz vorzustellen, um anschließend den Fokus auf die skizzierten Aspekte des Forschungsdatenmanagements zu legen. Die Präsentation der damit verbundenen Vorstellungen von VerbaAlpina auf der DHd-Jahreskonferenz wäre umso wichtiger, als gerade in diesem Zusammenhang ein breiter Konsens unerlässlich ist, der nur durch die Diskussion in einer möglichst breiten Öffentlichkeit erzielt werden kann.

Literaturverzeichnis

Jenseits des Buchs: webbasierte Forschungsumgebungen als Kern der digital humanities




(334 Wörter)

Thomas Krefeld

Philologie unterwegs in die digital humanities

  • traditionell buchorientierte Disziplinen ('Literatur' und 'Sprache'), Forschung über Bücher und durch das Medium Buch
  • inhaltliche Erweiterungen
  • neuer methodologischer Horizont (und neue Perspektive für das Fach), in dem Bücher und Verlage überflüssig sind: Forschung mit strukturierten Daten und durch das Medium der Webtechnologie

Radikal veränderte Wissenschaftskommunikation

  • Publikation in Gestalt einzelner materieller Objekte ('Bücher') → Publikation in Gestalt interaktiver ('Schreibe eine Antwort'), hypertextuell verknüpfter, kontinuierlich erweiterbarer Informationen
  • Publikationsplattformen mit textstabilen ('versionierten'), verlässlich zitierbaren Beiträgen, auf die absatzgenau referenziert werden kann; vgl. Korpus im Text (KiT)
  • Aktuelle Entwicklung  von Strategien und Prozeduren zur Sicherung der Nachhaltigkeit in enger Kooperation mit
    • den Rechenzentren  (Repositorien)
    • und den Bibliotheken (auch für buchlose Forschung substantiell: auf Dauer gestellte Institutionen für die Thesaurierung und Administrierung des Wissens)
  • Integrierte Lehr- und Forschungsumgebungen, Beispiel an der LMU DHLehre,

Ein Beispiel aus der Dialektologie: VerbaAlpina

Ziel: Darstellung des relativ einheitlichen alpinen Kulturraums im Spiegel seiner sehr ausgeprägten Mehrsprachigkeit

(1) Dokumentation und sprachgeschichtliche Analyse des dialektalen Wortschatzes, der nach Maßgabe ethnographischer Kriterien als charakteristisch eingeschätzt wird;

  • quellentreue Retrodigitalisierung aus Sprachatlanten und georeferenzierbaren Wörterbüchern
  • in der Forschungsumgebung neu erhobene Daten (s.u. [4])
  • komplementäre Erfassung nicht-sprachlicher historischer Daten (z.B. lat. Inschriften und Ortsnamen) ; vgl. die Karte zu lat. cellarium|deu. Keller, und lat. casearia|bair. Kaser

(2) Kooperation mit Projektpartnern zum gegenseitigen Datenaustausch und zur Datenanalyse (Open Access)
(3) Publikation:

  • Datenbestand
  • Code (auf GitHub)
  • Metadaten in standardisierten Schemata (Clarin-d, DataCite, GeRDI)
  • analytische Texte und unterschiedlicher, projektbezogene Materialien (z.B. historische Informationen)
  • sowohl für die Forschung als auch für die interessierte breite Öffentlichkeit
  • Verschränkung lexikographischer und kartographischer Funktionen mit interaktive Sharing–Option
    • Beispiel: Konzept BUTTER (mit i-Button: Karte ↔ Lexikon),
    • vier ausgewählte Bezeichnungen des Konzepts

(4) Datenerhebung durch Crowdsourcing
(5) Forschungslabor; optionale Erstellung und Sharing von Karten und Kommentaren durch (projektexterne) Nutzer

 

VerbaAlpina@GeRDI




(2458 Wörter)

Gerdi-Fragebogen zu VerbAlpina (Februar 2018)

  • Abläufe:

Daten-/Serverinfrastruktur: Die Daten von VerbaAlpina werden modularisiert und versioniert verwaltet. Die sprachlichen Kerndaten liegen auf einem geclusterten MySQL-Server (= Modul VA_DB). Darauf aufsetzend arbeitet eine mit WordPress realisierte GeRDI-VA-DataSources-270618-1638-16Webschnittstelle (VA_WEB), die u.a. eine Seite zur interaktiven kartographischen Visualisierung der in VA_DB gehaltenen Daten erlaubt.

Datenmanagementpläne: ja, aber nicht in standardisierter Form (vgl. https://www.forschungsdaten.info/themen/planen-und-strukturieren/datenmanagementplan/; entsprechende Dokumentationen sind in der Rubrik Methodologie abgelegt.

Freigabe: Der Zugriff auf die Datenbankschnittstellen VAP ist ausschließlich Kooperationspartnern von VerbaAlpina erlaubt und unterliegt einer CC BY-SA- bzw. der ODC-ODbL-Lizenz

  • Daten:

Größe: 1,5 GB (Modul VA_DB; Stand Feb. 2018), 30 GB in 33315 Dateien (Modul VA_WEB; Stand Feb. 2018)

Formate: relationales Datenformat;

Typen: ??

Ursprung: Teils strukturierte Erfassung retrodigitalisierter Sprachatlanten und Wörterbücher, teils Crowd, teils Projektpartner

Software: ??

Schnittstellen: VAP_ling_[language] (Sprachdaten), VAP_geo_[language] (ergänzende georeferenzierte Daten wie z.B. Fundorte von lateinischen Inschriften) (in jeweils 5 Sprachen)

Datenschutz: [Persönlichkeitsrechte? Urheberrechte?]

Speicher: Storage mit Plattenarrays; regelmäßige Backups über TSM ins LRZ

  • Metadaten:

Arten: s. Attribute der VAP-Schnittstellen

Speicherung: gemeinsam mit Primärdaten in VAP-Schnittstellen

Standards: proprietär; Standards werden durch individuell erzeugte Schnittstellen bedient (wie jetzt z.B. GeRDI: Datacite -> OAI-PMH -> Harvester)

Datenschutz: s.oben

Schnittstellen: ??

  • Datenauswertung:

Programme: – (ggf. zukünftig R oder SQL)

Aufbereitung: ??

Visualisierung: Online-Karte (Javascript, Google API)


VA@GeRDI (27. Juni 2018)

Tagesordnung

TOP 1: Roadmap (TW/HN) 

TOP 2: Usecases Datenkorrelation (TW/HN)

TOP 3: Bericht über Kontakte zu UBs (LMU, Erlangen) (SL)

TOP 4: Kooperation GeRDI – UZH (TK)

 

TOP 1: Roadmap (TW/HN)

GeRDI arbeitet in Releases, die ungefähr alle drei Monate
herausgegeben werden sollen. Das wäre eine mögliche Roadmap (bis zum
Ende von GeRDI Phase 1, in Phase 2 können ggf. neue Milestones
vereinbart werden):

Release 0.3 (Herbst 2018):

"Minimal viable product" -> Verba Alpina Daten sind im GeRDI-Index
(ohne die Knowledge Base und mit Bounding Boxes)
Mögliche Data Provider für die Datenkorrelation wurden
identifiziert (GeRDI-VA-DataSources)

  • Bis zu Release 0.3 soll ein praxistaugliches Metadatenmodell implementiert werden ("minimal viable product"). Die Entwicklung soll in enger Abstimmung mit der UB erfolgen.
  • Mit welchen Daten die VA-Daten kombiniert werden sollen, soll bis Herbst 2018 ausdiskutiert sein.
  • Metadatenproviding für GeRDI-Index kann später auch über die UB laufen; bezüglich der sustainability wäre es ein Gewinn, wenn sich die UB als Zwischeninstanz einschalten würde (denkbar wäre: VA liefert an --> UB e-humanities --> UB e-humanities bereitet die Daten auf --> liefert sie dann an GeRDI).

UB e-humanities Projekt

  • Das e-humanities Projekt führt vertiefte Inhaltsanalysen durch und verknüpft  die Daten mit Normdaten. Geplant ist, die Daten dann an GeRDI zu liefern.
  • Frau Kümmet wertet derzeit die Entitäten der ITG-Projekte aus. Diese sollen mit Wikidata verknüpft werden. Es ist jedoch noch nicht klar, ob sich alle Entitäten mit Wikidata abbilden lassen.

Release 0.4 (Winter 2018/19)

Geo-Granularität verbessert (Merging der Polygone für einen besseren
Informationsgehalt).
Anbindung der Data Provider für die Datenkorrelation in den GeRDI-Index.

Release 0.5 (Frühling 2019)

Erste Tests des Daten-Stagings (automatischer Bezug der VA-Daten mit
den Daten anderer Data-Provider) "so automatisch wie möglich"
Automatischer Bezug der Daten

  • Bis Release 0.5 sollen alle Daten von VA und Daten aus anderen Quellen auf die Plattform von GeRDI gebracht werden. Man hat eine erste Idee, wie automatisierbar dieser Prozess ist.

Release 0.6 (Sommer 2019)

Anbindung Knowledge Base an VerbaAlpina-Metadaten
Analyse der gestagten Daten auf LRZ-Rechnern

  • Es soll geprüft werden, welche Aufbereitung der Daten möglich ist.
  • Die Daten sollen mit einer logischen Einheit referieren.
  • Es soll festgelegt werden, wie genau die Datenanalyse ablaufen soll (welche Analyseschritte etc.).

Release 0.7 (Herbst 2019)

Puffer für Unvorhergesehenes

  • Im Herbst 2019 endet GeRDI Phase I.
  • Bis dahin soll ein Anwendungsfall von VA über die GeRDI-Plattform zum Laufen gebracht worden sein.
  • Bei Verlängerung von GeRDi soll mit den Communities aus Phase I auch in Phase II weiter zusammengearbeitet werden. Bei fehlender Anschlussfinanzierung von GeRDI ist vorstellbar, dass das LRZ und die UB als Ansprechpartner dienen und dass das e-humanities Projekt der UB die von GeRDI entwickelten Funktionalitäten übernimmt.

Methodik GeRDI

  • GeRDI nutzt existierende Metadaten-Harvesting-Modelle
  • gearbeitet wird mit DataCite als Standard und OAI-PMH-Protokoll (pleonastisch); damit soll bis Release 0.3 die erste laufbare Version produziert werden
  • wenn DataCite technisch nicht funktioniert, wird darauf entsprechend reagiert
  • laut TW bietet DataCite alles, um die Daten zugreifbar und interseparabel zu machen
  • im Endeffekt soll anhand von Usecases festgestellt werden, welche Anforderungen ein Metadatenstandard erfüllen muss und ob DataCite dafür ausreicht
  • bei Version 0.2/0.3 soll deshalb geschaut werden, ob die Funktionalitäten von DataCite ausreichen; wenn nicht, wird man sich nach entsprechenden Alternativen umschauen (Standard selbst kreieren oder einen bestehenden Standard entsprechend anpassen) und kann, wenn nötig, dann immer noch nachsteuern
  • geplant ist das Mapping von DataCite zu Dublin Core (= Mindeststandard, es gibt aber bessere Metadatenstandards)

Allgemeines

  • ab 18/1 sollen Metadatenannotationen auf SQL-Abfragen losgeschickt werden, Datenbasis: Schnittstelle vap_ling_xx
  • Die Daten sind dann redundant verfügbar und automatisch beziehbar
  • Usecases sind möglich, wie z.B. die Ausgabe bestimmter Diffusionsmuster für bestimmte Gemeinden
  • die entscheidenden Kategorien sind: Gemeinden, Konzepte, Morph-Typen, Zeit; jeder einzelne Morph-Typ ist ansprechbar; wenn eine Wissensdatenbank dazukommt, können andere, z.B. große Online-Wörterbücher, auch daran anknüpfen
  • auch der umgekehrte Fall ist denkbar, d.h. Metadaten aus GeRDI fließen in VA und nicht umgekeht; Daten aus 3 Bereichen stehen zur Verfügung: Statistik-Behörden, Transportdaten und Geophysikdaten

TOP 2: Usecases Datenkorrelation (TW/HN)

  • Nachnamen => Korreliert die Parzellierung der Typen mit der geographischen Distribution von Nachnamen?
  • Demographie-Daten => Welche Zusammenhänge gibt es zu Nivellierungen?
  • geophysikalische Daten => Stichworte: "Baumgrenze", Flora und Fauna-Daten; hier fehlt eine genaue Fragestellung.
  • Daten, die Verhältnis von Einheimischen zu nicht-Einheimischen beschreiben (Übernachtungszahlen, Verkehrswege, Transportsysteme) => Korelliert dies mit Nivellierungen?

TOP 3: Bericht über Kontakte zu UBs (LMU, Erlangen) (SL), TOP 4: Kooperation GeRDI – UZH (TK)

  • da geisteswissenschaftliche Projekte derzeit allgemein aufgefordert werden, Metadaten anzulegen, ist ein einheitliches Metadatenmodell anzustreben, damit die Daten kompatibel sind
  • TK wäre deshalb dafür, Kontakt zu anderen aufzunehmen (UZH/UBs)
  • TW plädiert dafür, zunächst einen konkreten technischen Vorschlag zu machen und diesen in eine Version zu bringen, die präsentabel ist, bevor man mit anderen in Kontakt tritt

VA@GeRDI (09. Juli 2018) – Treffen zum Thema "Data Provider"

Teilnehmer: Krefeld, Lücke, Nguyen, Weber

Ort: ITG

Zeit: 12:30-13:30

VA ist interessiert an Daten aus folgenden Kategorien:

  • Demographie
  • Infrastruktur (Internet-Erschließung und -Nutzung, Verkehrswege [Straßen, Eisenbahn, Flughäfen], Tourismus)
  • geophysikalische Daten (Klima, Wetter, Bodengüte)
  • Wirtschaft (Verbreitung bestimmter Wirtschaftsformen, z.B. Almwirtschaft, Holzwirtschaft etc.)

Alle Daten sollten mit Chronoreferenzierung versehen sein und möglichst mehrere Zeitschnitte enthalten (Diachronie).

Als Data Provider wird zunächst Eurostat (http://ec.europa.eu/eurostat/data/databaseausgewertet. Erst wenn gewünschte Daten von dort nicht zu beziehen sind, wird auf nationale Datenquellen zurückgegriffen.

Im ersten Anlauf werden zunächst nur Daten zur Demographie erfasst.

Anregung1: MA-Arbeit zur algorithmischen Strukturierung der Daten des Idiotikons (https://digital.idiotikon.ch/idtkn/id12.htm#!page/120031/mode/1up) am LRZ?

Anregung2: Integration der von FZ im Rahmen seiner Diss erzeugten Daten  aus dem REW (http://www.nbn-resolving.de/urn:nbn:de:bvb:355-ubr07799-0) in GeRDI?

Das nächste VA@GeRDI-Treffen findet statt, sobald entweder das Ziel von release 0.3 ("Minimal viable product" -> VA-Daten im GeRDI-Index) erreicht ist oder demographische Daten im Gerdi-Index aufgenommen sind. Herr Nguyen und Herr Weber melden sich bei VA.


Teilnehmer: Kümmet, Lücke, Mutter, Nguyen, Weber, Zacherl

Ort: Medienlabor, Raum 3010, Schellingstraße 33

Zeit: 14:00-16:00 Uhr

Tagesordnung

TOP 1: Aktueller Stand: Metadaten, Harvester

TOP 2: Statusbericht GeRDI 0.2 und 0.3

TOP 3: Nächste Planungen GeRDI 0.4

TOP 4: Vorbereitungen Community Workshop

TOP 5: VA-Datenexport

 

TOP 1: Aktueller Stand: Metadaten, Harvester

GeRDI-Dienste

  • die Dienste "Harvest", "Search" und "Bookmark" sind in GeRDI zentral, der Harvest-Dienst ist für die Nutzer nicht sichtbar
  • GeRDI bezieht sich hinsichtlich des Forschungsdaten-Lebenszyklus auf das Modell UK data life cycle (Quelle: UK Data Service https://www.ukdataservice.ac.uk/manage-data/lifecycle), beinhaltet die folgenden Schritte: creating data --> processing data --> analysing data --> preserving data --> giving access to data --> re-using data
  • VA würde gerne auf das Modell, das GeRDI zugrunde legt, referieren können; zu diesem Zweck soll das Modell irgendwo zentral abgelegt werden

Workflows

  • bislang gibt es in GeRDI zwei Suchmöglichkeiten: einfache Suche + erweiterte Suche
  • weitere Funktionen: Suchbereich einschränken; Daten speichern, bearbeiten, visualisieren; bookmark (speichert Daten als Lesezeichen zur späteren Ansicht)
  • beide Suchmöglichkeiten sollen von Beginn an angeboten werden
  • Auswahl an Filtermöglichkeiten soll sich an den Elementen von DataCite orientieren
  • Datensätze von VA sollen georeferenziert dargestellt werden, Möglichkeit zu georeferenzierter Suche ist aber wichtiger als georeferenzierte Visualisierung, die bereits durch VA selbst geleistet wird
  • an sprachunabhängiger Suche wird gearbeitet (Suche nach "Butter" findet "Butter", "burro", "beurre" ...)
  • Material muss downloadbar und veränderbar sein
  • für VA wäre wichtig: Auffindbarkeit, feine Granulierung und luzide Beschreibung des Materials (ähnlich https://data.ub.uni-muenchen.de/110/)
  • Auswahl des Materials soll sich an Metadaten orientieren, die in DataCite vorliegen; zunächst sollen Daten ausgewählt werden, die sich bezüglich Georeferenz decken; danach soll der Nutzer die Möglichkeit erhalten, die Daten in gesonderter Umgebung (mit Python/R etc.) zu entpacken/explorieren/statistisch auszuwerten. – Ähnliches leistet bereits https://www.max.gwi.uni-muenchen.de/
  • Format der Daten: CSV, evtl. auch XML
  • Partnerprojekte von GeRDI müssen bestimmte Metadaten mitteilen: Georeferenzierung, Chronoreferenzierung, Zuordnung zu groben Bereichen
  • Mögliche Gestaltung der Suchanfragen: Zeiteinschränkung, Ortseinschränkung, Schlagwort

Metadatenschema

  • Bislang nur das Standard-Set des DataCite-Schemas implementiert
  • Metadatenschemata von verschiedenen Disziplinen werden zunächst angeschaut und dann auf entsprechende Töpfe verteilt: DataCite, Extension, Disziplin-spezifisch etc.
  • die gelieferten Metadaten sollen einem gewissen Standard entsprechen
  • Grundlage soll das Formular zur Vergabe von DataCite sein; erst wenn bestimmte Felder ausgefüllt sind, sind Metdaten akzeptabel

 

TOP 2: Statusbericht GeRDI 0.2 und 0.3

GeRDI 0.2:

  • weitere Repositorien wurden eingebunden
  • weitere Filterfunktionen wurden implementiert

GeRDI 0.3:

  • v.a. Verbindung von Oberfläche mit Backend steht im Mittelpunkt

TOP 3: Nächste Planungen GeRDI 0.4

  • kontrolliertes Vokabular für Verwendung in Metadatenschemata wie DataCite
  • Suche und Filterung anhand disziplin-spezifischer Metadaten
  • weitere Repositorien einbinden
  • Download der Suchergebnisse auf lokale Festplatte
  • Aufbau eines Jupyter-Hubs (-> für nachgelagerte Analyse von Projektdaten ähnlich https://www.max.gwi.uni-muenchen.de/)

TOP 4: Vorbereitungen Community Workshop

Für den Community Workshop sind soweit alle Vorbereitungen bereits getroffen.

TOP 5: VA-Datenexport

  • Daten sollen feingranuliert in 4erlei Gestalt an die UB ausgegeben werden: morpholexikalische Typen, Konzepte, Ortschaften, Einzelbelege
  • für jeden einzelnen Datensatz wird eine einzelne Datei erzeugt, die jeweils mit einem Buchstaben (A= Ortschaften, C=Konzepte, L=morpholexikalische Typen) und einer Identifikationsnummer  versehen wird
  • für jeden einzelnen Datensatz wird ein DataCite-Metadatensatz erzeugt; auf diesem Wege landen die Metadaten (nach einem Mapping ins MARC-Format) auch im Bibliothekskatalog (OPAC)
  • VA spricht sich für die Etablierung von Normdaten (GND) für morpholexikalische Typen aus; Teil der GND ist die ID, die auf genau einen Datensatz verweist; analog soll dies auch für Konzepte erfolgen
  • eine DOI erhalten: morpholexikalische Typen, Konzepte, Ortschaften, Einzelbelege und der gesamte Datensatz (VA_DUMP)
  • die genaue Granularität der Daten muss noch diskutiert werden; evtl. gibt es zum Thema "Data granularity" eine Empfehlung von Interessensgruppen der RDA (Research Data Alliance https://www.rd-alliance.org/); Herr Weber schlägt vor, dort mal nachzufragen
  • spätestens ab November soll GeRDI die OAI-PMH-Schnittstelle von Open Data LMU ansprechen können

Second community workshop GeRDI (16. Mai 2019, Berlin)

Ort: DFN-Verein e.V., Alexanderplatz 1, 10178 Berlin

Zeit: 10:00 – 16:00 Uhr

Allgemeines

  • Start von GeRDI II ist für Ende dieses Jahr/Anfang nächstes Jahr geplant
  • Verlängerungsantrag wurde bereits eingereicht
  • bisher implementierte Funktionen von GeRDI: Search, Bookmark, Store (Jupyter Hub storage) --> aktuell wird an den Funktionen "Process" und "Analyze" gearbeitet (entsprechend dem research data life cycle model)
  • Ziel ist es, insgesamt 15 Repositorien einzubinden (derzeit sind es 12)
  • die angestrebte Menge an Metadaten, die integriert werden sollen, wurde bereits überschritten (geplant waren 700.000, derzeit sind es bereits 875.000 metadata records)
  • Ziele für die nächste Projektphase: stakeholders + community building, services based on federation, disciplinary metadata, Europe-wide visibility of research data from Germany (FAIR), consideration of the NFDI (= Nationale Forschungsdateninfrastruktur)

Sessions

(Session A) fand parallel zu Session B) und Session C) parallel zu Session D) statt, CM besuchte Session B) und D) )

A) Data workflows & data pipelines

Using the research data life cycle as a model, we will demonstrate how researchers can use GeRDI services to support their individual data handling strategies.

We would like to understand if this workflows and APIs can be formulated in a generic way covering a wider range of research disciplines or – alternatively – if "data pipelines" should model discipline-specific data handling strategies. By thinking together with you about specific use cases we will create design sketches for possible new GeRDI functions.

B) Extending GeRDI Metadata Schema with disciplinary metadata elements

This session will address disciplinary metadata elements. Participants will discover the current state of the GeRDI Metadata Schema and how it is used in different GeRDI services. In an exemplary mapping demonstration the participants will be exposed to the process of extending the metadata schema. In a discussion we will try to identify high-priority metadata elements from participating communities. Other discussion topics include the usage of controlled vocabularies and the re-use of metadata elements across communities.

C) How to design: Submit service

During this session we will work together on design the new GeRDI service. We will go through discussing the existing use case, extend and value them. Then will bring our idea to paper discuss them and find the possible solutions for the future implementation. We eager to find out, how such service could be supported through GeRDI, which use cases, are most important and what challenges there are. To get the result we will dive into the different techniques of design thinking method.

D) Improving data quality in research data infrastructures

This session will address the term data quality and its relevance in research. Participants will explore criteria describing and measuring data quality that datasets can be effectively compared and ranked. Learn common criteria and how the scientific domains differ in their quality requirements for data. In a discussion, we will analyze the incentives to motivate data creators as well as the interventions needed to increase the quality of datasets. In the end, the elaborated measures will be assessed and recommendations for research data infrastructures will be made.

Zu Session B): high-priority metadata

  • aufgeteilt auf die verschiedenen Disziplinen (Humanities, Life sciences, Natural Sciences) sollte jede Community bezogen auf ihre einzelnen use cases die jeweiligen high-priority Metadaten nennen (für VA: concepts, morpho-lexical types, single attestations, municipalities)
  • es wurde geschaut, über welche Metadaten die Daten der einzelnen Communities am besten miteinander verknüpft werden können
  • wahrscheinlichster Verknüpfungspunkt der Metadaten der einzelnen Communities ist die Georeferenz der Metadaten, da dieses Metadatum überall vorkommt

Zu Session D): data quality (of metadata)

Frage: Woran kann Datenqualität festgemacht/gemessen werden?

Folgende Punkte wurden erarbeitet:

  • availability of metadata
  • metadata completeness
  • granularity
  • trust in the source of data
  • definition of data quality depends on research question
  • description in natural languages
  • responsibility within community
  • community building

Fazit:

  • fast unmöglich, generisch zu definieren, woran Datenqualität festgemacht werden kann (außer den FAIR-Kriterien)
  • am Community workshop kam man zu dem Schluss, dass man das offen lässt und stattdessen der Community die Möglichkeit gibt, fehlende Metadaten nachzutragen
  • laut Prof. Klaus Tochtermann sollen zudem die Empfehlungen für Datenqualität des RFII (= Rat für Forschungsdateninfrastruktur, NFDI ist daraus entstanden) befolgt werden

 

Riflessi dei contatti linguistici nel database di VerbaAlpina (VA_DB)




(3738 Wörter)

 

Stephan Lücke

Ringrazio Alessia Brancatelli per la traduzione in italiano.1

 

 

Complementarmente alla necessità di definire i singoli tipi di base a livello qualitativo nella stratigrafia dell'area linguistica alpina – così come precedentemente dimostrato da Thomas Krefeld – è possibile stabilire quantitativamente come tutti i tipi morfo-lessicali diffusi nella regione alpina, benché appartenenti a famiglie linguistiche diverse, facciano riferimento a tipi di base comuni, e come questi presuppongano un qualche tipo di contatto linguistico. Lo stesso vale per tutti i tipi di base preromani o latini che hanno trovato la loro strada nella lingua germanica o nello slavo; non certamente per i tipi di base latini migrati nel romanzo.

Con ''tipo di base'', VerbaAlpina definisce i più antichi tipi morfo-lessicali in cui è possibile riconoscere una precisa radice lessemica. Si prendono quindi sostanzialmente in esame parole latine, parole dal substrato preromano, dal greco, dal celtico, dal germanico o, ancora, dallo slavo. Laddove sia possibile, viene inoltre eseguita un'identificazione delle stesse tramite i dizionari di riferimento del progetto, come ad esempio il dizionario di latino redatto da Karl Ernst Georges.


Per giudicare le possibilità e limiti del analisi dei dati tramite la banca dati di VerbaAlpina ci vuole avere almeno un'idea dell'organizzazione e strutturazione dei dati al interno del database.

VerbaAlpina raccoglie e organizza tutti i dati relativi alla lingua in diverse tabelle, le quali nella loro interezza formano un database su modello relazionale. Una di queste tabelle è dedicata al raggruppamento dei tipi di base. Essa ne documenta, oltre all'aspetto ortografico, anche l'appartenenza linguistica; le tabelle indicheranno in un prossimo futuro l'eventuale presenza dei tipi di base nei dizionari di riferimento.

Come solito nei database a modello relazionale, l'attribuzione dei tipi morfo-lessicali avviene tramite l'assegnazione di numeri di identificazione, i cosiddetti IDs. Nel più semplice dei casi, ad esempio, una tale assegnazione risulterebbe come segue:

La tabella dei tipi di base contiene il lemma "butyru(m) (lat)"

ID_tipo_di_base tipo_di_base
128 butyru(m) (lat)

Similmente strutturata è la tabella contenente i tipi morfo-lessicali. Anche qui, infatti, ogni lemma viene chiaramente identificato tramite un ID:

ID_tipo_morfo-lessicale tipo_morfo-lessicale
591 beurre / burro

Nel più semplice dei casi, l'assegnazione di un tipo di base ad un tipo morfo-lessicale avviene tramite l'inserimento dell'ID del tipo di base in uno spazio ad esso dedicato nella tabella dei tipi morfo-lessicali:

ID_tipo_morfo-lessicale tipo_morfo-lessicale ID_tipo_di_base
591 beurre / burro 128

In particolare nel caso dei composti tedeschi, è possibile che un tipo morfo-lessicale venga associato non ad uno, bensì a due tipi di base. È questo il caso ad esempio della parola composta tedesca Alphütte, la quale da un lato rimanda al tipo di base "alpes" e dall'altro al tipo di base "hutta". In questo caso, la tabella sarà così strutturata:

ID_tipo_di_base tipo_di_base
53 alpes (vor)
48 hutta (ger)
ID_tipo_morfo-lessicale tipo_morfo-lessicale ID_tipo_di_base
7 Alphütte 53, 48

Data la poca praticità dell'inserimento concatenato di entrambi gli IDs dei tipi di base nella tabella dei tipi morfo-lessicali, si rende necessario l'impiego di un'ulteriore ''tabella di mezzo'', in cui venga inserita la combinazione dei due numeri di identificazione:

ID_tipo_morfo-lessicale ID_tipo_di_base
7 48
7 53

Il database opera, infine, una logica combinazione sinottica delle tre tabelle, combinazione che può essere così rappresentata:

 ID_tipo_morfo-lessicale tipo_morfo-lessicale ID_tipo_di_base tipo_di_base
7 Alphütte 53 alpes (vor)
7 Alphütte 48 hutta (ger)

Proprio come accade con ogni tipo di base, ad ogni tipo morfo-lessicale viene assegnata una lingua. Le rispettive appartenenze linguistiche vengono registrate nelle tabelle come caratteristiche a sé stanti, ma possono anche essere inserite e collegate nelle relazioni sinottiche finora mostrate:

ID_tipo_di_base tipo_di_base lingua_tipo_di_base  ID_tipo_morfo-lessicale  tipo_morfo-lessicale  lingua_tipo_morfo-lessicale
724 thûmo goh 639 dûmli(n)ge(n) ger
336 caldaria lat 2400 chaudière / caldaia rom
392 campus lat 525 ciampei rom
478 klětь sla 1714 klet sla
1165 prīmus lat 6519 prime / primo rom

I numeri di identificazione servono solamente per una corretta assegnazione; nella rappresentazione grafica, essi possono anche essere omessi in modo tale da visualizzare l'immagine in modo più chiaro:

tipo_di_base lingua_tipo_di_base  tipo_morfo-lessicale  lingua_tipo_morfo-lessicale
*þūmōn ger dûmli(n)ge(n) ger
caldaria lat chaudière / caldaia rom
campus lat ciampei rom
klětь sla klet sla
prīmus lat prime / primo rom

In una banca dati così strutturata è, inoltre, possibile effettuare una ricerca mirata dei fenomeni di contatto linguistico. Sebbene i criteri di tale ricerca siano stati precedentemente illustrati da Thomas Krefeld, li esporremo adesso in modo formalizzato alla luce della struttura dei dati finora commentata.

Il modello semplice è rappresentato del caso che un tipo di base proveniente da una famiglia linguistica passa ad un'altra famiglia linguistica:

  • Tipo di base latino/romanzo ⇒ tipo morfo-lessicale germanico
  • Tipo di base latino/romanzo ⇒ tipo morfo-lessicale slavo
  • Tipo di base germanico ⇒ tipo morfo-lessicale slavo
  • Tipo di base slavo ⇒ tipo morfo-lessicale germanico
  • Tipo di base germanico ⇒ tipo morfo-lessicale romanzo
  • Tipo di base slavo ⇒ tipo morfo-lessicale romanzo

Nel caso più complesso un tipo di base proveniente da una famiglia linguistica passa a diverse altre famiglie linguistiche:

  • Tipo di base latino/romanzo ⇒ tipo morfo-lessicale germanico e slavo
  • Tipo di base latino/romanzo ⇒ tipo morfo-lessicale romanzo e germanico e ancora slavo

Per l'identificazione di questi schemi nella banca dati a modello relazionale, si formula la condizione per la quale i campi `lingua_tipo_di_base` e `lingua_tipo_morfo-lessicale` devono presentare dei valori precisi. La lingua del database SQL è l'inglese; per la ricerca di tipi di base latini passati al germanico, ad esempio, si scriverà quindi:

... where lingua_tipo_di_base = 'lat' and lingua_tipo_morfo-lessicale = 'ger'

Il risultato sarà il seguente (questo è solo un ritaglio):

tipo_di_base  lingua_tipo_di_base  tipo_morfo-lessicale  lingua_tipo_morfo-lessicale
*brŏcca lat Britschger ger
unguere lat Anke ger
cūpella lat Kübel ger
caseu(m) lat Käsestängel ger
camera lat Milchkammer ger
butyru(m) lat Butter ger
unguere lat Ankentutel ger
... ... ... ...

È chiaramente possibile effettuare ulteriori calcoli sui risultati ottenuti. Si può, ad esempio, calcolare la frequenza con cui i tipi di base latini vengono rappresentati dai tipi morfo-lessicali germanici, i quali sono assegnati ad uno specifico dominio concettuale. Analisi statistiche di questo tipo vengono attualmente proposte come argomento di tirocinio universitario all'Istituto di Statistica dell'Università di Monaco di Baviera (LMU).

Per identificare i casi più complessi in cui un tipo di base ha trovato la propria strada in diverse altre famiglie linguistiche, è necessario raggruppare i dati per tipo di base, e concatenare i tipi morfo-lessicali alla propria appartenenza linguistica:

Il risultato che vedete è preso, come gli esempi seguenti, direttamenta dalla banca dati e viene aggiornato automaticamente nel caso di una modificazione dei dati nel database.

È da sottolineare, che gli esempi illustrati possono talvolta presentare errori dovuti alle incorrette identificazioni dei tipi di base, errori i quali verranno eliminati man mano che si lavorerà sui dati. L'idea fondamentale, al momento, è quella di presentare la metodologia adoperata dal progetto.

Attualmente, vuol dire fine giugno 2018, sono in tutto 14 i tipi di base esistenti in tutte le tre famiglie linguistiche; 32 sono quelli presenti nell'area linguistica romanza e germanica, 28 quelli presenti in romanzo e slavo, 7 quelli in germanico e slavo. Vi sono inoltre 32 tipi di base passati o nel germanico o nello slavo. La tabella qui in fondo presenta i valori attuali, presi direttamente dalla banca dati:

La struttura relazionale dei dati nel database assieme con la lingua SQL permette di eseguire analisi veramente complessi, almeno dal punto di vista informatico. L'esempio seguente mostra per ogni atlante linguistico le quantità dei tipi di base che sono connessi con tipi morfologici presenti in più di una famiglia linguistica (per il codice SQL vedi l'appendice):


Il modello dei dati utilizzato finora da VerbaAlpina presenta, tuttavia, delle debolezze. Ad oggi è solo possibile associare un tipo morfo-lessicale ad uno specifico tipo di base: si vedano ad esempio il tipo morfo-lessicale germanico "Käser" e il tipo romanzo "casera". La mappa sottostante mostra l'espansione dei tipi Käser (in verde) e casera (in giallo):

Diffusione dei tipi morfo-lessicali casera e Käser. La cartina online è accessibile sotto https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=xxx&tk=1591

Entrambi i tipi sono derivati senza dubbio dal latino casearius, a sua volta ricollegabile a caseus. Sorge, dunque, spontaneo chiedersi quale tipo di base si debba scegliere: casearius o caseus? Al momento, entrambi i tipi morfo-lessicali sono ricollegabili al tipo di base caseus, fatto che li lega anche ad altri tipi morfo-lessicali, quali ad esempio il tedesco Käse. Ciò si traduce in una certa asimmetria, dal momento che esiste una relazione più stretta tra Kaser e casera che tra Kaser e Käse. Ora, se assegnassimo Kaser e casera al tipo di base casearia, la connessione con Käse andrebbe chiaramente persa. Come comportarsi, dunque, in questo caso? Una possibilità sarebbe quella di differenziare ulteriormente la mappatura dei tipi di base nello schema dei dati, in modo tale da documentare la relazione tra il latino casearius e caseus.

Il confine tra le aree di diffusione dei due tipi morfo-lessicali corre esattamente lungo il confine tra il germanico (in verde) e il romanzo (in rosso). Vi sono anche altre aree, come quella slava, come pure una serie di zone di transizione ed enclavi, al momento dominate dal multilinguismo. La distinzione tra appartenenze linguistiche nel database di VerbaAlpina si realizza in termini comunali. Essa è stata finora effettuata in modo più o meno intuitivo; a breve, però, la distinzione si orienterà verso l'appartenenza linguistica degli informanti, le cui attestazioni provengono da un comune: non appena gli informanti da famiglie linguistiche diverse verranno assegnati ad uno specifico comune, esso riceverà lo status di ''multilingue''. Ecco quindi una soluzione trasparente e duratura per la determinazione del monolinguismo o del multilinguismo. Attraverso la cronoreferenziazione dei dati operata da VerbaAlpina, è inoltre possibile – almeno teoricamente – documentare e visualizzare i cambiamenti riguardanti i confini linguistici. È tuttavia chiaro che il valore informativo ottenuto tramite l'analisi dei dati dipenderà dalla densità e dall'omogeneità dei dati raccolti.


Vorremmo qui cogliere l'occasione per accennare ai nuovi sviluppi nel progetto di VerbaAlpina.

Oltre alle categorie già disponibili nel Menu della carta interattiva online, è, infatti, da poco tempo possibile visualizzare anche i dati provenienti da SQL-queries individuali:

Procedura di inserimento informazioni da SQL Query

Vediamo ad esempio la mappatura dei tipi morfo-lessicali ricollegabili ai tipi di base diffusi sia in territorio linguistico germanico che in quello slavo. Dopo il click su "SQL-Query" si incolla il filtro desiderato, usando la sintassi SQL, nel modulo:

Dopo il click su "Daten anzeigen" (visualizzare dati) viene creata la cartina con i simboli:

Rappresentazione qualitativa della distribuzione dei tipi morfo-lessicali, alla base dei quali sono presenti dei tipi di base diffusi sia in ambito linguistico germanico che slavo. (Link della mappa: https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=xxx&tk=1533)

La sovrapposizione sinottica delle aree delle famiglie linguistiche e della diffusione dei tipi di base dà origine a innumerevoli pattern, i quali però non sono necessariamente tassativi. È dunque sensato creare nuove mappe, modificando i vari parametri, alla ricerca di modelli significativi. Tuttavia, alcuni tentativi di mappatura si scontrano con i confini naturali. È questo il caso del tentativo di mappatura della diffusione dei tipi morfo-lessicali presenti sia in area linguistica romanza che germanica, in cui il sistema è messo duramente alla prova. Una corrispondente mappatura su base comunale (per la quale sono presenti le attestazioni) comprenderebbe 1400 simboli in totale. I vantaggi di una simile mappatura con un così elevato numero di simboli, risulterebbero comunque molto limitati. Una rappresentazione a livello quantificativo (opzione possibile sulla carta interattiva di VerbaAlpina), potrebbe invece offrire una buona visione di insieme. La seguente mappa offre una visione quantificativa della carta qualificativa basata su unità amministrative di media dimensione (le cosiddette regioni rientranti nel NUTS-3) presente sopra. La colorazione delle singole regioni si basa sul numero dei punti d'attestazione al loro interno:

Rappresentazione quantitativa della distribuzione dei tipi morfo-lessicali, alla base dei quali sono presenti dei tipi di base diffusi sia in ambito linguistico germanico che slavo. (Link della mappa: https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=xxx&tk=1531)

Accanto alla rappresentazione cartografica dei risultati dell'analisi, il database offre anche la possibilità di analizzare i dati a livello aritmetico-statistico. Ci si domanda allora, ad esempio, se precisi domini concettuali siano soprattutto spesso collegati ai tipi morfo-lessicali diffusi oltre i confini delle famiglie linguistiche.

Analisi statistiche di questo tipo sono già possibili con la base dati nel database di VerbaAlpina: se al momento è necessaria la conoscenza del linguaggio di SQL Query, in futuro saranno disponibili strumenti statistici specifici, come ad esempio il rinomato e largamente diffuso programma statistico ''R''.

VerbaAlpina collabora, inoltre, con gli sviluppatori della piattaforma MAX, attualmente in fase di sviluppo in cooperazione con il dipartimento di Storia dell'arte e di quello di Statistica dell'Università di Monaco di Baviera  (LMU).

Screenshot dallo strumento di analisi statistica MAX (https://dhvlab.gwi.uni-muenchen.de/max/)

MAX è principalmente uno strumento di analisi statistica riguardante le collezioni museali. Il sistema è, tuttavia, strutturato in modo tale che tutte le raccolte di dati a modello relazionale possano essere esaminate tramite metodi statistici. VerbaAlpina creerà presto un'area limitata ai partner di cooperazione del progetto: qui sarà possibile analizzare statisticamente e visualizzare cartograficamente sia i dati raccolti da VerbaAlpina che i dati personali (oltre ad una combinazione di entrambi). VerbaAlpina denomina quest'area limitata come ''Laboratorio di ricerca''. Una caratteristica essenziale di questo laboratorio di ricerca sarà la possibilità di condividere dati, visualizzazioni e analisi, proprio come ci si aspetterebbe da numerosi servizi presenti su Internet, come Google e Facebook. Le funzionalità di analisi dei dati statistici sviluppate nell'ambito del progetto MAX saranno presto integrate nel laboratorio di ricerca di VerbaAlpina.

Grazie per la Vostra cortese attenzione.


Appendice: Elenco degli SQL-Statements

-- Combinazione di tipo di base e tipo morfo-lessicale

select * from basistypen a
join vtbl_morph_basistyp b using(id_basistyp)
join morph_typen c using (id_morph_typ)
;
-- Tipi morfo-lessicali associati a più di un tipo di base

select 
 group_concat(distinct c.Orth) as Morphtyp,
 group_concat(a.Orth) as Basistypen
from basistypen a
join vtbl_morph_basistyp b using(id_basistyp)
join morph_typen c using (id_morph_typ)
group by id_morph_typ
having count(*) > 1
;
-- Tipo di base butyru(m) e tipo morfo-lessicale beurre / burro

select 
 a.ID_Basistyp,
 concat(a.Orth, ' (', a.Sprache, ')') as Basistyp,
 c.ID_morph_Typ as ID_Morphtyp,
 c.Orth
from basistypen a
join vtbl_morph_basistyp b using(id_basistyp)
join morph_typen c using (id_morph_typ)
where c.Orth like '%burro%'
limit 1
;
-- Esempio di rappresentazione combinata di Tipi di base e
-- tipi morfo-lessicali unitamente alla rispettiva assegnazione linguistica

select
 -- a.ID_Basistyp,
 a.Orth as Basistyp,
 a.Sprache as Sprache_Basistyp,
 -- c.ID_morph_Typ as ID_Morphtyp,
 c.Orth as Morphtyp,
 c.Sprache as Sprache_Morphtyp
from basistypen a
join vtbl_morph_basistyp b using(id_basistyp)
join morph_typen c using (id_morph_typ)
where 
 a.Orth in ('caldaria','klětь','prīmus','*þūmōn','campus')
group by a.Orth
-- order by rand()
-- limit 5
;
-- Quantità di Tipi di base presenti in più famiglie linguistiche

select
 morphtyp_sprachen, 
 count(*) as Anzahl 
from
(select
 a.Orth as Basistyp,
 a.Sprache as Basistyp_Sprache,
 group_concat(distinct c.Orth, ' (', c.Sprache, ')' order by c.Sprache, c.Orth separator ' | ') as Morphtypen,
 group_concat(distinct c.Sprache order by c.Sprache) as Morphtyp_Sprachen
from basistypen a
join vtbl_morph_basistyp b using(id_basistyp)
join morph_typen c using(id_morph_typ)
group by a.Orth, a.Sprache
having group_concat(distinct c.Sprache) like '%,%'
-- order by 
--  char_length(group_concat(distinct c.Sprache)) desc, 
--  group_concat(distinct c.Sprache)
) sq
group by morphtyp_sprachen
;
-- Tipi di base preromani e latini passati al germanico o allo slavo

select 
 a.Orth as Basistyp, 
 a.Sprache as Sprache_Basistyp, 
 group_concat(distinct c.Sprache) as Sprache_Morphtyp, 
 c.Orth as Morphtyp
from basistypen a
join vtbl_morph_basistyp b using(Id_Basistyp)
join morph_typen c using(ID_morph_Typ)
where 
 a.Sprache like 'lat' 
 or a.Sprache like 'vor'
group by a.Orth
having 
 group_concat(distinct c.Sprache) not like '%rom%'
 and group_concat(distinct c.Sprache) not like '%,%'
;
-- Tipi morfo-lessicali connessi col tipo di base "baita"

select 
 a.Basistyp, 
 a.Typ, 
 a.Sprache_Typ, 
 a.Wortart, 
 a.Affix, 
 a.Genus 
from vap_ling_de a 
where 
 a.Basistyp like 'baita' collate utf8mb4_general_ci 
 and a.Art_Typ like 'morph_typ' collate utf8mb4_general_ci 
 and a.Typ not like '% %' collate utf8mb4_general_ci 
group by 
 a.Typ, 
 a.Sprache_Typ,
 a.Wortart, 
 a.Affix, 
 a.Genus
;
-- Tutti i tipi di base associati ai tipi morfo-lessicali in più
-- famiglie linguistiche

select 
 a.Basistyp, 
 group_concat(distinct a.Sprache_Typ) as Sprachfamilien, 
 group_concat(distinct concat_ws(',',a.Typ, a.Sprache_Typ, a.Wortart, a.Affix, a.Genus) separator ' | ') as Morphtypen
from vap_ling_de a 
where 
 a.Art_Typ like 'morph_typ'
 and a.Basistyp is not null
group by a.Basistyp
having sprachfamilien like '%,%'
;
-- tipi di base associati ai tipi morfo-lessicali in più famiglie linguistiche
-- raggruppati per famiglie linguistiche

select 
 count(*) as Anzahl, 
 sprachfamilien, 
 group_concat(base_type order by base_type separator ', ') as basistypen 
from 
(select 
  a.base_type, 
  group_concat(distinct a.type_lang order by a.type_lang) as Sprachfamilien 
  -- group_concat(distinct concat_ws(',',a.Typ, a.Sprache_Typ, a.Wortart, a.Affix, a.Genus) separator ' | ') as Morphtypen 
 from z_ling a 
 where a.Type_kind like 'L' and a.Base_type is not null 
 group by a.id_base_type 
 having sprachfamilien like '%,%') sq 
group by sprachfamilien 
order by Anzahl 
;
-- Tipi di base presenti in più di una famiglia linguistica, 
-- raggruppati per dominio concettuale

select 
 kategorie, 
 count(*) as Anzahl, 
 group_concat(base_type separator ', ') as Basistypen 
from 
(select distinct 
  c.kategorie, 
  a.Base_Type 
 from z_ling a 
 join konzepte b on a.Id_Concept = b.Id_Konzept 
 join konzepte_kategorien c on b.Id_Kategorie = c.id_kategorie 
 where 
  a.Base_type in 
   (select distinct 
     a.base_type 
    from z_ling a 
    where 
     a.Type_Kind like 'L' 
     and a.Base_type is not null 
    group by a.Base_type 
    having 
     group_concat(distinct a.Type_Lang) like '%,%')
   ) sq 
group by sq.Kategorie
;
-- Tabella "Pivot", fornendo un quadro riassuntivo delle quantità dei tipi di base 
-- che sono connessi con tipi morfologici presenti in più di una famiglia linguistica
-- raggruppati per atlanti linguistici

select 
 aa.quelle,
 ifnull(bb.Anzahl,0) as `rom/ger/sla`,
 ifnull(cc.Anzahl,0) as `rom/ger`,
 ifnull(dd.Anzahl,0) as `ger/sla`,
 ifnull(ee.Anzahl,0) as `rom/sla`

from

-- table aa: lista delle fonti
(select distinct
  substring_index(Instance_Source,'#',1) as Quelle
 from z_ling) aa

left join

-- table bb: rom,ger,sla
(select quelle, sprachen, count(*) as Anzahl from
 (select *, count(*) from
  (select
    id_base_type,
    group_concat(distinct a.Type_Lang order by a.Type_Lang) as Sprachen,
    a.Base_Type
   from z_ling a
   join basistypen b on a.Id_Base_Type = b.ID_Basistyp
   where a.Type_Kind = 'L'
   group by a.id_base_type
   having group_concat(distinct a.Type_Lang order by a.Type_Lang) like '%,%'
  ) a
  join
  (select 
    id_base_type, 
    substring_index(b.Instance_Source,'#',1) as Quelle 
   from z_ling b 
  ) b
  using(id_base_type)
  group by b.quelle, id_base_type
  ) c
where sprachen like 'rom,ger,sla'
group by quelle, sprachen
order by length(sprachen) desc
) bb
on aa.quelle = bb.quelle

left join

-- table cc: rom,ger
(select quelle, sprachen, count(*) as Anzahl from
 (select *, count(*) from
  (select
   id_base_type,
   group_concat(distinct a.Type_Lang order by a.Type_Lang) as Sprachen,
   a.Base_Type
  from z_ling a
  join basistypen b on a.Id_Base_Type = b.ID_Basistyp
  where a.Type_Kind = 'L'
  group by a.id_base_type
  having group_concat(distinct a.Type_Lang order by a.Type_Lang) like '%,%'
 ) a
 join
 (select 
   id_base_type, 
   substring_index(b.Instance_Source,'#',1) as Quelle 
   from z_ling b 
 ) b
 using(id_base_type)
 group by b.quelle, id_base_type
 ) c
where sprachen like 'rom,ger'
group by quelle, sprachen
order by length(sprachen) desc
) cc
on aa.quelle = cc.quelle

left join

-- table dd: ger,sla
(select quelle, sprachen, count(*) as Anzahl from
 (select *, count(*) from
  (select
    id_base_type,
    group_concat(distinct a.Type_Lang order by a.Type_Lang) as Sprachen,
    a.Base_Type
   from z_ling a
   join basistypen b on a.Id_Base_Type = b.ID_Basistyp
   where a.Type_Kind = 'L'
   group by a.id_base_type
   having group_concat(distinct a.Type_Lang order by a.Type_Lang) like '%,%'
  ) a
 join
 (select 
   id_base_type, 
   substring_index(b.Instance_Source,'#',1) as Quelle 
  from z_ling b 
 ) b
 using(id_base_type)
 group by b.quelle, id_base_type
 ) c
where sprachen like 'ger,sla'
group by quelle, sprachen
order by length(sprachen) desc
) dd
on aa.quelle = dd.quelle

left join

-- table ee: rom,sla
(select quelle, sprachen, count(*) as Anzahl from
 (select *, count(*) from
  (select
    id_base_type,
    group_concat(distinct a.Type_Lang order by a.Type_Lang) as Sprachen, 
    a.Base_Type
    from z_ling a
    join basistypen b on a.Id_Base_Type = b.ID_Basistyp
   where a.Type_Kind = 'L'
   group by a.id_base_type
   having group_concat(distinct a.Type_Lang order by a.Type_Lang) like '%,%'
  ) a
  join
  (select 
    id_base_type, 
    substring_index(b.Instance_Source,'#',1) as Quelle 
    from z_ling b 
  ) b
  using(id_base_type)
  group by b.quelle, id_base_type
  ) c
where sprachen like 'rom,sla'
group by quelle, sprachen
order by length(sprachen) desc
) ee
on aa.quelle = ee.quelle

order by quelle
;

 


  1. Il testo è stato modificato dopo la traduzione. Degli sbagli eventuali sono responsabile io stesso. 

Sprachkontakt im Spiegel der VerbaAlpina-Datenbank (VA_DB)




(4059 Wörter)

Die folgenden Ausführungen sind als Ergänzungen zum Vortrag von Thomas Krefeld zu verstehen. Überschneidungen und Wiederholungen sind dabei nicht ganz ausgeschlossen. Der Focus liegt im Folgenden den tendenziell eher quantifizierenden Methoden, die speziell die Datenbank von VerbaAlpina, VA_DB, an die Hand gibt.

Komplementär zur Notwendigkeit, jeden einzelnen Basistypen gewissermaßen qualitativ in der Stratigraphie des alpinen Sprachraums zu lokalisieren, wie im Beitrag von Thomas Krefeld gezeigt werden sollte, lässt sich schon quantitativ grundsätzlich feststellen, dass sämtliche im Alpenraum verbreiteten morpholexikalischen Typen, die unterschiedlichen Sprachfamilien angehören, jedoch auf gemeinsame Basistypen zurückgehen, einen wie auch immer gearteten Sprachkontakt voraussetzen. Dasselbe gilt für alle vorrömischen oder lateinischen Basistypen, die ihren Weg in das Germanische oder Slawische gefunden haben, jedoch natürlich nicht für lateinische Basistypen, die ins Romanische gewandert sind.

Als Basistypen definiert VerbaAlpina den jeweils ältesten fassbaren morpholexikalischen Typen, dem erkennbar eine bestimmte lexematische Wurzel innewohnt. In Betracht kommen dabei im Wesentlichen Wörter aus dem Lateinischen, dem vorrömischen Substrat, dem Griechischen, dem Keltischen, dem Germanischen und dem Slawischen. Sofern möglich, erfolgt eine Identifizierung in einem definierten Referenzwörterbuch, wie z.B. dem lateinischen Wörterbuch von Karl Ernst Georges.

VerbaAlpina verwaltet sämtliche sprachbezogenen Daten in einer Vielzahl von Tabellen, die in ihrer Gesamtheit eine relationale Datenbank bilden. In einer dieser Tabellen sind die Basistypen versammelt. Die Tabelle dokumentiert neben der Orthographie eines Basistypen auch dessen Sprachzugehörigkeit, sowie, demnächst, auch den Verweis auf eventuelle Einträge in einem der Referenzwörterbücher.

Die Zuordnung zu den aktuell im Alpenraum verbreiteten morpholexikalischen Typen erfolgt, wie in relationalen Datenbanken üblich, durch die Zuordnung von Identifikationsnummern, sog. IDs. Im einfachsten Fall sieht eine solche Zuordnung folgendermaßen aus:

Die Tabelle der Basistypen enthält den Eintrag "butyru(m) (lat)":

ID_Basistyp Basistyp
128 butyru(m) (lat)

Die Tabelle der morpholexikalischen Typen ist ganz ähnlich strukturiert. Auch in ihr ist jeder Eintrag durch eine ID eindeutig identifiziert:

ID_Morphtyp Morphtyp
591 beurre / burro

Im einfachsten Fall erfolgt die Zuordnung eines Basistypen zu einem Morphtypen durch die Eintragung der ID des Basistypen in ein eigenes Feld in der Tabelle der Morphtypen:

ID_Morphtyp Morphtyp ID_Basistyp
591 beurre / burro 128

Speziell im Fall der deutschen Komposita kann es vorkommen, dass ein Morphtyp nicht nur einem, sondern auch zwei Basistypen zugeordnet ist. Dies ist z.B. der Fall beim deutschen Wort Alphütte. Es geht zum einen zurück auf den Basistypen "alpes" und zum anderen auf den Basistypen "hutta". In der strukturierten Abbildung im Tabellenformat stellt sich dies wie folgt dar:

ID_Basistyp Basistyp
53 alpes (vor)
48 hutta (ger)
ID_Morphtyp Morphtyp ID_Basistyp
7 Alphütte 53, 48

Die verkettete Eintragung der beiden IDs der Basistypen in der Tabelle der Morphtypen ist ungünstig. Aus diesem Grund erfolgt die Verwendung einer Zwischentabelle, in der die Kombination der Identifikationsnummern eingetragen wird:

ID_Morphtyp ID_Basistyp
7 48
7 53

Die Datenbank erledigt die logische und synoptische Kombination dieser nun insgesamt drei Tabellen, was schließlich zu folgender Darstellung führt:

ID_Morphtyp Morphtyp ID_Basistyp Basistyp
7 Alphütte 53 alpes (vor)
7 Alphütte 48 hutta (ger)

Ebenso wie jedem Basistypen ist auch jedem morpholexikalischen Typen eine Sprache zugeordnet. Die jeweilige Zugehörigkeit ist in den Datenbanktabellen als eigenes Merkmal registriert und kann in die gezeigte synoptische Verknüpfung mit eingebunden werden:

ID_Basistyp Basistyp Sprache_Basistyp ID_Morphtyp Morphtyp Sprache_Morphtyp
724 thûmo goh 639 dûmli(n)ge(n) ger
336 caldaria lat 2400 chaudière / caldaia rom
392 campus lat 525 ciampei rom
478 klětь sla 1714 klet sla
1165 prīmus lat 6519 prime / primo rom

Die Identifikationsnummern dienen nur der korrekten Zuordnung und können in der Darstellung einfach weggelassen werden, so dass sich ein übersichtlicheres Bild ergibt:

Basistyp Sprache_Basistyp Morphtyp Sprache_Morphtyp
*þūmōn ger dûmli(n)ge(n) ger
caldaria lat chaudière / caldaia rom
campus lat ciampei rom
klětь sla klet sla
prīmus lat prime / primo rom

In dem so strukturierten Datenbestand kann nun gezielt nach Sprachkontaktphänomenen gesucht werden. Die Kriterien sind von Thomas Krefeld bereits vorgestellt worden. In etwas formalisierter Schreibweise lassen sie sich vor dem Hintergrund der soeben vorgestellten Datenstruktur wie folgt darstellen:

Einfaches Muster: Ein Basistyp aus einer Sprachfamilie geht in eine andere Sprachfamilie über:

  • lateinisch/romanischer Basistyp -> germanischer Morphtyp
  • lateinisch/romanischer Basistyp -> slawischer Morphtyp
  • germanischer Basistyp -> slawischer Morphtyp
  • slawischer Basistyp -> germanischer Morphtyp

Komplexes Muster: Ein Basistyp aus einer Sprachfamilie geht in mehrere andere Sprachfamilien über:

  • lateinisch/romanischer Basistyp -> germanischer und slawischer Morphtyp
  • lateinisch/romanischer Basistyp -> romanischer und germanischer und slawischer Morphtyp

Für die Identifizierung dieser Muster im relationalen Datenformat formuliert man die Bedingung, dass die Felder Sprache_Basistyp und im Feld Sprache_Morphtyp bestimmte Werte aufweisen müssen. Die Datenbanksprache SQL basiert dabei auf dem Englischen. Für das Auffinden von lateinischen Basistypen, die ins Germanische gewandert sind, schreibt man z.B.:

... where sprache_basistyp = 'lat' and sprache_morphtyp = 'ger'

Das Ergebnis sieht dann wie folgt aus (Ausschnitt):

Basistyp Sprache_Basistyp Morphtyp Sprache_Morphtyp
*brŏcca lat Britschger ger
unguere lat Anke ger
cūpella lat Kübel ger
caseu(m) lat Käsestängel ger
camera lat Milchkammer ger
butyru(m) lat Butter ger
unguere lat Ankentutel ger

Selbstverständlich lassen sich die entsprechenden Ergebnisse zählen und damit auch weitere Berechnungen anstellen. So ist es z.B. möglich zu berechnen, wie häufig lateinische Basistypen in germanischen Morphtypen vertreten sind, die einer bestimmten Konzeptdomäne zugeordnet sind. Solche und ähnliche statistische Analysen sind aktuell als Themenvorschläge für Studentenpraktika am Institut für Statistik der Ludwig-Maximilians-Universität ausgeschrieben.

Für die Identifizierung der etwas komplexeren Fälle, in denen ein Basistyp seinen Weg in mehrere andere Sprachfamilien gefunden hat, muss der Datenbestand nach Basistypen gruppiert und die verknüpften morpholexikalischen Typen sowie deren Sprachzugehörigkeit konkateniert abgebildet werden:

Die präsentierten Beispiele können im Einzelfall durchaus noch Fehler enthalten, die auf inkorrekten Identifizierungen von Basistypen basieren. Diese werden im Laufe der Arbeit am Material beseitigt werden. Es geht hier im Moment nur darum, die Methodik vorzuführen.

Aktuell sind insgesamt 14 Basistypen in allen drei Sprachfamilien vertreten, 32 im romanischen und germanischen Sprachraum, 28 im romanischen und slavischen sowie 7 im germanischen und slavischen. Hinzu kommen derzeit 32 weitere Basistypen, die ausschließlich entweder ins Germanische oder ins Slavische übergegangen sind.

Das bislang von VerbaAlpina verwendete Datenmodell besitzt durchaus noch seine Schwächen. Bislang ist es nur möglich, einen morpholexikalischen Typen an einen bestimmten Basistypen zu binden. Als Beispiel seien der germanische morpholexikalische Typ "Käser" und der romanische Typ "casera" genannt. Die folgende Karte zeigt die Verbreitung des germanischen morpholexikalischen Typen Käser (grün) und des romanischen Typen casera (gelb):

Beide Typen sind zweifelfsfrei vom lateinischen casearius herzuleiten, das seinerseits wiederum mit caseus zusammenhängt. Somit stellt sich die Frage, für welchen Basistypen man sich entscheidet: casearius oder caseus. Derzeit sind beide morpholexikalischen Typen mit dem Basistyp caseus verbunden, was sie mit anderen morpholexikalischen Typen wie z.B. dem deutschen Käse verbindet. Daraus ergibt sich eine gewisse Asymmetrie, besteht doch eine engere Verbindung zwischen Kaser und casera als etwa zwischen Kaser und Käse. Würde man nun Kaser und casera den Basistypen casearia zuweisen, ginge wiederum der offenkundig auch vorhandene Zusammenhang mit Käse verloren. Wie damit umzugehen ist, ist noch nicht entschieden. Eine Möglichkeit bestünde darin, die Abbildung der Basistypen im Datenschema weiter zu differenzieren, also etwa zu dokumentieren, dass das lateinische casearius mit caseus verbunden ist.

Die Grenze zwischen den Verbreitungsgebieten der beiden morpholexikalischen Typen verläuft ziemlich exakt entlang der Grenze zwischen dem germanischen (grün) und dem romanischen (rot). Hinzu kommen weitere Gebiete wie natürlich das slawische sowie eine Reihe von Übergangszonen und Enklaven, in denen aktuell Mehrsprachigkeit herrscht. Die Definition der Sprachzugehörigkeit erfolgt im Datenbestand von VerbaAlpina auf Gemeindeebene. Bislang erfolgte die entsprechende Zuweisung mehr oder minder intuitiv. Demnächst orientiert sich die entsprechende Definition an der Sprachzugehörigkeit der Informanten, von denen die Belege aus einer Gemeinde stammen. Sobald für eine Gemeinde Informanten registriert sind, die unterschiedlichen Sprachfamilien zuzuordnen sind, erhält die entsprechende Gemeinde den Status der Mehrsprachigkeit. Auf diese Weise ist eine transparente und belastbare Regelung für die Feststellung von Ein- oder Mehrsprachigkeit gefunden. Durch die Chronoreferenzierung der von VerbaAlpina gesammelten Daten lassen sich, wenigstens theoretisch, auch Veränderungen im Verlauf der Sprachgrenzen dokumentieren und visualisieren. Die Aussagekraft der entsprechenden Analyseergebnisse hängt aber natürlich von der Dichte und der Homogenität des gesammelten Datenmaterials ab.

Ich möchte die Gelegenheit nutzen und auf neuere Entwicklungen im Projekt VerbaAlpina hinzuweisen.

Seit kurzem ist es möglich, auf der interaktiven online-Karte von VerbaAlpina nicht nur die über das Menü abrufbaren Kategorien kartieren zu lassen, sondern auch nahezu beliebige andere analytische Abfrageergebnisse.

Aufruf des Formulars für die Eingabe von SQL-Statements

Als Beispiel kann hier die Kartierung der morpholexikalischen Typen vorgeführt werden, die mit Basistypen verbunden sind, die sowohl im germanischen wie auch im slavischen Sprachraum verbreitet sind.

Qualitative Darstellung der Verteilung von morpholexikalischen Typen, denen Basistypen zugrunde liegen, die sowohl im germanischen wie auch slawische Sprachraum verbreitet sind (Link zur Karte: https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=xxx&tk=1533)

Die synoptische Überlagerung der Sprachfamiliengebiete und der Verbreitung der Basistypen kann aufschlussreiche Muster ergeben, muss dies aber natürlich nicht zwingend. Es bietet sich daher an, auf der Suche nach aussagekräftigen Mustern durch Veränderung der Parameter immer neue Kartierungen zu erzeugen. Allerdings stoßen manche Kartierungsversuche an natürliche Grenzen. So ist das System z.B. mit der Kartierung der Verbreitung von morpholexikalischen Typen, die sowohl im romanischen als auch im germanischen Sprachraum verbreitet sind, noch überfordert. Die entsprechende Kartierung auf Basis der Gemeinden, für die entsprechende Belege vorliegen, würde insgesamt über 1400 Kartensymbole umfassen. Der Nutzen einer Kartierung mit einer derart hohen Anzahl von Kartensymbolen wäre ohnehin sehr begrenzt. Eine quantifizierende Darstellung der Ergebnisse, die auf der online-Karte von VerbaAlpina ebenfalls möglich ist, könnte jedoch einen guten Überblick liefern. Die nachfolgende Karte zeigt die quantifizierende Abbildung der oben dargestellten qualitativen Karte auf Basis von Verwaltungseinheiten mittlerer Größe (sog. NUTS3-Regionen). Die Farbgebung der einzelnen Regionen orientiert sich an der Anzahl von Belegpunkten innerhalb der Regionen.

Quantifizierende Darstellung der Verteilung von morpholexikalischen Typen, denen Basistypen zugrunde liegen, die sowohl im germanischen wie auch slawische Sprachraum verbreitet sind (Link zur Karte: https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=xxx&tk=1531)

Neben der kartographischen Abbildung der Analyseergebnisse bietet die Datenbank auch rein arithmetisch-statistische Analysemöglichkeiten. So ließe sich z.B. die Frage stellen, ob ganz bestimmte Konzeptdomänen besonders häufig mit morpholexikalischen Typen verbunden sind, die über die Grenzen von Sprachfamilien hinweg verbreitet sind.

Bereits jetzt sind statistische Analysen dieser Art mit dem Datenbestand in der VerbaAlpina-Datenbank möglich. Aktuell sind dafür noch Kenntnisse in der Abfragesprache SQL nötig. Künftig sollen jedoch auch spezifisch statistische Tools wie z.B. das weit verbreitete Statistikprogramm R zur Verfügung stehen.

VerbaAlpina steht in Verbindung mit den Entwicklern der Platform MAX, die derzeit in Kooperation zwischen der Kunstgeschichte und der Statistik an der LMU entwickelt wird.

Screenshot aus dem statistischen Analysetool MAX (https://dhvlab.gwi.uni-muenchen.de/max/)

MAX soll primär der statistischen Analyse von Museumsbeständen dienen. Das System ist jedoch so ausgelegt, dass damit im Grunde beliebige relational strukturierte Datensätze mit statistischen Methoden untersucht werden können. Innerhalb von VerbaAlpina soll demnächst ein abgeschlossener Bereich entstehen, der den Partnern von VerbaAlpina zur Verfügung gestellt wird. Innerhalb dieses Bereichs können dann neben den VerbaAlpina-Daten auch persönliche Daten und auch beide in Kombination statistisch analysiert und kartographisch visualisiert werden. VerbaAlpina bezeichnet diesen abgeschlossenen Bereich als "Forschungslabor". Eine wesentliche Funktionalität dieses Forschungslabors wird die Möglichkeit zum Teilen von Daten, Visualisierungen und Analysen sein, in etwa in der Art, wie man es schon von zahlreichen Diensten im Internet wie z.B. Google und Facebook kennt. Die im Rahmen des MAX-Projekts entwickelten Funktionalitäten zur statistischen Datenanalyse sollen in das VerbaAlpina-Forschungslabor integriert werden.

Ich danke Ihnen für Ihre Aufmerksamkeit.



-- Verknüpfung zwischen Basis- und Morphtypen
select * from basistypen a
join vtbl_morph_basistyp b using(id_basistyp)
join morph_typen c using (id_morph_typ)
;
-- Morphtypen, die mehr als einem Basistypen zugeordnet sind.
select 
 group_concat(distinct c.Orth) as Morphtyp,
 group_concat(a.Orth) as Basistypen
from basistypen a
join vtbl_morph_basistyp b using(id_basistyp)
join morph_typen c using (id_morph_typ)
group by id_morph_typ
having count(*) > 1
;
-- Basistyp butyru(m) und Morphtyp beurre / burro
select 
 a.ID_Basistyp,
 concat(a.Orth, ' (', a.Sprache, ')') as Basistyp,
 c.ID_morph_Typ as ID_Morphtyp,
 c.Orth
from basistypen a
join vtbl_morph_basistyp b using(id_basistyp)
join morph_typen c using (id_morph_typ)
where c.Orth like '%burro%'
limit 1
;
-- Beispiel für die kombinierte Darstellung von Basistypen und
-- morpholexikalischen Typen samt jeweiliger Sprachzuordnung

select
-- a.ID_Basistyp,
a.Orth as Basistyp,
a.Sprache as Sprache_Basistyp,
-- c.ID_morph_Typ as ID_Morphtyp,
c.Orth as Morphtyp,
c.Sprache as Sprache_Morphtyp
from basistypen a
join vtbl_morph_basistyp b using(id_basistyp)
join morph_typen c using (id_morph_typ)
where a.Orth in ('caldaria','klětь','prīmus','*þūmōn','campus')
group by a.Orth
-- order by rand()
limit 5
;
-- Anzahl von Basistypen, die in mehreren Sprachfamilien vertreten sind

select morphtyp_sprachen, count(*) as Anzahl from
(
select
 a.Orth as Basistyp,
 a.Sprache as Basistyp_Sprache,
 group_concat(distinct c.Orth, ' (', c.Sprache, ')' order by c.Sprache, c.Orth separator ' | ') as Morphtypen,
 group_concat(distinct c.Sprache order by c.Sprache) as Morphtyp_Sprachen
from basistypen a
join vtbl_morph_basistyp b using(id_basistyp)
join morph_typen c using (id_morph_typ)
group by a.Orth, a.Sprache
having group_concat(distinct c.Sprache) like '%,%'
-- order by char_length(group_concat(distinct c.Sprache)) desc, group_concat(distinct c.Sprache)
) sq
group by morphtyp_sprachen
;
-- Vorrömische und lateinische Basistypen, die entweder ins Germanische 
-- oder ins Slavische gewandert sind

select 
 a.Orth as Basistyp, 
 a.Sprache as Sprache_Basistyp, 
 group_concat(distinct c.Sprache) as Sprache_Morphtyp, 
 c.Orth as Morphtyp
from basistypen a
join vtbl_morph_basistyp b using(Id_Basistyp)
join morph_typen c using(ID_morph_Typ)
where 
 a.Sprache like 'lat' 
 or a.Sprache like 'vor'
group by a.Orth
having 
 group_concat(distinct c.Sprache) not like '%rom%'
 and group_concat(distinct c.Sprache) not like '%,%'
;

 

Der öffentlich zugängliche Teil von VerbaAlpina, gleichsam das Schaufenster des Projekts, präsentiert sich auf einem Internet-Portal unter der Adresse www.verba-alpina.gwi.uni-muenchen.de. Dort findet sich mit der interaktiven Online-Karte auch der zentrale Zugang zu dem von VerbaAlpina gesammelten Material. Die Karte erlaubt im Wesentlichen die Visualisierung der Verbreitung bestimmter morpholexikalischer Typen, wobei die Wahlmöglichkeiten auf die technisch implementierten Filterfunktionen beschränkt sind. Die Auswahl kann entweder aus semasiologischer oder aus onomasiologischer Perspektive erfolgen, die Kartierung der Sprachdaten kann außerdem noch kontrastiv ergänzt werden um Daten der "sprachbezogenen Peripherie" wie etwa die Fundstellen antiker lateinischer Inschriften im Alpenraum. Neben der qualitativen Abbildung der Daten ist nach Auswahl einer arealen Gliederung auch die arealbezogene quantifizierende Abbildung der Daten möglich.

Sämtliche auf der Karte darstellbaren Daten werden im Hintergrund in einer relationalen MySQL-Datenbank verwaltet. Diese Datenbank bietet eine Vielzahl an Möglichkeiten der Datenanalyse, die deutlich über die Optionen hinausgehen, die auf der Karte zugänglich sind. Der unmittelbare Zugang zur VerbaAlpina-Datenbank (VA_DB) erfolgt u.a. über ein generisches Web-Interface (PhpMyAdmin). Daneben sind auch andere, teils komfortablere und schnellere Zugangsarten möglich, etwa unter Verwendung sog. Client-Programme wie z.B. MySQL-Workbench oder HeidiSQL. Die direkte Nutzung von VA_DB ist den Kooperationspartnern von VerbaAlpina vorbehalten. Von Vorteil ist die Kenntnis einer speziell für relationale Datenstrukturen entwickelten Programmiersprache namens SQL. Erst der souveräne Umgang mit dieser Sprache gestattet es, das Potential des VerbaAlpina-Datenbestands voll auszuschöpfen. Im Folgenden soll anhand exemplarischer Analysen, die speziell auf die Dimension des Sprachkontakts fokussieren, eine Vorstellung von den Möglichkeiten gegeben werden.

VA_DB enthält unter anderem zwei Tabellen, in denen die ansonsten hauptsächlich aus informatischen und technischen Gründen auf eine Vielzahl von Detailtabellen verteilten Daten gleichsam wie in einem Brennglas gebündelt sind. Eine der beiden Tabellen enthält die Sprachdaten, die andere die der sprachbezogenen Peripherie. Beide Tabellen repräsentieren Instanzen der Schnittstelle VAP (= VA ⇒ Partner) und tragen den Namen vap_ling_de bzw. vap_geo_de. Jede der beiden Tabellen liegt in mehreren Sprachversionen vor (vap_ling_it, vap_ling_fr, vap_ling_slo ...).

Ausschnitt aus der Schnittstelle vap_ling_de

Die Schnittstelle vap_ling ist eine Tabelle mit einer Vielzahl an Spalten, die sich bezüglich ihres Inhalts in sechs Gruppen unterteilen lassen:

-- 1) Referenzsystem: Angaben zur Herkunft eines Sprachbelegs
Id_Beleg
Beleg
Quelle_Beleg
Sprache_Informant
Publikationsjahr
Erhebungsjahr

-- 2) Bedeutung des Belegs: Konzeptzuweisung
Name_Konzept
Beschreibung_Konzept

-- 3) Typisierung: Klassifizierung der Sprachbelege (Morpholexikalischer Typ, phonetischer Typ)
Art_Typ
Typ
Sprache_Typ
Wortart
Affix
Genus
Referenz_Typ
Quelle_Typisierung

-- 4) Ursprung des Typs
Basistyp
Basistyp_Unsicher
Etymon
Sprache_Etymon

-- 5) Georeferenzierung
Breitengrad
Laengengrad
Gemeinde

-- 6) Sonstiges
Bemerkungen

Die Gruppe 1) enthält das sog. Referenzsystem, das in erster Linie Angaben zur Herkunft des in der Spalte `Beleg` gespeicherten Einzelbelegs beinhaltet. Generell stammen alle bislang in VA_DB gesammelten Einzelbelege aus Sprachatlanten, georeferenzierten Wörterbüchern oder von der sog. Crowd, also von Informanten, die Sprachdaten über das im Internet zugängliche Crowd-Sourcing-Tool beigesteuert haben. Die Einzelbelege werden nach Möglichkeit in IPA-Gestalt, der phonetischen Referenztranskription von VA, abgebildet. Die Daten in dieser Gruppe 1) enthalten auch Informationen zur Chronoreferenzierung, die schließlich für Analysen im Hinblick auf den Sprachwandel von großem Interesse sein können. In den meisten Fällen ist diese Chronoreferenzierung von den Publikationsjahren der Sprachatlanten und Wörterbücher bzw. von den Zeitpunkten der dahinterstehenden Erhebungen abgeleitet, die von sehr unterschiedlicher Genauigkeit sein können. Im Fall des AIS z.B. sind die Erhebungsdaten häufig auf den Tag genau dokumentiert, in anderen Fällen lassen sich lediglich Zeiträume von mehreren Jahren feststellen.

Die Gruppe 2) dient der Dokumentation des Konzeptes, das mit dem Einzelbeleg im konkreten Fall bezeichnet wird. Die Gruppen 3) bis 5) enthalten dem Einzelbeleg von den Mitarbeitern von VerbaAlpina zugewiesene sprachliche Klassifizierungen. Im Mittelpunkt steht dabei die Identifizierung der morpholexikalischen Typen, die über die Attribute "Orthographie" (= Typ), "Sprachzugehörigkeit", "Wortart", "Affigierung" und "Genus" definiert sind. Im Feld `Referenz_Typ` sind Verweise auf Lemmata in bestehenden Wörterbüchern wie etwa dem Duden, dem schweizerdeutschen Idiotikon oder auch der italienischen Treccani eingetragen.

Die Gruppe 4) enthält Informationen zur Herkunft eines morpholexikalischen Typs. Die Kategorie "Basistyp" wurde eingeführt, weil es vielfach nicht möglich ist zu entscheiden, auf welchem Weg ein offenkundiger lexikalischer Vorläufer eines morpholexikalischen Typs schließlich in diesen eingeflossen ist. Grundsätzlich kann dabei das klassische Szenario im Sinne eines Etymons vorliegen, ein Typ sich also über die Zeit in einer homogenen Sprachgemeinschaft aus einer älteren Vorstufe entwickelt haben. Daneben besteht jedoch auch die Möglichkeit der Entlehnung im Rahmen einer Sprachkontaktsituation. Auch die unabhängige Entwicklung zweier offenkundig miteinander verwandter morphlexikalischer Typen in unterschiedlichen Sprachfamilien aus einem gemeinsamen Vorläufer gehört hierher. Die Kategorie Basistyp lässt eine Entscheidung in dieser Hinsicht bewusst offen.

Die Gruppe 5) schließlich leistet die geographische Verankerung der sprachlichen Einzelbelege.

Die hier aufgespannte und kurz skizzierte Matrix bietet nun eine Vielzahl von Ansätzen für analytische Berechnungen, die u.a. mit der Datenbanksprache SQL durchgeführt werden können. Vor dem Hintergrund der Frage nach Sprachkontaktphänomenen und ihren Reflexen in den VerbaAlpina-Daten bietet sich zunächst eine Analyse der sprachgrenzüberschreitenden Verbreitung der bislang registrierten Basistypen an.

Die Dimension des Sprachkontakts spiegelt sich in den VerbaAlpina-Daten zunächst in der Zuweisung von Sprachfamilien auf den folgenden Ebenen. So ist

  • jeder Gemeinde,
  • jedem Informanten
  • und jedem morpholexikalischen Typ

eine bestimmte Sprachfamilie zugeordnet. VerbaAlpina unterscheidet nicht zwischen Einzel- bzw. Nationalsprachen. Es existieren insgesamt 7 unterschiedliche Kategorien von Sprachgebieten. Zu den drei "homogenen" Gebieten des Romanischen, Germanischen und Slawischen gesellen sich insgesamt vier Kategorien von Mischgebieten, die sich entweder entlang der Sprachgrenzen verteilen oder auch als Exklaven isoliert innerhalb eines fremden Sprachgebiets liegen. Die Zuweisung der einzelnen Gemeinden zu diesen Kategorien ist kaum objektiv durchführbar und ist im Einzelfall sicher diskussionswürdig. Dies gilt hauptsächlich für die erwähnten Mischkategorien, in denen Mehrsprachigkeit vorliegt, bzw. überhaupt für Regionen in der Nähe der Sprachgrenzen. So ist durchaus zu hinterfragen, weshalb die zimbrische Enklave von Lusern als rein germanisches Sprachgebiet klassifiziert ist, während die benachbarten Sette Comuni als romanisch-germanisches Mischgebiet gelten. Auch die Kategorisierung von Sappada als rein germanisches Sprachgebiet dürfte Widerspruch hervorrufen.

Die Zuweisung eines Informanten zu einer bestimmten Sprachfamilie basiert im Fall der retrodigitalisierten Sprachatlas- und Wörterbuchdaten entweder auf der Ausrichtung der Publikation oder auf spezifizierten Angaben innerhalb der Publikation. In den allermeisten Fällen gehören sämtliche Informanten eines Atlas' oder eines Wörterbuchs genau einer Sprachfamilie an. Einzige Ausnahme ist der ASLEF, dessen Informanten unterschiedlichen Sprachfamilien angehören, die jeweils angegeben sind (ger: 2 | rom: 140 | sla: 7). VerbaAlpina nutzt für den Ausgleich von Dateninkonsistenzen das sog. Crowdsourcing-Verfahren. In diesem Fall legen die sog. "Crowder" ihre Sprachzugehörigkeit selbst fest.

Die Zuordnung eines morpholexikalischen Typs zu einer bestimmten Sprachfamilie ergibt sich unmittelbar aus der Sprachfamilienzugehörigkeit des Informanten, von dem der morpholexikalische Typ stammt. Eine abweichende Sprachfamilienzugehörigkeit zwischen Informant und seinen Äußerungen ist demnach nicht möglich.

Sosehr also die Zuweisung von Sprachfamilien auf einer der vorgestellten Ebenen im Einzelfall und speziell in der Nähe von Sprachgrenzen prekär sein mag, so nützlich ist diese Kategorisierung aufs Ganze gesehen und vor allem abseits der Übergangsregionen, also gleichsam im "Kernland" der jeweiligen Sprachfamilien als Variable, deren Ausprägung als Parameter bei Datenanalysen Berücksichtigung finden kann.

Unabhängig von der vorgeführten Kategorisierung spiegelt sich die Dimension des Sprachkontakts vor allem auf der Ebene der sogenannten Basistypen wieder, die im Rahmen der Identifizierung der morphosyntaktischen Typen durch VerbaAlpina vorgenommen wird. Das Konzept des Basistyps erlaubt die Identifizierung einer lexematischen Basis, wie sie auch bei der Feststellung eines Etymons erfolgt, lässt dabei aber die Details des Zusammenhangs zwischen dem morpholexikalischen Typ und der lexematischen Basis zunächst offen. Als Beispiel seien die folgenden morpholexikalischen Typen genannt, die alle die lexematische Basis baita enthalten:

Die hier gelisteten insgesamt zwölf morpholexikalischen Basistypen enthalten offenkundig die selbe lexematische Basis. Die Aufstellung lässt jedoch nicht erkennen, ob sich einzelne der Vertreter direkt aus den anderen entwickelt haben, oder ob alle der gelisteten morpholexikalischen Typen auf einen gemeinsamen Vorläufer zurückgehen.

Fragen dieser Art lassen sich also zumindest mit der aktuell vorliegenden Datenstruktur in der VerbaAlpina-Datenbank nicht beantworten. Auf der anderen Seite ist es mit Hilfe der Datenbank jedoch möglich, sämtliche Basistypen aufzufinden, die mit morpholexikalischen Typen aus mehr als einer Sprachfamilie verknüpft sind. Die entsprechende Abfrage lautet:

-- SQL-Statement: Zeige alle Basistypen, die morphlexikalischen Typen in 
-- unterschiedlichen Sprachfamilien zugeordnet sind

select 
 a.Basistyp, 
 group_concat(distinct a.Sprache_Typ) as Sprachfamilien, 
 group_concat(distinct concat_ws(',',a.Typ, a.Sprache_Typ, a.Wortart, a.Affix, a.Genus) separator ' | ') as Morphtypen
from vap_ling_de a 
where 
 a.Art_Typ like 'morph_typ'
 and a.Basistyp is not null
group by a.Basistyp
having sprachfamilien like '%,%'
;

 

Das Ergebnis umfasst derzeit (Juni 2018) insgesamt 78 verschiedene Basistypen. Eine Gruppierung nach vorhandenen Sprachfamilienkonstellationen zeigt, dass zehn Basistypen in allen drei Sprachfamilien, 7 im germanischen und slavischen, 30 im romanischen und germanischen sowie 31 im romanischen und slavischen Sprachraum  verbreitet sind.

Bei der Interpretation dieser und aller anderen errechneten Zahlen ist natürlich stets die Zufälligkeit des bislang von VerbaAlpina erfassten Materials und die bestehende Beschränkung auf bestimmte Konzeptdomänen zu bedenken.

Die strukturierte Erfassung des Datenmaterials erlaubt weitergehende Gruppierungen. So kann z.B. festgestellt werden, welche Konzepte mit den sprachraumübergreifenden Basistypen verbunden sind.

Manche der Elemente der obigen Auflistung mögen auf den ersten Blick irritieren. So erscheint z.B. der aus dem Lateinischen stammende Basistyp mulgere neben der Kategorie der TÄTIGKEITEN, der man dieses Verb primär zuordnen würde, auch in den Kategorien GEBÄUDE und GEFÄßE. Dies erklärt sich bisweilen durch die Einbindung der Einzelelemente in Mehrwortlexien wie hier z.B. in bidone a mungere (EIMER). mulgere steckt jedoch auch in einer germanischen Bezeichnung für den VIEHSTALL AUF DER ALM, melchster, was das Auftreten von mulgere in der Kategorie GEBÄUDE erklärt.

 

 

 

select 
a.Beleg,
a.Art_Typ,
a.Typ,
a.Wortart,
a.Affix,
a.Genus,
a.Referenz_Typ

from vap_ling_de a

group by a.Beleg, a.Art_Typ, a.Typ, a.Wortart, a.Affix, a.Genus, a.Referenz_Typ
;

select * from z_ling where id_instance in

(
select id_beleg from vap_ling_de
where basistyp in
(
select
a.Basistyp
-- group_concat(a.Beschreibung_Konzept separator ' | '),
-- group_concat(distinct a.Sprache_Typ) as Sprachfamilien,
-- group_concat(distinct concat_ws(',',a.Typ, a.Sprache_Typ, a.Wortart, a.Affix, a.Genus) separator ' | ') as Morphtypen
from vap_ling_de a
where
a.Art_Typ like 'morph_typ' collate utf8mb4_general_ci
and a.Basistyp is not null
group by a.Basistyp
-- , a.Beschreibung_Konzept
having group_concat(distinct a.Sprache_Typ) like 'rom,ger' or group_concat(distinct a.Sprache_Typ) like 'ger,rom'
)
and art_typ like 'morph_typ' collate utf8mb4_general_ci
group by gemeinde
)
group by id_community

Zum Aussagewert der Crowd-Belege




(1502 Wörter)

Thomas Krefeld

Lexikalische Typen aus Crowdbelegen

Im Rahmen von VerbaAlpina wurde ein Tool zur Erhebung von Sprachdaten über das Internet (sog. Crowdsourcing) entwickelt, das auf lexikalische Typen ausgerichtet ist (vgl. Mitmachen): Interessierte Nutzer (die Crowder) wählen eine Gemeinde im Untersuchungsgebiet sowie mindestens ein Konzept und geben dessen Bezeichnung ein.

Die  vorgegebenen Konzepte der Erhebung, d.h. die Stimuli, werden in standardsprachlicher Orthographie präsentiert und deshalb oft als Bezeichnungen wahrgenommen, die in der Antwort bestätigt oder durch Synonyme ersetzt werden. Diesen lexikologischen Zweck kann das Crowdsourcing gut erfüllen, wie sich an etlichen Beispielen zeigen lässt. So geht aus der folgenden, nach wissenschaftlichen Quellen einerseits und Crowd andererseits differenzierten Karte deutlich hervor, dass bekannte Forschungslücken – hier: Österreich und Südtirol – durch Online-Befragungen geschlossen werden können. Es spricht nichts dagegen, deren Ergebnisse als Belege für die lokale Verbreitung der gelieferten Typen zum gegenwärtigen Zeitpunkt anzuerkennen. Gelegentlich ergibt sich auch ein neues, differenziertes Bild, da lokale Varianz zu Tage tritt, wie im folgenden Beispiel, wo in Westendorf im Allgäu neben dem Typ Butter, den der  BSA liefert, auch synonymes Schmalz und damit ein standardfernerer Typ belegt wird (vgl. Karte).

Die Crowder werden als ein eigener Quellentyp behandelt, der komplementär zu den anderen, im traditionellen Sinn wissenschaftlichen Quellen (Atlanten , Wörterbücher) angezeigt wird, der sich aber auch systematisch damit vergleichen lässt. In der Tat verdient das Verhalten der Crowder auch jenseits der gelieferten Daten in mehrfacher Hinsicht  Interesse, weil es Einblick in das Sprachwissen der Sprecher selbst gestattet; es eröffnet sozusagen die emische Perspektive1 der Laien. Zunächst muss man jedoch einräumen, dass manche Auffälligkeiten durchaus unklar sind und auch Anlass zur Spekulation geben. Schon die ganz unterschiedliche Beliebtheit der gewählten Konzepte ist alles andere als selbstverständlich, denn ausgerechnet die bekanntesten Begriffe liegen sehr deutlich an der Spitze. Darin könnte zum Ausdruck kommen, dass  die Dialektkompetenz nicht immer so gross ist, wie das rein medial geweckte Interesse mitzumachen. A priori würde man von einem Crowder mit souveräner Kompetenz ja eher seltene Bezeichnungen für besonders spezielle Konzepte erwarten, die nur dem sachlich Eingeweihten vertraut sind. Hier eine Übersicht der beliebtesten Konzepte:

Crowdbelege und phonetische Salienz

Bei der Konzeption der Crowdsourcing-Funktion von VerbaAlpina wurde bewusst darauf verzichtet irgendwelche Vorgaben für die Verschriftung der Formen zu machen (zum Problem der Dialektschreibung (vgl. Kleiner 2006) ; ganz davon abgesehen, dass die technischen und medialen Hürden möglichst niedrig gehalten werden sollten, wäre es unbillig die konsequente Verwendung einer standardisierten Transkription (etwa mit dem für die Transkription der wissenschaftlichen Quellen benutzen, internationalen System der IPA) zu verlangen. Es ist aber keineswegs so, dass die Crowder mehr oder weniger automatisch auf die Standardorthographie zurückgreifen würden, wie sich sogar im Fall der oben erwähnten Allerweltsbegriffe erweist.

Relative phonetische Adäquatheit: das Beispiel Alm/Alp

Aus geolinguistischer Sicht ist vielmehr bemerkenswert, dass die Crowd–Schreibungen räumliche Muster erkennen lassen. Exemplarisch ist der weitverbreitete Typ Alp bzw. Alm, der auch dem Namen des ganzen Gebirges Alpen/Alpes/Alpi usw. zu Grunde liegt und der auf den vorrömischen Basistyp alpes zurückgeht. In den von der Crowd gelieferten Schreibungen des deutschsprachigen Teilgebiets erscheinen die vier Varianten <Alp>, <Alm>, <Olm>, <Oim>.  Die Standardvariante <Alm> ist selten und taucht nur gestreut auf, d.h. ohne ein spezifisches Gebiet zu markieren; die drei anderen sind dagegen raumbildend  (vgl. Karte) und in ihrer Schreibung eindeutig phonetisch intendiert:

  • Der Anfangsvokal <o–> neben <a–> lässt die Labialisierung (‘Rundung’) des /a/ im Bairischen erkennen.
  • Die Varianz der Endkonsonanz, <–p> vs <–m>, gilt zwar auch  im regionalen Standard (Schweizer Standard Alp vs. Alm in den Standardvarietäten Deutschlands und Österreichs); aber darauf lassen sich die Crowdbelege gerade nicht abbilden; die Grenze, die sich aus den Crowd–Schreibungen ergibt, verläuft vielmehr durch Westtirol und entspricht grosso modo den Verhältnissen, die uns die wissenschaftlichen  Quellen liefern.
  • Die Vokalisierung des Laterals /l/ erscheint ebenfalls dort, wo sie durch die Atlanten verortet wird; im übrigen entspricht sie ganz zuverlässig der dialektalen Phonetik, da sie nur in labialer Umgebung vorkommt, nämlich zwischen <o–> und <–m>; das Verbreitungsgebiet liegt vollständig in dem Gebiet, wo der TSA Formen mit [-l-] verzeichnet (vgl. Karte. Die Verbindung von <a-> und <-i->, d.h. der Typ *<aim> kommt dagegen nicht vor; er wird nur scheinbar auf der Karte inmitten des <Oim>-Gebiets, nämlich für Alpbach angezeigt, denn bei genauerer Betrachtung handelt es sich um <åim>, d.h. ein offenbar linguistisch vorgebildeter Crowder hat ein gerundetes /a/ mit Hilfe eines diakritischen Zeichens notiert.

Selektive Wiedergabe

Das eigentlich Bemerkenswerte besteht allerdings weniger in durchgängiger graphischer Wiedergabe der Phonetik als viel mehr in der phonetischen Unterspezifiziertheit der Schreibungen. Denn es werden ja weder alle phonetischen Merkmale der lokalen Varianten noch alle Unterschiede zwischen der jeweiligen Dialektvariante und der Standardvariante wiedergegeben, sondern die Crowder lassen sich ganz offensichtlich von unterschiedlichen Graden perzeptiver Salienz leiten, die durchaus nicht zufällig zu sein scheinen. Es sei jedoch im Einzelfall dahin gestellt, ob diese Salienz unmittelbar auf die Audition zurückführt, oder ob sie sich mittelbar, d.h. aufgrund regional frequenter Schreibtraditionen für einzelne Wörter und somit aufgrund visueller Perzeption verfestigt hat; in beiden Fällen können auch soziale Konditionierungen der Salienz durch konventionalisierte auditive Schibboletheffekte im Spiel sein.

Ein charakteristisches Beispiel für starke phonetische Salienz liefern die Crowd-Schreibungen des Typs Milch. Die beiden charakterischen mittelbairischen Varianten, nämlich die Vokalisierung des vorkonsonantischen  [l] einerseits (Typ: Muich) und die Vokalisierung des auslautenden [-ç] (Typ Milli) andererseits werden systematisch verschriftet; die Standardvariante wird dagegen im Verbreitungsgebiet dieser Varianten praktisch nicht benutzt (vgl. die Karte der Crowd-Schreibungen).

Phonetische Salienz und Orthographie im Sprecherwissen

Die Problematik der selektiven Wiedergabe einzelner und offenkundig besonders salienter Merkmale sowie ihrer unterschiedlichen, nicht immer eindeutigen  Konditionierung lässt sich sehr schön am Beispiel des morpho-lexikalischen Typs von deu. Butter illustrieren. Die Sprachatlanten zeigen ganz eindeutig, dass die oberdeutschen Varianten in Übereinstimmung mit der althochdeutschen Lautverschiebung im Anlaut ganz überwiegend Entstimmmung bzw. Entsonorisierung, d.h. ein [p–] zeigen. Damit korrespondiert im Westen der Erhalt des auslautenden [–r] und im Osten der  Schwund, d.h. fast überall ein vokalischer Auslaut ([–a] oder [-ɐ]; (vgl. die Karte  Anlaut/Auslaut von deu. Butter in wissenschaftlichen Quellen   ). Man beachte, dass sowohl der stimmlose Anlaut als auch vokalische Auslaut von der standardsprachlichen Graphie abweichen.

Beide genannten Merkmale werden nun in den Schreibungen der Crowder in ganz unterschiedlichem Maß berücksichtigt. Während der stimmlose Anlaut bislang (18.6.2018) kaum als <p-> geschrieben wurde, stellt die Schreibung ohne <-r>, meistens in Form von <-a>, für den vokalischen Auslaut geradezu den Regelfall dar (Butta, Budda etc.); man vergleiche dazu die Karte Anlaut/Auslaut von deu. Butter in Crowd-Schreibungen. Wenn man dahinter nun unterschiedlich Salienzgrade vermutet, stellt sich die Frage nach dem Grund, also nach einer möglichen  perzeptiven Fundierung. Dabei ist zu beachten, dass dieser vokalische Auslaut des Suffixe <-er> auch seiner standarddeutschen Realisierung entspricht; die offenkundige Salienz des vokalischen Auslauts ist also nicht durch eine phonetische Varianz von Dialekt und Standard motiviert, sondern durch die Inkongruenz von Orthographie einerseits und Aussprache andererseits. Man sollte daher erwarten, dass er in der Sprecherwahrnehmung eher unauffällig wäre. Die Sprechen scheinen, anders gesagt, nicht die dialektale Aussprache mit der Standardaussprache zu vergleichen, sondern die eigentlich unauffällige dialektale Aussprache wird vom dem Hintergrund der Standardorthographie als auffällig wahrgenommen.

 

en.beurteilen die dialektale Standarda : den Sprechern 

Im Gegensatz zum Auslaut weicht der stimmlose Anlaut [p-] zwar sowohl von Aussprache als auch von der Schreibung der Standardvariante ab und ist daher spezifisch dialektal. Er schlägt sich jedoch in den Schreibungen der Sprecher überhaupt nicht nieder; es findet sich,  mit anderen Worten,  kein Hinweis auf eine etwaige auditive Salienz. Das mag damit zusammenhängen, dass der Laut graphematisch nicht, durch zwei Grapheme, wie etwa <–er> = [–a], sondern nur durch ein einziges Graphem repräsentiert wird.  

Crowd-Schreibungen von deu. Alm

Schreibung von <-l-> in  deu. Alm in Krautbelegen; dem entspricht keine einzige Notation von realisiertem [-l-] in wiss Quellen

#####Diese Diskrepanz zwischen Transkription und Laienschreibung bildet sich kartographisch eindeutig ab.

Gehen nun sehr unterschiedlich mit der Freiht um, die ihnen gelassen wird

die s Interessant

Crowd-Belege des morpholexikalischen Typs Butter (Stand vom 19.6.2018).

Karte

Unterschiedliche Dichte der Belege

Westalpen: in Italien (Westpiemont) die Gebiete mit der stärksten Abwanderung, in Frankreich (Provence) die Gebiet mit der stärksten Zuwanderung (Personen ohne Dialektkompetenz)


  1. Vgl. dazu die Ausführungen in Krefeld 2016


Bibliographie

  • BSA = König, Werner (2009): Bayerischer Sprachatlas, München, Winter
  • Kleiner 2006 = Kleiner, Stefan (2006): Geschriebener Dialekt in Bayerisch-Schwaben. Ein Vergleich indirekt erhobener dialektaler Laienschreibungen mit ihren lautschriftlichen Entsprechungen, Berlin, De Gruyter
  • Krefeld 2016 = Krefeld, Thomas (2016): Geolinguistik in der Perspektive der ‚digital humanities‘ (am Beispiel von Verba Alpina). Link

VerbaAlpina – geolinguistica plurilingue_RESTE




(1654 Wörter)

Coesistono diversi nomi  per la ricerca sulla realtà linguistica locale, cioè dialettologia, geografia linguistica e geolinguistica. Secondo l’obbiettivo scientifico non sono però totalmente sinonimi.

  • ’Geografia linguistica’ mette l’accento sulla geografia e non sulla lingua;
  • ‘dialettologia’ focalizza lo stato sociologico della lingua indagato, quello di essere ‘dialetto’ non autonomo di una lingua; il termine quindi non è idoneo per una ricerca che risale anche a un periodo prima della formazione dello standard e del  diasistema attuale.
  • Rimane il nome più neutro di ‘geolinguistica’ che si applica anche bene a zone come quella alpina1 che sono da lungo tempo plurilingui, e nei territori delle varie lingue anche particolarmente frammentate.

L'idea di VerbaAlpina è quella di creare una infrastruttura panoramica, sebbene molto selettiva perché ridotta a un settore del lessico classificato come  ‘alpino’ per motivi etnolinguistici.

Documentazione

Era quindi essenziale una struttura che serve da un lato a raccogliere dati linguistici e dall'altro ad analizzarli e a  strutturarli in un modo facilmente accessibile. È stato implementato un ambiente di ricerca virtuale che permette di rintracciare le attestazioni e di analizzarle nella loro distribuzione areale. Per garantire una presentazione sintetica della variazione linguistica vengono simboleggiate tipi,  cioè gruppi di attestazioni, però sempre con la possibilità di risalire alle singole attestazioni cliccando sul simbolo che evidenzia l’esistenza locale del tipo. Ecco un esempio  che mostra un'attestazione locale del tipo morfo-lessicale fra. beurre/ita. burro.

Più importante dal punto di vista plurilingue è la categoria storica dei tipi di base perché essi comprendono non solo varianti di una stessa famiglia linguistica bensì anche eventuali prestiti nelle altre famiglie, come viene schematizzo nella figura seguente:

Schema della tipizzazione

Il tipo fra. beurre/ita. burro appena citato deriva da un tipo di base greco-latino, cioè da butyru(m). Lo stesso tipo è anche rappresentato da molte attestazioni germaniche (cf. ted. standard Butter) e slave. L'esempio mostra anche la necessità di tener conto di certi tipi fonetici, perché le attestazioni romanze continuano due varianti già latine della base:

  1. una forma secondaria bútyru(m) con accento iniziale; essa spiega anche le forme standard fra. beurre, ita. burro;
  2. la forma parossitona butýru(m) dalla quale deriva tra molte altre la variante ita. butirro.

La piccola selezione di attestazione illustra la modellazione lessicologica:

 famiglia linguistica attestazione  tipo fon.  tipo morfo-less.  tipo di base
rom. bˈyːrĭ  

beurre/burro

 

sost. m. butyru(m)
bˈir
bˈœːrɔ
[altre 342]
bʏtˈeːr
butirro
butˈiro
botˈer
[altre 373]
germ. p͉utr   Butter m.
p͉uːt͉ɐ  
 [altre 205]  
p͉uːt͉ɐ   sost. Butter  fem.
[altre 5]  
sla. pútər puter sost. m.
 putr
[altre 17]

Dato che il progetto focalizza il lessico e più precisamente in una prospettiva etnolinguisticae si impone anche un accesso onomasiologico in partenza dalle cose; è quindi possibile selezionare unità della realtà extra linguistica chiamate concetti (e notate sempre in maiuscoletti); se possibile, esse sono pure visualizzate con  foto

 

quasi   di cui due – i tipi fonetico e morfo-lessicale – sono ristretti a una delle famiglie linguistiche alpine, cioè germanica, romanza e slava e uno, il tipo di base, è sufficentemente astratto per  raggruppare anche tipi di più di una sola famiglia linguistica.

La carta interattiva offre la possibilità di cercare in tutti e tre categorie di tipi.

#esempio#

rispetto alla concezione etnolonguistica si imponeva anche la necessità di “#concetti#

Stratigrafia

Questa infrastruttura non può accontentarsi di documentare la ##adiacenza ## spaziale, deve essere capace, oltre a ciò, di evidenziare l’intreccio storico delle famiglie linguistiche. Deve, in altre parole, contribuire alla stratigrafia linguistica della zona alpina.

#g#e grafico#

facciamo un’esempio

fa

 

 

 

 

una sola delle tre famiglie linguistiche e quella più astratta può comprendere anche prestiti

tra cui quella più

 

lessotipo

*excŏcta

 

attestazione →tipo di base

tipo morfo-lessicale beurre/burro

tipo morfo-lessicale butirro

tipo morfo-lessicale Butter

tipo morfo-lessicale puter

tipo di base butyru(m)

 

slov. sicuramente un prestito del tedesco (variante austriaca): http://fran.si/193/marko-snoj-slovenski-etimoloski-slovar/4291086/puter?View=1&Query=puter

 

Stratigrafia linguistica della zona alpina

 

 

#rest#rest#rest#

 

rEpra Pp quindi essenziale una struttura che serve a raccogliere dati, a  strutturare e ad analizzarli e finalmente a farli accessibili in un modo facile da consultare. Perciò è stata incrementata una riduzione delle attestazioni a tre tipi più astratti di cui due – i tipi fonetico e morfo-lessicale – sono ristretti a una delle famiglie linguistiche alpine, cioè germanica, romanza e slava e uno, il tipo di base, è sufficentemente astratto per  raggruppare anche tipi di più di una sola famiglia linguistica.Era quindi essenziale una struttura che serve a raccogliere dati, a  strutturare e ad analizzarli e finalmente a farli accessibili in un modo facile da consultare. Perciò è stata incrementata una riduzione delle attestazioni a tre tipi più astratti di cui due – i tipi fonetico e morfo-lessicale – sono ristretti a una delle famiglie linguistiche alpine, cioè germanica, romanza e slava e uno, il tipo di base, è sufficentemente astratto per  raggruppare anche tipi di più di una sola famiglia linguistica.Era quindi essenziale una struttura che serve a raccogliere dati, a  strutturare e ad analizzarli e finalmente a farli accessibili in un modo facile da consultare. Perciò è stata incrementata una riduzione delle attestazioni a tre tipi più astratti di cui due – i tipi fonetico e morfo-lessicale – sono ristretti a una delle famiglie linguistiche alpine, cioè germanica, romanza e slava e uno, il tipo di base, è sufficentemente astratto per  raggruppare anche tipi di più di una sola famiglia linguistica.Era quindi essenziale una struttura che serve a raccogliere dati, a  strutturare e ad analizzarli e finalmente a farli accessibili in un modo facile da consultare. Perciò è stata incrementata una riduzione delle attestazioni a tre tipi più astratti di cui due – i tipi fonetico e morfo-lessicale – sono ristretti a una delle famiglie linguistiche alpine, cioè germanica, romanza e slava e uno, il tipo di base, è sufficentemente astratto per  raggruppare anche tipi di più di una sola famiglia linguistica." frammentate.a quindi essenziale una struttura che serve a raccogliere dati, a  strutturare e ad analizzarli e finalmente a farli accessibili in un modo facile da consultare. Perciò è stata incrementata una riduzione delle attestazioni a tre tipi più astratti di cui due – i tipi fonetico e morfo-lessicale – sono ristretti a una delle famiglie linguistiche alpine, cioè germanica, romanza e slava e uno, il tipo di base, è sufficentemente astratto per  raggruppare anche tipi di più di una sola famiglia linguistica.prestiti de

P

erciò tutte le forme vengono attribuite a tipi più astratti, cioè fonetici e morfologici e quasi

##

 

Dal punto di vista etnolinguistico

#rest#rest#rest#

Questa infrastruttura non può accontentarsi di documentare la ##adiacenza ## spaziale, deve essere capace, oltre a ciò, di evidenziare l’intreccio storico delle famiglie linguistiche. Deve, in altre parole, contribuire alla stratigrafia linguistica della zona alpina.

#g#e grafico#

facciamo un’esempio

fa

una sola delle tre famiglie linguistiche e quella più astratta può comprendere anche prestiti

tra cui quella più

lessotipo

excŏcta

attestazione →tipo di base

tipo morfo-lessicale beurre/burro

tipo morfo-lessicale butirro

tipo morfo-lessicale Butter

tipo morfo-lessicale puter

tipo di base butyru(m)

slov. sicuramente un prestito del tedesco (variante austriaca): http://fran.si/193/marko-snoj-slovenski-etimoloski-slovar/4291086/puter?View=1&Query=puter

rEpra Pp quindi essenziale una struttura che serve a raccogliere dati, a  strutturare e ad analizzarli e finalmente a farli accessibili in un modo facile da consultare. Perciò è stata incrementata una riduzione delle attestazioni a tre tipi più astratti di cui due – i tipi fonetico e morfo-lessicale – sono ristretti a una delle famiglie linguistiche alpine, cioè germanica, romanza e slava e uno, il tipo di base, è sufficentemente astratto per  raggruppare anche tipi di più di una sola famiglia linguistica.Era quindi essenziale una struttura che serve a raccogliere dati, a  strutturare e ad analizzarli e finalmente a farli accessibili in un modo facile da consultare. Perciò è stata incrementata una riduzione delle attestazioni a tre tipi più astratti di cui due – i tipi fonetico e morfo-lessicale – sono ristretti a una delle famiglie linguistiche alpine, cioè germanica, romanza e slava e uno, il tipo di base, è sufficentemente astratto per  raggruppare anche tipi di più di una sola famiglia linguistica.Era quindi essenziale una struttura che serve a raccogliere dati, a  strutturare e ad analizzarli e finalmente a farli accessibili in un modo facile da consultare. Perciò è stata incrementata una riduzione delle attestazioni a tre tipi più astratti di cui due – i tipi fonetico e morfo-lessicale – sono ristretti a una delle famiglie linguistiche alpine, cioè germanica, romanza e slava e uno, il tipo di base, è sufficentemente astratto per  raggruppare anche tipi di più di una sola famiglia linguistica.Era quindi essenziale una struttura che serve a raccogliere dati, a  strutturare e ad analizzarli e finalmente a farli accessibili in un modo facile da consultare. Perciò è stata incrementata una riduzione delle attestazioni a tre tipi più astratti di cui due – i tipi fonetico e morfo-lessicale – sono ristretti a una delle famiglie linguistiche alpine, cioè germanica, romanza e slava e uno, il tipo di base, è sufficentemente astratto per  raggruppare anche tipi di più di una sola famiglia linguistica." frammentate.a quindi essenziale una struttura che serve a raccogliere dati, a  strutturare e ad analizzarli e finalmente a farli accessibili in un modo facile da consultare. Perciò è stata incrementata una riduzione delle attestazioni a tre tipi più astratti di cui due – i tipi fonetico e morfo-lessicale – sono ristretti a una delle famiglie linguistiche alpine, cioè germanica, romanza e slava e uno, il tipo di base, è sufficentemente astratto per  raggruppare anche tipi di più di una sola famiglia linguistica.prestiti de

P

erciò tutte le forme vengono attribuite a tipi più astratti, cioè fonetici e morfologici e quasi

 


  1. In concreto la regione indagata da VervaAlpina corrisponde con il cosiddetto perimetro della Convenzione delle Alpi

Nicht sprachliche Daten




(95 Wörter)

nicht sprachliche Daten

(1) Demographische Daten: Zuzug, Wegzug, Pendler, Tourismus (Europa, leider nicht genau georef.: Eurostat), Tourismusgeschichte (Skiorte)

(2) Infrastruktur:

  • Elektrifizierung?? (geo- + chronoref.)
  • Eisenbahnbau (geo- + chronoref.): Bayern, Österreich, Schweiz

(3)  historische Daten und hist. Infrastruktur

  • Bistümer, zugehörige Kirchen

(4) Geogra. Verbreitungskarten

  • Fauna | Flora: Alpendohle, Gämse, Murmeltier, Zirbel, Latschen, Arnika, Alpenrose,
  • alpiner Bergbaugebiete (https://de.wikipedia.org/wiki/Bergbau)

Sprachliche Daten

(5) Namen

(6) Mediendaten und Sprachverwendung

  • Standorte von Zeitungen, Zeitschriften, Radiostat., Fernsehstationen (social media – Blogs?): welche Sprachen werden benutzt?

 

VerbaAlpina – Aspekte der informatischen Konzeption und technischen Realisierung




(7420 Wörter)

Die folgenden Ausführungen ergänzen und exemplifizieren die Darlegungen von Thomas Krefeld zum sprachwissenschaftlichen Gesamtkonzept von VerbaAlpina (VA). Wiederholungen können dabei nicht vollständig ausgeschlossen werden. Im Zentrum stehen hier die Aspekte der informatischen Konzeption und der konkreten technischen Umsetzung.

VerbaAlpina gliedert sich aufs Ganze gesehen in zwei große Teilbereiche: Ein Datenbanksystem (VA_DB) und eine Webschnittstelle (VA_WEB) mit einer Reihe von Detailfunktionen, die im Folgenden vorgestellt werden. VerbaAlpina besitzt außerdem eine Reihe von Kooperationspartnern, von denen jeder eine eigene Datenbank (PVA) nutzen kann. Die dort gespeicherten Daten können in den Datenbestand von VA_DB einfließen und umgekehrt.

VA_DB

VerbaAlpina basiert im Kern auf einer MySQL-Datenbank, um die herum sich verschiedene Module und Funktionalitäten gruppieren.

Eine MySQL-Datenbank ist eine sog. relationale Datenbank, was, stark vereinfacht gesprochen, bedeutet, dass die dort abgelegten Daten in Tabellengestalt organisiert sind. Die Datenstrukturierung erfolgt nach ganz bestimmten Regeln, die vom sog. relationalen Datenmodell vorgegeben sind. Dieses besagt im wesentlichen, dass alle Daten, die in einer Tabelle versammelt werden, Vertreter ein und derselben "Objektklasse" – ein und derselben "Entität" – sein müssen. Dies hat zur Folge bzw. gleichermaßen zur Voraussetzung, dass alle in einer Tabelle gespeicherten Daten identische Eigenschaftskategorien aufweisen müssen. So wären beispielsweise in einer Tabelle, in der Informationen über Autos gespeichert werden sollen, Eigenschaftskategorien wie "Farbe" oder "Höchstgeschwindigkeit" sinnvoll. Eine Liste mit Personen in dieser Tabelle unterbringen zu wollen, wäre nicht möglich bzw. sinnlos. Sie müsste in einer eigenen Tabelle abgelegt werden, die Eigenschaftskategorien wie "Geburtsort", "Geschlecht" oder "Wohnort" aufweisen würde. Es gibt noch eine Reihe weiterer Regeln, die bei der Anlage einer relationalen Datenbanktabelle beachtet werden müssen bzw. beachtet werden sollten. Dazu gehört z.B. das Gebot, dass eine Tabelle keine Redundanzen enthalten darf oder dass in einem Feld einer Tabelle jeweils nur "atomare" Werte und keine Wertelisten abgelegt werden dürfen. Die schrittweise Anpassung einer Datenstruktur an das Idealbild des relationalen Datenmodells nennt man "Normalisierung".

Die von VerbaAlpina gesammelten Daten werden also getreu den eben skizzierten Regeln in den Tabellen einer MySQL-Datenbank abgelegt. Die Strukturierung der Daten folgt dabei dem vom Projekt verfolgten Hauptinteresse: Welche Konzepte werden oder wurden zu welcher Zeit an welchem Ort mit welchen Wörtern bezeichnet? Dieser Satz gibt die Kategorien der zentralen Datenstruktur vor. In Gestalt einer relationalen Tabelle stellt sich der Untersuchungsgegenstand demnach folgendermaßen dar:

Konzept Bezeichnung wann wo
RAHM Rom 1962-2003 Sennwald
SENNHÜTTE Sennhaus 1985-2004 Hohenems
DREHBUTTERFASS Ankenkübel 1962-2003 Mollis
ZIEGENHIRT chevrier / capraio 2005 Romeno
ALMHÜTTE Käser 1965, 1969, 1971 Laces###D:Latsch
BIESTMILCH Biestmilch 2017 Ebenau
SCHEUNE feniera 1975, 1979, 1986 Reillanne
BUTTER rance / rancido 1928-1940 Ramosch
BAUERNHOF kmetija 2011ff. Železniki
EIMER lambar 2011ff. Dobrova-Polhov Gradec

Die Tabelle wirft sofort Fragen auf, deren Antworten wiederum an einer geeigneten Stelle innerhalb des vorgegebenen relationalen Datenmodells untergebracht werden müssen. So wäre z.B. zu fragen, aus welcher Quelle die entsprechende Information stammt. Im Fall von VerbaAlpina sind dies, zumindest bislang, überwiegend Sprachatlanten, z.T. auch Wörterbücher mit georeferenziertem Inhalt, daneben aber auch Daten, die über das Internet gesammelt wurden. Eine weitere Frage wäre, wo die genannten Ortschaften genau liegen, vielleicht auch wieviele Einwohner sie haben usw. All diese Daten würden also entweder in neue Spalten der  vorliegenden Tabelle oder auch, nötigenfalls, in neue Tabellen eingetragen werden. Im Fall der genannten Ortschaften bietet es sich schon deswegen an, sie in einer neuen Tabelle zu speichern, weil die meisten der Ortschaften in der Tabelle mit den Sprachbelegen mehrfach auftreten. Informationen zur geographischen Lage oder Einwohnerzahl müssten andernfalls in der Sprachdatentabelle mehrfach gespeichert werden, was dem Gebot der Redundanzvermeidung widersprechen würde.

Ein relationales Datenbankmanagementsystem wie MySQL erlaubt die problemlose Verknüpfung der auf verschiedene Tabellen verteilten, aber dennoch zusammengehörigen Daten.

Die Erfassung und Strukturierung der von VerbaAlpina bearbeiteten Daten wird auf diese Weise sehr schnell sehr komplex. Aktuell (Mai 2018) besteht die Datenbank von VerbaAlpina (VA_DB) aus

  • 128 Tabellen, die um
  • 12 sog. Views (virtuelle Tabellen)
  • 21 Funktionen und
  • 35 Prozesse

ergänzt werden. Eine Reihe dieser Datenbankobjekte haben jedoch eine rein technische Funktion oder sind temporär.

Die Organisation der Sprachdaten im relationalen Datenformat hat gegenüber der herkömmlichen Repräsentation in Sprachatlanten und Wörterbüchern entscheidende Vorteile. Während Sprachatlanten jeweils nur die onomasiologische Perspektive bedienen, also die Frage beantworten können, mit welchen Wörtern ein ausgewähltes Konzept bezeichnet wird, und Wörter umgekehrt ausschließlich darüber Auskunft geben, welche Konzepte von einer ausgewählten Vokabel bezeichnet werden können (semasiologische Perspektive), vereint das relationale Datenmodell beide Möglichkeiten in einem System.

Neben dem relationalen Datenformat existiert noch eine Reihe weiterer Datenformate wie z.B. XML, JSON oder Graphen (= Strukturen mit Knoten und Kanten). Für welches dieser Formate man sich entscheidet, liegt zum einen an den Eigenheiten des abzubildenden Gegenstands daneben aber durchaus auch an persönlichen Vorlieben. Grundsätzlich gilt, dass einmal strukturierte Daten, die in einem bestimmten Datenformat vorliegen, in andere Datenformate transformiert werden können. So ist es z.B. möglich, die Tabellen einer MySQL-Datenbank im XML-Format auszugeben. Die speziell für MySQL-Datenbanken entwickelte generische Webschnittstelle PhpMyAdmin (PMA) bietet für dieses und andere Datenformate vorgefertigte Exportroutinen. Im folgenden Beispiel werden gefilterte Daten aus der Tabelle vap_ling_de in eine XML-Datei exportiert. Das entsprechende Dialogfeld von PMA sieht folgendermaßen aus:

Die Auswahlliste zeigt die verschiedenen Formate, in die die Daten exportiert werden können. Nach Auswahl von XML wird vom Browser eine Datei heruntergeladen, die die Daten im gewünschten Format enthalten. Hier ein Ausschnitt der XML-Datei:

Das vorliegende Format ist generisch und mag im Einzelfall nicht den spezifischen Erfordernissen entsprechen. Mit etwas erweiterten technischen Kenntnissen lassen sich jedoch im Grunde beliebige Datenformate erzeugen und exportieren.

Ein wichtiger Grund, warum sich VerbaAlpina für das relationale Datenformat entschieden hat, ist die Tatsache, dass dergestalt strukturiertes Datenmaterial nach den Regeln der relationalen Algebra analysiert werden kann. Für entsprechende Operationen sowie generell für die Verwaltung relationaler Datenbestände steht eine spezielle formale Sprache, die sog. Structured Query Language, kurz SQL, zur Verfügung. Ihre Syntax basiert auf der englischen Umgangssprache und ist relativ leicht zu erlernen. Grundlegend sind die Konzepte der Selektion und der Projektion. Mit Selektion ist die Auswahl von Zeilen, die bestimmte Kriterien erfüllen, gemeint, Projektion bezeichnet demgegenüber die Auswahl von Spalten. Sämtliche mit der Sprache SQL ausführbaren Operationen basieren letztlich auf den Regeln der relationalen Algebra.

Um nun mit Hilfe von SQL sämtliche Vokabeln aus dem Datenbestand herauszufiltern, die ein ganz bestimmtes Konzept bezeichnen, muss ein entsprechender Filter formuliert werden. Da  bei diesem Vorgang Zeilen, und keine Spalten, ausgewählt werden, handelt es sich um eine Selektion. Das Beispiel geht davon aus, dass die Daten in einer Tabelle mit Namen "Belege" abgelegt wurden. Eine entsprechende Tabelle ist in der Datenbank von VerbaAlpina nicht vorhanden. Die konkrete Syntax lautet dann wie folgt:

select * 
from Belege 
where konzept = "SENNHÜTTE"
;

Ergebnis:

Konzept Typ wann wo
SENNHÜTTE Sennhaus 1985-2004 Lustenau
SENNHÜTTE cascina 1928-1940 Bivio
SENNHÜTTE cabotte 1928-1940 Borgomaro
SENNHÜTTE casero 1974-1986 Forni Avoltri
SENNHÜTTE baita 1928-1940 Colico
SENNHÜTTE Käser 2017 Schmirn
SENNHÜTTE cascharia 1928-1940 Soglio (Graubünden)
SENNHÜTTE Schwaige 2017 Villandro###D:Villanders
SENNHÜTTE casa 1928-1940 Lanzada
SENNHÜTTE Alp(e) 1962-2003 Davos
SENNHÜTTE Sennhütte 1985-2004 Alberschwende
SENNHÜTTE casone 1928-1940 Antrona Schieranco

Um umgekehrt die verschiedenen Bedeutungen des italienischen Wortes malga zu ermitteln, formuliert man:

select * 
from Belege 
where Bezeichnung = "malga"
;

Ergebnis:

Konzept Typ wann wo
ALM malga 2012 Moena
ALMHÜTTE Malga 1965, 1969, 1971 Salorno###D:Salurn
HERDE malga 1928-1940 Ardez
HIRTENHÜTTE malga 1974-1986 Ravascletto
KUHHERDE malga 1928-1940 Albosaggia
SENNHÜTTE malga 1928-1940 Rabbi

Die Möglichkeiten von SQL sind schier grenzenlos, und es kann hier nur darum gehen, durch wenige Beispiele eine ungefähre Vorstellung zu vermitteln.

Das folgende Beispiel illustriert, wie sich aus einer bestimmten Tabelle der VerbaAlpina-Datenbank sämtliche morpholexikalischen Typen, die das Konzept BUTTER bezeichnen, extrahieren lassen. Das Ergebnis zeigt außerdem die Anzahl der bislang in VA_DB erfassten Einzelbelege, die dem jeweiligen morpholexikalischen Typ zugeordnet sind:

-- SQL-Statement
-- Finde sämtliche morpholexikalischen Typen, die das Konzept BUTTER bezeichnen, 
-- und gib die jeweilige Häufigkeit des morpholexikalischen Typs an

select 
 Name_Konzept as Konzept, 
 group_concat(typ, ' (', anzahl, ')' separator ', ') as Morphtypen 
from
(
 select 
  count(*) as Anzahl, 
  a.Name_Konzept, 
  a.Typ 
 from vap_ling_de a
 where 
  a.Name_Konzept like 'BUTTER'
  and a.Art_Typ like 'Morph_Typ'
 group by a.Typ
 order by Anzahl desc
 ) sq
;

-- Ergebnis
BUTTER: beurre / burro (1264), Anke (866), Butter (348), Schmalz (271), paintg (96),
éponge / spongia (64), smalz (42), Buttern (24), unto (21), süßes Schmalz (20), puter (19),
pischada (19), Schmalzbutter (8), smalz crü (6), maslo (4), rance / rancido (3), bütér (3), 
menata (3), fiore (2), balle / palla (2), süess Schmalz (2), süesses Schmaalz (2), 
Brütschi (1), süess Schmaalz (1), brusco (1)

Im Vorgriff auf die weiter unten vorgestellten Funktionen der Webschnittstelle von VerbaAlpina (VA_WEB) sei hier erwähnt, dass das von VerbaAlpina verwendete WordPress-System die direkte Einbindung der Ergebnisse von Datenbankabfragen in WordPress-Beiträge wie den vorliegenden erlaubt. Diese Funktion wurde als sog. WordPress-Plugin ("SQLtoHTML") von VerbaAlpina entwickelt und steht als Modul auch für im Grunde beliebige andere WordPress-Installationen zur Verfügung. Das soeben vorgestellte SQL-Beispiel kann, eingebettet in eine spezifische Syntax, in den Text eines WordPress-Beitrags eingebettet werden. Im Frontend erscheint dann anstelle des Codes das Ergebnis der Abfrage.

Code (darf keinen Zeilenumbruch enthalten):

[[SQL:select Name_Konzept as Konzept, group_concat(typ, ' (', anzahl, ')' separator ', ') as Morphtypen from ( select count(*) as Anzahl, a.Name_Konzept, a.Typ from vap_ling_de a where a.Name_Konzept like 'BUTTER' and a.Art_Typ like 'Morph_Typ' group by a.Typ order by Anzahl desc ) sq ]]

Ergebnis im Frontend:

Ein weiteres Beispiel für die Möglichkeiten von SQL zeigt, wieviele verschiedene Basistypen den morphologischen Typen zur Bezeichnung des Konzepts SENNHÜTTE zugrundeliegen und wieviele morphologische Typen pro Basistypen bislang registriert sind:

-- SQL-Statement
/* 
Errechne die Anzahl von morphologischen Typen, die das Konzept SENNHÜTTE bezeichnen 
und die jeweils mit demselben Basistypen verbunden sind: 
  • /
select count(*) as Anzahl, sq.basistyp, group_concat(Typen separator ' | ') as Morphtypen from ( select distinct a.Basistyp, concat(a.Typ, ' (', a.Art_Typ, ')') Typen from vap_ling_de a where a.Name_Konzept like 'SENNHÜTTE' and a.Basistyp is not null ) sq group by basistyp order by Anzahl desc ; -- -- -- Ergebnis 14: căsa(m): casino (Morph_Typ) | casini (Morph_Typ) | Casel (Morph_Typ) | casone (Morph_Typ) | casa (Morph_Typ) | casa da/di alp (Morph_Typ) | casella (Morph_Typ) | casello (Morph_Typ) | casa da fuoco (Morph_Typ) | casine (Morph_Typ) | casa da caschar (Morph_Typ) | casina (Morph_Typ) | caseta (Morph_Typ) | casinel (Morph_Typ) 8: hutta: Sennhütte (Morph_Typ) | Sentumhitta (Morph_Typ) | Hütte (Morph_Typ) | Almhütte (Morph_Typ) | Melkhütte (Morph_Typ) | Sennerhütte (Morph_Typ) | Berghütte (Morph_Typ) | Alphütte (Morph_Typ) 5: *sanio: Sennerei (Morph_Typ) | Sennhütte (Morph_Typ) | Sentumhitta (Morph_Typ) | Sennerhütte (Morph_Typ) | Sennhaus (Morph_Typ) 5: alpe: Alp(e) (Morph_Typ) | casa da/di alp (Morph_Typ) | Almhütte (Morph_Typ) | Alphütte (Morph_Typ) | cascina da/di alp (Morph_Typ) 5: alpes: Alpgemach (Morph_Typ) | Alp(e) (Morph_Typ) | Almhütte (Morph_Typ) | Alphütte (Morph_Typ) | Alm (Morph_Typ) 4: căpsa(m): cascina dal fuoco (Morph_Typ) | cascina per caschar (Morph_Typ) | cascina (Morph_Typ) | cascina da/di alp (Morph_Typ) 4: caseāria: Käser (Morph_Typ) | Chäseren (Morph_Typ) | casera (Morph_Typ) | caserìn (Morph_Typ) 3: *tegia: Teie(n) (Morph_Typ) | Tieje (Morph_Typ) | Tegia (Morph_Typ) 3: baita: baita (Morph_Typ) | baito (Morph_Typ) | bait (Morph_Typ) 2: *caseare: cascina per caschar (Morph_Typ) | casa da caschar (Morph_Typ) ... -- gekürzt

Das Beispiel zeigt z.B., dass insgesamt 14 unterschiedliche morpholexikalische Typen, die das Konzept SENNHÜTTE bezeichnen könnten, mit dem Basistypen "casa(m)" verbunden sind.

Das relationale Datenmodell und die Abfragesprache SQL erlauben auch weitergehende arithmetische und in der Folge statistische Berechnungen über dem Datenbestand. Das nachfolgende Beispiel berechnet den prozentualen Anteil der einzelnen Basistypen an der Gesamtzahl aller morpholexikalischer Typen, die das Konzept SENNHÜTTE bezeichnen:

-- SQL-Statement
-- Errechne den prozentualen Anteil der einzelnen Basistypen 
-- an der Gesamtzahl aller morpholexikalischer Typen, die das Konzept SENNHÜTTE

select 
 sq.basistyp as Basistyp,
 count(*) as Anzahl, 
 round(count(*) / (
  select count(*)
  from
  (
   select 
    a.Basistyp
   from vap_ling_de a
   where 
    a.Name_Konzept like 'SENNHÜTTE'
    and a.Basistyp is not null
   group by basistyp
  ) sq0
 ) * 100,2) as Prozentanteil

from
(
select distinct
 a.Basistyp,
 concat(a.Typ, ' (', a.Art_Typ, ')') Typen
from vap_ling_de a

where 
 a.Name_Konzept like 'SENNHÜTTE'
 and a.Basistyp is not null
) sq

group by basistyp

order by Anzahl desc
;

-- Ergebnis
Basistyp | Anzahl | Prozentanteil
căsa(m) | 14 | 41.18
hutta | 8 | 23.53
alpe | 5 | 14.71
alpes | 5 | 14.71
  • sanio | 5 | 14.71
caseāria | 4 | 11.76 căpsa(m) | 4 | 11.76
  • tegia | 3 | 8.82
baita | 3 | 8.82 ... -- gekürzt

Ende Mai 2018 umfasste die VerbaAlpina-Datenbank insgesamt

  • 1167 unterschiedliche Konzepte sowie
  • 5446 verschiedene morphologische Typen.

VA_WEB

Die zentrale Datenbank von VerbaAlpina, VA_DB, ist angebunden an die multifunktionale Webschnittstelle, die unter der Adresse https://www.verba-alpina.gwi.uni-muenchen.de (VA_WEB) im Internet erreichbar ist.

VA_WEB ist mit dem weit verbreiteten WordPress-Framework in den Programmiersprachen PHP und Javascript programmiert. Die Entwickler von VerbaAlpina haben eine Reihe von VerbaAlpina-spezifischen Funktionserweiterungen geschrieben. All diese Funktionserweiterungen sind modular als sog. "Plugins" – wie das bereits weiter oben erwähnte SQLtoHTML-Plugin – konzipiert, die frei zur Verfügung gestellt und nach Belieben auch in andere WordPress-Installationen übernommen werden können.

VA_WEB gliedert sich in einen öffentlichen Bereich, das sog. Frontend, und einen zugangsbeschränkten Bereich, das sog. Backend. Das Frontend ist gleichsam das Schaufenster des Projekts. Hier findet sich das bislang zentrale Analyseinstrument, die interaktive Onlinekarte, auf der das in der Datenbank gesammelte Material nach vorgegebenen Kriterien visualisiert werden kann. Eine besondere Bedeutung kommt dem Bereich "Methodologie" zu. Hier werden nach Stichworten gegliedert sämtliche Aspekte des Gesamtprojekts, von den wissenschaftlichen Grundlagen bis hin zur Erläuterung technischer Details und Vorgehensweisen, allgemeinverständlich erläutert und dokumentiert. Die Sektion "Methodologie" wird ständig erweitert bzw. nötigenfalls auch überarbeitet.

Das Web-Frontend dient auch als zentrale Publikationsplattform des Projekts. Unter der Rubrik "Beiträge" finden sich neben allgemeinem Informationsmaterial für die Öffentlichkeit auch ausgwählte Vorträge, die von den Projektmitarbeitern auf wissenschaftlichen und populären Veranstaltungen gehalten werden, sowie wissenschaftliche Beiträge in Artikelform.

Funktionen des Backends

Das Backend von VA_WEB bietet über die von WordPress standardmäßig bereitgestellten Basisfunktionen, zu denen auch die von VA verwendete Benutzerverwaltung gehört, eine Reihe von überwiegend individuell entwickelten Zusatzfunktionen, die in der Projektarbeit Verwendung finden:

Transkriptionstool

Die Erfassung von Daten speziell aus Sprachatlanten kann bislang nur manuell erfolgen. Der Einsatz von OCR (= Optical Character Recognition = automatische Verwandlung von Graphikdaten in elektronisch kodierten Text) ist in diesem Kontext nicht möglich. Das Hauptproblem besteht in der Zuordnung der auf den Karten eingetragenen Einzelbelege zu den jeweils richtigen Erhebungspunkten. Im folgenden Beispiel ist es für einen Computer de facto unmöglich zu entscheiden, welchem der durch die roten Zahlen bezeichneten Erhebungspunkte der grün markierte Beleg zuzuordnen ist.

AIS-Karte 1218: Il siero del latte

Seit wenigen Wochen sind am Leibniz-Rechenzentrum (LRZ) bzw. am Lehrstuhl Prof. Kranzlmüller (Lehrstuhl für Kommunikationssysteme und Systemprogrammierung der LMU) ein, eventuell auch zwei Masterarbeiten ausgeschrieben, die Lösungsansätze für dieses Problem entwickeln sollen.

Die Datenerfassung kann dann automatisch unter Verwendung von OCR erfolgen, wenn das Material in der analogen Quelle in Tabellen- bzw. Listenform vorliegt. Gute Erfahrungen liegen mit dem Programm ABBYY Finereader vor. Das folgende Beispiel stammt aus dem Atlante Linguistico ed Etnografico del Piemonte Occidentale (ALEPO)

Daten in Listenform (hier: Alepo III-i-1: PARASSITI) erlauben den Einsatz von OCR

Aus dargelegten Gründen ist eine automatische Datenerfassung speziell von Datenmaterial aus Sprachatlanten bislang nicht möglich und eine manuelle Erfassung unumgänglich. Zur Erleichterung dieser Arbeit wurde ein spezielles Transkritptionstool entwickelt:

Das Transkriptionstool von VerbaAlpina

In einem Fensterausschnitt wird ein Bild einer Atlaskarte präsentiert. Unmittelbar darunter befindet sich ein Formular, das die strukturierte Erfassung der Kartendaten erlaubt bzw. auch erzwingt. Jeder Einzelbeleg auf der Karte wird unter Angabe des kartierten Stimulus und der Identifizierung des jeweiligen Informanten erfasst und direkt in einer Datenbanktabelle abgelegt. Die Transkription erfolgt im sog. Betacode, einem Verfahren, das auf eine Idee des Thesaurus Linguae Graecae (University of California Irvine) aus den Siebzigerjahren zurückgeht. Grundidee ist, beliebige Sonderzeichen samt Diacritica in Sequenzen von Standardzeichen (konkret: sog. ASCII-Zeichen) zu übertragen. Dabei werden Sonderzeichen und Diacritica nach einem simplen Schema in Abfolgen von Buchstaben des englischen Alphabets und geläufige Satz- und Sonderzeichen wie etwa runde Klammern oder Schrägstriche übertragen. Im Transkriptionstool wird dem Transcriptor auf der rechten Fensterseite das entsprechende Regelwerk eingeblendet.

Zur Herstellung von Vergleichbarkeit werden alle von VA erfassten phonetisch transkribierten Einzelbelege auf das Internationale phonetische Alphabet (IPA) abgebildet. IPA hat demnach innerhalb von VA den Status einer Referenztranskription. Bei der Überführung der quellentreuen Betacode-Transkription nach IPA kann es jedoch, unvermeidbar, zu Informationsverlusten kommen. Als Beispiel sei das Transkriptionssystem nach Böhmer und Ascoli genannt. Dieses unterscheidet durch Diacritica bei den Vokalen eine größere Anzahl von Öffnungsgraden des Mundes als IPA. Bei der Übertragung von Böhmer/Ascoli zu IPA müssen demnach Kompromisse eingegangen werden.

Krefeld, T. / Lücke, S.: s.v. “Betacode”, in: VA-de 17/2, Methodologie, https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=493&db=172&letter=B#7

Die bei der Transkription verwendeten Zeichen sind ausnahmslos sogenannte ASCII-Zeichen. Dabei handelt es sich um Zeichen, die bereits im Jahr 1963 kodiert worden sind. Mit Kodierung ist dabei die Zuordnung der Schriftzeichen zu ganz bestimmten Zahlenwerten gemeint. Dies ist nötig, weil Computer nur mit Zahlen arbeiten können. Kodiert wurden insgesamt 128 Schriftzeichen, bei denen es sich hauptsächlich um die Buchstaben des englischen Alphabets, die arabischen Ziffern sowie um einige Satz- und Sonderzeichen handelt. Die damals festgelegte Kodierung ist bis zum heutigen Tage gültig. Anders als z.B. bei der Verwendung des moderneren Unicode ist die Gefahr des Entstehens von Kodierungsfehlern so gut wie ausgeschlossen. Allgemein bekannt dürfte folgendes Phänomen sein: Der deutsche Umlaut ü wird durch zwei sinnlose Zeichen dargestellt: Mühle ⇒ Mühle. Dergleichen ist bei Verwendung von ASCII-Zeichen ausgeschlossen.

Daneben bietet der Einsatz des Betacodes weitere Vorteile:

  • Die Transkriptionen können unter Verwendung von Standardtastaturen durchgeführt werden
  • Es ist unerheblich, ob ein Transkriptor die konkrete Bedeutung der von ihm erfassten Schriftzeichen kennt. Die Übertragung orientiert sich allein an der graphischen Gestalt der zu transkribierenden Zeichen.
  • Die Transkription ist kaum anfällig für Tippfehler und erfolgt in vergleichsweise hoher Geschwindigkeit
  • Die Transkription ist insofern quellentreu, als dabei keinerlei Informationsverlust auftritt – jedes Basiszeichen und jedes Diacriticum wird durch jeweils genau ein anderes Zeichen wiedergegeben.

Die von den gedruckten oder auch digitalen Quellen verwendeten Transkriptionssysteme sind sehr unterschiedlich. So kann ein und dasselbe graphische Zeichen, z.B. ein e mit einem Punkt darunter, durchaus unterschiedliche Laute bezeichnen. Um Vergleichbarkeit zu erzielen, werden sämtliche quellenspezifischen Transkriptionssysteme auf eine Referenztranskritption, nämlich IPA, abgebildet. Der entsprechende Vorgang erfolgt automatisch durch Ersetzungsprozeduren.

Typisierungstool

Die aus den unterschiedlichen Quellen, also im wesentlichen Sprachatlanten und Wörterbüchern, transkribierten Belege sind hinsichtlich ihres Status sehr heterogen. VerbaAlpina unterscheidet diesbezüglich im wesentlichen zwischen den folgenden Kategorien:

Einzelbeleg   —   morpholexikalischer Typ   —   Basistyp

Ein Einzelbeleg ist die mehr oder weniger unmittelbare und individuelle Äußerung eines Informanten. In Sprachatlanten ist sie meist daran erkennbar, dass sie in phonetischer Transkription und gebunden an einen spezifischen Informanten oder Erhebungspunkt gebunden ist.

Ein morpholexikalischer Typ (kurz: Morphtyp) sind am ehesten vergleichbar mit den Lemmata in traditionellen Wörterbüchern. Ein Morphtyp wird definiert durch die Zugehörigkeit zu einem jeweils gemeinsamen Wortstamm, Sprachfamilie, Wortart, Affigierung sowie Genus. Beispiel: Der Butter und die Butter bilden zwei unterschiedliche Morphtypen, da sie sich hinsichtlich des Genus unterscheiden.

Der Basistyp ist schließlich ein in unterschiedlichen Morphtypen erkennbares gemeinsames lexikalisches Element, ohne dass damit eine Aussage über die Entstehungsgeschichte des einzelnen Morphtypen getroffen werden würde. Vorstellbar in diesem Zusammenhang wären z.B. die Entstehung eines Morphtypen direkt aus einer sprachlichen Vorstufe am Ort im Sinne eines Etymons, jedoch kommen auch Entlehnungsszenarien im Umfeld von Sprachkontakt in Betracht. Als Beispiel können die beiden Morphtypen Salamander (ger.) und Salamandra (rom.) genannt werden. Beide enthalten erkennbar ein gemeinsames lexikalisches Element. Ob aber der eine Morphtyp sich aus dem anderen entwickelt hat oder beide auf einen gemeinsamen Vorläufer zurückgehen, lässt sich vor der Hand nicht entscheiden. Um dennoch die offenkundige Verwandtschaft der beiden Morphtypen im Datenbestand abbilden zu können, werden bei dem Basistypen "salamandra" zugewiesen. VerbaAlpina geht speziell diesen Fragen nicht systematisch nach, entsprechende spätere Erweiterungen und Ergänzungen sind jedoch jederzeit möglich.

Gleichsam die Referenzkategorie für VerbaAlpina stellt der Morphtyp dar. Speziell für die Zuweisung der transkribierten Belege zu Morphtypen wurde in VerbaAlpina das sog. Typisierungstool entwickelt. Neben der Zuweisung zu Morphtypen erfolgt hier auch die Zuweisung zum jeweiligen Konzept, das laut Quelle von diesem Morphtyp bezeichnet wird.

Sofern möglich, können Morphtypen im Typisierungstool auch mit Lemmata in ausgewählten Referenzwörterbüchern verknüpft werden. Als Beispiel sei der Einzelbeleg tɔːiə aus dem Vorarlberger Sprachatlas (VALTS, Karte 73) genannt. Dieser ist über das Typisierungstool zunächst dem Morphtypen "Teie(n) – ger – sub" und dieser wiederum dem Lemma "Teien" im Schweizerdeutschen Wörterbuch, dem sog. Idiotikon, zugewiesen.

VerbaAlpina sieht grundsätzlich auch die Definition und Zuordnung von phonetischen Typen (z.B. Kas, Kaas -> Kaas vs. Kees, Käs -> Kees etc.) vor. Da das Projekt jedoch vorrangig morpholexikalisch ausgerichtet ist, liegt eine entsprechende Typisierung bislang erst lückenhaft vor. Derzeit (Juni 2018) stehen den 5446 morphologischen gerade einmal  646 phonetische Typen gegenüber.

Konzeptbaum

Ganz wesentlich für VerbaAlpina ist die außersprachliche Kategorie der Konzepte. Schließlich lautet die zentrale Frage: Welche Konzepte werden wo und wann mit welchen Morphtypen bezeichnet. Zur Verwaltung der Konzepte wurde von VA ein im Backend von VA_WEB zugängliches Tool entwickelt, das als Konzeptbaum bezeichnet wird.

Nach Aufruf des Tools muss zunächst eine der vorgegebenen Hauptkategorien (z.B. Milchverarbeitung) und anschließend eine Unterkategorie (z.B. Produkte) ausgewählt werden. Danach erscheint eine alphabetisch sortierte Liste aller bislang angelegten Konzepte. Die Elemente dieser Liste könnten durch Drag&Drop zu Unterkonzepten bestehender anderer Konzepte umgruppiert werden. Auch die Neuanlage von Konzepten ist hier möglich.

Forschungslabor (in Planung)

VerbaAlpina möchte sich u.a. zu einer Plattform entwickeln, auf der Forscher und Laien individuelle Studien betreiben und sich bzw. auch ihre Daten austauschen können. Das Konzept sieht vor, dass registrierte Benutzer nach dem Einloggen in VerbaAlpina eine persönliche Umgebung vorfinden, innerhalb derer sie zum einen das vorhandene VerbaAlpina-Datenmaterial nach individuellen Interessen analysieren und die Ergebnisse abspeichern können. Zum anderen soll es möglich sein, eigenes Material in das System zu importieren und dieses dann entweder isoliert oder auch in Kombination mit dem VerbaAlpina-Material zu verarbeiten.

So wie nunmehr schon in vielen Internet-Diensten etabliert, soll es die Möglichkeit geben, Daten und Analyseergebnisse für den Zugriff durch Dritte freizugeben. Diese Freigabe soll mehrere Optionen anbieten: Freigabe für spezifische andere registrierte Benutzer von VerbaAlpina, Freigabe für alle registrierten Benutzer von VA und schließlich die unbeschränkte Freigabe von Daten im Internet. Das Konzept orientiert sich grob am von Google eingesetzten Verfahren im Zusammenhang mit von Nutzern erstellten Karten auf Google Maps.

Das Konzept ist bislang erst in Ansätzen realisiert. Ein solcher Ansatz besteht in der Möglichkeit, auf der interaktiven online-Karte von VerbaAlpina durch die Auswahl beliebiger sprachlicher und außersprachlicher Datenkategorien erzeugte Kartenbilder als "synoptische" Karten abzuspeichern. Diese Funktion steht aktuell nur registrierten Benutzern zur Verfügung. Beim Abspeichern einer Karte besteht die Möglichkeit, einen Kommentar beizufügen, der den Informationsgehalt der Karte erläutern soll. Für eine erstellte synoptische Karte kann eine Freigabe beantragt werden. Diese erfolgt dann erst nach einer qualitätssichernden Überprüfung durch das Team von VerbaAlpina. Bei künftig verstärkter Nutzung dieser Möglichkeiten wird man über alternative Konzepte zur Qualitätssicherung nachdenken müssen. Vorstellbar sind z.B. Bewertungen durch die Nutzergemeinde von VerbaAlpina.

Im Forschungslabor könnte auch ein Modul zur statistischen Analyse der VerbaAlpina-Korpusdaten eingerichtet werden. An den Instituten für Statistik und Kunstgeschichte wird zur Zeit ein System entwickelt, bei dem es um die statistische Analyse von Museumsbeständen geht. Das Konzept von MAX (Museum Analytics; https://www.max.gwi.uni-muenchen.de/; ein von der LMU im Rahmen des "Qualitätspakts Lehre" gefördertes Projekt) beinhaltet auch das Szenario, dass Anwender im Grunde beliebige Daten z.B. im csv-Format in das System importieren, um es dort mit vorgefertigten Verfahren statistisch zu analysieren. Künftig sollen  die im Rahmen von MAX entwickelten Funktionalitäten in das Forschungslabor von VerbaAlpina integriert werden.

Funktionen des Frontends

Methodologie

In der Rubrik Methodologie erfolgt eine ausführliche Methodenreflexion. Hier sollen alle mit VerbaAlpina verbundenen Aspekte transparent und nachvollziehbar dokumentiert werden. Der Inhalt ist nach Schlagworten gegliedert, die wiederum thematischen Kategorien zugeordnet sind. Hier werden neben grundlegenden Konzepten des Gesamtprojekts auch spezifisch linguistische oder auch informatisch-technische Detailaspekte erläutert. Die Einträge in dieser Rubrik werden ständig erweitert oder nötigenfalls auch überarbeitet und angepasst. Die Methodologie spielt eine wichtige Rolle im Hinblick auf das Erfordernis der Nachhaltigkeit und Nachnutzbarkeit aller von VerbaAlpina gesammelten und erzeugten Daten. Der Anspruch besteht, dass sämtliche Teile des Gesamtprojekts, seien es die Sprachdaten in der VA_DB, die sprachwissenschaftlichen Kommentare und (mit gewissen Einschränkungen) auch der erzeugte Software-Code auch noch nach Jahrzehnten nutzbar sein werden.

Interaktive Online-Karte

Die interaktive Online-Karte von VA ist das zentrale Visualisierungs- und Analyseinstrument. Aktuell basiert die Karte auf Google-Technologie, konkret auf dem Online-GIS Google Maps und der entsprechenden Javascript-Bibliothek. VerbaAlpina ist im Grunde der Überzeugung, dass der Einsatz von Diensten kommerzieller Anbieter im wissenschafftlichen Umfeld generell vermieden werden sollte. Speziell im Fall der online-Kartographie führt derzeit jedoch kaum ein Weg an Google Maps vorbei. Das Opensource-Projekt Openstreetmap (OSM), das grundsätzlich eine Alternative darstellen könnte, kann hinsichtlich Funktionalität und, was fast noch wichtiger ist, hinsichtlich der Dokumentation mit dem Google-Dienst nicht mithalten. Bei Einsatz von Openstreetmap hätte sehr wahrscheinlich der aktuelle Entwicklungsstand der online-Karte von VerbaAlpina nicht in derselben Zeit erreicht werden können. Grundsätzlich wäre eine Umsetzung der online-Karte auf OSM rein technisch wohl möglich. Sollten in Zukunft Verbesserungen bei OSM festzustellen sein, die einen Umzug vertretbar erscheinen lassen, so wäre ein solcher Schritt durchaus vorstellbar. VerbaAlpina behält diese Perspektive jedenfalls im Auge.

Das Karteninterface erlaubt wahlweise oder auch kombiniert semasiologischen und/oder onomasiologischen Zugriff auf den Datenbestand. Nachfolgend stehen unterschiedliche Gruppierungsoptionen zur Verfügung.

Qualitative Kartierung

Über die Legende am linken Rand der Karte können Konzepte, phonetische oder morpholexikalische Typen oder auch  ausgewählt werden. Seit kurzem steht auch eine Suchfunktion zur Verfügung, die sämtliche auswählbare Listeneinträge durchsucht, unabhängig von deren Kategorisierung als "Konzept", "Morphtyp" usw. Nach Auswahl eines verfügbaren Elements erscheinen die entsprechenden Symbole auf der Karte.

Neben Sprachdaten können auf der Karte synoptisch auch georeferenzierte Daten der "sprachbezogenen Peripherie" visualisiert werden. Darunter werden unterschiedlich Kategorien von Daten verstanden, die mit sprachlichen Phänomenen in der einen oder anderen Weise in Wechselwirkung stehen können. Dies können z.B. historische Daten wie etwa Daten zu antiken Besiedlungsstrukturen und Verkehrswegen, entlang derer sich sprachliche Phänomene verbreitet haben könnten, oder auch Daten zur modernen Infrastrukutur wie etwa zur Verbreitung der Internetanschlüsse im Alpenraum sein, die sicherlich Auswirkungen auf sprachliche Veränderungsprozesse haben. Die Daten dieses Sektors sind bislang noch nicht  systematisch gesammelt worden.

Quantifizierende Darstellung

Die online-Karte erlaubt auch eine quantifizierende Abbildung der auf einer Karte dargestellten Inhalte. Im folgenden Beispiel ist zunächst die nach jeweiliger Bedeutung (Konzepten) gruppierte Verbreitung des Morphtyps "Teie(n)" kartiert:

Qualitative Kartierung des Morphtyps "Teie(n)"

Die hier abgebildete Karte ist mit dem Link https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=xxx&tk=1357 hinterlegt. Die hinter dem Fragezeichen folgenden, rot gesetzten sog. URL-Parameter bewirken, dass die interaktive Onlinekarte mit der gewünschten Vorauswahl "Morpho-lexikalischer Typ Teie(n) (ger.)" aufgerufen wird. Ein solcher Link kann für Karten mit der Kartierung beliebiger Elemente (Morphtypen, Konzepte, sprachbezogene Peripherie ...) abgerufen werden, indem man am oberen rechten Rand der Karte das allgemein bekannte Sharing-Symbol anklickt.

Die quantifizierende Darstellung dieser Daten orientiert sich an Flächen bzw. administrativen Regionen, d.h. es wird die jeweilige Anzahl von Belegen pro Teilfläche des gewählten Bezugssystems durch unterschiedliche Farbgebung markiert.

Im Wesentlichen kann zwischen den folgenden verschiedenen Bezugssystemen gewählt werden:

  • Sprachgebiete
  • Nationalstaaten
  • NUTS3 (= administrative Gliederung auf Niveau der deutschen Landkreise)
  • Gemeindegrenzen

Die quantifizierende Kartierung setzt die Auswahl mindestens einer dieser Kategorien voraus. Sobald ein entsprechender Eintrag in der Kartenlegende auf der linken Seite vorhanden ist, kann man dort auf das von einem Kreis umgebene Q klicken. Anschließend werden die Daten gemäß den Teilflächen der gewählten Kategorie gruppiert und die gruppenbezogene Anzahl durch Farbgebung der Flächen visualisiert.

Quantifizierende Darstellung der Verbreitung des Morphtyps "Teie(n)" mit georefrenziertem Verlauf der NUTS3-Grenzen

Im Legendeneintrag "Kartographische Darstellung" lässt sich sodann noch wählen zwischen den Optionen "Physisch" und "Hexagonal". Erstere, im vorstehenden Beispiel angewendete, Option verwendet den tatsächlichen, geographisch exakt kartierten Grenzverlauf der entsprechenden Teilflächen. Bei Auswahl der Option "Hexagonal" wird jede Teilfläche durch Hexagone jeweils identischer Größe repräsentiert. Diese Art der Darstellung soll die Wahrnehmung verzerrende Effekte beseitigen, die sich durch die z.T. stark unterschiedliche Flächengrößen ergeben können.

Quantifizierende Darstellung der Verbreitung des Morphtyps "Teie(n)" mit hexagonaler Darstellung der Bezugsflächen

Bei dieser Darstellung gehen konzeptbedingt Teile der geographischen Logik verloren. Im Inneren des Wabenmusters hat jede Fläche stets genau sechs Nachbarhexagone. Es liegt auf der Hand, dass es in der Realität nicht wenige Teilflächen geben wird, die entweder mehr oder weniger Nachbarflächen aufweisen.

Am unteren Rand der quantifizierenden Karten kann die Farbgebung der Flächen verändert werden (u.a. die verbreitete Heatmap, die den Verlauf der Regenbogenfarben verwendet). Die bei dem Balken für die Farbauswahl an der rechten oberen Ecke angegebene Zahl gibt die Anzahl der Belege an, die in der Fläche mit der maximalen Anzahl an Belegen versammelt sind, und hilft somit bei der Einschätzung der Anzahlen in den schwächer eingefärbten Flächen.

Die einzelnen Elemente in der Kartenlegende auf der linken Seite können durch Entfernen oder Setzen des kleinen Häkchens in die Berechnung und Visualisierung der Daten auf der Karte einbezogen oder herausgenommen werden. Bei jeder solchen Aktion wird die Kartendarstellung entsprechend aktualisiert.

Lexicon Alpinum

Das Lexicon Alpinum enthält eine alphabetisch sortierte Liste mit Morphtypen, Konzepten und Basistypen, zu denen bislang ein wissenschaftlicher Kommentar verfasst worden ist. Hinter jedem Eintrag ist angegeben, ob es sich um ein Konzept, einen Morph- oder einen Basistyp handelt. Konzepte sind außerdem,  wie auch in der Legende der Onlinekarte, an der Schreibung in Versalien erkennbar. Über den Link "Auf Karte visualisieren" gelangt man zur Online-Karte, auf der dem Lexikoneintrag zugeordnete Daten dargestellt werden.

Die im Lexicon Alpinum gelisteten Kommentare können auch über die Online-Karte aufgerufen werden. Sofern für einen bestimmten Legendeneintrag auf der Online-Karte ein Kommentar vorhanden ist, erscheint unmittelbar rechts von diesem Eintrag ein kleines i in einem Kreis. Ein Klick auf dieses Symbol öffnet den Kommentartext, der auch im Lexicon Alpinum präsentiert wird.

Kommentar zum Konzept ALMHÜTTE im Lexicon Alpinum und auf der Online-Karte

Crowdsourcing: Dateninkonsistenzen und deren Ausgleich

Dadurch dass die Hauptquellen von VA, nämlich Sprachatlanten und Wörterbücher, bezogen auf den gesamten Alpenraum durchaus unterschiedliche Konzepte und in der Folge auch Bezeichnungen dokumentiert haben, entsteht bei der Sammlung des Gesamtmaterials ein mehrdimensionales Netz mit einer Reihe von Inkonsistenzen. Die Mehrdimensionalität entsteht dabei im Wesentlichen durch die Variablen Georeferenz, Chronoreferenz und Konzept. So ist es z.B. möglich, dass ein bestimmter Sprachatlas zu einem bestimmten Zeitpunkt in einer bestimmten Region das Vokabular für ein bestimmtes Konzept erhoben hat. Für andere Regionen fehlen hingegen entsprechende Erhebungen entweder vollständig oder aber wurden zu einem erheblich früheren oder späteren Zeitpunkt durchgeführt. Um Inkonsistenzen dieser Art wenigstens im Hinblick auf die Konzept- und geographische Dimension auszugleichen, hat VA ein Crowdsourcing-Tool entwickelt, mit dem über das Internet gezielt Sprachmaterial gesammelt wird. Auch dieses Tool ist über das Frontend von VA_WEB erreichbar (Reiter "MITMACHEN!").

Konkret werden Internetuser dazu aufgefordert, Bezeichnungen für bestimmte Konzepte, die nach ihrer Ansicht an einem bestimmten Ort üblich sind, in ein online-Formular einzutragen. Das Tool hebt dabei bestimmte Konzepte, die aus Sicht von VerbaAlpina von besonderem Interesse sind, hervor. Grundsätzlich sind die Internetuser jedoch frei, auch Bezeichnungen für beliebige Konzepte ihrer Wahl einzutragen.

Die Validierung der Eintragungen erfolgt nach dem Prinzip der unabhängigen Quellen: Wenn zwei oder mehr Internet-Informanten für einen Ort die selbe Bezeichnung für ein bestimmtes Konzept eingegeben haben, gilt der Eintrag als validiert.

Ein großes Problem dieser Form der Online-Erhebung ist die Resonanz. Jeweils nach der Bewerbung des Crowdsourcing-Tools auf Veranstaltungen oder in den Medien steigt die Zahl der Eintragungen ins System an, ebbt jedoch jedesmal schnell wieder ab.

Jenseits von VA_DB und VA_WEB: Der weitere Horizont

Institutionelle Vernetzung

VerbaAlpina versteht sich als Teil eines Daten- und institutionellen Verbundes. Derzeit (Mai 2018) haben insgesamt über 40 Institutionen und Einzelpersonen mit VerbaAlpina eine Kooperationsvereinbarung geschlossen. Die einzelnen Partner sind hinsichtlich ihrer wissenschaftlichen Ausrichtung und ihren spezifischen Interessen überaus heterogen. Viele der Partner verfügen wie VerbaAlpina über Sprachmaterial, das in aller Regel hinsichtlich Strukturierung und Zeichenkodierung sehr individuell gestaltet ist.

Wesentlicher Bestandteil der VA-Kooperationsvereinbarungen ist der wechselseitige Austausch von Daten zum gegenseitigen Nutzen. Grundsätzlich kommen in diesem Zusammenhang zwei Szenarien ins Spiel, die den effektiven Datenaustausch überhaupt erst ermöglichen:

Entweder, man verständigt sich auf Standards (gleichermaßen für Datenstrukturen wie für Zeichenkodierung), die von allen Beteiligten angewandt werden, oder man folgt einem Schnittstellenkonzept, das es den Projektpartnern erlaubt, ihre individuellen Lösungen beizubehalten. Letztere Option ist die von VerbaAlpina favorisierte Lösung. Bei jedem Datentransfer von der oder in die Datenbank von VerbaAlpina (VA_DB) muss eine eigene Prozedur entwickelt werden, die die Daten der Quelle an die Strukturen und Kodierungen der Zielinstanz anpasst bzw. sie in diese überführt.

Nach außen hin verfügt VerbaAlpina neben der Webschnittstelle mit der Kartenfunktion über eine definierte Datenbankschnittstelle. Diese ist nur für die Kooperationspartner von VerbaAlpina zugänglich. Sämtliches georeferenziertes Sprachmaterial sowie die, ebenfalls georeferenzierten Daten der sprachlichen Peripherie können in Datenbanktabellen konsultiert und von dort auch heruntergeladen werden. Der Name der Datenbankschnittstelle für die Sprachdaten lautet vap_ling_de, der für die Daten der sprachlichen Peripheri vap_geo_de.

select Quelle_Beleg,beleg,concat(Typ,' (',art_typ,')') as typ,Name_Konzept,Gemeinde,Breitengrad,Laengengrad from vap_ling_de a where name_konzept is not null and beleg != '' order by rand()

Schnittstelle vap_ling_de (Ausschnitt)

select Kategorie,Name,Beschreibung,st_astext(Geodaten) from vap_geo_de a order by rand() limit 20

Schnittstelle vap_geo_de (Ausschnitt)

Für jede der beiden Tabellen existieren weitere Versionen mit Spaltennamen in den im Alpenraum gesprochenen Nationalsprachen (vap_ling_fr, vap_ling_it, vap_geo_fr etc.). Die Daten der beiden Schnittstellen sind über die Georeferenzierung aufeinander beziehbar.

VerbaAlpina als vollständig "digitales" Projekt

VerbaAlpina möchte den Paradigmenwechsel, der sich durch Digitalisierung und Vernetzung ergeben hat, so konsequent wie möglich umsetzen. Dazu gehört im Wesentlichen, dass das Projekt in all seinen Teilen ausschließlich elektronisch realisiert wird und im Internet zugänglich ist. Die Vorteile bestehen dabei in den Möglichkeiten der erweiterten algorithmischen und statistischen Analyse des Datenbestands, der Beschleunigung aller Prozesse, der weitgehenden Unabhängigkeit von kommerziellen Institutionen wie z.B. Wissenschaftsverlagen sowie der ständigen Verfügbarkeit aller Daten und Funktionen unabhängig von Ort und Zeit.

Den genannten Vorteilen stehen auf der anderen Seite Probleme oder besser: Herausforderungen gegenüber. Diese bestehen zunächst in der "Flüchtigkeit" des elektronischen Mediums, eine Eigenschaft, die eine Reihe von Konsequenzen nach sich zieht. Da wäre zunächst das Problem der Zitierbarkeit elektronischer Ressourcen. Einmal generierte Daten, seien es primäre Forschungsdaten wie etwa das von VerbaAlpina in VA_DB gesammelte Datenmaterial, seien es die analytischen Texte etwa im Lexicon Alpinum, sie alle müssen genauso zuverlässig zitier- und in der Folge vor allem auffindbar sein, wie das ehedem beim Zitat einer Passage in einem gedruckten Buch der Fall gewesen war. Um dieses Ziel zu erreichen, bedient sich VerbaAlpina des Konzepts der Versionierung: In regelmäßigen Abständen (seit 2018 jeweils Ende Juni und Ende Dezember) wird der komplette Datenbestand von VerbaAlpina, also alle Elemente in den Modulen VA_DB und VA_WEB gleichsam eingefroren. Sämtliche Elemente einer eingefrorenen Version können dann über die bekannten URLs direkt angesprochen werden, wobei die jeweilige Nummer der entsprechenden VA-Version als Parameter "db=[Versionsnummer]" in die URL eingebunden ist. Zwei Beispiele:

Zitat eines Kommentars im Lexicon Alpinum:

Krefeld, T.: s.v. “ALM”, in: VA-de 17/2, Lexicon alpinum, https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=2374&db=172#C216

Zitat einer online-Kartierung:

https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=172&tk=1373

Die unterschiedlichen Zitierversionen können in VA_WEB durch die Navigationselemente am rechten oberen Fensterrand ausgewählt werden:

Auswahl einer VA-Version in VA_WEB. Die jeweils jüngste Zitierversion ist grün unterlegt.

Zitierfähig ist im Grunde auch die jeweilige Arbeitsversion von VerbaAlpina (db=xxx). Allerdings kann in diesem Fall nicht garantiert werden, dass die Inhalte, auf die referiert wird, stabil sind. Die ständige Erweiterung des Datenbestands sowie die Arbeit an Texten kann dazu führen, dass bei Aufruf einer entsprechenden URL nicht die Inhalte angezeigt werden, auf die es bei Anlage des Zitats angekommen war.

Zwar ist Dergleichen nicht geplant, jedoch kann es nicht ausgeschlossen werden, dass in Zukunft die sog. "Domain" der VerbaAlpina-URLs geändert werden muss. Mit Domain ist der Teil einer URL gemeint, der sich vor den URL-Parametern befindet:

https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=2374&db=xxx

Damit die Ressourcen von VerbaAlpina auch denn noch auffindbar sein werden, wurden für die VerbaAlpina-Domain sowohl ein sogenannter Digital Object Identifier (DOI) sowie ein sogenannter Uniform Resource Name (URN) registriert. Bei diesen beiden Systemen handelt es sich im Grunde um nichts anderes als Listen, die auf der einen Seite einen persistenten Identifikator definieren und auf der anderen Seite die diesem Identifikator zugeordnete Domain. Der Identifikator bleibt grundsätzlich unter allen Umständen unverändert, die Domain hingegen ist variabel und kann ausgetauscht werden, wenn eine Ressource unter einer anderen Domain erreichbar sein sollte. DOI und URN von VA_WEB lauten:

persistenter Identifikator Domain
http://dx.doi.org/10.5282/verba-alpina www.verba-alpina.gwi.uni-muenchen.de
http://nbn-resolving.de/urn:nbn:de:bvb:19-verba-alpina-8 www.verba-alpina.gwi.uni-muenchen.de

Eine andere wichtige Frage ist, welche Institutionen für die rein physische Bewahrung der Daten und deren Auffindbarkeit zuständig sein sollen. Thomas Krefeld und Stephan Lücke haben zu diesen Fragen Vorstellungen entwickelt, die durch die folgende Grafik illustriert werden:

Zuständigkeiten und Regelungen im Kontext der Bewahrung digitaler Ressourcen (aus: Thomas Krefeld & Stephan Lücke (2017): Nachhaltigkeit – aus der Sicht virtueller Forschungsumgebungen. Korpus im Text. Version 7 (10.03.2017, 12:27). url: http://www.kit.gwi.uni-muenchen.de/?p=5773&v=7).

Die Frage nach der Sicherung und Verfügbarkeit von digitalen Ressourcen im Umfeld der Wissenschaft ist hochaktuell und beschäftigt derzeit auch die wissenschaftspolitische Ebene wie z.B. den "Rat für InformationsInfrastrukturen" (rfii), der das Ziel der Schaffung einer Nationalen Forschungsdateninfrastruktur (NFDI) verfolgt, oder das Bayerische Kultusministerium. Momentan ist VerbaAlpina eingebunden in zwei Projekte, die Lösungsansätze in diesem Umfeld evaluieren und entwickeln sollen. Bei dem einen handelt es sich um das von der DFG geförderte Projekt GeRDI (Generic Research Data Infrastructure). Ein Teil dieses Projekts ist am Leibniz-Rechenzentrum (LRZ) angesiedelt. Ziel von GeRDI ist, einen zentralen fach- und disziplinübergreifenden Metadatenkatalog aufzubauen, der in Zukunft das zuverlässige Auffinden digitaler Ressourcen und Informationen ermöglichen soll. Aktuell laufen Bemühungen, wenigstens Teile des VA-Datenbestands aus VA_DB exemplarisch in ein Metadatenschema zu überführen, das dann in den zentralen GeRDI-Index integriert werden soll.

Im selben Umfeld operiert seit Ende letzten Jahres das von der Bayerischen Staatsregierung geförderte Projekt "Forschungsdatenmanagement" (FDM; https://www.fdm-bayern.org/), dessen Ziel es ist, zuverlässige Lösungen im Hinblick auf die Sicherung und langfristige Verfügbarkeit von Forschungsdaten zu entwickeln.

Allgemein besteht im Hinblick auf den nachhaltigen Umgang mit digitalen Ressourcen noch keine Klarheit. So herrscht noch nicht einmal Einigkeit darüber, ob grundsätzlich *alle* Daten eines digitalen online-Projekts dauerhaft bewahrt werden sollen. Dies zeigt der gerade erwähnt Begriff "Forschungsdaten". Traditionell werden darunter z.B. Messdatenreihen von Klimaforschern verstanden, die sich anscheinend klar von den darauf aufbauenden Analysen und Erkenntnissen trennen lassen. VerbaAlpina vertritt den Standpunkt, dass eine solche klare Trennung weder möglich, noch sinnvoll noch angesichts der technischen Möglichkeiten nötig ist und strebt an, *sämtliche* im Projekt gesammelten und erzeugten Daten en bloc zu bewahren — z.B. auch die Protokolle der regelmäßigen Projektbesprechungen, die Einblick in den Fortgang der Projektarbeit geben und getroffene Entscheidungen transparent machen können. Neben dieser Frage, was man unter Forschungsdaten zu verstehen habe, ist auch noch nicht verbindlich geklärt, ob und wie Daten verbindlich strukturiert, dokumentiert und Metadaten versehen werden sollen und welche Institutionen mit welchen Aufgaben betraut werden sollen.

VerbaAlpina begegnet diesen Unsicherheiten durch die Suche nach Best-Practice-Lösungen und mit einem Konzept maximaler Flexibilität. Die Entwicklungen auf diesem Sektor werden aufmerksam verfolgt und die Strukturen und Prozeduren von VerbaAlpina darauf ausgerichtet. Unter den gegebenen Umständen erscheint es die beste Lösung, sich an möglichst vielen der z.T. parallel verlaufenden Anstrengungen zu beteiligen und gleichzeitig die VerbaAlpina-Ressourcen möglichst redundant in mehrere Systeme zu übertragen, die sich der Nachhaltigkeit und Nachnutzbarkeit von digitalen Inhalten verschrieben haben. Neben GeRDI wären in diesem Zusammenhang noch die UB der LMU zu nennen, bei der bereits eine ältere Version von VerbaAlpina in einem sog. Docker-System läuft. Dabei handelt es sich um eine gekapselte Serverinstallation, die garantieren soll, dass vor allem die in VA_WEB realisierten Funktionalitäten auch dann noch laufen, wenn es in Zukunft Serversoftware geben wird, mit der der von VA entwickelte Programmcode nicht mehr lauffähig ist. Zu erwähnen wäre schließlich noch das CLARIN-D-Repositorium. VerbaAlpina hat bereits vor längerer Zeit Kontakt mit den dortigen Verantwortlichen aufgenommen, die Realisierung der Übertragung von VA-Daten dorthin steht bislang aber noch aus. Sämtlicher von VA erzeugter Programmcode ist auf Github (https://github.com/VerbaAlpina/Verba-Alpina-Plugin) frei zugänglich und nachnutzbar.

Abschließend sei noch der Aspekt der Lizensierung erwähnt. VerbaAlpina ist der Meinung, dass Forschungsdaten im weitesten Sinne grundsätzlich frei zugänglich gemacht werden müssen. Entsprechend werden die Projektdaten von VA, soweit möglich, unter der CC-BY-SA 3.0 DE Lizenz zur Verfügung gestellt. VerbaAlpina fühlt sich den FAIR-Prinzipien (https://www.force11.org/group/fairgroup/fairprinciples) verpflichtet: Findable – Accessible – Interoperable und Re-usable sein!

Anhang

Eckdaten der technischen Realisierung

Modularer Aufbau: Datenbank (VA_DB) – Publikationsportal (VA_WEB) – Mediathek (VA_MT)

  • VA_DB: MySQL-Cluster
  • VA_WEB: WordPress-Installation mit Anbindung an MySQL-Datenbank
  • WordPress: PHP-Framework, weit verbreitet, standardisiert;
  • Visualisierung der Projektdaten auf einer Google-Map
  • Anpassung der WordPress-Basisinstallation durch projektspezifische Erweiterungen, möglichst in Form von sog. Plugins.
  • Plugin-Konzept ⇒ Synergieeffekte durch Weiterverwendung in anderen Projekten

Beispiel: Strukturierte Erfassung von Daten aus einem Sprachatlas

VALTS-Karte IV 73. Orange Markierung: Verwendung der Bezeichnung Sennküche für den SENNEREIRAUM INNERHALB DER ALPHÜTTE in der Ortschaft Bichlbach (T06). Grüne Markierung: Verwendung der Bezeichnung Taje für die ALPHÜTTE in der Ortschaft Sankt Leonhard (T34).

Die Abbildung präsentiert einen Ausschnitt aus dem VALTS|Vorarlberger Sprachatlas-Karte IV 73 ("Die Sennhütte bzw. der Sennereiraum auf der Alpe, Lautung und Bedeutung von Tieje, Taje f.").

Die Karte ist ein Repräsentant einer sog. Punktsymbolkarte, die die Verbreitung der sprachlichen Merkmale hauptsächlich durch unterschiedliche Symbole visualisiert, die jeweils bestimmten definierten Typen zugeordnet sind. Wesentlich ist demnach die vorangegangene Typisierung des gesammelten Sprachmaterials. Diese Art von Sprachkarte steht einer anderen Art gegenüber, auf der jeweils die konkreten Einzelbelege in häufig phonetischer Transkription direkt neben die korrespondierenden Erhebungspunkte geschrieben werden, ohne dass die Einzelbelege in irgendeiner Weise als Vertreter bestimmter Typen markiert werden würden.

Die Eintragungen auf dieser Karte sind sehr heterogen. So sind zunächst mehrere Konzepte auf einer Karte versammelt:

  • SENNHÜTTE
  • SENNEREIRAUM

Aus der Legende geht hervor, dass auf der Karte darüberhinaus noch weitere Konzepte dokumentiert sind:

  • SENNEREIRAUM INNERHALB DER ALPHÜTTE,
  • PRIMITIVE SENNHÜTTE AUF MAIENSÄßEN,
  • SENNKÜCHE,
  • KÄSEKELLER,
  • ALPHÜTTE

Die meisten dieser Konzepte sind nicht flächendeckend in allen kartierten Erhebungsorten abgefragt und dokumentiert worden. Insofern besteht also eine Inkonsistenz in der Fläche.

VerbaAlpina unterscheidet im Hinblick auf die Sprachdaten mehrere Abstrahierungsstufen. An der Basis befindet sich jeweils der individuelle Einzelbeleg, der von einem Gewährsmann/Informanten gleichsam zu Protokoll gegeben wurde. Diese Einzelbelege können sodann in verschiedener Weise typisiert werden. So können zum einen mehrere Einzelbelege, die bestimmte phonetische Gemeinsamkeiten aufweisen, zu phonetischen Typen zusammengefasst werden. Zum anderen können unterschiedliche Einzelbelege Repräsentanten ein und desselben morpholexikalischen Typs sein, unabhängig von phonetischen Eigenheiten.

Die (fiktiven) Einzelbelege Kaas und Kees würden z.B. aufgrund der differierenden Vokalrealisierung zwei unterschiedlichen phonetischen Typen zuzuordnen sein, wären jedoch beide auf denselben morpholexikalischen Typ Käse zu beziehen.

Auf der VALTS-Karte finden sich Vertreter sowohl von Einzelbelegen wie auch von phonetischen und morpholexikalischen Typen. Ein Vertreter eines Einzelbelegs wäre z. B. der Eintrag toːə in der Kartenlegende zum Erhebungspunkt T34, der als Vertreter des phonetischen Typs Taje aufgefasst wird. Diesem phonetischen Typ Taje wird auf der Karte der phonetische Typ Tieie gegenübergestellt, wobei das unterscheidende Merkmal offenkundig der hinter dem anlautenden T eingeschobene i-Laut ist. Grundsätzlich wäre die Definition weiterer phonetischer Typen denkbar, die sich an anderen lautlichen Merkmalen orientieren würden. So könnte man z.B. auch Belegvarianten, die dem Muster Toje folgen, oder solche, die anstelle des o ein e aufweisen, als weitere phonetische Typen auffassen.

Neben phonetischen Typen begegnen auf der VALTS-Karte auch morpholexikalische Typen. Als solche wären z.B. die unter der Rubrik "Deutsche Bezeichnungen" aufgelisteten Bezeichnungen (Senn-, Alp- oder Berg-)Hütte oder Sennhaus aufzufassen. Die Karte gibt keinen Aufschluss über die dahinterstehenden Einzelbelege und deren individuelle lautliche Varianten. Unsicherheit besteht auch im Hinblick auf die Frage, ob ein Informant nun Sennhütte, Alphütte, Berghütte oder einfach nur Hütte verwendet hat. Die strukturierte Erfassung der Daten zwingt jedoch jeweils zu klaren Entscheidungen, die daher oftmals nicht leichtfallen. Strenggenommen ist es im vorliegenden Fall gar nicht möglich, eine Entscheidung zu treffen. Lediglich die Verwendung des Wortes Hütte, möglicherweise als Bestandteil eines Kompositums, ist gesichert.

Bei der strukturierten Erfassung der Daten muss der Status jeder Eintragung identifiziert und entsprechend notiert werden. Eine automatisierte Erfassung der Daten ist unmöglich, manuelle Erfassung durch Personen mit sprachwissenschaftlichem Fachwissen zwingend erforderlich.

Das oben präsentierte Beispiel aus dem Vorarlberger Sprachatlas würde sich skizzenhaft in folgender Weise im relationalen Datenformat abbilden lassen:

Metadatenkategorien (Variable):

  • Konzept
  • Bezeichnung_morpholexikalischer Typ
  • phonetischer Typ
  • Einzelbeleg
  • Gemeindename
  • Gemeindenummer
Konzept Bezeichnung_
morpholexikalischer Typ
Bez_phontischer Typ Einzelbeleg Gemeindename Gemeindenummer
SENNEREIRAUM INNERHALB DER ALPHÜTTE Sennküche Bichlbach T6
ALPHÜTTE Teie(n) Taje toːə St. Leonhard T34

Grundlage für die Transkription ist eine von VA erstellte sog. Codepage, in der die Regeln für die Abbildung von Sonderzeichen durch ASCII-Zeichen festgelegt sind.

Ausschnitt aus den Transkriptionsregeln von VerbaAlpina für die Erfassung von Daten aus Sprachatlanten

 


Bibliographie

  • VALTS|Vorarlberger Sprachatlas = Eintrag nicht gefunden

Stratigraphie_slaw




(336 Wörter)

vgl..

"Die Kulturlandschaft des Ostalpenraumes mit ihrer noch weit ins 6. Jahrhundert hinein
erhaltenen spätantiken Provinzstruktur wurde sowohl durch die slawische Landnahme
als auch durch die awarische Oberherrschaft und die damit verbundene Lebensordnung
völlig verwandelt44). Man könnte sogar sagen, dass die gesamte Kultur als besondere Lebensordnung im weitesten Sinne völlig verschwunden war, wobei man annehmen kann, dass sie eher abgeschafft als gewaltsam zerstört wurde, denn ihre Träger zogen teilweise weg oder wurden assimiliert. Anders als die germanischen Stämme, die sich auf dem Territorium des römischen Imperiums niederließen, waren die slawischawarischen
Siedler offensichtlich nicht bestrebt, die Kontrolle über den spätantiken Staats- und Steuerapparat zu gewinnen, und sie hatten kein Interesse, die römische Infrastruktur
aufrechtzuerhalten. Die Wende, von der nicht einmal die östlichsten Bereiche von Italien verschont blieben45), war vollständig und griff auf alle Lebensbereiche über: vom staatlich-politischen, gesellschaftlichen und wirtschaftlichen bis hin zum kulturellen, geistigen, religiösen und sprachlichen. Die komplexe Arbeitsteilung der Spätantike als Grundlage von Staat und Verwaltung, Kirchenorganisation, Städtewesen, Handel, Schrifttum und Hochkultur war untergegangen46). Der Raum bekam eine neue, slawische Sprachidentität, die bis heute erhalten geblieben ist. An die Stelle von Provinznamen traten neue wie zum Beispiel Karantanien und Carniola47)." (Štich 2014, 248)

"Die von den slawischen Gruppen und ihren awarischen Oberherren anlässlich ihrer
Landnahme im Ostalpenraum vorgefundene Bevölkerung war ihrer Herkunft nach sehr
heterogen. Die Provinzialrömer waren ein Konglomerat von illyrischen und keltischen|Resten, italischen Kolonisten und Militärveteranen. Hinzu kamen in der Spätantike
noch germanische Gruppen, in erster Linie Ostgoten und Langobarden52). Doch die Slawen
machten keinen Unterschied, zumal sie in den romanischen und romanisierten Altsiedlern
vereinfachend nur Vlahi – die Walchen sahen53). Ein Teil dieser Bevölkerung, der
sich auch wegen seiner christlichen Religion als existentiell gefährdet betrachtete, wich
vor den ankommenden Neusiedlern gegen Westen, ins byzantinische Istrien und ins
langobardische Friaul, zurück." (Štich 2014, 249 f.)


Bibliographie

  • Štich 2014 = Štich, Peter (2014): Begegnung, Akkulturation und Integration am Berührungspunkt der romanischen, germanischen und slawischen Welt, Ostfildern, Thorbecke, Härtel, Reinhard, Akkulturation im Mittelalter