VerbaAlpina – Aspekte der informatischen Konzeption und technischen Realisierung (Zitieren)

Stephan Lücke


(2963 Wörter)

Der folgende Vortrag wurde im Rahmen der Vorlesung "Einblicke in digitale sprachwissenschaftliche Forschungsprojekte" des BA-Studiengangs "Digital Humanities in den Sprachwissenschaften" am 23.05.2022 gehalten.

Vorwort

  • Allerdings: Fachwissenschaft und informatische Methoden sind in den Digital Humanities (DH) so eng miteinander verwoben, dass eine klare Trennung nur schwer möglich ist – Zwei Seiten einer Medaille:

Zwei Seiten einer Medaille: Sprachwissenschaft und Informationstechnik

  • Überschneidungen und Wiederholungen mit dem Vortrag von Frau Colcuc und Frau Mutter letzte Woche können daher nicht vollkommen ausgeschlossen werden
  • Fachwissenschaften und Informationstechnologie beeinflussen sich wechselseitig

Wechselseitige Beeinflussung von Fachwissenschaften und Informationstechnologie

Übersicht

  1. Kurze Wiederholung: Worum geht es bei VA?
  2. Die reine Technik
  3. Vorstellung weiterer Funktionsbereiche von VA: Interaktive Karte – LexiCon Alpinum – CrowdSourcing-Modul II: Zooniverse
  4. VA als vollständig digitales Projekt: VA und die Herausforderungen von Digitalisierung und Vernetzung

1. Wiederholung: Das Projekt VerbaAlpina

  • VA ein Projekt im Bereich der Geolinguistik: sprachliche Variation vor dem Hintergrund von Raum und Zeit
  • Im Mittelpunkt: Die Lexik – Welche Wörter werden im Alpenraum für ausgewählte Begriffe verwendet? Phonetik, Morphosyntax und Grammatik spielen konzeptionell keine Rolle (können zumindest teilweise auf Basis des von VA zusammengetragenen Materials untersucht werden)
  • Es geht um Dialektwörter, National- bzw. Standardsprachen spielen eine untergeordnete Rolle
  • Beschränkung auf Bezeichnungen für "typisch" alpine  Konzepte (Milch- und Almwirtschaft, Flora, Fauna, traditionelle Küche, Tourismus/Modernes Leben)
  • VA dokumentiert ausschließlich lexikalische Daten mit einem definierten Bezug zum Raum (Georeferenzierung; Gebrauch eines Wortes an einem ganz bestimmten Ort oder in einer ganz bestimmten Region)
  • Geographischer Rahmen: Die Grenze der Alpenkonvention
  • Sprache und außersprachliche Realität sind folgendermaßen aufeinander bezogen:
Bezeichnung KONZEPT (=BEGRIFF)
Butter     
  • Konvention: Konzepte werden in VERSALIEN, Bezeichnungen kursiv geschrieben ⇒ BUTTER vs. Butter
  • Bidirektionale Verknüpfung (semasiologisch: Bezeichnung ⇒ KONZEPT vs. onomasiologisch: KONZEPT ⇒ Bezeichnung)
  • Informatisch gesprochen: m:n-Beziehung: eine Bezeichnung kann mehrere Bedeutungen haben, für eine Sache/Konzept gibt es mehrere Bezeichnungen

  • Auf den ersten Blick ist diese Zuordnung sehr simpel. Sie erlangt jedoch große Komplexität in dem Moment, in dem man die Dimensionen des Raumes und der Zeit in dieses System einbezieht
  • Bezeichnungen und ihre Bedeutung variieren in Raum und Zeit. Regionale Bezeichnungsvariation am Beispiel von malga:
  • Regionale Verbreitung von Wörtern und ihren Bedeutungen kann sich im Lauf der Zeit verändern
  • Weitere Veränderung über die Zeit: Sprachwandel: lat. lac ⇒ ital. latte, frz. lait
  • Ergebnis: sehr komplexes, vierdimensionales, bewegliches Geflecht von Wörtern und ihren Bedeutungen
  • Grundschema ist folgende Zuordnung:
Bezeichnung Konzept Georeferenz Chronoreferenz Quelle
painch BUTTER Ardez (10.1399 46.8577) 1928-1940 AIS 1207, 7
Anke BUTTER Malters (8.2514 47.0124) 1962-2003 SDS V 179, LU24
...
  • Traditionell: Erschließung lexikalischen Material *entweder* durch Wörterbücher (semasiologischer Zugriff) *oder* durch Sprachatlanten (onomasiologischer Zugriff)
  • VerbaAlpina verbindet beide Zugriffsarten, ist Wörterbuch und Sprachatlas in einem
  • Die Daten von VA stammen aus:
    • Sprachatlanten,

AIS-Karte 1218 "Il siero del formaggio" (MOLKE; Navigais; vgl. VA-Karte; lita, leyto/u ) ⇒ letie (roa f.)). Der AIS präsentiert unmittelbare Äußerungen eines Sprechers in phonetischer Transkription

    • Wörterbüchern (nur solchen, die auch Informationen zur geographischen Verbreitung von Wörtern enthalten)

Eintrag Teie(n) im Schweizerdeutschen Idiotikon. GrMu. = Mutten, GrKl = Klosters, GrD = Davos, GrChur. = Churwalden. Das Idiotikon dokumentiert typisierte Belege, zeigt also keine unmittelbaren Äußerungen eines Sprechers

    • Crowdsourcing (⇒ Sammlung von aktuellen Daten über das Internet)
    • Partnerprojekte (z. B. ALD: Übernahme der Daten in Form eines SQL-Dumps)
  • Status der gesammelten Sprachdaten ist unterschiedlich:
    • Einzelbelege (konkrete Äußerung eines einzelnen Sprechers (auch: "Informant"; Beispiel AIS) vs.
    • morpholexikalische Typen (entspricht einem Lemma in einem Wörterbuch; Beispiel Idiotikon)
  • Typisierung: Einzelbelege müssen manuell "typisiert", also zu lexikalischen Lemmata zusammengefasst werden. VA nennt diese "morpholexikalische Typen", kurz: Morphtypen – Beispiel: phonetische Varianten des Morphtyps "tegia" (Morphtyp zur Bezeichnung u. a. der SENNHÜTTE [AIS 1192_1, CASCINA DI MONTAGNA]; insgesamt 26; DB-Abfrage:

    Exempla mit "###" markieren Fälle, in denen der Morphtyp als Teil eines längeren Ausdrucks verwendet wird):

tˈeːʥɑ
tˈeːɑ
tˈiːʥɑ
tˈiːzɑ
tˈiːdzɑ
tˈeːa
tˈeːjɑ
tˈeːj̆ɑ
tˈeːɑ###tˈeːɑ dɑ ˈalp
tˈeaɜ
tˈea
tˈeʤa
tˈeːaɑ˺
tˈeːaɜ
tiˈeʒa###tiˈeʒa da mont
teˈaθ
tˈej̆###tˈej̆ da la bˈoːʤɑ
tˈɛːza
tˈeʒɑ
tˈeːzɛ
tˈeːʥɑs͉###mˈidaː tˈeːʥɑs͉
te̞ˈaθ
Tegia###Tegia d'alp
Tegia
teggia
Tieja

  • Typisierungstool zur Erleichterung dieser Arbeit; de facto nicht automatisierbar

Das Typisierungstool von VerbaAlpina

  • Historische Tiefe durch Erfassung auch der Wortgeschichte
  • Für jeden Morpholexikalischen Typ werden nach Möglichkeit auch historische Vorläufer identifiziert und dokumentiert
  • Dabei gibt es grundsätzlich zwei Szenarien:
    • Entlehnung aus einer anderen Sprache
    • Entwicklung aus einer älteren Sprachstufe ("Etymon" – z. B. Latein ⇒ Italienisch, Französisch, Rätoromanisch, Rumänisch etc. ...)
  • Oft ist nicht sicher zu entscheiden, welches Szenario vorliegt
  • Daher hat VA den Begriff des "Basistyps" eingeführt: Er bezeichnet einfach eine Vorstufe eines morpholexikalischen Typen, vermeidet aber die Festlegung auf eine der beiden genannten Möglichkeiten
  • Beispiel: lat. salamandra als Vorstufe von ital. salamandra und deu. Salamander; die Zuweisung eines "Basistyps" zu einem Morpholexikalischen Typen stellt lediglich einen offenkundigen, grundsätzlichen Zusammenhang zwischen beiden fest, sagt aber nichts über die konkrete  Art  dieses  Zusammenhang  aus:

2. Die reine Technik

  • VA vollständig digital
  • Nur open source Technologie
  • fast ausschließlich Web-Technologie
  • WordPress als Content Management System (CMS)
  • MySQL-Datenbanken (eine für Kerndatenbestand, eine generische als WordPress-Backend)
  • Generierter Computercode überwiegend PHP, JavaScript, SQL, CSS
  • Infrastruktur bestehend aus Datenbank- und Webserver(n)
  • Betrieb der Infrastruktur durch die IT-Gruppe Geisteswissenschaften (ITG)
  • Hohe Verfügbarkeit der Dienste (sehr geringe Ausfallzeiten)
  • Professionelles Maintenance (Pflege der Serversoftware: regelmäßige Updates und Sicherheitspatches)
  • VA-Datenbank umfasste im Mai 2021 140 Tabellen, 18 Views, 25 Funktionen, 47 Prozeduren, 5 Trigger

3. Weitere Module von VA: Interaktive Karte – LexiCon Alpinum – API – CrowdSourcing-Modul II: Zooniverse

a) Interaktive online-Karte

  • zentrales Visualisierungsinstrument – Glanz- und Prunkstück von VA: Interaktive online-Karte
  • realisiert mit PHP, JavaScript, WebGL (Letzteres macht die Karte hochperformant [durch Verwendung des Prozessors auf der Graphikkarte]. Beispiel: Schnelles Zoomen nach Auswahl von Gemeindepolygonen europaweit ⇒ zigtausende von Einzelpunkten)
  • onomasiologische und semasiologische Kartierung (synoptische Kombination unterschiedlicher Perspektiven, die im Buchdruck nicht möglich war: Sprachatlas vs. Wörterbuch). Beispiel: Suche nach Butter vs. BUTTER (unterschiedliche Gruppierungsmöglichkeiten, bei Konzepten u. a. nach Morphtypen und nach Basistypen, bei Morphtypen nach Konzept oder Quelle)
  • Unterscheidung zwischen Background-Layer und Overlays
    • Unterschiedliche Backgroundlayer: aktuelle, elektronische Karten (z.B. Esri.WorldImagery, OpenTopo etc.)
    • Overlays: zum Teil historische, gescannte und georeferenzierte Karten (z. B. Mayr's Alpenkarte; zukünftig evtl. Karten zur Bodengüte, Geologie, Infrastruktur etc.; interessant auch: Verlauf der Baumgrenze)
    • Opazität der Overlays kann stufenlos eingestellt werden.
  • Qualitative vs. quantitative Kartierung:
    • Qualitative Kartierung: Geographische Verteilung von Merkmalsausprägungen auf dem Hintergrund des Netzes der politischen Gemeinden (z. B. Verbreitung der Belege für den Morphtypen "burro")
    • Quantitative Kartierung: Die Häufigkeit einer bestimmten Merkmalsausprägung wird für bestimmte regionale Einheiten berechnet (zur Auswahl stehen u. a.: Gemeindegrenzen, NUTS-3-Grenzen [~ deutschen Landkreisen], Sprachgebiete; Auswahl über den Menüpunkt "sprachbezogene Peripherie") – Beispiel: Verbreitung des Morphtypen 'Anke')
  • Kartensymbole klickbar -> Infofenster mit Detailinformationen, Normdaten und Verlinkungen (im Fall von Morphtypen: Angabe u. a. von Morphtyp, Basistyp, Quelle, bezeichnetem Konzept, ggf. nicht typisiertem Einzelbeleg)
  • SQL: Direkte Eingabe von SQL-Abfragen, z. B.: "finde alle Einzelbelege des morpholexikalischen Typs 'Butter', die mit einem 'P' (statt mit einem 'B') beginnen
  • Gerade bei quantifizierenden Darstellungen: Unterschiedliche Größe der Gemeindeflächen verzerrt Wahrnehmung ⇒ Hexagonale Abbildung der "räumlichen Einteilungen"
  • Möglichkeit, Karten zu generieren und zu speichern ("Synoptische Karten"; Beispiel: "Die Basistypen cellarium, baita, casearia als Substrat")
  • Möglichkeit, Karten zu teilen (Teilen-Link)
  • Erläuterung der Kartenfunktionen u. a. durch kleine Fragezeichen

b) Lexicon Alpinum

  • online-Demo
  • Textzentrierter Zugriff auf das Datenmaterial
  • Alphabetische Liste aller Morph- und Basistypen sowie aller Konzepte
  • Filterung der Gesamtliste nach Konzepten, Basis- oder Morphtypen durch Eingabe von "konzept" etc. in Suchfeld
  • Beispiel: Suche nach "Basistyp unguere" ⇒ Auswahl durch Anklicken ⇒ Übernahme in Ergebnisliste (ggf. Anzeige von Kommentar)
  • Belege in Ergebnisliste: Anzeige von VA-ID (Beispiel ungere: B567) – Link auf Kartierung – Zitierlink mit DOI (Kettensymbol)
  • Registersymbol "Daten": Verknüpfungen des ausgewählten Typs oder Konzepts mit anderen Inhalten im Datenbestand, gegliedert  (in Abhängigkeit vom ausgewählten Datum) nach Morpholexikalischen Typen (im Fall von Basistypen), Gemeinden und Konzepten ("Welche Konzepte sind mit "unguere" verbunden?)
  • Auswahl von einzelnen Konzepten oder Morph-/Basistypen durch Anklicken der Liste
  • Eingabefeld "Durchsuchen" führt eine Volltextsuche in den zuvor ausgewählten Items durch

c) API

  • VA bietet verschiedene Möglichkeit, auf seinen Datenbestand zuzugreifen:
  • öffentlich zugänglich: Interaktive Karte, Lexikon Alpinum
  • reserviert für offizielle Projektpartner von VA: Direktzugang zur VA-Datenbank über PhpMyAdmin oder Client-Programme
  • Die bisher genannten Zugangsweisen primär für Menschen ("User Interfaces", "Mensch-Maschine-Schnittstelle")
  • daneben: sog. API: „application programming interface“ – "Maschine-Maschine-Schnittstelle" "Anwendungsprogrammierschnittstelle" – ebenfalls öffentlich zugänglich
  • Dokumentation und Beispiele auf dem Webportal von VA veröffentlicht: https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=493&db=212&letter=A#138
  • VA-Daten können über die API in unterschiedlichen Formaten als Webseite oder in (z. B. csc-)Dateien heruntergeladen werden (auch von Menschen über einen Browser)
  • Beispiel: Die URL https://www.verba-alpina.gwi.uni-muenchen.de/?api=1&action=getName&id=S134468&version=182 liefert den Einzelbeleg S134468 in der Fassung der VA-Version 182 (= 1. Halbjahr 2018); Der Beleg stammt aus dem Sprachatlas Italiens und der Südschweiz (AIS): https://navigais-web.pd.istc.cnr.it/?map=1073&point=323 (Original im Atlas; Karte 1073 "SCHAFHIRTE", Informant 323 [Predazzo])
  • Dokumentation der API von VA

d) CrowdSourcing-Modul II: Zooniverse

  • Kernidee: Nachnutzung eines generischen Baukastens ⇒ Reduktion von Entwicklungsaufwand
  • Absicht/Zweck: Transkription von Sprachatlasdaten durch die "Crowd"
  • Zentrales Problem: Zuordnung von Text- oder Symboleintragungen auf Karten von Sprachatlanten zu Erhebungspunkten maschinell nicht operationalisierbar (Maschinen sind überfordert:
  • Problem jedoch speziell bei Sprachatlanten: Zuordnung von Schrift zu Erhebungspunkten:

    Attributionsaufgabe im Zooniverse-basierten Crowdsourcing-Tool von VerbaAlpina

    • Bilanz:
      • Nachnutzung der generischen Umgebung sehr aufwendig ⇒ Ursprüngliche Hoffnung nicht bestätigt
      • Transkriptionsaufgabe teils zu komplex für Crowder (Transkriptionssystem letztlich doch kompliziert)
      • Korrektur: Sinnvoll könnte die Beschränkung auf die Zuordnungsaufgabe sein (welcher Eintrag gehört zu welchem Punkt? Verzicht auf Transkription. Transkription könnte durch OCR erledigt werden)

    4. VA und die Herausforderungen der Virtualität

    • VerbaAlpina ist VOLLSTÄNDIG digital konzipiert
    • "digital" ist zu wenig! Mehrwert entsteht vor allem durch Vernetzung: Einsatz von Webtechnologie (u. a. ⇒ WordPress)
    • Vernetzung hat zwei Seiten! VA bindet externe Inhalte an die eigenen an und bietet umgekehrt externen Instanzen die Möglichkeit, die VA-Daten anzubinden. Wichtige Rolle kommt dabei sog. Normdaten zu (VA-Normaten: Identifikatoren für Morphtypen, Konzepte, Orte und Einzelbelege; von VA genutzte externe Normdaten: Wikidata-QIDs und LIDs, Geonames, ...)
    • Technologie wird multifunktional eingesetzt, für:
      • Datenerfassung/-sammlung
      • Datenanalyse (algorithmische/statistische Berechnungen des gesammelten Datenmaterials; z. B. lexikalische Variation bezogen auf bestimme KONZEPTE: Welche Konzepte werden mit besonders viel, welche mit besonders wenigen Morphtypen bezeichnet)
      • Monitoring/Überwachung (z. B. Live Statistik der Crowdsourcing-Aktivität)
      • Datenvisualisierung (im Wesentlichen Kartierung)
      • Publikation diskursiver Inhalte: Vorlesungen wie die vorliegende, Artikel/Beiträge (Ersatz für Publikation in Zeitschriften, Monographien und Sammelbänden; Beispiel: Krefeld, Thomas / Lücke, Stephan (2021): (Unsere) Prinzipien der virtuellen Geolinguistik [= Krefeld/Lücke 2021 ])
      • Organisation/Kommunikation (Protokolle der wöchentlichen Projekttreffen)
      • Dokumentation (Erläuterungen zu Methode und Technik)
    • VA verzichtet quasi vollständig auf Papier – alles ist elektronisch (blickt man auf die Geisteswissenschaften, ist das nicht selbstverständlich; breit gestreutes Kontinuum zwischen fast totaler Ablehnung [Computer/Digitalität nur als Werkzeug zur Erzeugung traditioneller Diskursformen wie Artikel und Monograpien] und maximaler und konsequenter Nutzung)
    • Aus konsequenter Nutzung der Digitalität resultieren (überwiegend) Vor-, aber auch Nachteile

    a) Vorteile von Digitalisierung und Vernetzung

      • Multimedialität (Text, Bild, Ton [!])
      • Hohe und niederschwellige Verfügbarkeit, auch abseits von Zentren wissenschaftlicher Forschung (Universitäten, wissenschaftliche Bibliotheken) in abgelegenen Regionen
      • Verknüpfbarkeit der Inhalte (Vernetzung), dadurch u. a. ...
        • Entstehung eines größeren Ganzen, das mehr ist als die Summe seiner Teile1
        • Möglichkeit direkter, unmittelbarer Referenzierung durch stabile/verlässliche Direct Links, Beispiel: Link auf VA-Karte, Link auf diskursive Inhalte in KiT (Ersatz für Angabe von Seiten im Paradigma des Buchdrucks)
        • Vernetzung nur sinnvoll, wenn feine Datengranulierung vorliegt (Beispiel Buch: ohne Seitenzahlen Referenzierung wertlos)
      • Multifunktionalität: Arbeitsinstrument (Sammlung und Verwaltung von Daten), Publikation, Kommunikation etc. (s. oben) – Konsequenz: fundamentale Änderung wissenschaftlicher Arbeitsweise (ehedem: Wissenschaftler zunächst isoliert im "Studiolo", sammelt Material, wertet aus, verfasst Text(e), korrespondiert brieflich mit Kollegen, beschränkter Kontakt mit "Publikum" (wissenschaftliche Community), Laien praktisch ausgeschlossen (Zugang zu wiss. Bibliotheken Voraussetzung), Abhängigkeit von Verlagen und Buchhandel  etc. ... – nunmehr: Forschungsarbeit von Anbeginn potentiell öffentlich, erleichterter Austausch, unmittelbares Feedback ⇒ schnelle Korrektur von Fehlern (zumindest theoretisch)
      • ...

    b) Nachteile:

    • "Flüchtigkeit" des Mediums mit zwei primären Konsequenzen: ...
      • Gefahr von physischem Datenverlust (anders als beim Buch)
      • "Instabilität" (Daten können willentlich vom Autor verändert werden ⇒ problematisch bei Zitaten (anders beim Buch: Titel, Auflage, Seitenzahl absolut stabil)
    • Abhängigkeit von personeller und maschineller Infrastruktur
    • Notwendigkeit unbefristeter Betreuung der technischen Komponenten
    • dauerhafte Finanzierung erforderlich, auch über Ende der Projektfinanzierung hinaus (Betriebskosten für personelle und maschinelle Infrastruktur; bei Buch nach Druck weitgehend abgeschlossen, außer Kosten für Bibliotheken)
    • Notwendigkeit technischen Know-Hows bei den Fachwissenschaftlern (Hürde für Bereitschaft zum Einsatz der DH!)
    • Gestiegene Verantwortung der "Autoren": Änderung oder Verlust beeinflusst und beschädigt ggf. das größere Ganze
    • wechselseitige Abhängigkeiten durch Vernetzung auf verschiedenen Ebenen:
      • inhaltlich/fachwissenschaftlich: Verknüpfung von Daten verlangt Schaffung von Standards (Beispiel Lexikographie: Einsatz von Normdaten und persistenten Identifikatoren zur eindeutigen Bezeichnung von Morphtypen)
      • technisch: Veränderungen von Frameworks und Diensten (Beispiel aus VA: anfänglicher Einsatz von Google Maps API für online-Kartierung der VA-Daten)
      • rechtlich: Änderung von Lizenzbedingungen bei Diensten, deren Angebot vom eigenen Projekt genutzt wird
    • Änderung des "mindsets" in der Wissenschaftscommunity erforderlich, u. a.:
      • Bereitschaft zur Aneignung von Know How
      • Konsequente Abkehr von den traditionellen Formen wissenschaftlicher Arbeit (PDF als Surrogat des Buchdrucks, PDFs sind von Nachteil, weil nur bedingt internettauglich und dadurch schwer vernetzbar und überwiegend mit diskursivem Inhalt; Unterscheidung zwischen "Forschungsdaten" und ... "normalen" [?] Daten – besser: strukturierte Daten vs. diskursive Daten; früher war die Unterscheidung sinnvoll, da z. B. naturwissenschaftliche Messdaten wegen ihrer Menge nicht gedruckt werden konnten)
    • Interoperabilität verlangt hohes Maß an feiner Datengranulierung (⇒ strukturierte Daten)
    • "Lebende Systeme" wie WebPortal von VA bedürfen regelmäßiger Codepflege (laufend maintenance, in größeren Abständen re-engineering)
    • aktuell noch: fehlende institutionelle Strukturen (wer sorgt für dauerhafte Bewahrung digitaler Inhalte? Wer übernimmt die Finanzierung) ⇒ Initiative "Nationale Forschungsdateninfrastruktur" (NFDI)

    c) Antworten von VerbaAlpina auf die Nachteile bzw. Herausforderungen der Digitalität

    • "Flüchtigkeit": Schaffung von Stabilität durch Versionierung (alle 6 Monate, jeweils zu Jahresmitte und -ende; Nomenklatur: 221 ⇒ Version von Mitte des Jahres 2022; 222 ⇒ Version vom Ende des Jahres 2022) – Beispiel: Zitat eines Methodologie-Eintrags:
    Lücke, S. (2020): s.v. “API”, in: VerbaAlpina-de 21/2 (Erstellt: 19/1, 
    letzte Änderung: 20/1), 
    Methodologie, 
    https://doi.org/10.5282/verba-alpina?urlappend=%3Fpage_id%3D493%26db%3D212%26letter%3DA%23138
    • Technische Umsetzung: Versionen werden erzeugt durch Anfertigung von Kopien der zentralen VA-Datenbank
    • Screenshot aus dem PMA-GUI: Versionen der VA-Datenbank

    • Betrieb der Infrastruktur durch eine weitgehend bestandsgesicherte Institution (ITG der LMU)
    • Erzeugung von hochgranularen strukturierten Daten (Erleichterung bzw. überhaupt erst Ermöglichung von zielgenauer Vernetzung)
    • Einsatz von stabilen Internet-Adressen (DOIs; setzen auch Sorgfalt und Umsicht voraus), auch für granulare Einzeldaten
    • Einsatz von kostenfreier open source Standardsoftware zur Reduzierung von Wartungsaufwand und Nachnutzbarkeit
    • Anwendung einer offenen Nutzungslizenz: CC BY-SA (essentiell für Nachnutzung der Daten durch Dritte)
    • Zusätzliche Absicherung des Datenbestands durch Übertragung in geeignete Repositorien der UB der LMU, u. a. "Discover" -
    • Detaillierte Dokumentation u. a. durch ...

    d) Bislang ungelöste Probleme von Digitalisierung und Vernetzung

    • ungelöstes (unlösbares?) Problem "lebender Systeme": dauerhafter Betrieb des Webportals kann nicht garantiert werden; Sourcecode des Webportals wird auf GitHub veröffentlicht, Hoffnung: zukünftiges "Nachbauen" des Portals mit dann verfügbaren technischen Mitteln; entscheidend sind Idee und Konzept)
    • Flächendeckende Akzeptanz
    • Klärung der institutionellen Zuständigkeiten

    Resumée: Digitalisierung in den Geisteswissenschaften eher eine – noch längst nicht abgeschlossene – Evolution als eine Revolution. 

     

    Ich danke für die Aufmerksamkeit!

    ***


    Appendix (optional): Transkription

    • Problem: Erfassung von Daten speziell aus Sprachatlanten

    • Dort verwendete Transkriptionssysteme ([Bibl:AIS]: Böhmer-Ascoli) zumindest teilweise nicht in Unicode kodiert:

    Die Unicode-Blöcke mit phonetischen Zeichen (Link)

    • Selbst wenn: Erfassung mit Standardtastaturen sehr umständlich und fehleranfällig, Lösung: sog. Betacode:

    Transkription "exotischer" Schriftzeichen mit einer deutschen Standardtastatur ("Betacode")

    • Kernidee übernommen vom Thesaurus Linguae Graecae (TLG) – Beispiel (TLG-Link [Login erforderlich]):

    Μῆνιν ἄειδε, θεά, Πηληϊάδεω Ἀχιλῆος,
    οὐλομένην, ἣ μυρί’ Ἀχαιοῖς ἄλγε’ ἔθηκεν,

             ⇓

    *MH=NIN A)/EIDE, QEA/, *PHLHI+A/DEW *)AXILH=OS,
    OU)LOME/NHN, H(\ MURI/' *)AXAIOI=S A)/LGE' E)/QHKEN,

    • Betacode: Entwickelt Ende der 1970er Jahre von David Woodly Packard für den TLG
    • Betacode ursprünglich nur für Altgriechisch, später auch für andere Schriftsysteme, z. B. Hebräisch (Link)
    • Übertragung in andere Schriftsysteme durch automatische Ersetzung auf Basis von Codepages. Beispiel aus dem AIS:

    Manuelle Erfassung in Betacode und automatische Umsetzung nach IPA

    • Potentielles Problem: Informationsverlust durch Inkongruenzen bezüglich abbildbarer phonetischer Granularität

    Zuordnungsversuch von Teuthonista-Graphemen in das IPA-Vokaltrapez

    • Einsatz von OCR grundsätzlich möglich; Beispiel: Zuweisung der HTML-Entity θ zum griechischen Buchstaben Theta:

    Dialogfeld des kommerziellen OCR-Programms Abbyy Finereader. Zuweisung des Theta zur HTML-Entity θ (03B8 ist der entsprechende Unicode Codepoint)

    Dialogfeld von Abbyy Finereader mit Übetragung eines griechischen Texts in HTML-Entities

    • Analog zum o. a. OCR-Verfahren könnten auch phonetische Schriftzeichen der Sprachatlanten automatisch in ASCII-Zeichenfolgen umgesetzt werden

    Übertragung eines [Bibl:AIS]-Lauts in Betacode mittels OCR (Theorie)

    FineReader-Patterns für OCR von AIS-Zeichen (Filip Hristov)


    1. Diese Vorstellung wird gemeinhin auf Aristoteles zurückgeführt. Exakt so hat er es nicht formuliert, den Gedanken kann man aber u. a. aus Metaphysik VIII 6, 1 (1045a) herauslesen, wo es heißt: “Von allem nämlich, was aus mehreren Teilen besteht und aufs Ganze gesehen nicht nur wie ein ungeordneter Haufen ist, sondern etwas Ganzes jenseits der Einzelteile darstellt, gibt es ein Verbindendes. Denn auch in den menschlichen Körpern wird die integrale Gesamtheit entweder durch ein Gelenk oder durch eine kohesive Substanz oder durch etwas anderes derartiges erzeugt.” (trad. Stephan Lücke)  


    Bibliographie

    • AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
    • Idiotikon = (1881 ff.): Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch, Basel. Link
    • Krefeld/Lücke 2021 = Krefeld, Thomas / Lücke, Stephan (2021): (Unsere) Prinzipien der virtuellen Geolinguistik. Link
    • SDS = Baumgartner, Heinrich/ Handschuh, Doris/ Hotzenköcherle, Rudolf (1962-2003): Sprachatlas der Deutschen Schweiz, Bern, vol. 1-9, Francke