VerbaAlpina – Digital Geolinguistics Dedicated to the Lexical Analysis of the Alpine Region




(5347 Wörter)

Abstract

Since 2014 the DFG-funded long term project VerbaAlpina (VA) is run at the Ludwig-Maximilians-University of Munich (LMU). VA is a cooperation of the Institute of Romance Studies and the LMU Center for Digital Humanities (DH; IT-Gruppe Geisteswissenschaften).

The project focuses on lexical variation throughout the Alpine area as defined by the so-called Alpine Convention (https://www.alpconv.org/). Whereas geolinguistic research within the Alpine region is traditionally orientated towards the spread of national languages and towards political borders, VA takes the homogeneous natural environment of the mountaneous region and the resulting uniform habitat conditions and ways of living as the guiding parameters defining its area of research.

VA is conceptualized as a strictly digital project that uses web technology for various purposes such as documentation, publication and visualisation. VA takes its data from traditional geolinguistic publications, mainly linguistic atlases and suitable dictionaries (i.e. dictionaries providing geographic information). The strictly digital approach is associated with several challenges starting from the difficulties regarding the transcription of the sometimes complex phonetic characters that are used especially in some of the linguistic atlases. VA has developed a series of specific reusable and freely available online tools that are used within the workflow of digitizing data from the printed sources. Another tool, the so-called Crowdsourcing tool, was built for gathering speech data from online users with the aim of filling documentation gaps that result from inconsistencies of the available printed sources.

An interactive online map that is using performant up-to-date graphical technology (WebGL) offers suggestive qualitative and quantitative visualisation of geographic distribution patterns from onomasiological and/or semasiological perspectives. These can also be combined with non linguistic data such as the sites of latin inscriptions.

In addition to the geolinguistic core themes of the project, VA is providing methodological reflexion on many of the issues deriving from the strictly digital orientation that should be of interest also beyond the borders of the project and even beyond the field of geolinguistics. In general, VA is looking for perspectives and solutions that allow the linkage of lexical data across so far isolated domains of geolinguistic research projects with the option of real interoperability (the “I” in the acronym FAIR).

The talk will provide more detailed information on the mentioned aspects of the project VerbaAlpina.


Talk*

One word in advance: It is still common to work with PowerPoint presentations on occasions like this. VerbaAlpina tries to avoid PowerPoint as it does not totally comply with the "FAIR"-criteria: At least a powerpoint presentation is not interoperable (FAIR) at all and usually hardly findable, accessible and reusable (FAIR). On the other hand, all these demands are met with a web-based contribution like the one you can see right here. This preamble is not meant as a criticism of using Powerpoint but rather as an apology for the use of this different kind of presentation.

You can scan the QR-Code below with your smartphone and follow the talk on your mobile device.

! Scan with Smartphon !

! Scan with Smartphon !

Introduction

Some of you might already know our project VerbaAlpina. Nevertheless, I will start my talk by sketching the overall frameset of VerbaAlpina.

Scientific Approach

VerbaAlpina is a linguistic project with mainly lexical orientation. The focus is on a simple question: We would like to know which terms are used for specific concepts in the Alpine region. The documentation is limited to concepts that are typical for the Alpine region, such as mountain pasture and dairy farming or the specific alpine flora and fauna. From the point of view of traditional geolinguistics, a fundamental innovation is certainly the definition of the research area. The scope of many of the existing speech atlases for example complies with political-administrative concepts such as national territories or the selection criterion is restricted to the distribution of national languages. In contrast, VerbaAlpina has chosen the homogeneity of the Alpine region in terms of landscape, culture, and economy as the decisive aspect for the definition of the research area.

As already mentioned, the focus of VerbaAlpina's interest is the lexical material. VerbaAlpina's database is primarily based on material published in traditional language atlases. To a certain extent dictionaries were also used, but only those whose entries contain information on the geographical distribution of the documented terms. Examples include the Swiss-German Idiotikon or the Dizionario di Montagne di Trento by Corrado Grassi (DizMT).1. Among the language atlases prominent examples are the Sprach- und Sachatlas Italiens und der Südschweiz (AIS) and the Vorarlberger Sprachatlas (VALTS).

VerbaAlpina sees itself as an entirely "digital" online project that completely refrains from publications in conventional book or atlas form. The term "digital" also refers to work with *structured* data, that means data enriched with metadata. All these data are managed in a relational database (MySQL).

VerbaAlpina's data model is dominated by the correlation between the world of language and the extralinguistic reality, that is the world of concepts. The following scheme illustrates this correlation and makes it clear that in principle a certain word can designate more than just one concept and vice versa several words can exist for one and the same concept. In the context of VerbaAlpina, concepts are always written in capitals to clearly distinguish between words and concepts:

Correlation between designations and concepts

This basic model, which initially appears very simple, quickly acquires a high degree of complexity by adding the dimensions of space and time. This is because certain terms for certain concepts are only used in certain regions. The location and size of these regions can change over time or even disappear altogether.

So the question is:

  • Which words are or have been used
  • at which places
  • at what time to designate
  • which concepts?

Since the dimension of space is one of the central factors, VerbaAlpina only collects language material with georeferencing, as is the case in language atlases or in some dictionaries.

VerbaAlpina's spatial dimension is defined by the perimeter of the so-called Alpine Convention. The Alpine Convention is a treaty under international law signed by the countries sharing the Alps. The perimeter is a boundary drawn by this organisation which defines the extent of the Alps administratively. For purely pragmatic reasons VerbaAlpina follows this border since a clear delimitation of the study area is organisationally indispensable and otherwise hardly possible.2

Within the study area all collected and georeferenced language material is related to the grid of political communities. In the case of large-scale distribution data such as "Ticino" or "Vorarlberg", the corresponding language data is attributed to all municipalities in these regions. Starting from the fine granulation of the political communes, the language material can be grouped in later analyses according to superordinate political units such as cantons, departments, government districts or regions and visualised on a map.

From VerbaAlpina's point of view, the dimension of time is a little problematic, since the data grid is still very patchy in terms of chronological distribution and unbalanced in relation to the entire Alpine region. Some of the sources evaluated by VerbaAlpina indicate the time of the collection of a single document very precisely, sometimes even to the day3, while for other sources the year of publication only provides a terminus ante quem for the language data recorded therein.

VerbaAlpina's data material acquires historical depth through the interlocking of the words drawn from the sources and the identification of similarities in the lexical basis. French salamandre, Italian salamandra and German salamander have the same lexical basis. It is obvious to assume a historical connection here. However, it is not easy to decide whether, for example, the German word is derived from one of the two Romance words (loanword scenario), or whether all three variants can be traced back to a common forerunner independently of each other. In such cases, VerbaAlpina identifies a lexical precursor from an earlier language spoken in the Alpine region and assigns it to the modern words in order to be able to grasp *that* there is a connection between the three words mentioned. VerbaAlpina refers to such precursors as "base types". In the case of the example this would be the Latin salamandra.

The reason for this simplification is twofold: on the one hand, it is often not possible to decide which of the possible scenarios mentioned is present in the individual case and on the other hand, corresponding searches may be very time-consuming, so that they cannot be carried out within the framework of the project due to time constraints. The VA base types have the great advantage that they can be used to represent obviously existing connections *without* forcing the specification of the connections in detail.

The central reference value of VerbaAlpina are the so-called "morpholexical types", hereinafter referred to as "morph types". These are lexical units that are distinct, that means unmistakable, with regard to the linguistic family they belong to, spelling, genus and the question of whether they have an affixation or not. In this respect, the morph types correspond roughly to the lemmas of traditional dictionaries. These are predominantly nomina, verbs only play a subordinate role in VerbaAlpina so far.

VerbaAlpina initially bases its typification on so-called reference dictionaries. If there is a suitable entry in these dictionaries, it is assigned to the selected tokens. If the type exists in several reference dictionaries, multiple assignments are made. If a morph type does not exist in any reference dictionary, VerbaAlpina creates its own new morph type which is then assigned.

For the data collected from language atlases and dictionaries the morph type they represent must be decided on a case-by-case basis. An automatic assignment seems impossible. VerbaAlpina has developed a special tool facilitating manual typification, in which the transcribed and then tokenised utterances can be assigned to morph types (screenshot; link [registered users only]).

VerbaAlpina deliberately refrains from assigning morph types to individual languages or even dialects. The reason is that linguistic landscapes and thus also the Alpine region basically represent continua within which clear demarcations are practically impossible. Strictly speaking, each locality can have its own dialect. When defining the morph types, therefore, only the assignment to one of the three language families existing in the Alpine region is made. The assignment to a language family is inherited from the sources from which the documents belonging to the respective morph type originate.

The phonetic dimension is largely ignored by VerbaAlpina but can be mapped in the VerbaAlpina data model and is already present selectively in the database.

Many project specific aspects, be it related to linguistics or computer sciences, are reflected and thus documented in the methodology section of the project website.

Technical Aspects

VerbaAlpina tools

VerbaAlpina uses standard software wherever possible which must also be open source. Essentially, this involves the MySQL database management system (DBMS) for managing the central database and the WordPress PHP framework for the project website. For the specific requirements of the project, however, tools based on the aforementioned basic technologies have been developed. All of them are available on Github for free re-use under the CC-BY-SA license (VerbaAlpina-Github-Repository). And there is already one case in which some of our tools is reused: The VerbaPicardia (APPI).

Betacode and Transcription Tool

Betacode

For the transcription of "exotic" writing systems, that primarily are found in language atlases, VerbaAlpina uses a concept that was developed and successfully used for the Thesaurus Linguae Graecae (TLG) in the 1970s (TLG-Betacode). In essence, the aim is to replace arbitrary characters and diacritics with defined and documented sequences of ASCII characters. The rules follow as simple and mnemotechnically favorable patterns as possible. For example, an acute on a base character is transcribed by a slash behind the base character.

The utterance you see here4:

taken from the AIS, is transcribed according to the transcription rules as follows:

la lac/a/

The sound value denoted by a sign is not important at all. This also means that identical signs such as the acute are always transcribed in the same way, that means with a slash after them, completely independent of the transcribed original and the possibly specific phonetic meaning. Only a source specific conversion procedure, in which all transcriptions are transferred into the IPA system, takes the sound values of the original source into account.

This method has several advantages:

  • It is possible to transcribe characters that are not yet Unicode-encoded.
  • The transcription can be done comfortably with standard keyboards and without complicated key combinations.
  • The transcriptors do not require knowledge of the meaning of the characters.
  • The transcriptions are – unlike multi-byte characters from UTF-8 – technically robust against unwanted changes.
  • Transcription takes place without loss of information.5

Transcription Tool

Especially, the automatic structured recording of lexical material from language atlases represents a considerable technical problem. It is not about the transformation of the partly exotic writing systems, which are sometimes used there. OCR programs such as Abbyy Finereader can be trained in such a way that they also correctly capture such writing systems and even produce the VerbaAlpina-specific beta code.6

In case of the linguistic atlases of the Romance tradition the real difficulty lies often in assigning the correct place, represented by a number, to the statements entered directly on the map. Machines are always overwhelmed by this task – and sometimes even humans are – when the entries on the map are too close together, as is the case, for example, in the AIS in southern Switzerland and neighbouring Italy.7

AIS-map 1218: Problem of assigning strings to numbers

From the point of view of automatic data acquisition the language atlases with point symbol maps, which are widely used in the field of German studies, appear to be even more complicated. In contrast to the Romance atlases data is usually displayed here in typified form. Concrete individual utterances of the informants are only presented occasionally.

Punktsymbolkarte germanistischer Tradition (VALTS IV 73: Die SENNHÜTTE)

The structured collection of data from these language atlases can therefore only be carried out manually. The problem is that consistent, error-free data collection requires a high degree of concentration and discipline. VerbaAlpina has developed a special transcription tool to make this work easier, to reduce the risk of errors and to ensure that the procedure is as systematic as possible.

Transcription tool

The tool synoptically combines a scan of the map to be transcribed and the form in which the transcriptions are entered. Maps and points on the map that have already been transcribed are marked accordingly. The system also prevents the duplicate capture of individual entries on the map. The transcriptor is given the numbers or signatures of the points on the map one after the other by the system. The transcription then takes place in the appropriate field of the form. The other parameters such as map number, location point number and concept assignment are specified by the system and are stored together with the transcription in the database. The registered data in the database then look like this:

The input mask presents the general transcription rules for data entry in beta code in a windowframe at the top right, so the transcriptor can consult them with as little effort as possible. The automatic conversion corresponding to the original script on the map is displayed to the right of the input field as the transcriptor is writing. Thus, the transcriptor can immediatly detect eventual typos. In addition, the system prevents entering invalid character combinations.

Crowdsourcing tool

The database compiled by VerbaAlpina from language atlases and dictionaries shows inconsistencies in several respects. These inconsistencies result mainly from the fact that the language atlases each cover only parts of the Alpine region and do not all comprise the same concepts. As a result, for a certain region there are terms for concepts that were not even queried elsewhere – which does not mean that they do not exist there. For example the concept BEE is only attested in the areas documented by the following atlases: AIS, ALF, ALJA, ASLEF, TSA as is visualized on the following map8

Missing attestations for the concept BEE

It is not possible to carry out any surveys to fill the gaps. VerbaAlpina is therefore using the idea of crowdsourcing to round off the database. The idea is that users on the Internet contribute previously undocumented terms for selected concepts. VerbaAlpina has developed a special crowdsourcing tool (CS tool) for this purpose (Link). The functionality is deliberately kept simple so as not to deter potential crowders.

The VerbaAlpina Crowdsourcing (CS) Tool

Each "crowder" has to select a location on a map and enters designations for selected concepts that are, in his opinion, common at this location. VerbaAlpina typifies the entire material as well as the data from atlases and lexica. A validation of the crowd material is theoretically possible through the principle of third-party confirmation but is currently not carried out by VerbaAlpina, mainly because the amount of data is still too small.

VerbaAlpina is monitoring the crowd activity (Link). Experience has shown that the vitality of the croudsourcing tool, that is: the number of entries, depends crucially on corresponding advertising activities. Immediately after media reports about VerbaAlpina and its crowdsourcing tool or corresponding propaganda in social media, the number of entries rises sharply but always falls again soon.

Mapping tool

The interactive online map appears as the, so to say, "showcase" of the project. It is designed as the central data access point for the public, enabling the representation of language data in the dimension of space and thus revealing connections that often remain hidden when data is viewed in table or list form.

The digital map offers both the possibility of accessing the database from the perspective of words, that means of mapping the various concepts that can be designated by a particular word, and the option of asking the opposite question: Which concepts are designated where with which words. In traditional publishing, these two perspectives could only be served by two different genera: The (onomasiological) language atlas and the (semasiological) dictionary. The digital online map even offers the possibility of synoptically mapping both perspectives.

The map essentially offers two different forms of visualization. he standard method is qualitative mapping where the individual data which are bundled according to political communities are first displayed on the map by symbols. The following example shows the mapping of the distribution of the Romanic morph type malga, grouped according to its regionally different meanings:

A click on the map symbols opens an info window in which the underlying language data is presented. In addition to the source, the concept designated with the word, the base type and the individual attestation of the respective source in IPA are also displayed. The framed letters behind morph and base types refer to the corresponding entries in the reference dictionaries and are partly interactive, depending on accessibility on the net. A click on the symbol then leads directly to the corresponding entry in the reference dictionary. The info window also includes norm data and links to them. A click on the globe symbol next to or below the municipality name leads to the corresponding Geonames page, the concept names are linked to the Wikidata entries.

In addition to qualitative mapping, VerbaAlpina also offers a quantifying presentation. A click on the Q in the circle next to the menu item "Areas and regions" acccumulates the currently mapped elements according to regions and colours them differently according to the number of elements mapped there. As default the large language areas form the reference pattern. By selecting the corresponding menu item "Areas and regions", the data can also be accumulated and mapped according to smaller administrative units down to the level of municipalities.

The following map shows the distribution of morph types connected to the (Latin) base type butyuru(m) (Link):

Distribution of morph types connected to the base type butyru(m) (qualitative mapping)

The same data accumulated on the quantifying map (Link):

quantifying representation of the distribution of morph types connected to the base type butyru(m)

In addition to the realistic representation of the geographical boundaries, the quantifying representation can also be visualized on a hexagon map. In this kind of map, the geographical units are represented by hexagons of identical size. Thus, visual distortion effects are avoided which result from the area sizes which differ strongly from each other in reality. Of course, this kind of mapping has the disadvantage that the geographical arrangement of the areas and especially the number of adjacent areas no longer corresponds to reality in most cases. The added value certainly results from the possibility of switching between the different mapping variants and thus gaining an almost objective impression.

Hexagon map

The sharing symbol at the top right-hand corner of the map allows you to call up a persistent link that refers stably to the current map view and can, for example, be sent by e-mail or used in texts.

The realization of the online map is based on the latest graphics technology (WebGL) and is extremely powerful. This performance becomes visible above all during zoom processes with a large number of map symbols and borders, which demand a high computing power from the computer. The use of WebGL allows the necessary calculations on the processor of the graphics card (GPU) which is responsable for the decisive performance gain.

Cross-linkage and sustainability

Access to VA-data

Access to VerbaAlpina data is possible in various ways:

  • Via the project portal, which is freely accessible on the Internet and above all via the interactive online map and the – not yet mentioned – Lexicon alpinum,
  • via the API, which is also freely accessible,
  • or by using the PMA interface of the MySQL database.

The API allows the download of finely granulated material in a number of different formats and aggregations. Access via the PMA interface is reserved for VerbaAlpina's official cooperation partners. The PMA interface allows data analysis using the SQL language. SQL-statements can also be executed using a form in the mapping tool. This function will be accessible to the public very soon. At present its use is restricted to registered users.

VerbaAlpina's core data is very finely granulated and the individual elements are uniquely identified with persistent identifiers and can therefore be addressed precisely. Ultimately, these alphanumeric identifiers fulfill the function of VerbaAlpina-specific norm data. In concrete terms, all morph types, concepts and political communities are given a unique number which can be used to access the specific data in different ways or be referenced externally. Identifiers of the morph types have the prefix L, concepts C and communities A. The ID L1435, for example, stands for the morph type "babeurre (m.) (roa.)". The first of the following addresses calls up a mapping of the distribution of this morph type, the second leads to the download of the data stored on this morph type in XML format and the last, finally, leads to the commentary in the Lexicon Alpinum – if available:

With a few exceptions, all URLs that refer to VerbaAlpina content contain a parameter that refers to a specific version of VerbaAlpina, marked in red in the examples above. The first two digits represent the year, the last one the version number of the year (191: first version in 2019). While the database of the working version, which is recognizable by the character string xxx, is subject to permanent changes, the contents of the other versions are stable. This ensures that references to these URLs always call up the same content and citation security is guaranteed. VerbaAlpina data is versioned twice a year, at mid-year and at year-end. You can choose between the available versions on the homepage.

The data of VerbaAlpina will soon also be transferred to the RDF schema of the Semantic Web. However, the establishment of a SPARQL endpoint is not planned for the time being; the corresponding implementation involves some effort and seems dispensable since there are a number of other ways of accessing the VerbaAlpina data. After all, VerbaAlpina meets the criteria of the "Linguistic linked open data" movement (http://linguistic-lod.org/).9, and the data of VerbaAlpina will soon be included in this.

In the course of transferring the data of VerbaAlpina to the research data repository of the LMU-Library every item is enriched with DataCite metadata and is given a persistent DOI. The corresponding procedure is currently in development. It will soon be functional.

Linkage with external resources

VerbaAlpina links the three core categories of its database with external databases via the integration of suitable norm data.

In the case of morph types, corresponding links are established to the reference dictionaries. An interesting side effect is that the different suitability of the corresponding resources becomes clear. In terms of maximum interoperability, only some of the reference dictionaries provide suitable possibilities to technically address data in a desireable way. Positive examples include the portal of the Centre National de Ressources Textuelles et Lexicales ([Bibl:CNRTL]) or the Italian Treccani which offer transparent URLs for each lexical entry (e.g:  https://www.cnrtl.fr/definition/beurre, http://www.treccani.it/vocabolario/burro/). In some other cases references are only possible with great inaccuracy or not at all. It is not uncommon to encounter the phenomenon that the addressability of the contents still refers to the conventional page logic of book printing and to PDF documents or image files. This is, for example, the case with the French etymological dictionary (FEW).

For the concepts VerbaAlpina refers so far exclusively to the so-called Wikidata data objects. Each concept is assigned the respective Wikidata Q-ID in the database of VerbaAlpina. The corresponding link leads to the Wikidata data object page. There you will find links to the articles in the different Wikipedia of this concept. The link to the norm data of geonames has already been mentioned.

As we have already seen, links to all norm data are presented to the user in the info windows on the online map.

Some organizational stuff

VerbaAlpina started in 2014 and is funded by the German Research Foundation (DFG) with a perspective until 2025. The individual project terms comprise 3 years each. At the moment we are heading towards the last year of the second term and are about to prepare the application for the funding of the third term.

VerbaAlpina is directed by Thomas Krefeld and myself. The staff is divided into two parts: There are three linguists and two computer scientists who are each supported by assistants. Among the linguists there are two Romance scholars and one Germanist. One of the computer scientists is mainly responsible for all aspects of the core data (data modelling, interfaces, API), the other mainly for all questions of visualisation, mainly the interactive online map.

VerbaAlpina is thus an interdisciplinary DH project with parts of the classical humanities and computer science. The LMU Center for Digital Humanities (IT-Gruppe Geisteswissenschaften; ITG) is responsible for the informatics part. This institution was created in 2000, is largely financed by the six humanities faculties of the LMU and has an unlimited perspective of existence. The ITG is responsible for planning and operating the IT infrastructure in the Humanities area. One of the ITG's steadily growing areas of responsibility is support in the planning and implementation of DH projects. From the ITG's point of view, VerbaAlpina is only one of numerous projects whose project data is managed in the context of a heterogeneous, but uniformly – namely relationally – structured overall data pool. Over the years, this data pool has grown to considerable size and diversity, offering at least theoretically the perspective of data analysis across project boundaries. Against this background, the ITG is currently developing a cooperation with the LMU-Master's programme in Data Science, which was launched at the beginning of 2017.

The ITG also plays an important role with regard to the sustainability of the results produced by VerbaAlpina. After the end of project funding, the ITG will continue to operate the project portal as far as possible and perform the minimum maintenance work required for operation.


* Given at the colloqium „NEW WAYS OF ANALYZING DIALECTAL VARIATION“, held at Sorbonne University, Paris, 21-23 November 2019. The English version of the talk was initially produced with the help of DeepL (https://www.deepl.com/translator) and subsequently corrected or adapted where necessary.


  1. Grassi documents the local variation of a single small town in the Italian province of Trento 

  2. However, the chosen definition of the study area causes certain asymmetries, such as the fact that the Swiss Emmental, famous for its cheese, lies outside the Alpine Convention and is therefore not covered by VerbaAlpina, although this region could very well be considered part of the Alpine region from both an economic and an environmental point of view. 

  3. Such is the case in the AIS 

  4. AIS 1218_1, 129 

  5. This would be the case, for example, if the Böhmer Ascoli system, used for example in the AIS, were transcribed directly into IPA instead of the present one, since IPA does not allow such a fine differentiation with regard to the individual sounds as Böhmer Ascoli does 

  6. The procedure is sketched in S. Lücke / C. Riepl / C. Trautmann, Softwaretools und Methoden für die korpuslinguistische Praxis (Korpus im Text 1, München 2017, S. 126f. 

  7. A master thesis has just been completed at the Institute of Computer Science of the LMU, which was intended to design an algorithmic solution to this problem. Among other things, deep learning methods were used. As far as VerbaAlpina can judge, however, no success is in sight in this way either – not to talk about the technical availability of an appropriate tool. 

  8. AIS: Map 1152: un'ape; le api"
    ALF: Map 1: abeille"
    ALJA: Map 792: (l') abeille *(le) mâle des abeilles"
    ASLEF: Map 1148: ape"
    TSA: Map III_28: Biene"

    (cf. map https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=xxx&tk=2428)
     

  9. S. Chiarcos, Christian; McCrae, John; Cimiano, Philipp; Fellbaum, Christiane (2013). Towards open data for linguistics: Lexical Linked Data (PDF). Heidelberg, in: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (Hrsgg.), New Trends of Research in Ontologies and Lexical Resources. Springer. 


Bibliographie

  • AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
  • ALF = Gilliéron, Jules / Edmont, Edmond (1897-1900): l’Atlas linguistique de la France, Paris , Champion. Link
  • ALJA = Martin, Jean-Baptiste / Tuaillon, Gaston (1971, 1978, 1981): Atlas linguistique et ethnographique du Jura et des Alpes du nord, Paris, vol. 1, 3, 3a, Éd. du Centre National de la Recherche Scientifique
  • ASLEF = Pellegrini, Giovan Battista (1974-1986): Atlante storico-linguistico-etnografico friulano, Padova, vol. 1-6
  • DizMT = Grassi, Corrado (2009): Dizionario del dialetto di Montagne di Trento, San Michele all'Adige
  • FEW = Wartburg, Walter (1922-1967): Französisches etymologisches Wörterbuch. Eine Darstellung des galloromanischen Sprachschatzes , Basel, vol. 20, Zbinden. Link
  • Idiotikon = (1881 ff.): Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch, Basel. Link
  • TSA = Klein, Karl Kurt/ Kühebacher, Egon/ Schmitt, Ludwig Erich (1965, 1969, 1971): Tirolischer Sprachatlas, vol. 1-3, Innsbruck, Tyrolia-Verl. [u.a.]
  • VALTS = Gabriel, Eugen (1985-2004): Vorarlberger Sprachatlas mit Einschluss des Fürstentums Liechtenstein, Westtirols und des Allgäus , vol. 1-5, Bregenz, vol. 1-5, Vorarlberger Landesbibliothek

VerbaAlpina – Digital Geolinguistics Dedicated to the Lexical Analysis of the Alpine Region




(4616 Wörter)

Abstract

Since 2014 the DFG-funded long term project VerbaAlpina (VA) is run at the Ludwig-Maximilians-University of Munich (LMU). VA is a cooperation of the Institute of Romance Studies and the LMU Center for Digital Humanities (DH; IT-Gruppe Geisteswissenschaften).

The project focuses on lexical variation throughout the Alpine area as defined by the so-called Alpine Convention (https://www.alpconv.org/). Whereas geolinguistic research within the Alpine region is traditionally orientated towards the spread of national languages and towards political borders, VA takes the homogeneous natural environment of the mountaneous region and the resulting uniform habitat conditions and ways of living as the guiding parameters defining its area of research.

VA is conceptualized as a strictly digital project that uses web technology for various purposes such as documentation, publication and visualisation. VA takes its data from traditional geolinguistic publications, mainly linguistic atlases and suitable dictionaries (i.e. dictionaries providing geographic information). The strictly digital approach is associated with several challenges starting from the difficulties regarding the transcription of the sometimes complex phonetic characters that are used especially in some of the linguistic atlases. VA has developed a series of specific reusable and freely available online tools that are used within the workflow of digitizing data from the printed sources. Another tool, the so-called Crowdsourcing tool, was built for gathering speech data from online users with the aim of filling documentation gaps that result from inconsistencies of the available printed sources.

An interactive online map that is using performant up-to-date graphical technology (WebGL) offers suggestive qualitative and quantitative visualisation of geographic distribution patterns from onomasiological and/or semasiological perspectives. These can also be combined with non linguistic data such as the sites of latin inscriptions.

In addition to the geolinguistic core themes of the project, VA is providing methodological reflexion on many of the issues deriving from the strictly digital orientation that should be of interest also beyond the borders of the project and even beyond the field of geolinguistics. In general, VA is looking for perspectives and solutions that allow the linkage of lexical data across so far isolated domains of geolinguistic research projects with the option of real interoperability (the “I” in the acronym FAIR).

The talk will provide more detailed information on the mentioned aspects of the project VerbaAlpina.


Talk*

Englische Version

Einführung

Ein Wort vorab: Nach wie vor ist es üblich, bei Vorträgen mit PowerPoint-Präsentationen zu arbeiten. Es gehört zum Konzept von VerbaAlpina, darauf zu verzichten, und die Vorträge stattdessen als WordPress-Beiträge zu konzipieren, die im Internet frei verfügbar sind. Der Grund ist, dass PowerPoint-Präsentationen nicht "FAIR", also findable, accessible, interoperable und reusable sind, VerbaAlpina jedoch größten Wert auf die Einhaltung dieser Prinzipien legt. Mit WordPress-Beiträgen ist dies deutlich besser gewährleistet.

Some of you might already know our project VerbaAlpina, regardless I want to start my talk by sketching the overall frameset of VerbaAlpina in short terms.

Scientific Approach

VerbaAlpina ist ein im wesentlichen lexikalisch ausgerichtetes sprachwissenschaftliches Projekt. Im Zentrum des Interesses steht die vor der Hand einfache Frage, welche sprachlichen Bezeichnungen für ganz bestimmte Konzepte im Alpenraum verbreitet sind. Die Dokumentation ist dabei beschränkt auf Konzepte, die typisch für den Alpenraum sind, wie etwa die Alm- und Milchwirtschaft oder auch die spezifisch alpine Tier- und Pflanzenwelt. Eine aus Sicht der traditionellen Geolinguistik grundlegende Neuerung ist sicherlich der Zuschnitt des Untersuchungsgebiets, oder vielmehr die zugrundeliegende Motivation, die nicht, wie verbreitet der Fall, politisch-administrative Konzepte wie etwa Staatsgebiete, sondern vielmehr die naturräumliche und in der Folge kulturelle Homogenität einer Region zum Auswahlkriterium macht.

Wie bereits gesagt, steht das lexikalische Material im Mittelpunkt des Interesses von VerbaAlpina. Der Datenbestand von VerbaAlpina basiert zum einen auf dem Material, das in traditionellen Sprachatlanten publiziert vorliegt. Zum anderen wurden auch Wörterbücher herangezogen, allerdings nur solche, deren Einträge auch Informationen zur geographischen Verbreitung der Bezeichnungen enthalten. Als Beispiel können das Schweizerdeutsche Idiotikon oder auch der Dizionario di Montagne di Trento von Corrado Grassi genannt werden. Letzterer dokumentiert die lokale Variation eines einzelnen kleinen Ortes in der italienischen Provinz Trento. Von den Sprachatlanten können als prominente Beispiele der Sprach- und Sachatlas Italiens und der Südschweiz (AIS) oder auch der Sprachatlas von Vorarlberg (VALTS) genannt werden.

VerbaAlpina versteht sich als durch und durch "digitales" Online-Projekt, das vollständig auf Publikationen in herkömmlicher Buch- oder Atlasform verzichtet. Mit "digital" ist hier überdies die Arbeit mit *strukturierten*, also um Metadaten angereicherten, Daten gemeint. Diese werden in einer relationalen Datenbank verwaltet.

Das Datenmodell von VerbaAlpina wird dominiert von der Wechselbeziehung zwischen der Welt der Sprache und der außersprachlichen Realität, also der Welt der Konzepte. Das nachfolgende Schema illustriert diese Wechselbeziehung und macht deutlich, dass grundsätzlich ein bestimmtes Wort mehr als nur ein Konzept bezeichnen kann und umgekehrt auch mehrere Wörter für ein und dasselbe Konzept existieren können. Zur klaren Unterscheidung zwischen Wörtern und Konzepten werden im Kontext von VerbaAlpina Konzepte stets in Versalien geschrieben:

Zusammenhang zwischen Bezeichnungen und Konzepten

Dieses zunächst sehr simpel anmutende Basismodell erlangt sehr schnell hohe Komplexität durch die Hinzufügung der Dimensionen von Raum und Zeit. Denn bestimmte Bezeichnungen für bestimmte Konzepte sind nur in bestimmten Regionen gebräuchlich. Dabei können Lage und Größe dieser Regionen sich über die Zeit verändern oder auch ganz und gar verschwinden.

Die Fragestellung lautet also:

  • Welche Wörter werden oder wurden
  • an welchen Orten
  • zu welcher Zeit zur Bezeichnung
  • welcher Konzepte verwendet?

Da die Dimension des Raumes einen der zentralen Faktoren darstellt, sammelt VerbaAlpina ausschließlich Sprachmaterial mit Georeferenzierung, wie dies etwa in Sprachatlanten oder in manchen Wörterbüchern vorliegt.

Der Rahmen der räumlichen Dimension ist von VerbaAlpina durch das Perimeter der sog. Alpenkonvention abgesteckt. Die Alpenkonvention ist ein völkerrechtlicher Vertrag der Alpenanrainerstaaten. Das Perimeter ist eine von dieser Organisation gezogene Grenze, die die Ausdehnung der Alpen administrativ definiert. VerbaAlpina orientiert sich aus rein pragmatischen Gründen an dieser Grenze, da eine klare Abgrenzung des Untersuchungsgebiets  organisatorisch unerlässlich und anders kaum möglich ist. Allerdings bedingt die gewählte Definition des Untersuchungsgebiets gewisse Asymmetrien, wie etwa die Tatsache, dass das Schweizerische Emmental, berühmt für seinen Käse, außerhalb der Alpenkonvention liegt und daher nicht von VerbaAlpina erfasst wird, obwohl diese Region in wirtschaftlicher wie auch naturräumlicher Hinsicht sehr wohl zum Alpenraum gerechnet werden könnte.

Innerhalb des Untersuchungsgebiets stellen für VerbaAlpina die politischen Gemeinden das zentrale Referenzsystem dar: Sämtliches gesammeltes und georeferenziertes Sprachmaterial wird auf das Raster der politischen Gemeinden bezogen. Bei großflächigen Verbreitungsangaben wie etwa "Tessin" oder "Vorarlberg" werden die entsprechenden Sprachbelege auf sämtliche Gemeinden dieser Regionen übertragen. Ausgehend von der feinen Granulierung der politischen Gemeinden kann das Sprachmaterial bei späteren Analysen nach übergeordneten politischen Einheiten wie etwa Kantonen, Départments, Regierungsbezirken oder Regionen gruppiert und auf einer Karte visualisiert werden.

Ein wenig problematisch ist aus Sicht von VerbaAlpina die Dimension der Zeit, da das Datennetz im Hinblick auf die chronologische Streuung bislang noch sehr dünn und bezogen auf den gesamten Alpenraum unausgewogen ist. Manche der von VerbaAlpina ausgewerteten Quellen geben den Zeitpunkt der Erhebung eines Einzelbelegs sehr exakt, manchmal sogar tagesgenau, an, bei anderen Quellen liefert das Jahr der Publikation lediglich einen Terminus ante quem für die darin erfassten Sprachdaten.

Das Datenmaterial von VerbaAlpina erhält historische Tiefe durch die Verklammerung der aus den Quellen geschöpften Wörter durch die Feststellung von Gemeinsamkeiten bezüglich der lexikalischen Basis. So besitzen französisch salamandre, italienisch salamandra und deutsch Salamander dieselbe lexikalische Basis. Hier einen historischen Zusammenhang zu vermuten, liegt nahe. Es lässt sich jedoch nicht ohne weiteres entscheiden, ob z.B. das deutsche Wort aus einem der beiden romanischen Wörter hervorgegangen ist (Entlehnungsszenario), oder ob alle drei Varianten unabhängig von einander auf einen gemeinsamen Vorläufer zurückzuführen sind. Um dennoch erfassen zu können, *dass* zwischen den drei genannten Wörtern ein Zusammenhang besteht, identifiziert VerbaAlpina in solchen Fällen einen lexikalischen Vorläufer aus einer früheren im Alpenraum verbreiteten Sprache und weist diesen den modernen Wörtern zu. VerbaAlpina bezeichnet solche Vorläufer als "Basistypen". Im Fall des Beispiels wäre dies das lateinische salamandra.

Der Grund für diese Vereinfachung ist ein doppelter: Zum einen ist vielfach nicht zu entscheiden, welche der genannten Varianten im Einzelfall vorliegt, zum anderen sind entsprechende Recherchen unter Umständen sehr aufwendig, so dass sie im Rahmen des Projekts aus Zeitgründen nicht betrieben werden können. Die VA-Basistypen haben den großen Vorteil, dass sie offenkundig bestehende Zusammenhänge datentechnisch abbilden lassen, *ohne* zur Spezifizierung der Zusammenhänge im einzelnen zu zwingen.

Die zentrale Bezugsgröße von VerbaAlpina sind die sog. "morpholexikalischen Typen", im folgenden kurz "Morphtypen" genannt. Dabei handelt es sich um lexikalische Einheiten, die bezüglich ihrer Sprachfamilienzugehörigkeit, ihrer Schreibung, des Genus und der Frage, ob sie eine Affigierung aufweisen oder nicht, distinkt, also unverwechselbar sind. Insofern entsprechen die Morphtypen in etwa den Lemmata der traditionellen Wörterbücher. Dabei handelt es sich ganz überwiegend um Nomina, Verben spielen bei VerbaAlpina bislang eine untergeordnete Rolle.

Bei der Typisierung orientiert sich VerbaAlpina zunächst an sog. Referenzwörterbüchern. Sofern in diesen Wörterbüchern ein passender Eintrag vorhanden ist, wird dieser den ausgewählten Tokens zugewiesen. Existiert der Typ in mehreren Referenzlexika, erfolgen Mehrfachzuordnungen. Sollte ein Morphtyp in keinem Referenzlexikon vorhanden sein, erzeugt VerbaAlpina einen eigenen, neuen Morphtypen, der dann zugewiesen wird.

Für die aus Sprachatlanten und Wörterbüchern erfassten Daten muss jeweils im Einzelfall entschieden werden, welchen Morphtypen sie repräsentieren. Eine automatische Zuweisung erscheint unmöglich. Für die manuelle Typisierung hat VerbaAlpina ein eigenes Tool entwickelt, in dem die transkribierten und anschließend tokenisierten Äußerungen Morphtypen zugeordnet werden können.

VerbaAlpina verzichtet bewusst auf die Zuweisung der Morphtypen zu Einzelsprachen oder gar Dialekten. Der Grund ist, dass sich Sprachlandschaften und so auch der Alpenraum grundsätzlich als Kontinua darstellen, innerhalb derer klare Abgrenzungen praktisch unmöglich sind. Streng genommen kann jede Ortschaft ihren eigenen Dialekt besitzen. Bei der Definition der Morphtypen erfolgt daher lediglich die Zuweisung zu einer der drei im Alpenraum vorhandenen Sprachfamilien. Die Zuordnung zu einer Sprachfamilie wird dabei von den Quellen vererbt, aus denen die Belege stammen, die dem jeweiligen Morphtypen angehören.

Die phonetische Dimension wird von VerbaAlpina weitgehend ausgeblendet, ist im Datenmodell von VerbaAlpina jedoch abbildbar und punktuell im Datenbestand auch schon präsent.

Die Entwicklung der Sprache im Raum ist stets mehr oder minder stark beeinflusst von einer ganzen Reihe dynamischer Prozesse. Dazu gehören etwa Wanderungsbewegungen, Verdrängungen, Landnahmen, der Wandel von Wirtschaftsformen oder auch der klimatischen Rahmenbedingungen. Aus diesem Grund sammelt VerbaAlpina – allerdings unsystematisch und selektiv – auch nicht-sprachliche Daten, die die genannten Phänomene dokumentieren. Als Beispiel können Daten zu archäologischen Fundstätten der Völkerwanderungszeit oder auch die Informationen zu Verkehrswegen und Ortschaften genannt werden, die der Tabula Peutingeriana entnommen werden können. Auch die Daten dieser außersprachlichen Peripherie müssen georeferenzierbar sein. VerbaAlpina bietet den Nutzern die Möglichkeit, diese Daten in Beziehung zur Verbreitung sprachlicher Phänomene zu setzen und auf diese Weise historische Zusammenhänge sichtbar werden zu lassen.

Technical Aspects

VA-Tools

VerbaAlpina setzt nach Möglichkeit weit verbreitete Standardsoftware ein, die außerdem open source sein muss. Im Wesentlichen handelt es sich um das Datenbankmanagementsystem (DBMS) MySQL zur Verwaltung des zentralen Datenbestands sowie um das PHP-Framework WordPress. Für die spezifischen Anforderungen des Projekts wurden jedoch überwiegend auf den genannten Basistechnologien aufbauende Tools entwickelt, die allesamt auf Github zur freien Nachnutzung unter der CC-BY-SA-Lizenz verfügbar sind (https://github.com/VerbaAlpina?tab=repositories).

Der VA-Betacode und das VA-Tanskriptionstool

Betacode

Für die Transkription von "exotischen" Schriftsystemen, wie sie häufig gerade in Sprachatlanten anzutreffen ist, setzt VerbaAlpina ein Verfahren ein, das bereits in den 1970er Jahren für den Thesaurus Linguae Graecae (TLG) entwickelt und erfolgreich eingesetzt worden war. Im Kern geht es darum, beliebige Schriftzeichen durch definierte und dokumentierte Sequenzen von ASCII-Zeichen zu ersetzen. Die Regeln folgen möglichst einfachen und mnemotechnisch günstigen Mustern. So wird z.B. ein Akut auf einem Basiszeichen durch einen Slash hinter dem Basiszeichen transkribiert.

Die Äußerung1

wird gemäß den Transkriptionsregeln folgendermaßen transkribiert:

la lac/a/

Dabei spielt der mit einem Zeichen bezeichnete Lautwert keine Rolle. Das bedeutet auch, dass identische Zeichen wie z.B. der Akut vollkommen unabhängig von der transkribierten Vorlage und der möglicherweise spezifischen phonetischen Bedeutung stets gleich, nämlich mit einem nachgestellten Slash transkribiert wird. Erst ein vorlagenspezifisches Konvertierungsverfahren, bei dem sämtliche Transkriptionen in das IPA-System übertragen werden, berücksichtigt die Lautwerte der ursprünglichen Quelle.

Diese Methode besitzt gleich mehrere Vorteile:

  • Es ist die Transkription von Zeichen möglich, die bislang noch nicht unicode-kodiert sind
  • Die Transkription kann bequem mit Standardtastaturen und ohne komplizierte Tastenkombinationen erfolgen
  • Die Transkriptoren benötigen keine Kenntnisse über die Bedeutung der Zeichen
  • Die Transkriptionen sind – anders als Multi-Byte-Characters von UTF-8 – technisch robust gegen ungewollte Veränderung
  • Die Transkription erfolgt ohne Informationsverlust (was z.B. der Fall wäre, wenn anstelle des vorliegenden Böhmer-Ascoli-Systems direkt in IPA transkribiert werden würde, da IPA keine so feine Unterscheidung hinsichtlich der Einzellaute erlaubt wie Böhmer-Ascoli)

VA-Transkriptionstool

Speziell die automatische strukturierte Erfassung von lexikalischem Material aus Sprachatlanten stellt ein erhebliches technisches Problem dar. Dabei geht es nicht um die Verwandlung der, wie wir am Beispiel des AIS gesehen haben, teils exotischen Schriftsysteme, die dort bisweilen Verwendung finden. OCR-Programme wie z.B. Abbyy Finereader lassen sich so trainieren, dass sie auch solche Schriftsysteme korrekt erfassen und sogar den VerbaAlpina-spezifischen Betacode produzieren.

Im Fall der Sprachatlanten der romanistischen Tradition besteht die eigentliche Schwierigkeit darin, die direkt auf der Karte eingetragenen Äußerungen jeweils der richtigen Nummer zuzuordnen. Maschinen sind mit dieser Aufgabe immer dann überfordert, wenn die Eintragungen auf der Karte zu dicht beieinander liegen, wie dies z.B. im AIS im Bereich der Südschweiz und dem angrenzenden Italien der Fall ist. Am Institut für Informatik der LMU ist soeben eine Masterarbeit abgeschlossen worden, die eine algorithmische Lösung für dieses Problem entwerfen sollte. Dabei wurde u.a. mit Deep-Learning-Verfahren gearbeitet. Soweit VerbaAlpina es einschätzen kann, ist aber auch auf diesem Wege kein Erfolg in Sicht. Von einer technischen Verfügbarkeit eines entsprechenden Tools kann auf keinen Fall die Rede sein.

Aus Sicht der automatischen Datenerfassung noch komplizierter erscheinen die im Bereich der Germanistik verbreiteten Sprachatlanten mit Punktsymbolkarten, bei denen bestimmte Merkmalsausprägungen als Symbole auf der Karte dargestellt werden. Anders als bei den romanistischen Atlanten werden hier auch zumeist typisierte Daten abgebildet, konkrete Einzelbelege der Informanten werden nur in Ausnahmefällen präsentiert.

Punktsymbolkarte germanistischer Tradition (VALTS IV 73: Die SENNHÜTTE)

Die strukturierte Erfassung der Daten aus diesen Sprachatlanten kann also nur manuell erfolgen. Das Problem dabei besteht dann wiederum darin, dass die konsistente fehlerfreie Datenerfassung ein hohes Maß an Konzentration und Disziplin erfordert. Zur Erleichterung dieser Arbeit, und um die Fehleranfälligkeit zu verringern und außerdem ein möglichst systematisches Vorgehen zu gewährleisten, hat VerbaAlpina ein spezielles Transkriptionstool entwickelt.

Das Tool integriert einen Scan der zu transkribierenden Karte in das Formular, in das die Transkriptionen eingetragen werden. Bereits transkribierte Karten werden entsprechend farblich markiert, und auch die Doppelerfassung einzelner Eintragungen auf der Karte werden vom System verhindert. Dem Transkriptor werden vom System nacheinander die Nummern oder Siglen der Ortspunkte auf der Karte vorgegeben. Die Transkription erfolgt dann in das dafür vorgesehen Feld des Formulars. Die anderen Parameter wie Kartennummer, Ortspunktnummer und Konzeptzuweisung sind vom System jeweils vorgegeben und werden gemeinsam mit der Transkription in der Datenbank abgespeichert. Die Eingabemaske präsentiert in einem Teilfenster rechts oben die allgemeinen Transkriptionsregeln für die Datenerfassung im Betacode, so dass der Transkriptor sie mit möglichst geringem Aufwand konsultieren kann. Zur Kontrolle für den Transkriptor wird rechts vom Eingabefeld simultan mit der Transkription die Originalschreibweise der Vorlage eingeblendet.

Crowdsourcingtool

Der von VerbaAlpina aus Sprachatlanten und Wörterbüchern zusammengetragene Datenbestand weist in mehrfacher Hinsicht Inkonsistenzen auf. Diese ergeben sich z.B. dadurch, dass die Sprachatlanten, die jeweils nur einen Teil des Alpenraums abdecken, nicht alle dieselben Konzepte dokumentieren, wie dies die folgende Abbildung ersichtlich macht:

[Screenshot]

In der Folge liegen also für eine bestimmte Region Bezeichnungen für Konzepte vor, die an anderer Stelle gar nicht abgefragt wurden – was nicht heißt, dass diese dort nicht existieren.

Die Durchführung von Nacherhebungen vor Ort ist nicht durchführbar. Daher setzt VerbaAlpina die Idee des Crowdsourcings ein, um den Datenbestand zu arrondieren. Die Idee ist, dass User im Internet bislang nicht dokumentierte Bezeichnungen für ausgewählte Konzepte beisteuern. Zu diesem Zweck hat VerbaAlpina ein spezielles Crowdsourcing-Tool (CS-Tool) entwickelt. Die Funktionalität ist bewusst simpel gehalten, um potentielle "Crowder" nicht abzuschrecken.

Jeder "Crowder" wird zu Beginn gefragt, welchem Dialekt seine Beiträge zuzuordnen sind. Anschließend muss er auf einer Karte einen Ort auswählen und gibt dann nach seiner Meinung an diesem Ort gebräuchliche Bezeichnungen für ausgewählte Konzepte ein. Das auf diese Weise gesammelte Material wird von VerbaAlpina ebenso typisiert wie die Daten aus Atlanten und Lexica. Eine Validierung des Crowd-Materials ist rein theoretisch durch das Prinzip der Fremdbestätigung möglich (Motto: Einmal ist kein Mal, zweimal ist immer), wird aktuell von VerbaAlpina aber nicht durchgeführt, nicht zuletzt, weil die Datenmenge bislang noch zu gering ist.

Die Erfahrung der vergangenen Jahre hat gezeigt, dass die Vitalität des Croudsourcing-Tools, also die Menge der Eintragungen, ganz entscheidend von entsprechenden Werbeaktivitäten abhängt. Nach Medien-Berichten über VerbaAlpina und sein Crowdsourcing-Tool oder entsprechende Propaganda in den sozialen Medien, steigen die Eintragungen jeweils stark an, sinken jedoch bald wieder ab.

Auch das CS-Tool kann unter der CC-BY-SA-Lizenz nachgenutzt werden.

Kartentool

Gleichsam das Schaufenster des Projekts bildet die interaktive Online-Karte. Sie ist als der zentrale Datenzugriffspunkt für die Öffentlichkeit konzipiert, der die Abbildung der Sprachdaten in der Dimension des Raums ermöglicht und somit Zusammenhänge offenbaren kann, die bei Betrachtung der Daten in Tabellen- oder Listenform häufig verborgen bleiben.

Die digitale Karte bietet sowohl die Möglichkeit, auf den Datenbestand aus der Perspektive der Wörter zuzugreifen, also sich die verschiedenen Konzepte kartieren zu lassen, die mit einem bestimmten Wort bezeichnet werden können, wie auch die Option, die umgekehrte Frage zu stellen: Welche Konzepte werden wo mit welchen Wörtern bezeichnet. Im traditionellen Publikationswesen konnten diese beiden Perspektiven nur durch zwei unterschiedliche Genera bedient werden: Den Sprachatlas und das Wörterbuch. Die digitale Online-Karte bietet sogar die Möglichkeit, beide Perspektiven synoptisch zu kartieren.

Die Karte bietet im wesentlichen zwei unterschiedliche Formen der Visualisierung an. Standard ist die qualitative Kartierung, bei der die Einzeldaten gebündelt nach politischen Gemeinden zunächst durch Symbole auf der Karte abgebildet werden. Das nachfolgende Beispiel zeigt die Kartierung der Verbreitung des romanischen Worttyps malga, gruppiert nach dessen regional unterschiedlichen Bedeutungen:

https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=191&tk=2414

Ein Klick auf die Kartensymbole öffnet ein Info-Window, in dem die zugrundeliegenden Sprachdaten präsentiert werden. Neben der Quelle werden auch das mit dem Wort bezeichnete Konzept, der Basistyp sowie der Einzelbeleg der jeweiligen Quelle in IPA-Transkription angezeigt. Die umrahmten Buchstaben hinter Morph- und Basistypen verweisen auf die entsprechenden Einträge in den Referenzwörterbüchern und sind z.T. interaktiv; ein Klick auf das Symbol führt dann direkt zum entsprechenden Eintrag im Referenzwörterbuch. In das Info-Window sind außerdem Normdaten eingebunden und entsprechend verlinkt. So führt ein Klick auf das Erdkugelsymbol neben oder unter dem Gemeindenamen auf die entsprechende Seite von Geonames, die Konzeptnamen sind mit den Einträgen bei Wikidata verknüpft.

Neben der qualitativen Kartierung bietet VerbaAlpina auch eine quantifizierende Darstellung an. Ein Klick auf das Q im Kreis neben dem Menüpunkt "Flächen und Regionen" kumuliert die im Moment kartierten Elemente nach Regionen und färbt diese entsprechend der Anzahl der dort kartierten Elemente unterschiedlich ein. In der Grundeinstellung bilden die großräumigen Sprachgebiete den Referenzrahmen. Durch entsprechende Auswahl über den Menüpunkt "Flächen und Regionen" kann die Kumulierung und Kartierung der Daten auch auf Basis kleinerer administrativer Einheiten erfolgen.

Neben der realitätstreuen Abbildung der geographischen Grenzverläufe kann die quantifizierende Darstellung auch auf der Grundlage einer Hexagonkarte erfolgen. Bei dieser Art der Kartendarstellung werden die geographischen Einheiten durch Hexagone mit jeweils identischer Größe dargestellt. Dadurch werden visuelle Verzerrungseffekte vermieden, die sich durch die in der Realität stark von einander unterscheidenden Flächengrößen ergeben. Natürlich ergibt sich bei dieser Art der Kartierung wiederum der Nachteil, dass die geographische Anordnung der Flächen und vor allem die Anzahl angrenzender Flächen in den meisten Fällen nicht mehr der Realität entspricht. Der Mehrwert besteht sicherlich in der Möglichkeit, zwischen den verschiedenen Kartierungsvarianten wechseln zu können und auf diese Weise einen annähernd objektiven Eindruck gewinnen zu können.

Das Teilensymbol am rechten oberen Rand der Karte erlaubt den Abruf eines persistenten Links, der stabil auf die aktuelle Kartenansicht verweist und z.B. über Mails versandt oder in Texte eingesetzt werden kann. Außerdem können ganz bestimmte Kartenansichten mit einer spezifischen Art und Anzahl von ausgewählten Daten als synoptische Karten unter einem frei wählbaren Namen gespeichert und mit einem ausführlichen Kommentar versehen werden. Anschließend erscheinen diese Karten im Menü "synoptische Karte". Allerdings ist diese Funktion registrierten Benutzern vorbehalten.

Die Realisierung der Online-Karte basiert auf modernster Graphiktechnologie (WebGL) und ist extrem leistungsfähig. Sichtbar wird diese Leistungsfähigkeit vor allem bei Zoom-Vorgängen mit einer großen Anzahl von Kartensymbolen und Grenzverläufen, die dem Computer eine hohe Rechenleistung abverlangen. Der Einsatz von WebGL erlaubt die erforderlichen Berechnungen auf dem Prozessor der Graphikkarte, was den entscheidenden Leistungsgewinn mit sich bringt.

Vernetzung und Nachhaltigkeit

Zugriffsmöglichkeiten von außerhalb

Der Zugriff auf die Daten von VerbaAlpina ist auf verschiedene Weise möglich:

  • Über das im Internet frei zugängliche Projektportal und dort vor allem über die interaktive Online-Karte und das Lexicon alpinum
  • Über die, ebenfalls frei zugängliche, API
  • Über die PMA-Schnittstelle der MySQL-Datenbank

Die API erlaubt den Download des sprachlichen Kernmaterials in einer Reihe unterschiedlicher Formate und in unterschiedlicher Aggregierung. Der Zugriff über die PMA-Schnittstelle ist den offiziellen Kooperationspartnern von VerbaAlpina vorbehalten. Die PMA-Schnittstelle erlaubt Datenanalysen unter Einsatz der Sprache SQL.

Der Kerndatenbestand von VerbaAlpina ist sehr fein granuliert und die Einzelelemente sind mit persistenten Identifikatoren eindeutig identifiziert und somit präzise ansprechbar. Letztlich erfüllen diese alphanumerischen Identifikatoren die Funktion von VerbaAlpina-spezifischen Normdaten. Konkret erhalten unter anderem alle Morphtypen, Konzepte und politischen Gemeinden eine eindeutige Nummer, unter deren Verwendung dann auf unterschiedlichen Wegen auf die spezifischen Daten zugegriffen werden bzw. von externer Seite darauf referenziert werden kann. Identifikatoren der Morphtypen tragen das Präfix L, Konzepte C und Gemeinden A. Die ID L1435 steht beispielsweise für den Morphtypen "babeurre (m.) (roa.)". Die Adresse db=191&single=L1435" target="_BLANK">https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=133&db=191&single=L1435 ruft sodann eine Kartierung der Verbreitung dieses Morphtyps auf, der Link version=191&format=xml&empty=0" target="_BLANK">https://www.verba-alpina.gwi.uni-muenchen.de/?api=1&action=getRecord&id=L1435&version=191&format=xml&empty=0 führt zum Download der zu diesem Morphtyp gespeicherten Daten im XML-Format und der Link db=191#L1435" target="_BLANK">https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=2374&db=191#L1435 schließlich auf den Kommentar im Lexicon Alpinum (sofern vorhanden).

Mit wenigen Ausnahmen enthalten alle URLs, die sich auf Inhalte von VerbaAlpina beziehen, einen – in den Beispielen von gerade eben rot markierten – Parameter, der sich auf eine ganz bestimmte Version von VerbaAlpina bezieht. Die beiden ersten Ziffern stehen jeweils für das Jahr, die letzte für Versionsnummer im Jahr (191: Erste Version im Jahr 2019). Während der Datenbestand der Arbeitsversion, die an der Zeichenfolge xxx erkennbar ist, permanenten Änderungen unterliegt, sind die Inhalte der anderen Versionen jeweils stabil. Dadurch ist sichergestellt, dass Verweise auf diese URLs stets dieselben Inhalte aufrufen und Zitationssicherheit gewährleistet ist. Die Versionierung der VerbaAlpina-Daten erfolgt zweimal im Jahr, jeweils zu Jahresmitte und zu Jahresende. Auf der Homepage ist die Auswahl zwischen den vorhandenen Versionen möglich. Für alle Inhalte von VerbaAlpina sind auch DOIs verfügbar.2

Demnächst werden die VerbaAlpina-Daten auch in das RDF-Schema des Semantic Web übertragen. Die Einrichtung eines SPARQL-Endpoints ist jedoch zunächst nicht vorgesehen; die entsprechende Umsetzung ist mit einigem Aufwand verbunden und erscheint entbehrlich, da es eine Reihe anderer Zugriffsmöglichkeiten auf die VerbaAlpina-Daten gibt. Immerhin erfüllt VerbaAlpina die Kriterien der "Linguistic linked open data"-Bewegung (LLOD; http://linguistic-lod.org/).3, und die VerbaAlpina-Daten werden bald auch in die LLOD-Cloud eingebunden sein.4

Verknüpfung mit externen Ressourcen

VerbaAlpina verknüpft die drei Kernkategorien seines Datenbestands über die Einbindung geeigneter Normdaten mit externen Datenbeständen.

Im Fall der Morphtypen werden entsprechende Verbindungen zu den Referenzlexika hergestellt. Ein interessanter Nebeneffekt ist, dass dabei die unterschiedliche Eignung der entsprechenden Ressourcen deutlich wird. Im Sinne maximaler Interoperabilität sind bislang die Inhalte nur weniger der von VerbaAlpina erfassten Referenzwörterbücher adressierbar. Positive Beispiele wären etwa das Portal des Centre National de Ressources Textuelles et Lexicales ([Bibl:CNRTL]) oder die italienische Treccani, die jeweils transparente URLs für jeden lexikalischen Eintrag anbieten (z.B.:  https://www.cnrtl.fr/definition/beurre, http://www.treccani.it/vocabolario/burro/). In manch anderen Fällen sind Referenzierungen entweder nur mit großer Ungenauigkeit oder auch gar nicht möglich. Nicht selten begegnet man dem Phänomen, dass sich die Adressierbarkeit der Inhalte noch an der herkömmlichen Seitenlogik des Buchdrucks und auf PDF-Dokumente oder Bilddateien bezieht. Dies ist etwa der Fall beim Französischen etymologischen Wörterbuch, ursprünglich von Walter Warburg (FEW).

Für die Konzepte verweist VerbaAlpina bislang ausschließlich auf die sog. Wikidata-Datenobjekte. Jedem Konzept ist in der VerbaAlpina-Datenbank die jeweilige Q-ID der Wikidata zugeordnet. Der entsprechende Link führt auf die Datenobjektseite bei Wikidata. Dort wiederum befinden sich Links zu den Artikeln in den verschiedensprachigen Wikipedien zu diesem Konzept. Bereits erwähnt wurde die Verknüpfung mit den Normdaten von geonames. Links für alle Normdaten der genannten Kategorien werden dem Nutzer in den Info-Windows auf der Online-Karte präsentiert.

Some organizational stuff

VerbaAlpina started in 2014 and is funded by the German Research Foundation (DFG) with a perspective until 2025. The individual project terms comprise 3 years each. At the moment we are heading towards the last year of the second term and are about to prepare the application for the funding of the third term.

Der Mitarbeiterstab ist zweigeteilt: Es gibt drei Sprachwissenschaftler und zwei Informatiker, die jeweils noch von Hilfskräften unterstützt werden. Unter den Sprachwissenschaftlern befinden sich zwei Romanisten und ein Germanist, von den Informatikern ist einer hauptsächlich für alle Belange der Kerndaten zuständig (Datenmodellierung, Schnittstellen, u.a. API), der andere überwiegend für alle Fragen der Visualisierung, hauptsächlich die interaktive Online-Karte.

VerbaAlpina stellt somit ein interdisziplinäres DH-Unternehmen mit Anteilen in den klassischen Geisteswissenschaften und in der Informatik dar. Der informatische Teil ist an der IT-Gruppe Geisteswissenschaften (ITG) angesiedelt. Diese Einrichtung besteht seit dem Jahr 2000, wird getragen von den sechs geisteswissenschaftlichen Fakultäten der LMU und besitzt eine unbefristete Existenzperspektive. Die ITG ist zuständig für Planung und Betrieb der IT-Infrastruktur im Bereich der Humanities. Einen stetig wachsenden Aufgabenbereich der ITG stellt die Unterstützung bei Planung und Durchführung von DH-Projekten dar. VerbaAlpina stellt aus Sicht der ITG also nur eines von zahlreichen Projekten dar, dessen Projektdaten im Kontext eines heterogenen, jedoch einheitlich – nämlich relational – strukturierten Gesamtdatenbestand verwaltet werden. Dieser im Lauf der Jahre auf beachtliche Größe und Vielfalt angewachsene Datenpool bietet zumindest theoretisch die Perspektive der Datenanalyse über Projektgrenzen hinweg. Vor diesem Hintergrund entwickelt sich zur Zeit eine Kooperation der ITG mit dem Master-Studiengang Data Science, der Anfang 2017 ins Leben gerufen wurde.

Die ITG spielt auch im Hinblick auf die Nachhaltigkeit der von VerbaAlpina erarbeiteten Ergebnisse eine wichtige Rolle. Nach dem Ende der Projektförderung wird die ITG das Projektportal im Rahmen ihrer Möglichkeiten weiter betreiben und das für den Betrieb erforderliche Minimum an Wartungsarbeit leisten.


* Given at the colloqium „NEW WAYS OF ANALYZING DIALECTAL VARIATION“, held at Sorbonne University, Paris, 21-23 November 2019


  1. AIS 1218_1, 129 

  2. Fragezeichen und Ampersands (&) müssen dabei durch den jeweiligen Hexadezimalwert des Zeichens in der Unicode-Tabelle (? = 3f, & = 26) mit vorangestelltem % ersetzt werden. Die DOI der URL https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=133&db=191&single=L1435 liest sich wie folgt: https://dx.doi.org/10.5282/verba-alpina?urlappend=/%3fpage_id=133%26db=191%26single=L1435 

  3. S. Chiarcos, Christian; McCrae, John; Cimiano, Philipp; Fellbaum, Christiane (2013). Towards open data for linguistics: Lexical Linked Data (PDF). Heidelberg, in: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (Hrsgg.), New Trends of Research in Ontologies and Lexical Resources. Springer. 

  4. Die Erzeugung der RDF-Struktur wird derzeit vorbereitet. Die Registrierung erfolgt anschließend unter der Adresse https://lod-cloud.net/add-dataset 


Bibliographie

  • FEW = Wartburg, Walter (1922-1967): Französisches etymologisches Wörterbuch. Eine Darstellung des galloromanischen Sprachschatzes , Basel, vol. 20, Zbinden. Link
  • VALTS = Gabriel, Eugen (1985-2004): Vorarlberger Sprachatlas mit Einschluss des Fürstentums Liechtenstein, Westtirols und des Allgäus , vol. 1-5, Bregenz, vol. 1-5, Vorarlberger Landesbibliothek

Kassel_Reste




(256 Wörter)

Die einzelnen Schriftvarietäten werden darüber hinaus in englischer Bezeichnung aufgeführt und durch einen speziellen ; aber sie lassen nicht mehr durch einen Code identifizieren Glottolog. Im Unterschied zum Ethnologue fehlen auch die Selbstbezeichnungen (vgl. Link).

Die darstellung im  ist grundsätzlich ähnlich, aber sc

https://www.ethnologue.com/language/roh

 

deu und L 482

Dialekt (unvollständig) ISO-693.3 Sprache Sprachfamilie
Tirolerisch Bairisch Deutsch
Walserisch ger
Zimbrisch

Es ist also kein Wunder, dass es in informationstechnischer Sicht ebenfalls an eindeutigen und brauchbaren Identifikatoren mangelt.

nicht accessible disqulifizieren sich hier selbst

roh https://iso639-3.sil.org/code/roh (=romansh)

#nicht bsi zur eigentlich basalen Int´stanz, dem Sprecher, sondern bis LokDial, Typis.

 

selva di Progno, cimbri ob minderheit oder nicht ist unerneblich

Walsergemeinden

 

val resia Benacchio 2011

per def. keine standardformen

#markanter Unterschied: Territorial#

Dialekt (unvollständig) ISO-693.3 Sprache Sprachfamilie
Valdostano / Valdôtain  Valdostano / Valdôtain  rom
Occitan  Okzitanisch
Francoprovençal  Frankoprovenzalisch
Puter Bündnerromanisch Rätoromanisch
Surmiran
Sursilvan
Sutsilvan
Vallader
Jauer
Badiot Dolomitenladinisch
Maréo
Gherdëina
Fascian
Anpezan
Fodom
Furlan  Friaulisch

 

 

einer  Grundprinzip


Bibliographie

  • Benacchio 2011 = Benacchio, Rosanna (2011): Comunità slovena, in: Enciclopedia dell'Italiano. Link
  • Ethnologue = Eberhard, David M. / Simons, Gary F. / Fennig, Charles D. (eds.) (2019): Ethnologue: Languages of the World. Twenty-second edition, Dallas, SIL. Link
  • Glottolog = Hammarström, Harald / Forkel, Robert / Haspelmath, Martin (2019): Glottolog 4.0., Jena, Max Planck Institute for the Science of Human History. Link

Geolinguistik, Kleinsprachen und die FAIR-Prinzipien (am Beispiel von VerbaAlpina)




(1754 Wörter)

Dieser Beitrag wurde für die Sektion Rekonstruktion und Erneuerung romanischer Regional- oder Minderheitensprachen im Zeitalter der Digital Humanities des XXXVI. Deutschen Romanistentags verfasst. Der genannte Sektionstitel eröffnet einen außerordentlich weiten Horizont; denn die Ausdrücke, die er zusammenbringt, weisen

  • in die Sprachgeschichte (‘Rekonstruktion’);
  • in die Sprachplanung (‘Erneuerung’);
  • in den Sprachvergleich (‘romanisch’);
  • in die Geolinguistik (‘Regional-’);
  • in die Sprachpolitik (‘Minderheiten-’);
  • in die Sprachsoziologie (‘-sprache)’);
  • in die Neuen Medien (‘Digital Humanities’).

Unser Beitrag ist zwar in der Geolinguistik und in den Neuen Medien zentriert, aber Perspektiven für die anderen Felder lassen sich leicht daraus ableiten, wie angedeutet werden wird.

Romanische Geolinguistik

Ziel des Projekts VerbaAlpina (VA) ist die kleinräumige, d.h. lokale Erfassung des spezifisch alpinen Wortschatzes in den drei im Untersuchungsgebiet gesprochenen Sprachfamilien (Germanisch, Romanisch, Slawisch). Diese systematische Erweiterung der traditionell einzelsprachlichen Dialektologie ist sinnvoll, da zahlreiche Bezeichnungstypen über die Grenzen nur einer Sprachfamilie hinaus verbreitet sind; diese Ausdrücke wurden daher nicht zu Unrecht als Alpenwörter bezeichnet. Die Konzeption, der VA verpflichtet ist, lässt sich als interlinguale Geolinguistik charakterisieren, da Varianten aus mehreren Einzelsprachen zusammengebracht werden; Berücksichtigung finden jedoch ausschließlich georeferenzierbare Belege, wobei  die politische Gemeinde als Bezugseinheit der  Georeferenzierung fungiert. Das potentielle Netz umfasst alle 6990 Gemeinden der so genannten Alpenkonvention.

Dieser Voraussetzung genügen im wesentlichen zwei Typen von Quellen: grundsätzlich die Sprachatlanten und – wenngleich nicht im Grundsatz, sondern im Idealfall - die dialektale Lexikographie. Sobald diese gemeinsame Voraussetzung der Georeferenzierbarkeit gegeben ist, lassen sich beide Quellentypen auch komplementär darstellen, wie es auf den VA-Karten geschieht. So illustriert dieser Kartenausschnitt den Einbezug des DizMT, der einen einzigen Lokaldialekt thesauriert.

Überblicksartige Darstellungen, wie auf der gerade genannten Beispielkarte, sind jedoch nur möglich, wenn die nicht selten zahlreichen lokalen Einheiten zu Gruppen zusammengefasst werden, so wie formˈavo, fromˈazo, fryˈmai, furˈmaj, furmˈaʧ usw., die alle das Konzept KÄSE bezeichnen. Durch die Gruppierung werden die Belege zu Varianten abstrakterer Typen. Systematisch unterschieden werden in VA sogenannte ‘morpho-lexikalische Typen’ und ‘Basistypen’ (vgl. Typisierung; die morpholexikalischen Typen definieren sich über die Wortart, die Konstituenten des Worts (Basis [+ Wortbildungsmorphem]), im Fall von Nomina zudem über das Genus sowie über die Sprachfamilie; nun ist es praktisch, die Typen (d.h. die Klassen von Varianten) auch durch sprachliche Einheiten identifizieren zu können; dazu werden in VA die am besten bekannten/am weitesten verbreiteten Varianten gewählt, also die standardsprachlichen Äquivalente. So wird der morpholexikalische Typ, zu dem alle genannten Beispiele sowie 368 weitere (Stand: 17.9.2019) gehören, durch standardfra. fromage/standardita. formaggio identifiziert.

Noch abstrakter sind die Basistypen; sie gestatten es morpho-lexikalische Typen zu gruppieren, wenn sie eine gemeinsame historische Basis haben; das gilt auch für morpho-lexikalische Typen unterschiedlicher Sprachfamilien, also im Fall von Entlehnungen.   So werden die morpho-lexikalischen Typen fra. fromage/ita. formaggio (m.), formaggia (f.), fra. forme/ita. forma zum Basistyp lat. forma(m) gebündelt oder schweizerdeu. staafel, fra. étable (f.), ita. stabbio (m.) zum Basistyp lat. stabulum.

FAIR

#auf der Basis des Ladinia-Arbeitsberichts

#Stephan#

Lokale Belege, Typen virtuelle Repräsentation#

Wie die FAIR-Kriterien nun im Einzelnen ausbuchstabiert werden sollten, ist jedoch nicht eindeutig zu beantworten, denn es ergeben sich unterschiedliche Möglichkeiten. Ein geolinguistisches Modell für die virtuelle Abbildung dialektaler Kontinua wird von VerbaAlpina entwickelt. Grundlegend für die Identifikation der Daten ist darin die Georeferenzierung, die auf der Ebene der politischen Gemeinde erfolgt. Zusätzlich zu den Geodaten wird jeder Sprachbeleg einer der drei alpinen Sprachfamilien zugeordnet.

Die Zugehörigkeit kann übrigens nicht automatisch von der Gemeinde auf die Daten ‚vererbt‘ werden, denn es gibt durchaus zweisprachige Orte; so wurden für Selva di Progno oberhalb von Verona von Nutzern des CS–Tools germanische und romanische Belege geliefert, wie der Ausschnitt zeigt:

Zufälliger Ausschnitt aus den Crowd-Daten aus Selva di Progno

Zufälliger Ausschnitt aus den Crowd-Daten aus Selva di Progno

Die Zweisprachigkeit der gelieferten Materialien ist im Übrigen keineswegs überraschend, denn zur Gemeinde gehört die zimbrische Sprachinsel Ljetzan (ita. Giazza). Eine genauere Georeferenzierung auf diese frazione wäre übrigens auch keine Lösung, denn das Zimbrische ist in rapidem Rückgang begriffen, so dass auch im Ortsteil Ljetzan mittlerweile ganz überwiegend  eine romanische Varietät gesprochen wird.

Mit den Geokoordinaten und der Zuweisung einer Sprachfamilie ist eine lokal erhobene sprachliche Einheit hinreichend charakterisiert, um sie eindeutig im Dialektkontinuum zu verankern. Damit die lokalen sprachlichen Einheiten außerdem auch lexikologisch  identifiziert werden, weist VA ihnen (wie eingangs gesagt) einen möglichst weitverbreiteten, im Idealfall standardsprachlichen morpho-lexikalischen Typ zu, wie z.B. im Fall der im Ausschnitt gezeigten Form knest ‘Gehilfe des Hirten’ das deu. Knecht.

Geolinguistische Identifikatoren

Allerdings lassen sich aus der Tatsache, dass diese lokale Form  knest (sowie mehr oder weniger viele andere desselben Ortes auch) sich als Variante eines Typs erweist, für den es auch eine standarddeu. Variante gibt (Knecht) auch nicht im Ansatz Argumente gewinnen, ob man das lokale Zimbrische womöglich als eigenständige Sprache und nicht als Dialekt des Bairischen einstufen sollte.  Diese Frage stellt sich im germanisch- und slawischsprachigen Gebiet der Alpen ohnehin selten, allenfalls noch für das Walserische in manchen italienischen Walsergemeinden sowie für das  Rezijansko in der Val Resia.

Im Hinblick auf die geolinguistische Dokumentation, die in sprachwissenschaftlicher Perspektive unbedingt im Vordergrund stehen muss, ist der Unterschied sekundär und letztlich vollkommen unerheblich, denn jeder Erhebungsort hat potentiell ein mehr oder weniger spezifisches Idiom und alle diese lokalen Idiome sind im Hinblick auf das romanische Kontinuum gleichwertig – vollkommen unabhängig davon, ob ihr gesellschaftlicher Status als ‘Dialekt’ oder ‘Minderheitensprache’ eingestuft wird, oder ob sie in klassifikatorischer Absicht als ‘Kleinsprache’ oder ‘Subdialekt’ eines regional weiterverbreiteten Dialektverbunds eingeschätzt werden. Die romanische Situation muss man im Hinblick auf diese sprachsoziologischen und arealtypologischen Fragen als außerordentlich unübersichtlich bezeichnen. Ganz unterschiedlich motivierte Sprachnamen und klassifikatorische Kategorien werden oft vermischt.

Das Problem muss hier nicht im Detail beschrieben werden; es reicht ein Blick auf das Rätoromanische in der Schweiz.   Mit diesem Ausdruck wird in der Bundesverfassung eine der vier ‘Landessprachen’ bezeichnet. Im Art. 4  heißt es ganz lapidar:

"Die Landessprachen sind Deutsch, Französisch, Italienisch und Rätoromanisch."1 (Bundesverfassung)

Es wird in Art. 70 weiterhin spezifiziert, dass diese Sprache auch ‘Amtssprache’ ist:

"Die Amtssprachen des Bundes sind Deutsch, Französisch und Italienisch. Im Verkehr mit Personen rätoromanischer Sprache ist auch das Rätoromanische Amtssprache des Bundes." (Art. 70 Sprachen)

Auch in der Verfassung des Kantons Graubünden ist vom ‘Rätoromanischen’ die Rede: 

"Art. 3 Sprachen
1 Deutsch, Rätoromanisch und Italienisch sind die gleichwertigen Landes- und Amtssprachen des Kantons.
[...]
3 Die Gemeinden bestimmen ihre Amts- und Schulsprachen im Rahmen ihrer Zuständigkeiten und im Zusammenwirken mit dem Kanton. Sie achten dabei auf die herkömmliche sprachliche Zusammensetzung und nehmen Rücksicht auf die angestammten sprachlichen Minderheiten." (VerfassungGR)

Dem verfassungsrechtlichen Gebrauch entspricht die Sprachkodierung in ISO 693-3 , denn dort ist ebenfalls für  'Rätoromanisch' (bzw. eng. Romansh) ein Identifikator vorgesehen, nämlich roh. Diese Kodierung lässt sich zwar als ein verlässliches Normdatum in geolinguistischen Metadatensätzen verwenden; es ist jedoch nicht genau genug, denn ‘das’ Rätoromanische in Graubünden existiert in Gestalt von mindestens 7 Varietäten, von denen 6 auch in der Schriftlichkeit ganz selbstverständlich und mit lang zurückreichender Tradition gebraucht werden.2 Daher sind weitere Sprachcodes erforderlich, die z.B. vom Wikidataprojekt oder vom Glottolog angeboten werden:3

Varietäten gemäß Lia Rumantscha Wikidata QID Glottolog Verfassungen CH, GR ISO-693.3
"Standardsprache" Rumantsch Grischun "Rätoromanisch" roh
"Schriftidiome" Puter
Vallader Q690226 Lower Engadine
Surmiran Q690216 Surmiran-Albula
Sursilvan Q688348 Sursilvan
Sursilvan-Oberland
Sutsilvan Q688272 Sutsilvan
geprochener Dialekt Jauer Q690181

Man beachte, dass Wikidata das differenzierteste Angebot an IDs macht. Unabhängig davon, ob sie sich auf Dialekte oder (Klein)Sprachen beziehen, sind diese Codes mindestens dann für die geolinguistische Datenstrukturierung relevant, wenn sie in Referenzwörterbüchern explizit erscheinen, wie zum Beispiel in S, V oder P.

Glottolog identifiziert zwar die "Schriftidiome", bezeichnet sie jedoch teils (Puter, Vallader) nur mit englischen Termini. Darüber werden die in der Tabelle (Spalte Glottolog) identifizierten Idiome weiterhin auf der spezifischsten Ebene einer zwölfstufigen Hierarchie positioniert, die teils auf rezent geographischen, teils auf genealogischen Kriterien beruht (in Klammern steht die Anzahl der erfassten Sprachen)4:

Taxonomie des Glottolog

1.▼Indo-European (588)
  • Albanian (4)
  • Anatolian (10)
  • Armenic (3)
  • Balto-Slavic (23)
  • Celtic (14)
  • Dacian
  • Germanic (106)
  • Graeco-Phrygian (11)
  • Indo-Iranian (324)
  • 2.▼Italic (86)
    • 3.▼Latino-Faliscan (83)
      • Faliscan
      • 4.▼Latinic (82)
        • Imperial Latin (81)
          • 5.►Latin
          • Romance (80)
            • Eastern Romance (5)
            • 6.▼Italo-Western Romance (70)
              • Italo-Dalmatian (5)
              • 7.▼Western Romance (65)
                • 8.▼Shifted Western Romance (63)
                  • 9.▼Northwestern Shifted Romance (31)
                    • Gallo-Italian (8)
                    • 10.▼Gallo-Rhaetian (23)
                      • Friulian
                      • Ladin
                      • Oil (20)
                      • 11.▼Romansh
                        • Lower Engadine
                        • Rumantsch Grischun
                        • Surmiran-Albula
                        • Sursilvan
                        • Sursilvan-Oberland
                        • Sutsilvan
                        • Upper Engadine

Jede taxonomische Ebene ist durch einen (hier nicht wiedergegebenen) Identifikator ansprechbar, so dass sich natürlich die Frage erhebt, ob diese auf den ersten Blick elaborierte Taxonomie, speziell die sechs romanischen Stufen für die digitale Strukturierung geolinguistischer Kontinua aus der Romania – im Sinne der FAIR-Kriterien F und I (Findable, Interoperable) – einen nützlichen Fortschritt bedeutet. Die Antwort ist ebenso klar wie kurz: nein.

Es fehlt den Kategorien jedenfalls am Ort, wo sie bereitgestellt werden, jegliche Transparenz, da keine Daten hinterlegt sind und keinerlei Kriterien mitgeliefert werden, die sich auf konkrete Daten anwenden ließen; dazu müsste gesagt werden, wo z.B. der Westen ("Western Romance") beginnt, wie eine alternative Trennung in 'Gallo-Italian' und 'Gallo-Rhaetian' abgeleitet wird usw. Von der fehlenden  Operationalisierung dieser klassifikatorischen Kategorien abgesehen muss ganz grundsätzlich bezweifelt werden, ob sich derartige top down formulierte trennscharfe Klassifikatoren überhaupt auf Kontinua anwenden lassen. Der einzig mögliche Weg für eine raumbezogene Klassifikation geht bottom up durch die metrische Bestimmung gemeinsamer bzw. nicht-gemeinsamer Merkmale, also im Sinne einer induktiven, datengetriebenen Dialektometrie, deren Präsentation stets gestattet zu den zugrunde liegenden Daten zurückzugehen und insofern auch reusability verspricht. Voraussetzung dafür ist jedoch, dass nicht nur die lokalen Idiome, sondern alle relevanten sprachlichen Merkmale mit eindeutigen Identifikatoren versehen werden; Ansätze dazu finden sich bereits im bereits erwähnten Wikidataprojekt in Gestalt von QIDs für grammatische Kategorien und LIDs für lexikalische Typen. Dieser Bestand sollte durch alle geolinguistischen Projekte im Sinne der FAIR-Prinzipien systematisch ausgebaut werden. Angesichts dieser eigentlich fundamentalen Herausforderung ist die skizzierte Taxonomie nicht nur unnütz sondern schädlich.


  1. Französisch: "Les langues nationales sont l'allemand, le français, l'italien et le romanche." | Italienisch: "Le lingue nazionali sono il tedesco, il francese, l'italiano e il romancio." | Rätoromanisch: "Las linguas naziunalas èn il tudestg, il franzos, il talian ed il rumantsch." 

  2. Weitaus schwieriger ist die Frage der Klassifikation im Hinblick auf das Dolomitenladinische, da die Extension dieses Klassifikators außerordentlich umstritten ist. 

  3. Außerdem ist der Ethnologue zu nennen. 

  4. Die Ziffern wurden vom Verf. hinzugefügt. 


Bibliographie

  • Bundesverfassung = (1999): Bundesverfassung der Schweizerischen Eidgenossenschaft (Stand am 23. September 2018). Link
  • DizMT = Grassi, Corrado (2009): Dizionario del dialetto di Montagne di Trento, San Michele all'Adige
  • P = Uniun dals Grischs: Dicziunari Puter. Link
  • S = Decurtins, Alexi: Niev vocabulari Sursilvan ONLINE. Link
  • V = Uniun dals Grischs: Dicziunari Vallader. Link
  • VerfassungGR = (2003): Verfassung des Kantons Graubünden (Stand am 27. September 2016). Link

Skript für das Einarbeiten von Hilfskräften bei VerbaAlpina




(2379 Wörter)

1. VerbaAlpina kurze Projektvorstellung

1.1. Hintergrund

  • Alpenraum: mehrsprachig (5 Standardsprachen mit ihren jeweiligen Dialekte) aber ähnliche Lebenswelt (ähnliche Traditionen, Arbeitsbereiche, Gewohnheiten usw.)

1.2. Ziele

  • Zusammenhänge zwischen den verschiedenen Sprachräumen anhand sprachlichen Materials zu schaffen
  • „Den Alpenraum in seiner historischen linguistischen Zusammengehörigkeit darzustellen“

2. Konzeption bzw. Ablauf des Projektes

2.1. Allgemeines

  • VerbaAlpina funktioniert online und verfügt über
    1. eine Web-Nutzeroberfläche (https://www.verba-alpina.gwi.uni-muenchen.de); Frontend durch WordPress
    2. eine Datenbank (https://pma.gwi.uni-muenchen.de/); Backend
  • Jede Funktion und jedem Tool auf der Oberfläche entspricht ein Eintrag in die Datenbank
  • Die im Rahmen von VerbaAlpina verarbeiteten Daten stammen aus zwei verschiedenen Quellen:
    1. aus Wörterbüchern bzw. Sprachatlanten (v.a. analog aber auch digital)
    2. aus dem Crowdsourcing
  • Wichtiges Merkmal der VA-Daten: Georeferenzierung

2.2. Datenquellen: Sprachatlanten und Wörterbücher

Die Sprachatlanten (weiß) und Wörterbücher (schwarz), die für VerbaAlpina relevant sind, werden auf der folgenden Karte dargestellt:

datenquellen

Sprachatlanten (weiß) und Wörterbücher (schwarz) im Bearbeitungsgebiet (entspricht den Grenzen der Alpenkonvention) von VerbaAlpina

2.3. Partnerschaften

3. Arbeitsschritte

Sprachdaten werden im Rahmen von VerbaAlpina auf drei Ebenen verarbeitet, die im Folgenden beschrieben werden.

3.1. Transkription

Mit Transkription ist die Tätigkeit gemeint, die das 'abschreiben' von Sprachbelegen aus Sprachatlanten und Wörterbüchern umfasst. Dadurch werden Daten, die ursprünglich auf Papier vorliegen, digitalisiert und somit in den Datenbestand von VA aufgenommen.

Die Transkription erfolgt  über Oberfläche von VerbaAlpina:
Einloggen --> Backend --> VerbaAlpina --> Transkriptionstool

Screenshot

So schaut das Transkritpions-Tool aus:

Wichtig:

  • Sind die Kartentitel rot markiert, dann bedeutet dies, dass....Sind sie grün markiert, dann
  • Mit Informant_Nr ist direkt vom jeweiligen Atlas übernommen

  • Betacode: um den Informationsverlust zu vermeiden, hat VerbaAlpina eine Codierung kreiert, damit die Daten, so transkribiert werden können, wie sie in der Originalquelle stehen (Stichwort: quellentreu)
  • Jedem Beleg, der transkribiert wird, muss ein Konzept zugeordnet werden (s. Anlegen eines Konzepts)
  • Tippt man in das Feld etwas ein, erscheint rechts eine Vorschau;
    1. liegt ein Fehler in der Kodierung der Transkription vor (d.h. erkennt das System die eingetippten Zeichen nicht, so erscheint die Warnung "nicht gültig". Der Beleg muss dementsprechend neu transkribiert werden.
    2. Wenn in der Vorschau nur ein Teil der Transkription rot markiert wird, bedeutet dies, dass die Transkription stimmen kann (bzw. dass die Zeichenkette vom System erkannt wird, dass es aber nicht graphisch darstellen kann). Der Beleg kann so erfasst werden;
  • Transkribieren = Übung

Weiterführende Methodologie-Beiträge von VerbaAlpina über die Transkription:

  1. Transkription 
  2. Transkriptionsregeln 

3.2. Tokenisierung

Die Tokenisierung erfolgt zum Teil automatisch. Durch die Tokenisierung werden die sprachlichen Äeusserungen in einzelnen Teilen aufgesplittert.
Damit dieser Prozess erfolgreich abgeschlossen werden kann, ist es wichtig, dass die Transkription richtig ist. Es ist im Nachhinein mühsam, die Daten nachträglich zu korrigieren. Deshalb sollten die transkribierten Belege mit der Originalfassung in den Atlanten bzw. Wörterbüchern immer stimmen.

Die Tokenisierung betrifft Hilfskräfte weniger: Normalerweise wird diese von den wissenschaftlichen Mitarbeitern durchgeführt.

3.3. Typisierung

Zu typisieren bedeutet sprachliche Ausdrücke unter Typen zusammenzufassen. Jeder 'Typ' ist als eine Klasse von sprachlichen Ausdrücken zu verstehen.

Beispiel der Typen des Konzepts "BERG" nach der Typisierung

Die Typisierung ist für VerbaAlpina zentral: Wenn das Ziel von VA die Darstellung von Zusammengehörigkeit ist, dann stellt die Typisierung eine zentrale Aufgabe dar. Aus diesem Grunde ist die Typisierung nur dann durchzuführen, wenn man sich sicher fühlt.

3.3.1. Methodologie-Beitrag: Typisierung

Bitte folgende Zeilen sorgfältig durchlesen:

Um sprachliche Belege in Gruppen zusammenzufassen, werden diese morpho-lexikalischen Typen zugeordnet. Oft sind die entsprechenden Typen aber noch nicht vorhanden. Im Folgenden soll also das Anlegen morpho-lexikalischer Typen am Beispiel eines Kompositums aus den deutschsprachigen Crowd-Daten erläutert werden.

Zum hier im Beispiel gezeigten Beleg Dachboden aus den Crowd-Daten existiert noch kein passender morpho-lexikalischer Typ.

Im Falle von Dachboden handelt es sich um ein Kompositum aus den Nomen Dach und Boden. Da auch die Zuordnung einzelner Wortbestandteile von Interesse sein kann reicht es daher nicht, einfach einen morpho-lexikalischen Typ Dachboden (m.) (gem.) anzulegen. Denn wenn man wissen möchte, was alles als Boden bezeichnet wird, wie es beim Heuboden der Fall ist oder die Konzepte herausfiltern will, die durch Dach näher bestimmt werden wie Dachfirst oder Dachstuhl.
Grundsätzlich ist bei den Belegen zu berücksichtigen, ob eine Genus-Angabe vorhanden ist und es eine lemmatische Entsprechung in den Referenzwörterbüchern findet. Falls keine Genus-Angabe vorhanden, dann muss der morpho-lexikalischer Typ, der keine Genus-Angabe beinhaltet, für die Zuweisung gewählt.
Im Falle von Dach und Boden findet sich ein Eintrag im Duden, der auch inhaltlich dem Wortbestandteil in Dachboden entspricht, eben dem Boden, der sich unter dem Dach befindet.

Zur Anlage eines neuen morpho-lexikalischen Typs wählt man "Neuen Typ erstellen" und gelangt so zur Eingabemaske, die man entsprechend ausfüllt. Im Feld "Affix" lässt Platz für die Angabe eines Suffix wie -lein beim Diminutiva. Beim Genus kann hier nur eine Wahl getroffen werden, denn im Falle einer Genusvariation zu einem Lexem muss jeweils ein einzelner morpho-lexikalischer Typ angelegt werden. Dann wird noch die entsprechende Referenzangabe benötigt. Durch Eintippen des Wortes unter "Zugeordnete Referenzen" kann geprüft werden, ob für das Deutsche bereits ein Eintrag existiert. Ist das nicht der Fall, so kann man dies mit der Wahl des Buttons "Neue Referenz anlegen" dies ändern. Falls ein Wort mit unterschiedlichen Genera geführt wird, kann dies hier vermerkt werden, außerdem die Quellenangabe als Link sowie optional ein interner Kommentar.

Mit "Einfügen" wird die Referenz in die Datenbank geschrieben. Dem morpho-lexikalischen Typ muss sie aber noch zugwiesen werden. Dies geschieht, wie oben beschrieben, über das Eintippen ins Textfeld und der Wahl der jeweiligen Referenz.

Wie anfangs erwähnt liefern uns die Belege oft keine Genusangaben, weshalb auch ein morpho-lexikalischer Typ ohne Genus angelegt werden muss. Dabei unterscheidet sich dieser nur hinsichtlich der Genusinformation, die hier einfach ausgelassen wird. Selbst in dem Fall, dass die Referenzwörterbücher oder sonstige Literatur nur eine Genusangabe liefern, dann ist trotzdem ein morpho-lexikalischer Typ ohne Genusangabe notwendig.
Die selbe Prozedur ist bei Boden ebenfalls anzuwenden, also zwei morpholexikalische Typen als Maskulinum und ohne Genusangabe mit der Referenz auf den Wörterbucheintrag.

Nachdem diese Schritte erfolgt sind, können nun auch die morpho-lexikalischen Typen zum Kompositum angelegt werden, hier ebenfalls einer mit und einer ohne Genusangabe. Falls vorhanden soll auch hier die Referenz auf einen Wörterbucheintrag erfolgen. Was das Kompositum vom Ein-Wort-Lexem jedoch unterscheidet, ist der Eintrag im Feld "Bestandteile". Hier sollen die morpho-lexikalischen Typen als Wortbestandteile angegeben werden, wobei das Bestimmungswort stets ohne Genus, das Grundwort mit Genusangabe gewählt wird, wenn denn das Kompositum auch ein Genustyp angegeben wurde.

3.3.1. Referenzwörterbücher

Die für VA relevanten Referenzwörterbücher sind folgende:

Für die romanischen Idiome: 

Wörter aus dem romanischen Sprachraum werden, sofern möglich, verknüpft mit den Lemmata von:

Für die romanischen Idiome (s. Methodologie-Beitrag Referenzwörterbücher):

Für die germanischen Idiome:

  • Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch
  • Grimm, Jacob und Wilhelm (1854-1961): Deutsches Wörterbuch von Jacob und Wilhelm Grimm, 16 Bde. in 32 Teilbänden, Leipzig (Quellenverzeichnis Leipzig 1971) (DWB)
  • Duden (Berücksichtigung aufgrund seiner faktischen Bedeutung und der großen Materialfülle – trotz der Dürftigkeit hinsichtlich der von ihm präsentierten lexikographischen Informationen)

Für die Bestimmung der Etymologie speziell von Basistypen dienen als Referenz:

  • Wartburg, Walther von (1922-1967): Französisches Etymologisches Wörterbuch. Eine Darstellung des galloromanischen Sprachschatzes, 25 Bände, Basel (FEW), mit seinen artikelschließenden Kommentare, die oft auch über das Französische und sogar das Romanische hinaus grundlegend sind.
  • Kluge
  • DELI
  • Bezlaj und auch die neuste Ausgabe Snoj. Allgemein für slawische Etymologien s. Berneker
  • Als Referenzform für germanische Basistypen dienen wenn möglich die Lemmata des AWB, denn sie repräsentieren die ältesten belegten Formen.

3.4 Korrektur von Belegen

Wird während der Typisierung deutlich, dass ein Beleg fehlerhaft transkribiert wurde, so lässt sich dies wie folgt korrigieren.

Beim entsprechenden Beleg gelangt man per Klick auf den Button "Korrigiere Beleg" zur ID des Belegs (id_aeusserung).

Da die Belege, die bereits über das Typisierungstool abrufbar sind, schon tokenisiert wurden, müssen die Änderungen in zwei Tabellen (aeusserungen, tokens) durchgeführt werden.

SELECT *
FROM aeusserungen
WHERE id_aeusserung = 254482

In der Spalte Aeusserung kann nun der Beleg korrigiert werden.

Da die Äußerung schon tokenisiert wurden, liegen die einzelnen Bestandteile bereits in der Tabelle tokens.

SELECT *
FROM aeusserungen
WHERE id_aeusserung = 254482

Ebenso wie in der Tabelle aeusserungen kann man nun in der Spalte Token die selben Änderungen am Token vornehmen. Zusätzlich ist hier aber noch notwendig, dass der String in den Spalten IPA und Original noch dementsprechend angepasst werden. Hierzu finden sich unter den Tools die Programme "Beta -> IPA" und "Beta -> Original", mithilfe derer man sich den String aus der Beta-Transkription generieren lassen kann.

 

3. Anlegen eines Konzeptes

Unsere Konzepttabelle `konzepte` hat in VerbaAlpina zwei Aufgaben. Zum einen ist sie für die Zusammenführung von verschiedenen Belegen mit gleicher Bedeutung nützlich, zum anderen dienen der Name bzw. die Beschreibung der Konzepte als Grundlage für das Crowdsourcing. Unter diesen beiden Gesichtspunkten ist auch das Anlegen eines neuen Konzepts zu sehen.
Eine vollkommen strikte Roadmap-to-Konzept kann es bei der Fülle verschiedener Themenbereiche nicht geben. Deshalb werden im Folgenden nur ein paar Hinweise gegeben, die bei der Erstellung von Konzepten beachtet werden sollen.

konzeptanlage

Eingabeformular bei der Anlage von Konzepten

Name_(DIFRSE)/Beschreibung_(DIFRSE):

Möchte man bei der Transkription oder der Typisierung Belege mit einem bestimmten Konzept verknüpfen, so sucht man zuerst, ob dieses Konzept schon angelegt wurde. Hier lohnt es sich, mehrere Suchanfragen zu starten, denn nicht immer ist das Konzept unter dem ersten Wort verzeichnet, das einem in den Sinn kommt. Folgendes Beispiel soll dies näher erläutern. Im Bayerischen Sprachatlas findet sich z.B. ein Stimulus "Weibl. Zuchttier nach dem Werfen (bei Schweinen)" (BSA 0381). Hier könnte man natürlich nach Begriffen wie "Zuchttier" suchen, es wird sich jedoch bald zeigen, dass diese Suche keine Treffer bringt. Auf der Suche nach "Schwein" könnte es zuerst den Anschein haben, dass dieses Konzept nicht existiert und würde es nahelegen, dieses anzulegen. Eventuell wurde aber das Kozept als "SAU" angelegt, ohne dieses näher zu beschreiben. Oft ist es der Fall, dass fälschlicherweise ein einzelner Begriff im Feld 'Beschreibung_D' steht, obwohl dieser im Feld 'Name_D' stehen sollte. Im Falle von Sau sollte also im Feld 'Name_d' "SAU" und in 'Beschreibung_D' "SCHWEIN, WEIBLICH" stehen. An solch ein bereits bestehnde Konzept sollte sich beim Anlegen von ähnlichen Konzepten orientiert werden, d.h. die Differenzierung des Konzepts findet am Ende des Beschreibungs-Textes statt, während der vordere Teil allgemeiner gehalten wird, z.B. "SCHWEIN, WEIBLICH, GESCHLECHTSREIF" oder "SCHWEIN, WEIBLICH, NACH DEM WERFEN" usw. Als Faustregel könnte man sagen: je ähnlicher sich Konzepte in der Realität sind, umso ähnlicher sollten auch die Konzeptbeschreibungen sein. Ein anderes Beispiel: "GEFÄSS ZUM TRANSPORT AUF DEM RÜCKEN FÜR MILCH AUS HOLZ" ist Teil des Konzepts "GEFÄSS ZUM TRANSPORT AUF DEM RÜCKEN" und dieses ist wiederum Teil des Konzepts "GEFÄSS ZUM TRANSPORT". Dass diese Konzeptbeschreibungen nicht schön aussehen und auch nicht den normalen Sprachgebrauch widerspiegeln, ist hier nicht schlimm. Grundsätzlich sollte in Name-Feld als auch im Beschreibung-Feld etwas eingetragen werden, oft ist dies aber nicht möglich, da das Konzept so komplex ist oder es in der Standardsprache kein entsprechendes Wort gibt. Für die deutschsprachigen Konzepte verwendet ihr bitte Großbuchstaben, Kommata und Umlaute, nicht aber das große scharfe S "ẞ". Seid Ihr Euch unsicher, sammelt Eure Problemfälle und teilt sie uns mit.

Kategorie:

Bei der Auswahl der Kategorie sucht die aus, die am besten passt. Solltet ihr Euch unsicher sein, dann gilt auch hier, wie beim Aufbau der Konzeptbeschreibung, wieder: nachschauen, ob ähnliche Konzepte schon existieren. Den Begriff "Ähnlichkeit" kann man dabei sehr weit gefasst sehen. Müsst ihr z.B. das Konzept für einen Körperteil der Kuh anlegen, in der Tabelle wurde aber noch kein einziges Körperteil der Kuh erfasst, könnt ihr dann ggf. ja bei anderen Tieren schauen, ob dort schon etwas Ähnliches eingetragen wurde, z.B. "HORN DER KUH" vgl. "HORN DER ZIEGE".

Taxonomie:

Das Feld "Taxonomie" ist bei der Erfassung von botanischen Konzepten oder der Tierwelt wichtig. Hier soll einfach der botanische Name z.B. Vaccinium myrtillus für 'Heidelbeere'oder der wissenschaftliche Name für das Tier wie Passer domesticus für 'Haussperling' eingetragen werden.

QID:

Im Feld "QID" sucht ihr nach der QID, die dem Konzept in Wikidata zugeordnet ist. Dazu geht ihr am besten auf die Wikipediaseite selbst und wählt beim Artikel links "Wikidata-Datenobjekt". Die ID findet ihr dann gleich hinter der meist englischen Bezeichnung der Sache.

Beispiel Wikidata-Datenobjekt

Stelle des Q-IDs in Wikidata

Da es zu Tätigkeiten in der Regel allerdings keine Wikipedia-Artikel gibt, empfiehlt es sich, die ID direkt über das Wikidata-Portal zu suchen. Tendenziell sind mehr QIDs über den englischen Begriff zu finden, z.B. "drinking".

Kommentar_Intern:

Bei "Kommentar_Intern" solltet Ihr einen kurzen Vermerk schreiben, was der Anlass war, dass Ihr das Konzept angelegt habt. Hier reicht wirklich nur eine kurze Notiz, die z.B. auf eine Karte im Atlas Bezug nimmt wie "AIS 223" oder, falls der Vorschlag für das Konzept von einem Crowder stammt "Vorschlag von Crowder: crowder".

VA_Phase:

Zuletzt solltet Ihr noch die Nummer der jeweiligen Konzeptphase unter "VA_Phase" eintragen.

vaphasen

Projektphasen in VerbaAlpina

 

4. Datenbank

Die Datenbank muss nicht immer verwendet werden und der Zugang dazu wird nicht immer benötigt. Allerdings ist der Zugang zu ihr sehr nützlich, deshalb Datenbank-Zugang beantragen (bei den Informatikern) und den immer parat halten.

Bei manchen Aufträgen ist es notwendig, direkt in die Datenbank zu schauen. Die dafür notwendigen Abfragen werden in der Regel von den wissenschaftlichen Mitarbeitern bereitgestellt und erläutert.

5. Nachhaltigkeit

  • Datenversionierung
  • Backups und Archivierung
  • Dokumentation in der Rubrik "Methodologie"
  • Aufnahme in Kataloge der DNB

6. Technisches bzw. Organisatorisches

Um von Zuhause aus zu arbeiten, muss man eine VPN am Laptop installieren; Informationen und Anleitungen findet man unter folgendem Link: https://www.lrz.de/services/netz/mobil/vpn/anyconnect/ [Zugriff am 21/08/2019]

Im Büro arbeiten: Ein Rechner steht im VA-Büro zur Verfügung. Am besten trägt man sich in die Liste ein, damit die Arbeitszeiten sich nicht überschneiden. Gerade zu Beginn von neuen Aufgaben, empfiehlt es sich, dass ihr euch mit den wissenschaftlichen Mitarbeitern abspricht, weil in dieser Phase noch Fragen auftreten können.

Kommunikation: Am Besten alles kommunizieren, was gerade eure Beschäftigung ist usw.; das hat in erster Linie einen planungstechnischen Hintergrund, damit wir die nächsten Aufgaben vorbereiten können.

 

VerbaAlpina II: Technische Aspekte (im Rahmen der Ringvorlesung „Einblicke in digitale sprachwissenschaftliche Forschungsprojekte“)




(2720 Wörter)


Gliederung

  • Einführung
  • Datenerfassung
  • Ergebnis der systematischen Datenerfassung
  • Crowdsourcing (CS)
  • VerbaAlpina und FA*I*Rness
  • Die reine Technik
  • IT-Team von VerbaAlpina

Einführung

  • Ergänzung des Vortrags von Thomas Krefeld, der VerbaAlpina als geolinguistisches Vorhaben um Umfeld der Digital Humanities vorgestellt und den Fokus auf VerbaAlpina als "virtueller Forschungsumgebung" gelegt hatte.
  • Kernfrage: Welche Dinge werden wo mit welchen Wörtern bezeichnet?
  • Fundamental: Unterscheidung zwischen Bezeichnung und KONZEPT, im Folgenden (und generell in Texten außerhalb der Datenbank) markiert durch unterschiedliche Typographie (Bezeichnung kursiv, Konzept in Versalien) ⇒

Butter ≠ BUTTER

  • Geographischer Rahmen: Alpenraum (Perimeter der Alpenkonvention [= völkerrechtlicher Vertrag zum Schutz der Alpen aus dem Jahr 1991] – rein pragmatische Entscheidung, aus der Perspektive der Operationalisierbarkeit unverzichtbar)
  • Geographische Referenz sind für VerbaAlpina die politischen Gemeinden im Alpenraum. Festgelegter Bestand, administrative Veränderung (Schaffung neuer Gemeinden, Fusion etc.) werden nicht berücksichtigt. Insgesamt 5771 Gemeinden ([[SQL:SELECT COUNT(*) AS Anzahl FROM orte a JOIN orte_kategorien b USING(id_kategorie) WHERE a.Alpenkonvention = 1 AND b.Id_Kategorie = 62]]; Karte)
  • Datenbasis:
    • Sprachatlanten
    • Wörterbücher
    • ergänzt um Daten der "Crowd" (sog. Crowdsourcing)
  • "Digitalisierung" erfolgt grundsätzlich über eine Reihe aufeinander folgender Ebenen:

Allgemeines Digitalisierungskonzept für Textquellen


Datenerfassung

  • Datenerfassung: Transkription aus Sprachatlanten und Wörterbüchern
  • Sprachatlanten: onomasiologisch ("Welche Bezeichnungen gibt es z. B. für ein bestimmtes Konzept?"):

FLÜSSIGKEIT NACH DER GERINNUNG DER FESTSTOFFE BEI DER HERSTELLUNG VON KÄSEMolke, Abzug, Jutte, Käsemilch, kweta, petit-lait ...

  • georeferenzierte (!) Wörterbücher: semasiologisch (Welche Konzepte bezeichnet z. B. das Wort malga?)

Gaden (germanisch, Substantiv, männlich, nicht-affigiert) ⇒ DACHKAMMER, RAUM ZUM LAGERN VON MILCHPRODUKTEN, SCHEUNE, SCHLAFRAUM, STALL (Auswahl)

Beispiel Sprachatlanten

  • Sprachatlanten bislang quantitative Hauptquelle für VerbaAlpina
  • Zahlreiche Sprachatlanten im Alpenraum: Karte 

Netz der Sprachatlanten in Zentral- und Westalpen

  • Beispiel: der AIS (Sprach- und Sachatlas Italiens und der Südschweiz, Karl Jaberg, Jakob Jud, 1928-40): Elektronische Version "Navigais" von Graziano Tisato:

Die Karte 1218 (KÄSEMILCH = MOLKE) des AIS in der online-Präsentation Navigais von Graziano Tisato

  • Die roten Nummern stehen für die Informanten
  • Neben den Nummern stehen Äußerungen, die von den Informanten stammen ("Einzelbelege")
  • Phonetische Transkription im sog. Böhmer-Ascoli-System (ähnlich Teuthonista)
  • Aus dieser Karte muss strukturiert die Information erfasst werden, an welchem Ort das vorgegebene Konzept wie bezeichnet wird. Beispiel:
Konzept Ortspunkt Äußerung
MOLKE 227 laʧ sɛrˈu
MOLKE 225 laj serˈuŋ
  • Die Informanten-Daten werden in einer eigenen Tabelle abgespeichert:
Erhebung Nummer Gemeinde Alter Geschlecht
AIS 225 Mello 25 m
AIS 227 Albosaggia 41 m
  • Alter und Geschlecht werden nicht von allen Sprachatlanten angegeben. In solchen Fällen bleiben die Felder einfach leer.
  • Der AIS liefert jedoch detaillierte Informationen zu den Informanten in den sog. "Aufnahmeprotokollen" (Jaberg/Jud 1928):

Aufnahmeprotokoll des AIS zum Erhebungspunkt 227 (Albosaggia) – Die hier in Frage gestellte Nummer 32 bezieht sich auf die Reihenfolge, in der die Erhebungen durchgeführt worden sind. Qn bezeichnet den "Questionario normale", also das Standardfragebuch, das hier zum Einsatz gekommen ist (alternativ: Qe [erweitert], Qr [reduziert]). Die erwähnten Fotos sind online verfügbar in der "AIS Datenbank" der Universität Bern (http://130.92.166.34/fmi/webd/AIS)

  • Auch Daten zu den Gemeinden werden in einer eigenen Tabelle abgespeichert:

(Abfrage: [[SQL:SELECT NAME, round(ST_x(a.Mittelpunkt),2) AS lng, round(ST_y(a.Mittelpunkt),2) AS lat, a.geonames as Geonames_ID FROM orte a WHERE a.Name IN ('Mello (Sondrio)','Albosaggia') AND a.Beschreibung LIKE 'Commune']])

Transkriptionsverfahren

  • Das Problem:

  • Umgang mit Zeichen(kodierung): Böhmer-Ascoli nicht Unicode-kodiert, selbst wenn: Eingabe über Tastatur sehr umständlich, daher Einsatz des:
  • Betacode; Ideengeber: Thesaurus Linguae Graecae (1974)

Prinzip des Betacodes

  • Verfahren ist quellenunabhängig: Identische Zeichen bzw. Zeichenkombinationen (Basiszeichen samt Diacritica) werden stets identisch transkribiert, auch wenn möglicherweise unterschiedliche "Bedeutungen" vorliegen. Diese werden bei der automatischen Umsetzung in IPA berücksichtigt.
  • Automatische Erfassung der Daten bislang nicht möglich
  • OCR wäre nicht das Problem! ⇒ Lücke/Riepl/Trautmann 2017, S. 126ff.
  • Hauptproblem jedoch: Zuordnung der Belege zu den einzelnen Erhebungspunkten

Ausschnitt aus AIS 1218_1 (KÄSEMILCH)

  • Thema wurde in einer Masterarbeit in der Informatik behandelt (Methoden: "nearest neighbour" oder "deep learning"). Die Arbeit lieferte kein operationalisierbares Ergebnis; Problem also weiterhin ungelöst.
  • daher manuelle Erfassung der Daten mit dem VA-Transkriptionstool:

VA-Transkriptionstool: Beispiel AIS-Karte 1218_1 "KÄSEMILCH"

  • VA nutzt auch das generische Croudsourcing-Framework Zooniverse: Freiwillige im Netz sollen AIS-Karten transkribieren: https://www.zooniverse.org/projects/filip-hr/verbaalpina
  • Entwickelt mit Hilfe des generischen Entwicklungstools "Zooniverse Project Builders"
  • Auslöser war das Zooniverse-Projekt "Old Weather" – Wetterrekonstruktion aus Logbüchern von Arktis-Fahrern im 19. und 20. Jh.
  • Ursprünglicher Gedanke bei der Nutzung des Zooniverse Project Builders: Zeitersparnis – Arbeit hat sich aber als sehr aufwendig herausgestellt; immer wieder Auflagen und Nachfragen von Seiten Zooniverse. Daher: "...  not yet an official Zooniverse project"
  • Die über VA-Zooniverse ausgeführten Transkriptionen können in csv-Dateien exportiert und von dort in die Datenbank von VerbaAlpina übertragen werden:

  • Bislang erst sehr wenige Transkriptionen, da noch nicht beworben

Typisierung

  • Die Sprachatlanten und Wörterbücher präsentieren unterschiedliche Kategorien von Sprachmaterial. Wir unterscheiden:
    • Einzelbeleg: Konkrete Äußerung eines Sprechers (= Informanten) zu einem ganz bestimmten Zeitpunkt an einem bestimmten Ort. Von der Quelle meist in phonetischer Transkription wiedergegeben.
    • Typisierte Belege: idealisierte Repräsentanten eines an einem Ort oder in einer Region verbreiteten "Typs" – Typisierung kann unterschiedlichen Kategorien folgen

Schriiner, Schriner, Schreiner (bündelt jeweils individuelle Varianten [Einzelbelege])

      • morpholexikalische Typisierung – Sämtliche Varianten, egal ob Einzelbelege oder Typisierungen, werden zu morhpolexikalischen Typen zusammengefasst:
morphTyp phonTypen
Schreiner Schriiner, Schriner, Schreiner
Schnitzer Schnätzer, Schnätzi
Meister Mäischter
Holzmeister Holzmäischter
Tischmacher ?
Tischler ?

VA ist primär an den morpholexikalischen Typen interessiert, registriert und präsentiert bei Suchergebnissen aber jeweils auch Einzelbelege oder ggf. auch phonetische Typen.

Der [Bibl:AIS] liefert, in bester romanistischer Tradition, jeweils

Beispiel einer Quelle mit Einzelbelegen: AIS

  • Die beiden oben zitierten Belege aus der Karte "KÄSEWASSER" des AIS unterscheiden sich zwar hinsichtlich der phonetischen Transkription, repräsentieren jedoch beide offenkundig den selben morpholexikalischen Typ (die hier vorgelegte Zuweisung zum Typ "latte serone" ist exemplarisch und vorerst spekulativ):
Konzept Ortspunkt Äußerung morph_typ
MOLKE 227 laʧ sɛrˈu latte serone
MOLKE 225 laj serˈuŋ latte serone
  • ⇒ sämtliches gesammeltes Material muss typisiert werden
  • Was ist ein morpholexikalischer Typ? ⇒ VerbaAlpina dokumentiert solche und ähnliche Fragen in der Sektion "Methodologie" (hier: s. v. Typisierung)
  • Arbeit, die nur von Sprachwissenschaftlern geleistet werden kann: Aufgabe der romanistischen und germanistischen Mitarbeiter von VA
  • Nutzung des Typisierungstools (s. auch den Eintrag "Typisierung: Anlegen morpho-lexikalischer Typen" in der Methodologie):

Die Karte AIS 1218_1 im Typisierungstool von VerbaAlpina

  • Status der in den Quellen versammelten Daten hinsichtlich Typisierung sehr unterschiedlich
  • manche Sprachatlanten liefern bereits typisierte Daten und präsentieren spezifische Einzelbelege der Informanten nur punktuell
  • Beispiel: VALTS (Vorarlberger Sprachatlas)

Karte 73 aus dem Vorarlberger Sprachatlas VALTS IV: SENNHÜTTE bzw. SENNEREIRAUM AUF DER ALPE

  • Diese Karte vereint die Dokumentation mehrerer unterschiedlicher Konzepte (neben SENNHÜTTE und SENNEREIRAUM AUF DER ALPE noch weitere: PRIMITIVE SENNHÜTTE AUF MAIENSÄßEN, SENNKÜCHE, KÄSEKELLER etc.)
  • Präsenz unterschiedlicher morpholexikalischer Typen durch spezifische Symbole markiert (sog. "Punktsymbolkarte"; typisch für Sprachatlanten in germanistischer Tradition)
  • rote Symbole markieren morpholexikalische Typen romanischen Ursprungs, schwarze solche deutschen Ursprungs
  • Automatisierung unmöglich; manuelle Datenerfassung durch Spezialisten unerlässlich
  • Beispiel braune Markierung: In der Ortschaft Bichlbach (Erhebungspunkt T6), wird der SENNEREIRAUM INNERHALB DER ALPHÜTTE als Sennküche bezeichnet
  • Abbildung dieser Informationen im relationalen Datenformat:
Konzept Ortspunkt Äußerung morph_typ
SENNEREIRAUM INNERHALB DER ALPHÜTTE T06 ? Sennküche
  • Erfassung von Daten aus Wörterbüchern. Beispiel: [[Bibl:Idiotikon]

Eintrag "Teie" im Schweizerdeutschen Wörterbuch (Idiotikon)

Gliederung des Eintrags "Teie" im Schweizerdeutschen Wörterbuch (Idiotikon) nach den Kategorien des VerbaAlpina-Datenmodells

  • relationale Abbildung (exemplarischer Ausschnitt):
Konzept Ortspunkt Äußerung morph_typ
GEBRECHLICHE, BESCHRÄNKTE, SCHWERFÄLLIGE WEIBSPERSON Chur ? Teie

Ergebnis der systematischen Datenerfassung

  • Viele Bezeichnungen für viele Konzepte (m:n-Beziehung), stets georeferenziert (fiktive Tabelle):
Bezeichnung Konzept Gemeinde
malga HERDE Colico
malga ALM Pieve Di Ledro
malga SENNHÜTTE Ossana
muvel HERDE Lantsch/Lenz
pastura HERDE Wolkenstein in Gröden
... ... ...
  • Datenbank ermöglicht doppelte Perspektive: onomasiologisch und semasiologische (traditionell an unterschiedliche Publikationsarten gebunden: Sprachatlanten und Wörterbücher):
  • Relationales Datenmodell erlaubt den Einsatz der relationalen Algebra
  • ⇒ Einsatz der formalen Sprache SQL (structured query language) möglich
  • Beispiel für eine onomasiologische Suche:
select * from tabelle
where Bezeichnung like 'malga';

Ergebnis:

Bezeichnung Konzept Gemeinde
malga HERDE Colico
malga ALM Pieve Di Ledro
malga SENNHÜTTE Ossana
  • Beispiel für eine semasiologische Suche:
select * from tabelle
where Konzept like 'HERDE';

Ergebnis:

Bezeichnung Konzept Gemeinde
malga HERDE Colico
muvel HERDE Lantsch/Lenz
pastura HERDE Wolkenstein in Gröden
... ... ...
  • Die relationale Algebra erlaubt komplexe Berechnungen über dem Datenbestand
  • Beispiel:
/*
 SQL-Statement 
 Finde sämtliche morpholexikalischen Typen, 
 die das Konzept MOLKE bezeichnen, 
 und gib die jeweilige Häufigkeit des morpholexikalischen Typs an
*/

select 
 Name_Konzept as Konzept, 
 typ,
 anzahl

from
(
 select 
  count(*) as Anzahl, 
  a.Name_Konzept, 
  a.Typ 
 from vap_ling_de a
 
 where 
  a.Name_Konzept like 'MOLKE'
  and a.Art_Typ like 'Morph_Typ'
  group by a.Typ
  order by Anzahl desc
) sq
;
  • Weitere Fragestellungen, die mit der relationalen Algebra beantwortet werden können:
    • Welche Konzepte weisen die höchste Varianz lexikalischer Variation auf?
    • Wie hoch ist der Anteil lateinischer Basistypen bezogen auf ausgewählte Regionen innerhalb des Alpenraums?
  • Kartierung: Analytische Ergebnisse können auf der interaktiven online-Karte von VerbaAlpina visualisiert werden

Kartierung des Konzepts MOLKE auf der interaktiven online-Karte von VerbaAlpina

  • Kartierungen können über das "Teilen"-Symbol rechts oben auf der online-Karte dauerhaft gespeichert und durch das Versenden des entsprechenden Links mit anderen geteilt werden
  • Belegfenster, Beispiel:

Beispiel für ein Einzelbelegfenster auf der interaktiven online-Karte von VerbaAlpina

  • Einzelbelegfenster enthält neben Informationen zu Einzelbeleg (links oben), morpholexikalischem Typ und Konzept Verlinkungen auf externe Ressourcen: Geonames (kleiner Globus rechts oben) sowie Referenzlexika (G: Georges; C: CNRTL; T: Treccani; F: FEW)
  • Wichtig für Referenzierung auf externe Ressourcen: Deren feine Datengranulierung – jedes "Datum" muss präzise über eine URL ansprechbar sein ("Interoperabilität"!) ⇒ eine Lehre für VerbaAlpina!
  • Quantifizierungen: spezielle Funktion auf der interaktiven online-Karte:

Quantifizierende Kartierung des morpholexikalischen Typs "Anke" auf der interaktiven online-Karte von VerbaAlpina

  • Hexagon-Karte:

Abbildung des Vorkommens des morpholexikalischen Typs "Anke" auf der Hexagonkarte von VerbaAlpina

  • Neben der kartographischen Ergebnispräsentation bietet VerbaAlpina eine textorientierte Version an: das Lexicon Alpinum:

Das Lexicon Alpinum von VerbaAlpina

  • Kommentare zu ausgewählten (!) Konzepten, morpholexikalischen Typen und Basistypen (Basistyp: Gibt den Ursprung eines morpholexikalischen Typs an; nicht notwendig ein "Etymon" im sprachwissenschaftlichen Sinn)
  • Angabe der VA-spezifischen Normdaten, die die VA-Konzepte und -morpholexikalischen Typen eindeutig bezeichnen.
  • Einträge im Lexicon Alpinum sind über URLs direkt referenzierbar. Beispiel: https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=2374&db=xxx&comment_id=L581#L581 (Morphtyp L581 Anke)
  • Diachrone Streuung des Datenmaterials über mindestens rund 100 Jahre (je nach Alter der Quellen)!

Crowdsourcing (CS)

  • Systematische Erfassung von Daten aus Atlanten und Wörterbüchern ergibt regionale Inkonsistenzen: Nicht für alle Gemeinden im Untersuchungsgebiet liegen Daten für alle Konzepte vor. Schematische Darstellung:
Gemeinde 1

(Atlas I)

Gemeinde 2

(Atlas II)

Gemeinde 3

(Atlas III)

Gemeinde n

(Atlas N)

Konzept A x x x
Konzept B x x
Konzept C x x
Konzept n x x x
  • Sog. "Nacherhebungen" erforderlich
  • Feldforschung nicht finanzierbar
  • Lösung: Crowdsourcing ("Begriff" erstmals 2006 von Jeff Howe verwendet): "... bezeichnet die Auslagerung traditionell interner Teilaufgaben an eine Gruppe freiwilliger User, z. B. über das Internet" (Wikipedia)
  • VerbaAlpina hat ein eigenes Crowdsourcing-Tool entwickelt (CS-Tool):

Das Crowdsourcing-Tool von VerbaAlpina

  • Eingabe von Bezeichnungen für auswählbare Konzepte
  • Ergebnis:
Gemeinde 1 Gemeinde 2 Gemeinde 3 Gemeinde n
Konzept A x CS x x + CS
Konzept B x x + CS CS
Konzept C CS x x
Konzept n x CS x + CS x
  • Konzept aus Sicht von VerbaAlpina durchaus erfolgreich:

Monitoring-Webseite für das Crowdsourcing-Tool von VerbaAlpina

  • Bislang über 11000 Eintragungen
  • Erkenntnis: Werbung ist unverzeichtbar
  • Diachrone Asymmetrien bestehen weiterhin bzw. kommen gar hinzu!
  • Andererseits: Dokumentation von Verschwinden bzw. Entstehung von morpholexikalischen Typen
  • Auch das Entstehen neuer Konzepte kann auf diese Weise erfasst bzw. dokumentiert werden (z. B. ELEKTRONISCHE KUHGLOCKE)

VerbaAlpina und FA*I*Rness

  • VerbaAlpina befasst sich derzeit verstärkt mit der Thematik des Forschungsdatenmanagement (FDM): Einbindung in die Projekte eHumanities – interdisziplinär und GeRDI
  • Wesentlicher Aspekt dabei: Gebot der FAIRness (Graphik von Thomas Krefeld):
FAIR principles
Data have to be Findable
Accessible
Interoperable
Reusable
  • Im Fokus: "Interoperabilität"; Beispiele:
  • Als wesentliche Voraussetzung für Interoperabilität erscheinen Normdaten: "normierte" Datensätze; Normdaten existieren für ganz unterschiedliche Entitäten, z. B. Personen, Geographica oder auch Konzepte

Normdaten für Personen und Geographica

Normdaten für Konzepte

Normdaten für morpholexikalische Typen

  • Für viele Entitäten existieren speziell in der GND bislang noch keine Normdaten, so z. B. für morpholexikalische Typen – schlecht für VerbaAlpina, da morpholexikalische Typen eine der für VA zentralen Kategorien sind.
  • Ansätze allerdings bei Wikidata:  "lexemes": https://www.wikidata.org/wiki/Wikidata:Lists/lexemes
  • Beispiel: morpholexikalischer Typ "der Käse": https://www.wikidata.org/wiki/Lexeme:L49797
  • Die entsprechende Nummer wird in der Tabelle der Morphtypen in der DB von VA eingetragen:
  • Einträge können von Usern angelegt werden (evtl. Beispiel formaggio)

Die reine Technik

  • VerbaAlpina ist vollständig "digital"
  • Im wesentlichen zwei Komponenten: Ein multifunktionales (!) Web-Portal (VA_WEB) und eine (relationale) MySQL-Datenbank (VA_DB; in der Realität mehrere, vor allem zwei: eine spezifischen Projektdatenbank und eine WordPress-Datenbank für den Betrieb von VA_WEB)
  • VA_WEB: WordPress-Installation: in PHP programmiert, erweitert um projektspezifische Funktionen, die modular als "Plugins" realisiert und der Allgemeinheit über Github zur Verfügung gestellt werden.
  • relevante VA-Eigenentwicklungen für VA_WEB:
    • Transkriptionstool
    • Typisierungstool
    • Crowdsourcing-Tool (CS-Tool)
    • SQLtoHTML: Einbindung von Abfrageergebnissen aus MySQL-Datenbank in WordPress-generierte Webseite
  • Responsive Webdesign (Anpassung der Darstellung an verschiedene Endgeräte):

Die VerbaAlpina-Karte auf einem Samsung S7 Display

Technologie der interaktiven online-Karte

  • Openstreetmap:  „Open Data“ gemäß Open Data Commons Open Database Lizenz (ODbL)
  • JS-Bibliothek Leaflet (vergleichbar mit bzw. Ersatz für Google Maps API)
  • WebGL (Web Graphics Library): JS-Programmierschnittstelle, die die Grafikkarte des Clients verwendet, um Visualisierungen hardwarebeschleunigt zu animieren ⇒ Verzögerungsfreie Animation von Markern auf der VA-Karte bei Zoomvorgängen

API


IT-Team von VerbaAlpina


Bibliographie

  • DRG = Eintrag nicht gefunden
  • Idiotikon = Eintrag nicht gefunden
  • VALTS = Eintrag nicht gefunden
  • AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
  • CNRTL = Centre National de Ressources Textuelles et Lexicales, Nancy, Nancy Université. Link
  • FEW = Wartburg, Walter (1922-1967): Französisches etymologisches Wörterbuch. Eine Darstellung des galloromanischen Sprachschatzes , Basel, vol. 20, Zbinden. Link
  • Georges = Georges, Heinrich (1913-1918): Ausführliches lateinisch-deutsches Handwörterbuch. Aus den Quellen zusammengetragen und mit besonderer Bezugnahme auf Synonymik und Antiquitäten unter Berücksichtigung der besten Hilfsmittel ausgearbeitet, Hannover, Hahnsche Buchhandlung. Link
  • Idiotikon = (1881 ff.): Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch, Basel. Link
  • Jaberg/Jud 1928 = Jaberg, Karl; Jud, Jakob (1928): Der Sprach- und Sachatlas als Forschungsinstrument. Kritische Grundlegung und Einführung in den Sprach- und Sachatlas Italiens und der Südschweiz, Halle (Saale), Niemeyer
  • Lücke/Riepl/Trautmann 2017 = Lücke, Stephan | Riepl, Christian | Trautmann, Caroline (2017): Softwaretools und Methoden für die korpuslinguistische Praxis. Korpus im Text, Bd. 1., München, in: Korpus im Text. Link
  • Treccani = Romani, Luigi: Vocabolario Treccani. Link
  • VALTS IV = Gabriel, Eugen/ Klausmann, Hubert/ Krefeld, Thomas (1991 ff.): Vorarlberger Sprachatlas. Wortgeographie I. Kommentarband, Bregenz, vol. 4

Konzeption und Institutionalisierung des FDM — aus der Erfahrung eines Forschungsprojekts in den digitalen Geisteswissenschaften




(4351 Wörter)

Vorbemerkung

Der nachfolgende Text stellt die Ausarbeitung des am 28.3.2019 auf den e-Science-Tagen in Heidelberg von Stephan Lücke und Martin Spenger gemeinsam gehaltenen Tandem-Vortrags dar. Der Text ist die Vorlage der in den Kongressakten publizierten Version (PDF-Version), die inhaltlich identisch ist. Abweichungen können höchstens hinsichtlich einzelner Verlinkungen bestehen, weswegen bei Zitaten zwischen den beiden Versionen unterschieden werden muss.


Stephan Lücke (ITG), Martin Spenger (UB der LMU)

Dieser Beitrag zeigt am Beispiel des Forschungsdatenmanagements an der LMU, wie Wissenschafts- und Infrastrukturpartner erfolgreich zusammenarbeiten können. Im Rahmen des Modellprojekts „eHumanities – interdisziplinär“ wird die Zusammenarbeit anhand des Pilotpojekts VerbaAlpina verdeutlicht. Der erste Teil des Aufsatzes beschreibt VerbaAlpina und die Besonderheiten aus der Perspektive der digitalen Geisteswissenschaften. Der zweite Teil bringt als Infrastrukturpartner die Universitätsbibliothek der LMU ins Spiel. Abschließend folgt ein kurzer Überblick über das Projekt „eHumanities – interdisziplinär“.

1. Teil: Das Projekt VerbaAlpina (Stephan Lücke)

Das Projekt VerbaAlpina (VA) ist ein von der DFG gefördertes Langfristvorhaben mit einer Perspektive bis 2025 und befindet sich derzeit in der zweiten Förderphase, die noch bis zum Herbst 2020 andauert.  Es handelt sich um ein interdisziplinäres Projekt im Umfeld der Digital Humanities. Der Schwerpunkt des Interesses liegt auf den Sprachwissenschaften, daneben erfolgt jedoch auch eine intensive und streckenweise exemplarische Auseinandersetzung mit den Herausforderungen der Informationstechnologie. Das von VA zusammengetragene und analysierte Datenmaterial kann darüber hinaus auch für andere Disziplinen wie etwa die Ethnographie, die Archäologie oder auch die Geschichtswissenschaften von Interesse sein. VA betreibt unter anderem eine intensive Methodenreflexion, die hauptsächlich in der Rubrik "Methodologie" auf der Projektwebseite dokumentiert ist. Zu einigen der im Folgenden thematisierten Punkte finden sie dort ausführlichere Darlegungen, auf die hier generell hingewiesen sei.

Initiatoren und Träger des Projekts sind Thomas Krefeld vom Romanistischen Seminar der LMU sowie Stephan Lücke von der IT-Gruppe Geisteswissenschaften der LMU. In der laufenden zweiten Förderphase verfügt VA über je zwei Doktorandenstellen im Bereich der Sprachwissenschaft (einer zuständig für die Romanistik/Slawistik, der andere für die Germanistik) und in der Informatik (für Datenbank- und Frontendentwicklung). Für die umfangreiche Koordinationsarbeit mit den zahlreichen Projektpartnern steht eine weitere Doktorandenstelle zur Verfügung, deren Inhaberin ihre Doktorarbeit im thematischen sprachwissenschaftlichen Umfeld des Projekts vorbereitet. Unterstützt wird das Team durch eine Reihe von Hilfskräften, die vor allem für die strukturierte Datenerfassung eingesetzt werden.

Vorrangiges Ziel von VA ist die systematische Erfassung und Analyse der im Alpenraum verbreiteten morpholexikalischen Typen, die zur Bezeichnung ausgewählter "Objekte" (Konzepte, Begriffe) Verwendung finden oder auch fanden. Vereinfacht gesagt, steht dabei die Frage im Zentrum, welche Konzepte an welchen Orten mit welchen Wörtern bezeichnet werden. So wird z.B. das Konzept BUTTER (VA verwendet zur Bezeichnung der Konzepte stets Versalien, um damit den Unterschied zu den Bezeichnungen/Wörtern klar zu machen) in unterschiedlichen Regionen des Alpenraums mit unterschiedlichen morpholexikalischen Typen bezeichnet: In Bayern und Österreich herrscht der Typ Butter vor, im Alemannischen ist Anke weit verbreitet, in Italien nennt man die BUTTER burro. VA ist fokussiert auf die jeweiligen morpholexikalischen Typen, das heißt, phonetische Variationen werden zwar vielfach dokumentiert, jedoch nicht systematisch erfasst oder gar analysiert. Eine vollständige Erfassung des morpholexikalischen Materials ist unmöglich. Daher beschränkt VA seine Dokumentation und Untersuchung auf typisch alpine Konzeptdomänen wie etwa die Almwirtschaft (Schwerpunkt der ersten Projektphase von 2014 bis 2017) oder auch Natur und Umwelt (laufende Projektphase) sowie Tourismus (geplant für die Projektphase ab 2020).

Der geographische Rahmen des Untersuchungsgebiets ist aus pragmatischen Gründen auf die Ausdehnung der sogenannten Alpenkonvention festgelegt worden. Als Datengrundlage dienen in erster Linie traditionell in Buchform publizierte sogenannte Sprachatlanten, die konzeptorientiert ("onomasiologisch") in Kartenform die Verbreitung von morpholexikalischen Typen für die Bezeichnung vorgegebener Konzepte präsentieren. Die systematische Erfassung dieser Daten ist kaum automatisierbar und bedeutet einen erheblichen Aufwand an Handarbeit. Die Schwierigkeit liegt dabei weniger im (nicht eingesetzten) OCR-Verfahren, sondern vielmehr an der kartographischen Zuordnung bestimmter Bezeichnungen zu den einzelnen auf den Karten verzeichneten Punkten. Erschwert wird diese automatische Erfassung überdies durch die Verwendung von Symbolen auf der Karte, die die Orthographie des  entsprechenden Typs also unterdrücken. Die Daten aus den Sprachatlanten werden ergänzt um Daten aus Wörterbüchern, die, anders als die Sprachatlanten, von den morpholexikalischen Typen ausgehen und die jeweiligen durch sie bezeichneten Konzepte dokumentieren. Es werden jedoch nur solche Wörterbücher berücksichtigt, die auch Aufschluss über die geographische Verbreitung der jeweiligen Bedeutungen geben. VA verfügt über eine große Anzahl nationaler und internationaler Partner, die vielfach über eigene Sprachdatensammlungen verfügen, die nach Möglichkeit und Eignung ebenfalls in den Datenbestand von VA übernommen werden. In der Summe ergibt sich ein kartierbares Netz der im Alpenraum verbreiteten Bezeichnungen der ausgewählten Konzepte, die auf einer interaktiven Online-Karte präsentiert werden. Ein wesentlicher Mehrwert des Einsatzes der zeitgemäßen Online-Medien ist dabei der problemfreie und schnelle Wechsel zwischen der onomasiologischen und der semasiologischen Perspektive.

VA stellt sämtliche von ihm erzeugten Inhalte – wozu auch alle Softwareentwicklungen gehören – nach Möglichkeit unter einer offenen Lizenz zur Verfügung (CC BY-SA). Ausnahmen bestehen nur für Daten, die anderweitig unter restriktiven Lizenzen geführt werden.

VA versteht sich als konsequent digitales Online-Projekt und betrachtet die traditionellen Publikations- und Kommunikationsgepflogenheiten im Wissenschaftsbetrieb als überholt. Das Projekt verzichtet vollständig auf den Einsatz herkömmlicher Drucktechnologie und hält auch den Einsatz von PDF-Dokumenten als eine wenig geeignete Publikationsform, die gegenüber der Webtechnologie entscheidende Einschränkungen besitzt.

Die zentralen Projektdaten werden im relationalen Datenformat in einer MySQL-Datenbank verwaltet. Als Frontend dient eine generische WordPress-Installation, für die von den Projekt-Informatikern eine Reihe von spezifischen, auf die Projektbedürfnisse zugeschnittenen, Plugins entwickelt wurden, die über GitHub der Allgemeinheit unter der CC BY-SA-Lizenz zur Verfügung gestellt werden. Das Projektportal ist multifunktional. Es dient gleichermaßen als Arbeitsinstrument für die Projektmitarbeiter wie auch als Publikations- und Dokumentationsplattform und schließlich zur wissenschaftlichen Kommunikation, wobei allerdings letztere Funktionalität noch nicht konsequent ausgebaut ist. Die Idee ist, dass sich Wissenschaftler und Laien auf dem Portal registrieren und das System für den wissenschaftlichen Austausch und auch als Instrument zur Verwaltung eigener Daten verwenden.

VA unterscheidet nicht zwischen "Forschungsdaten" einerseits und auswertenden Daten andererseits, eine Vorstellung, von der offenkundig auch die aktuelle Diskussion des Forschungsdatenmanagements geprägt ist. Sämtliche Projektdaten sind aufeinander bezogen und somit untrennbar miteinander verbunden. Aus diesem Grund verfolgt VA das Ziel, die Gesamtheit der Daten, also die gesammelten Sprachdaten sowie alle darauf bezogenen analytischen und erläuternden Texte, kartographischen Repräsentationen und sonstige Derivate als Ganzes dauerhaft und in zuverlässig zitierbarer Weise zu erhalten. Angesichts ständig ausgebauter Speicherungskapazitäten und dem im Vergleich mit mancher naturwissenschaftlichen Disziplin geringem Datenvolumen kann die Datenmenge nicht als Hinderungsgrund betrachtet werden, womit kein Grund erkennbar ist, nicht den kompletten Datenbestand dauerhaft zu bewahren.

Der aus den stets nur auf Teilbereiche des Alpenraums beschränkten Sprachatlanten und Wörterbüchern zusammengetragene gleichsam "historische" Datenbestand weist notwendigerweise eine ganze Reihe von Inkonsistenzen auf. So sind regionale Unterschiede hinsichtlich Belegdichte und Dokumentation der ausgewählten Konzepte festzustellen. Um diese Inkonsistenzen auszugleichen, wurde von VA ein Crowdsourcing-Tool entwickelt, das Nutzern im Internet erlaubt, regionale Bezeichnungen für die projektrelevanten Konzepte beizutragen. Aktuell sind auf diesem Weg exakt 11546 (Stand 30.4.19) morpholexikalische Einzelbelege in den Datenbestand von VA gelangt. Neben dem geographischen und konzeptbezogenen Ausgleich gelangt über das Crowdsourcing auch eine (zusätzliche, da auch die konventionellen Datenquellen unterschiedliche Zeiträume dokumentieren) diachrone Perspektive in den Datenbestand, die einen Einblick in den Sprachwandel und dessen Dynamik erlaubt.

VA steht im engen Verbund mit im Wesentlichen zwei an der LMU beheimateten Institutionen: Der IT-Gruppe Geisteswissenschaften (ITG) sowie der Universitätsbibliothek (UB). Die ITG besteht seit knapp 20 Jahren und ist ursprünglich aus einer Stelle für rechnergestützte Forschung an der Fakultät für Kulturwissenschaften der LMU hervorgegangen. Sie ist zuständig für und ist getragen von sämtlichen geisteswissenschaftlichen Fakultäten, wobei ihre zentralen Aufgaben in der Planung und Betreuung der IT-Infrastruktur, der Unterstützung bei und der Durchführung von digitaler Forschung und Lehre sowie im Management der von den Wissenschaftlern erzeugten Forschungsdaten liegen. Die bei VA beschäftigten Informatiker sind direkt an der ITG angesiedelt und haben dort die Möglichkeit zum fachlichen Austausch mit anderen Beschäftigten, die in einer ganzen Reihe von weiteren DH-Projekten mit vergleichbaren Aufgaben beschäftigt sind. Dieses strukturelle Konzept gewährleistet ein hohes Maß an Synergieeffekten, von denen auch die anderen an der ITG betriebenen Projekte profitieren können. VA ist bestrebt, die für das Projekt entwickelte Software soweit möglich und sinnvoll generisch und modular zu konzipieren, so dass sie mit möglichst geringem Aufwand auch in anderen Kontexten weiter- bzw. wiederverwendet werden kann.

Vor allem im Hinblick auf die dauerhafte Bewahrung der Projektdaten spielt wiederum die UB die entscheidende Rolle für VA. Generell ist VA der Meinung, dass vor allem die Bibliotheken die natürlichen Ansprechpartner für alle Fragen der Datenbewahrung sind. Dies ist begründet zum einen durch die jahrhundertelange Tradition der entsprechenden Zuständigkeit, zum anderen durch die feste institutionelle Verankerung, die eine langfristige Bestandsgarantie verspricht, wie sie kaum eine andere Einrichtung in vergleichbarem Umfang besitzt. Hinzu kommt ein hohes Maß an Kompetenz, das an der UB sowohl im Hinblick auf die bibliothekarischen wie auch die informatischen Erfordernisse vorhanden ist. Drittmittelgeförderte Projekte mit begrenzter Existenzperspektive erscheinen problematisch, werden von VA jedoch zusätzlich genutzt. So wird aktuell ein Datenexport an das CLARIN-D Centre Leipzig vorbereitet, mit dem VA eine Kooperationsvereinbarung abgeschlossen hat.

Über den Kontakt zur UB und ITG ist VA auch in das vom Bayerischen Staatsministerium für Wissenschaft und Kunst geförderte Projekt eHumanities – interdisziplinär eingebunden. VA nimmt dort die Rolle eines Pilotprojekts ein, dessen Daten exemplarisch mit Metadaten angereichert und schließlich in das institutionelle Repositorium der UB (Open Data LMU) gelangen, wo sie schließlich in versionierter Form dauerhaft gesichert und auch zitierbar sind. Die Entwicklung bzw. Anpassung der Metadatenmodelle an die spezifischen Projekterfordernisse erfolgt in enger Zusammenarbeit von VA-, ITG- und UB-Mitarbeitern. Dieser Prozess, der sich als ausgesprochen effizient erweist, ist in dieser Form nur durch die enge lokale Ansiedlung der beteiligten Institutionen möglich. Vor dem Hintergrund dieser Erfahrung steht VA allen Konzepten, die im Hinblick auf das Forschungsdatenmanagement Lösungen mit spezialisierten zentralen Institutionen favorisieren, die dann unter Umständen sehr weit vom Ort der Projekttätigkeit liegen, skeptisch gegenüber. Demgegenüber betrachtet VA die skizzierte enge Verzahnung der beteiligten Akteure als modellhaft. Zumindest theoretisch sollte eine Übertragung dieses Konzepts auf andere Universitätsstandorte angesichts der doch weitgehend flächendeckenden Verbreitung von Universitätsbibliotheken möglich sein.

VA steht seit Längerem auch in Kontakt mit dem vom BMBF geförderten Projekt GeRDI, das als Datenaggregator betrachtet werden kann, dessen Ziel es ist, Forschungsdaten der verschiedensten Disziplinen über einen zentralen Zugang unter Einsatz von Metadaten zugänglich zu machen. Durch die oben beschriebene Kooperation im Rahmen des Projekts eHumanities – interdisziplinär gelangen die VA-Daten über die UB auch in den Datenbestand von GeRDI.

Im Zusammenhang mit dem Forschungsdatenmanagement wird für die Aufbereitung von Forschungsdaten seit einiger Zeit auch die Erfüllung der sog. FAIR-Prinzipien propagiert bzw. bisweilen auch gefordert. Das Projekt VA hält die in diesem Akronym versammelten Postulate für durch und durch berechtigt und ist bestrebt, diesen Kriterien möglichst weitgehend zu entsprechen. Die Auffindbarkeit (findable) und Zugänglichkeit (accessible) der VA-Daten ist durch die in Zusammenarbeit mit der UB erfolgte Anreicherung um Metadaten mit deren anschließender Einbindung in Kataloge (z.B. OPAC) und Aggregatoren-Dienste (GeRDI) sowie durch das angewendete offene Lizenzmodell hinreichend gewährleistet. Die Forderung der Interoperabilität (interoparable) und bis zu einem gewissen Grad auch der Nachnutzbarkeit (reusable) erscheint nur möglich, wenn das vom Projekt gesammelte Datenmaterial in möglichst feiner Granulierung vorliegt und auf die einzelnen Datensätze über eine URL eindeutig referenziert werden kann. Aus diesem Grund wird der Kerndatenbestand von VA nach Einzelbelegen, morpholexikalischen Typen, Konzepten und Gemeinden gruppiert, die jeweiligen Gruppen mit persistenten Identifikatoren versehen und in dieser Form, zusammen mit allen übrigen Projektdaten, versionsweise an die UB übertragen. Nach der Anreicherung um Metadaten und der Ablage im institutionellen Repositorium ist es sodann möglich, jede einzelne Instanz innerhalb der genannten Gruppierungen über eine DOI anzusprechen. Damit sind de facto projektspezifische Normdaten erzeugt, darüberhinaus ist eine der wesentlichen Forderungen erfüllt, die den Datenbestand von VA als "linked open data" qualifizieren (die Existenz einer persistenten URL). Derzeit fehlen jedoch noch die ebenfalls erforderlichen RDF-Metadaten im XML-Format, deren Erzeugung jedoch geplant ist. Die UB erwägt außerdem, zusätzlich zu den DOIs eigene persistente URLs zu erzeugen, deren Vergabe und Betreuung in der alleinigen Verantwortung der UB liegen. VA begrüßt diese Perspektive, zumal die VA-Ressourcen zusätzlich zu den DOIs über ein weiteres, davon unabhängiges System persistenter Adressen erreichbar sein werden.

Die größte Herausforderung des Forschungsdatenmanagements besteht in der langfristigen Konservierung "lebender Systeme", wie das Projektportal von VA eines ist. VA betrachtet dieses von ihm entwickelte Projektportal als eine zeitgemäße Publikationsform, die in ihrer primären Funktion – der Veröffentlichung – mit der traditionellen Buchpublikation vergleichbar ist, aber natürlich darüber hinausgehende Möglichkeiten bietet. Der Wunsch wäre, dieses Webportal möglichst ad infinitum online verfügbar zu halten, vergleichbar mit der Bewahrung eines Buches in einer Bibliothek. Leider stehen diesem Ideal technische Schwierigkeiten entgegen, die struktureller Natur und daher bislang nicht lösbar sind. Das Problem besteht hauptsächlich in der ständigen Weiterentwicklung der Software- konkret: Serverumgebung, innerhalb derer ein solches Projektportal läuft. Die projekt- bzw. portalspezifische Software muss in größeren Abständen immer wieder an die veränderte Umgebung angepasst werden, bedarf also mehr oder minder permanenter Pflege. VA ist zwar insofern strategisch gut aufgestellt, als das Projektportal von der ITG betreut wird, die über eine unbefristete Bestandsperspektive verfügt und im Rahmen ihrer personellen Möglichkeiten die Betreuung des VA-Webportals auch über das Projektende von VA hinaus übernehmen wird, jedoch kann nicht ausgeschlossen werden, dass in mittel- bis langfristiger Perspektive derart großer Aufwand für den Fortbetrieb des Portals geleistet werden müsste, der die Kapazitäten der ITG übersteigt. Versuchsweise wurde eine ältere Version des VA-Webportals auf einem sog. Docker-Image auf einem Server der UB abgelegt (https://verba-alpina-archiv.ub.uni-muenchen.de/), jedoch erscheint auch dies nicht als absolut zuverlässige Dauerlösung. Als derzeit einzig vernünftiges Konzept zur dauerhaften Bewahrung auch des Webportals erscheint nur die von VA betriebene möglichst ausführliche Dokumentation der Funktionalität der Webseite zusammen mit der Archivierung des entwickelten Softwarecodes auf GitHub sowie im institutionellen Repositorium der UB (Letzteres wird derzeit noch projektintern diskutiert). Späteren Generationen sollte es dann zumindest theoretisch möglich sein, das Gesamtsystem einschließlich all seiner Funktionen mit der dann verfügbaren Technik "nachzubauen".

2. Teil: Die Perspektive der Bibliothek (Martin Spenger)

Wie aufgezeigt spielen Bibliotheken eine entscheidende Rolle im Umgang mit Forschungsdaten. Dabei nimmt die bereits an den Einrichtungen vorhandene Expertise in der Erschließung und Zugänglichmachung von Informationen eine zentrale Rolle im Prozess des Forschungsdatenmanagements ein.

Neben der Erschließung der Forschungsdaten und der Verknüpfung mit Normdaten kann die generische und fachspezifische Anreicherung mit Metadaten als ein Kompetenzbereich der Bibliotheken betrachtet werden. Oft besteht zusätzlich eine entsprechende Infrastruktur an den Einrichtungen, die sich mit der Vergabe von persistenten Identifikationen (PID) befasst. Bibliotheken können in der Regel auf eine langjährige Erfahrung mit der Vergabe und dem Einsatz von Digital Object Identifiern (DOI) und Uniform Resource Names (URN) zurückgreifen.

Diese Aufgabenbereiche bilden die Grundlage, um Daten zugänglich und auffindbar zu machen. Neben der Beratung zum Forschungsdatenmanagement finden sich Bibliotheken zudem immer häufiger in der Position des „Data Publishers“, also des Datenveröffentlichers. Mit der Veröffentlichung von Forschungsdaten – beispielsweise auf institutionellen Repositorien – entstehen zusätzliche Aufgabenfelder für die Bibliotheken. In der Regel verfügen die Publikationsplattformen bereits über eine Infrastruktur, die es ermöglicht, die Metadaten über Schnittstellen an weitere Suchmaschinen oder Discovery-Systeme zu liefern. Bibliotheken kennen dabei auch die Recherche- und Nutzungs-Bedürfnisse der Forschenden und sorgen dafür, dass auch die Forschungsdaten über geeignete Plattformen für eine breite Nutzergruppe zugänglich sind.

Während mit der Vergabe von PIDs bereits eine dauerhafte Zitierbarkeit gegeben ist, müssen sich die „Data Publishers“ auch mit der Frage auseinandersetzen, wie Forschungsdaten langfristig verfügbar bleiben können. An vielen Bibliotheken bestehen bereits entsprechende Workflows für digitale Publikationen, die sich teilweise auch auf Forschungsdaten übertragen lassen. Gemäß den Regeln der guten wissenschaftlichen Praxis sollen Daten mindestens zehn Jahre aufbewahrt werden. Dies erscheint jedoch verglichen mit „traditionellen“ Beständen von Bibliotheken sehr kurz. Während beispielsweise im Bereich „Altes Buch“ Medien bewahrt werden, die mehrere hundert Jahre alt sein können, ist es unklar, ob heute erstellte Forschungsdaten in zehn Jahren noch lesbar sind. Es wird daher an verschiedenen Lösungen gearbeitet, von Technologien wie Bitstream Preservation bis hin zur Langzeitarchivierung, damit auch Informationen aus digitalen Daten langfristig verfügbar sind.

Fallbeispiel Universitätsbibliothek der Ludwig-Maximilians-Universität München

Die Themen Open Access und Forschungsdaten sind an der Universitätsbibliothek der Ludwig-Maximilians-Universität München (UB der LMU) Teil des Alltagsgeschäfts. Neben elektronischen Publikationsplattformen für Zeitschriften (Open Journals LMU), Hochschulschriften (Elektronische Hochschulschriften) und weiteren wissenschaftlichen Publikationen (Open Access LMU), werden auch hybride Publikationsformen (z. B. Open Publishing LMU) angeboten (🔗). Die Veröffentlichung von Forschungsdaten ist seit 2010 über das institutionelle Repositorium Open Data LMU möglich.

Primär richtet sich das Repositorium an Wissenschaftler/innen aller Fakultäten der LMU sowie kooperierender Institutionen. Die Ausrichtung ist interdisziplinär, und es wurden bereits Forschungsdaten aus über 15 verschiedenen Fachgebieten veröffentlicht. Nutzer/innen können nach erfolgreicher Registrierung ihre Daten eigenständig auf den Server hochladen. Eine einheitliche Forschungsdaten-Policy wurde bisher nicht eingeführt, es wird aber empfohlen, Daten im Sinne der Budapester Open Access Initiative und der Berliner Erklärung über offenen Zugang zu wissenschaftlichem Wissen der Allgemeinheit zur Verfügung zu stellen.

Das Repositoriums Open Data LMU läuft unter der Open-Source-Software EPrints. An der UB der LMU ist die Version 3.3.15 im Einsatz. EPrints wird in einer Linux-Umgebung aufgesetzt und benötigt Perl sowie eine MySQL-Datenbank. Eine OAI-Schnittstelle erlaubt den Export von Metadaten in vielen Standard-Formaten, darunter DataCite, Dublin Core oder RDF.

Abbildung 1: Das institutionelle Repositorium Open Data LMU

Durch die stetig wachsenden Anforderungen an das Forschungsdatenmanagement wurde an der UB der LMU alternative Repositorien-Software evaluiert. Eine Alternative sollte alle Funktionen, die EPrints bietet, beinhalten sowie einen komfortableren und vielseitigeren Umgang mit Forschungsdaten ermöglichen. Zentrale Anforderungen sind beispielsweise eine hohe Skalierbarkeit sowie die Anbindung an neue Technologien wie Linked Open Data und Semantic Web.

Die Wahl fiel schließlich auf Fedora Repositories. Fedora ist ebenfalls ein Open Source-Produkt und wird von DuraSpace entwickelt. Hinter der Organisation steht eine große und aktive Community, die Lösungen für unterschiedliche Bedarfe anbietet. Das populärste Produkt von DuraSpace ist das Repositorium DSpace, welches mittlerweile zu den am häufigsten eingesetzten Datenrepositorien an deutschen Forschungseinrichtungen zählt. Während sich DSpace verhältnismäßig einfach installieren und einrichten lässt, fungiert Fedora als Middleware und bedarf tiefer greifender Entwicklungs- und Programmierarbeiten.

Wie genau sich Fedora als Middleware einsetzen lässt, zeigt folgende Skizze, die in der Entwicklungsphase an der UB der LMU erstellt wurde. Als Pilotprojekt diente dabei das in Teil 1 des Textes erwähnte Projekt VerbaAlpina (VA). Die Projektwebseite hat seit 2019 eine Schnittstelle, die Forschungsdaten in unterschiedlichen Formaten bereitstellt, wahlweise als csv, xml oder json.

Abbildung 2: vereinfachte Skizze der Infrastruktur

Über die Schnittstelle gesammelte Daten werden anschließend um Metadaten angereichert. Dabei arbeiten Metadaten-Experten der UB der LMU mit Vertretern aus den Fachdisziplinen zusammen. Im Beispiel von VA entstand in Zusammenarbeit mit den Projektmitarbeiter/innen ein detailliertes Datenmodell, das anschließend in ein geeignetes Metadatenschema übertragen wurde.

Das Metadaten-Management ist die Kernaufgabe im frühen Stadium des Forschungsdatenmanagements und entscheidet darüber, wo und von wem die Daten aufgefunden werden können. Die UB der LMU verwendet dabei den Metadaten-Standard von DataCite. Dieser Standard kann auch zur Registrierung von DOIs genutzt werden. Zusammen mit der ITG und dem Leibniz-Rechenzentrum (LRZ) der Bayerischen Akademie der Wissenschaften werden in einer Arbeitsgruppe Best-Practice-Empfehlungen für die
Verwendung des Metadaten-Schemas erarbeitet. Dies ist insofern sinnvoll, da den Forschenden eine Empfehlung gegeben werden kann, wie das Metadaten-Schema in ihrem Fachbereich am besten zu verwenden ist.

Das Thema Granularität spielt hierbei eine ebenso große Rolle. Je nach Disziplin kann die Granularität stark variieren. Da die Möglichkeit besteht, PIDs für Forschungsdaten zu vergeben, stellt sich unweigerlich die Frage, auf welcher Ebene dies geschehen soll. Im DOI-Handbook werden folgende Möglichkeiten genannt:

A DOI name can be assigned to any object, regardless of the extent to which that object might be a component part of some larger entity. DOI names can be assigned at any desired degree of precision and granularity that a registrant deems to be appropriate.

For example, for granularity in textual materials, separate DOI names can be assigned to a novel as an abstract work, a specific edition of that novel, a specific chapter within that edition of the novel, a single paragraph, a specific image, or a quotation, as well as to each specific manifestation in which any of those entities are published or otherwise made available. (🔗)

Im Falle von VA haben die Einzelbelege in der Forschung einen besonderen Status. Deshalb ist im Projektkontext die Überlegung, PIDs auf Einzeldatensatzebene zu vergeben. Bei VA handelt sich um ca. 81.000 Datensätze. Damit die Unterscheidung und Suchbarkeit der Einzelbelege sinnvoll gestaltet werden kann, fließen in die Metadaten auch Sacherschließung und geographische Informationen mit ein. Die in Teil 1 erwähnten Verbindungen der Einzelbelege unter den Typen „Gemeinden“, „morphololexikalische Typen“ und „Konzept“ werden ebenfalls in den Metadaten berücksichtigt.

Abbildung 3: Transformation der Daten: Von den Roh-Daten aus einer CSV-Datei, über das Datenmodell hin zum DataCite-XML

Die Transformation erfolgt dabei über mehrere Schritte. Anhand eines detaillierten Datenmodells werden die Rohdaten der Schnittstelle bearbeitet und um entsprechende Metadaten angereichert. Dies erfolgt in Abstimmung mit den Forschenden. Anschließend wird eine DataCite-XML-Datei erstellt, die alle relevanten Metadaten beinhaltet. Diese XML-Datei wird von der UB der LMU auch für die Erstellung von DOIs verwendet.

Fedora bietet an dieser Stelle verschiedene Möglichkeiten für einen Ingest der Daten. Neben XML besteht auch die Möglichkeit, RDF-Dateien für das Anlegen der Datensätze zu verwenden. Im Testbetrieb wird an der Universitätsbibliothek der Import beider Varianten erprobt.

Der Fluss der Forschungs- und Metadaten ist daher sehr komplex. Ein daraus entwickeltes Aufgabenmodell wirft zudem einige Fragen auf, die im Rahmen des Projekts geklärt werden müssen:

Abbildung 4: Erweitertes Aufgabenmodell zum FDM in den digitalen Geisteswissenschaften an der LMU

Das erweiterte Aufgabenmodell zeigt, wie die Aufgaben der ITG und der UB der LMU zusammenhängen. Die Anreicherung mit Metadaten erfolgt an der UB der LMU in enger Zusammenarbeit mit der ITG und den Forschenden aus den Fachdisziplinen. Sobald die Forschungsdaten um entsprechende Metadaten angereichert sind, werden Forschungs- und Metadatensätze in das Repositorium Open Data LMU übertragen. An diesem Punkt werden die Forschungsdaten zum ersten Mal über das institutionelle Repositorium durchsuch- und auffindbar. Um die Daten einer breiteren Nutzergruppe zur Verfügung zu stellen, werden über entsprechende Schnittstellen (z. B. OAI-PMH) Metadaten an weitere Dienste geliefert. Daten
von Open Data LMU werden momentan von BASE, Google Dataset Search oder GeRDI indexiert.

Zur Verfügbarkeit der Forschungsdaten bietet Open Data LMU eine sogenannte Bitstream Preservation. Die Daten werden gemäß den Regeln der guten wissenschaftlichen Praxis mindestens zehn Jahre aufbewahrt. Mit dem Umstieg auf eine neue Repositorien-Software soll gleichzeitig auch die Strategie der Datenarchivierung überarbeitet werden. Zukünftig soll ein Schwerpunkt nicht nur auf die Archivierung von Forschungs-, sondern auch der zugehörigen Metadaten gelegt werden. Eine den NESTOR-Richtlinien folgende Langzeitarchivierung könnte dabei eingerichtet werden. Im Falle des Pilotprojekts VA bietet auch die Projektwebseite mit ihrer multimedialen Kartenansicht Informationen, die durch eine reine Ablage der Forschungsdaten verloren gehen könnte. Die UB der LMU arbeitet hier erneut im Tandem mit der ITG und dem VA-Projekt, um die Bedarfe der Wissenschaft zu erkennen und umzusetzen. In der Vergangenheit gab es des Öfteren Kooperationen mit dem LRZ, die sich mit der Archivierung von Daten beschäftigt haben. Auch für zukünftige Projekte soll in diesem Bereich kooperiert werden.

Für die langfristige Planung wird ebenfalls erwogen, Forschungsdaten über bestehende Recherche-Systeme an Bibliotheken auffindbar zu machen. Dies könnte über Bibliothekskataloge erfolgen. Dabei ist angedacht, analog zu den oben genannten Discovery-Diensten nur die Metadaten weiterzugeben. Sobald die Infrastruktur um das Fedora-Repositorium zuverlässig im Produktivbetrieb läuft, wird diese Möglichkeit evaluiert.

Die Zusammenarbeit zwischen UB und Wissenschaftler/innen der LMU hat gezeigt, dass es von großem Vorteil sein kann, auf bestehende Strukturen aufzubauen. Sowohl die Universitätsbibliothek, als auch die geisteswissenschaftlichen Institute sind ein fester Bestandteil der Universität und können auch längerfristige Vorhaben besser umsetzen, als beispielsweise Projekte mit begrenzter Laufzeit. Die Zusammenarbeit hat zudem auf beiden Seiten die Kompetenz der Forschungsdaten-Ansprechpartner vergrößert. Dabei spielt auch die Beratung auf verschiedenen Stufen des Forschungsprozesses eine zentrale Rolle, die sowohl von Infrastruktur-, als auch von Wissenschaftspartnern übernommen werden kann. Wenn die Universitätsbibliothek schon frühzeitig in die Planung und Durchführung von Forschungsdatenvorhaben involviert wird, erzeugt dies Synergien, die ein erfolgreiches Vorhaben leichter realisierbar machen. Mit der ITG und der UB der LMU besteht zudem ein institutioneller „Verbund“ für Forschungsdaten in den Digitalen Geisteswissenschaften an der LMU. Die Zusammenarbeit kann perspektivisch neue Kooperationen und Finanzierungsmöglichkeiten entstehen lassen.

Das Modellprojekt „eHumanities – interdisziplinär“

Die in Teil 1 und Teil 2 genannten Infrastruktur- und Wissenschaftspartner arbeiten nicht nur innerhalb der LMU zusammen, sondern sind auch Teil des Projekts: „eHumanities – interdisziplinär“. Dort arbeiten ITG und die UB der LMU unter der Federführung der UB der Friedrich-Alexander-Universität Erlangen-Nürnberg (UB der FAU) an Fragestellungen zu Forschungsdaten in den digitalen Geistes- und Sozialwissenschaften. Das Projekt wird vom
Bayerischen Staatsministerium für Wissenschaft und Kunst gefördert und hat eine Laufzeit von drei Jahren (März 2018 – März 2021).

Im Projekt beschäftigen sich die Mitarbeiter/innen mit der Konzeption und Evaluierung neuer Hilfsmittel und der Erarbeitung von Best-Practice-Empfehlungen. Die Verbindung von digitaler Bibliotheksexpertise mit informatischen und fachmethodischen Schnittstellenkompetenzen steht dabei im Vordergrund.

Projektergebnisse werden über die Projektwebseite veröffentlicht. Der Zwischenbericht über das erste Projektjahr wurde bereits veröffentlicht und zukünftige Berichte und Ergebnisse werden ebenfalls mit der Community geteilt. Ziele sind dabei auch, Erfahrungsberichte zu Fedora zu veröffentlichen und Programmierarbeiten über die Plattform GitHub zur Verfügung zu stellen. Durch die Veröffentlichung von Quellcode in Kombination mit den Berichten soll eine Transferierbarkeit der Projektergebnisse auf weitere Vorhaben und/oder Disziplinen möglich sein.

Bereits nach einem Drittel der Projektlaufzeit hat sich gezeigt, dass die Zusammenarbeit von Infrastruktur- und Wissenschaftspartnern neue Sichtweisen auf altbekannte Probleme ermöglicht, wie z. B. die Fragen nach der Langzeitarchivierung, Granularität und Auffindbarkeit. Durch eine Kooperation wird zudem vermieden, dass Bibliotheken und Wissenschaftler/innen Insellösungen für ihre Projekte aufbauen. Die Zusammenarbeit sorgt dafür, dass sich an der LMU aus Erfahrung mit Pilotprojekten der digitalen Geisteswissenschaften feste Workflows etablieren, von denen alle Teilnehmenden profitieren und durch die wiederkehrende Themen schneller bearbeitet werden können.

Die Bereitstellung von Datenmodellen und das Erarbeiten von Best-Practice-Empfehlungen für Metadatenschemata können zudem in Datenmanagementpläne übernommen werden. Dies ist ein weiteres Arbeitspaket des Modellprojekts, mit dem sich die UB der FAU beschäftigt. Dort wird im Frühjahr 2019 eine RDMO-Instanz eingeführt, die anschließend auch auf Server der UB der LMU übertragen werden soll. Um die Wissenschaftler/innen für das Thema „Forschungsdaten“ zu sensibilisieren, wird an der UB der FAU in einem weiteren Arbeitspaket ein digitales Lern- und Informationsangebot erstellt. Die Schulungs- und Videomaterialien werden anschließend als Open Educational Resources auch anderen Interessenten zur Verfügung gestellt und in den Digitalen Campus Bayern integriert. Dort können sie beispielsweise zum Bestandteil von Curricula im Bereich Digital Humanities werden. Mit leichten Veränderungen sind diese Materialien auch auf andere Institutionen und verwandte Disziplinen transferierbar.


 

IT-Gruppe Geistesschwissenschaften (ITG) der LMU

VerbaAlpina – interlinguale Geolinguistik und Digital Humanities


Schlagwörter: Alpendialekte , crowdsourcing , Digitale Geisteswissenschaften , DH , Digital Humanities , Geolinguistik , Substrat , Superstrat

(4863 Wörter)

Thomas Krefeld

Dieser Beitrag wurde anlässlich eines Vortrags an der Alpen-Adria-Universität Klagenfurt redigiert; es handelt sich um eine modifizierte und aktualisierte Fassung von Krefeld 2018a;  alles ist vor dem Hintergrund von Stephan Lückes eher informationstechnisch  ausgerichteten Ausführungen zu sehen. Für die Einladung danke ich Luca Melchior.

1. Die Sprachwissenschaft auf dem Weg in die digital humanities

Seit ca. 15 Jahren, d.h. seit der zügigen Durchsetzung interaktiver und kollaborativer Strukturen im Internet Web 2.0 durchlaufen zahlreiche wissenschaftliche Disziplinen einen Prozess tiefgreifenden Wandels, denn im Gefolge der medialen Revolution haben sich die Rahmenbedingungen der Wissenschaftskommunikation im Web substantiell verändert; symptomatisch ist  die oben auf dieser Seite angebrachte Einladung Schreibe eine Antwort. In den Disziplinen, die sich mit kulturellen Techniken und ihrer geschichtlichen Entwicklung befassen, kann dieser Wandel mit dem Schlagwort der digital humanities identifiziert werden. Es ist dennoch nicht überraschend, dass die Wissenschaftler unterschiedlich auf diese Situation reagieren, nämlich teils mit

  • offensiver Ablehnung (Motto: "Das bedeutet den Ausverkauf der akademischen Fächer"),
  • nonchalanter Indifferenz (Motto: "Der kindische Unfug lässt mich kalt"),
  • konstruktiver Akzeptanz (Motto: "Endlich wird möglich, was ich immer schon wollte").

Nicht im Sinn eines missionarischen Eifers, sondern aus rein forschungspraktischer Überzeugung sei festgestellt, dass für datenorientierte Disziplinen, wie zum Beispiel für diejenigen Bereiche der Sprachwissenschaft, die sich mit Variation und historischen Prozessen befassen, eigentlich nurmehr die dritte Haltung in Frage kommt. Wenn man die mediale Herausforderung jedoch in diesem Sinn annimmt, ändert sich methodologisch fast Alles.

2. Geolinguistik

Die Geolinguistik1 ist in geradezu idealer Weise geeignet, um die Notwendigkeit des skizzierten Transfers zu illustrieren. Zunächst ist diese Subdisziplin von Anfang an mit dem Anspruch entstanden, gesprochene Sprache zu dokumentieren; sie stand, mit anderen Worten, zu Beginn nicht in der text- und editionsorientierten Tradition der Philologie (vgl. Krefeld 2007).  Ausserdem entwickelte sich die Geolinguistik vor allem dank der teils monumentalen Sprachatlanten  zu einer Art Korpuslinguistik avant la lettre. Der AIS2, den man als den gattungsprägenden romanischen Vertreter der Tradition ansehen darf, versammelt in 1681 Karten, 20 Konjugationstabellen und zahlreichen ergänzenden Listen Belege aus 416 Aufnahmeorten (vgl. die Beschreibung in Krefeld 2017c); das entspricht mindestens einer Million Tokens. Immerhin wurde das gesamte Material 20 Jahre später Jahre durch einen gedruckten Index aufgeschlüsselt (vgl. Jaberg/Jud 1960), der sich selbst als Ein propädeutisches etymologisches Wörterbuch der italienischen Mundarten bezeichnet.3 Auf geradezu selbstverständliche Art wurden daher Autoren von Sprachatlanten zu Pionieren der sprachwissenschaftlichen Digitalisierung (vgl. dazu Hans Goebls Bemerkungen in Goebl 2018). Insgesamt ist der Alpenraum recht gut durch Sprachatlanten erschlossen, wie eine Karte aller Informanten im Überblick zeigt. 

Das zweite Forschungsinstrument der traditionellen Geolinguistik, das in repräsentativen Fällen ebenfalls monumentale Ausmaße annimmt,  ist das Wörterbuch; seine herausragenden Vertreter operieren ebenfalls in der Logik von Atlanten, d.h. auf der Basis eines mehr oder weniger engmaschigen Netzes von Aufnahmeorten. So sind u.a. die exhaustiv intendierten Lexika der Schweizer Landessprachen (vgl. DRG, GPSRIdiotikonVSI) und das Wörterbuch der bairischen Mundarten in Oesterreich WBOE angelegt (vgl. die Kartierung der Ortsnetze dieser alpinen Dialektwörterbücher in der Darstellung durch VerbaAlpina). Vor dem Hintergrund der digital humanities erscheint es nun nicht nur realistisch sondern geradezu geboten, diese unterschiedlichen Datenquellen zusammenzuführen und in ein Gesamtkorpus zu verwandeln. Diesen Versuch unternimmt in onomasiologisch definierten Ausschnitten des Wortschatzes das Projekt VerbaAlpina, das als virtuelle, webbasierte Forschungsumgebung beschrieben werden kann.

3. VerbaAlpina als Beispiel einer Forschungsumgebung

Genauer gesagt ist die Korpuserstellung Gegenstand eines als ‘Dokumentation’ bezeichneteten Funktionsbereichs, der in enger Verflechtung mit vier anderen Funktionalitäten zu sehen ist:

  • Dokumentation,
  • Publikation,
  • Kooperation,
  • Datenerhebung durch Crowdsourcing,
  • Forschungslaboratorium.

Alle genannten Bereiche sollen im Folgenden projektbezogen konkretisiert werden. Zum Verständnis ist jedoch vorab eine Skizze des erforschten Raums erforderlich.

3.1. Das Untersuchungsgebiet

Das Projekt VerbaAlpina, das der Verfasser dieses Beitrags gemeinsam mit Stephan Lücke von der ITG der LMU leitet, wird seit 2014 von der Deutschen Forschungsgemeinschaft (DFG) gefördert. Gegenstand ist die Mehrsprachigkeit des Alpenraums4, in dem sich die drei großen europäischen Sprachfamilien, Germanisch, Romanisch und Slawisch getroffen haben und seit ca. 1500 Jahren neben-, mit- und unter Umständen auch gegeneinander existieren (vgl. Karte).

Die Sprachverhältnisse sind erheblich komplizierter als die Rede von den drei 'Familien' sowie die suggestive Flächigkeit ihrer kartographischen Darstellung andeutet, denn dazu gehören im Romanischen eine ganze Reihe von staatlich implementierten Sprachen mit jeweils sehr verschiedenen Dialekten; im Germanischen und Slawischen gibt es zwar jeweils nur eine Sprache (Deutsch und Slowenisch); beide sind jedoch ebenfalls durch ganz unterschiedliche, lokale Dialekte, genauer gesagt: durch Dialektkontinua5 vertreten.

Es ist im Hinblick auf das zugrunde liegende Verständnis des sprachlichen Raums wichtig, darauf hinzuweisen, dass ausschließlich georeferenzierbare Daten berücksichtigt werden; Bezugsgröße für die empirischen Belege ist in Regel die politische Gemeinde, gelegentlich ist es sinnvoll oder erforderlich auf kleinere Einheiten zu referenzieren6, niemals jedoch auf größere Gebiete. Die Dokumentation zielt nicht auf vermeintliche Dialekträume (Puter |  Lombardisch | Venezianisch | Ladinisch etc.) und ihre mutmaßlichen Grenzen; vielmehr werden bottom up Verbreitungsgebiete lokal belegter Varianten abgebildet, die nicht selten über die Grenzen der Sprachen und Sprachfamilien hinausreichen. In diesem Sinn steht der Projektname VerbaAlpina in der Tradition des Konzepts der Alpenwörter (vgl. die klassischen Arbeiten von Jud 1911aJud 1911b, Jud 1924, Stampa 1937, Hubschmid 1950 und Hubschmid 1951). In synchroner Perspektive lässt sich die Vorgehensweise als eine übereinzelsprachliche oder interlinguale Geolinguistik fassen.

In diachroner Perspektive setzen Alpenwörter, die per definitionem in mehr als einer Sprachfamilie verbreitet sind, notwendigerweise Entlehnungsprozesse voraus. Der Entlehnungsweg ist dabei keineswegs immer eindeutig; er kann auch indirekt sein, etwa wenn ein ursprünglich lat.-romanischer Typ nicht direkt ins Slowenische gelangt ist, sondern den Umweg über das Deutsche genommen hat. Es ist daher Aufgabe der Wortgeschichte, die Entlehnungswege in der sprachlichen Stratigraphie des Alpenraums zu verorten, die sich so schematisieren lässt: Konstitutiv sind die Romanisierung des gesamten Gebiets (seit 15 vor Chr.) und seine nachfolgende teilweise Germanisierung und Slawisierung. Damit ist zwar stets eine  eine areale Verdrängung der jeweils früheren Sprachen verbunden, insofern das Lateinisch-Romanische  die vorrömischen Sprachen verdrängt und  seinerseits in manchen Gebieten durch das Germanische und Slawische verdrängt wird. Aber der Verdrängung geht eine mehr oder weniger lang andauernde lokale Zweisprachigkeit voraus (in der Graphik durch die Punkte symbolisiert), die sich in Entlehnungen aus den verdrängten in die verdrängenden Sprachen niederschlägt, so dass sich die erwähnten sprachgrenzüberschreitenden Verbreitungsgebiete ergeben.

AKTUELLE ALPINE
SPRACHAREALE
romanisches
STRATUM
germanisches
STRATUM
slaw.
STRATUM  ●●●
●●● deu. SUPERSTRAT ●●●
●●● ●●● SUBSTR. ●●●
germ. SUPERSTRAT ●●● SUBSTRAT
SPÄTANTIKE
SPRACHAREALE
 Lat.-romanisches STRATUM ●●●
vorrömische SUBSTRATE 
rot=vorrömisch, grau=lat.-romanisch, blau=germanisch, gelb=slawisch
Sprachliche Stratigraphie des Alpenraums

Ausgehend von den Sprachfamilien lassen sich die direkten Kontaktszenarien wie folgt typisieren:

Alpenwörter: diachrone Typologie der Stratigraphie
Herkunft des Basistyps stratigraphischer Bezug aktuelle Sprachfamile
vorrömisch - Substrat - → romanisch
romanisch - Substrat, Adstrat - → germanisch
→ slawisch
germanisch - Superstrat, Adstrat - → romanisch
→ slawisch
slawisch - Adstrat - → romanisch
- Substrat, Adstrat - → germanisch

Exemplarische wortgeschichtliche Beispiele aus unterschiedlichen Konstellationen finden sich hier.

Es ist nun aber von vornherein klar, dass die Dokumentation eines so komplexen Sprachraums mit der skizzierten historischen Tiefe durch das Medium des gedruckten Buchs kaum, wenn überhaupt, zu leisten ist. Ein Zugriff im Sinne der digital humanities drängt sich deshalb schon rein sachlich auf.7

3.2. Funktionsbereich Dokumentation

Die Dokumentation erfasst unabhängig von der Quellengattung und ganz im Sinne der klassischen Dialektologie, ausschließlich georeferenzierbares oder bereits georeferenziertes Material; es werden also Atlas– und (wenngleich weniger) Wörterbuchdaten aufgenommen. Einen maximalen Überblick über die einschlägigen Erhebungsorte (Stand 2018) zeigt diese Karte. Praktisch alle Belege sind über das Erhebungsdatum im Übrigen auch chronoreferenziert8; allerdings ist die Chronoreferenzierung derzeit (März 2019) noch nicht interaktiv implementiert.

Eine weitere, informationstechnisch grundlegende Bedingung des Transfers ist die Strukturierung der Daten. Materialien aus älteren Quellen werden in der Regel erst von VA im Zuge der Retrodigitalisierung, also mit  ihrer Umwandlung in Daten,  strukturiert; strenggenommen wird Retrodigitalisierung überhaupt erst dann wirklich sinnvoll, da sie nur so eine digitale Nachnutzung analogen Materials  gestattet.

Die grundlegende Herausforderung besteht darin die unterschiedlichen semiotischen Dimensionen der Quellen zu sezieren. Das ist insbesondere im Fall der Sprachatlanten nicht immer leicht, denn eine analoge Karte, wie z.B. AIS 1192a LA CASCINA DI MONTAGNA, informiert über Sprache, außersprachliche Konzepte/Kategorien und singuläre Dinge, ohne dass der Status einer Information immer ganz eindeutig wäre. So finden sich in VA (Stand vom 1.4.2019) 1270 dialektale Bezeichnungen (Tokens) des Konzepts ALMHÜTTE; sehr häufig wird die Art des Gebäudes spezifiziert, so dass etliche Unterkonzepte unterschieden werden müssen. Beispielsweise haben die Informanten des VALTS in drei Orten darauf hingewiesen, dass die Bezeichnungen des Typs Tieje/Teie(n) eine PRIMITIVE SENNHÜTTE AUF MAIENSÄSSEN bezeichnen. In anderen Orten steht derselbe Typ für andere Unterkonzepte bzw. für das taxonomisch übergeordnete, alllgemeine Konzept HÜTTE. Ob sich die Spezifizierungen jedoch wirklich auf die Wortsemantik, bzw. eine feste konzeptuelle Kategorie oder womöglich auf die Qualität eines bestimmten Referenten bezieht, die der individuelle Informant mit dem Wort assoziiert, ist unklar. Das Problem wird ganz evident, wenn singuläre außersprachliche Realitäten detailliert abgebildet werden, wie im Fall der folgenden Grundrisse einer Sennhütte aus dem engadinischen Zernez (AIS, P 19):

AIS 1192a

Handelt es sich hier um einen weit verbreiteten Bautyp im Sinne einer außersprachlichen Kategorie oder um einen idiosynkratischen Fall?

Schließlich liefern manche Quellen auch Informationen über ihre Informanten. Grundsätzlich sind bestimmte Charakteristika für die richtige Beurteilung der sprachlichen Belege wichtig; dazu zählen vor allem die Sprachkompetenz (Standard, evtuelle Kontaktsprachen), das Alter und das Mobilitätsprofil (vgl. die Fallbeispiele in Krefeld 2018). Auch in dieser Hinsicht war bereits der AIS wegweisend, denn er teilt in den Aufnahmeprotokollen relevante biographische Daten mit, allerdings ohne sie bei der Kartierung zu berücksichtigen9. Obwohl die Sprachkompetenz des Sprechers also zu den Dimensionen möglicher Variation gerechnet werden muss, wurde in der interaktiven Karte von VerbaAlpina auf die Einrichtung eines entsprechenden Filters verzichtet, denn die meisten Quellen geben keine diesbezüglichen Informationen.

Strukturierung ist Voraussetzung für die Erstellung eines Korpus im Sinne der zeitgenössischen Linguistik; sie erlaubt auch die Entwicklung einer interaktiven Oberfläche mit sehr benutzerfreundlichen Suchfiltern, wie in Gestalt der interaktiven Karte . Ein wichtiger Schritt der Dokumentation besteht in der Vereinheitlichung der Transkription; die unterschiedlichen Systeme der Quellen werden allesamt durch einen eigens definierten Betacode  in den international weit verbreiteten Standard IPA übersetzt (vgl. die vollständige Übersicht). Die Konversion der Transkription impliziert keinen Informationsverlust, denn auch die Originaltranskription (="DST QUELLE ...") wird sichtbar, sobald man mit dem Mauspfeil auf den 'Einzelbeleg' oben links im Belegfenster fährt. Das zeigt der folgende Screenshot:

VA-Transkription in IPA und Sichtbarkeit des Originals

Wenn möglich werden alle dialektalen Sprachbelege als Varianten weiter verbreiteter Typen identifiziert und auf große Referenzwörterbücher bezogen (hier L = LSI und H = HdR). Schwieriger ist die Verknüpfung der KONZEPTE mit einem allgemein  etablierten, außersprachlichen Referenzsystem; de facto ist  etwas Derartiges mit dem umfassenden, kontinuierlich wachsenden Wikidata-Projekt entstanden. Dort wird die gemeinsame außersprachliche Referenz der verschiedenen, oft sehr zahlreichen einzelsprachlichen Wikipedia mit einer Identifikation (ID) versehen; sie kann aus jedem Wikipedia-Eintrag über die Funktion Wikidata-Datenobjekt aufgerufen werden. Dieser Dienst beinhaltet auch bereits seit langem übliche Taxonomien, wie etwa im Bereich der Flora die auf Carl von Linné zurückgehende Nomenklatur. So kann das Konzept BUTTER , das in 134 verschiedenen Sprachversionen der Wikipedia behandelt wird über die ID Q34172 identifiziert werden.

Qualitative und quantitative Kartierung

Grundsätzlich lassen sich strukturierte Daten sowohl qualitativ als auch quantitativ (oder: metrisch) erschließen. Hier stellen sich aus geolinguistischer Sicht sehr unterschiedliche Fragen, die sowohl die statistische Modellierung als auch die Visualisierung betreffen. Eine dialektometrische Funktion zur Bestimmung der relativen Ähnlichkeit wurde bislang noch nicht entwickelt; sie wäre vor allem für die Verbreitung von Basistypen über die Grenzen der  Sprachfamilien hinaus sehr aufschlussreich. Elementare Bezugseinheit der Georeferenzierung ist für VerbaAlpina die politische Gemeinde. Eine flächige Visualisierung auf dieser Basis von 6990 Einheiten ist jedoch nicht in jeder Hinsicht ideal, denn die Unterschiede hinsichtlich ihrer Fläche wie ihrer Bevölkerung können zu manchen Verzerrungen führen (vgl. diese Bemerkungen). Darüberhinaus kann es gelegentlich, z.B. bei der Berücksichtigung von Toponymen, wichtig werden, präziser zu georeferenzieren oder aber die Gemeinden zu größeren Einheiten zu clustern; dazu bieten sich die von der Europäischen Gemeinschaft konzipierten NUTS-3-Regionen oder gar die alpinen Sprachgebiete als ganze an; illustrativ ist die Darstellung der lateinischen Inschriften im Bezug auf NUTS-3 einerseits und die Sprachgebiete andererseits.

Von autonomen Gattungen zu verschränkten Funktionen

Ein großer Vorteil virtueller Dokumentation besteht in der Überwindung der traditionellen Gattungen, die sich im Universum der gedruckten Veröffentlichungen etabliert haben. Sprachwissenschaftlich relevante, publikationstechnisch oft eigenständige Gattungen sind zum Beispiel die Abhandlung, das Textkorpus oder die bereits genannten Sprachatlanten und Wörterbücher. Jede Gattung erfüllt einen bestimmten Zweck, der auf keinen Fall aufgegeben werden sollte. Jedoch werden diese Zwecke aus ihrer Isolierung befreit und in untereinander verknüpfte Funktionen verwandelt, so dass es möglich ist ohne weiteres zwischen ihnen hin und her zu wechseln.

Einen unmittelbaren Zugang zum dokumentierten Materials bietet der Reiter ‚Interaktive Karte‘ auf der Homeseite. Er führt zu einer kartographischen Präsentation, die über mehrere Filter gesteuert wird. Der Filter KONZEPTE erschließt sämtliche Sachen und Vorgänge, deren Bezeichnungen erfasst sind (vgl. die Hinweise zur Notation), so zum Beispiel BUTTER. Die hier zahlreich belegten Bezeichnungstypen können ebenfalls als einzelne herausgefiltert werden; falls ein Typ noch andere Konzepte bezeichnet, tauchen diese ebenfalls auf der Karte auf, wenn sie zu den relevanten Konzepten von VA gehören.  So wird die BUTTER mit Ausdrücken bezeichnet, die auf lateinisch flōrem (Akk. zu flōs), eigentlich 'Blume', zurückgehen und dem fra. fleur bzw. dem ita. fiore entsprechen. Dieser Typ bezeichnet aber außer BUTTER noch RAHM und anderes mehr (vgl. diese Karte).

Weiterhin ist es möglich von der  Karte aus direkt zu den eventuell zugehörigen lexikologischen Kommentar zu gelangen; die Verfügbarkeit wird in der Legende durch einen Button mit dem Buchstaben 'i' angezeigt. Ein solcher Button findet sich in diesem Fall u.a. in der ersten Zeile der Legende hinter  'Konzept BUTTER'; er gibt enzyklopädische Informationen zur Geschichte des Produkts.  In der entgegengesetzten Verweisrichtung ist es möglich den Reiter 'Lexicon Alpinum' zu konsultieren; dort findet sich derselbe Kommentar zum Konzept Butter, der  über die Funktion 'Auf Karte visualisieren' zur genannten Karte leitet  – 'Atlas' und 'Wörterbuch' haben sich also in  systematisch verschränkte Funktionen ein und derselben Forschungsumgebung verwandelt.

Von der Philologie zu den Humanities

Zur historischen Profilierung von Sprachräumen ist es sinnvoll die Verbreitungsareale dialektaler Formen mit anderen  georeferenzierbaren Informationen zu kombinieren. Im Hinblick auf die Romanisierung des Alpenraums im Gefolge der römischen Eroberung sind vor allem antike Quellen von Bedeutung.; aus diesem Grund wurden auch die gesicherten Inschriften und römerzeitlichen Ortsnamen aufgenommen (vgl. die Karte CIL und Tabula Peutingeriana sowie die Hinweise zu den historischen Daten); vor diesem Hintergrund ist es interessant zu sehen, dass sich oft alte Bedeutungen aus der Antike bis heute gerade da erhalten haben, wo auch bereits römische Inschriften und antike Ortsnamen bezeugt sind. Ein sehr schönes Beispiel liefert der auf den ersten Blick ganz unauffällige Worttyp Keller < lat. cellarium . Er bezeichnet im Gegensatz zum Hochdeutschen im deutschsprachigen Alpenraum in der Regel keineswegs einen RAUM UNTER DEM ERDGESCHOSS, sondern – wie das Grundwort lat. cella – den VORRATS- bzw. LAGERRAUM. Hier liegt es im Hinblick auf die römerzeitlichen Zeugnisse im dialektalen Verbreitungsgebiet  an Konservation der lateinischen Bedeutung zu denken und nicht an sekundäre Rückentwicklung zur alten Bedeutung; besonders prägnant sind die drei steirischen Belege von Keller in der Bedeutung 'Almhütte'.

3.3. Funktionsbereich Kooperation

Im Sinn der digital humanities hat VerbaAlpina ein dichtes Netz von Partnern geknüpft. Darunter sind manche – und an allererster Stelle sind ALD-I und ALD-II zu nennen –, die bereits eindeutig strukturiertes Material zur Verfügung stellen, das von VA über eine Datenschnittstelle integriert werden kann; bisweilen, wie im Fall des WBOE liegen auch rudimentäre und inkonsistente Strukturen vor, die nur mit großem Aufwand konvertiert werden können. Jedenfalls lassen sich die Partnerdaten in Verbindung mit den durch Retrodigitialisierung gewonnenen Daten zu einem umfassenden und mehrsprachigen Dialektmosaik des ganzen Alpenbogens zusammengefügen, wie die maximalistische Übersicht der prinzipiell verfügbaren VA-Informanten zeigt. Man beachte, dass die Berücksichtigung des WBOE mindestens theoretisch eine umfangreich Atlaslücke in den österreichischen Ostalpen schliesst (vgl. VA-Informanten ohne Berücksichtigung des WBOE.

Wirklich unvereinbar mit dem erstrebenswerten kollaborativen Aufbau umfassender und gut nachnutzbarer Datenbestände ist die Verwendung kommerzieller und privatwirtschaftlicher Dienste, auch , oder besser: gerade dann, wenn sie  das Etikett open access sozusagen im Stil einer feindlichen Übernahme für sich reklamieren, wie es die zunehmend monopolistisch auftretenden Verlage praktizieren (vgl. dieses Beispiel).

3.4. Funktionsbereich Datenerhebung

Crowdsourcing als Technik der Datenerhebung ist eine Option, die sich webbasierter Forschung  grundsätzlich bietet; selbstverständlich taugt das Verfahren nicht für Daten, die Expertenwissen erfordern; so kann ein Sprecher zwar Ausdrücke und Konstruktionen in geschriebener und mündlicher Realisierung liefern, jedoch keine Transkription, die den Ansprüchen der Phonetik genügt. Sehr wohl ist ein Sprecher jedoch im Stande, markante lautliche Besonderheiten (z.B. Diphthongierungen, Palatalisierungen) zu unterscheiden. Im Rahmen von VerbaAlpina wurde ein Crowdsourcing-Tool designt, mit dem interessierte Nutzer für alle politischen Gemeinden des Alpenraums (im Sinn der Alpenkonvention) Bezeichnungen der von uns vorgegebenen Konzepte schriftlich eingeben oder darüber hinaus auch neue Konzepte hinzufügen. Bislang sind seit dem 10.2.2017 immerhin 11534 (Stand vom 1. April 2019) Belege erhoben worden. Es wird erwogen, unter Umständen auch mit der Erhebung gesprochener Audiodaten zu beginnen; die technischen Probleme sind grundsätzlich gelöst.

Das grundlegende Problem beim Einsatz von Crowdsourcing liegt jedoch darin, dass es sich um eine mediales Verfahren handelt, das auf eine hinreichende Sichtbarkeit und Bereitwilligkeit der Mediennutzer angewiesen ist. Es muss – mit anderen Worten – für hinreichende Publizität gesorgt werden. In aller Regel sind Projekte aus den humanities keine Selbstläufer und können daher Unterstützung durch Öffentlichkeitsarbeit einschließlich nicht digitaler Medien gebrauchen. Pressemitteilungen bilden sich im positiven Fall direkt in der Nutzeraktivität ab, wie drei punktuelle Einblicke in die Statistik des VerbaAlpina-Crowdsourcings zeigen:

Öffentlichkeitsarbeit und Echo im Crowdsourcing: A – kein eindeutiges Echo: Vortrag vor Almbauern  |  B – schwaches Echo: Bericht in einer Schweizer Lokalzeitung | C – starkes Echo: Homepage des Bayerischen Rundfunks (BR 2)

Aber es scheint sehr problematisch, wenn nicht unmöglich Nutzerinteresse zu prognostizieren. Sehr schwer einzuschätzen ist insbesondere die Gewichtung des individuellen Sachinteresses auf Seiten des Nutzers und sowie der Attraktivität des Web-Auftritts. Womöglich besteht auch ein Zusammenhang beider Parameter, insofern fehlendes Sachinteresse eventuell durch eine unterhaltsame, z.B. als Spiel gestaltete Oberfläche (‚gamification‘) kompensiert werden kann. ]Metropolitalia gefunden hat." rel="footnote">10 Es kann jedoch auch nicht übersehen werden, dass es durchaus sehr erfolgreiche CS-Kampagnen gibt, in denen der zweite Parameter keine und der erste bestenfalls eine unklare Rolle spielt (vgl. die Übersicht der Zooniverse-Projekte).

3.5. Funktionsbereich Forschungslabor

Forschungsumgebungen im Rahmen der Digital Humanities sind in der Lage eine Option anzubieten, für die es in der Welt, die ausschließlich auf den Druck ‘fertiger’ Ergebnisse zielt, keine Entsprechung geben kann. Gemeint ist die Einrichtung eines mehr oder weniger offenen digitalen ‘Raums’, in dem registrierte Partner, Nutzer und/oder Interessenten überhaupt die Möglichkeit haben, sich mit den Inhalten und dem Quellcode des Projekts zu befassen. Diese Auseinandersetzung kann analytisch erfolgen, aber auch in Vorschlägen, das Vorhandene um Inhalt und/oder Code zu erweitern. Dazu müssen Upload-, Download- und Kommentar- bzw. Chatfunktionen eingerichtet werden. Dieser Funktionsbereich, für den sich die Bezeichnung ‘Labor’ anbietet, wurde in VerbaAlpina bislang noch nicht ausgebaut; immerhin haben registrierte Nutzer auf der ‘Interaktiven Karte’ schon die Möglichkeit, beliebige Daten, die über die Filter angezeigt werden können, gemeinsam aufzurufen und in Gestalt sogenannter  ‘Synoptischer Karten’ zu fixieren und zu kommentieren. Das jeweils Erzeugte kann über einen Share-Button weitergeleitet werden, so dass Interessentengruppen gebildet werden können.

3.6. Funktionsbereich Publikation

Eine probate Strategie zur Durchsetzung kollaborativer Forschungsumgebungen ist der parallele Aufbau von Publikationsplattformen, die denselben Anforderungen  entsprechen, an denen auch gedruckte Veröffentlichungen gemessen werden: dauerhafte Zitierfähigkeit und Recherchierbarkeit. Verlässlich zitierfähig in lwissenschaftlichem Kontex sind nur stabile Text. Für VerbaAlpina wurde eine technische  Versionierung entwickelt, die in ähnlicher Weise auch in anderen Münchner Plattformen verwandt wird. Sie beruht im Wesentlichen darauf, dass die jeweilige Version in der URL des Textes spezifiziert wird. Jede Änderung des Textes setzt die Erzeugung einer neuen Version voraus, die jedoch die vorhergehende nicht ersetzt, sondern ergänzt. Die älteren Versionen bleiben erhalten, so dass ihre eventuellen Zitate durch neuere Versionen nicht gefährdet werden. Für den oben erwähnten Kommentar zum Konzept BUTTER wird die folgende Zitierweise empfohlen, in der die Version 17/2 in der URL in Gestalt der Ziffer 172 repräsentiert wird:

  • Krefeld, T.: s.v. “BUTTER”, in: VA-de 17/2, Lexicon alpinum, https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=2374&db=172#C156

Diese Zitierbarkeit wurde in den Portalen KiT und DH–Lehre entwickelt. Um in längeren versionierten Texten gezielt auf einen bestimmten Abschnitt referenzieren zu können, wurde die Textformatierung so eingestellt, dass alle Absatzes fortlaufend nummeriert werden und die jeweilige Nummer durch Klicken der URL hinzugefuegt wird. Die folgende URL:

verweist also auf den 8. Absatz eines Beitrags von Hans Goebl in der ersten Version des Sammelbandes Berichte aus der digitalen Geolinguistik : Thomas Krefeld | Stephan Lücke (2018): Berichte aus der digitalen Geolinguistik. Korpus im Text. Version 1 (12.05.2018, 10:20). url: http://www.kit.gwi.uni-muenchen.de/?p=4498&v=1]].

Die Recherchierbarkeit des Projekts VerbaAlpina als ganzem ist nicht nur in den Suchmaschinen, sondern auch im Verbundkatalog der öffentlichen bayerischen Bibliotheken (OPAC) gewährleistet; es wurde durch die UB der LMU mit einem Digital Object Identifier (doi:10.5282/verba-alpina) versehen, über das es auch jenseits der Kataloge und herkömmlichen Suchmaschinen auffindbar ist (vgl. DOI). Darüber hinaus wurde auf dem Server der Deutschen Nationalbibliothek ein sogenannter Uniform Resource Name (URN) hinterlegt, der Ähnliches wie die DOI leistet (vgl. [[Lücke 2017|https://www.verba-alpina.gwi.uni-


  1. Vgl. zur Bezeichnung die Bemerkungen  in Krefeld 2017c

  2. vgl. die Darstellung des Unternehmens in Krefeld 2017g

  3. Dieser Ausdruck ist insofern gerechtfertigt, als ein sehr großer Teil der im Atlas veröffentlichten Formen typisiert wird, allerdings ohne diesen Typen ein konkretes Etymon zuzuweisen. Diese Verknüpfung interaktiv zu realisieren wäre eine sehr schöne Unternehmung der Digital Romance Humanities

  4. Das Gebiet wird aus rein pragmatischen Gründen über die Zugehörigkeit der politischen Gemeinden zur Interessenvereinigung der Alpenkonvention abgegrenzt. 

  5. Vgl. zu diesem Konzept aus romanistischer Sicht

  6. Das ist zum Beispiel immer dann agebracht, wenn Quellen sich auf  Gemeinden beziehen, die im Zuge von administrativen Neuordnungen mit anderen Gemeinden zusammengelegt wurden. 

  7. Aus kommunikationsräumlicher Perspektive fallen jedem Romanisten sofort zahlreiche andere faszinierende Konstellationen eine: die Romania Thyrrenica (Korsica, Elba, Sardinien, die Balearen mit den jeweils nächstgelegenenen kontinentalen Küstenstreifen), die Sprachgebiete beiderseits der Adria, das Verbreitungsgebiet der Aromunen, Meglenorumänen und Rumänen; die Gegenden Afrikas, wo auch romanische Sprachen gesprochen; der Indische Ozean, Amerika usw.). Unser aller indivuiduelle Interessenthorizonte stoßen ja ständig an die Grenzen unserer individuellen Sprachkompetenzen, so dass nur aus der Kollaboration sinnvolle und notwendige Großprojekte entstehen können. 

  8. Darüber hinaus müsste auch das Alter in die Chronoreferenzierung eingehen; im VerbaAlpina-Gebiet lagen im Fall des AIS mehr als 60 Jahre Altersunterschied zwischen den Informanten; die Sprecherin aus Lanzada (AIS 216)  war bei der Erhebung, 1921, erst 22 Jahre alt, der Sprecher aus Surrhein (AIS 11) dagegen im Jahre 1920 bereits 84; vgl. Jaberg/Jud 1928, 40, 63. 

  9. Vgl. zur Informantenmobilität Krefeld 2002 und zum Problem der nicht alphabetisierten Informanten Krefeld 2007b und Krefeld 2007c

  10. Diese Komponente tritt im Projekt VerbaAlpina fast vollkommen zurück; allenfalls ist die Nennung der aktivsten (registrierten) User, Gemeinden und der beliebtesten Begriffe in der Crowdsourcing-Funktion  zu erwähnen; diese Zurückhaltung ist eine Reaktion auf die schwache Resonanz, die das dezidiert spielerisch ausgerichtete Projekt ]Metropolitalia gefunden hat. 


Bibliographie

  • AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
  • ALD-I = Goebl, Hans (1998): Atlant linguistich dl ladin dolomitich y di dialec vejins I, vol. 1-7 (sprechend: http://ald.sbg.ac.at/ald/ald-i/index.php), Wiesbaden, vol. 1-7, Reichert. Link
  • ALD-II = Goebl, Hans (2012): Atlant linguistich dl ladin dolomitich y di dialec vejins, 2a pert, vol. 1-5, Editions de Linguistique et de Philologie. Link
  • DRG = De Planta, Robert/ Melcher, Florian/ Pult, Chasper/ Giger, Felix (1938ff.): Dicziunari Rumantsch grischun, Chur, Inst. dal Dicziunari Rumantsch Grischun. Link
  • GPSR = Gauchat, Louis (Hrsg.) (1924ff.): Glossaire des patois de la Suisse romande, Genève [u.a.], Droz [u.a.]
  • Goebl 2018 = Goebl, Hans (2018): Vorstellung der beiden Teile des ALD (ALD-I und ALD-II), in: Krefeld, Thomas; Lücke, Stephan (Hrsgg): Berichte aus der digitalen Geolinguistik. Korpus im Text., vol. 6. Link
  • HdR = Bernardi, Rut/Decurtinis, Alexi/Eichenhofer, Wolfgang/Saluz, Ursina/Vögeli, Moritz (1994): Handwörterbuch des Rätoromanischen, Zürich, vol. 1-3, Offizin
  • Hubschmid 1950 = Hubschmid, Johannes (1950): Vorindogermanische und jüngere Wort­schichten in den romanischen Mundarten der Ostalpen, Tübingen, in: Zeitschrift für romanische Philologie, vol. 66, Niemeyer, 1-94. Link
  • Hubschmid 1951 = Hubschmid, Johannes (1951): Alpenwörter romanischen und vorromanischen Ursprungs, Bern, Francke
  • Idiotikon = (1881 ff.): Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch, Basel. Link
  • Jaberg/Jud 1928 = Jaberg, Karl; Jud, Jakob (1928): Der Sprach- und Sachatlas als Forschungsinstrument. Kritische Grundlegung und Einführung in den Sprach- und Sachatlas Italiens und der Südschweiz, Halle (Saale), Niemeyer
  • Jaberg/Jud 1960 = Jaberg, Karl; Jud, Jakob (1960): Index zum Sprach- und Sachatlas Italiens und der Südschweiz. Ein propädeutisches etymologisches Wörterbuch der italienischen Mundarten, Bern
  • Jud 1911a = Jud, Jakob (1911): Dalla storia delle parole lombardo-ladine, Cöthen, Anhalt, in: Bulletin de dialectologie romane (BDR) 3, 1-18, Schulze, 63-86
  • Jud 1911b = Jud, Jakob (1911): Parole oscure del territorio alpino
  • Jud 1924 = Jud, Jakob (1924): Zu einigen vorromanischen Ausdrücken der Sennesprache, Berlin, in: Zeitschrift für Deutsche Mundarten, vol. 19, Allgem. Dt. Sprachverein, 199-209. Link
  • Krefeld 2002 = Krefeld, Thomas (2002): Migration, Sprachbewusstsein und Wissenschaftsideologie - über dynamische Räume und ihre statische Beschreibung, Tübingen, in: Ehlich, Konrad (Hrsg.), Sprachen und Sprachpolitik in Europa, Stauffenburg, 145-170. Link
  • Krefeld 2007 = Krefeld, Thomas (2007): La continuità della Romània - e la storiografia delle lingue nazionali, Tübingen, in: Hafner, Jochen/ Oesterreicher, Wulf (Hrsg.): Mit Clio im Gespräch. Romanische Sprachgeschichten und Sprachgeschichtsschreibung, Narr, 63-75. Link
  • Krefeld 2007b = Krefeld, Thomas (2007): L'informante analfabeta (e la coscienza della variazione), Palermo, in: Castiglione, Marina / Rizzo, Giuliano (Hrsg.), Parole da gustare. Consuetudini alimentari e saperi linguistici (= Atlante Linguistico della Sicilia - Materiali e Ricerche 19), CSFLS. Link
  • Krefeld 2007c = Krefeld, Thomas (2007): Sprachwissenschaftler, Sprecher und die schwere Entbindung der Sprache von der Situation, Tübingen, in: Redder, Angelika (Hrsg.), Diskurs und Texte. Festschrift für Konrad Ehlich zum 65. Geburtstag, Stauffenburg, 81-86. Link
  • Krefeld 2017c = Krefeld, Thomas (2017): Geolinguistik in der Perspektive der ‚digital humanities‘ (am Beispiel von Verba Alpina). Vorlesung , München, LMU. Link
  • Krefeld 2017g = (2017): Geolinguistik in der Perspektive der ‚digital humanities‘ (am Beispiel von Verba Alpina). Vorlesung dh-lehre. Version 2 (20.10.2017, 08:18)., München. Link
  • Krefeld 2018 = Krefeld, Thomas (2018): Sprache und Raum – Italien und das Italienische, München, in: Vorlesung dh-lehre, LMU. Link
  • Krefeld 2018a = Krefeld, Thomas (2018): VerbaAlpina – oder: der Transfer der Geolinguistik in die digital humanities. Link
  • LSI = Lurà, Franco (Hrsg.) (2004): Lessico dialettale della Svizzera italana, Bellinzona, Centro di dialettologia e di etnografia
  • Stampa 1937 = Stampa, Renato Agostino (1937): Contributo al lessico preromanzo dei dialetri lombardo-alpini e romanci, Zürich; Leipzig, Niehans
  • VSI = Sganzini, Silvio (1952ff): Vocabolario dei dialetti della Svizzera italiana, Lugano, Tipografia la Commerciale
  • WBOE = Bauer, Werner/ Kranzmayer, Eberhard. Institut für österreichische Dialekt- und Namenlexika (Hrsg.) (1970–): Wörterbuch der bairischen Mundarten in Österreich, Wien, Verl. der Österr. Akad. der Wiss.

54 Monate – Arbeitsbericht VerbaAlpina




(3770 Wörter)

Thomas Krefeld | Stephan Lücke (LMU)

0. Vorbemerkung

Die aktuelle Förderungsphase dient der Erschließung eines zweiten großen Gegenstandsbereichs, nämlich der Natur, und zielt auf Bezeichnungen von Witterungserscheinungen, Landschaftsformationen, Fauna und Flora. Parallel dazu wurde viel Arbeit in  die Konzeption und praktische Umsetzung von verlässlichen Prozeduren des Datenmanagements in webbasierten Forschungsprojekten  Investiert. Da die grundlegende Bedeutung dieser zweiten Thematik in der romanistischen und italianistischen Geolinguistik weithin noch nicht erkannt worden zu sein scheint, wurde er ganz entschieden in den Vordergrund dieses Arbeitsberichts gestellt

1. Wissenschaftskommunikation im Internet

Forschungsmittel sind begrenzt; der Zugang dazu muss also kompetitiv geregelt sein. Wenn Forschung in dieser Hinsicht zwar dem Wettbewerb unterliegt, so ist sie doch in ihrem Wesen vor allem kollaborativ: Denn Fortschritt gibt es nur auf der Grundlage des jeweils bereits verfügbaren Wissens. Im Hinblick auf die Kollaboration – die ja grundsätzlich in Kommunikation fundiert ist – haben sich nun in den letzten 15 Jahren die Rahmenbedingen vollkommen geändert:  Es ist innerhalb weniger Jahre eine Gesellschaft entstanden, die explizit als Wissensgesellschaft bezeichnet wird, da sie im Privaten und im Öffentlichen die permanente und ubiquitäre Verfügbarkeit der Neuen Medien und damit einen praktisch unbegrenzten Zugang zum Wissen jeglicher Art voraussetzt.

Diese vollkommene Mediatisierung betrifft aber nicht nur den Wissenskonsum, sondern gleichermaßen die Wissensgenerierung durch Forschung, nicht zuletzt deshalb, weil sie uns eine sehr breite, ortsunabhängige Kooperation ermöglicht. Ins Schlaraffenland sind die Forscher damit freilich nicht gelangt, denn die Option auf Kooperation konkretisiert sich keineswegs automatisch. Sie erfordert vielmehr die Beachtung einiger elementarer Regeln, die seit kurzem mit der Sigle FAIR benannt werden, die von einer wichtigen Initiative lanciert wurde (🔗). Damit werden vier grundlegende ethische Prinzipien für die Wissenschaftskommunikation unter den Bedingungen der Neuen Medien identifiziert. Ihnen zufolge müssen Forschungsdaten

  • F_indable (‘auffindbar’),
  • A_ccessible (‘zugänglich’),
  • I_nteroperable (‘kompatibel’),
  • R_eusable (‘nachnutzbar’)

sein (🔗). Die Anforderungen von drei  (F, A, R) der vier Prinzipien zielen darauf, sowohl human readable als auch machine readable zu sein; sie gelten also sowohl für die Mensch-Maschine-Mensch-Kommunikation als auch für die Maschine-Maschine-Kommunikation. Das vierte Prinzip (I) gilt nur für letztere; es ist jedoch im skizzierten virtuell-medialen Rahmen zentral für den Fortschritt der Forschung und repräsentiert insofern die Unverzichtbarkeit der technologischen Komponente und die Transformation des LESERs zu einem interaktiven NUTZER, der auf einem Kontinuum zwischen hochspezialisierten Experten und völligen Laien abgebildet werden kann und der sich den Daten nicht nur lesenden Auges nähert, sondern womöglich mit der Absicht, sie für eigene Forschungszwecke zu nutzen und dafür maschinelle ‘Erntehelfer’ (zum sog. harvesting) einzusetzen.

Die Operationalisierung der FAIR-Prinzipien erfordert ein komplexes Zusammenspiel von Forschern, das heißt de facto von befristeter und deshalb mehr oder weniger prekärer Projektarbeit einerseits und andererseits von Institutionen, die Dauerhaftigkeit in Aussicht stellen können; das sind in allererster Linie die großen Bibliotheken. Die Entwicklung von Prozeduren für diese ganz spezielle Art der Kooperation gehört zu den aktuellen Herausforderungen der Forschung, die mit dem Ausdruck Forschungsdatenmanagement (FDM) bezeichnet werden. Damit sind wichtige Eckpunkte der Wissenschaftskommunikation im Web markiert, die den Horizont dieses Beitrags abstecken.

2. FAIRness in einer web-basierten Forschungsumgebung

Das Projekt VerbaAlpina (VA) versucht, die Forschungskommunikation im oben skizzierten Sinne konsequent nach den FAIR-Prinzipien zu gestalten.  Dabei ist ihre Anwendung in den folgenden fünf komplementär angelegten und eng miteinander verflochtenen Funktionsbereichen (🔗) zu unterscheiden:

  • Dokumentation;
  • Publikation;
  • Kooperation;
  • Datenerhebung durch crowdsourcing;
  • Forschungslabor.

2.1. FAIRness der Publikation

Das ganze Internet ist nichts Anderes als eine gewaltige Publikationsmaschine; es ist allerdings unbedingt notwendig zu differenzieren, denn es wird durchaus anders und teils auch Anderes als unter den medialen Bedingungen des Drucks publiziert wird. Von VerbaAlpina  werden

  • semantischer Inhalt (Dialektformen, analytischer wissenschaftlicher Text),
  • Metadaten,
  • Software und Code

veröffentlicht (🔗).

Produziert werden dabei ausnahmslos stabile Daten und Textdateien, da die gesamte Plattform (Benutzeroberfläche und Datenbanken) alle sechs Monate ‘eingefroren’, oder: versioniert wird; zusätzlich besteht jeweils eine aktuelle Arbeitsversion (Version xxx), die noch Änderungen unterliegt und daher nicht zitiert werden sollte (🔗). Die jeweils jüngste Version ersetzt jedoch nicht die vorige, sondern ergänzt sie, denn alle früheren Versionen bleiben erhalten, so dass sämtliche Zitate und Verlinkungen innerhalb des Projekts sowie von außen auf das Projekt stets zugänglich sind.

Es ist weiterhin sichergestellt, dass die Versionen gut auffindbar sind, denn ihnen wird von der UB der LMU ein DOI zugewiesen (http://dx.doi.org/10.5282/verba-alpina); gleichzeitig findet VA als Ganzes damit Eingang in die Biblibliothekskataloge (🔗).

Auf dieselbe Weise lassen sich auch alle thematischen Textbeiträge identifizieren, die auf der Projektseite unter den Reitern Lexicon alpinum, Methodologie und Beiträge  publiziert werden; sie erhalten ebenfalls einen DOI und sind daher direkt zitierfähig (vgl. z.B.: Krefeld, T. / Lücke, S.: s.v. “butyru(m)”, in: VA-de 18/2, Lexicon alpinum, http://dx.doi.org/10.5282/verba-alpina?urlappend=%3Fpage_id%3D2374%26db%3D182%23B128).

Eine vergleichbare Funktion leistet der URN, der bei der Deutschen Nationalbibliothek in Frankfurt registriert wird. Schließlich ist auch der gesamte Quellcode von VA mit allen programmierten Tools unter github auffindbar und zugänglich. Technisch gesehen liegt dem Verfahren ein Export aller VA-Daten in ein Repositorium der UB zu Grunde (open data lmu), in dem auch Metadaten im Format DataCite zugewiesen werden.

Eine große Rolle bei der Ausgestaltung der Metadatenschemata spielen die Normdaten, die eine eindeutige und fein granulierte Identifikation der Forschungsdaten erlauben. VA unterscheidet drei Datenkategorien (oder: Entitäten), für die eigene Identifikatoren vergeben werden, die in Verbindung mit den Daten abrufbar sind:  ‘Konzept’, ‘morpholexikalischer Typ’ (s. Typisierung) und ‘Gemeinde’. So ergeben sich sehr spezifizierte Metadaten (vgl. das DataCite Beispiel für das Konzept SENNHÜTTE, das neben dem VA-Identifikator C1 auch die in VA ebenfalls vorhandenen onomasiologischen Identifikatoren des Wikidata-Projekts enthält:  Q136689, Q27849269, Q2649726), die grundsätzlich die eindeutige Referenzierung auf Einzeldaten definierter Objektklassen über Projektgrenzen hinweg erlauben.

Dieser Export gewährleistet die Zugänglichkeit und Nachnutzbarkeit der Daten nach dem Auslaufen der Projektförderung. Der Datenexport erfolgt über eine API-Schnittstelle (vgl. API Dokumentation), die im Internet öffentlich zugänglich ist und auch für die  Ausgabe in anderen Formaten und angereichert um Metadaten von im Grunde beliebigen anderen Standards, z.B. gemäß CLARIN-D, genutzt werden kann. Einen groben Überblick des im Entstehen begriffenen Forschungsdatenmanagements (Stand vom 11.3.2019) gibt das folgende Schema:

Forschungsdatenmanagement zwischen Projekten, Institutionen und Öffentlichkeit

Im Hinblick auf die Auffindbarkeit und Zugänglichkeit sind noch zwei grundsätzliche Bemerkungen angebracht:

  1. Da bislang in der Wissenschaftsgemeinde weder ein Standard-Metadatenschema verbindlich festgelegt noch die Frage geklärt ist, welche Institutionen über deren Einhaltung und die dauerhafte Bewahrung von Daten und Metadaten wachen sollen, hat sich VA zum einen für ein flexibles Schnittstellenkonzept entschieden, das die Nutzung im Grunde beliebiger Metadatenschemata erlaubt. Außerdem beteiligt sich VA an zwei aktuell laufenden Forschungsprojekten, die sich mit dieser Problematik auseinandersetzen: der Initiative (GeRDI) des LRZ und dem von der Bayerischen Staatsregierung geförderten Projekts "eHumanities – interdisziplinär". Im Projekt GeRDI sollen Daten ganz unterschiedlicher Disziplinen über Metadaten verknüpft werden, indem gemeinsame Attribute festgelegt werden (was z.B. im Fall von Geo- und Chronoreferenzierungen sehr einfach und häufig auch sinnvoll ist).
  2. Abgesehen von den Metadaten, die auf die spezifischen Projektdaten referenzieren, ist es im Sinn von Auffindbarkeit und technischer Interoperabilität unbedingt ratsam, Identifikatoren und Normdaten zu verwenden, die außerhalb des Projekts etabliert sind. VA verwendet daher seit kurzem die Identifikatoren der sogenannten Wikidata-Datenobjekte. Sie liefern Referenzen für außersprachliche Realitäten und Konzepte und damit einen gemeinsamen Bezugsrahmen für viele unterschiedliche Sprachen; so gibt es derzeit (14.12.2018) Wikipedia-Artikel in 133 Sprachen über das Milchprodukt Butter. Die sehr unterschiedlichen Artikel werden verknüpft, indem sie alle auf den eindeutigen Identifikator des entsprechenden Wikidata-Datenobjekts referenzieren (Q34172). Eine Suchmaschine, die danach sucht, ist also in der Lage, alle zugehörigen 133 Bezeichnungen zu finden – und so, zumindest theoretisch, demnächst auch die in VA dokumentierten, zahlreichen Dialektformen (1926 Belege). Ein ähnliches System für Bezeichnungstypen, d.h. für Wörter (L-ID), ist bei Wikidata im Aufbau.

2.2. FAIRness der Dokumentation

VA dokumentiert Dialektbelege der drei großen europäischen Sprachfamilien, die sich in ethnolinguistischer Hinsicht  als spezifisch alpin erweisen.

Das Material wurde in einen systematisch strukturierten Datenbestand überführt und nach sprachlichen (‘morpho-lexikalische Typen’, ‘Basistypen’) und außersprachlichen (‘Konzepte’) Kritierien annotiert; neben dem maschinenlesbaren Zugang über die oben erwähnte API-Schnittstelle gibt es einen menschenlesbaren Zugang, der in sehr anschaulicher Weise über eine interaktive Karte erfolgt; die dafür momentan noch genutzte Google Maps-Karte wird in Kürze durch eine bereits weitestgehend entwickelte Karte mit verbesserter Funktionalität auf der Grundlage von Open Street Maps und dem Javascript-Frameword Leaflet ersetzt (🔗 ).

Die genannten Kategorien der Datenstrukturierung  fungieren an der Kartenoberfläche als Filter. Bereits auf dieser nutzerfreundlichen, insbesondere laientauglichen Oberfläche wurde eine ebenso einfache wie elementare Funktion der reusability implementiert, denn es ist möglich, alle Karten, die man sich anzeigen lässt, in exakt der angezeigten Form (mit der entsprechenden Zoomstufe, jeweils geöffneten Fenstern usw.) mit anderen zu teilen oder sie in Publikationen usw. einzubauen, denn durch Klicken auf einen 'share button' wird für die jeweils aktuell angezeigte Karte eine versendbare URL erzeugt; so führt der folgende Link zu einer Karte aller in VA vorhandenen dialektalen Bezeichnungen von BUTTER.

Das vorhandene Sprachmaterial stammt aus zwei Quellen: Ein kleinerer Teil des Materials, das VA anbietet, wurde durch  das Projekt selbst im Crowdsourcing-Verfahren (s.u. 2.4.) erhoben. Der größte Teil wurde jedoch aus gedruckten oder für den Druck vorgesehenen Arbeiten gewonnen, so finden sich auch Formen, die uns im Rahmen von Partnerschaftsabkommen aus noch nicht abgeschlossenen Projekten zur Verfügung gestellt wurden (vgl. zum Beispiel das Punktnetz des Sprachatlas von Oberösterreich). Berücksichtigt wird auch Wörterbuchmaterial, unter der Bedingung, dass die sprachlichen Belege georeferenzierbar sind; das ist bei guten Dialektwörterbüchern wie zum Beispiel dem DRG oder dem VSI der Fall. De facto ist jede Quelle überdies auch chronoreferenzierbar, allerdings wurde diese Funktion noch nicht implementiert.

Durch die Retrodigitalisierung und den Webauftritt werden zahlreiche, in teils schwer zugänglichen Publikationen ‘schlafende’ Dialektausdrücke leicht auffindbar (F), zugänglich (A), interoperabel (I) und in allgemein kompatibler Weise nachnutzbar (R) gemacht; denn alle verfügbaren Formen erhalten einen persistenten Identifikator und werden in Kürze auch über einen Digital Object Identifier (DOI) ansprechbar sein. Hier ein Beispiel aus dem Sprach- und Sachatlas Italiens und der SüdschweizAIS (1928-1940).

VA produziert also gewissermaßen FAIRen Output. Allerdings sind die allermeisten Quellen, der Input, von FAIRness meilenweit entfernt. Die Gründe dafür sind teils technischer, teils aber auch juristischer, letztlich: kommerzieller Art. In der Regel sind Sprachatlanten ausschließlich als physisches Druckwerk zugänglich; nur sehr wenige bieten wenigstens die elementarste Stufe der Digitalisierung, d.h. digitale Photos (scans) an, wie z.B. der AIS in Gestalt des NavigAIS oder der  SDS im Hinblick auf das Orginalmaterial. Kein einziger älterer Atlas wurde bislang in Form eines strukturierten Korpus aufbereitet, das auch den Export der Daten gestattet. Immerhin konnte eine solche Lösung auf der Basis einer Kooperationsvereinbarung für den ALD gefunden werden; dem Druck dieses Atlas’ von Hans Goebl lag ein digitales Format zu Grunde, das zwar wegen fehlender Identifikatoren der Inhalte nicht interoperabel war, sich aber nach bestimmten Adaptationen als maschinenlesbar und entsprechend nachnutzbar erwies; alle Bezeichnungen relevanter Konzepte erscheinen daher in VerbaAlpina (vgl. das ALD-Ortsnetz und dieses Beispiel).

Findable Accessible Interoperable Reusable
menschl. masch. menschl. masch. masch. menschl. masch.
ALI - - - - - - -
SDS + + + - - + -
AIS + + + - - + -
ALD + + + - - + +
VA + + + + + + +

Anders, deutlich komplexer, erscheint die Lage im Bezug auf georeferenzierbare Wörterbücher; die seit kurzem verfügbare Online Version des DRG ist so eingerichtet, dass jedes Lemma dank eines Identifikators als digitales Objekt zugänglich ist (A), so zum Beispiel bargia ‘Schopf’. Ein maschineller Export ist jedoch nicht vorgesehen, und es ist erkennbar, dass auch die technische Möglichkeit der unmittelbaren Referenzierung auf ein Lemma über eine URL eher ein technisches "Abfallprodukt" ist, das sich mehr oder minder zufällig bei der Softwareentwicklung ergeben hat. Jedenfalls wird kein Zitier-Link angeboten und es scheint generell keine konkreten Hinweise für die Nutzer auf diese Möglichkeit zu geben, so dass der Gebrauch letztlich der "Gerissenheit" des Nutzer überlassen ist.

Seit kurzem existiert eine Reihe von online-Lexika zu zwei ladinischen Dialekten, dem Gadertalischen (Badiot) und dem Grödnerischen (Gherdëina) (https://www.micura.it/de/woerterbuecher). Allesamt werden verantwortet vom ladinischen Kulturinstitut in St. Martin in Thurn (Istitut Ladin Micurà de Rü) und alle sind offenkundig als Derivate von Publikationen in Buchform entstanden. Zugrunde liegen jeweils zwei Lexika für das Deutsche (Mischì, Giovanni, Wörterbuch deutsch – gadertalisch = Vocabolar todësch – ladin, San Martin de Tor 2001 [ISBN 88-8171-028-5]; ders., Wörterbuch : Deutsch – Grödner-Ladinisch = Vocabuler : tudësch – ladin de Gherdëina, San Martin de Tor 2002 [ISBN 88-8171-033-1]) und das Italienische (Moling, Sara [Hg.], Dizionario italiano – ladino Val Badia; Dizionar ladin Val Badia – talian, San Martin de Tor 2016 [ISBN 978-88-8171-120-8];
Forni, Marco [Hg.], Dizionario italiano – ladino gardenese = Dizioner ladin de gherdëina – talian, San Martin de Tor 2013 [978-88-8171-106-2]), wobei lediglich die italienischen Lexika die biderektionale Perspektive Italienisch⇔Badiot und Badiot⇔Italienisch bedienen; die deutschen Lexika sind monodirektional Deutsch⇒Badiot bzw. Deutsch⇒Gherdëina angelegt.

Der lexikalische Bestand dieser Werke ist nunmehr also auch im Internet verfügbar, wobei die konkrete Vorgehensweise bei der Digitalisierung und auch die Struktur des zugrundeliegenden Datenbestands vollkommen unklar ist. Die Aufteilung des Datenbestands in vier voneinander getrennte Buchpublikationen spiegelt sich, überraschender- und gleichzeitig unnötigerweise, auch in der Datenpräsentation im Internet wider. Jedem Lexikon entspricht ein eigenes Internet-Portal. Dabei wurden die beiden Portale für die deutschen Lexika offenkundig von anderen Entwicklern konzipiert und realisiert als die italienischen.

  1. Badiot⇔Italienisch (und vice versa): http://itavalbadia.ladinternet.it/
  2. Badiot⇒Deutsch: https://www.micura.it/de/dizionars/vb/dl
  3. Gherdëina⇔Italienisch: http://dizionario-italiano-gardenese.ladinternet.it/ (= http://forniita.ladinternet.it/)
  4. Gherdëina⇒Deutsch: https://www.micura.it/de/dizionars/gh/dl

Verantwortlich für die Internetportale der italienischen Daten ist die Florentiner Firma SmallCodes, die seit Jahren technische Lösungen im Umfeld der (vor allem ober-)italienischen Dialektforschung entwickelt. Die Entwickler der Portale der Deutsch-Ladin-Lexika werden nicht genannt.

Entsprechend der Aufteilung auf vier Portale sind auch die jeweiligen Datenbestände nicht aufeinander bezogen, was z.B. die Folge hat, dass man bei einer Suche ausgehend von der italienischen Bezeichnung lumaca (SCHNECKE) zwar das gadertalische sgnech geliefert bekommt, nicht jedoch die deutsche Bezeichnung Schnecke, die ihrerseits über das deutschsprachige Portal mit sgnech verknüpft ist. Auf die mit sgnech offenkundig eng verbundene Variante snech im Grödnerischen gelangt man wiederum nur nach einer gesonderten Suche auf dem entsprechenden Portal – und dies, obwohl die beiden Portale (Italienisch⇔Badiot und Italienisch⇔Gherdëina) von der selben Firma entwickelt worden sind. All dies dokumentiert, dass die Datenbestände, die im Grunde unter einem institutionellen Dach vereint sind, zumindest technisch nicht aufeinander bezogen und somit im Sinne der FAIR-Prinzipien nicht ‘interoperabel’ sind. Dies gilt gleichermaßen auch für die Anknüpfungsmöglichkeiten von außerhalb: Eine unmittelbare Referenzierung auf die soeben exemplarisch genannten morpholexikalischen Typen sgnech, snech und lumaca ist technisch nicht möglich. Eine Ausnahme sind lediglich die deutschsprachigen Versionen der online-Lexika, die wenigstens den URL-basierten Verweis auf das deutsche Lemma erlauben (z.B. https://www.micura.it/de/woerterbuecher/vb/dl?q=Schnecke), eine Referenzierung auf die ladinischen Typen ist technisch jedoch auch hier nicht möglich.

Beklagenswert ist ferner die schlechte Auffindbarkeit der in den Lexika versammelten morpholexikalischen Typen von außerhalb der eigentlichen Portale, also über das Internet oder etwa über Bibliothekskataloge. Allerdings liegt dies nicht in der Verantwortung der Einzelakteure, sondern beruht auf dem Fehlen von Aggregatoren, die voneinander getrennt generierte und verwaltete Datenbestände unter Einsatz geeigneter Metadatenschemata miteinander verknüpfen können. Derartige Strukturen sind derzeit erst in ihrer Entstehungsphase. Als Beispiel wäre etwa die "Generic Research Data Infrastructure" (GeRDI) zu nennen, an der u.a. VerbaAlpina als Partner- und Pilotprojekt beteiligt ist. In jedem Fall hat die mangelhafte Auffindbarkeit zur Folge, dass die hier thematisierten ladinischen Online-Wörterbücher auch einem weiteren im Akronym FAIR formulierten Postulat – dem "F": Findable – nicht genügen. Das Gleiche gilt auch für die verbleibenden FAIR-Forderungen der Zugänglichkeit (A: Accessible) und der Nachnutzbarkeit (R: Reusable). Zwar ist die Zugänglichkeit über das Internet grundsätzlich möglich, sie erfährt jedoch ganz wesentlich dadurch eine Einschränkung, als der Datenbestand lediglich durch manuelle Formulareingaben abgefragt werden kann. Ein vollständiger oder wenigstens partieller Export der Daten auf Basis frei zu definierender Filter ist anscheinend nicht möglich. Auch existiert offenkundig keine API, die eine wichtige Voraussetzung für die maschinelle Verarbeitung, auch und gerade im Sinne der Verknüpfung mit kongruenten externen Datenbeständen, darstellt. Das Fehlen einer API bedingt gleichzeitig und zusätzlich die mangelnde Interoperabilität der Daten. Die Nachnutzbarkeit der Daten schließlich wird nicht zuletzt entscheidend durch das Lizenzmodell beschränkt, unter dem sie zur Verfügung gestellt werden: Das Copyright gestattet die Nutzung der Daten nur in sehr beschränktem Umfang, nach deutschem Recht im Wesentlichen nur im Rahmen dessen, was das Zitatrecht erlaubt.

Die hier thematisierten ladinischen Online-Wörterbücher machen insofern also nur auf den ersten Blick den Eindruck von zeitgemäßen Webpublikationen. Es ist begrüßenswert, dass das Material überhaupt im Internet verfügbar ist, und bestimmte Funktionen und Konzepte gehen über das hinaus, was herkömmliche Buchpublikationen zu leisten im Stande sind. Dazu gehört zum einen die Präsentation von Tonaufnahmen (auf die wiederum nicht verlinkt werden kann) sowie das Vorhandensein eines onomasiologischen Tools ("galleria immagini" in den Italienisch-Ladinischen Modulen; wiederum nicht per URL referenzierbar), das den Datenbestand über anklickbare Abbildungen aufschlüsselt. Letztlich jedoch sind auch die Webportale mit den Beschränkungen behaftet, die eigentlich nur dem Buch zu eigen sind, und es ist offenkundig, dass hier nicht mit der gebotenen Entschlossenheit und Konsequenz die Möglichkeiten der neuen Medien genutzt werden. Aus Sicht von VerbaAlpina ist dies vor allem deswegen bedauerlich, weil eine auch nur punktuelle (und gerne wechselseitige) Verknüpfung der eigenen Datenbestände mit den Beständen der ladinischen Wörterbücher de facto unmöglich ist.

Ebenfalls nur durch manuelle Formulareingaben ist der Niev Vocabulari sursilvan online bieten selbst diese Möglichkeit nicht an, so dass an Interoperabilität nicht zu denken ist.

2.3. FAIRness der Kooperation

VA wird von zahlreichen Partner-Projekten unterstützt; das große Potential dieser Kooperation ist selbstverständlich und bedarf eigentlich keiner Erläuterung. Dennoch soll die konstruktive Perspektive der mehrfachen und komplementären Nachnutzung kompatibler Partnerprojekte an einem Beispiel illustriert werden: Im Rahmen des  Archivio lessicale dei dialetti trentini (ALTR) wurden fünf gedruckte Dialektwörterbücher  unterschiedlicher Talschaften (aus der Zeit zwischen 1955 und 1984) in einer Datenbank zusammengeführt. Dank einer Projektpartnerschaft  konnte VA die relevanten Ausdrücke konvertieren und importieren, so dass sie nun im Kontext aller Alpendialekte kartographisch dargestellt werden können; vgl. die folgende Bezeichnung eines Geräts zum Buttern: smalzaia).

Als interoperabel in der Kooperation hat sich auch die Projektarchitektur und die entsprechende Software bereits erweisen; so konnte probeweise das sizilianische Regional- und Spezialwörterbuch von Sottile 2002 ohne Schwierigkeiten nachgenutzt und als Atlas dargestellt werden (vgl. den Atlante linguistico della Sicilia online, der seit 2019 durch die sizilianischen Partner ausgebaut wird). Auch der im Entstehen begriffene Atlas des Pikardischen in Nordfrankreich und Belgien greift seit dem Herbst 2018 auf die Konzeption und Technologie von VA zurück (vgl. Verba Picardia).

2.4. FAIRness im Crowdsourcing

Crowdsourcing-Verfahren richten sich in allererster Linie, wenngleich nicht ausschließlich, an Laien; sie setzen deshalb eine intuitiv leichte Auffindbarkeit und Zugänglichkeit zentraler Datenbereiche für menschliche Nutzer voraus. Die Daten werden durch die Art der Erhebung in ein strukturiertes und interoperables Format gebracht, das Nachnutzung gestattet. VA nutzt crowdsourcing in doppelter Weise: Zunächst wurde ein ästhetisch ansprechendes und einfach zu bedienendes Tool zur Datenerhebung programmiert (Mitmachen!); dafür wurde auch ein Tutorial auf Youtube gepostet. Ferner wurde soeben ein Zooniverse-Auftritt eingerichtet, um die für Retrodigitalisierung erforderliche Transkriptionsarbeit wenigstens teilweise an die Crowd weiterzugeben (🔗). Auch dafür ist Interoperabilität der VA-Datenbasis die Voraussetzung.

Das Erhebungstool wurde durch populärwissenschaftliche Vorträge in der Erwachsenenfortbildung einschlägiger Berufsgruppen (am 20.4.2018, 26.2.2018, 7.10.2017) beworben und fand daneben auch ein schönes massenmediales Echo. Die Auswertung ist interessant, denn es zeigt sich, dass vor allem Projektberichte im Internet relevant sind, da dort über einen Link ein direkter, sozusagen intramedialer Zugang angeboten werden kann: Das mit Abstand stärkste Echo fand deshalb ein Post auf der Internetseite des Bayerischen Rundfunks (am 27.4.2018); insgesamt wurden durch die 955 ‘Crowder’ bislang  11486 Dialektformen (Stand: 12.3.2019) beigesteuert  (🔗).

3. Aktuelle Entwicklungen und Perspektiven

VerbaAlpina hat eine nennenswerte und immer noch anwachsende Anzahl von Projektpartnern gewinnen können. Im Zuge der Bemühungen um Nachhaltigkeit und Nachnutzbarkeit im Sinne der FAIR-Prinzipien ist vor kurzem auch eine Kooperation mit dem CLARIN-D Centre Leipzig zustande gekommen, deren vorrangiges Ziel es ist, die VerbaAlpina-Projektdaten zusätzlich auch in diesem Repositorium unterzubringen. Derzeit wird an der Datenübertragung gearbeitet, die über die seit kurzem verfügbare API des VA-Projektportals erfolgen wird.

VerbaAlpina stellt jedem Projektpartner eine eigene MySQL-Datenbank zur Verfügung, die auf dem selben Datenbankcluster betrieben wird wie die VerbaAlpina-Datenbank. Art und Umfang der Nutzung dieser Datenbanken ist sehr unterschiedlich. Hervorzuheben ist, dass aktuell systematisch und in größerem Umfang lexikalisches Material aus dem Atlante linguistico della Sicilia (ALS) in die entsprechende Partnerdatenbank (PVA_ALS) übertragen wird. Dabei handelt es sich um Sprachdaten aus den Madonie, einem an der Nordküste Siziliens gelegenen Gebirge, in dem traditionell auch Vieh- und Milchwirtschaft betrieben wird. Die in die Partnerdatenbank übertragenen Daten werden automatisch auch auf dem von der ITG betriebenen online-Portal mit integrierter interaktiver Karte visualisiert (http://www.als-online.gwi.uni-muenchen.de/carta/). Aus onomasiologischer Perspektive ist das Material des ALS in weiten Teilen kongruent zu dem von VerbaAlpina gesammelten Material aus dem Alpenraum und eröffnet somit erweiterte Möglichkeiten, überregionale Zusammenhänge zu erkennen, wie dies im Rahmen des Projekts exemplarisch schon erfolgt ist (s. Krefeld, T.: s.v. “tomme / toma (f. (roa.)”, in: VerbaAlpina-de 18/2, Lexicon alpinum, https://doi.org/10.5282/verba-alpina?urlappend=%3Fpage_id%3D2374%26db%3D182%23L616 ). Die logische Verknüpfung zwischen dem Datenbestand in PVA_ALS mit dem VA-Datenbestand stellt allerdings eine große Herausforderung dar, die im Rahmen von VerbaAlpina bestenfalls skizzenhaft verwirklicht werden kann. In der Praxis würde die Verschränkung der beiden Datenbestände durch die wechselseitige Zuweisung der Konzepte und morpholexikalischen Typen zu einer gemeinsamen, zentralen Normdateninstanz erfolgen. Nach Vorstellung von VerbaAlpina könnte dies modellhaft für die Entwicklung einer universalen Lexikographie sein, die zeit- und raumübergreifend (nicht nur) lexikalische Zusammenhänge sichtbar werden lassen könnte.


Bibliographie

  • AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
  • ALD = Eintrag nicht gefunden
  • ALI = Bartoli, Matteo / Massobrio, Lorenzo / Pellis, Ugo (1995ff.): Atlante linguistico italiano, Roma, Ist. Poligrafico e Zecca dello Stato
  • DRG = De Planta, Robert/ Melcher, Florian/ Pult, Chasper/ Giger, Felix (1938ff.): Dicziunari Rumantsch grischun, Chur, Inst. dal Dicziunari Rumantsch Grischun. Link
  • SDS = Baumgartner, Heinrich/ Handschuh, Doris/ Hotzenköcherle, Rudolf (1962-2003): Sprachatlas der Deutschen Schweiz, Bern, vol. 1-9, Francke
  • Sottile 2002 = Sottile, Roberto (2002): Lessico dei pastori delle Madonie, Palermo, Centro di studi filologici e linguistici siciliani. Link
  • VA = Krefeld, Thomas | Lücke, Stefan: VerbaAlpina, München, Ludwig-Maximilians-Universität München. Link
  • VSI = Sganzini, Silvio (1952ff): Vocabolario dei dialetti della Svizzera italiana, Lugano, Tipografia la Commerciale