Villejuif, Campus CNRS, 5 – 6 avril 2023
Une version française élaborée de cette présentation est disponible ici.
Vue d'ensemble I. Remarque préliminaire : trois générations d'atlas linguistiques 1. données numériques structurées comme base de travail Appendice : Un exemple d'agrégation et d'imbrication des genres scientifiques |
I. Remarque préliminaire: Trois générations d'atlas linguistiques
Les trois générations se distinguent :
- dans la modélisation de la variation diatopique ;
- dans l'idée de la représentativité des données linguistiques en face de la selection des informateurs, des lieux et des procédures d'élicitation
- dans la conception et la réalisation médiatiques
1° génération : unidimensionnel, axiome de l'informateur unique représentatif (voir AIS)
2° génération : pluridimensionnelle (voir ADDU)
3° génération : technologie web (cf. Communication scientifique sur le web).
2. Generation | 3. Generation | |
AsiCa | → | Asica 2.0 |
ASD | ||
Metropolitalia | ||
VerbaAlpina | ||
les projets géolinguistiques des auteurs |
II. Huit principes pour la troisième génération
1° principe : Des données numériques structurées comme base de travail
- différents degrés de numérisation
degré de numérisation |
annot., alargiss., liens | export des données | |||
D3 | tabelle | db csv |
texte électronique structuré | → | XML SQL CSV txt ... HTML PS papier |
D2 ↑ | fichier texte | txt doc |
texte électronique linéarisé | ← praat | |
D1 ↑ | doc. scanné | jpg | code binaire | wav, mp3 | |
D0 ↑ | papier | écriture/image | audio |
exigence double
- texte imprimé sur papier ⇒ OCR ou dactylographie ⇒ texte électronique
- Fichier audio ⇒ ASR (automatic speech recognition ; STT : speech to text) ou dactylographie (Praat) ⇒ texte électronique (ASR jusqu'ici utilisable uniquement pour la langue standard)
Particulièrement important : la structuration des données
Structuration : production de métadonnées (variables "type", "source", "lieu", "signification" ...)
données analogique | données numériques | données numériques et structurées | ||||||||
tˈeːʥɑ |
|
attestation: AIS 1192 (LA CASCINA DI MONTAGNA), lieu 5 (Ems) (VA-Beleg S293; Discover@UB)
structuré | ASLEF-tableaux | VerbaAlpina |
non/part. structuré | VALTS | Idiotikon, WBOe |
analogue | numérique |
structurations existantes ⇒ restructuration souvent nécessaire : structure A ⇒ structure B
APIs = idéales pour l'échange de données, la mise en réseau et la réutilisation (voir https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=8844&db=211).
Quelques exemples de sources saisies par VA, dans le contexte de la numérisation et de la structuration
Effort en partie réduit: les tableaux de l'ASLEF
Exemple d'atlas linguistique : Vorarlberger Sprachatlas mit Einschluss des Fürstentums Liechtenstein (VALTS; Atlas linguistique du Vorarlberg avec inclusion de la Principauté du Liechtenstein)
Exemple de dictionnaire : Schweizerdeutsches Idiotikon (Vocabulaire de l'allemand suisse)Un exemple positif est le WBOe (Dictionnaire des parlers bavarois de l'Autriche)
WBOe ⇒ LIÖ ("Lexikalischen Informationssystems Österreich"; voir https://www.oeaw.ac.at/de/acdh/sprachwissenschaft/projekte/wboe/materialbasis, "Digitalisierung des Handzettelkatalogs")
- mais : totalité des fichiers XML ne pas à la disposition du public
VerbaAlpina : format de données relationnel, exportation XML possible (exemple: entrées VA pour le concept C1, CHALET de la version VA 211)
Outils développés par VerbaAlpina pour la numérisation et la saisie structurée des données
objectif : transfer au niveau D3
outil de transcription (Link)
- transcription en Beta code, à l'aide d'un clavier standard, très facile à apprendre, sans connaissance approfondie du système d'écriture transcrite
outil pour regrouper les attestations par types morpho-lexicaux (Link)
Géoréférencement
- atlas
- nombreux dictionnaires dialectaux (voir le Glossaire des patois de la Suisse romande (GPSR), le Vocabolario dei dialetti della Svizzera italiana (VSI) et le Dicziunari Rumantsch Grischun (DRG)
unité géographique de référence = commune politique enregistremen
- coordonnées WGS84 (tracé des frontières communales + coordonnées de points indiquant le centre géométrique des territoires communaux
- option: localiser des documents linguistiques au mètre près est
2° principe : Référence des données linguistiques aux notices d'autorité non linguistiques
- attribuer des notices d'autorité persistantes
- ⇒ identificateurs du projet Wikidata niveau de référence très différencié et fiable
- Recherche de concept onomasiologique dans VA
- élargir Wikidata en continu, (voir le Q-ID Q66817486, identificateur univoque de VerbaAlpina https://www.wikidata.org/wiki/Q66817486).
- identificateurs du projet Geonames :
- La connexion à des systèmes de notices d'autorité externes est importante, notamment pour trouver les données VerbaAlpina depuis l'extérieur. Jusqu'à présent, les QID de Wikidata ne sont reliés que de façon interne aux identifiants propres de VerbaAlpina. Il est
- prévu : exporter les données VA dans Wikidata et attribuer la 'propriété' spécifique (VerbaAlpina ID), exemple lexèmes qui désignent une couleurs)
3° principe : Gestion des données de recherche (FDM)
Orientation selon les critères FAIR
- données FAIR : findable 'trouvable', accessible, interoperable et reusable 'réutilisable' (voir Lücke, Krefeld/Lücke 2020 et Krefeld 2018 g)
- ⇒ respecter les initiatives libre acces (Open Access). code source ouvert (Open Source), renoncement au développement et à l'utilisation d'outils propriétaires
Contact avec des institutions qui mettent en œuvre la gestion des données de recherche: le rôle des grandes bibliothèques
VerbaAlpina & bibliothèque universitaire de la LMU
- La conservation des acquis scientifiques a toujours été la mission centrale des bibliothèques
- Les bibliothèques d'État et universitaires ont en général une perspective d'existence à durée indéterminée.
VerbaAlpina : projet pilote dans le cadre du projet "eHumanities – interdisciplinär"
- deux versions (19/1 et 19/2) dans le dépôt informatique de la bibliothèque universitaire & dans le portail de recherche "Discover"
- option de référencer ou de télécharger des versions complètes
- adresser des documents individuels, des types morpho-lexicaux ou des localités avec le matériel linguistique qui leur est associé
- générer des DOI spécifiques pour des paquets de données sélectionnés, uns autre référencement univoque par des identificateurs persistants propres à la BU
4° principe : Adressage et engagement interactif d'un large public (crowdsourcing)
compréhension de l'interface facilitée par nombreuses infobulles
exemple:
Les utilisateurs sont activement engagés de plusieurs manières :- Chacun peut apporter des formes linguistiques, qu'il soit expert ou non, et il est également possible de compléter des concepts manquants (voir https://www.verba-alpina.gwi.uni-muenchen.de/fr/en/?page_id=1741).
- Les utilisateurs qui fournissent des preuves/concepts peuvent s'enregistrer et rester ainsi accessibles pour le projet ; cela est utile pour d'éventuelles questions. #Combien de % le font ?
- Chaque utilisateur peut générer de manière interactive des cartes synoptiques en combinant n'importe quel contenu, les fixer et les proposer pour la publication. Ces propositions ne sont toutefois pas automatiquement mises à disposition de tous, mais examinées au préalable par les responsables du projet.
- Une prise de contact directe est possible via les médias sociaux du projet ainsi que via des adresses e-mail (voir Home).
- Les projets scientifiques Partenaires peuvent fournir autant de données pertinentes qu'ils le souhaitent et les héberger dans leur propre base de données, qui fait partie de l'architecture du projet.
5° principe : Des bases de données ouvertes et dynamiques
-
- numéro de version : partie de la plupart des URL qui renvoient aux ressources VerbaAlpina, exemple l'URL qui renvoie au type morpho-lexical L2599/tegia (roa f.) dans le Lexicon Alpinum, version VA 211 :
- toutes les versions disponibles : "Timeline":
6° principe : Cartographie virtuelle sur base géoréférencée
cartographie purement virtuelle : surfaces très différentes (avec/sans relief, avec/sans inscription, carte/image satellite, etc.) en option :
- Récemment : cartes historiques imprimées géoréférencées , superposées aux cartes purement virtuelles (voir cet exemple)
cartographie quantitative, exemple : le nombre des utilisateurs actifs (2416 personnes, le 30.03.2023, 17:09) par rapport aux communes et aux régions définies par la Commission européenne NUTS 3 (NUTS : Nomenclature des unités territoriales statistiques) :
- aussi selon États nationaux et régions linguistiques (familles de langues)
7° principe : Possibilité d'inclure des données contextuelles non linguistiques
informations démographiques et historiques sur le lieu attesté : liens des 5771 noms de communes de l'espace alpin aux entrées correspondantes du service geonames.org
exemple : la ville de Garmisch-Partenkirchen ⇒ informations multiples d'ordre topographique, administratif et encyclopédique (voir le symbole de Wikipedia):
stratigraphie linguistique de l'espace alpin – dans le cas de Garmisch-Partenkirchen, l'existence éventuelle d'un substrat latino-roman ⇒ données historiques pertinentes , éventuelles inscriptions romaines ou la mention antique du nom de la localité dans l'Itinerarium Antonii ou dans la Tabula Peutingeriana :
- données contextuelles non linguistiques : conservées avec les données linguistiques dans le tableau "lieux" de la base de données centrale VerbaAlpina
- tableau "Lieux" : environ 175000 entrées , volume de plus de 250 MB; classées dans 47 catégories, par exemple des catégories suivantes :
- monastères (1317) ; champs_de_fouilles_lombards (120) ; communautés walser (77) ; inscriptions rhétiques (36) ; ...
8° principe : Incorporation de l'atlas, du dictionnaire et du texte analytique
-
- Les genres traditionnels de la recherche géolinguistique (monographie locale, atlas, dictionnaire, corpus) : complémentaires
- reliés de manière organique dans médias numériques ⇒ exemple : l'onglet méthodologie avec discussions théoriques (linguistique et informatique), liée aux deux fonctionnalités principales
- à la PAGE NOT FOUND!
- au Lexicon Alpinum
conçues en symbiose :
-
- requêtes sur le corpus de données cliquant sur le bouton 'SQL Query' :
-
- lien en bleu en bas de l'info-bulle ⇒ page spécifique contenant des informations détaillées
Exemple : attestations avec le type de base "butyru(m)" :
Un exemple d'agrégation et d'imbrication des genres scientifiques
point de départ : article chaschöl du dictionnaire de référence du roman des Grisons DRG (Link), sur la carte chaschöl 'fromage' en association avec celles d'autres sources, voir le marquage représentatif des lieux du VSI.:
- voir spécificité régionale du type (Tessin, Grisons, Dolomites) dans le contexte de toutes les autres dénominations de FROMAGES (voir la carte FROMAGE)
Bibliographie
- ADDU = Thun, Harald / Elizaincín, Adolfo (2000-): Atlas lingüístico diatópico y diastrático del Uruguay, Kiel, Westensee
- AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
- ASD = Krefeld, Thomas / Lücke, Stephan / Mages, Emma (2016): Audioatlas Siebenbürgisch-Sächsischer Dialekte , München, Ludwig-Maximilians-Universität. Link
- ASLEF = Pellegrini, Giovan Battista (1974-1986): Atlante storico-linguistico-etnografico friulano, Padova, vol. 1-6
- AsiCa = Krefeld, Thomas / Lücke, Stephan (2006-2017): Atlante sintattico della Calabria, München. Link
- Asica 2.0 = Krefeld, Thomas / Lücke, Stephan (2019): Atlante sintattico della Calabria. Rielaborato tecnicamenta da Veronika Gacia e Tobias Englmeier, München. Link
- DRG = De Planta, Robert/ Melcher, Florian/ Pult, Chasper/ Giger, Felix (1938ff.): Dicziunari Rumantsch grischun, Chur, Inst. dal Dicziunari Rumantsch Grischun. Link
- GPSR = Gauchat, Louis (Hrsg.) (1924ff.): Glossaire des patois de la Suisse romande, Genève [u.a.], Droz [u.a.]
- Idiotikon = (1881 ff.): Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch, Basel. Link
- Krefeld 2018 g = Krefeld, Thomas (2018): I principi FAIR nel progetto VerbaAlpina, ossia il trasferimento della geolinguistica alle Digital Humanities. Link
- Krefeld/Lücke 2020 = Krefeld, Thomas / Lücke, Stephan (2020): 54 Monate VerbaAlpina – auf dem Weg zur FAIRness, in: Ladinia, vol. XLIII, 139-156. Link
- Metropolitalia = Krefeld, Thomas / Lücke, Stephan / Bry, François (2010-2013): Metropolitalia. Social Language Tagging, München. Link
- VALTS = Gabriel, Eugen (1985-2004): Vorarlberger Sprachatlas mit Einschluss des Fürstentums Liechtenstein, Westtirols und des Allgäus , vol. 1-5, Bregenz, vol. 1-5, Vorarlberger Landesbibliothek
- VSI = Sganzini, Silvio (1952ff): Vocabolario dei dialetti della Svizzera italiana, Lugano, Tipografia la Commerciale
- VerbaAlpina = Krefeld, Thomas / Lücke, Stephan (2014-): VerbaAlpina. Der alpine Kulturraum im Spiegel seiner Mehrsprachigkeit, München. Link
- WBOe = Bauer, Werner/ Kranzmayer, Eberhard. Institut für österreichische Dialekt- und Namenlexika (Hrsg.) (1970–): Wörterbuch der bairischen Mundarten in Österreich, Wien, Verl. der Österr. Akad. der Wiss.