Sharing the TIGR corpus of spoken Italian:
an ORD case study

ShareTIGR: un anno per preparare la condivisione del corpus di italiano parlato TIGR

Verso un corpus di italiano parlato

ShareTIGR

13 March 2024

Lo scorso mese è iniziato il progetto ShareTIGR, il cui obiettivo è di condividere con la comunità scientifica il corpus TIGR, un insieme di materiali per lo studio dell'italiano parlato raccolto nei cantoni svizzeri Ticino e Grigioni. Il presente contributo presenta in breve il progetto e inaugura una serie di blog post che racconteranno le attività del team in carico.

Il corpus TIGR documenta interazioni che si sono svolte faccia a faccia negli anni 2021-2022 - in periodo pandemico, dunque! - in situazioni di vario genere: conversazioni a tavola, preparazione di cibo, incontri di tutoring in architettura, lezioni, interviste. Le interazioni sono state registrate con due telecamere e microfoni da bavero e in seguito trascritte mediante un'applicazione (ELAN) che associa ogni pezzo di testo al/la parlante che l'ha prodotto e all'intervallo corrispondente del file video. I materiali sono stati raccolti nel quadro di una ricerca finanziata dal Fondo Nazionale Svizzero (il progetto InfinIta sulle fonti d'informazione nell'italiano parlato, 2020-2024), ma sono ricchi di informazioni utili a indagare una vasta gamma di temi oltre quelli previsti dal progetto d'origine. I corpora orali possono infatti essere usati per studiare in diverse prospettive l'interazione, il discorso, il lessico, la grammatica, la variazione geografica e sociale della lingua.

Condizione del riuso dei dati è che essi siano reperibili, accessibili tecnicamente e disponibili in formati di ampia diffusione e interoperabili, in breve che siano FAIR (findable, accessible, interoperable, reusable, Wilkinson et al. 2016). I dati del TIGR sono stati raccolti in tal modo da poter soddisfare questi criteri e contemporaneamente assicurare un'adeguata protezione dei dati personali (sul difficile bilanciamento delle varie esigenze si vedano Diaz 2022 e Miecznikowski e Profazi 2023b). Nello specifico, ogni partecipante registrata/o ha espresso il proprio consenso all'uso dei dati dopo essere messa/o a conoscenza degli scopi dell'indagine e delle modalità di diffusione dei dati. In ShareTIGR, elaboreremo ulteriormente i dati, eliminando certe informazioni personali, preparando file audio-video maneggevoli, convertendo e formattando le trascrizioni, redigendo descrizioni a vari livelli e preparando metadati leggibili dai motori di ricerca. Infine, li depositeremo su SWISSUbase, un repositorio scientifico svizzero per le scienze sociali e la linguistica. Gli utenti interessati potranno così scaricare i documenti e usarli ai fini delle proprie ricerche, dopo essersi registrati e aver firmato un accordo che precisa le modalità e gli scopi del riuso.

Dopo il deposito su repositorio, un ulteriore scenario di condivisione può essere quello di inserire i documenti su una piattaforma che permetta la loro consultazione e analisi online. Piattaforme esistenti per i corpora orali come il sito del corpus KiParla (Mauri e Goria 2018, Miecznikowski e Profazi 2023a), la Datenbank für Gesprochenes Deutsch DGD (Schmidt 2014) o il Corpus de LAngue Parlée en Interaction CLAPI mostrano i vantaggi e il potenziale della consultazione online. Ciò è emerso chiaramente da una serie di giornate di studio organizzate nel quadro di un progetto attualmente in corso all'USI, in collaborazione con altre università svizzere, co-finanziato da swissuniversities e volto a esplorare "Data-sharing skills in corpus-based research on talk-in-interaction" (CHORD-talk-in-interaction). Piattaforme per corpora orali multimediali devono tuttavia ancora essere sviluppate in Svizzera.

Tornando a ShareTIGR, il progetto durerà un anno e sarà coinvolto il team di InfinIta (Johanna Miecznikowski, Elena Battaglia e Christian Geddo), che è stato presente sul campo e ha revisionato le trascrizioni, rafforzato nei primi mesi dal contributo di una collaboratrice attiva anche in CHORD-talk-in-interaction (Nina Profazi). Durante quest'anno, in parallelo al lavoro sui dati completeremo man mano la descrizione del corpus TIGR sul sito del progetto e condivideremo la nostra esperienza tramite il blog, a più voci e in due lingue (italiano e inglese). Ci rivolgiamo a studiose e studiosi di linguistica e delle scienze sociali, a persone interessate alle digital humanities, a specialisti della gestione di dati, a divulgatori scientifici e al pubblico interessato. Usando diversi canali, dai convegni scientifici alle pagine web, il blog e i social media, intendiamo trattare la preparazione del corpus TIGR come un caso studio che permetta di riflettere su sfide e opportunità, problemi e soluzioni che riguardano più generalmente gli open research data (ORD) in linguistica e in campi affini.

Johanna Miecznikowski

Bibliografia

Balthasar, L., Bert, M. (2005). La plateforme « Corpus de langues parlées en interaction » (CLAPI). Historique, état des lieux, perspectives. Lidil 31, 13-33. https://doi.org/10.4000/lidil.139

Diaz, P. (2022). Data protection: legal considerations for research in Switzerland. FORS Guide No. 17, Version 1.0. Lausanne: Swiss Centre of Expertise in the Social Sciences FORS. https://doi.org/10.24449/FG-2022-00017

Mauri, C., Goria, E. (2018). Il corpus KIParla: una nuova risorsa per lo studio dell’italiano parlato. In F. Masini and F. Tamburini (eds.), CLUB Working Papers in Linguistics, 2, 96-116. Bologna: CLUB – Circolo Linguistico dell’Università di Bologna. https://amsacta.unibo.it/id/eprint/6060/

Miecznikowski, J., Profazi, N. (2023a). Spoken language corpora as open research data: the example of KIParla. https://www.chord-talk-in-interaction.usi.ch/news/feeds/36167

Miecznikowski, J., Profazi, N. (2023b). Social interaction is among people. Legal, technical, and ethical explorations about personal information and its removal in talk-in-interaction as data. https://www.chord-talk-in-interaction.usi.ch/news/feeds/36387

Schmidt, T. (2014): The Database for Spoken German – DGD2. In: Proceedings of the Ninth conference on International Language Resources and Evaluation (LREC’14), Reykjavik, Iceland: European Language Resources Association (ELRA), 1451-1457.

Wilkinson, M. D., Dumontier, M., Aalbersberg, I. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J. W., da Silva Santos, L. B., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Waagmeester, A., Wittenburg, P., Wolstencroft, K., . . . Velterop, J. (2016). The FAIR guiding principles for scientific data management and stewardship. Scientific Data, 3(1), 1-9. https://doi.org/10.1038/sdata.2016.18.

Institute of Italian Studies
Università della Svizzera italiana
West Campus, Main Building
Via Buffi 13
6900 Lugano, Switzerland
tel +41 58 666 42 95
e-mail [email protected]

Stay in touch

Team

Corpus

Blog

Publications

ShareTIGR: un anno per preparare la condivisione del corpus di italiano parlato TIGR

Quicklinks

Share

Print

Stay in touch