Sharing the TIGR corpus of spoken Italian:
an ORD case study

Dall'evento al dataset

Technical devices to produce audio/video recordings of face-to-face interaction

ShareTIGR

11 April 2024

Dall'evento al dataset

Dopo la presentazione del disegno complessivo del TIGR, questa settimana mettiamo a fuoco l'organizzazione interna dei singoli eventi che compongono il corpus.

I ventitre eventi del TIGR sono insiemi di documenti con una struttura ricorrente, che risulta da metodi applicati in modo sistematico. Come nei laboratori descritti dal sociologo della scienza Bruno Latour (per esempio Latour & Woolgar 1979), questi metodi servono a cogliere l'effimero per trasformarlo in oggetti che possono essere accumulati, riordinati, trasportati da un luogo all'altro, ispezionati e interpretati da più persone. Fra essi sono fondamentali i processi di "iscrizione", che fissano un evento grazie all'osservazione, misurazione e registrazione delle sue manifestazioni fisiche, e svariati processi di "traduzione", che modificano e riarrangiano l'informazione "iscritta". Nel nostro caso, è così stato possibile fabbricare oggetti scritti digitali - un insieme di dati - partendo da un incontro tra persone.

Apro una parentesi su una distinzione che si incontra spesso, quella tra dati primari e dati secondari. Essa sembra cogliere l'intuizione che alcuni dati - quelli primari - sono più basilari, più vicini al fenomeno empirico, mentre altri dati - quelli secondari - hanno un legame più indiretto con il fenomeno. È utile, forse, a comprendere i vari tipi di dati nel TIGR e le loro trasformazioni?

Nella guida no. 1 di FORS (2018) si legge che i dati primari sarebbero quelli raccolti sul campo dalla/o studiosa/o stessa/o, mentre i dati secondari sarebbero "de seconde main" (p. 5), cioè sarebbero dati che la/o studiosa/o riprende, ma che sono stati raccolti, elaborati e interpretati da altri. Questa definizione riflette probabilmente consuetudini diffuse nelle scienze sociali e in quelle mediche, dove chi riusa i dati altrui raramente torna sui dati "raccolti sul campo", ma piuttosto ne consulta vari tipi di rielaborazioni, per esempio analisi statistiche. Dal punto di vista teorico la definizione è tuttavia poco coerente perché incrocia due criteri distinti, cioè il rapporto tra dati e fenomeno empirico e quello tra dati e utente. Di sicuro la definizione non è utile per comprendere i cicli di vita dei dati in linguistica. La linguistica dei corpora mira proprio alla condivisione di dati che siano più fedeli possibile a quelli raccolti sul campo. Una volta riusati, quei dati cesserebbero di essere primari per il solo fatto di essere "di seconda mano"?

Il linguista Christian Lehmann, invece, in un suo articolo del 2004, definisce i dati linguistici primari come rappresentazioni di eventi comunicativi storicamente situati, mentre i dati linguistici secondari sarebbero più astratti, come per esempio le frasi inventate a fini dimostrativi o i lemmi in un dizionario. Per quanto riguarda i dati primari, Lehmann distingue inoltre tra rappresentazioni originali, per esempio la videoregistrazione di una interazione, e rappresentazioni derivate, in particolare la trascrizione fatta sulla base di una registrazione.

Ancora diversa è l'opinione di Lorenza Mondada, che ha studiato a fondo e sviluppato varie pratiche di trascrizione. Per Mondada (p.es. 2007, §6), quando si studia l'oralità, sono dati primari unicamente le audio/videoregistrazioni. Le trascrizioni, insieme ad altri tipi di annotazioni, sarebbero da considerarsi dati secondari, frutto di pratiche complesse che implicano interpretazioni e scelte da parte di chi trascrive.

Scartando l'ipotesi di una stretta correlazione tra tipi di dati e uso di prima e di seconda mano, che nel nostro contesto pare davvero problematica, possiamo concludere che c'è consenso sul fatto che le videoregistrazioni di interazioni sono dati linguistici primari, mentre le trascrizioni non sono dati primari a tutti gli effetti. Le trascrizioni sono o derivate (Lehmann) o secondarie (Mondada), comunque posteriori a, e sostanzialmente diverse, dalle registrazioni. La discussione suggerisce anche che un criterio importante per giudicare lo statuto dei dati è la complessità interpretativa della pratica di "traduzione" che li produce. Nell'insieme, di fronte alle divergenze terminologiche e vista la varietà di dati con i quali abbiamo a che fare, pare difficile adottare una distinzione netta tra dati primari e secondari. Nel seguito parlerò piuttosto di documenti prodotti sul campo, in diretto contatto con le persone, e nel caso dei documenti elaborati successivamente proverò a stimare il grado di diversità dai documenti di partenza.

Con ciò torno agli eventi del TIGR. Due tipi di documenti prodotti sul campo non saranno condivisi come tali, ma forniranno informazioni da codificare come metadati: le dichiarazioni di consenso e i questionari sociolinguistici discussi qui. I rimanenti documenti prodotti sul campo saranno condivisi dopo alcuni interventi che sono importanti, ma non ne modificano profondamente la natura:

Singole tracce video. Per ogni evento sono state fatte due riprese da angolazioni differenti. I file sono sono stati allineati e tagliati in post-produzione e, in vista della condivisione, dovranno essere de-identificati tramite l'applicazione di filtri secondo i desideri espressi dai parlanti nelle loro dichiarazioni di consenso.
Singole tracce audio. Le tracce audio sono da due a sei, secondo il numero di partecipanti all'evento. Sono state registrate con da due a quattro registratori tascabili muniti di microfono da bavero e con un microfono esterno montato su una delle telecamere. In alcuni casi si è aggiunto un ulteriore microfono collocato in posizione centrale e collegato con l'altra telecamera. Anche le tracce audio sono state allineate e tagliate. Gli interventi di de-identificazione riguarderanno la sostituzione dei nomi propri con fruscio e la distorsione di alcune voci secondo i desideri espressi nelle dichiarazioni di consenso.
Scheda tecnica. Questi appunti presi dai membri del team InfiniIta, talvolta corredati da fotografie, registrano la data e il luogo dell'evento, elencano i dispositivi usati e i codici identificatori anonimi dei partecipanti, riportano eventuali desideri di anonimizzazione, descrivono altri aspetti della situazione e annotano particolarità tecniche delle registrazioni. Una loro funzione importante è di associare i codici identificatori dei parlanti a una descrizione del loro aspetto e ai nomi dei microfoni da bavero. In vista della condivisione sul repositorio, la scheda sarà sottoposta a modifiche redazionali e testo e fotografie saranno de-identificati dove necessario.

A questi documenti si aggiungeranno documenti "derivati" o "secondari", che dir si voglia, sostanzialmente diversi da quelli prodotti sul campo. Oltre alle trascrizioni, delle quali è stata questione poc'anzi, rientra in questa categoria anche un prodotto audiovisivo nuovo che si aggiunge alle tracce singole:

Trascrizione di base. È stata effettuata nell'annotatore multimediale ELAN, ancorando i segmenti del testo alla linea del tempo dei documenti audiovisivi e seguendo le convenzioni GAT 2 per la trascrizione fine (Selting et al. 2011), con alcuni adattamenti.
Versione testo della trascrizione. È interpretabile dal lettore e dalla lettrice umano/a e impaginata secondo criteri sia teorici, sia di leggibilità. Contiene indicazioni di timecode a intervalli di ca. dieci secondi per facilitare la navigazione tra testo e documenti audio/video quando non si dispone di software che assicura un allineamento automatico.
Versione XML della trascrizione. Intendiamo produrre una versione della trascrizone in un formato XML ancora da definire, interpretabile dai programmi di interrogazione e tokenizzata, cioè divisa in parole etichettate come tali.
Video compatto. Questo prodotto integrerà le due videoriprese in un'unica immagine a schermo diviso e conterrà un'unica traccia sonora mixata. Diversamente dalle tracce video e audio singole, che necessitano di un programma di annotazione o di editing video per essere visionate congiuntamente, un video compatto può essere guardato facilmente usando i lettori più comuni. La sua produzione implica delle scelte quanto alla disposizione delle due immagini e la regolazione del volume delle singole voci registrate dai microfoni da bavero.

Più tardi su questo blog spiegheremo in più dettaglio la genesi e le caratteristiche delle varie categorie di documenti. La vista d'insieme abbozzata in questo contributo ha chiarito a grandi linee, intanto, quali tipi di dati si intendono trasferire sul repositorio LaRS. A LaRS torneremo la prossima settimana per esplorare la sua organizzazione gerarchica e alcuni studi già depositati, prima di progettare l'organizzazione dei dati del TIGR in LaRS.

Johanna Miecznikowski

Bibliografia

FORS (2018). Guide no. 1: Bienvenue dans le monde des donnés. https://forscenter.ch/wp-content/uploads/2018/08/guide-1-bienvenue-monde-donnes.pdf

Latour, B. & Woolgar, S. (1979). Laboratory Life: the Social Construction of Scientific Facts, London, Sage.

Lehmann, Christian (2004), "Data in linguistics." The Linguistic Review 21(3/4): 275-310.
Si veda anche: https://www.christianlehmann.eu/ling/ling_meth/data/?open=data

Mondada, L. (2007). Enjeux des corpus d'oral en interaction : re-temporaliser et re-situer le langage. Langage et société, 121-122, 143-160. https://doi.org/10.3917/ls.121.0143

Selting, M., Auer, P., Barth-Weingarten, D., Bergmann, J. ö, Bergmann, P., Birkner, K., Couper-Kuhlen, E., Deppermann, A., Gilles, P., Günthner, S., Hartung, M., Kern, F., Mertzlufft, C., Meyer, C., Morek, M., Oberzaucher, F., Peters, J. ö, Quasthoff, U., Schütte, W., & Uhmann, S. (2011). A system for transcribing talk-in-interaction: GAT 2 translated and adapted for English by Elizabeth Couper-Kuhlen and Dagmar Barth-Weingarten. Gesprächsforschung, 12, 1-51. http://www.gespraechsforschung-online.de/fileadmin/dateien/heft2011/px-gat2-englisch.pdf

Institute of Italian Studies
Università della Svizzera italiana
West Campus, Main Building
Via Buffi 13
6900 Lugano, Switzerland
tel +41 58 666 42 95
e-mail [email protected]

Stay in touch

Team

Corpus

Blog

Publications

Dall'evento al dataset

Quicklinks

Share

Print

Stay in touch