Corpus
-
Presentazione breve
Il corpus d'italiano parlato TIGR è stato raccolto nei cantoni svizzeri Ticino e Grigioni negli anni 2021-2022. Esso documenta interazioni faccia a faccia in situazioni non sperimentali di vario genere: conversazioni a tavola, preparazione di cibo, lezioni e incontri di tutoring, interviste, per 23,5 ore in totale. Le interazioni sono state registrate con due telecamere e audioregistratori tascabili muniti di microfoni da bavero e trascritte mediante il software ELAN. Questi lavori sono stati compiuti nel quadro del progetto InfinIta (sussidio FNS no. 192771). Accanto al team di InfinIta (Johanna Miecznikowski, Elena Battaglia e Christian Geddo), hanno contribuito, svolgendo compiti specifici, Chiara Sbordoni (fieldwork e trascrizione), Benedetta Scotto di Santolo (trascrizione) e Costanza Lucchini (trascrizione). Nel 2023 è iniziata una ulteriore fase di elaborazione dei dati con lo scopo di depositare il TIGR sul repositorio LaRS @ SWISSUbase e renderlo così accessible alla comunità scientifica. I relativi compiti sono attualmente svolti dal team di InfinIta e da Nina Profazi nel contesto del progetto ShareTIGR (sussidio ORD USI).
-
Progettazione e composizione del corpus
Il design del TIGR risponde agli obiettivi delle indagini condotte sulla categorizzazione delle fonti di informazione entro il progetto InfinIta. Esso fa variare alcuni parametri relativi al tipo di evento, in particolare il grado di istituzionalità dell'incontro, il numero di partecipanti, i loro ruoli sociali e la presenza o meno di multi-attività. La variazione dei primi tre parametri permette di osservare diverse configurazioni epistemiche e dinamiche di posizionamento. Il parametro della multi-attività permette, fra l'altro, di apprezzare la rilevanza dell'esperienza diretta in situ come fonte di informazione.
Mirando a una diversificazione dei tipi di interazione secondo i quattro criteri menzionati, il team di InfinIta ha registrato cinque conversazioni a tavola, due eventi in cui si prepara del cibo, quattro sessioni di tutoring in architettura, sei lezioni - di teatro, musica, restauro, cultura generale e glottodidattica - e sei interviste incentrate sull'allora attuale tema della pandemia da Coronavirus. Il numero di partecipanti varia da due a diciannove. Nelle interazioni in contesto istituzionale (cioè le lezioni e in una certa misura anche le interviste, fatte dai membri di InfinIta), i ruoli dei partecipanti sono ben definiti e di solito distribuiti in modo asimmetrico. Nelle interazioni non istituzionali, registrate a casa delle persone, i ruoli sono spesso simmetrici, ma emergono anche asimmetrie, per esempio quando sono presenti più generazioni. Quanto alla multi-attività, è presente non solo nelle conversazioni a tavola e quando si prepara il cibo, ma anche in diverse interazioni in contesto didattico, organizzate sotto forma di atelier di lavoro. Conviene precisare che queste ultime sostiuiscono un altro genere di interazione, i lavori di gruppo, che era previsto dalla progettazione iniziale del TIGR, ma fu scartato in seguito a delle difficoltà incontrate durante il periodo pandemico.
Tutti gli eventi sono stati registrati nella Svizzera italiana, sia in Ticino (diciannove eventi), sia nel Grigioni italiano (tre eventi) e in una istituzione plurilingue dello stesso cantone (un evento). Sono rappresentati undici comuni, con una certa attenzione alla diversificazione dei luoghi all'interno della Svizzera italiana. I parametri relativi ai parlanti (età, genere, informazioni sulla provenienza, residenza, formazione, professione e lingue) sono stati variati nella misura del possibile, entro i limiti di un modello di reclutamento dei parlanti che è dipeso in parte dalle reti sociali dei membri del progetto InfinIta (v. la sezione Presa di contatto con le/i partecipanti e consenso informato).
Post sul blog scientifico:
- Contributo di blog del 4 aprile 2024: La composizione del TIGR
Documento:
-
Un momento storico particolare: la pandemia da Covid-19
Post sul blog scientifico:
- Post del 29 agosto 2024: Raccogliere dati linguistici ai tempi del COVID-19
-
Luoghi e partecipanti
in costruzione
- Contributo blog del 21 marzo 2024: Digitisation of the TIGR participant questionnaires (in inglese)
-
Presa di contatto con le/i partecipanti e consenso informato
In aprile 2021 InfinIta lanciò una campagna per trovare informatrici e informatori disposti a farsi videoregistrare nei diversi contesti previsti dal progetto. Per ogni potenziale partecipante la procedura di contatto era articolata in tre momenti: (i) diffusione, tramite posta elettronica, passaparola e il servizio X (allora Twitter), di una breve presentazione dello studio, bilanciando le informazioni fornite e lo stimolo alla curiosità; (ii) compilazione, da parte della persona interessata, di un questionario on-line preparato mediante l'applicazione Qualtrics XM; (iii) sulla base delle informazioni fornite nel questionario, presa di contatto con la singola persona da parte di un membro del team, tramite mail e telefono, mettendosi a disposizione per ulteriori chiarimenti e pianificando tempi e luogo dell’evento di registrazione.
Post sul blog scientifico:
- Contributo blog del 18 luglio 2024: Il lavoro sul campo: ricerca e contatto dei partecipanti
- Contributo blog del 25 luglio 2024: Dichiarazioni di consenso informato
Documenti:
-
Registrazioni audio e video
Per ogni evento del TIGR sono state fatte due riprese video da angolazioni differenti, usando delle telecamere Sony HXR-NX80//C. Le tracce audio sono da due a sei, secondo il numero di partecipanti all'evento. Sono state registrate con da due a quattro registratori tascabili Tentacle Track E muniti di microfono da bavero e con un microfono esterno Sony EGM-VG1 montato su una delle telecamere. Nel caso specifico dell'interazione in classe, l'équipe ha aggiunto un ulteriore microfono, del tipo Neumann TLM 127 ni-K, collocato in posizione centrale e collegato con l'altra telecamera.
I vari dispositivi sono stati sincronizzati prima dell'inizio della registrazione per ottenere una corrispondenza più precisa possibile tra immagine e suono. A questo fine sono stati impiegati generatori di timecode della marca Tentacle. Tali generatori sono parte integrante degli audioregistratori Tentacle Track E, che registrano direttamente un timecode numerico. Con le telecamere sono invece stati usati i dispositivi esterni Tentacle Sync, collegati tramite le connessioni per microfoni delle telecamere. Essi generano del timecode acustico che durante le riprese viene registrato nel corrispondente canale audio. Una componente cruciale del sistema Tentacle è un'applicazione mobile che comunica con tutti i dispositivi tramite bluetooth e permette di sincronizzarli da remoto nonché di avviare e interrompere le registrazioni.
Dopo le riprese, i file video sono stati elaborati dal programma Tentacle Timecode Tool per Windows. Il programma legge il segnale acustico che codifica il timecode, lo converte in informazione numerica e infine lo cancella, mantenendo solo il timecode numerico. In un'ulteriore fase di post-produzione, tutti i file video e audio sono sono stati importati in un progetto Adobe Premiere, dove sono stati allineati sulla base del timecode numerico e sono stati tagliati per ottenere tracce di uguale durata.
Le impostazioni tecniche di ogni evento e altri aspetti inerenti alla collezione dei dati sono stati descritti in una scheda, talvolta corredata da fotografie. La scheda registra la data e il luogo dell'evento, elenca i dispositivi usati e i codici identificatori anonimi dei partecipanti, riporta eventuali desideri di deidentificazione e contiene appunti su altri aspetti della situazione che l'équipe sul campo giudicava potenzialmente rilevanti per l'interpretazione dei dati. Una funzione importante della scheda è di associare i codici identificatori dei parlanti a una descrizione del loro aspetto e ai nomi dei microfoni da bavero. Essa contiene, infine, appunti su eventuali problemi tecnici riscontrati durante l'elaborazione dei file tramite TTT e in Adobe Premiere.
Post sul blog scientifico:
- Contributo blog dell'11 aprile 2024: Dall'evento al dataset
-
Trascrizione in ELAN
Il corpus è stato trascritto mediante l'annotatore multimedia ELAN, v. 6.7 e seguendo le convenzioni GAT 2 per la trascrizione fine (Selting et al. 2011), con alcuni adattamenti.
Post sul blog scientifico:
- Contributo blog del 2 maggio 2024: Morfologia delle trascrizioni, parte I: leggibili in che modo?
- Contributo blog del 9 maggio 2004: Morfologia delle trascrizioni, parte II: codificare il tempo
Video associato: https://www.youtube.com/watch?v=Ileqblg23_o - Contributo blog del 6 giugno 2004: Morfologia delle trascrizioni, parte IV: allineamento temporale e segmentazione
Video associato: https://youtu.be/rUkGMdGEZbM - Contributo vlog del 13 giugno 2004: Morfologia delle trascrizioni, parte V: gestire le sovrapposizioni
https://youtu.be/1sTw4s-9f44
Riferimenti:
- Brugman, H., Russel, A. (2004). Annotating Multimedia/ Multi-modal resources with ELAN. In: Proceedings of LREC 2004, Fourth International Conference on Language Resources and Evaluation.
- Selting, M., Auer, P., Barth-Weingarten, D., Bergmann, J., Bergmann, P., Birkner, K., Couper-Kuhlen, E., Deppermann, A., Gilles, P., Günthner, S., Hartung, M., Kern, F., Mertzlufft, C., Meyer, C., Morek, M., Oberzaucher, F., Peters, J., Quasthoff, U., Schütte, W., & Uhmann, S. (2011). A system for transcribing talk-in-interaction: GAT 2 translated and adapted for English by Elizabeth Couper-Kuhlen and Dagmar Barth-Weingarten. Gesprächsforschung, 12, 1-51. http://www.gespraechsforschung-online.de/heft2011/heft2011.html
-
Deidentificazione
In vista della loro condivisione sul repositorio, i documenti video saranno deidentificati in Adobe Premiere tramite l'applicazione di effetti video (p.es. Gaussian blur, Find edges) secondo i desideri espressi dai parlanti nelle loro dichiarazioni di consenso. Nelle tracce audio, si altereranno alcune voci secondo i desideri espressi nelle dichiarazioni di consenso e si sostituirà con rumore certi nomi e indicazioni temporali, nello specifico una serie di nomi di persone, istituzioni e luoghi nonché certe date che potrebbero facilitare l'identificazione delle e dei partecipanti. Questi interventi sono stati preparati in ELAN tramite l'annotazione dei passi problematici come name in un'apposita traccia. Si userà uno script per leggere i tempi iniziali e finali dei segmenti annotati e istruire il programma Praat a elaborare l'insieme delle tracce audio negli intervalli in questione, cancellando il suono originale e inserendo frammenti di rumore. Nelle trascrizioni, l'informazione personale è stata sostituita da pseudonimi. I nomi dei partecipanti sono stati sostituiti da pseudonimi di simile lunghezza. Al posto di altre informazioni personali sono state inserite le diciture personname / institutionname / placename / datename accompagnate da indici, così da permettere riferimenti multipli alla stessa entità all'interno di una trascrizione.
-
Trascrizioni in formato TXT e XML
Partendo dalle trascrizioni di base prodotte in ELAN, nel progetto ShareTIGR prepariamo due versioni di ogni trascrizione:
- Una versione TXT (formato testo semplice). È interpretabile dal lettore e dalla lettrice umano/a e impaginata secondo criteri sia teorici, sia di leggibilità. Contiene indicazioni di timecode a intervalli di ca. dieci secondi per facilitare la navigazione tra testo e documenti audio/video quando non si dispone di software che assicuri un allineamento testo-video automatico.
- Una versione XML. Intendiamo produrre una versione della trascrizone in un formato XML ancora da definire, interpretabile dai programmi di interrogazione e idealmente tokenizzata, cioè divisa in parole etichettate come tali.
Entrambe le versioni richiedono un'elaborazione dei documenti ELAN. Per la confezione delle trascrizioni in formato testo è stato definito un flusso di lavoro che alterna procedure automatiche, interventi manuali e revisioni manuali assistite da script. Esso è descritto in un documento che rientrerà nella documentazione metodologica del corpus TIGR ed è tema della serie "Morfologia delle trascrizioni I-VI" sul blog scientifico di ShareTIGR. Le scelte teoriche e le procedure da adottare in vista di una versione XML del corpus sono attualmente oggetto di discussione.
Post sul blog scientifico:
- Contributo blog dell'11 aprile 2024: Dall'evento al dataset
- Contributo blog del 2 maggio 2024: Morfologia delle trascrizioni, parte I: leggibili in che modo?
- Contributo blog del 9 maggio 2024: Morfologia delle trascrizioni, parte II: codificare il tempo
Video associato: https://www.youtube.com/watch?v=Ileqblg23_o - Contributo blog del 16 maggio 2024: Morfologia delle trascrizioni, parte III: il primo script
Video associato: https://www.youtube.com/watch?v=wNyGZJVDbyg (muto) - Contributo blog del 6 giugno 2024: Morfologia delle trascrizioni, parte IV: allineamento temporale e segmentazione
Video associato: https://youtu.be/rUkGMdGEZbM - Contributo vlog del 13 giugno 2024: Morfologia delle trascrizioni, parte V: gestire le sovrapposizioni
https://www.youtube.com/watch?v=1sTw4s-9f44 - Contributo blog del 11 luglio 2024: Morfologia delle trascrizioni, parte VI: uso di script in fase di impaginazione e di revisione
-
Accessibilità tramite repositorio
Il corpus TIGR sarà depositato nel Language Repository of Switzerland LaRS, una sezione del repositorio SWISSUbase.
Post sul blog scientifico:
- Contributo blog del 28 marzo 2024: "As open as possible, as restricted as necessary" (in inglese)
- Contributo blog del 18 aprile 2024: Exploring LaRS @ SWISSUbase (in inglese)
Video associato: https://www.youtube.com/watch?v=lqU2JPhQjBY (muto) - Contributo blog del 25 aprile 2024: Grouping the TIGR data for reuse (in inglese)
-
Metadati
Il repositorio SWISSUbase organizza i dati sotto forma di studi che contengono uno o più insiemi di dati (dataset), che a loro volta contengono uno o più documenti (files). Offre dei moduli per inserire metadati ai tre livelli. Per descrivere insiemi di dati e singoli documenti, la sezione LaRS di SWISSUbase offre campi e vocabolari controllati che sono concepiti specificamente per i dati linguistici. A livello degli insiemi di dati, tali campi riguardano per esempio il tipo di risorsa e caratteristiche generali del gruppo di partecipanti coinvolti. A livello di singoli documenti è possibile descrivere le lingue documentate; caratteristiche di eventuali annotazioni; le proprietà tecniche, la durata e il contenuto di documenti audio e video, testi e immagini; infine, gli strumenti usati per elaborare i dati (p.es. un programma di trascrizione o di annotazione).
Per documentare con più precisione il corpus TIGR, ulteriori metadati saranno aggiunti tramite un'apposita documentazione depositata a livello degli insiemi di dati. Ciò ha particolare rilevanza nel caso dei dataset che corrispondono a un singolo evento. In quel tipo di dataset, l'evento è quella entità alla quale tutti i documenti inclusi afferiscono e dalla quale ereditano non poche proprietà, come per esempio la regione dove è stata effettuata la registrazione, il genere di interazione, il gruppo di partecipanti coinvolti o l'impostazione tecnica della registrazione. Un documento con metadati permette di rappresentare quell'entità e di rendere espliciti i legami con i singoli documenti inclusi nell'insieme. Inoltre un tale documento può essere usato per elencare i partecipanti all'evento e collegare quest'informazione ai dati sociolinguistici raccolti tramite questionario durante le registrazioni.
Post sul blog scientifico:
- Contributo blog del 18 aprile 2024: Exploring LaRS @ SWISSUbase (in inglese)
Video associato: https://www.youtube.com/watch?v=lqU2JPhQjBY (muto) - Contributo blog del 6 settembre 2024: Why metadata is important for FAIR data sharing and reuse (in inglese)
- Contributo blog del 3 ottobre 2024: Metadata on LaRS: the in-built scheme (in inglese).
- Contributo blog del 10 ottobre 2024: Metadata on LaRS: designing metadata files for event datasets (in inglese)
Riferimento:
- SWISSUbase (2023). Metadata Guide for Linguistics Data. Metadata documentation. Version 1.1. https://resources.swissubase.ch/wp-content/uploads/2023/12/Linguistics_Metadata-Guide_en.pdf
- Contributo blog del 18 aprile 2024: Exploring LaRS @ SWISSUbase (in inglese)