Skip to main content

Corpus

  • Presentazione breve

    Il corpus d'italiano parlato TIGR è stato raccolto nei cantoni svizzeri Ticino e Grigioni negli anni 2021-2022. Esso documenta interazioni faccia a faccia in situazioni non sperimentali di vario genere: conversazioni a tavola, preparazione di cibo, lezioni e incontri di tutoring, interviste, per 23,5 ore in totale. Le interazioni sono state registrate con due telecamere e audioregistratori tascabili muniti di microfoni da bavero e trascritte mediante il software ELAN. Questi lavori sono stati compiuti nel quadro del progetto InfinIta (sussidio FNS no. 192771). Accanto al team di InfinIta (Johanna Miecznikowski, Elena Battaglia e Christian Geddo), hanno contribuito, svolgendo compiti specifici, Chiara Sbordoni (fieldwork e trascrizione), Benedetta Scotto di Santolo (trascrizione) e Costanza Lucchini (trascrizione). Nel 2023 è iniziata una ulteriore fase di elaborazione dei dati con lo scopo di depositare il TIGR sul repositorio LaRS @ SWISSUbase e renderlo così accessible alla comunità scientifica. I relativi compiti sono attualmente svolti dal team di InfinIta e da Nina Profazi nel contesto del progetto ShareTIGR (sussidio ORD USI).

  • Progettazione e composizione del corpus

    Il design del TIGR risponde agli obiettivi delle indagini condotte sulla categorizzazione delle fonti di informazione entro il progetto InfinIta. Esso fa variare alcuni parametri relativi al tipo di evento, in particolare il grado di istituzionalità dell'incontro, il numero di partecipanti, i loro ruoli sociali e la presenza o meno di multi-attività. La variazione dei primi tre parametri permette di osservare diverse configurazioni epistemiche e dinamiche di posizionamento. Il parametro della multi-attività permette, fra l'altro, di apprezzare la rilevanza dell'esperienza diretta in situ come fonte di informazione. 

    Mirando a una diversificazione dei tipi di interazione secondo i quattro criteri menzionati, il team di InfinIta ha registrato cinque conversazioni a tavola, due eventi in cui si prepara del cibo, quattro sessioni di tutoring in architettura, sei lezioni - di teatro, musica, restauro, cultura generale e glottodidattica - e sei interviste incentrate sull'allora attuale tema della pandemia da Coronavirus. Il numero di partecipanti varia da due a diciannove. Nelle interazioni in contesto istituzionale (cioè le lezioni e in una certa misura anche le interviste, fatte dai membri di InfinIta), i ruoli dei partecipanti sono ben definiti e di solito distribuiti in modo asimmetrico. Nelle interazioni non istituzionali, registrate a casa delle persone, i ruoli sono spesso simmetrici, ma emergono anche asimmetrie, per esempio quando sono presenti più generazioni. Quanto alla multi-attività, è presente non solo nelle conversazioni a tavola e quando si prepara il cibo, ma anche in diverse interazioni in contesto didattico, organizzate sotto forma di atelier di lavoro. Conviene precisare che queste ultime sostiuiscono un altro genere di interazione, i lavori di gruppo, che era previsto dalla progettazione iniziale del TIGR, ma fu scartato in seguito a delle difficoltà incontrate durante il periodo pandemico.

    Tutti gli eventi sono stati registrati nella Svizzera italiana, sia in Ticino (diciannove eventi), sia nel Grigioni italiano (tre eventi) e in una istituzione plurilingue dello stesso cantone (un evento). Sono rappresentati undici comuni, con una certa attenzione alla diversificazione dei luoghi all'interno della Svizzera italiana. I parametri relativi ai parlanti (età, genere, informazioni sulla provenienza, residenza, formazione, professione e lingue) sono stati variati nella misura del possibile, entro i limiti di un modello di reclutamento dei parlanti che è dipeso in parte dalle reti sociali dei membri del progetto InfinIta (v. la sezione Presa di contatto con le/i partecipanti e consenso informato). 

    Post sul blog scientifico:

    Documento:

  • Registrazioni audio e video

    Per ogni evento del TIGR sono state fatte due riprese video da angolazioni differenti, usando delle telecamere Sony HXR-NX80//C. Le tracce audio sono da due a sei, secondo il numero di partecipanti all'evento. Sono state registrate con da due a quattro registratori tascabili Tentacle Track E muniti di microfono da bavero e con un microfono esterno Sony EGM-VG1 montato su una delle telecamere. Nel caso specifico dell'interazione in classe, l'équipe ha aggiunto un ulteriore microfono, del tipo Neumann TLM 127 ni-K, collocato in posizione centrale e collegato con l'altra telecamera. 

    I vari dispositivi sono stati sincronizzati prima dell'inizio della registrazione per ottenere una corrispondenza più precisa possibile tra immagine e suono. A questo fine sono stati impiegati generatori di timecode della marca Tentacle. Tali generatori sono parte integrante degli audioregistratori Tentacle Track E, che registrano direttamente un timecode numerico. Con le telecamere sono invece stati usati i dispositivi esterni Tentacle Sync, collegati tramite le connessioni per microfoni delle telecamere. Essi generano del timecode acustico che durante le riprese viene registrato nel corrispondente canale audio. Una componente cruciale del sistema Tentacle è un'applicazione mobile che comunica con tutti i dispositivi tramite bluetooth e permette di sincronizzarli da remoto nonché di avviare e interrompere le registrazioni. 

    Dopo le riprese, i file video sono stati elaborati dal programma Tentacle Timecode Tool per Windows. Il programma legge il segnale acustico che codifica il timecode, lo converte in informazione numerica e infine lo cancella, mantenendo solo il timecode numerico. In un'ulteriore fase di post-produzione, tutti i file video e audio sono sono stati importati in un progetto Adobe Premiere, dove sono stati allineati sulla base del timecode numerico e sono stati tagliati per ottenere tracce di uguale durata. 

    Le impostazioni tecniche di ogni evento e altri aspetti inerenti alla collezione dei dati sono stati descritti in una scheda, talvolta corredata da fotografie. La scheda registra la data e il luogo dell'evento, elenca i dispositivi usati e i codici identificatori anonimi dei partecipanti, riporta eventuali desideri di deidentificazione e contiene appunti su altri aspetti della situazione che l'équipe sul campo giudicava potenzialmente rilevanti per l'interpretazione dei dati. Una funzione importante della scheda è di associare i codici identificatori dei parlanti a una descrizione del loro aspetto e ai nomi dei microfoni da bavero. Essa contiene, infine, appunti su eventuali problemi tecnici riscontrati durante l'elaborazione dei file tramite TTT e in Adobe Premiere.

    Post sul blog scientifico: 

  • Deidentificazione

    In vista della loro condivisione sul repositorio, i documenti video saranno deidentificati in Adobe Premiere tramite l'applicazione di effetti video (p.es. Gaussian blur, Find edges) secondo i desideri espressi dai parlanti nelle loro dichiarazioni di consenso. Nelle tracce audio, si altereranno alcune voci secondo i desideri espressi nelle dichiarazioni di consenso e si sostituirà con rumore certi nomi e indicazioni temporali, nello specifico una serie di nomi di persone, istituzioni e luoghi nonché certe date che potrebbero facilitare l'identificazione delle e dei partecipanti. Questi interventi sono stati preparati in ELAN tramite l'annotazione dei passi problematici come name in un'apposita traccia. Si userà uno script per leggere i tempi iniziali e finali dei segmenti annotati e istruire il programma Praat a elaborare l'insieme delle tracce audio negli intervalli in questione, cancellando il suono originale e inserendo frammenti di rumore. Nelle trascrizioni, l'informazione personale è stata sostituita da pseudonimi. I nomi dei partecipanti sono stati sostituiti da pseudonimi di simile lunghezza. Al posto di altre informazioni personali sono state inserite le diciture personname / institutionname / placename / datename accompagnate da indici, così da permettere riferimenti multipli alla stessa entità all'interno di una trascrizione.

  • Metadati

    Il repositorio SWISSUbase organizza i dati sotto forma di studi che contengono uno o più insiemi di dati (dataset), che a loro volta contengono uno o più documenti (files). Offre dei moduli per inserire metadati ai tre livelli. A livello degli insiemi di dati e dei documenti, la sezione LaRS di SWISSUbase offre campi e un lessico predefinito che sono concepiti specificamente per i dati linguistici. I campi riguardano il tipo di risorsa (p.es. un corpus) e caratteristiche generali dell'insieme di partecipanti coinvolti; le lingue documentate; caratteristiche di eventuali annotazioni; le proprietà tecniche, la durata e il contenuto di documenti audio e video, testi e immagini; infine, gli strumenti usati per elaborare i dati (p.es. un programma di trascrizione o di annotazione). 

    Post sul blog scientifico:

    Riferimento: