Condivisione del corpus di italiano parlato TIGR:
un caso studio ORD

Composizione del TIGR

Il TIGR documenta interazioni a tavola, in cucina e in aula e include una serie di interviste.

ShareTIGR

4 April 2024

L'espressione corpus (o corpo) di testi ha un uso piuttosto antico nel senso di 'raccolta ordinata e completa di opere dello stesso autore o intorno a un tema' (abbrevio alquanto la definizione data dal Vocabolario Treccani). L'accezione tecnica della parola corpus in linguistica, invece, è più recente, tanto da non essere ancora registrata, ad oggi, in tutti i dizionari di riferimento della lingua italiana. In linguistica, corpus (parola internazionale, senza possibilità di sostituzione sinonimica con corpo) conserva il riferimento a una raccolta ordinata di documenti, ma si rinuncia all'idea di completezza. Spostando infatti il fuoco di interesse dagli autori, o dal tema, alla lingua, appare evidente che una raccolta di documenti sarà sempre solo frammento, strumento di indagine, e mai contenitore esaustivo dell'oggetto indagato. Tanto più importante diventa allora appunto il carattere ordinato, e ragionato, della raccolta: ogni corpus ha una struttura, che nel contesto di una indagine condotta con certi metodi aiuta a descrivere varie sfaccettature della lingua.

Il corpus TIGR è stato progettato all'interno di una ricerca (InfinIta, sussidio FNS no. 192771) incentrata sui mezzi tramite i quali le/i partecipanti a una interazione segnalano le fonti delle informazioni che trasmettono. Al tempo stesso, sin dall'inizio, voleva essere una risorsa riutilizzabile anche in altre indagini. Ma parliamo prima di InfinIta e dell'impronta che ha dato al TIGR.

In InfinIta abbiamo esaminato espressioni come mi dicono per indicare che la fonte di un'affermazione è il sentito dire, vedi o guarda per attirare l'attenzione del destinatario su prove visive, ho l'impressione o secondo me per suggerire che quanto si sta affermando risulti da un ragionamento o da una intuizione. Accanto a simili mezzi verbali, abbiamo voluto includere anche mezzi non verbali e mettere un accento sul riferimento a fonti presenti nell'interazione in corso, un aspetto finora poco studiato empiricamente. Inoltre abbiamo considerato la segnalazione delle fonti come parte di un fenomeno più ampio che è il posizionamento epistemico. Ci interessava sapere come, di fronte a un tema, le persone usano le fonti per posizionarsi rispetto agli interlocutori e le interlocutrici, presentandosi come più competenti di loro o al contrario come più ignoranti.

Questi obiettivi di ricerca hanno influito sul disegno del TIGR, che fa variare il grado di istituzionalità dell'incontro, il numero di partecipanti, i ruoli sociali dei partecipanti e la presenza o meno di multi-attività, cioè di attività non discorsive svolte in parallelo con la conversazione. La variazione dei primi tre parametri permette di osservare diverse dinamiche di posizionamento. Il parametro della multi-attività (si veda Mondada 2009 per una analisi esemplare) è stato importante per apprezzare la pertinenza, tra le fonti, dell'esperienza diretta fatta durante l'interazione. Ci si può aspettare, infatti, che questa abbia particolare rilevanza quando le persone sono impegnate in più attività parallele, usano i sensi per monitorarle e ne parlano - come accade per esempio a tavola o in una lezione di musica. Quando, al contrario, le persone sono concentrate sul discorso in sé, per esempio durante una intervista, ci si aspetta di trovare più riferimenti a fonti nel passato o comunque indipendenti dal contesto immediato.

Mirando a una diversificazione dei tipi di interazione secondo i quattro criteri appena discussi, il team di InfinIta ha registrato cinque conversazioni a tavola, due eventi in cui si prepara del cibo, quattro sessioni di tutoring in architettura, sei lezioni - di teatro, musica, restauro, cultura generale e glottodidattica - e sei interviste incentrate sull'allora attuale tema della pandemia da Coronavirus. Il numero di partecipanti varia da due a diciannove. Nelle interazioni in contesto istituzionale (cioè le lezioni e in una certa misura anche le interviste, fatte dai membri di InfinIta), i ruoli dei partecipanti sono ben definiti e di solito distribuiti in modo asimmetrico. Nelle interazioni non istituzionali, registrate a casa delle persone, i ruoli sono spesso simmetrici, ma emergono anche asimmetrie, per esempio quando sono presenti più generazioni. Quanto alla multi-attività, è presente non solo nelle conversazioni a tavola e quando si prepara il cibo, ma anche in diverse interazioni in contesto didattico, organizzate sotto forma di atelier di lavoro.

Sebbene la sua composizione risponda a obiettivi di ricerca specifici, il TIGR vuole anche essere una risorsa multiuso. Sia le sue caratteristiche tecniche, sia alcuni generi di interazione inclusi lo rendono interessante nel panorama dei corpora esistenti dell'italiano parlato (per una vista d'insieme recente si veda Mauri et al. 2019). Inoltre l'ambientazione in Ticino e nel Canton Grigioni, irrilevante per le domande di ricerca del progetto di ricerca originario, è invece una caratteristica preziosa per chi studia l'italiano elvetico e, più generalmente, gli italiani regionali. Ad oggi, mancano purtroppo del tutto corpora audiovisivi trascritti e accessibili alla comunità scientifica che documentino l'italiano o i dialetti parlati nella Svizzera italiana.

Chiudo con una considerazione sulla tipologia dei corpora linguistici e lo statuto del TIGR a questo riguardo. Una volta si distingueva tra corpora speciali, raccolti per rispondere a una domanda di ricerca specifica, e corpora di riferimento, raccolti per rappresentare in modo bilanciato la realtà linguistica di una comunità, tipicamente una nazione. Il corpus del Lessico dell'italiano parlato LIP (De Mauro et al. 1993) illustra quest'ultima categoria, poiché documenta gli stessi tipi di interazione, per un numero uguale di parole, per quattro città italiane (Napoli, Roma, Firenze e Milano). Il concetto di corpus di riferimento, però, oltre a porre problemi teorici quanto al modo in cui raggiungere l'ideale della rappresentatività, è in un certo senso stato superato dagli eventi.

Da un lato, nel campo della linguistica dei corpora scritti, l'accelerazione della trasformazione digitale ha facilitato la raccolta dei testi, ampliando il numero dei corpora disponibili e diminuendo l'importanza di certi corpora di riferimento storici. I linguisti Wolfgang Teubert e Anna Čermáková, specialisti di metodi basati su corpora, prevedevano in una loro pubblicazione del 2004 che i corpora di riferimento sarebbero stati sostituiti sempre di più da corpora "opportunistici" di grandi dimensioni che avrebbero integrato vari corpora speciali e in generale un massimo di materiale che i loro compilatori riuscivano a reperire. Il compito di selezionare un campione non sarebbe allora stato svolto solo da chi compilava la raccolta, osservando criteri di rappresentatività, ma sarebbe invece stato parzialmente delegato agli utenti della risorsa. Questo scenario si è realizzato in larga misura, se pensiamo ai grandi corpora ottenuti tramite il rastrellamento delle pagine web per copiarne il contenuto e registrarne i metadati (un esempio in Svizzera è Swiss-AL, si veda Krasselt et al. 2020). Grazie a quei metadati, sistematizzati ulteriormente dai compilatori, chi consulta il corpus può comporre un sottocorpus di testi utile ai propri scopi di ricerca. Teubert & Čermáková 2004 sottolineano proprio l'importanza dei metadati (p. 120): "The larger the opportunistic corpus is, the better it is. But the best opportunistic corpus is also the one that is documented in the most comprehensive way."

Dall'altro lato, la condivisione dei dati apre la possibilità di creare quello che potremmo chiamare corpora opportunistici collettivi, cioè alimentati congiuntamente da diversi individui e gruppi di ricerca. Questa prassi è tanto più importante nel campo delle ricerche sul parlato, dove la compilazione dei corpora continua a richiedere molto sforzo e le dimensioni di ogni singolo corpus tendono a essere molto minori di quella dei corpora scritti. Il TIGR è da considerare in questa prospettiva. Si tratta di un corpus speciale, che però può completare utilmente le risorse disponibili per ricerche a più ampio raggio sull'italiano parlato, grazie alla sua composizione e alla condivisione secondo principi FAIR che stiamo attualmente preparando.

Johanna Miecznikowski

Bibliografia

De Mauro, T., Mancini, F., Vedovelli, M., & Voghera, M. (1993). Lessico di frequenza dell'italiano parlato. Milano, ETAS.

Krasselt, J., Dreesen, P., Fluor, M., Mahlow, C., Rothenhäusler, K., & Runte, M. (2020). Swiss-AL: A Multilingual Swiss Web Corpus for Applied Linguistics. Proceedings of the 12th Language Resources and Evaluation Conference, 4138--4144. https://aclanthology.org/2020.lrec-1.510/

Mauri, C., Ballarè, S., Goria, E., Cerruti, M., & Suriano, F. (2019). KIParla corpus: A new resource for spoken Italian. In R. Bernardi, R. Navigli & G. Semeraro (eds.), Proceedings of the 6th Italian Conference on Computational Linguistics CLiC-it, CEUR-WS.
Si veda anche la videodocumentazione del workshop KiParla corpus: history, methodological choices and future challenges, USI, 28 aprile 2023.

Mondada, L. (2009). Multimodalità e multi-attività nelle conversazioni a tavola. In M. Fatigante, L. Mariottini & M. E. Sciubba (Eds.), Lingua e società. Scritti in onore di Franca Orletti (pp. 88-106). Bologna, Il Mulino.

Teubert, W., & Čermáková, A. (2004). Directions in corpus linguistics. In M. A. K. Halliday, W. Teubert, C. Yallop & A. Čermáková (Eds.), Lexicology and Corpus Linguistics. An Introduction (pp. 113–165). London/New York, Continuum.

Composizione del TIGR

Institute of Italian Studies
Università della Svizzera italiana
West Campus, Main Building
Via Buffi 13
6900 Lugano, Switzerland
tel +41 58 666 42 95
e-mail [email protected]

Stay in touch

Team

Corpus

Blog

Publications

Composizione del TIGR

Quicklinks

Share

Print

Stay in touch