Skip to main content

Morfologia delle trascrizioni, parte IV: allineamento temporale e segmentazione

Temporal alignment and segmentation
Temporal alignment and segmentation

ShareTIGR

06/06/2024

Due settimane fa ho descritto una parte della procedura che abbiamo adottato in ShareTIGR per produrre delle trascrizioni in formato testo. Mi sono fermata allo stadio di un documento intermedio che elenca in ordine cronologico i segmenti annotati in ELAN, preceduti dal nome del/la parlante, e inserisce all'incirca ogni 10 secondi un'indicazione temporale utile all'allineamento con i documenti audio/video. Oggi voglio riflettere sullo statuto di quei segmenti e spiegare dove vanno a finire nella nostra trascrizione TXT.

Come il timecode, la segmentazione della quale stiamo parlando è necessaria per ancorare il discorso trascritto rispetto a una linea del tempo. In un testo tradizionale, si rappresenta il tempo seguendo il filo della scrittura nella direzione di lettura (quando ci si serve dell'alfabeto latino: da sinistra a destra e dall'alto in basso). Segno per segno, posizione per posizione sulla riga, riga per riga, la sequenza delle lettere rispecchia l'ordine cronologico in cui le unità del discorso sono state articolate, o potrebbero essere articolate leggendo il testo, e colloca ogni unità relativamente ad altre precedenti, simultanee o successive. La timeline invece quantifica il tempo in termini assoluti e per allineare il testo con essa è necessario aggiungere appositi riferimenti, che corrispondono alle indicazioni di timecode e dividono il testo in segmenti.

In alcuni programmi di trascrizione multimediali, come per esempio Transana (Rosenfeld Halverson, Bass & Woods 2012), l'allineamento temporale è opzionale. Si può segmentare il testo mentre si trascrive, ma è anche possibile realizzare una trascrizione senza riferimenti temporali o inserendo tali riferimenti in una fase di lavoro successiva. In ELAN, invece, ma anche in annotatori come EXMARaLDA (Schmidt & Wörner 2014), la segmentazione precede logicamente la trascrizione. Ricordiamoci che in ELAN - e lo stesso vale per EXMARaLDA - il testo trascritto si inserisce in delle tracce parallele, che sono simili ai pentagrammi di più voci in uno spartito musicale. Per poter scrivere in una traccia, bisogna prima definire almeno un segmento, corrispondente a un intervallo di tempo, che apre un campo dove digitare il testo. ELAN prevede addirittura la possibilità di segmentare prima un'intera traccia e di procedere solo dopo alla scrittura nei segmenti creati.

Considerando il ruolo centrale della segmentazione negli annotatori a spartito, ci si può chiedere se esso dipenda da caratteristiche intrinseche di questo tipo di organizzazione testuale. Ipotesi facilmente smentita da uno sguardo indietro nella storia: precoci tali trascrizioni, battute a macchina secondo un insieme di convenzioni chiamato HIAT (Ehlich & Rehbein 1976), non dividevano il flusso delle parole in segmenti. Pure il corrispondente editor a spartito da usare al computer, vale a dire HIAT-DOS, che fu introdotto all'inizio degli anni 1990 (Ehlich 1992), non segmentava il discorso. È solo quando HIAT fu implementato in un annotatore multimediale - EXMARaLDA, per l'appunto - che si passò a un modello del testo diviso in segmenti.

Veniamo ora all'uso da fare dei segmenti in una versione testo della trascrizione. Nel campo delle ricerche sull'interazione orale a questo proposito si notano pratiche diverse.

Alcuni approcci alla trascrizione prevedono una segmentazione del discorso in unità prosodiche. Nel corpus C-Oral-Rom (Cresti & Moneglia 2005), per esempio, si trovano confini prosodici finali e intermedi, che sono considerati significativi anche sul piano semantico-pragmatico, come delimitatori di enunciati. Anche nelle convenzioni di trascrizione GAT (Selting et al. 1998) e in seguito GAT2 (Selting et al. 2011), si dedica grande attenzione alla prosodia, offrendo strumenti anche più analitici per annotarla. In questo tipo di approccio, si pone la domanda del rapporto tra i due tipi di segmentazione, quella ai fini dell'allineamento temporale e quella prosodica. Anche se sono in teoria indipendenti, nella prassi, quando si trascrive con un annotatore multimediale, è piuttosto problematico separarli. Le convenzioni GAT2 prevedono che la versione finale della trascrizione elenchi e numeri le frasi intonative e le pause, andando a capo dopo ogni tale unità. Trascrivendo con ELAN, se i segmenti creati durante la trascrizione corrispondono a frasi intonative, è facile rispettare questo modello esportando la versione finale della trascrizione direttamente dall'annotatore. Al contrario, se le due segmentazioni non coincidono, è necessaria una laboriosa correzione a mano della versione testo esportata. Nelle istruzioni all'uso di EXMARaLDA e di FOLKER, che forniscono supporto per la trascrizione con GAT2, si legge che non è necessario, ma "consigliabile", creare i segmenti sin dall'inizio del processo di trascrizione "tenendo in considerazione aspetti e confini delle frasi intonative" (Schmidt et al. 2023, p. 10, traduzione mia).

Un'altra possibilità è quella di rendere i segmenti creati nell'annotatore visibili nella trascrizione, ma senza attribuirgli precise caratteristiche teoriche. È quanto accade nelle trascrizioni del corpus d'italiano parlato KiParla (Mauri et al. 2019), che sono state prodotte in ELAN e poi esportate ed elaborate ulteriormente. Nelle trascrizioni consultabili sulla piattaforma del corpus, i confini dei segmenti sono segnalati da barre oblique doppie ("//") in una versione semplificata dei testi e dall'andare a capo in una loro versione più dettagliata.

Infine, si può essere dell'avviso che la segmentazione ai fini dell'allineamento temporale sia in primo luogo uno strumento tecnico e che le sue tracce debbano rimanere poco o per nulla visibili nella versione testo di una trascrizione. Le trascrizioni create con Transana sono conformi a questo principio, poiché le marche di timecode inserite sono poco vistose e non hanno nessun effetto sull'impaginazione del testo. Anche certe opzioni di esportazione come "traditional transcript text" di ELAN seguono una logica simile. È infatti possibile far concatenare graficamente i segmenti prodotti dallo/a stesso/a parlante, se non separati da pause, così da cancellare ogni traccia dei confini creati per l'allineamento temporale.

Nel progetto InfinIta, abbiamo notato in diverse occasioni quanto è difficile determinare in modo chiaro un confine prosodico, soprattutto nelle fasi iniziali della trascrizione quando, lavorando in ELAN, si creano i segmenti. Per questo motivo, anche se annotiamo la prosodia con una certa precisione - adottando tra l'altro le convenzioni GAT 2 per la trascrizione fine, con poche modifiche - abbiamo rinunciato all'opzione di definire i segmenti secondo criteri prosodici. Per noi, essi sono meri strumenti di lavoro e, per quanto ci riguarda, abbiamo preferito non renderli visibili nelle trascrizioni TXT per ridurre l'impatto che delle scelte contingenti fatte durante la trascrizione possono avere sull'interpretazione del testo.

Di conseguenza, nelle trascrizioni in formato testo, dopo aver filtrato il timecode, la prossima operazione da fare è quella di cancellare gli a capo risultanti dalla segmentazione in ELAN e di reimpaginare il testo. Questo compito però si intreccia con un altro, che è quello della corretta rappresentazione dei discorsi pronunciati in sovrapposizione. Ne parlerò nel prossimo contributo, prima di tornare alle concrete procedure, assistite da script, che abbiamo sviluppato per affrontare questi compiti.

Johanna Miecznikowski
 

Bibliografia

Cresti, E., & Moneglia, M. (2005). C-ORAL-ROM. Integrated reference corpora for spoken Romance languages. Amsterdam, Benjamins.

Mauri, C., Ballarè, S., Goria, E., Cerruti, M., & Suriano, F. (2019). KIParla corpus: A new resource for spoken Italian. In R. Bernardi, R. Navigli & G. Semeraro (eds.), Proceedings of the 6th Italian Conference on Computational Linguistics CLiC-it, CEUR-WS.
Also see the video documentation of the workshop KiParla corpus: history, methodological choices and future challenges, USI, April 28, 2023.

Rosenfeld Halverson, E., Bass, M., & Woods, D. (2012). The Process of Creation: A Novel Methodology for Analyzing Multimodal Data. The Qualitative Report17(11), 1-27. https://doi.org/10.46743/2160-3715/2012.1796

Schmidt, T. and Wörner, K. (2014). EXMARaLDA. In Handbook on Corpus Phonology, 402-419. Oxford University Press.

Schmidt, T., Schütte, W., Winterscheid, J., Schürmann, M., Reineke, S., Schedl, E. (2023). cGAT. Konventionen für das computergestützte Transkribieren in Anlehnung an das Gesprächsanalytische Transcriptionnsystem 2 (GAT 2). Leibniz-Institut für deutsche Sprache. doi.org/10.14618/chrz-zy56

Selting, Margret / Auer, Peter / Barden, Birgit / Bergmann, Jörg / Couper-Kuhlen, Elizabeth / Günthner, Susanne / Quasthoff, Uta / Meier, Christoph / Schlobinski, Peter / Uhmann, Susanne (1998): Gesprächsanalytisches Transkriptionssystem (GAT). Linguistische Berichte 173, 91-122.

Selting, M., Auer, P., Barth-Weingarten, D., Bergmann, J. ö, Bergmann, P., Birkner, K., Couper-Kuhlen, E., Deppermann, A., Gilles, P., Günthner, S., Hartung, M., Kern, F., Mertzlufft, C., Meyer, C., Morek, M., Oberzaucher, F., Peters, J. ö, Quasthoff, U., Schütte, W., & Uhmann, S. (2011). A system for transcribing talk-in-interaction: GAT 2 translated and adapted for English by Elizabeth Couper-Kuhlen and Dagmar Barth-Weingarten. Gesprächsforschung, 12, 1-51. http://www.gespraechsforschung-online.de/fileadmin/dateien/heft2011/px-gat2-englisch.pdf

Morfologia delle trascrizioni, parte IV