Skip to main content

Morfologia delle trascrizioni, parte I: leggibili in che modo?

Nella gestione dei dati il problema dell'interoperabilità sorge a vari livelli.
Nella gestione dei dati il problema dell'interoperabilità sorge a vari livelli.

ShareTIGR

02/05/2024

Una trascrizione prodotta mediante un annotatore multimediale - come ELAN (v. Sloetjes & Seibert 2016), che abbiamo usato nel progetto InfinIta - contiene del codice informatico che ha bisogno di software specializzato per essere visualizzato e interpretato correttamente. Quando si trasmettono le proprie trascrizioni ad altri studiosi, si pone perciò la questione dell'interoperabilità. Quali applicazioni useranno i futuri utenti? Quelle applicazioni sapranno leggere i documenti creati dal nostro programma di trascrizione?

Durante i suoi lavori, il team di InfinIta si è reso conto abbastanza presto dei problemi che possono sorgere quando si visualizzano le trascrizioni in applicazioni diverse da quelle con cui sono state prodotte. Nel caso specifico, un modulo del progetto prevedeva di lavorare su un campione dei dati del TIGR in un programma, INCEpTION (Klie et al. 2018), che offriva strumenti cruciali per svolgere i compiti di quel modulo, ma aveva anche importanti limiti, dal nostro punto di vista, per quanto riguardava i formati accettati. Non era in grado di interpretare i documenti xml con estensione eaf prodotti in ELAN, né altri formati xml affini. Presentava problemi di elaborazione quando si lavorava su documenti pdf, un formato previsto dall'applicazione come possibile input. Si rivelò che l'unica via percorribile per noi era di caricare file di testo (estensione txt), un formato particolarmente semplice e perciò leggibile da moltissime applicazioni.

Immaginare concreti scenari d'uso come quello appena descritto è importante per valutare in quale formato mettere a disposizione una trascrizione. Esplorando tali scenari, abbiamo capito che il formato txt era probabilmente inderogabile. Non solo ha un'alta interoperabilità, come avevamo imparato dall'esperienza con INCEpTION. È anche atto a rappresentare le conversazioni secondo convenzioni che gli analisti della conversazione hanno sviluppato in era predigitale, quando si battevano i testi a macchina. Quelle convenzioni ottimizzano la leggibilità della trascrizione per l'occhio umano, facendo corrispondere il più possibile il filo del testo allo scorrere del tempo durante la conversazione, definendo una specie di punteggiatura per rendere conto di fenomeni specifici dell'oralità e disponendo il testo sulla pagina in tal modo da veicolare una serie di informazioni. Questo tipo di trascrizione è il formato preferito nell'analisi qualitativa del discorso in interazione. Inoltre, anche chi effettua analisi quantitative non di rado lavora direttamente sui documenti testo, con l'aiuto di dedicati strumenti di interrogazione.

In altri scenari d'uso, le trascrizioni txt strutturate in modo tradizionale non sono utili, essenzialmente perché ricorrono in modo abbastanza sistematico all'organizzazione spaziale del testo come dispositivo di codifica. Sono scenari dove la trascrizione è elaborata direttamente da una macchina, come accade quando si visualizza una trascrizione in html su una pagina web o si interroga un corpus a fini lessicografici o entro una ricerca sulla grammatica. In quei casi il primo interprete del testo non è una persona in grado di attribuire un significato alla disposizione del testo sulla pagina, ma un programma che di solito si aspetta una codifica più esplicita delle informazioni.

Per esempio, se in una trascrizione tradizionale per associare un pezzo di discorso a un parlante basta che quel pezzo sia preceduto dal nome del parlante a inizio riga, molte applicazioni non saranno in grado di interpretare quella strategia basata sull'impaginazione. Richiederanno invece che il nesso tra parlante e discorso sia dichiarato mediante appositi pezzi di codice.

Oppure consideriamo, a un livello ancora più basilare, la divisione del testo in unità o tokenizzazione (dall'inglese token). La divisione in unità, in particolare quella in parole, è un problema comune nella linguistica dei corpora sia orali, sia scritti. Chi legge un testo lo divide in parole per interpretarlo, considerando gli spazi tra le parole, la funzione dei caratteri speciali aggiuntivi e alcune regole (per esempio, in una preposizione articolata italiana come alla, degli ecc., l'esigenza di scindere la preposizione dall'articolo). Quando un testo è invece elaborato direttamente dalle macchine, i programmi, per riconoscere le stesse unità, hanno di solito bisogno di demarcazioni più regolari, che possono essere per esempio annotazioni xml di tipo 'inizio parola' e 'fine parola' che includono ogni singola parola.

Pensando a questi scenari e discutendoli con colleghe e colleghi, in ShareTIGR siamo giunti alla conclusione che in vista del riuso scientifico delle nostre trascrizioni dovremo mettere a disposizione, oltre al documento eaf originale, almeno altre due versioni: una trascrizione tradizionale in formato testo txt e una trascrizione ottimizzata per la lettura dalle macchine (ingl. machine readable), verosimilmente in xml, che è il formato oggi più diffuso nella linguistica dei corpora. Entrambe le versioni richiedono una trasformazione del documento di partenza. Nelle prossime settimane parleremo della confezione della trascrizione in formato testo, che ha presentato non poche sfide, nonostante il programma ELAN la sostenga tramite le sue opzioni di esportazione. Racconteremo come abbiamo affrontato quelle sfide, riflettendo sulle differenze, più o meno profonde, che ci sono tra i documenti eaf e una trascrizione tradizionale in forma txt, e descrivendo certi programmi ausiliari che abbiamo scritto in Python per ottenere risultati migliori in meno tempo.

Johanna Miecznikowski


Bibliografia

Klie, J., Bugert, M., Boullosa, B., Castilho, R. E. d., & Gurevych, I. (2018). The INCEpTION Platform: Machine-Assisted and Knowledge-Oriented Interactive Annotation. Paper presented at the Proceedings of the 27th International Conference on Computational Linguistics: System Demonstrations, Santa Fe, USA. 5-9. http://tubiblio.ulb.tu-darmstadt.de/106270/

Sloetjes, H., & Seibert, O. (2016). Measuring by marking; the multimedia annotation tool ELAN. In A. J. Spink, G. Riedel, L. Zhou, L. Teekens, R. Albatal & C. Gurrin (Eds.), Measuring Behavior 2016, 10th International Conference on Methods and Techniques in Behavioral Research (pp. 492-495). Dublin City University.