Condivisione del corpus di italiano parlato TIGR:
un caso studio ORD

Blog

October

2024

10.
10.
2024

Metadata on LaRS: designing metadata files for event datasets

Some properties of recorded events do not fit the LaRS metadata scheme and are best described in a separate file. After exploring CLARIN CMDI, and advised by the repository's support team, we designed a set of related tables to structure the TIGR event metadata in a hopefully user-friendly way.

October

2024

03.
10.
2024

Metadata on LaRS: the in-built scheme

The in-built metadata scheme of the LaRS repository provides fields to describe data at study, dataset and file level. We found many useful categories, struggled to interpret the distinction between 'Text' and 'Annotation' and observed the lack of categories concerning individual study participants.

September

2024

05.
09.
2024

Why metadata is important for FAIR data sharing and reuse

What is metadata and why is it important in the context of corpus-based linguistic research and FAIR data sharing and reuse? These are the questions explored in this blog post.

Agosto

2024

29.
08.
2024

Raccogliere dati linguistici ai tempi del COVID-19

Il contributo descrive l'impatto della pandemia globale da COVID-19 sul lavoro sul campo: Quali strategie di risposta sono state attuate? Come abbiamo adattato le procedure di raccolta? Quali dati abbiamo ricavato?

July

2024

25.
07.
2024

Dichiarazioni di consenso informato

Le dichiarazioni di consenso informato sono uno strumento fondamentale a livello etico e legale per la raccolta e la condivisione dei dati personali dei partecipanti alla ricerca linguistica.

July

2024

18.
07.
2024

Il lavoro sul campo: ricerca e contatto dei partecipanti

In questo post inizieremo a descrivere il lavoro sul campo, partendo dalla ricerca di informatrici e informatori per la raccolta dati del corpus, descrivendo le modalità e le fasi di contatto.

July

2024

11.
07.
2024

Morfologia delle trascrizioni, parte VI: uso di script in fase di impaginazione e di revisione

Per rendere la confezione delle trascrizioni in formato testo più precisa e più veloce abbiamo creato alcuni script Python semplici che aiutano a impaginare la conversazione e a trovare errori che poi devono essere corretti manualmente.

July

2024

04.
07.
2024

13e Journée de Linguistique suisse: some conference notes to showcase corpus-based research on spoken language

Last week ShareTIGR participated in the yearly meeting of the Swiss Society for Linguistics. This blog post comments on several projects presented there that used spoken corpora in various perspectives.

June

2024

13.
06.
2024

Morfologia delle trascrizioni, parte V: gestire le sovrapposizioni

Nel contributo - solo video - di questa settimana parliamo del modo in cui abbiamo gestito i momenti in cui più persone parlano simultaneamente, sia nelle trascrizioni in formato testo, sia in quelle prodotte prima nell'annotatore multimediale ELAN.

June

2024

06.
06.
2024

Morfologia delle trascrizioni, parte IV: allineamento temporale e segmentazione

L'allineamento tra un testo trascritto e la corrispondente audio/videoregistrazione implica una segmentazione del testo. In questo contributo cominciamo a riflettere sullo statuti dei segmenti risultanti.

Maggio

2024

16.
05.
2024

Morfologia delle trascrizioni, parte III: il primo script

Per creare trascrizioni che corrispondano a esigenze specifiche sono utili gli script. Ne abbiamo scritto uno che modifica una trascrizione in formato testo prodotta in ELAN mantenendo solo parte delle indicazioni di timecode, a intervalli definiti dall'utente.

Maggio

2024

09.
05.
2024

Morfologia delle trascrizioni, parte II: codificare il tempo

Nella trascrizione di una conversazione effettuata in un annotatore multimedia, il timecode è essenziale per allineare testo e registrazione. Quando si esporta la trascrizione in formato testo (txt), conviene decidere quanto timecode è utile mantenere.

Maggio

2024

02.
05.
2024

Morfologia delle trascrizioni, parte I: leggibili in che modo?

Quando si condividono le proprie trascrizioni, si pone la questione dell'interoperabilità. Quali applicazioni useranno le/i future/i utenti? Quelle applicazioni sapranno leggere i documenti creati dal nostro programma di trascrizione?

April

2024

25.
04.
2024

Grouping the TIGR data for reuse

The TIGR corpus will be presented on LaRS as a study consisting of 49 datasets: a light and a full version of the file set corresponding to each event, two transcript datasets and an overview over the participant data.

April

2024

18.
04.
2024

Exploring LaRS @ SWISSUbase

The Language Repository of Switzerland (LaRS) offers a specific file and metadata structure for the studies deposited on the platform. This post looks into the details of this structure and into their implications for the searchability and findability of the data records stored on the repository.

April

2024

11.
04.
2024

Dall'evento al dataset

Ogni evento del TIGR in quanto dataset comprenderà due tracce video, da due a sei tracce audio, note di campo, la trascrizione di base fatta in ELAN, una trascrizione in formato testo, una trascrizione in formato XML ancora da definire e un video compatto a schermo diviso.

April

2024

04.
04.
2024

Composizione del TIGR

Il corpus TIGR è nato all'interno di un progetto di ricerca specifico. Ha però caratteristiche tecniche e una composizione che lo rendono utile per molte altre ricerche sull'italiano parlato e complementare ad altre risorse disponibili.

Marzo

2024

28.
03.
2024

"As open as possible, as restricted as necessary"

Which repository is suitable for the TIGR corpus? This post highlights some features of the Language Repository of Switzerland LaRS and compares it with the generalist Zenodo repository.

Marzo

2024

21.
03.
2024

Digitisation of the TIGR participant questionnaires

Each of the 115 TIGR participants filled in a short questionnaire on paper, disclosing some biographical information that may be relevant for sociolinguistic studies. As a first step of digitisation, we manually transferred that information into an Excel table.

Marzo

2024

13.
03.
2024

ShareTIGR: un anno per preparare la condivisione del corpus di italiano parlato TIGR

Lo scorso mese è iniziato il progetto ShareTIGR, il cui obiettivo è di condividere con la comunità scientifica il corpus TIGR, un insieme di materiali per lo studio dell'italiano parlato raccolto nei cantoni svizzeri Ticino e Grigioni.

Institute of Italian Studies
Università della Svizzera italiana
West Campus, Main Building
Via Buffi 13
6900 Lugano, Switzerland
tel +41 58 666 42 95
e-mail isi@usi.ch

Stay in touch

Team

Corpus

Blog

Publications

Blog

Share

Stampa

Stay in touch