Blog
10.
2024
Metadata on LaRS: designing metadata files for event datasets
Some properties of recorded events do not fit the LaRS metadata scheme and are best described in a separate file. After exploring CLARIN CMDI, and advised by the repository's support team, we designed a set of related tables to structure the TIGR event metadata in a hopefully user-friendly way.10.
2024
Metadata on LaRS: the in-built scheme
The in-built metadata scheme of the LaRS repository provides fields to describe data at study, dataset and file level. We found many useful categories, struggled to interpret the distinction between 'Text' and 'Annotation' and observed the lack of categories concerning individual study participants.09.
2024
Why metadata is important for FAIR data sharing and reuse
What is metadata and why is it important in the context of corpus-based linguistic research and FAIR data sharing and reuse? These are the questions explored in this blog post.08.
2024
Raccogliere dati linguistici ai tempi del COVID-19
Il contributo descrive l'impatto della pandemia globale da COVID-19 sul lavoro sul campo: Quali strategie di risposta sono state attuate? Come abbiamo adattato le procedure di raccolta? Quali dati abbiamo ricavato?07.
2024
Dichiarazioni di consenso informato
Le dichiarazioni di consenso informato sono uno strumento fondamentale a livello etico e legale per la raccolta e la condivisione dei dati personali dei partecipanti alla ricerca linguistica.07.
2024
Il lavoro sul campo: ricerca e contatto dei partecipanti
In questo post inizieremo a descrivere il lavoro sul campo, partendo dalla ricerca di informatrici e informatori per la raccolta dati del corpus, descrivendo le modalità e le fasi di contatto.07.
2024
Morfologia delle trascrizioni, parte VI: uso di script in fase di impaginazione e di revisione
Per rendere la confezione delle trascrizioni in formato testo più precisa e più veloce abbiamo creato alcuni script Python semplici che aiutano a impaginare la conversazione e a trovare errori che poi devono essere corretti manualmente.07.
2024
13e Journée de Linguistique suisse: some conference notes to showcase corpus-based research on spoken language
Last week ShareTIGR participated in the yearly meeting of the Swiss Society for Linguistics. This blog post comments on several projects presented there that used spoken corpora in various perspectives.06.
2024
Morfologia delle trascrizioni, parte V: gestire le sovrapposizioni
Nel contributo - solo video - di questa settimana parliamo del modo in cui abbiamo gestito i momenti in cui più persone parlano simultaneamente, sia nelle trascrizioni in formato testo, sia in quelle prodotte prima nell'annotatore multimediale ELAN.06.
2024
Morfologia delle trascrizioni, parte IV: allineamento temporale e segmentazione
L'allineamento tra un testo trascritto e la corrispondente audio/videoregistrazione implica una segmentazione del testo. In questo contributo cominciamo a riflettere sullo statuti dei segmenti risultanti.05.
2024
Morfologia delle trascrizioni, parte III: il primo script
Per creare trascrizioni che corrispondano a esigenze specifiche sono utili gli script. Ne abbiamo scritto uno che modifica una trascrizione in formato testo prodotta in ELAN mantenendo solo parte delle indicazioni di timecode, a intervalli definiti dall'utente.05.
2024
Morfologia delle trascrizioni, parte II: codificare il tempo
Nella trascrizione di una conversazione effettuata in un annotatore multimedia, il timecode è essenziale per allineare testo e registrazione. Quando si esporta la trascrizione in formato testo (txt), conviene decidere quanto timecode è utile mantenere.05.
2024
Morfologia delle trascrizioni, parte I: leggibili in che modo?
Quando si condividono le proprie trascrizioni, si pone la questione dell'interoperabilità. Quali applicazioni useranno le/i future/i utenti? Quelle applicazioni sapranno leggere i documenti creati dal nostro programma di trascrizione?04.
2024
Grouping the TIGR data for reuse
The TIGR corpus will be presented on LaRS as a study consisting of 49 datasets: a light and a full version of the file set corresponding to each event, two transcript datasets and an overview over the participant data.04.
2024
Exploring LaRS @ SWISSUbase
The Language Repository of Switzerland (LaRS) offers a specific file and metadata structure for the studies deposited on the platform. This post looks into the details of this structure and into their implications for the searchability and findability of the data records stored on the repository.04.
2024
Dall'evento al dataset
Ogni evento del TIGR in quanto dataset comprenderà due tracce video, da due a sei tracce audio, note di campo, la trascrizione di base fatta in ELAN, una trascrizione in formato testo, una trascrizione in formato XML ancora da definire e un video compatto a schermo diviso.04.
2024
Composizione del TIGR
Il corpus TIGR è nato all'interno di un progetto di ricerca specifico. Ha però caratteristiche tecniche e una composizione che lo rendono utile per molte altre ricerche sull'italiano parlato e complementare ad altre risorse disponibili.03.
2024
"As open as possible, as restricted as necessary"
Which repository is suitable for the TIGR corpus? This post highlights some features of the Language Repository of Switzerland LaRS and compares it with the generalist Zenodo repository.03.
2024
Digitisation of the TIGR participant questionnaires
Each of the 115 TIGR participants filled in a short questionnaire on paper, disclosing some biographical information that may be relevant for sociolinguistic studies. As a first step of digitisation, we manually transferred that information into an Excel table.03.
2024
ShareTIGR: un anno per preparare la condivisione del corpus di italiano parlato TIGR
Lo scorso mese è iniziato il progetto ShareTIGR, il cui obiettivo è di condividere con la comunità scientifica il corpus TIGR, un insieme di materiali per lo studio dell'italiano parlato raccolto nei cantoni svizzeri Ticino e Grigioni.