Skip to main content

Blog

10
October
2024
10.
10.
2024

Metadata on LaRS: designing metadata files for event datasets

Some properties of recorded events do not fit the LaRS metadata scheme and are best described in a separate file. After exploring CLARIN CMDI, and advised by the repository's support team, we designed a set of related tables to structure the TIGR event metadata in a hopefully user-friendly way.
03
October
2024
03.
10.
2024

Metadata on LaRS: the in-built scheme

The in-built metadata scheme of the LaRS repository provides fields to describe data at study, dataset and file level. We found many useful categories, struggled to interpret the distinction between 'Text' and 'Annotation' and observed the lack of categories concerning individual study participants.
05
September
2024
05.
09.
2024

Why metadata is important for FAIR data sharing and reuse

What is metadata and why is it important in the context of corpus-based linguistic research and FAIR data sharing and reuse? These are the questions explored in this blog post.
29
August
2024
29.
08.
2024

Raccogliere dati linguistici ai tempi del COVID-19

Il contributo descrive l'impatto della pandemia globale da COVID-19 sul lavoro sul campo: Quali strategie di risposta sono state attuate? Come abbiamo adattato le procedure di raccolta? Quali dati abbiamo ricavato?
25
July
2024
25.
07.
2024

Dichiarazioni di consenso informato

Le dichiarazioni di consenso informato sono uno strumento fondamentale a livello etico e legale per la raccolta e la condivisione dei dati personali dei partecipanti alla ricerca linguistica.
18
July
2024
18.
07.
2024

Il lavoro sul campo: ricerca e contatto dei partecipanti

In questo post inizieremo a descrivere il lavoro sul campo, partendo dalla ricerca di informatrici e informatori per la raccolta dati del corpus, descrivendo le modalità e le fasi di contatto.
11
July
2024
11.
07.
2024

Morfologia delle trascrizioni, parte VI: uso di script in fase di impaginazione e di revisione

Per rendere la confezione delle trascrizioni in formato testo più precisa e più veloce abbiamo creato alcuni script Python semplici che aiutano a impaginare la conversazione e a trovare errori che poi devono essere corretti manualmente.
04
July
2024
04.
07.
2024

13e Journée de Linguistique suisse: some conference notes to showcase corpus-based research on spoken language

Last week ShareTIGR participated in the yearly meeting of the Swiss Society for Linguistics. This blog post comments on several projects presented there that used spoken corpora in various perspectives.
13
June
2024
13.
06.
2024

Morfologia delle trascrizioni, parte V: gestire le sovrapposizioni

Nel contributo - solo video - di questa settimana parliamo del modo in cui abbiamo gestito i momenti in cui più persone parlano simultaneamente, sia nelle trascrizioni in formato testo, sia in quelle prodotte prima nell'annotatore multimediale ELAN.
06
June
2024
06.
06.
2024

Morfologia delle trascrizioni, parte IV: allineamento temporale e segmentazione

L'allineamento tra un testo trascritto e la corrispondente audio/videoregistrazione implica una segmentazione del testo. In questo contributo cominciamo a riflettere sullo statuti dei segmenti risultanti.
16
May
2024
16.
05.
2024

Morfologia delle trascrizioni, parte III: il primo script

Per creare trascrizioni che corrispondano a esigenze specifiche sono utili gli script. Ne abbiamo scritto uno che modifica una trascrizione in formato testo prodotta in ELAN mantenendo solo parte delle indicazioni di timecode, a intervalli definiti dall'utente.
09
May
2024
09.
05.
2024

Morfologia delle trascrizioni, parte II: codificare il tempo

Nella trascrizione di una conversazione effettuata in un annotatore multimedia, il timecode è essenziale per allineare testo e registrazione. Quando si esporta la trascrizione in formato testo (txt), conviene decidere quanto timecode è utile mantenere.
02
May
2024
02.
05.
2024

Morfologia delle trascrizioni, parte I: leggibili in che modo?

Quando si condividono le proprie trascrizioni, si pone la questione dell'interoperabilità. Quali applicazioni useranno le/i future/i utenti? Quelle applicazioni sapranno leggere i documenti creati dal nostro programma di trascrizione?
25
April
2024
25.
04.
2024

Grouping the TIGR data for reuse

The TIGR corpus will be presented on LaRS as a study consisting of 49 datasets: a light and a full version of the file set corresponding to each event, two transcript datasets and an overview over the participant data.
18
April
2024
18.
04.
2024

Exploring LaRS @ SWISSUbase

The Language Repository of Switzerland (LaRS) offers a specific file and metadata structure for the studies deposited on the platform. This post looks into the details of this structure and into their implications for the searchability and findability of the data records stored on the repository.
11
April
2024
11.
04.
2024

Dall'evento al dataset

Ogni evento del TIGR in quanto dataset comprenderà due tracce video, da due a sei tracce audio, note di campo, la trascrizione di base fatta in ELAN, una trascrizione in formato testo, una trascrizione in formato XML ancora da definire e un video compatto a schermo diviso.
04
April
2024
04.
04.
2024

Composizione del TIGR

Il corpus TIGR è nato all'interno di un progetto di ricerca specifico. Ha però caratteristiche tecniche e una composizione che lo rendono utile per molte altre ricerche sull'italiano parlato e complementare ad altre risorse disponibili.
28
March
2024
28.
03.
2024

"As open as possible, as restricted as necessary"

Which repository is suitable for the TIGR corpus? This post highlights some features of the Language Repository of Switzerland  LaRS and compares it with the generalist Zenodo repository.
21
March
2024
21.
03.
2024

Digitisation of the TIGR participant questionnaires

Each of the 115 TIGR participants filled in a short questionnaire on paper, disclosing some biographical information that may be relevant for sociolinguistic studies. As a first step of digitisation, we manually transferred that information into an Excel table.
13
March
2024
13.
03.
2024

ShareTIGR: un anno per preparare la condivisione del corpus di italiano parlato TIGR

Lo scorso mese è iniziato il progetto ShareTIGR, il cui obiettivo è di condividere con la comunità scientifica il corpus TIGR, un insieme di materiali per lo studio dell'italiano parlato raccolto nei cantoni svizzeri Ticino e Grigioni.