Il corpus

La costruzione dell’archivio

Prima di tutto, che cos’è un corpus?

ParlaTO è un archivio di testi orali che ha le caratteristiche di un corpus linguistico. Un corpus linguistico è una raccolta di testi trattati informaticamente per consentire agli utenti di estrarne dei dati: una parola specifica, il contesto in cui essa compare, la sua frequenza, insiemi o sequenze di parole, ecc.

Un corpus linguistico contiene anche informazioni di natura extralinguistica, dette metadati, che possono essere usate come filtri di ricerca: il tipo di testo o la situazione da cui provengono i dati (articolo di giornale, conversazione telefonica, lezione universitaria, ecc.), il luogo d’origine e le caratteristiche sociali (età, titolo di studio, occupazione, ecc.) di chi li ha prodotti, ecc.

I corpora sono strumenti utilissimi per la linguistica perché costituiscono dei “serbatoi” di testi a cui attingere per ottenere materiali empirici da analizzare. Qui, ad esempio, si può trovare un elenco di corpora linguistici dell’italiano.

E ParlaTO?

ParlaTO si aggiunge ai (pochi) corpora di parlato esistenti per l’italiano. È costituito essenzialmente da conversazioni fra più di un centinaio di parlanti con diversa provenienza geografica e diversa collocazione sociale, raccolte a Torino fra il 2018 e il 2020 per mezzo di interviste su esperienze di vita personale in città (studio, lavoro, attività nel tempo libero o in pensione, ricordi del passato, ecc.).

ParlaTO è dotato di un insieme di metadati relativi alle caratteristiche socio-demografiche degli informatori, quali l’età, il titolo di studio, il genere, l’occupazione, il luogo di nascita, la lingua materna e, per chi è originario di un paese straniero, il tempo di permanenza e gli anni di studio in Italia. Il corpus offre così la possibilità di esplorare il parlato di Torino per come esso si presenta in parlanti e gruppi sociali differenti.

ParlaTO si inserisce nel più ampio corpus KIParla, che è pensato per esplorare aspetti di differenziazione geografica, sociale e situazionale dell’italiano parlato. Per maggiori informazioni sul KIParla, clicca qui.

Le ricerche all’interno del ParlaTO vengono effettuate attraverso l’interfaccia NoSketch Engine, della quale si avvale l’intero KIParla. Le indicazioni principali per effettuare una ricerca all’interno del corpus si trovano qui.

Interrogando il corpus ParlaTO, l’utente dichiara e accetta che:

  • la consultazione è effettuata esclusivamente per scopi di ricerca scientifica e senza fini di lucro;
  • in caso di utilizzo e/o riproduzione dei dati linguistici contenuti nella risorsa, sarà riconosciuta la paternità della risorsa stessa citandola opportunamente (v. sotto);
  • i dati ricavati dalla consultazione non saranno modificati (salvo esplicita dichiarazione dell’utente);
  • i dati inclusi nel corpus KIParla non saranno inclusi in alcuna altra risorsa (salvo accordi con i responsabili).

Per accedere al corpus, clicca sul pulsante blu:

Per avere accesso agli audio del ParlaTO, è necessaria una registrazione. Puoi compilare il form su questa pagina e seguire le istruzioni.

%d blogger hanno fatto clic su Mi Piace per questo: