Xerrada a càrrec de la doctora Carla Marello, dijous 24 de gener de 2008 a la Universitat Pompeu Fabra
Carla Marello és una lingüista de la Universitat de Torí que s’ha dedicat bàsicament a la investigació en diferents camps de la lingüística aplicada, com la lexicografia bilingüe i l’ensenyament de l’italià com a llengua estrangera. Carla Marello també s’ha dedicat a la recerca de la lingüística de corpus, col·laborant en diferents projectes de la Universitat de Torí i de l’IULA.
Carla Marello va presentar la pàgina web italiana www.corpora.unito.it que recull diversos corpus: VALICO, ATHENAEUM, TAURINENSE i NUNC, tot i que la seva xerrada va dedicar-se bàsicament a aquest últim corpus. El corpus VALICO està pensat per a les persones que aprenen italià com a llengua estrangera i és l’únic d’aquest tipus que existeix a Itàlia. L’ATHENAEUM és un corpus de la llengua burocràtica de la universitat i conté, per tant, una llengua italiana escrita i de nivell elevat. Aquest corpus es troba etiquetat i classificat per temes i tipologies textuals. El corpus TAURINENSE és el primer que varen realitzar i recull l’italià antic, també es trobat etiquetat i classificat per estructura textual, gènere literari i formes filològiques.
El corpus en el que va centrar les seves explicacions va ser el NUNC. Aquest corpus s’ha realitzat a partir del Newsgroup UseNet Group i el seu interès es centra en l’anàlisi del discurs. Un newsgroup és una mena de fòrum en el que hi ha participants que fan aportacions. Cada newsgroup té una temàtica concreta i és una plataforma que es localitza al sistema UseNet. Al començament del newsgroupA partir de les aportacions que es troben a aquests newsgroups s’ha creat el corpus NUNC. Així doncs, trobem un corpus en italià però també un en anglès, un en castellà, un en francès i un en alemany i cada llengua, com el newsgroup, compta amb apartats dedicats a una temàtica concreta. En italià trobem dos apartats dedicats a la llengua en general, un especialitzat en cuina, un en motor, un en fotografia, un en cinema i un altre de fotografia en construcció. En el cas del castellà en trobem un de llengua general, un dedicat a la cuina en el que hi trobem moltes aportacions de participants d’origen llatinoamericà, un de motor i un de fotografia. El corpus en alemany es troba en fase de desenvolupament i encara és bastant inestable. A més, la majoria dels participants del newsgroup a partir del qual s’ha creat aquest corpus en alemany no són nadius. Una altra dada important, és que la majoria dels participants del newsgroup fins al 2002 eren homes i a partir del 2003 eren persones amb un cert bagatge cultural. Així doncs, va ser important recollir l’edat, el sexe i el nivell cultural dels participants així com també la seva procedència geogràfica. D’altra banda, es van haver d’enfrontar a un problema a l’hora de crear aquest corpus: de quin tipus de text parlem quan es tracta d’un “post” escrit al newsgroup, es tracta d’un text que té copyright o bé tenim plena llibertat d’utilitzar-lo?
Pel que fa a aspectes metodològics i d’ús del corpus, s’ha de dir que es poden copiar els resultats que dóna el corpus i que es pot escollir el número de paraules que es vol que aparegui en cadascun dels resultats. El corpus funciona amb expressions regulars (regex) i a través del thread podem anar veient quins usuaris són els que van contestar als diferents posts del newsgroup. A més, s’ha realitzat un etiquetatge per sintagmes, atorgant així etiquetes semàntiques i etiquetes per quantificadors.
Un punt a favor d’aquest corpus és que demostra que es poden tractar temes especialitzats amb l’italià. A Itàlia existeix la consideració que els temes importants i especialitzats s’han de tractar en anglès ja que la universitat en llengua italiana és més cara que en llengua anglesa, fet que provoca una dialectalització de l’italià.
El NUNC permet observar certs fenòmens lingüístics que es donen a la llengua italiana. D’una banda permet veure certs buits en la normalització de l’italià. En italià no s’ha normalitzat l’escriptura dels manlleus i podem veure com la gent escriu com sona la paraula. Aquests serien uns exemples graciosos d’aquesta problemàtica: compiuter – computer, is ollrait – it’s allright, haltzeimr – alzheimer, free lands – free lance. Aquest fet, segons Carla Marello, demostra l’error que s’ha comès a l’hora de no normalitzar l’escriptura dels manlleus. De l’altra, el corpus també ens permet observar les abreviacions que fan els parlants de l’italià, ja que en conté unes 196. La majoria de les abreviatures consten de 2 síl·labes quan són paraules italianes, però no quan són abreviatures de paraules llatines o angleses. Existeix un problema relacionat també amb aquest fenomen i és que la majoria d’abreviacions que trobem al NUNC només funcionen si ha aparegut abans la paraula sencera al discurs. Un bon exemple seria barzs que prové de brazallete, però resulta que la terminació –zs és gairebé impronunciable en italià i les abreviatures normals haurien de ser barza o bé barze.
La xerrada va acabar amb una anàlisi contrastiva de frases en italià i castellà i una breu comparativa entre el corpus NUNC i el corpus CORIS. El CORIS és el corpus de la universitat de Bolonya; es tracta d’un corpus amb un registre elevat ja que recull bàsicament textos de la premsa escrita. Així, la diferència bàsica és el tipus de registre.
Es va tractar d’una xerrada amena i curiosa, a més, es va poder seguir bastant bé tot i ser en italià. Potser també perquè fa dos anys vaig fer un intensiu de tres mesos d’aquesta llengua, però crec que tot i no entendre totes i cadascuna de les paraules, es podia seguir la xerrada sense gaires dificultats. La doctora Marello es va centrar en el funcionament del NUNC més que no pas en les diferents cerques i els resultats que es podrien fer si es fer una cerca analítica de la llengua italiana en ús en els àmbits que tracta el NUNC.