Corpus llingüístic

Un corpus llingüístic és un conjunt, normalment molt ampli, d'eixemples reals d'us d'una llengua o d'una varietat llingüística. Estes eixemples que conté un corpus sovint són texts, pero poden ser també mostres orals (normalment transcrites) o fins i tot signades. En funció del format d'este conjunt d'eixemples, existixen corpus escrits, orals i de llengües de signes. Els corpus textuals són un dels principals recursos per a l'obtenció de dades empíriques útils per a la disciplina de la llingüística. Val a dir que, paralelament al desenroll de les tecnologies de la informació, els corpus electrònics se han convertit una ferramenta fonamental per a l'obtenció d'estes dades, atesa la quantitat d'informació que es pot processar en un programari adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 millons de mots.

Els corpus de referència contenen un gran volum de dades llingüístiques que permeten obtindre dades representatives per analisar qualsevol aspecte d'una llengua.

Es diu llingüística de corpus a la subdisciplina de la llingüística que estudia la llengua a través d'estes mostres. Este tipo d'aproximació choca en l'enfocament generativista chomskià que tendix a estudiar la llengua partint de la premissa que els humans tenim un coneiximent innat de la llengua, la gramàtica universal, i que el repertori d'estes coneiximents és infinit. Chomsky propon prendre com a mostra un parlant ideal en competència llingüística en la llengua objecte d'estudi.

Este subdisciplina, donat el volum de dades que utilisa, normalment s'associa en la llingüística computacional, segons esta última s'apropa a les aplicacions de Processament de llenguage natural.

Esta isciplina es va iniciar el 1967 quan Henry Kucera i Nelson Francis van publicar el clàssic Computational Analysis of Present-Day American English, basant-se en el corpus Brown, una compilació d'anglés nort-americà d'aproximadament un milló de paraules, seleccionades d'una àmplia varietat de fonts.

Segons el Diccionari de la Llengua Catalana un "corpus llingüístic" és la colecció general d'escrits relatius o pertanyents a la llingüística, al llenguage o a les llengües.

Ferramentes informàtiques de processament de corpus llingüístics

El programa AntConc és una ferramenta de programari lliure que funciona en Windows i Linux. Dispon d'una interfície bastant intuïtiva que en facilita l'us. Entre les seues funcions inclou:

- Llista de paraules: el programa mostra totes les paraules dels archius de corpus carregats ordenades segons el criteri que triem (freqüència, alfabètic, alfabètic invers).

- Concordances: podem visualisar paraules en el context en qué apareixen, és a dir, en les paraules que l'envolten. Podem seleccionar ordenar alfabèticament els resultats per la dreta o per l'esquerra.

- Concordances gràfiques: és una ampliació de la funció anterior. Mos mostra en un gràfic horisontal els segments de cada archiu on apareix la paraula que hem buscat.

- Clústers i n-grames: mos permet buscar agrupaments de paraules en els corpus. Podem determinar quin és l'agrupament d'un nombre X de paraules més freqüent o quin és l'agrupament més comú en una paraula X.

- Colocacions: mos permet conéixer quina és la freqüència d'aparició de determinades paraules en altres.

- Keyword list: mos permet conéixer la representativitat de les paraules d'un corpus respecte d'un atre

Programa AntConc processant la informació des d'un corpus

Aplicacions del corpus llingüístic

La utilisació del corpus llingüístic des d'un punt de vista de processament informàtic, mos permet crear diferents productes llingüístics, com ara l'elaboració de diccionaris i de gramàtiques. El proyecte per a la llengua anglesa de COBUILDés un bon eixemple d'aplicació d'un corpus llingüístic.^[1] Pero no sols servix per a l'elaboració de diccionaris o gramàtiques, sino que també té gran utilitat a l'hora de fer estudis dialectològics i de diccionaris més específics com diccionaris etimològics o històrics. Atres usos dels corpus llingüístic estan relacionats en les anàlisis de texts o d'estils, elaboració d'edicions crítiques o datació de la freqüència d'aparició de certs mots dins d'un corpus concret.

Referències

↑ Joaquim Rafel i Fontanals, Joan Soler i Bou: (2010) El processament del corpus I: la llingüística empírica.UOC. Barcelona

Vejau també

[1] Joaquim Rafel i Fontanals, Joan Soler i Bou: (2010) El processament del corpus I: la llingüística empírica.UOC. Barcelona

[1]