Corpus llingüístic

Un corpus llingüístic és un conjunt, normalment molt ampli, d'eixemples reals d'us d'una llengua o d'una varietat llingüística. Estos eixemples que conté un corpus a sovint són texts, pero poden ser també mostres orals (normalment transcrites) o inclús signades. En funció del format d'este conjunt d'eixemples, existixen corpus escrits, orals i de llengües de signes. Els corpus textuals són un dels principals recursos per a l'obtenció de senyes empíriques útils per a la disciplina de la llingüística. Es dir que, paralelament al desenroll de les tecnologies de l'informació, els corpus electrònics s'han convertit en una ferramenta fonamental per a l'obtenció d'estes senyes, atesa la cantitat d'informació que es pot processar en un programa adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 millons de mots.

Els corpus de referència contenen un gran volum de senyes llingüístiques que permeten obtindre senyes representatives per analisar qualsevol aspecte d'una llengua.

Es diu llingüística de corpus a la subdisciplina de la llingüística que estudia la llengua a través d'estes mostres. Este tipo d'aproximació choca en l'enfocament generativista chomskià que tendix a estudiar la llengua partint de la premissa que els humans tenim un coneiximent innat de la llengua, la gramàtica universal, i que el repertori d'estes coneiximents és infinit. Chomsky propon prendre com a mostra un parlant ideal en competència llingüística en la llengua objecte d'estudi.

Este subdisciplina, donat el volum de senyes que utilisa, normalment s'associa en la llingüística computacional, segons esta última s'apropa a les aplicacions de Processament de llenguage natural.

Esta disciplina es va iniciar en 1967 quan Henry Kucera i Nelson Francis varen publicar el clàssic Computational Analysis of Present-Day American English, basant-se en el corpus Brown, una compilació d'anglés nort-americà d'aproximadament un milló de paraules, seleccionades d'una àmplia varietat de fonts.

Ferramentes informàtiques de processament de corpus llingüísticsEditar

El programa AntConc és una ferramenta de software lliure que funciona en Windows i Linux. Dispon d'una interfície bastant intuïtiva que en facilita l'us. Entre les seues funcions inclou:

- Llista de paraules: El programa mostra totes les paraules dels archius de corpus carregats ordenades segons el criteri que triem (freqüència, alfabètic, alfabètic invers).

- Concordances: Podem visualisar paraules en el context en qué apareixen, és dir, en les paraules que l'envolten. Podem seleccionar ordenar alfabèticament els resultats per la dreta o per l'esquerra.

- Concordances gràfiques: és una ampliació de la funció anterior. Nos mostra en un gràfic horisontal els segments de cada archiu a on apareix la paraula que hem buscat.

- Clústers i n-grames: Nos permet buscar agrupaments de paraules en els corpus. Podem determinar quin és l'agrupament d'un nombre X de paraules més freqüent o quin és l'agrupament més comú en una paraula X.

- Colocacions: Nos permet conéixer quina és la freqüència d'aparició de determinades paraules en atres.

- Keyword list: Nos permet conéixer la representativitat de les paraules d'un corpus respecte d'un atre

 
Programa AntConc processant l'informació des d'un corpus

Aplicacions del corpus llingüísticEditar

La utilisació del corpus llingüístic des d'un punt de vista de processament informàtic, nos permet crear diferents productes llingüístics, com ara l'elaboració de diccionaris i de gramàtiques. El proyecte per a la llengua anglesa de COBUILDés un bon eixemple d'aplicació d'un corpus llingüístic.[1] Pero no sols servix per a l'elaboració de diccionaris o gramàtiques, sino que també té gran utilitat a l'hora de fer estudis dialectològics i de diccionaris més específics com diccionaris etimològics o històrics. Atres usos dels corpus llingüístic estan relacionats en els anàlisis de texts o d'estils, elaboració d'edicions crítiques o datació de la freqüència d'aparició de certs mots dins d'un corpus concret.

ReferènciesEditar

  1. Joaquim Rafel i Fontanals, Joan Soler i Bou: (2010) El processament del corpus I: la llingüística empírica.UOC. Barcelona

Vore tambéEditar