Canvis

Anar a la navegació Anar a la busca
171 bytes eliminats ,  10:53 6 dec 2013
m
sense resum d'edició
Llínea 1: Llínea 1: −
Un '''corpus llingüístic''' és un conjunt, normalment molt ampli, d'eixemples reals d'us d'una llengua o d'una varietat llingüística. Estes eixemples que conté un corpus sovint són texts, pero poden ser també mostres orals (normalment transcrites) o fins i tot signades. En funció del format d'este conjunt d'eixemples, existixen corpus escrits, orals i de llengües de signes.
+
Un '''corpus llingüístic''' és un conjunt, normalment molt ampli, d'eixemples reals d'us d'una llengua o d'una varietat llingüística. Estos eixemples que conté un corpus a sovint són texts, pero poden ser també mostres orals (normalment transcrites) o fins i tot signades. En funció del format d'este conjunt d'eixemples, existixen corpus escrits, orals i de llengües de signes.
Els corpus textuals són un dels principals recursos per a l'obtenció de dades empíriques útils per a la disciplina de la llingüística. Val a dir que, paralelament al desenroll de les tecnologies de la informació, els corpus electrònics se han convertit una ferramenta fonamental per a l'obtenció d'estes dades, atesa la quantitat d'informació que es pot processar en un programari adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 millons de mots.
+
Els corpus textuals són un dels principals recursos per a l'obtenció de dades empíriques útils per a la disciplina de la llingüística. Es dir que, paralelament al desenroll de les tecnologies de la informació, els corpus electrònics s'han convertit en una ferramenta fonamental per a l'obtenció d'estes dades, atesa la quantitat d'informació que es pot processar en un programari adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 millons de mots.
    
Els corpus de referència contenen un gran volum de dades llingüístiques que permeten obtindre dades representatives per analisar qualsevol aspecte d'una llengua.
 
Els corpus de referència contenen un gran volum de dades llingüístiques que permeten obtindre dades representatives per analisar qualsevol aspecte d'una llengua.
Llínea 8: Llínea 8:  
Este subdisciplina, donat el volum de dades que utilisa, normalment s'associa en la [[llingüística computacional]], segons esta última s'apropa a les aplicacions de [[Processament de llenguage natural]].
 
Este subdisciplina, donat el volum de dades que utilisa, normalment s'associa en la [[llingüística computacional]], segons esta última s'apropa a les aplicacions de [[Processament de llenguage natural]].
   −
Esta isciplina es va iniciar el 1967 quan [[Henry Kucera]] i [[Nelson Francis]] van publicar el clàssic ''Computational Analysis of Present-Day American English'', basant-se en el corpus Brown, una compilació d'anglés nort-americà d'aproximadament un milló de paraules, seleccionades d'una àmplia varietat de fonts.
+
Esta disciplina es va iniciar en [[1967]] quan [[Henry Kucera]] i [[Nelson Francis]] varen publicar el clàssic ''Computational Analysis of Present-Day American English'', basant-se en el corpus Brown, una compilació d'[[anglés]] nort-americà d'aproximadament un milló de paraules, seleccionades d'una àmplia varietat de fonts.
 
  −
Segons el Diccionari de la Llengua Catalana un "corpus llingüístic" és la colecció general d'escrits relatius o pertanyents a la llingüística, al llenguage o a les llengües.
      
== Ferramentes informàtiques de processament de corpus llingüístics ==
 
== Ferramentes informàtiques de processament de corpus llingüístics ==
 
El programa AntConc és una ferramenta de [[programari lliure]] que funciona en [[Windows]] i [[Linux]]. Dispon d'una interfície bastant intuïtiva que en facilita l'us. Entre les seues funcions inclou:
 
El programa AntConc és una ferramenta de [[programari lliure]] que funciona en [[Windows]] i [[Linux]]. Dispon d'una interfície bastant intuïtiva que en facilita l'us. Entre les seues funcions inclou:
   −
- '''Llista de paraules''': el programa mostra totes les paraules dels archius de corpus carregats ordenades segons el criteri que triem (freqüència, alfabètic, alfabètic invers).
+
- '''Llista de paraules''': El programa mostra totes les paraules dels archius de corpus carregats ordenades segons el criteri que triem (freqüència, alfabètic, alfabètic invers).
   −
- '''Concordances''': podem visualisar paraules en el context en qué apareixen, és a dir, en les paraules que l'envolten. Podem seleccionar ordenar alfabèticament els resultats per la dreta o per l'esquerra.
+
- '''Concordances''': Podem visualisar paraules en el context en qué apareixen, és dir, en les paraules que l'envolten. Podem seleccionar ordenar alfabèticament els resultats per la dreta o per l'esquerra.
   −
- '''Concordances gràfiques''': és una ampliació de la funció anterior. Mos mostra en un gràfic horisontal els segments de cada archiu on apareix la paraula que hem buscat.
+
- '''Concordances gràfiques''': és una ampliació de la funció anterior. Nos mostra en un gràfic horisontal els segments de cada archiu a on apareix la paraula que hem buscat.
   −
- '''Clústers i n-grames''': mos permet buscar agrupaments de paraules en els corpus. Podem determinar quin és l'agrupament d'un nombre X de paraules més freqüent o quin és l'agrupament més comú en una paraula X.
+
- '''Clústers i n-grames''': Nos permet buscar agrupaments de paraules en els corpus. Podem determinar quin és l'agrupament d'un nombre X de paraules més freqüent o quin és l'agrupament més comú en una paraula X.
   −
- '''Colocacions''': mos permet conéixer quina és la freqüència d'aparició de determinades paraules en altres.
+
- '''Colocacions''': Nos permet conéixer quina és la freqüència d'aparició de determinades paraules en atres.
   −
- '''Keyword list''': mos permet conéixer la representativitat de les paraules d'un corpus respecte d'un atre [[Archiu:Programa_AntConc.png|thumb|302px|Programa AntConc processant la informació des d'un corpus]]
+
- '''Keyword list''': Nos permet conéixer la representativitat de les paraules d'un corpus respecte d'un atre [[Archiu:Programa_AntConc.png|thumb|302px|Programa AntConc processant la informació des d'un corpus]]
    
==Aplicacions del corpus llingüístic==
 
==Aplicacions del corpus llingüístic==
La utilisació del corpus llingüístic des d'un punt de vista de processament informàtic, mos permet crear diferents productes llingüístics, com ara l'elaboració de diccionaris i de gramàtiques. El proyecte per a la llengua anglesa de [http://diccionario.reverso.net/ingles-cobuild/ COBUILD]és un bon eixemple d'aplicació d'un corpus llingüístic.<ref>Joaquim Rafel i Fontanals, Joan Soler i Bou: (2010) El processament del corpus I: la llingüística empírica.UOC. Barcelona</ref>
+
La utilisació del corpus llingüístic des d'un punt de vista de processament informàtic, nos permet crear diferents productes llingüístics, com ara l'elaboració de diccionaris i de gramàtiques. El proyecte per a la llengua anglesa de [http://diccionario.reverso.net/ingles-cobuild/ COBUILD]és un bon eixemple d'aplicació d'un corpus llingüístic.<ref>Joaquim Rafel i Fontanals, Joan Soler i Bou: (2010) El processament del corpus I: la llingüística empírica.UOC. Barcelona</ref>
Pero no sols servix per a l'elaboració de diccionaris o gramàtiques, sino que també té gran utilitat a l'hora de fer estudis dialectològics i de diccionaris més específics com diccionaris etimològics o històrics. Atres usos dels corpus llingüístic estan relacionats en les anàlisis de texts o d'estils, elaboració d'edicions crítiques o datació de la freqüència d'aparició de certs mots dins d'un corpus concret.
+
Pero no sols servix per a l'elaboració de diccionaris o gramàtiques, sino que també té gran utilitat a l'hora de fer estudis dialectològics i de diccionaris més específics com diccionaris etimològics o històrics. Atres usos dels corpus llingüístic estan relacionats en els anàlisis de texts o d'estils, elaboració d'edicions crítiques o datació de la freqüència d'aparició de certs mots dins d'un corpus concret.
    
== Referències ==
 
== Referències ==
124 718

edicions

Menú de navegació