Canvis

Anar a la navegació Anar a la busca
5 bytes afegits ,  15:20 2 març 2020
m
dades > senyes
Llínea 1: Llínea 1:  
Un '''corpus llingüístic''' és un conjunt, normalment molt ampli, d'eixemples reals d'us d'una llengua o d'una varietat llingüística. Estos eixemples que conté un corpus a sovint són texts, pero poden ser també mostres orals (normalment transcrites) o inclús  signades. En funció del format d'este conjunt d'eixemples, existixen corpus escrits, orals i de llengües de signes.
 
Un '''corpus llingüístic''' és un conjunt, normalment molt ampli, d'eixemples reals d'us d'una llengua o d'una varietat llingüística. Estos eixemples que conté un corpus a sovint són texts, pero poden ser també mostres orals (normalment transcrites) o inclús  signades. En funció del format d'este conjunt d'eixemples, existixen corpus escrits, orals i de llengües de signes.
Els corpus textuals són un dels principals recursos per a l'obtenció de dades empíriques útils per a la disciplina de la llingüística. Es dir que, paralelament al desenroll de les tecnologies de la informació, els corpus electrònics s'han convertit en una ferramenta fonamental per a l'obtenció d'estes dades, atesa la cantitat d'informació que es pot processar en un programari adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 millons de mots.
+
Els corpus textuals són un dels principals recursos per a l'obtenció de senyes empíriques útils per a la disciplina de la llingüística. Es dir que, paralelament al desenroll de les tecnologies de la informació, els corpus electrònics s'han convertit en una ferramenta fonamental per a l'obtenció d'estes senyes, atesa la cantitat d'informació que es pot processar en un programari adequat. Alguns corpus, com ara el Bank of English, contenen fins a 300 millons de mots.
   −
Els corpus de referència contenen un gran volum de dades llingüístiques que permeten obtindre dades representatives per analisar qualsevol aspecte d'una llengua.
+
Els corpus de referència contenen un gran volum de senyes llingüístiques que permeten obtindre senyes representatives per analisar qualsevol aspecte d'una llengua.
    
Es diu ''llingüística de corpus'' a la subdisciplina de la [[llingüística]] que estudia la llengua a través d'estes mostres. Este tipo d'aproximació choca en l'enfocament generativista [[Noam Chomsky|chomskià]] que tendix a estudiar la llengua partint de la premissa que els humans tenim un coneiximent innat de la llengua, la [[gramàtica universal]], i que el repertori d'estes coneiximents és infinit. Chomsky propon prendre com a mostra un parlant ideal en [[Competència comunicativa|competència llingüística]] en la llengua objecte d'estudi.
 
Es diu ''llingüística de corpus'' a la subdisciplina de la [[llingüística]] que estudia la llengua a través d'estes mostres. Este tipo d'aproximació choca en l'enfocament generativista [[Noam Chomsky|chomskià]] que tendix a estudiar la llengua partint de la premissa que els humans tenim un coneiximent innat de la llengua, la [[gramàtica universal]], i que el repertori d'estes coneiximents és infinit. Chomsky propon prendre com a mostra un parlant ideal en [[Competència comunicativa|competència llingüística]] en la llengua objecte d'estudi.
   −
Este subdisciplina, donat el volum de dades que utilisa, normalment s'associa en la [[llingüística computacional]], segons esta última s'apropa a les aplicacions de [[Processament de llenguage natural]].
+
Este subdisciplina, donat el volum de senyes que utilisa, normalment s'associa en la [[llingüística computacional]], segons esta última s'apropa a les aplicacions de [[Processament de llenguage natural]].
    
Esta disciplina es va iniciar en [[1967]] quan [[Henry Kucera]] i [[Nelson Francis]] varen publicar el clàssic ''Computational Analysis of Present-Day American English'', basant-se en el corpus Brown, una compilació d'[[anglés]] nort-americà d'aproximadament un milló de paraules, seleccionades d'una àmplia varietat de fonts.
 
Esta disciplina es va iniciar en [[1967]] quan [[Henry Kucera]] i [[Nelson Francis]] varen publicar el clàssic ''Computational Analysis of Present-Day American English'', basant-se en el corpus Brown, una compilació d'[[anglés]] nort-americà d'aproximadament un milló de paraules, seleccionades d'una àmplia varietat de fonts.

Menú de navegació