Linguística de corpus: diferenças entre revisões

Conteúdo apagado Conteúdo adicionado
Addbot (discussão | contribs)
m A migrar 19 interwikis, agora providenciados por Wikidata em d:q865083
Linha 3:
A linguística de corpus surgiu com a necessidade que estudiosos da [[língua]] sentiram de se apoiar em usos reais para fazerem generalizações ou esboçarem teorias a respeito do funcionamento linguístico. Atualmente, a linguística de corpus está intimamente ligada ao uso do [[computador]], visto que os corpora/córpora (plural de corpus) são eletrônicos. Assim, a linguística de corpus contemporânea caracteriza-se pela coleta e análise de corpora eletrônicos com o auxílio de ferramentas eletrônicas.
 
O corpus deve ser constituído de dados autênticos (não inventados), legíveis por [[computador]] e representativos de uma língua ou variedade da língua da qual se deseja estudar.
 
O computador desempenha um papel importante para os estudos na área. As ferramentas computacionais são geralmente utilizadas para reorganização e extração de informações no corpus para observação e interpretação de dados, fornecendo novas perspectivas para a análise [[linguística]]. As ferramentas computacionais mais comuns são:
 
* Programas para listar palavras - fazem a contagem das palavras em um corpus;
* [[Concordanciador]]es - programas que permitem que o usuário procure por palavras específicas em um corpus, fornecendo exaustivas listas para as ocorrências da palavra em contexto;
*[[Concordanciador]]es - programas que permitem que o usuário procure por palavras específicas em um corpus, fornecendo exaustivas listas para as ocorrências da palavra em contexto;
 
* Etiquetadores - fazem análises automáticas do corpus e inserem etiquetas (códigos) de ordem [[morfossintática]], [[sintática]], [[semântica]] ou [[discursiva]].
 
A Linguística de Corpus faz uso de uma abordagem [[empirista]], contrária à abordagem [[racionalista]], do ponto de vista linguístico, e tem como central a noção de [[linguagem]] enquanto sistema [[probabilístico]].
 
De acordo com essa noção, os traços linguístico não ocorrem de forma [[aleatória]], sendo possível evidenciar e quantificar regularidades (padrões). É comum na área afirmar que a linguagem é padronizada (''patterned''), isto é, existe uma correlação entre os traços linguísticos e os contextos situacionais de uso da linguagem.
Linha 19 ⟶ 17:
Na Linguística de Corpus, a padronização se evidencia por colocações, coligações ou estruturas que se repetem significativamente. Os principais conceitos de padronização na Linguística de Corpus são: [[colocação]], [[coligação]] e [[prosódia semântica]].
 
Para muitos pesquisadores, a Linguística de Corpus revolucionou o modo como a linguagem é estudada. Seus achados contribuem para diversas áreas de [[pesquisa linguística]] ([[Lexicografia]], [[Ensino-aprendizagem]], [[Tradução]], etc,).
 
As principais áreas da Linguística de Corpus são:
 
* Compilação de corpora;
 
* Desenvolvimento de ferramentas para análise de corpora;
 
* Descrição de linguagem;
 
* Exploração do uso de descrições baseadas em corpora para várias aplicações tal como ensino-aprendizagem de línguas, processamento de linguagem natural por máquinas, reconhecimento de voz e tradução.
 
== Histórico ==
 
A Linguística de Corpus faz extenso uso de ferramentas computacionais e sua história se confunde com o [[desenvolvimento tecnológico]], especificamente o [[computador]]. É possível identificar dois períodos importantes desde seu surgimento: antes do advento do computador e depois.
 
Antes do computador, já se fazia uso de corpus. Na [[Grécia Antiga]] foi criado o [[Corpus Helenístico]]. Na [[Antiguidade]] e [[Idade Média]], produziam-se corpora de citações da [[bíblia]]. Durante boa parte do [[século XX]], o uso de corpora para [[descrição da linguagem]].
 
Os corpora dessas épocas eram coletados, armazenados e analisados manualmente. A dificuldade de se realizar estudos desse tipo era enorme. Mesmo assim, havia grande interesse na coleta e exploração de corpora. É importante ressaltar o papel dos estudos baseados em corpora realizados manualmente pela dificuldade e pelo pioneirismo na época.
 
O período crítico para os estudos baseados em corpus se deu com a ‘mudança’ de [[paradigma]] da [[linguística]], com as ideias de [[Chomsky]] por volta de 1950. Houve uma preferência muito forte por estudos baseados em [[teorias racionalistas]] da linguagem. Os estudos [[empíricos]] receberam muitas críticas nessa época. As críticas eram relacionadas à necessidade de se coletar dados empíricos e o meio pelo qual se realizava a coleta e a análise dos dados. Um dos argumentos era a falta de confiabilidade em analisar manualmente grandes quantidades de dados linguísticos.
 
Embora o cenário fosse desfavorável, os estudos baseados em corpora não pararam. Muitos pesquisadores continuaram seus estudos por meio de corpora. [[Firth]] (1957) e os [[neo-firthianos]] defendiam a descrição da linguagem por meio de dados reais. O corpus [[SEU]] (Survey of English Usage), por exemplo, foi compilado e etiquetado manualmente em 1959. O SEU influenciou a criação de corpora eletrônicos e serviu para o desenvolvimento de etiquetadores computadorizados contemporâneos.
 
Com o advento do computador nos anos de 1960 e a queda de prestígio das pesquisas puramente racionalistas, o cenário começou a mudar. O lançamento do [[corpus Brown]] em 1964, com 1 milhão de palavras, é considerado como o fato propulsor do desenvolvimento da Linguística de Corpus. O corpus Brown é o pioneiro dos [[corpora eletrônicos]] por ter nascido em um período ainda desfavorável para os estudos empiristas e, também, pela dificuldade de compilação em computadores [[mainframe]].
 
A popularização dos estudos com corpora ocorreu nos anos de 1980 com o aparecimento dos [[computadores pessoais]]. Com o desenvolvimento dos computadores, especificamente o aumento da capacidade de armazenar e processar dados, maiores números de corpora e ferramentas foram disponibilizadas para pesquisas, contribuindo para a consolidação da Lingüística de Corpus.
Linha 55 ⟶ 49:
Biber, D.; Conrad, S.; Reppen, R. (1998). ''Corpus linguistics: investigating language structure and use''. Cambridge, Cambridge University Presss.
 
Hunston, S. (2002). ''Corpora in Applied Linguistics''. Cambridge: Cambridge University Press.
 
Kennedy, G. D. (1998). ''An introduction to corpus linguistics''. Nova York, Longman.
 
=={{ Ligações externas}} ==
* [http://www2.lael.pucsp.br/corpora/bp Banco de Português]
* [http://www2.lael.pucsp.br/corpora/ Ferramentas computacionais ("toolkit online")]
* [http://www.corpusdoportugues.org/ Corpus do Português]
* [http://www.revel.inf.br/site2007/_pdf/3/entrevistas/revel_3_entrevista_tony_berber_sardinha.pdf Linguística de Corpus: uma entrevista com Tony Berber Sardinha. Revista Virtual de Estudos da Linguagem - ReVEL, vol. 2, n. 3, 2004]
 
{{Portal3|Linguística}}
 
[[Categoria:Linguística de corpus]]