Corpus Brown

O Brown University Standard Corpus of Present-Day American English (ou apenas CorpusBrown) é uma coleção eletrônica de amostras de texto do inglês americano, o primeiro grande corpus estruturado de gêneros variados. Este corpus primeiro estabeleceu o padrão para o estudo científico da frequência e distribuição de categorias de palavras no uso diário da linguagem. Compilado por Henry Kučera e W. Nelson Francis na Universidade Brown, em Rhode Island, é um corpus de linguagem geral contendo 500 amostras de inglês, totalizando cerca de um milhão de palavras, compiladas de trabalhos publicados nos Estados Unidos em 1961.

HistóriaEditar

Em 1967, Kučera e Francis publicaram sua obra clássica Computational Analysis of Present-Day American English, que forneceu estatísticas básicas sobre o que hoje é conhecido simplesmente como Corpus Brown.[1]

O Corpus Brown foi uma seleção cuidadosamente compilada do inglês americano atual, totalizando cerca de um milhão de palavras extraídas de uma ampla variedade de fontes. Kučera e Francis o submeteram a uma variedade de análises computacionais, a partir das quais eles compilaram uma obra combinando elementos de linguística, psicologia, estatística e sociologia. Ele tem sido amplamente utilizado em linguística computacional, e por muitos anos esteve entre os recursos mais citados na área.[2]

Referências

  1. Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.
  2. Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html.

Ligações externasEditar