Nota: Para outros significados, veja Harem (desambiguação).

O HAREM é uma avaliação internacional para sistemas de Processamento da Linguagem Natural específicos para a língua portuguesa.

O que é? editar

A sigla HAREM responde por (HAREM é) Avaliação de Reconhecimento de Entidades Mencionadas[1] e trata-se de uma avaliação conjunta[2] sobre a extração e a classificação automática de entidades mencionadas em textos em língua portuguesa.

O HAREM teve o seu início oficial em Setembro de 2004, por iniciativa da Linguateca, uma rede de recursos e avaliação para língua portuguesa, apoiada pelas autoridades portuguesas. Oito sistemas participaram na sua primeira edição, e um livro foi publicado em 2007.[3] Também existiu uma nova edição chamada mini-HAREM, organizada no fim do Primeiro HAREM, em 2006, com apenas cinco participantes.

Em 2007-2008 foi realizado o Segundo HAREM, em que participaram nove sistemas e que deu origem a um novo livro, publicado em Dezembro de 2008.[4] Nesta edição houve duas pistas novas além da genérica, a de deteção de entidades temporais, e a de deteção de relações entre entidades mencionadas, o ReRelEM.

O HAREM foi a única avaliação conjunta organizada pela Linguateca[5] que teve duas (ou três) edições, devido ao grande interesse que suscitou. Outras avaliações organizadas pela Linguateca foram as Morfolimpíadas[6] (2003-2004), o GikiP[7] (2008), o GikiCLEF[8] (2009) e o Págico[9] (2012). Além disso a Linguateca participou como organizadora para o português no CLEF (CrossLingual Evaluation Forum) de 2004 a 2009.[10]

Impacto editar

Houve mais de cem artigos escritos sobre o HAREM, pelos participantes e pelos organizadores, e é bastante referenciado pela comunidade em muitas ocasiões.[11] [12] [13] [14][15]

Três coisas foram propostas pelo HAREM:

  • uma diferente concetualização da tarefa "named entity recognition", traduzida por "reconhecimento de entidades mencionadas", que parte da língua e não do mundo
  • um sistema de avaliação complexo, com separação de identificação e classificação, e possibilidade de vagueza de classificação
  • regras detalhadas para identificar e classificar um conjunto de categorias para o português

Para a comunidade, foram tornados públicos

  • materiais de avaliação, as chamadas "coleções douradas"
  • programas de avaliação de novos sistemas, com base nas ditas coleções douradas

Problemas editar

Um dos problemas do HAREM foi que a terminologia entidades mencionadas não foi aceite pela globalidade da comunidade falante do português, e vários novos trabalhos usam o termo "entidades nomeadas", dessa forma não tomando em consideração o trabalho já feito.

Também devido à diferença na forma de codificar o problema, e diferentes categorias, é dificil de comparar com outras avaliações, para outras línguas.

Outros eventos de avaliação de reconhecimento de entidades mencionadas editar

Referências

  1. http://www.linguateca.pt/HAREM/
  2. Santos, Diana, ed. (janeiro de 2007). Avaliação conjunta: um novo paradigma no processamento computacional da língua portuguesa. Lisboa: IST Press. ISBN 978-972-8469-60-3 
  3. Santos, Diana; Cardoso, Nuno, eds. (novembro de 2017). Reconhecimento de entidades mencionadas em português. [S.l.: s.n.] ISBN 978-989-20-0731-1 
  4. Mota, Cristina; Santos, Diana, eds. (dezembro de 2009). Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM. [S.l.: s.n.] ISBN 978-989-20-1656-6 
  5. https://www.linguateca.pt/AvalConjunta/
  6. https://www.linguateca.pt/Morfolimpiadas/
  7. https://www.linguateca.pt/GikiP/
  8. https://www.linguateca.pt/GikiCLEF/
  9. https://www.linguateca.pt/Pagico/
  10. https://www.linguateca.pt/CLEF/
  11. McNamee, Paul; Mayfield, James C.; Piatko, Christine D. (2011). «Processing Named Entities in Text» [Processando entidades mencionadas em texto] (PDF). Johns Hopkins APL Technical Digest (em inglês). 30 (1): 31-40 
  12. García González, Marcos; Gayo, Iria; González López, Isaac (2012). «Identificação e classificação de entidades mencionadas em galego». Estudos de Lingüística Galega. 4: 13-25. ISSN 1889-2566 
  13. Collovini de Abreu, Sandra; Bonamigo, Tiago Luis; Vieira, Renata (2013). «A review on Relation Extraction with an eye on Portuguese» [Uma revisão de extração de relações olhando para o português]. Journal of the Brazilian Computer Society (em inglês). 19: 553–571. Consultado em 6 de junho de 2020 
  14. Canosa, Afonso Xavier (2019). «Referentes por coordenadas e georreferências relativas das entidades geográficas mencionadas na Peregrinação». De Oriente a Ocidente: Estudos da Associação Internacional de Lusitanistas. I: 11-34 
  15. Pirovani, Juliana Pinheiro Campos (2019). CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português (Doutorado). Vitória: Universidade Federal do Espírito Santo. Consultado em 6 de junho de 2020