O Assistente de Avaliação Bilíngue, do inglês Bilingual Evaluation Understudy mais conhecido pela sigla BLEU, é um algoritmo que avalia a qualidade do texto que foi traduzido automaticamente de um idioma natural para outro. A qualidade considera a correspondência entre o resultado de uma máquina e o de um ser humano: "quanto mais próxima uma tradução automática estiver de uma tradução humana profissional, melhor ela é" - essa é a ideia central por trás do BLEU.[1] Inventado na IBM em 2001,[2] o BLEU foi uma das primeiras métricas a reivindicar uma alta correlação com julgamentos humanos de qualidade,[1][3] e continua sendo uma das métricas automatizadas e econômicas mais populares.

As pontuações são calculadas para segmentos individuais traduzidos - geralmente frases - comparando-os com um conjunto de traduções de referência de boa qualidade. Em seguida, calcula-se a média dessas pontuações em todo o corpus para obter uma estimativa da qualidade geral da tradução. A inteligibilidade ou a correção gramatical não são levadas em conta.

O resultado do BLEU é sempre um número entre 0 e 1. Esse valor indica o grau de semelhança entre o texto candidato e os textos de referência, com valores mais próximos de 1 representando textos mais semelhantes. Poucas traduções humanas atingirão uma pontuação de 1, pois isso indicaria que o candidato é idêntico a uma das traduções de referência. Por esse motivo, não é necessário atingir uma pontuação de 1. Como há mais oportunidades de correspondência, a adição de traduções de referência adicionais aumentará a pontuação BLEU.[1]

Definição matemática editar

Configuração básica editar

Uma primeira tentativa básica de definir a pontuação BLEU receberia dois argumentos: uma string candidata   e uma lista de strings de referência  . A ideia é que   deve estar próximo de 1 quando   é semelhante a  , e próximo de 0 caso contrário.

Como analogia, a pontuação BLEU é como um professor de idiomas tentando avaliar a qualidade da tradução de um aluno   verificando o quanto ela segue as respostas de referência  .

Como no processamento de linguagem natural é necessário avaliar um grande conjunto de strings candidatas, é preciso generalizar a pontuação BLEU para o caso em que se tem uma lista de M strings candidatas (chamada de "corpus")  , e para cada string candidata  , há uma lista de strings candidatas de referência  .

Dada qualquer string  , e qualquer integral  , pode-se definir o conjunto de seus n-gramas como sendo:

 
Observe que se trata de um conjunto de elementos exclusivos, e não de um multiconjunto que permite elementos redundantes, de modo que, por exemplo,  .

Dadas duas strings  , defina a contagem de substrings   como sendo o número de aparições de   como uma substring de  . Por exemplo,  .

Agora, fixa-se um corpus candidato  , e referencia-se o corpus candidato  , onde cada S .

Precisão de n-grama modificada editar

Defina a função de precisão do n-grama modificada como:

 
O n-grama modificado, que parece complicado, é apenas uma generalização direta do caso prototípico: uma frase candidata e uma frase de referência. Nesse caso, é:
 
Para chegar a essa expressão, começamos com a soma mais óbvia da contagem de n-gramas:
 
Essa quantidade mede quantos n-gramas na frase de referência são reproduzidos pela frase candidata. Observe que contamos as n-substrings, não os n-gramas. Por exemplo, quando  , todas as 2-substrings em   (ab e ba) aparecem em   3 vezes cada, portanto a contagem é 6, não 2.


Na situação acima, entretanto, a string de candidatos é muito curta. Em vez de 3 aparições de   ela contém apenas uma, portanto, adiciona-se uma função mínima para corrigir isso:

 
Essa soma de contagem não pode ser usada para comparar frases, pois não é normalizada. Se tanto a frase de referência quanto a frase candidata forem longas, a contagem poderá ser grande, mesmo que a candidata seja de qualidade muito ruim. Portanto, normalisa-se:
 
A normalização é tal que é sempre um número em   permitindo comparações significativas entre os corpus. É zero se nenhuma das n-substrings do candidato estiver na referência. É um se cada n-grama no candidato aparecer na referência, pelo menos tantas vezes quanto no candidato. Em particular, se o candidato for uma substring da referência, então é um.

Penalidade de brevidade editar

A precisão modificada do n-grama atribui indevidamente uma pontuação alta para strings candidatas que são "telegráficas", ou seja, que contêm todos os n-gramas das cadeias de caracteres de referência, mas pelo menor número de vezes possível.

Para punir as cadeias de strings que são muito curtas, define-se a penalidade de brevidade como:

 
onde   é a parte positiva de  .
  • Quando  , a penalidade de brevidade  , o que significa que não se pune candidatos longos mas apenas candidatos curtos.
  • Quando  , a penalidade de brevidade  

  é o comprimento do corpus candidato, ou seja, o tamanho do corpus,

 
onde   é o comprimento de  .   é o comprimento efetivo do corpus de referência, ou seja,
 
onde  , ou seja, a frase de   cujo comprimento é mais o próximo possível de  .

Definição final de BLEU editar

Não há uma única definição de BLEU, mas uma família inteira delas, parametrizada pelo vetor de ponderação  . É uma distribuição de probabilidade em  , ou seja,  , e  .

Com a escolha de  , a pontuação BLEU é

 
Em outras palavras, é uma média geométrica ponderada de todas as precisões de n-gramas modificados, multiplicada pela penalidade de brevidade. Usa-se a média geométrica ponderada, em vez da média aritmética ponderada, para favorecer fortemente os corpus candidatos que são simultaneamente bons de acordo com várias precisões de n-gramas.

A opção mais comum, a recomendada no documento original, é  .[4]

Algoritmo editar

Isso é ilustrado no seguinte exemplo de Papineni et al. (2002):

Exemplo de um resultado de tradução automática ruim com alta precisão
Candidato the the the the the the the
Referência 1 the cat is on the mat
Referência 2 there is a cat on the mat

Das sete palavras na tradução candidata, todas elas aparecem nas traduções de referência. Assim, o texto candidato recebe uma precisão de unigrama de,

 

onde   é o número de palavras do candidato que são encontradas na referência, e   é o número total de palavras no candidato. Essa é uma pontuação perfeita, apesar do fato de que a tradução do candidato acima retém pouco do conteúdo de qualquer uma das referências.

A modificação que o BLEU faz é bastante simples. Para cada palavra na tradução candidata, o algoritmo obtém sua contagem total máxima,   em qualquer uma das traduções de referência. No exemplo acima, a palavra "the" aparece duas vezes na referência 1 e uma vez na referência 2. Portanto  .

Para a tradução candidata, a contagem   de cada palavra é cortada até um máximo de   para essa palavra. Nesse caso, "the" tem   e  , portanto   é cortado em 2. Essas contagens cortadas   são somadas a todas as palavras distintas do candidato. Essa soma é então dividida pelo número total de unigramas na tradução candidata. No exemplo acima, a pontuação de precisão do unigrama modificado seria:

 

Na prática, porém, usar palavras individuais como unidade de comparação não é o ideal. Em vez disso, o BLEU calcula a mesma métrica de precisão modificada usando n-gramas. O comprimento que tem a "maior correlação com julgamentos humanos monolíngues"[1] foi considerado quatro. As pontuações dos unigramas são responsáveis pela adequação da tradução, pela quantidade de informações retidas. As pontuações mais longas dos n-gramas representam a fluência da tradução, ou até que ponto ela se parece com um "bom inglês".

Comparação de métricas para o candidato "the the cat"
Modelo Conjunto de gramas Pontuação
Unigrama "the", "the", "cat"  
Unigrama agrupado "the"*2, "cat"*1  
Bigrama "the the", "the cat"  

Um exemplo de uma tradução candidata para as mesmas referências acima pode ser:

the cat

Nesse exemplo, a precisão do unigrama modificado seria,

 

pois a palavra "the" e a palavra "cat" aparecem uma vez cada no candidato, e o número total de palavras é dois. A precisão do bigrama modificado seria   já que o bigrama "the cat" aparece uma vez no candidato. Foi observado que a precisão geralmente é combinada com a recuperação para superar esse problema[1], já que a recuperação de um unigrama desse exemplo seria   ou  . O problema é que, como há várias traduções de referência, uma tradução ruim poderia facilmente ter um recall inflado, como uma tradução que consistisse em todas as palavras de cada uma das referências.[1]

Para produzir uma pontuação para todo o corpus, as pontuações de precisão modificadas para os segmentos são combinadas usando a média geométrica multiplicada por uma penalidade de brevidade para evitar que candidatos muito curtos recebam uma pontuação muito alta. Seja r o tamanho total do corpus de referência e c o tamanho total do corpus de tradução. Se  , aplica-se a penalidade de brevidade, definida como  .No caso de várias frases de referência, r é considerado a soma dos comprimentos das frases cujos comprimentos são mais próximos dos comprimentos das frases candidatas. No entanto, na versão da métrica usada pelas avaliações do NIST antes de 2009, era usada a sentença de referência mais curta.

O iBLEU é uma versão interativa do BLEU que permite que o usuário examine visualmente as pontuações do BLEU obtidas pelas traduções candidatas. Ele também permite a comparação de dois sistemas diferentes de forma visual e interativa, o que é útil para o desenvolvimento de sistemas.[5]

Desempenho editar

O BLEU tem sido frequentemente relatado como tendo boa correlação com o julgamento humano,[1][3][6] e continua sendo uma referência para a avaliação de qualquer nova métrica de avaliação. No entanto, há uma série de críticas que foram feitas. Observou-se que, embora em princípio seja capaz de avaliar traduções de qualquer idioma, o BLEU não pode, em sua forma atual, lidar com idiomas sem limites de palavras.[7] Projetado para ser usado em várias traduções de referência, na prática ele é usado apenas com uma única.[2] O BLEU é infamemente dependente da técnica de tokenização, e as pontuações obtidas com diferentes técnicas são incomparáveis (o que é frequentemente ignorado); para melhorar a reprodutibilidade e a comparabilidade, foi criada a variante SacreBLEU.[2]

Argumentou-se que, embora o BLEU tenha vantagens significativas, não há garantia de que um aumento na pontuação do BLEU seja um indicador de melhor qualidade de tradução.[8]

Veja também editar

Referências

Bibliografia editar

Ligações externas editar