Perplexidade

Em teoria da informação, a perplexidade é uma medida de quão bem uma distribuição de probabilidade ou modelo de probabilidade prevê uma amostra. Pode ser usada para comparar modelos de probabilidade. Uma baixa perplexidade indicada que a distribuição de probabilidade é boa em prever a amostra.[1]

Perplexidade de uma distribuição de probabilidadeEditar

A perplexidade de uma distribuição de probabilidade discreta   é definida como:

 

em que   é a entropia (em bits) da distribuição e   varia sobre os eventos, ou seja, a perplexidade é igual a 2 elevado à entropia ou, mais precisamente, 2 elevado à entropia cruzada, definição esta usada frequentemente na comparação empírica de modelos probabilísticos.

A perplexidade de uma variável aleatória   pode ser definida como a perplexidade da distribuição sobre seus possíveis valores  .

No caso especial em que   modela um dado honesto de  -faces (uma distribuição uniforme sobre   eventos discretos), sua perplexidade é  . Uma variável aleatória com perplexidade   tem a mesma incerteza de um dado honesto de  -faces e é considerada "perplexa em  -formas" sobre o valor da variável aleatória. A não ser que seja um dado honesto de  -faces, mais que   valores serão possíveis, mas a incerteza geral não é maior, porque alguns destes valores terão probabilidade maior que  , diminuindo o valor geral ao somar.

A perplexidade é algumas vezes usada como uma medida de quão difícil um problema de previsão é. Isto não é sempre preciso. Se você tiver duas escolhas, uma com probabilidade  , então suas chances de um palpite correto são iguais a   usando a estratégia ótima. A perplexidade é  . O inverso da perplexidade, que representa a probabilidade de um palpite correto no caso do dado honesto de  -faces, é igual à  , não  .

A perplexidade é a exponenciação da entropia, que é uma quantidade com contorno mais nítido. A entropia é uma medida do número esperado ou "médio" de bits exigido para codificar o resultado da variável aleatória, usando o código de comprimento variável, ótimo e teórico. Pode ser equivalentemente considerada como o ganho de informação esperado ao aprender o resultado da variável aleatória, em que a informação é medida em bits.[2]

Perplexidade de um modelo de probabilidadeEditar

Um modelo de uma distribuição de probabilidade desconhecida   pode ser proposto com base em uma amostra de treinamento que foi retirada de  . Dado um modelo de probabilidade proposto  , pode-se avaliar   ao perguntar quão bem ele prevê uma amostra de teste separada   também retirada de  . A perplexidade do modelo   é definida como:

 

em que   é costumeiramente  . Modelos melhores   da distribuição desconhecida   tenderão a atribuir probabilidades maiores   aos eventos de teste. Assim, têm menor perplexidade, sendo menos surpreendidos pela amostra de teste.

O expoente acima pode ser considerado como o número médio de bits necessários para representar um evento de teste   se for usado um código ótimo baseado em  . Modelos de baixa perplexidade fazem um melhor trabalho comprimindo a amostra de teste, exigindo poucos bits por elemento de teste em média porque   tende a ser alta.

O expoente pode também ser considerado uma entropia cruzada:

 

em que   denota a distribuição empírica da amostra de teste, isto é,  , se   tiver aparecido   vezes na amostra de teste de tamanho  .[3]

Perplexidade por palavraEditar

Em processamento de linguagem natural, a perplexidade é uma forma de avaliar modelos de linguagem. Um modelo de linguagem é uma distribuição de probabilidade sobre sentenças ou textos inteiros.

Usando a definição de perplexidade para um modelo de probabilidade, pode-se encontrar, por exemplo, que a sentença média   na amostra de teste poderia ser codificada em 190 bits, isto é, as sentenças de teste tinham um logaritmo de probabilidade médio igual a -190. Isto daria uma perplexidade de modelo enorme de   por sentença. Entretanto, é mais comum normalizar o comprimento de sentença e considerar apenas o número de bits por palavra. Assim, se as frases da amostra de teste compreenderem um total de 1.000 palavras e puderem ser codificadas usando um total de 7,95 bits por palavra, poderá se relatada uma perplexidade de modelo de   por palavra. Em outras palavras, o modelo é tão confuso em dados de teste quanto se tivesse que escolher uniformemente e independentemente entre 247 possibilidades para cada palavra.

Até 1992, a mais baixa perplexidade publicada no Brown Corpus (lista de 1 milhão de palavras em inglês norte-americano sobre variados tópicos e gêneros) havia sido de fato aproximadamente 247 por palavra, correspondendo a uma entropia cruzada de   bits por palavra ou 1,75 bits por letra, usando um modelo trigrama. É frequentemente possível conseguir uma perplexidade mais baixa em corpora mais especializados, já que são mais previsíveis.

Novamente, simplesmente prever que a próxima palavra no Brown Corpus é a palavra "the" terá uma precisão de 7%, não de  , como um uso ingênuo da perplexidade como uma medida de previsibilidade pode levar alguém a crer. Este palpite é baseado na estatística de unigrama do Brown Corpus, não na estatística de trigrama, que produziu a perplexidade de palavra igual a 247. Usar a estatística de trigrama melhoraria posteriormente as chances de um palpite correto.[4]

ReferênciasEditar

  1. Gibbon, Dafydd; Moore, Roger; Winski, Richard (1998). Handbook of Standards and Resources for Spoken Language Systems: Spoken language characterisation (em inglês). Berlim: Walter de Gruyter. ISBN 9783110157345. Consultado em 1 de março de 2018 
  2. Nugues, Pierre M. (2014). Language Processing with Perl and Prolog: Theories, Implementation, and Application (em inglês). Berlim: Springer. ISBN 9783642414640. Consultado em 1 de março de 2018 
  3. Manning, Christopher D.; Schütze, Hinrich (1999). Foundations of Statistical Natural Language Processing (em inglês). Cambridge, Massachusetts: MIT Press. ISBN 9780262133609. Consultado em 1 de março de 2018 
  4. Brown, Peter F.; Pietra, Vincent J. Della; Mercer, Robert L.; Pietra, Stephen A. Della; Lai, Jennifer C. (1 de março de 1992). «An estimate of an upper bound for the entropy of English». Computational Linguistics. 18 (1): 31–40. ISSN 0891-2017. Consultado em 1 de março de 2018