Entropia cruzada

Divergência probabilística

Na teoria da informação, a entropia cruzada se refere à diferença entre duas distribuições de probabilidade (verdadeira) e (estimada) sobre o mesmo conjunto de eventos. Na prática, a entropia cruzada mede o número médio de bits necessários para identificar um evento , se a codificação utilizada for otimizada para a distribuição de probabilidade estimada , em vez de otimizada para a distribuição de probabilidade verdadeira .

Definição

editar

A entropia cruzada da distribuição   em relação a uma distribuição   sobre um determinado conjunto é definido da seguinte maneira:

  .

A definição pode ser formulada usando a divergência Kullback – Leibler   do   a partir de   (também conhecida como entropia relativa de   em relação a   )

  ,

Onde   é a entropia de   .

Para distribuições de probabilidade discretas   e   com o mesmo suporte  , isso significa queː

 

 

 

 

 

(Eq.1)

A situação para distribuições contínuas é análoga. Temos que assumir que   e   são absolutamente contínuos em relação a alguma medida de referência   (usualmente   é uma medida de Lebesgue em uma σ-álgebra de Borel ). Deixe   e   serem funções densidade de probabilidade de   e   em relação a   . Entãoː

 

e, portantoː

 

 

 

 

 

(Eq.2)

Nota: A notação   também é usado para um conceito diferente, a entropia conjunta de   e   .

Motivação

editar

Na teoria da informação, o teorema de Kraft – McMillan estabelece que qualquer esquema diretamente decodificável que codifique uma mensagem capaz de identificar um valor   ( de um conjunto de possibilidades   ) pode ser visto como representando uma distribuição implícita de probabilidade   sobre  , onde   é o comprimento do código para   em bits. Portanto, a entropia cruzada pode ser interpretada como o comprimento esperado da mensagem por cada dado quando a distribuição incorreta   é assumida, enquanto, na verdade, os dados seguem a distribuição correta   . É por isso que a expectativa (E) é assumida sobre a distribuição de probabilidade   e não   . De fato, o tamanho esperado da mensagem sob a verdadeira distribuição   é,

 

Estimativa

editar

Existem muitas situações em que precisamos medir a entropia cruazada, mas não sabemos a distribuição real   É. Um exemplo é a modelagem de linguagem, na qual um modelo é criado com base no conjunto de treinamento   e sua entropia cruzada é medida em um conjunto de testes para avaliar a precisão. Neste exemplo,   é a verdadeira distribuição das palavras em qualquer corpus, e   é a distribuição de palavras conforme previsto pelo modelo. Como a distribuição verdadeira é desconhecida, a entropia cruzada não pode ser calculada diretamente. Nesses casos, uma estimativa da entropia cruzada é calculada usando a seguinte fórmula:

 

onde   é o tamanho do conjunto de teste e   é a probabilidade de evento   estimado a partir do conjunto de treinamento. A soma é calculada sobre   . Essa é uma estimativa de Monte Carlo da verdadeira entropia cruzada, na qual o conjunto de testes é tratado como amostras de    .

Relação com log-verossimilhança

editar

Nos problemas de classificação, queremos estimar a probabilidade de resultados diferentes. Se a probabilidade estimada de resultado   é  , a frequência (probabilidade empírica) de   no conjunto de treinamento é   e há N amostras de treinamento, a verossimilhança do conjunto de treinamento é

 

portanto, a log-verossimilhança, dividida por   é

 

de modo que maximizar a verossimilhança é o mesmo que minimizar a entropia cruzada.

Minimização de entropia cruzada

editar

A minimização de entropia cruzada é freqüentemente usada na otimização e na estimativa da probabilidade de eventos raros.

Ao comparar uma distribuição   contra uma distribuição de referência fixa  , entropia cruzada e divergência KL são idênticas até uma constante aditiva (já que   é fixo): ambos assumem seus valores mínimos quando  , atingindo   para a divergência KL e   para a entropia cruzada.[1] Na literatura de engenharia, o princípio de minimizar a divergência KL (" Princípio da informação mínima sobre discriminação " de Kullback) é freqüentemente chamado de Princípio da entropia cruzada mínima (MCE), ou Minxent .

Entretanto, conforme discutido no artigo Divergência de Kullback-Leibler, às vezes a distribuição   é a distribuição de referência prévia fixa e a distribuição   é otimizado para ficar o mais próximo possível   quanto possível, sujeito a alguma restrição. Nesse caso, as duas minimizações não são equivalentes. Isso levou a alguma ambiguidade na literatura, com alguns autores tentando resolver a inconsistência redefinindo a entropia cruzada para ser  , ao invés de   .

Função de perda de entropia cruzada e regressão logística

editar

A entropia cruzada pode ser usada para definir uma função de perda no aprendizado de máquina e otimização . A verdadeira probabilidade   é o rótulo verdadeiro e a distribuição fornecida   é o valor previsto do modelo atual.

Mais especificamente, considere a regressão logística, que (entre outras coisas) pode ser usada para classificar observações em duas classes possíveis (geralmente simplesmente rotuladas   e   ) A saída do modelo para uma observação, dado um vetor de entrada  , pode ser interpretado como uma probabilidade, que serve como base para classificar a observação. A probabilidade é modelada usando a função logística   Onde   é alguma função do vetor de entrada  , geralmente apenas uma função linear. A probabilidade de saída   É dado por

 

onde o vetor de pesos   é otimizado através de algum algoritmo apropriado, como descida de gradiente. Da mesma forma, a probabilidade complementar de encontrar a saída   é simplesmente dado por

 

Tendo criado nossa notação,   e  , podemos usar entropia cruzada para obter uma medida de dissimilaridade entre   e   :

 

A função de perda típica que se usa na regressão logística é calculada pela média de todas as entropias cruzadas na amostra. Por exemplo, suponha que tenhamos   amostras com cada amostra indexada por   . A função de perda é então dada por:

 

Onde   com   a função logística como antes.

A perda logística é às vezes chamada de perda de entropia cruzada. Também é conhecido como perda de log (log loss) (nesse caso, o rótulo binário é frequentemente indicado por {-1, + 1}).[2]

Ver também

editar

Referências

  1. Ian Goodfellow, Yoshua Bengio, and Aaron Courville (2016). Deep Learning. MIT Press. Online
  2. Murphy, Kevin (2012). Machine Learning: A Probabilistic Perspective. MIT. [S.l.: s.n.] ISBN 978-0262018029 

Ligações externas

editar