Análise Probabilistica de Semântica Latente

Análise Probabilística de Semântica Latente (APSL), também conhecida como Indexação Probabilística de Semântica Latente (IPSL, especialmente na área de recuperação de informação) é uma técnica estatística para a análise de co-ocorrência de dados. Em efeito, pode-se derivar uma representação de poucas dimensões das variáveis observadas com relação sua afinidade para determinadas variáveis ocultas. A técnica evoluiu da análise de semântica latente.

Comparado com a análise de semântica latente padrão que decorre de álgebra linear e redimensionamento de matrizes (geralmente através de uma decomposição em valores singulares), APSL é baseada em uma decomposição mista derivada de um modelo latente de classes.

Modelo editar

Notação que representa o modelo APSL ( formulação "assimétrica"). é o documento, é um tópico retirado da distribuição de tópicos do documento e é uma palavra retirada da distribuição de palavras deste tópico, . O e são variáveis observáveis, o tópico é uma variável latente

Considerando as observações sob a forma de co-ocorrências de palavras e documentos, PLSA modela a probabilidade de cada co-ocorrência como uma mistura de distribuições multinomais condicionalmente independentes:

c representa um tópico e w é uma palavra. Note que o número de tópicos é um hiper-parâmetro que deve ser escolhido com antecedência e não é estimado a partir dos dados. A primeira formulação é a de simetria, onde e são gerados a partir da classe latente de forma semelhante (usando as probabilidades condicionais e ). A segunda formulação é a de assimétria, onde, para cada documento , classe latente é escolhida condicionalmente para o documento de acordo com a probabilidade e uma palavra é gerada a partir dessa classe, de acordo com . Apesar de ter usado palavras e documentos neste exemplo, a co-ocorrência de qualquer par de variáveis discretas pode ser modelada exatamente da mesma maneira.

Assim, o número de parâmetros é igual a . O número de parâmetros cresce linearmente com o número de documentos. Além disso, embora o Análise Probabilistica de Semântica Latente seja um gerador de modelo de documentos, este não é um modelo generativo de novos documentos.

Seus parâmetros são extraídas utilizando o algoritmo EM.

Aplicação editar

APSL pode ser usado em uma configuração discriminatória, através de kernels fisher.^[1]

APSL tem aplicações na recuperação de informações e de filtragem, processamento de linguagem natural, aprendizado de máquina, e áreas afins.

É relatado que modelos de aspectos utilizados no APSL tem problemas de overfitting.^[2]

Extensões editar

Extensões Hierárquicas:
- Assimétrica: MASHA ("Análise Multinomial Assimétrica e Hierárquica")^[3]
- Simétrica: HPLSA ("Análise Probabilística e Hierárquica de Semântica Latente")^[4]

Geradores de modelos: outros modelos foram desenvolvidos para tratar de um problema do APSL, que não é um gerador de modelo para novos documentos. Por exemplo, Alocação Latente de Dirichlet trata desse problema.
De ordem mais elevada de dados: Embora isso raramente é discutido na literatura científica, APSL se estende, naturalmente, à ordem superior (dados de três modos e superior), por exemplo, pode-se modelar co-ocorrências ao longo de três ou mais variáveis. Na formulação simétrica acima, isto é feito simplesmente pela adição de distribuições de probabilidade condicional para essas variáveis adicionais. Esta é a analogia probabilística para fatoração de tensores não-negativos.

História editar

Este é um exemplo de um modelo de classes latentes, e está relacionado^[5]^[6] para fatoração de matrizes não negativas. A presente terminologia foi criada em 1999 por Thomas Hofmann.^[7]

Veja também editar

Processamento de termos compostos
Alocação de Pachinko
Espaço vetorial

Referências e notas editar

↑ Thomas Hofmann, Learning the Similarity of Documents : an information-geometric approach to document retrieval and categorization, 12, pp-914-920, , 2000
↑ «Latent Dirichlet Allocation» (PDF). Journal of Machine Learning Research. 3. doi:10.1162/jmlr.2003.3.4-5.993
↑ Alexei Vinokourov and Mark Girolami, A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections, in Information Processing and Management, 2002
↑ Eric Gaussier, Cyril Goutte, Kris Popat and Francine Chen, A Hierarchical Model for Clustering and Categorising Documents Arquivado em 4 de março de 2016, no Wayback Machine., in "Advances in Information Retrieval -- Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02)", 2002
↑ Chris Ding, Tao Li, Wei Peng (2006). "Nonnegative Matrix Factorization and Probabilistic Latent Semantic Indexing: Equivalence Chi-Square Statistic, and a Hybrid Method. AAAI 2006"
↑ Chris Ding, Tao Li, Wei Peng (2008). "On the equivalence between Non-negative Matrix Factorization and Probabilistic Latent Semantic Indexing"
↑ Thomas Hofmann, Probabilistic Latent Semantic Indexing, Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999

[1] Thomas Hofmann, Learning the Similarity of Documents : an information-geometric approach to document retrieval and categorization, 12, pp-914-920, , 2000

[2] «Latent Dirichlet Allocation» (PDF). Journal of Machine Learning Research. 3. doi:10.1162/jmlr.2003.3.4-5.993

[3] Alexei Vinokourov and Mark Girolami, A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections, in Information Processing and Management, 2002

[4] Eric Gaussier, Cyril Goutte, Kris Popat and Francine Chen, A Hierarchical Model for Clustering and Categorising Documents Arquivado em 4 de março de 2016, no Wayback Machine., in "Advances in Information Retrieval -- Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02)", 2002

[5] Chris Ding, Tao Li, Wei Peng (2006). "Nonnegative Matrix Factorization and Probabilistic Latent Semantic Indexing: Equivalence Chi-Square Statistic, and a Hybrid Method. AAAI 2006"

[6] Chris Ding, Tao Li, Wei Peng (2008). "On the equivalence between Non-negative Matrix Factorization and Probabilistic Latent Semantic Indexing"

[7] Thomas Hofmann, Probabilistic Latent Semantic Indexing, Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999

[1]

[2]

[3]

[4]

[5]

[6]

[7]