Usuário(a):Diegolimapereia/t-SNE

t-SNE, em tradução livre, incorporação estocástica de vizinhos t-distribuída, ou t-distributed stochastic neighbor embedding é um algoritmo de aprendizado de máquina utilizado para redução de dimensionalidade, foi desenvolvido por Laurens van der Maaten e Geoffrey Hinton.[1] Ele é uma técnica não-linear de redução de dimensionalidade que é adequada para transformar dados com muitos atributos para uma espaço com duas ou três dimensões, com isso podemos visualizar o conjunto de dados em um gráfico de dispersão. Em poucas palavras, este algoritmo cria um modelo de duas ou três dimensões a partir de um conjunto de dados com vários atributos, em um gráfico de dispersão onde cada elemento do conjunto é um ponto, a proximidade de dois pontos indicam que estes são similares, assim como pontos distantes são dissemelhantes.

O algoritmo t-SNE contém dois estágios principais. Primeiramente, o t-SNE constrói uma distribuição de probabilidade dos pares de objetos multi-dimensionais de uma maneira em que objetos similares tem uma alta probabilididade de serem escolhidos, enquanto isso, pontos bem distintos tem uma probabilidade bem pequena de serem escolhidos. No segundo passo, o t-SNE define uma distribuição de probabilidade de semelhança através dos pontos em um mapa de poucas dimensões, assim, ele minimiza a divergência de Kullback–Leibler entre duas distribuições em relação aos pontos no mapa. Note que enquanto o algoritmo original usa a distância euclidiana entre objetos como sua métrica de similaridade, esta distância deverá ser mudada caso seja necessário.

O t-SNE tem sido usado numa grande gama de aplicações, incluindo pesquisas sobre segurança de computadores,[2] análise de musical,[3] Pesquisas sobre câncer,[4] bioinformática,[5] e processamento de sinais biomédicos. [6]

Detalhes editar

Dado um conjunto de   objetos multi-dimensionais  , t-SNE primeiramente computa as probabilidades   que são proporcionais a similaridade de objetos   e  , como a seguir:

 
 

A largura de banda dos núcleos da função de Gauss  , é definida de maneira que a perplexidade da distribuição condicional é igual a perplexidade predefinida usando busca binária. Como resultado, a largura de banda é adapatada a densidade do dado: menores valores de   são usados nas partes mais densas do espaço dos dados.

t-SNE busca analisar um mapa  -dimensional   (with  ) que reflete as similaridades   da melhor maneira possível. Para atingir este objetivo, ele mede similaridades   entre dois pontos no mapa   e  ,usando uma abordagem similar. Especificamente,   é definida como:

 

Aqui uma de Distribuição t de Student cauda longa (com um grau de liberdade, que é o mesmo que uma Distribuição de Cauchy) é usada para medir similaridade entre pontos com poucas dimensões com o objetivo de permitir que ponto dissimilares sejam modelados distantes no mapa.

As localizações dos pontos   no mapa são determinados por minimizar a divergência de Kullback–Leibler (não-simétricas) da distribuição   originado da distribuição  , que é:

 

A minimização da divergência de Kullback–Leibler em relação aos pontos   é realizada utilizando Método do gradiente. O resultado dessa otimização é um mapa que reflete as similaridades entre as entradas multi-dimensionais.

Referências editar

  1. van der Maaten, L.J.P.; Hinton, G.E. (Nov 2008). «Visualizing High-Dimensional Data Using t-SNE» (PDF). Journal of Machine Learning Research. 9: 2579–2605 
  2. Gashi, I.; Stankovic, V.; Leita, C.; Thonnard, O. (2009). «An Experimental Study of Diversity with Off-the-shelf AntiVirus Engines». Proceedings of the IEEE International Symposium on Network Computing and Applications: 4–11 
  3. Hamel, P.; Eck, D. (2010). «Learning Features from Music Audio with Deep Belief Networks». Proceedings of the International Society for Music Information Retrieval Conference: 339–344 
  4. Jamieson, A.R.; Giger, M.L.; Drukker, K.; Lui, H.; Yuan, Y.; Bhooshan, N. (2010). «Exploring Nonlinear Feature Space Dimension Reduction and Data Representation in Breast CADx with Laplacian Eigenmaps and t-SNE». Medical Physics. 37 (1): 339–351. doi:10.1118/1.3267037 
  5. Wallach, I.; Liliean, R. (2009). «The Protein-Small-Molecule Database, A Non-Redundant Structural Resource for the Analysis of Protein-Ligand Binding». Bioinformatics. 25 (5): 615–620. doi:10.1093/bioinformatics/btp035 
  6. Birjandtalab, J.; Pouyan, M. B.; Nourani, M. (1 de fevereiro de 2016). «Nonlinear dimension reduction for EEG-based epileptic seizure detection». 2016 IEEE-EMBS International Conference on Biomedical and Health Informatics (BHI): 595–598. doi:10.1109/BHI.2016.7455968 

Software editar