Agrupamento incremental de documentos

A mineração de dados, ou datamining, é uma área que oferece métodos para: encontrar padrões, extrair informações e conhecimentos de uma forma geral, quando aplicada em um grande conjunto de dados numéricos. E esses dados devem seguir um formato altamente estruturado, ou seja, independente do formato que esses dados serão analisados, como arquivos csv, arff, txt, banco de dados, os atributos que representam a base são conhecidos, tal como os registros e seus valores também. No datamining existe o processo de preparação dos dados, onde os dados são tratados para preencher os valores não preenchidos para algum atributo, remover os valores outliers, e transformar os dados para que os valores estejam dentro da mesma escala.

Geralmente, em uma coleção de documentos (páginas da internet, arquivos texto, livros) não existe uma estrutura rígida ou algum requerimento de composição dos mesmos. São dados textuais não estruturados. Os métodos de mineração de dados esperam os dados em um formato altamente estruturado e numérico. Então, para se aplicar os métodos de mineração no formato de texto, é necessário que o mesmo seja transformado em uma representação numérica e armazenado em uma estrutura definida, ou seja, o dado não estruturado passe a ser estruturado.

A mineração de texto é a metodologia para tratar informação não estruturada. Possui os métodos necessários para processar e transformar o texto em dado numérico(etapa de Pré-processamento), possibilitando, dessa forma, a aplicação de métodos computacionais em documentos, tais como: classificação, análise de agrupamento, regras de associação, recuperação de informação, entre outros.

Análise de agrupamento é uma classificação não supervisionada de registros em grupos. O agrupamento de registros em grupos é feito baseado na similaridade entre os registros, assim os registros agrupados em um grupo são mais similares entre eles do que com algum registro pertencente a outro grupo.

Algoritmos de análise de agrupamento baseados em distância geralmente requerem que o número de grupos seja informado a priori e todos os registros sejam alocados pelo menos a um grupo.

Algoritmos de análise de agrupamento incremental funcionam adicionando cada registro apresentado ao grupo mais similar. Quando a similaridade entre o registro apresentado e os grupos existentes não atende a taxa definida, um novo grupo é formado e o registro é agrupado a esse grupo. O número de grupos não é um parâmetro pré-definido e sim o resultado da análise de agrupamento.

Os passos básicos utilizados pelo algoritmo incremental são:

  1. Associe o primeiro registro a um grupo;
  2. Pegue o próximo registro, compare com todos os grupos já existentes. O registro deve ser associado a algum grupo já existente, se atender o critério de associação, por exemplo, a distância entre o registro e o centro do grupo. Se não atender o critério, ele deve ser associado a um novo grupo;
  3. Repita o passo 2 até que todos os registros tenham sido associados.

Bibliografia editar

Marina Melo Pires - COC/UFRJ - Jun/2008 - Agrupamento incremental e hierárquico de documentos