Wrapper (mineração de dados)

O wrapper na mineração de dados é um programa que extrai o conteúdo de uma fonte de informação específica e o converte em um formato relacional. Muitas páginas da Web apresentam dados estruturados - diretórios telefônicos, catálogos de produtos etc. formatados para navegação humana usando a linguagem HTML. Dados estruturados são normalmente descrições de objetos recuperados de bancos de dados subjacentes e exibidos em páginas da Web seguindo alguns modelos fixos.[1]

Geração Wrapper editar

Há duas abordagens principais para a geração de wrappers: indução de wrappers e extração automatizada de dados. A indução de wrrapers utiliza a aprendizagem supervisionada para aprender as regras de extração de dados a partir de exemplos de formação rotulada manualmente. As desvantagens da indução de wrappers são:

  • o demorado processo de etiquetagem manual e
  • a dificuldade de manutenção do wrapper.

Devido ao esforço de etiquetagem manual, é difícil extrair dados de um grande número de sítios, visto que cada sítio tem os seus próprios modelos e requer uma etiquetagem manual separada para a aprendizagem do wrapper. A manutenção do wrapper é também uma questão importante porque sempre que um sítio muda, os wrappers construídos para o sítio tornam-se obsoletos. Devido a estas deficiências, os investigadores estudam a geração automática de wrapperss utilizando a extração de padrões sem supervisão. A extração automatizada é possível porque a maioria dos objetos de dados da Web seguem modelos fixos. A descoberta de tais modelos ou padrões permite que o sistema faça a extração automaticamente [2]


Referências

  1. «Proceedings of the International Joint Conference on Artificial Intelligence» (PDF). 1997. Consultado em 4 de maio de 2020 
  2. Liu, B. Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer, 2007.
  Este artigo é um esboço. Você pode ajudar a Wikipédia expandindo-o. Editor: considere marcar com um esboço mais específico.