Wrapper (mineração de dados)

O wrapper na mineração de dados é um programa que extrai o conteúdo de uma fonte de informação específica e o converte em um formato relacional. Muitas páginas da Web apresentam dados estruturados - diretórios telefônicos, catálogos de produtos etc. formatados para navegação humana usando a linguagem HTML. Dados estruturados são normalmente descrições de objetos recuperados de bancos de dados subjacentes e exibidos em páginas da Web seguindo alguns modelos fixos.^[1]

Geração Wrapper editar

Há duas abordagens principais para a geração de wrappers: indução de wrappers e extração automatizada de dados. A indução de wrrapers utiliza a aprendizagem supervisionada para aprender as regras de extração de dados a partir de exemplos de formação rotulada manualmente. As desvantagens da indução de wrappers são:

o demorado processo de etiquetagem manual e
a dificuldade de manutenção do wrapper.

Devido ao esforço de etiquetagem manual, é difícil extrair dados de um grande número de sítios, visto que cada sítio tem os seus próprios modelos e requer uma etiquetagem manual separada para a aprendizagem do wrapper. A manutenção do wrapper é também uma questão importante porque sempre que um sítio muda, os wrappers construídos para o sítio tornam-se obsoletos. Devido a estas deficiências, os investigadores estudam a geração automática de wrapperss utilizando a extração de padrões sem supervisão. A extração automatizada é possível porque a maioria dos objetos de dados da Web seguem modelos fixos. A descoberta de tais modelos ou padrões permite que o sistema faça a extração automaticamente ^[2]

Referências

↑ «Proceedings of the International Joint Conference on Artificial Intelligence» (PDF). 1997. Consultado em 4 de maio de 2020
↑ Liu, B. Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer, 2007.

Este artigo é um esboço. Você pode ajudar a Wikipédia expandindo-o.

Editor: considere marcar com um esboço mais específico.

[1] «Proceedings of the International Joint Conference on Artificial Intelligence» (PDF). 1997. Consultado em 4 de maio de 2020

[2] Liu, B. Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer, 2007.

[1]

[2]