SEMMA é um acrônimo que significa Amostra, Explorar, Modificar, Modelar e Avaliar. É uma lista de etapas sequenciais desenvolvidas pelo SAS Institute, um dos maiores produtores de software de estatísticas e business intelligence. Ele orienta a implementação de aplicativos de mineração de dados.[1] Embora a SEMMA seja considerada uma metodologia geral de mineração de dados, a SAS alega que é "uma organização lógica do conjunto de ferramentas funcionais" de um de seus produtos, SAS Enterprise Miner, "para executar as principais tarefas de mineração de dados".[2]

Plano de fundo editar

No campo em expansão da mineração de dados, houve uma demanda por uma metodologia padrão ou simplesmente uma lista de melhores práticas para o processo diversificado e iterativo de mineração de dados que os usuários podem aplicar em seus projetos de mineração de dados, independentemente do setor. Enquanto o processo Cross Industry Standard para Data Mining ou CRISP-DM, fundado pelo Programa Estratégico Europeu em Pesquisa em Tecnologia da Informação, tinha como objetivo criar uma metodologia neutra, a SAS também ofereceu um padrão a seguir em suas ferramentas de mineração de dados.

Fases da SEMMA editar

As fases da SEMMA e tarefas relacionadas são as seguintes: [2]

  • Amostra: o processo começa com a amostragem de dados, por exemplo, selecionando o conjunto de dados para modelagem. O conjunto de dados deve ser grande o suficiente para conter informações suficientes para recuperar, mas pequeno o suficiente para ser usado de forma eficiente. Essa fase também lida com o particionamento de dados.
  • Explorar: esta fase abrange a compreensão dos dados, descobrindo relações antecipadas e imprevistas entre as variáveis, e também anormalidades, com a ajuda da visualização de dados.
  • Modificar: esta fase contém métodos para selecionar, criar e transformar variáveis na preparação para modelagem de dados.
  • Modelo: na fase Modelo, o foco está na aplicação de várias técnicas de modelagem (mineração de dados) nas variáveis preparadas, a fim de criar modelos que possivelmente forneçam o resultado desejado.
  • Avaliar: A última fase é avaliar. A avaliação dos resultados da modelagem mostra a confiabilidade e utilidade dos modelos criados.

Crítica editar

A SEMMA concentra-se principalmente nas tarefas de modelagem de projetos de mineração de dados, deixando os aspectos de negócios para fora (diferentemente, por exemplo, da CRISP-DM e sua fase de Compreensão de Negócios). Além disso, o SEMMA é projetado para ajudar os usuários do software SAS Enterprise Miner. Portanto, aplicá-lo fora do Enterprise Miner pode ser ambíguo.[3]

Veja também editar

Referências

  1. Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182-185. Arquivado em 2013-01-09 no Wayback Machine
  2. a b SAS Enterprise Miner website Arquivado em 2012-03-08 no Wayback Machine
  3. Rohanizadeh, S. S. and Moghadam, M. B. A Proposed Data Mining Methodology and its Application to Industrial Procedures Journal of Industrial Engineering 4 (2009) pp 37-50.