SEMMA é um acrônimo em inglês para Amostra, Explorar, Modificar, Modelar e Avaliar. É uma lista de etapas sequenciais desenvolvidas pelo SAS, um dos maiores produtores de software de estatísticas e business intelligence, que orienta a implementação de processos de mineração de dados[1]. Embora o SEMMA seja considerado uma metodologia geral de mineração de dados, o SAS alega que é "uma organização lógica do conjunto de ferramentas funcionais" de um de seus produtos, SAS Enterprise Miner, "para executar as principais tarefas de mineração de dados".[2]

Plano de fundo

editar

No campo em expansão da mineração de dados, houve uma demanda por uma metodologia padrão ou simplesmente uma lista de melhores práticas para o processo diversificado e iterativo de mineração de dados que os usuários podem aplicar em seus projetos de mineração de dados, independentemente do setor. Enquanto o processo Cross Industry Standard para Data Mining ou CRISP-DM, fundado pelo Programa Estratégico Europeu em Pesquisa em Tecnologia da Informação, tinha como objetivo criar uma metodologia neutra, o SAS também ofereceu um padrão a seguir em suas ferramentas de mineração de dados.

As fases do SEMMA e as tarefas relacionadas são[2]:

  • Amostra: o processo começa com a amostragem de dados, por exemplo, selecionando o conjunto de dados para modelagem. O conjunto de dados deve ser grande o suficiente para conter informações suficientes para recuperar, mas pequeno o suficiente para ser usado de forma eficiente. Essa fase também lida com o particionamento de dados;
  • Explorar: esta fase abrange a compreensão dos dados, descobrindo relações antecipadas e imprevistas entre as variáveis, e também anormalidades, com a ajuda de técnicas como estatística descritiva e visualização de dados;
  • Modificar: esta fase contém métodos para selecionar, criar e transformar variáveis na preparação para modelagem de dados, para que estejam adequados ao tipo de modelo sendo investigado;
  • Modelo: aqui são aplicadas várias técnicas de construção de modelos de dados sobre as variáveis de entrada, preparadas no passo anterior, a fim de criar levar algum parâmetro de negócio a uma meta, como maximizar um retorno ou minimizar um risco;
  • Avaliar: nesta fase os resultados da modelagem são estudados para determinar sua confiabilidade e utilidade.

Após avaliar o analista pode decidir voltar ao início, para uma nova rodada em busca de resultados melhores, ou parar onde está e entregar o modelo resultante para implementação.

Crítica

editar

O SEMMA aborda apenas as tarefas técnicas dos projetos de mineração de dados, assumindo que os aspectos de negócios já estão tratados. Em comparação, o CRISP-DM inclui essa fase no início. Apesar de o SEMMA ter nascido para o SAS, ele é genérico o bastante para apoiar um processo de Data Mining com qualquer ferramenta, ainda que alguns afirmem que isso pode levar a situações ambíguas.[3]

Veja também

editar

Referências

  1. Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182-185. Arquivado em 2013-01-09 no Wayback Machine
  2. a b SAS Enterprise Miner website Arquivado em 2012-03-08 no Wayback Machine
  3. Rohanizadeh, S. S. and Moghadam, M. B. A Proposed Data Mining Methodology and its Application to Industrial Procedures Journal of Industrial Engineering 4 (2009) pp 37-50.