Cross Industry Standard Process for Data Mining

CRISP-DM é a abreviação de Cross Industry Standard Process for Data Mining[1], que pode ser traduzido como Processo Padrão Inter-Indústrias para Mineração de Dados. É um modelo de processo de mineração de dados que descreve abordagens comumente usadas por especialistas em mineração de dados para atacar problemas.

Diagrama de processo que mostra a relação entre as diferentes fases do CRISP-DM

CRISP-DM 2.0 editar

Em Julho de 2006 o consórcio responsável pela criação do processo anunciou que iria iniciar os trabalhos na direção da segunda versão do CRISP-DM. Em Setembro de 2006, o CRISP-DM SIG reuniu-se para discutir possíveis melhorias a serem implementadas no CRISP-DM 2.0, e traçar o curso do projeto.

Fases editar

  • Entender o Negócio: foca em entender o objetivo do projeto a partir de uma perspectiva de negócios, definindo um plano preliminar para atingir os objetivos.
  • Entender os Dados: recolhimento de dados e inicio de atividades para familiarização com os dados, identificando problemas ou conjuntos interessantes.
  • Preparação dos Dados: construção do conjunto de dados final a partir dos dados iniciais. Normalmente ocorre várias vezes no processo.
  • Modelagem: várias técnicas de modelagem são aplicadas, e seus parâmetros calibrados para otimização. Assim, é comum retornar à Preparação dos Dados durante essa fase.
  • Avaliação: é construído um modelo que parece ter grande qualidade de uma perspectiva de análise de dados. No entanto, é necessário verificar se o modelo atinge os objetivos do negócio.
  • Implantação: o conhecimento adquirido pelo modelo é organizado e apresentado de uma maneira que o cliente possa utilizar.

Vantagens editar

  • Independente de Indústria - O mesmo processo pode ser aplicado ao analisar dados comerciais, financeiros, de recursos humanos, produção industrial, serviços prestados, etc.
  • Independente de Ferramenta;
  • Tem relação próxima com os modelos de procesos de KDD

Referências

  1. Shearer C. The CRISP-DM model: the new blueprint for data mining. J Data Warehousing 2000;5:13—22.

Ligações externas editar

  Este artigo sobre informática é um esboço. Você pode ajudar a Wikipédia expandindo-o.