Um conjunto de dados ou "dataset" é uma coleção de dados normalmente tabulados. Por cada elemento (ou indivíduo) se indicam várias características. Cada coluna representa uma variável particular. Cada linha corresponde a um determinado membro do conjunto de dados em questão. Cada valor é conhecido como um dado. O conjunto de dados pode incluir dados para um ou mais membros, correspondente ao número de linhas.

Conjuntos de dados não tabulares podem assumir a forma de cadeias de caracteres envolvidas por marcações, como em um arquivo XML.

Quase todos os conjuntos de dados, embora eles muitas vezes possam ser escritos usando linguagens de programação de alto nível e números em base decimal, terminam escritos em código de máquina uma vez que o processamento por computador é envolvido. Assim, por toda a sua diversidade semântica e formas tabular ou não tabular, a maioria dos conjuntos de dados pode ser expressa em código binário como uma longa seqüência de zeros e uns.

Método científico editar

A publicação dos conjuntos de dados utilizados em um experimento são a chave para a sua replicação, e cada vez há mais leis públicas e normas de jornais que a forçam a torná-los públicos.

Propriedades editar

Dependendo do estudo, são um fator-chave as propriedades do conjunto: dispersão, curtose e outros.[1]

Os valores podem ser números, como números reais ou inteiros, por exemplo, representando a altura de uma pessoa em centímetros, mas também podem ser dados nominais (ou seja, não consistindo em valores numéricos), por exemplo, representando a etnia de uma pessoa. Mais geralmente, os valores podem ser de qualquer um dos tipos descritos como um nível de medição.[2]

Para cada variável, os valores são normalmente todos do mesmo tipo. No entanto, também pode haver valores ausentes, que devem ser indicados de alguma forma.

Em estatística, os conjuntos de dados geralmente vêm de observações reais obtidas por amostragem de uma população estatística, e cada linha corresponde às observações em um elemento dessa população. Conjuntos de dados podem ainda ser gerados por algoritmos com a finalidade de testar certos tipos de software. Alguns softwares de análise estatística modernos, como o SPSS, ainda apresentam seus dados da maneira clássica de conjunto de dados. Se houver dados ausentes ou houver suspeita, um método de imputação pode ser usado para completar um conjunto de dados.[3]

Ver também editar

Referências

  1. Jan M. Żytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. [S.l.: s.n.] ISBN 9783540664901 
  2. Frank Kane (2017). Taming Big Data with Apache Spark and Python. [S.l.]: Packt. ISBN 978-1787287945 
  3. United Nations Statistical Commission; United Nations Economic Commission for Europe (2007). Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies. [S.l.]: United Nations Publications. p. 20. ISBN 978-9211169522 

Ligações externas editar

  • Research Pipeline Wiki ligando conjuntos de dados de vários temas
  • GCMD Web do Diretório Global Change Master. Ele contém mais de 20.000 conjuntos de dados sobre a Terra
  • Data World Repositório de dados com recursos gráficos e de programação
  • Kaggle Repositório famoso sobre assuntos variados