Análise de dados: diferenças entre revisões

Conteúdo apagado Conteúdo adicionado
Criada por tradução da página "Data analysis"
Etiquetas: Inserção do elemento "nowiki", possivelmente errônea Tradução de Conteúdo Tradução de Conteúdo 2
m ajustando datas, traduzindo nome/parâmetro nas citações, outros ajustes usando script
Linha 1:
A '''análise de dados''' é um processo de inspeção, limpeza, transformação e [[Modelagem de dados|modelagem de]] [[dados]] com o objetivo de descobrir informações úteis, informar conclusões e apoiar a tomada de decisões. A análise de dados tem múltiplas facetas e abordagens, abrangendo diversas técnicas sob uma variedade de nomes, e é usada em diferentes domínios dos negócios, ciências e ciências sociais. No mundo dos negócios de hoje, a análise de dados desempenha um papel tornando a tomada de decisões mais científicas e ajudando as empresas a operar com mais eficácia.<ref>Xia, B. S., & Gong, P. (2015). Review of business intelligence through data analysis. ''Benchmarking'', ''21''(2), 300-311. doi:10.1108/BIJ-08-2012-0050</ref>
 
A [[mineração de dados]] é uma técnica de análise de dados específica que se concentra na modelagem estatística e na descoberta de conhecimento para fins preditivos em vez de puramente descritivos, enquanto a [[Inteligência empresarial|inteligência de negócios]] cobre análises de dados que dependem fortemente da agregação, com foco principalmente nas informações de negócios.<ref>[https://web.archive.org/web/20171018181046/https://spotlessdata.com/blog/exploring-data-analysis Exploring Data Analysis]</ref> Em aplicativos estatísticos, a análise de dados pode ser dividida em [[estatística descritiva]], [[análise exploratória de dados]] (AED) e [[Testes de hipóteses|análise confirmatória de dados]] (ACD). A AED se concentra em descobrir novas características nos dados, enquanto a ACD se concentra em confirmar ou refutar [[Hipótese|hipóteseshipótese]]s existentes. A análise preditiva se concentra na aplicação de modelos estatísticos para previsão ou classificação preditiva, enquanto a [[Mineração de texto|análise de texto]] aplica técnicas estatísticas, linguísticas e estruturais para extrair e classificar informações de fontes textuais, um tipo de dados não estruturados. Todos os itens acima são variedades de análise de dados.
 
A integração de dados é um precursor da análise de dados, e a análise de dados está intimamente ligada à [[Visualização de dados|visualização]] e disseminação de dados.<ref>{{Citar livro|url=https://www.worldcat.org/oclc/894555128|título=Business intelligence guidebook : from data integration to analytics|ultimo=Sherman, Rick|data=4 Novemberde novembro de 2014|localização=Amsterdam|isbn=978-0-12-411528-6|oclc=894555128}}</ref>
 
== O processo de análise de dados ==
Linha 18:
 
=== Processamento de dados ===
[[Ficheiro:Relationship_of_data,_information_and_intelligence.png|miniaturadaimagem|350x350px| As fases do ciclo de inteligência usadas para converter informações brutas em inteligência ou conhecimento acionável são conceitualmente semelhantes às fases da análise de dados.]]
Os dados, quando obtidos inicialmente, devem ser processados ou organizados para análise. Por exemplo, isso pode envolver a colocação de dados em linhas e colunas em um formato de tabela (''conhecido como'' dados estruturados) para análise posterior, geralmente por meio do uso de softwares estatísticos ou de planilhas.<ref name="Schutt & O'Neil">{{Citar livro|título=Doing Data Science|ultimo=Schutt|primeiro=Rachel|ultimo2=O'Neil|primeiro2=Cathy|editora=[[O'Reilly Media]]|ano=2013|isbn=978-1-449-35865-5|autorlink2=Cathy O'Neil}}</ref>
 
=== Limpeza de dados ===
Uma vez processados e organizados, os dados podem estar incompletos, conter duplicatas ou conter erros. A necessidade de ''limpeza de dados'', surgirá de problemas na forma como os dados são inseridos e armazenados. A limpeza de dados é o processo de prevenção e correção desses erros. Tarefas comuns incluem correspondência de registros, identificação de dados imprecisos, qualidade geral dos dados existentes, desduplicação e segmentação de colunas.<ref>{{Citar web |url=http://research.microsoft.com/en-us/projects/datacleaning/ |titulo=Data Cleaning |acessodata=26 Octoberde outubro de 2013 |publicado=Microsoft Research}}</ref> Esses problemas de dados também podem ser identificados por meio de uma variedade de técnicas analíticas. Por exemplo, com informações financeiras, os totais para variáveis específicas podem ser comparados com números publicados separadamente, que se acredita serem confiáveis.<ref name="Koomey1">[http://www.perceptualedge.com/articles/b-eye/quantitative_data.pdf Perceptual Edge-Jonathan Koomey-Best practices for understanding quantitative data-February 14, 2006]</ref> Valores incomuns, acima ou abaixo de limites predeterminados, também podem ser revisados. Existem vários tipos de limpeza de dados, que dependem do tipo de dados no conjunto; estes podem ser números de telefone, endereços de e-mail, empregadores ou outros valores. Os métodos de dados quantitativos para detecção de valores discrepantes podem ser usados para eliminar dados que parecem ter uma maior probabilidade de terem sido inseridos incorretamente. Os corretores ortográficos de dados textuais podem ser usados para diminuir a quantidade de palavras digitadas incorretamente, no entanto, é mais difícil dizer se as próprias palavras estão corretas.<ref>{{Citar periódico |url=http://db.cs.berkeley.edu/jmh/papers/cleaning-unece.pdf |titulo=Quantitative Data Cleaning for Large Databases |data=27 Februaryde fevereiro de 2008 |acessodata=26 Octoberde outubro de 2013 |ultimo=Hellerstein |primeiro=Joseph |pagina=3 |journalperiódico=EECS Computer Science Division}}</ref>
 
=== Análise exploratória de dados ===
Linha 28:
 
=== Modelagem e algoritmos ===
Podem ser aplicadas '''fórmulas''' ou '''modelos''' '''matemáticos''' (conhecidos como '''[[Algoritmo|algoritmosalgoritmo]]s''') aos dados para identificar relações entre as variáveis; por exemplo, usando [[correlação]] ou [[causalidade]]. Em termos gerais, os modelos podem ser desenvolvidos para avaliar uma variável específica com base em outras variáveis contidas no conjunto de dados, com algum ''erro residual'' dependendo da precisão do modelo implementado (por exemplo, Dados = Modelo + Erro).<ref name="Judd and McClelland 1989">{{Citar livro|título=Data Analysis|ultimo=Judd, Charles and|primeiro=McCleland, Gary|editora=Harcourt Brace Jovanovich|ano=1989|isbn=0-15-516765-0}}</ref>
 
A [[Inferência estatística|estatística inferencial]] inclui a utilização de técnicas que medem as relações entre variáveis específicas. Por exemplo, a [[Regressão (estatística)|análise de regressão]] pode ser usada para modelar se uma mudança nas propagandas (''variável independente X'') fornece uma explicação para a variação nas vendas (''variável dependente Y''). Em termos matemáticos, ''Y'' (vendas) é uma função de ''X'' (publicidade). Isso pode ser descrito como (''Y'' = ''aX'' + ''b'' + erro), onde o modelo é projetado de tal forma que ''(a'') e ''(b'') minimizem o erro quando o modelo prevê ''Y'' para um determinado intervalo de valores de ''X''. Os analistas também podem tentar construir modelos descritivos dos dados, com o objetivo de simplificar a análise e comunicar os resultados.<ref name="Judd and McClelland 1989">{{Citar livro|título=Data Analysis|ultimo=Judd, Charles and|primeiro=McCleland, Gary|editora=Harcourt Brace Jovanovich|ano=1989|isbn=0-15-516765-0}}</ref>
Linha 36:
 
=== Comunicação ===
[[Ficheiro:Social_Network_Analysis_Visualization.png|miniaturadaimagem|250x250px| [[Visualização de dados]] para entender os resultados de uma análise de dados.<ref>{{Citar periódico |url=http://www.martingrandjean.ch/wp-content/uploads/2015/02/Grandjean-2014-Connaissance-reseau.pdf |titulo=La connaissance est un réseau |data=2014 |ultimo=Grandjean |primeiro=Martin |paginas=37–54 |doi=10.3166/lcn.10.3.37-54 |volume=10 |journalperiódico=Les Cahiers du Numérique}}</ref>]]
Uma vez que os dados são analisados, eles podem ser apresentados em vários formatos para que os usuários da análise apoiem seus requisitos. Os usuários podem ter ''feedback'', o que resulta em análises adicionais. Como tal, grande parte do ciclo analítico é iterativo.<ref name="Schutt & O'Neil">{{Citar livro|título=Doing Data Science|ultimo=Schutt|primeiro=Rachel|ultimo2=O'Neil|primeiro2=Cathy|editora=[[O'Reilly Media]]|ano=2013|isbn=978-1-449-35865-5|autorlink2=Cathy O'Neil}}</ref>
 
Ao determinar como comunicar os resultados, o analista pode considerar a implementação de uma variedade de técnicas de visualização de dados, para ajudar a comunicar a mensagem ao público de forma clara e eficiente. A visualização de dados usa [[Display|telas de informações]] (gráficos, como tabelas e gráficos) para ajudar a comunicar as mensagens principais contidas nos dados. As [[Tabela|tabelastabela]]s são uma ferramenta valiosa, pois permitem a um usuário consultar e focar em números específicos; enquanto gráficos (por exemplo, gráficos de barras ou de linhas), podem ajudar a explicar as mensagens quantitativas contidas nos dados.
 
== Mensagens quantitativas ==
[[Ficheiro:Total_Revenues_and_Outlays_as_Percent_GDP_2013.png|direita|miniaturadaimagem|250x250px| Uma série temporal ilustrada com um gráfico de linhas que demonstra as tendências dos gastos e receitas federais dos EUA ao longo do tempo.]]
[[Ficheiro:U.S._Phillips_Curve_2000_to_2013.png|direita|miniaturadaimagem|250x250px| Um gráfico de dispersão que ilustra a correlação entre duas variáveis (inflação e desemprego) medidas em pontos no tempo.]]
Stephen Few descreveu oito tipos de mensagens quantitativas que os usuários podem tentar entender ou comunicar a partir de um conjunto de dados e os gráficos associados usados para ajudar a comunicar a mensagem. Os clientes que especificam os requisitos e os analistas que executam a análise de dados podem considerar essas mensagens no decorrer do processo.
 
Linha 66:
 
Para as variáveis em exame, os analistas normalmente obtêm [[Estatística descritiva|estatísticas descritivas]] para elas, como a média, [[Mediana (estatística)|mediana]] e [[desvio padrão]]. Eles também podem analisar a [[Distribuição de probabilidade|distribuição]] das variáveis-chave para ver como os valores individuais se agrupam em torno da média.
[[Ficheiro:US_Employment_Statistics_-_March_2015.png|direita|miniaturadaimagem|250x250px| Uma ilustração do princípio MECE usado para a análise de dados.]]
Os consultores da [[McKinsey & Company]] nomearam uma técnica para decompor um problema quantitativo em suas partes componentes, chamada de princípio MECE. Cada camada pode ser dividida em suas componentes; cada uma das subcomponentes deve ser [[Eventos mutuamente exclusivos|mutuamente exclusiva]] uma da outra e, coletivamente, ter como soma a camada acima deles. O relacionamento é conhecido como "Mutuamente Exclusivo e Coletivamente Exaustivo" ou MECE. Por exemplo, o lucro, por definição, pode ser dividido em receita total e custo total. Por sua vez, a receita total pode ser analisada por suas componentes, como a receita das divisões A, B e C (que são mutuamente exclusivas entre si) e devem ter como soma a receita total (exaustivas coletivamente).
 
Linha 76:
 
== Atividades analíticas de usuários de dados ==
Os usuários podem ter pontos de dados específicos de interesse em um conjunto de dados, ao contrário das mensagens gerais descritas anteriormente. Essas atividades analíticas do usuário de baixo nível são apresentadas na tabela a seguir. A taxonomia também pode ser organizada por três polos de atividades: recuperação de valores, localização de pontos de dados e organização de pontos de dados.<ref>Robert Amar, James Eagan, and John Stasko (2005) [http://www.cc.gatech.edu/~stasko/papers/infovis05.pdf "Low-Level Components of Analytic Activity in Information Visualization"]</ref><ref>William Newman (1994) [http://www.mdnpress.com/wmn/pdfs/chi94-pro-formas-2.pdf "A Preliminary Analysis of the Products of HCI Research, Using Pro Forma Abstracts"]</ref><ref>Mary Shaw (2002) [https://www.cs.cmu.edu/~Compose/ftp/shaw-fin-etaps.pdf "What Makes Good Research in Software Engineering?"]</ref><ref name="ConTaaS">{{Citar web |url=https://scholarspace.manoa.hawaii.edu/handle/10125/41879 |titulo=ConTaaS: An Approach to Internet-Scale Contextualisation for Developing Efficient Internet of Things Applications |acessodata=May 24, de maio de 2017 |website=ScholarSpace |publicado=HICSS50}}</ref>
{| class="wikitable" border="1"
! align="center" |#
Linha 167:
|-
| align="center" | 11
| '''Contextualizar <ref name="ConTaaS">{{Citar web |url=https://scholarspace.manoa.hawaii.edu/handle/10125/41879 |titulo=ConTaaS: An Approach to Internet-Scale Contextualisation for Developing Efficient Internet of Things Applications |acessodata=May 24, de maio de 2017 |website=ScholarSpace |publicado=HICSS50}}</ref>'''
| Dado um conjunto de casos de dados, encontrar a relevância contextual dos dados para os usuários.
| Quais casos de dados em um conjunto S de casos de dados são relevantes para o contexto dos usuários atuais?
Linha 182:
| autor = [[Daniel Patrick Moynihan]]
| largura = 250px
}}Uma análise eficaz requer a obtenção de fatos relevantes para responder a perguntas, apoiar uma conclusão ou [[opinião]] formal ou testar [[Hipótese|hipóteseshipótese]]s. Os fatos, por definição, são irrefutáveis, o que significa que qualquer pessoa envolvida na análise deve ser capaz de concordar com eles. Por exemplo, em agosto de 2010, o Congressional Budget Office (CBO) dos Estados Unidos estimou que estender os cortes de impostos de Bush de 2001 e 2003 para o período de 2011-2020 adicionaria aproximadamente US $ 3,3 trilhões à dívida nacional.<ref>{{Citar web |url=http://www.cbo.gov/publication/21670 |titulo=Congressional Budget Office-The Budget and Economic Outlook-August 2010-Table 1.7 on Page 24 |acessodata=2011-03-31 |formato=PDF}}</ref> Todos devem ser capazes de concordar que realmente foi isso o que o CBO relatou; todos podem examinar o relatório. Assim, isso é um fato. Se as pessoas concordam ou discordam do CBO é sua opinião.
 
Como outro exemplo, o auditor de uma empresa de capital aberto deve chegar a uma opinião formal sobre se as demonstrações financeiras das empresas de capital aberto são "apresentadas de forma justa, em todos os aspectos relevantes". Isso requer uma análise extensiva de dados factuais e evidências para apoiar sua opinião. Ao passar dos fatos às opiniões, sempre existe a possibilidade de que a opinião esteja errada.
Linha 201:
 
=== Edifícios inteligentes ===
Uma abordagem de análise de dados pode ser usada para prever o consumo de energia em edifícios.<ref name="Towards energy efficiency smart buildings models based on intelligent data analytics">{{Citar periódico |titulo=Towards energy efficiency smart buildings models based on intelligent data analytics |data=2016 |ultimo=González-Vidal |primeiro=Aurora |ultimo2=Moreno-Cano |primeiro2=Victoria |paginas=994–999 |doi=10.1016/j.procs.2016.04.213 |volume=83 |doi-access=free |journalperiódico=Procedia Computer Science}}
</ref> As diferentes etapas do processo de análise de dados são realizadas a fim de obter edifícios inteligentes, nos quais as operações de gerenciamento e controle do edifício, incluindo aquecimento, ventilação, ar condicionado, iluminação e segurança, são realizadas automaticamente, imitando as necessidades dos usuários do edifício e otimizando recursos como energia e tempo.
 
Linha 209:
=== Educação ===
[[Ficheiro:User-activities.png|direita|miniaturadaimagem|350x350px| Atividades analíticas de usuários de visualização de dados]]
Na [[educação]], a maioria dos educadores tem acesso a um sistema de dados com o objetivo de analisar os dados de alunos.<ref>Aarons, D. (2009). [https://search.proquest.com/docview/202710770 Report finds states on course to build pupil-data systems.] ''Education Week, 29''(13), 6.</ref> Esses sistemas de dados apresentam dados aos educadores em um formato de dados <nowiki><i>''over-the-counter</i></nowiki>'' (incorporando rótulos, documentação suplementar e um sistema de ajuda e tomando decisões chave de pacote/exibição e conteúdo) para melhorar a precisão das análises de dados dos educadores.<ref>Rankin, J. (2013, March 28). [https://sas.elluminate.com/site/external/recording/playback/link/table/dropin?sid=2008350&suid=D.4DF60C7117D5A77FE3AED546909ED2 How data Systems & reports can either fight or propagate the data analysis error epidemic, and how educator leaders can help.] ''Presentation conducted from Technology Information Center for Administrative Leadership (TICAL) School Leadership Summit.''</ref>
 
== Notas dos profissionais ==
Linha 222:
* Análise de [[Outlier|observações extremas]]: observações discrepantes nos dados são analisadas para ver se parecem perturbar a distribuição.
* Comparação e correção de diferenças em esquemas de codificação: as variáveis são comparadas com esquemas de codificação de variáveis externos ao conjunto de dados e possivelmente corrigidas se os esquemas de codificação não forem comparáveis.
 
* Teste a variância do método comum.
 
Linha 267 ⟶ 266:
* No caso de não [[Distribuição normal|normais]]: deve-se transformar as variáveis; tornar as variáveis categóricas (ordinais/dicotômicas); adaptar o método de análise?
* No caso de [[Não-resposta|dados faltantes]]: deve-se negligenciar ou imputar os dados faltantes; qual técnica de imputação deve ser usada?
* No caso de [[Outlier|outliersoutlier]]s: deve-se usar técnicas de análise robustas?
* Caso os itens não se enquadrem na escala: deve-se adaptar o instrumento de medição omitindo itens, ou antes garantir a comparabilidade com outros (usos do(s)) instrumento(s) de medição?
* No caso de subgrupos (muito) pequenos: deve-se abandonar a hipótese sobre diferenças entre os grupos ou usar técnicas de pequenas amostras, como testes exatos ou [[Bootstrapping (estatística)|''bootstrapping'']]?
Linha 330 ⟶ 329:
Diferentes empresas ou organizações realizam concursos de análise de dados para incentivar os pesquisadores a utilizar seus dados ou para resolver uma questão específica usando a análise de dados. Alguns exemplos de concursos internacionais de análise de dados conhecidos são os seguintes:
 
* Competição Kaggle realizada por Kaggle<ref>{{Citar jornal |url=http://www.symmetrymagazine.org/article/july-2014/the-machine-learning-community-takes-on-the-higgs/ |titulo=The machine learning community takes on the Higgs |data=July 15, de julho de 2014 |acessodata=14 Januaryde janeiro de 2015 |website=Symmetry Magazine}}</ref>
* Concurso de análise de dados LTPP realizado pela FHWA e [[Sociedade Americana de Engenheiros Civis|ASCE]]. <ref name="Nehme 2016-09-29">{{Citar web |ultimo=Nehme |primeiro=Jean |url=https://www.fhwa.dot.gov/research/tfhrc/programs/infrastructure/pavements/ltpp/2016_2017_asce_ltpp_contest_guidelines.cfm |titulo=LTPP International Data Analysis Contest |data=September 29, de setembro de 2016 |acessodata=October 22, de outubro de 2017 |publicado=Federal Highway Administration}}</ref> <ref>{{Citar web |url=https://www.fhwa.dot.gov/research/tfhrc/programs/infrastructure/pavements/ltpp/ |titulo=Data.Gov:Long-Term Pavement Performance (LTPP) |data=May 26, de maio de 2016 |acessodata=November 10, de novembro de 2017}}</ref>
 
== Ver também ==
Linha 342 ⟶ 341:
* [[Física computacional]]
* [[Aquisição de dados]]
* ''[[Data blending|]]''Data blending'']]
* [[Governança de dados]]
* [[Mineração de dados]]
Linha 364 ⟶ 363:
* [[Análise de dados estruturados]]
* [[Identificação de sistemas]]
* [[Método de ensaio|Método de teste]]
* [[AnáliseMineração de texto]]
* [[Dados não estruturados]]
* [[Wavelet]]
Linha 373 ⟶ 372:
 
=== Citações ===
<references />
{{Referências}}
 
=== Bibliografia ===
 
* {{Citar livro|título=Advising on research methods : a consultant's companion|ultimo=Adèr|primeiro=Herman J.|editora=Johannes van Kessel Pub|ano=2008a|editor-sobrenome=Adèr|localização=Huizen, Netherlands|páginas=333–356|capitulo=Chapter 14: Phases and initial steps in data analysis|isbn=9789079418015|oclc=905799857|autorlink=Herman J. Adèr|editor-sobrenome2=Mellenbergh|editor-link2=Gideon J. Mellenbergh|editor-sobrenome3=Hand|editor-link3=David Hand (statistician)}}<bdi><cite class="citation book cs1" data-ve-ignore="true" id="CITEREFAdèr2008a">[[Special:BookSources/9789079418015|9789079418015]]</cite></bdi>
* {{Citar livro|título=Advising on research methods : a consultant's companion|ultimo=Adèr|primeiro=Herman J.|editora=Johannes van Kessel Pub|ano=2008b|editor-sobrenome=Adèr|localização=Huizen, Netherlands|páginas=357–386|capitulo=Chapter 15: The main analysis phase|isbn=9789079418015|oclc=905799857|autorlink=Herman J. Adèr|editor-sobrenome2=Mellenbergh|editor-link2=Gideon J. Mellenbergh|editor-sobrenome3=Hand|editor-link3=David Hand (statistician)}}<bdi><cite class="citation book cs1" data-ve-ignore="true" id="CITEREFAdèr2008b">[[Special:BookSources/9789079418015|9789079418015]]</cite></bdi>
* Tabachnick, BG & Fidell, LS (2007). Capítulo 4: Limpando seu ato. Dados de triagem antes da análise. Em BG Tabachnick & LS Fidell (Eds. ), Usando Estatísticas Multivariadas, Quinta Edição (pp.&nbsp;60-116). Boston: Pearson Education, Inc. / Allyn e Bacon.