Wikipédia:Esplanada/geral/Pesquisa sobre temas, tamanhos e número de acessos (1jan2018)
Pesquisa sobre temas, tamanhos e número de acessos (1jan2018)
Já faz um tempo que eu queria fazer uma pesquisa sobre os temas mais comuns na Wikipédia, como para pegar um único tema por artigo não é possível usar as categorias, tive a ideia então de obter o tema da primeira frase de cada artigo, que geralmente segue o padrão "<título do artigo> é um(a) <tema do artigo>...", usando essa ideia consegui obter o tema de 87% dos artigos, removendo as desambiguações. O resultado coloquei no gráfico ao lado.
Para fazer uma análise melhor de cada tema, eu juntei os dados dos temas com dados sobre a existência de referências, o tamanho e o número de acessos dos artigos e coloquei nesta tabela dos 200 temas mais comuns. Esses dados nos permitem fazer algumas análises sobre a situação dos artigos de cada tema. Por exemplo em temas onde a porcentagem de artigos menores que 2000 bytes é muito alta, mostra que existem muitos esboços e mínimos nesse tema, talvez por terem sido criados por robôs como os asteroides e comunas, já se a porcentagem de artigos maiores que 8000 bytes é alta, mostra que esses temas têm muitos artigos desenvolvidos, como é o caso de canção, banda e série. Uma análise semelhante pode ser feita para número de acessos, uma porcentagem alta de artigos com menos de 5 acessos mostra que existe uma pouca procura dos leitores por artigos desse tema, e uma porcentagem alta de artigos com mais de 50 acessos mostra que existe uma demanda maior dos leitores por esses artigos.
Para ajudar a visualizar os artigos de todos os temas e separá-los por tamanho e número de acessos eu criei também esta ferramenta, que organiza os artigos de uma forma semelhante à matriz de qualidade e importância, com isso dá para encontrar com mais facilidade, por exemplo, os artigos pequenos e com grande número de acessos, os quais teoricamente merecem uma prioridade dos editores que se dedicam ao tema. A ferramenta também gera a mesma matriz por categoria, e até dois níveis de subcategorias, tive que limitar a 2 níveis por questão de desempenho, mas acredito que é o suficiente para dar uma boa visão dos artigos da categoria.
Espero que esses dados ajudem a organizar o trabalho dos editores e a direcionar nossos esforços aqui na Wikipédia de uma maneira mais eficiente. Danilo.mac(discussão) 23h41min de 1 de janeiro de 2018 (UTC)
- Muito interessante a pesquisa e a ferramenta. Espero que seja bastante usada. Para que a ferramenta não se perca, talvez se possa colocar ligação em algum local, talvez relacionado com os projectos. Algo a pensar. GoEThe (discussão) 08h53min de 2 de janeiro de 2018 (UTC)
- Também poderia ser interessante integrar com o user:SuggestBot para melhorar a forma de sugestão de artigos. GoEThe (discussão) 08h55min de 2 de janeiro de 2018 (UTC)
- Os dados parecem também dar algum suporte (visual) à hipótese de que artigos mais completos (ou pelo menos mais extensos) tem tendência a atrair mais visitas. GoEThe (discussão) 10h17min de 2 de janeiro de 2018 (UTC)
- O que dá para afirmar é que o alto número de acessos tem alguma relação com os artigos grandes, mas não dá para dizer qual é a causa de qual. Para fazer essa análise seria necessário analisar o tamanho e números de acessos dos artigos ao longo do tempo para ver qual aumentou primeiro. O meu palpite é que o que vêm antes depende do tema, em temas relacionados à cultura, sociedade e entretenimento o aumento do interesse e consequente aumento no número de acessos vêm antes e causa o desenvolvimento do artigo, e em temas mais científicos e acadêmicos o desenvolvimento do artigo torna-o uma fonte de informação mais útil comparado a outras fontes disponíveis e gera o aumento no número de acessos. Mas para comprovar isso é necessário uma pesquisa bem mais aprofundada. Danilo.mac(discussão) 14h36min de 2 de janeiro de 2018 (UTC)
- Realmente, é possível. De qualquer modo, é interessante haver essa relação. GoEThe (discussão) 08h26min de 3 de janeiro de 2018 (UTC)
- O que dá para afirmar é que o alto número de acessos tem alguma relação com os artigos grandes, mas não dá para dizer qual é a causa de qual. Para fazer essa análise seria necessário analisar o tamanho e números de acessos dos artigos ao longo do tempo para ver qual aumentou primeiro. O meu palpite é que o que vêm antes depende do tema, em temas relacionados à cultura, sociedade e entretenimento o aumento do interesse e consequente aumento no número de acessos vêm antes e causa o desenvolvimento do artigo, e em temas mais científicos e acadêmicos o desenvolvimento do artigo torna-o uma fonte de informação mais útil comparado a outras fontes disponíveis e gera o aumento no número de acessos. Mas para comprovar isso é necessário uma pesquisa bem mais aprofundada. Danilo.mac(discussão) 14h36min de 2 de janeiro de 2018 (UTC)
- Muito legal @Danilo.mac:. Acessei a Matriz de tamanho e acessos e ao explorar a lista clicando no número de artigos em cada campo da tabela, em alguns aparece Gerando lista, aguarde... e nada acontece, em outros a lista é exibida abaixo. Rodrigo Padula(Fale comigo) 21h57min de 2 de janeiro de 2018 (UTC)
- Que trabalho fantástico, parabéns. Essa divisão por categorias ficou excelente. A relação de visitas tem a mesma a ver tipo de categoria e o conteúdo que ela apresenta. As categorias maior porcentagem de artigos +50 visualizações são categorias muito objetivas como mostrado: processo, conceito, forma, ramo, instrumento, ... Elas possuem temas em sua maioria atemporais, muitos deles são pesquisados diariamente. Temos categorias com páginas que apresentam grandes visualizações enquanto a grande maioria das demais páginas estão esquecidas: políticos, futebolistas, clubes, competições. Temos categorias gigantes com muitos artigos esquecidos comuna, asteróide .... Igor G.Monteiro (discussão) 22h16min de 2 de janeiro de 2018 (UTC)
- Obrigado. De fato é interessante ver como alguns temas são mais esquecidos que outros, acho que muitos já tinham essa percepção, mas a comprovação por meio de estatísticas deixa isso mais evidente. Danilo.mac(discussão) 17h11min de 3 de janeiro de 2018 (UTC)