Usuário(a) Discussão:Alchimista/stats

Último comentário: 22 de novembro de 2012 de OTAVIO1981 no tópico Output

Oi Alchimista!

Conforme conversamos rapidamente na sexta, seria muito importante começarmos a coletar automaticamente alguns dados aqui da pt.wiki. Vendo rapidamente as fontes do qual pode colher informações, a mais interessante é a wmcharts. Se fosse possível coletar semanalmente as informações abaixo seria ótimo. Também é possível coletar dados retroativamente?

  1. Novas páginas
  2. Eliminações/restauros
  3. Novas contas
  4. Reversões (aqui carece um pouco de discussão para saber como pode ser feito)
  5. Edições (acho que não tem naquela tabela, mas se puder coletar preferencialmente separando registrados de IPs seria ótimo!)

O ideal mesmo era começar a coletar diariamente e após algum tempo começar a aumentar o prazo das coletas. Provavelmente de início as informações vão confirmar muitas teorias que andam soltas por aí, mas é preciso ter evidências concretas para refutá-las em definitivo ou buscar soluções. Enfim, estou no aguardo para saber das suas possibilidades.OTAVIO1981 (discussão) 18h57min de 5 de novembro de 2012 (UTC)Responder

Todos esses dados consigo obter facilmente através da db do toolserver, mesmo retroactivamente. Por exemplo, pegando nos registos sobre páginas criadas a partir do dia 4, com uma simples query obtenho todos os dados presentes em http://toolserver.org/~alchimista/stats.txt( a descrição de cada campo pode ser vista em Manual:Recentchanges table), depois é só organizar a informação. Vou ver se consigo mostrar alguns resultados o quanto antes. Alchimista Fala comigo! 21h26min de 5 de novembro de 2012 (UTC)Responder
  • Se for ver eliminações, restauros e reversões, vê tb bloqueio e proteção. E aí aproveitando, ver qnts eliminações/bloqueios são feitos por adms e qnts são por outros estatutos, talvez até vendo o total de ações do estatuto / usuários com o estatuto. Se vamos ver isso vê tb para os editores de interface. Rjclaudio msg 22h51min de 5 de novembro de 2012 (UTC)Responder
  • Dos novos usuários, tem como fazer alguma relação com as páginas q eles vêem, como o café dos novatos, WP:FALE, informe um erro, e tutoria? Fazer um gráfico de qntd de edições de novatos (ou qntd de visitas?) nessas quatro páginas.
  • Falando em novas contas, assim como temos o total de usuários ativos no mês seria legal ver qnts das novas contas chegaram a ficar ativas (ou seja, qnts novos usuários ativos). E o mesmo para usuários muito ativos, vai que estamos tendo uma renovação e não sabemos.
  • Rjclaudio msg 22h54min de 5 de novembro de 2012 (UTC)Responder
Cláudio, acho que com a tabela de dados consigo pesquisar quantas contas novas fizeram alguma edição em um intervalo de tempo a partir da data em que foi criada. Só não sei se tem como ver quais páginas acessaram. Isso não é invasão de privacidade? As ações por estatuto acho que vai dar um pouquinho de trabalho pois na tabela não fica registrado qual é o estatuto do editor então será preciso correlacionar com outra tabela.OTAVIO1981 (discussão) 10h42min de 6 de novembro de 2012 (UTC)Responder
As visitas não era necessariamente as visitas feitas por novatos. Só a qntd de visitas gerais nas páginas já dá para fazer alguma relação, pois os experientes geralmente só visitam a página qnd tem alguma edição de novato. Rjclaudio msg 11h01min de 6 de novembro de 2012 (UTC)Responder
Vc quer dizer os dados dos stats.grok tabulados por dia? Ah, tá. É possível sim embora acredite que não seja por esta tabela.OTAVIO1981 (discussão) 11h04min de 6 de novembro de 2012 (UTC)Responder
  • Alchimista, se vc conseguir passar os dados organizados numa tabela posso fazer a parte estatística se for de alguma ajuda. Acredito que seja possível sim analisar as reversões via sumário de edição, de modo idêntico ao Script que o Helder fez para o teste de reversores bloqueando vândalos. Possivelmente até consigo fazer mais análises com os dados à mão. Entretanto, não verifiquei nesta tabela os registros de contas novas criadas, qual o parâmetro que registra isso?OTAVIO1981 (discussão) 10h42min de 6 de novembro de 2012 (UTC)Responder
Octavio a primeira etapa será obter os dados e criar uma bd própria, e depois implementar uma API pública para que qualquer pessoa possa consultar os dados, ou então criar um .csv com esses dados, portanto haverá sim a hipótese de haver várias pessoas a gerar mais dados e mais informação. Se houver gente que se sinta confortável com html + js pode depois pegar nesses dados e gerar os reports automáticos, ai não precisa esperar que eu termine essa parte, e pode até pedir conta no ts e obter os dados directamente da tabela que planeio criar, ou então cria-se um projecto lá.
Rj, saber as páginas que os novatos visitam não é possível através da bd to ts, pois como o octávio falou, vai contra a política de privacidade, pelo que esses dados ficam com a wmf, e só com a autorização e supervisão da wmf podem ser utilizados.
Eu estou a trabalhar ainda na tabela das mudanças recentes, pois dá mais resultados que são interessantes, e com esses resultados estou a tentar obter os seguintes resultados por dia:
  • Total de páginas novas
  • Total de páginas novas por registados
  • Total de páginas novas por IP's
  • Total de páginas novas por IP's de pt, br, an, moz, alemanha, suiça, outros -> Num report do squid vêm que as edits de IP's são maioritáriamente destes países. (estou a considerar por pais e cidade)
  • Total de IP's que criaram páginas novas
  • Total de IP's que criaram páginas novas por origem (pt, br, an, moz, alemanha, suiça, outros)
  • Sum (somatório) do tamanho dos artigos criados por IP's
  • Sum do tamanho dos artigos criados por utilizadores registados
Se mais alguém se lembrar de algum dado que seja importante obter de resultados como este deixem aqui a lista. Há dados que não precisam ser obtidos já, por exemplo, para se calcular a média do tamanho de artigos criados por IP, basta depois usar os dados do *Sum do tamanho dos artigos criados por IP's* e o nº de artigos criados por IP's.
Estou a ver se encontro uma bd para obter a localização geográfica dos ip's, para ter estes dados disponíveis faltam-me tratar de obter a localização dos IP's e dados subsequentes. Quando terminar esta parte, já pode ser possível consultar esses resultados, e ai passar a tratar de informação de outra tabela. Alchimista Fala comigo! 19h47min de 6 de novembro de 2012 (UTC)Responder

Output editar

Há já alguns dados relativos a este mês, entretanto se não houver mudanças relativas ao formato e quais as variáveis que pretendem, dentro de dias passa a fazer de forma automática, e actualizado diariamente. Neste momento, algumas variáveis podem ser removidas, para não ocupar muito espaço nos logs, vejam quais são dispensáveis. Tenho ainda dados relativos ao pais dos ip's, mas terão de ser noutra tabela, e ainda tenho de ver qual o formato ideal. As legendas são:

  • timestamp - data no formato padrão do mediawiki (20121031000000 -> anoMêsDiaHoraMinSeg)
  • tot_pag - Total de páginas criadas
  • tot_pag_ip - Total pag criadas por ip's
  • tot_pag_reg - Total de páginas criadas por utilizadores registados
  • tam_med_pag - Média do tamanho das páginas
  • tot_pais_ip - Total de paises de onde os IP's editaram
  • tot_ip_criad - Total de IP's (unicos) que criaram páginas
  • tot_reg_c_pag - Total de registados que criaram páginas
  • tot_tam_pag_ip - Somatório do tamanho de páginas criadas por ip's
  • tot_tam_pag_reg - Somatório do tamanho de páginas criadas por registados
  • tot_tam_pag - Somatório do do tamanho de todas as páginas criadas
Ficou muito bom! Para mim, não é necessário tam_med_pag, tot_pais_ip, tot_tam_pag_ip, tot_tam_pag_reg e tot_tam_pag. Entretanto, antes de excluir da consulta é melhor que outros se pronunciem pois podem querer tratar estes dados. Uma dúvida, tot_reg_c_pag refere-se ao total de registados únicos, correto?OTAVIO1981 (discussão) 15h55min de 22 de novembro de 2012 (UTC)Responder
Regressar à página do utilizador "Alchimista/stats".