Usuário(a) Discussão:Girino/Estudos sobre o vandalismo

Estatísticas editar

A primeira proposta é levantar estatísticas nos moldes da wiki en, feito em en:Wikipedia:WikiProject Vandalism studies/Study1. Um resumo rápido:

  1. Define-se um período (de um mês).
  2. Cada participante seleciona 100 artigos usando o botão "artigo aleatório" que possuam edições no período definido.
  3. Cada edição feita no período é examinada pelo usuário em questão, anotando-se:
    1. Se é vandalismo ou não
    2. Se foi feito por usuário registrado ou IP
    3. Se foi revertido
    4. quando foi revertido.
  4. os dados são tabulados e estatísticas gerais calculadas sobre o conjunto dos dados.

Algumas sugestões que tenho, que não constaram da pesquisa na wiki en:

  • Identificar tipos diferentes de vandalismo (palavrões e ofensas, lixo, remoção de informação válida, alteração de dados numéricos, outros) Erro meu, esta categorização consta sim, mas é diferente da que propus.
  • Fazer uma validação às cegas nos dados (outro usuário identifica os vandalismos no mesmo conjunto de páginas, mesmo período, sem saber os resultados do primeiro usuário). Isso objetiva evitar desvios de confirmação (um dos examinadores ser mais brando que os outros, ou mais exigente que os outros, para considerar uma edição como vandalismo).
  • Identificar o IP que realizou cada edição específica e verificar se houveram vandalismos sucessivos por um mesmo IP na mesma página.

(essa última sugestão me lembra outra estatística a ser levantada: selecionar aleatóriamente IPs que cometeram vandalismo num dado período e verificar se os mesmos IPs fizeram outros vandalismos dentro do período determinado, para determinar a taxa de reincidência).

Precisamos também definir "o que é considerado vandalismo". Sugestões:

  • Guerras de edição não são vandalismo, são um fenômeno a parte, não considerado no estudo.
  • ??? (alguém tem mais?)

Aguardo mais sugestões.

--girino 01h52min de 8 de Setembro de 2007 (UTC)

De um modo geral, está bom. Só tenho, para já, 4 coisas a dizer:

  • Já tentei fazer o estudo nos moldes do estudo 1 da wiki.en. Tive uma dificuldade: encontrar, nas paginas aleatórias, artigos com edições num período de 1 mês determinado: sugiro que seja alargado esse valor
  • Definição de vandalismo: é realmente importante. outra das páginas que necessitaria de um upgrade
  • Incluir no estudo, algo que possa aferir que tipo de vandalismo é mais frequente?
  • Talvez caiba um pouco fora do âmbito desta questão (pode ficar para outro estudo): fazer uma listagem dos artigos mais vandalizados (pode até ficar no domínio wikipédia, para que quem esteja interessado possa colocar nos seus vigiados): avaliar as possíveis causas de serem esses os mais vandalizados e não outros.

Para já é só. Vou voltando aos poucos. Lijealso ? 02h25min de 8 de Setembro de 2007 (UTC)

Tipos de vandalismo editar

Foi curta a minha análise, mas é melhor do que nada. Fica aqui uma proposta inicial de tipos de vandalismo, para inclusão no estudo:

  • Spam
  • Inserção de conteúdo sem sentido (Oi tudo bom!!!! --- dsa8 98'98d a8+a08s da098d901\ --- etc)
  • Branqueio de páginas
  • Remoção injustificada de partes de conteúdo
  • Inserção de conteúdo que quebre de maneira explícita as políticas
    • Imparcialidade
    • Verificabilidade
    • Pesquisa inédita

Necessita aperfeiçoamento, com é óbvio. Aguarda-se ataque a esta questão, pelos colegas wikipedistas. Lijealso ? 00h48min de 13 de Setembro de 2007 (UTC)

Como diferenciar "Pesquisa inédita" de "Verificabilidade"? Acho a linha divisória entre os dois muito tênue. --girino 01h00min de 13 de Setembro de 2007 (UTC)
  • mais um item para a lista: linguagem de baixo calão/palavrões/ofensas. --girino 01h01min de 13 de Setembro de 2007 (UTC)

Sugestão: Utilizar os 7 tipos de dano que são usados aqui: [1] (ponto 6).

Inclui um tipo para linguagem ofensiva e não tem item para a quebra de políticas. Lijealso 00h10min de 10 de Outubro de 2007 (UTC)

Identificação de páginas mais vandalizadas editar

Concordo com todos os pontos. Já estava imaginando que na tabulação dos dados iríamos identificar os tipos mais freqüentes de vandalismos. Sobre os artigos mais vandalizados, tenho uma dúvida: como podemos identificar estes artigos? Precisaríamos verificar todas as páginas da wikipédia para isso? Alguma wiki tem isso para podermos perguntar qual metodologia eles usam pra aferir isso? --girino 02h46min de 8 de Setembro de 2007 (UTC)

Identificar:

  • [2]
  • depois existem as que estão protegidas mas que sofrem ou sofreram episódios de vandalismo graves
    • estas são identificadas por conhecimento dos próprios usuários: posso citar um que me lembro: Portugal > basta ver a primeira página do histórico e vê-se cerca de 15 reversões e os registos de bloqueio da página também aferem alguma coisa. Outro: Microsoft. Há medida que as pessoas forem identificando os casos mais graves, colocariam nessa página.

Daquilo que sei, poucas têm esse sistema. Ex.. Lijealso ? 03h06min de 8 de Setembro de 2007 (UTC)

Pensei também em importar um dump do banco de dados da wikipédia lusófona e identificar as páginas com maior número de reversões. Mas ainda não sei se é possível, ainda não analisei a estrutura do banco de dados. --girino 03h15min de 8 de Setembro de 2007 (UTC)
Seria uma boa ideia, mas não sei se existe tabela referente ao sumário de edição (se é que só se pode aferir através dessa verificação) Lijealso ? 03h18min de 8 de Setembro de 2007 (UTC)
Esta consulta deve retornar resultados razoáveis (uma boa estimativa, já que "confia" nos comentários de cada edição):
select page.page_title, count(revision.rev_comment) 
from revision, page 
where page.page_id = revision.rev_page 
and page.page_namespace = 0 
and revision.rev_comment like '%rever%' 
group by page.page_title;

--girino 03h30min de 8 de Setembro de 2007 (UTC)

P.S.: Separei a discussão para que outros contribuidores não se "percam" no meio do nosso diálogo.

Bem, códigos não é muito comigo. Não sei que dados seriam obtidos com esse em particular. Meu conhecimento de SQL é quase nulo. Seria necessário o dump completo, certo?

Seria talvez interessante, se tal fosse possível, pegar na relação nº de reversões por nº total de edições. E ter em conta aqueles acima de X percentagem ou então, não complicando muito, aqueles com nº de reversões + elevado Lijealso ? 03h35min de 8 de Setembro de 2007 (UTC)

Este código gera uma lista que diz o título da página seguido do número de edições que contem o texto "rever" no comentário (utilizei apenas "rever" para poder abranger tanto comentários em português como em inglês feitos por scripts automáticos). Seria necessário sim o dump completo, para conter as informações de todas as edições passadas. Todas essas relações são facilmente calculadas usando-se SQL, sem o menor problema. Vou tentar importar um dump antigo aqui em casa e "brincar" com os códigos para conseguir algum resultado de exemplo e posto aqui depois. Tem alguém aqui na wikipedia com experiência em importar dumps da wiki? É que eu nunca fiz isso antes :P --girino 15h17min de 8 de Setembro de 2007 (UTC)

Testes editar

Importei um dump e fiz um primeiro teste, as páginas mais revertidas (comentários iniciados com "revert", "rv" ou "revers") são:

Título Número de reversões
Brasil 106
Os_Cavaleiros_de_Atena 81
Luiz_Inácio_Lula_da_Silva 73
Sport_Club_Corinthians_Paulista 68
Estados_Unidos_da_América 55
Morangos_com_Açúcar 47
Sport_Club_Internacional 45
Orkut 45
São_Paulo_Futebol_Clube 44
Jesus 41

Algumas variações:

Mais revertidas do mês de julho de 2007 (meu dump é de 23 de agosto, por isso usei julho):

Título Número de reversões
Sete_Pecados 9
Lista_de_clássicos_do_futebol 5
Minas_Gerais 4
Salvador_(Bahia) 4
Seleção_Brasileira_de_Futebol 3
São_Paulo_Futebol_Clube 3
Taça_Libertadores_da_América_de_2007 3
Da_Cor_do_Pecado 3
Brasil 3
Bahia 3

Vou continuar "brincando" par aobter as porcentagens em relação a edits válidos, e outras sugestões dadas.--girino 21h19min de 8 de Setembro de 2007 (UTC)


As porcentagens não dizem muita coisa! As páginas com procentagem altas são páginas com 3 edições que foram vandalizadas uma única vez:

Título número de reversões Total de edições porcentagem de reversões
Pedagogia_da_libertação 2 6 33.3333
Anonimamente 1 3 33.3333
Pinto_(medida) 1 3 33.3333
Ave,_Palavra 1 3 33.3333
Análise_Morfológica 1 3 33.3333
Submundo 1 3 33.3333
CEFET-PA 1 3 33.3333
Amor_de_Salvação 1 3 33.3333
Igreja_de_Nossa_Senhora_de_Fátima 1 3 33.3333
Assassinato 1 3 33.3333

--girino 22h19min de 9 de Setembro de 2007 (UTC)


Ter dados sobre as mais revertidas (total e por mês) já é um excelente começo. Lijealso ? 22h39min de 9 de Setembro de 2007 (UTC)

Pode-se já pensar em ter a página Wikipedia:Páginas mais vandalizadas ou algo que o valha? Lijealso ? 22h41min de 9 de Setembro de 2007 (UTC)

Podemos, amanhã pela manhã, com menos sono, redijo um esboço da página (com uma introdução, tabelas das mais vandalizadas no mês, no ano e desde o início do projeto, e por fim uma seção "técnica" explicando a obtenção dos dados). --girino 02h37min de 10 de Setembro de 2007 (UTC)

Identifiquei um "erro" na consulta: Ela só pegará os comentários escritos todos em minúsculas. Vou alterar e refazer os quadros a noite. --girino 17h35min de 10 de Setembro de 2007 (UTC)

De qualquer maneira a página está com óptimo aspecto. Um pormenorzinho aqui e acolá ficará no ponto. Vou ver encontro, nos próximos tempos, concentração (o ambiente na wiki não tem andado muito bom) para ver a questão dos tipos de vandalismo. Lijealso ? 21h39min de 10 de Setembro de 2007 (UTC)

  • Corrigi o erro que tinha percebido mais cedo e refiz as tabelas. Esqueci de desconsiderar as diferenças entre minúsculas e maiúsculas, por isso os resultados estavam muito baixos. Agora temos resultados mais razoáveis. Inclusive agora os resultados percentuais são mais significativos, o quadro abaixo mostra as páginas com maior percentual de vandalismo desde o início do projeto:
Título número de reversões Total de edições porcentagem de reversões
Célula_fotoelétrica 10 16 62.5
Cia._Truks 12 24 50
Europa_do_Norte 4 8 50
Sandwich_do_Sul 4 8 50
Fortim_de_São_Tiago_da_Nova_Lisboa 3 6 50
Luís_XIV 3 6 50
Marcala 3 6 50
Gregório_de_Nazianzo 1 2 50
4 9 44.44
Poupança_financeira 4 9 44.44
Matheus 3 7 42.86
Toth 3 7 42.86
Celso_Charuri 57 136 41.91
Árvore_filogenética 15 36 41.67
Publicidade 5 12 41.67
Puta 48 120 40
Tomazetti 6 15 40
Capitania_de_Santa_Catarina 4 10 40
Gang_Bang 4 10 40
Gisiel 4 10 40
  • A página Usuário:Girino/Páginas mais vandalizadas pode ser movida para o domínio wikipédia assim que acharem que ela está pronta. Os erros estão corrigidos. Fica ainda a pergunta: vale a pena incluir as tabelas com as páginas com maior percentual de vandalismo (como o exemplo acima)?

Abraços, --girino 02h42min de 11 de Setembro de 2007 (UTC)

tempo de reversão editar

Lembrei-me de uma coisa que fizeram na en... um estudo de quanto tempo um vandalismo demorava a ser revertido. Analisa-se não só a média como a mediana (por causa dos casos muito extremos que distorcem os resultados). Não sei como isso se faz :S vou ver se encontro o link. PatríciaR msg 17h44min de 11 de Setembro de 2007 (UTC)

Creio que o tempo de reversão precisa ser medido "manualmente". Entretanto posso tentar medir "automaticamente" o tempo entre a reversão e a última edição na mesma página. --girino 18h00min de 11 de Setembro de 2007 (UTC)

Evolução do vandalismo ao longo do tempo editar

Montei uma planilha e uns gráficos com a evolução do vandalismo (ou melhor, do numero e reversões) ao longo do tempo. Publiquei no google documents (os gráficos do excell ficaram um pouco mais bonitos, mas o google documents é melhor para compartilhar):

Abraços, --girino 19h11min de 11 de Setembro de 2007 (UTC)

As imagens geradas no excell (que não puderam ser geradas no google docs porque ele não provê escala logarítmica nem escalas diferentes para cada linha do gráfico) estão no meu site:
Nelas podemos ver que o vandalismo cresce mais rápido que a wikipédia. (Apesar de ter proporções ainda bem pequenas).
Meu próximo passo, a menos que mais alguém tenha sugestões, é comparar esta evolução com a de outras wikis (infelizmente não tenho espaço suficiente em disco para analizar os dumps da wikipédia em inglês).
--girino 20h04min de 11 de Setembro de 2007 (UTC)

O que a wiki it tem que nós não temos ?? editar

Comecei a levantar dados de vandalismo para outras wikis, começando pela em inglês, depois em espanhol e por fim cheguei na italiana.

Enquanto nossos níveis de vandalismo estão entre 3% e 5% (aparentemente estáveis) das edições, os da wiki en estão entre 4% e 6% (e aparentemente caindo) e os da wiki es entre 5% e 7% (e aparentemente crescendo), os da wiki em italiano estão entre 1,5% e 2,5% e aparentemente caindo.

Ficam aqui minhas perguntas, se mais alguém que edita esta página conhece a wiki em italiano:

  • O que eles tem que nós não temos?
    • Eles tem alguma forma de combater o vandalismo melhor que as nossas?
    • Ou é um fenômeno "cultural" da wiki deles?
    • Ou eu que errei as contas?

--girino 20h37min de 19 de Setembro de 2007 (UTC)

Pra ilustrar, fiz gráficos comparativos das wikis pt, en, es, fr e it:
--girino 18h20min de 20 de Setembro de 2007 (UTC)

Vale apena transformar este "grupo" num wikiprojeto? editar

Olas,

Nosso pequeno grupo (que nem sei se ainda tem alguém nessa discussão além de mim mesmo) precisa crescer pra podermos conseguir fazer algo além do básico (a contagem simplória de páginas vandalizadas que eu fiz).

Vocês acham que vale a pena transformar isto num wikiprojeto?

Abraços, --girino 14h27min de 26 de Setembro de 2007 (UTC)

P.S.: quem ainda estiver "ativo" por aqui, deixe o nome na seção "membros" da página.

Regressar à página do utilizador "Girino/Estudos sobre o vandalismo".