Wikipédia Discussão:Filtro de edições/Análise


Último comentário: 29 de setembro de 2013 de Helder.wiki no tópico Análise estatística dos dados

Análise de logs

Durante esta semana estive observando os logs dos filtro referentes às páginas novas, o 2 e o 6. Os resultados podem ser vistos em Usuário:Daimore/Análise de logs.

Com isso pude ver que ambos os filtros estão impecáveis, e os problemas que tinham já foram consertados. Gostaria de saber o que pensam dessa iniciativa. É uma forma de centralizar a verificação de falsos positivos e da utilidade do filtro e de deixar claro que há alguém fazendo essas verificações periodicamente. Não sei até que ponto isso é útil e pode ser feito por mais pessoas. Talvez seja o caso de analisar apenas os logs a partir da última edição em um filtro, a fim de diminuir o trabalho de verificação.

Também aproveito pra perguntar se é possível - ou viável - já implementar a opção de "Impedir o utilizador de realizar a ação em questão", contanto que haja alguém observando os logs periodicamente. Nesses casos teríamos evitado o ímpeto de algumas contas de ataque e a criação de muitas páginas impróprias. Boa parte dos vandalismos óbvios em artigos novos vem sendo detectado por esse filtro, e eu estou sempre procurando novas maneiras de detectar artigos novos fora do escopo do projeto. Daimore msg 18h51min de 30 de abril de 2009 (UTC)Responder

Aproveitando: sei que o Lechatjaune está procurando maneiras de incluir vários filtros em um só; seria interessante ter o filtro 7 adicionado ao filtro 6. Páginas novas com conteúdo ofensivo são claramente impróprias. Daimore msg 18h57min de 30 de abril de 2009 (UTC)Responder
Apesar do atraso, eu fiz isso. Não fiz antes porque estava testando o filtro 7. Lechatjaune msg 15h15min de 23 de junho de 2009 (UTC)Responder

Script (experimental)

Alguém já conseguiu ver este colorido verde/vermelho que o Helder implementou? Aqui tá tudo na mesma...OTAVIO1981 (discussão) 18h15min de 12 de julho de 2013 (UTC)Responder

Já limpou o cache do navegador? Confira se a página de JavaScript que está carregando já contém o texto "addCSS" (que foi incluído nessa atualização recente). Depois abra o registro de um período ou filtro específico (exemplo) para o qual saiba que já verificamos alguns casos. Helder 19h42min de 12 de julho de 2013 (UTC)Responder
Eu jurava que tinha limpado o cache mas pelo visto, não. Agora tá funcionando, vlw!!OTAVIO1981 (discussão) 19h51min de 12 de julho de 2013 (UTC)Responder

Análise de filtros.

Deixo abaixo a minha análise da situação dos filtros que tenho verificado regularmente:

  • 56 (Branqueamento por novo editor): finalmente passou para o modo avisar e está quase 100% analisado. Tem impacto positivo na redução de vandalismo.
  • 66 (artigo mínimo 1): Não apresentava problemas mas foi verificado de todo jeito. Acredito que seja possível fazer um acompanhamento por amostragem.
  • 53 (artigo mínimo 2): Já está maduro o suficiente para ter sua faixa de detecção (entre 30 e 50) alterada. Não houve falsos positivos nas edições que foram etiquetadas e a amostragem dos avisos indica que funcionou bem. Minha sugestão é atualizar o 66 para detectar menor que 50 e passar este para 50 a 70. Poderia continuar com o modo aviso/etiquetar.
  • 67 (artigo mínimo 3): Semelhante ao 53, também está maduro mas houve 4 falsos positivos "na dúvida". Como o 53 funcionou bem, este poderia passar para a faixa de 70 a 80 mas manter no modo etiquetar.
  • 70 (xingamento específico): Funcionou bem nos 50 disparos que analisei. Acredito que deveriamos buscar nas reversões do sale e de reversores casos em que o filtro não foi disparado para eventualmente melhorá-lo.
  • 83 (PN mínima em outros domínios): Pessoalmente, acho que seria proveitoso realizar a fusão com o filtro 66 mas por ter peculiaridades específicas não ficava mal manter em separado e no modo avisar.
  • 38 (Sequência longa de caracteres): muitos falsos positivos de predefinições. Precisa ser melhorado e acompanhado por mais tempo.
  • 64 (PN em Maiúscula) e 52 (PN sem espaços): Todas as etiquetagens foram eliminadas em ER. Sugiro fazer amostragem dos avisos para certificar que não existem falsos positivos e mudar para o modo desautorizar.

Para o momento é só. A medida que estes forem alterados será possível analisar outros filtros e começar a fuçar as MRs buscando por padrões de vandalismos.OTAVIO1981 (discussão) 12h17min de 17 de julho de 2013 (UTC)Responder

Como fazemos para mudar essas coisas para desautorizar (ou avisar, se for o caso)? Só discutir aqui está bom, ou precisa levar pra esplanada já que isso parece mais amplo (decisão da comunidade sobre o que desautorizar, e não apenas questões técnicas de filtro)? Rjclaudio msg 14h05min de 25 de julho de 2013 (UTC)Responder
Assumindo que todo filtro deve passar pelas etapas de "apenas registrar" e "avisar" antes de passar a "impedir", considero prudente que a comunidade decida se a versão atual de um filtro está em condições de impedir edições (em vez de apenas avisar). Mas acho que a ativação de avisos para filtros que raramente[carece de definição] tenham falsos positivos pode ser feita com menos burocracia se o tipo de edição em questão é claramente vandalismo (ou "não construtiva"). Helder 15h10min de 26 de julho de 2013 (UTC)Responder
Levei pra esplanada: Wikipédia:Esplanada/propostas/Dificultar a criação de artigos mínimos (26jul2013). Rjclaudio msg 16h41min de 26 de julho de 2013 (UTC)Responder

Estatísticas

Edições não apagadas

Talvez seja necessário um esclarecimento melhor desta coluna. Pelo que entendi, quando se refere ao filtro 67 (criação de artigos mínimos, não avisa e não impede) as 87 ocorrências podem ter sido efetivamente salvas (consegui apurar que 55 foram salvas e posteriormente eliminadas em ER) mas vieram a ser apagadas resultado em zero nesta coluna. Porém para um filtro de edição (para artigos que já foram criados e estão recebendo novas edições) como por exemplo o filtro 5 (Uso excessivo de maiúsculas, não impede e avisa) as 29 edições salvas são em artigos que não serão apagados. Em outras palavras, o que quero dizer é que o filtro 67 teoricamente estaria melhor pois tem zero edições permanecidas enquanto o 5 tem 29 edições. Porém, o filtro 67 na verdade deu mais trabalho pois envolveu 87 salvamentos que posteriormente receberam 55 tags de ER e foram eliminados enquanto o 5 apenas 29 reversões. OTAVIO1981 (discussão) 20h48min de 23 de julho de 2013 (UTC)Responder

Aquela coluna é obtida analisando o que há no parâmetro "revid" de cada um dos registros do filtro obtidos pela API. Pelo que vi há três possibilidades para o "revid":
  1. É uma string que contém o número de uma revisão (exemplos: 1359548, 1359542)
  2. É uma string vazia (exemplos: 1359361, 1354720)
  3. Não é definido (exemplos: 1359547, 1359546)
Mas não está claro para mim quando é que "revid" assume cada um deles. Se um registro se enquadra em um dos dois primeiros casos, ele está sendo considerado naquela coluna "Edições salvas". Helder 14h07min de 25 de julho de 2013 (UTC)Responder

Filtros eliminados

Nas estatísticas está aparecendo os filtros eliminados / não ativos. Não é melhor retirar eles da tabela? Rjclaudio msg 00h47min de 29 de julho de 2013 (UTC)Responder

Script

Como instala o script para atualizar essas estatísticas? Rjclaudio msg 15h04min de 1 de agosto de 2013 (UTC)Responder

Criei uma seção "Scripts", com o código que pode ser usado para executar o script. Aproveitei para atualizar a página com os dados disponíveis no momento. Helder 15h50min de 1 de agosto de 2013 (UTC)Responder

Análises não detectadas

Várias análises do filtro 38 (link) não estão sendo detectadas e exibidas em verde no registro (link). As que estão apenas como correto aparecem, mas as que estão com comentário "Filtro 10 - xxx" não aparecem. Rjclaudio msg 18h52min de 18 de agosto de 2013 (UTC)Responder

Em algum momento devo ter escolhido uma expressão regular inadequada para detectar os registros. Acredito que esta alteração resolve o problema (e remove os itens duplicados conforme forem feitas novas análises). Limpe o cache para usar a nova versão do script. Helder 21h44min de 18 de agosto de 2013 (UTC)Responder

Helder, de novo com problema. Alguns registros de filtro não estão aparecendo as análises, como os filtros 38, 39, 56, 119, mas outros aparece, como o 85. Rjclaudio msg 17h52min de 21 de agosto de 2013 (UTC)Responder

Também notei um outro problema (mas não poderei resolver nenhum deles agora). Helder.wiki (discussão) 18h21min de 21 de agosto de 2013 (UTC)Responder
Passando para informar que por aqui nenhum está funcionando o fundo verde. Rjclaudio, talvez possamos pensar num plano de contigência focado em alguns poucos filtros de modo que seja possível dar continuidade ao trabalho. OTAVIO1981 (discussão) 19h12min de 21 de agosto de 2013 (UTC)Responder
Rjclaudio e OTAVIO1981, eu corrigi o segundo problema e isso parece ter resolvido o primeiro também. Helder.wiki (discussão) 23h36min de 21 de agosto de 2013 (UTC)Responder

Arquivamento

Estatísticas mensais

Acho que está na hora de arquivar essa página, não? Ao menos o mês de junho. Rjclaudio msg 16h26min de 26 de agosto de 2013 (UTC)Responder

Rjclaudio, eu movi as tabelas para as subpáginas /2013/06, /2013/07 e /2013/08, e fiz com que apareça na página principal apenas a tabela do mês atual. Escolhi este formato "ano/mês" pois pode ser conveniente para futuras automações.

Registros analisados

E pra análise dos filtros, se tiver mts registros analisados o script fica mais lento, por demorar de abrir / salvar a página e precisar buscar onde colocar a nova ocorrência na ordem certa? Tive lerdeza com alguns filtros, seria preciso arquivar também? Rjclaudio msg 16h26min de 26 de agosto de 2013 (UTC)Responder

As páginas de registros analisados são um pouco mais complicadas, pois é preciso certificar-se de que as mudanças não exigirão mudanças significativas nos scripts, para lidar com novas chamadas à API. Isso depende, por exemplo, de questões como: o que deveria acontecer se alguém acessar uma lista de registros de uma versão anterior de um filtro (que já foi analisada)? Idealmente deveria continuar aparecendo a indicação de que a avaliação foi feita, certo? Mas dependendo da organização das páginas, pode ficar mais difícil determinar "onde está" a análise (se existir) de cada log. Helder 18h12min de 26 de agosto de 2013 (UTC)Responder
Rjclaudio e OTAVIO1981, acham que seria problemático se as análises fossem agrupadas em subpáginas conforme o número do registro (ou talvez conforme o mês?), em vez de ter uma página para cada filtro? Por exemplo, os registros no intervalo 1360500-1361000 ficariam em uma subpágina /1360500, indiferente de qual filtro fez a detecção (em vez de 500 registros por subpágina, pode-se escolher outra quantidade - há cerca de 600 análises do filtro 56, por exemplo). Helder 12h30min de 27 de agosto de 2013 (UTC)Responder
Por mim não tem problema.OTAVIO1981 (discussão) 12h39min de 27 de agosto de 2013 (UTC)Responder
Lembrei que o Módulo:Filtros também leva em conta a organização atual das páginas, então ele precisaria ser atualizado. Danilo.mac, o que seria necessário? Ter um campo a mais na {{ação}} para informar o número do filtro correspondente a um certo registro? Alguém vê outras opções para a reorganização das páginas? Helder 13h35min de 27 de agosto de 2013 (UTC)Responder
Sim, um campo com o número do filtro é o suficiente para o módulo poder fazer a separação. O único problema que vejo é como o módulo vai saber em que subpágina estão os registros mais recentes, se a separação for feita por mês fica mais fácil. Danilo.mac(discussão) 19h05min de 27 de agosto de 2013 (UTC)Responder
  Concordo. O único problema que vejo em juntar as análises dos filtros em um lugar só é ter conflito de edições. Se analisando sozinho um único filtro já tenho conflito de edições comigo mesmo, imagino se aparecer três analisando (filtros diferentes) na mesma hora. Mas como isso raramente acontece (se é que acontece), não vejo impedimento. Rjclaudio msg 19h33min de 27 de agosto de 2013 (UTC)Responder
Danilo, acho que até podemos separar por mês, mas não teremos garantia de que a página de que cada uma delas ficará pequena, que parece ser o que o Rjclaudio gostaria. Ou será que é viável a estrutura "WP:Filtro de edições/Análise/FFF/YYYY/MM", em que FFF é o número do filtro, YYYY o ano e MM o mês? Helder 21h01min de 27 de agosto de 2013 (UTC)Responder
Um problema de separar por filtro+mês é que alguns filtros, depois da fase crítica (análise para aumentar de nível) só terão poucas análises por mês. Aí teremos muitas páginas de filtro+mês com apenas 4 ou 5 registros.
Mas o ruim de deixar os filtros juntos é ficar difícil olhar todos os comentários feitos sobre as análises de um filtro x, já que na página de registro só fala se a detecção foi correta ou não e não mostra os comentários.
Minha conclusão: todas as opções tem um lado negativo e um lado positivo. Rjclaudio msg 22h15min de 27 de agosto de 2013 (UTC)Responder
Rjclaudio, talvez esta mudança no script ajude um pouco? Confira um exemplo. Helder 14h27min de 6 de setembro de 2013 (UTC)Responder
Rjclaudio, fiz uma alteração simples que deve resultar em alguma melhoria (não muita, mas já é alguma coisa). A ideia é que, assim que abrir a página, o script já vai adiantando a etapa em que ele consulta a página de análises, mas só utilizará o conteúdo obtido se/quando o editor clicar em "Enviar". Helder 20h11min de 14 de setembro de 2013 (UTC)Responder
Tive que reverter, pois fez com que os conflitos de edição deixassem de ser detectados (o que gera edições como esta). Helder 21h59min de 16 de setembro de 2013 (UTC)Responder

Pensei em uma outra opção: a análise de registros dos meses anteriores, seriam organizadas em "WP:Filtro de edições/Análise/<YYYY>/<MM>/Registros#Filtro <FFF>", na qual haveria uma seção por filtro:

WP:Filtro de edições/Análise/2013/06/Registros ... WP:Filtro de edições/Análise/2013/09/Registros
Introdução...
== Filtro 1 ==
*{{Ação|...}}
...
== Filtro 112 ==
*{{Ação|...}}
...
...
Introdução...
== Filtro 1 ==
*{{Ação|...}}
...
== Filtro 119 ==
*{{Ação|...}}
...

Assim, o parâmetro &action=edit&section=<FFF> poderia ser usado nas URLs (exemplo), e de forma análoga nas consultas à API. Se necessário, poderíamos tentar aprimorar essa ideia para usar transclusão de seções em outros lugares. Rjclaudio, Danilo.mac e OTAVIO1981, o que acham? Percebem algum problema que tenha passado despercebido? Helder 14h04min de 15 de setembro de 2013 (UTC)Responder

Criei as páginas de registros dos meses de junho, julho, agosto e setembro, para mostrar como seriam os arquivos das análises já realizadas. Fica bom assim? Helder 16h36min de 17 de setembro de 2013 (UTC)Responder
Rjclaudio, Danilo.mac e OTAVIO1981, o HAndrade (WMF) sugeriu durante o WikiSampa 19 que poderia ser feito um banco de dados de verdade para essas análises que fazemos, no Tool Labs (ptwikis?). Com essa abordagem, o servidor teria que ser capaz de enviar um JSON para ser usado pelo script, o que reduziria bastante o número de bytes transferidos e consequentemente o tempo de espera (eu acho). Então temos essas duas novas alternativas: a que mencionei no comentário acima (alguém viu/pensou a respeito?), e essa ideia do Henrique.
Comentários? Helder 14h35min de 24 de setembro de 2013 (UTC)Responder
Prefiro que seja implementada a solução mais simples possível. Também faço a proposta de arquivar conforme faço na minha PDU, isto é, apaga-se os registros antigos e no cabeçalho deixamos um link para a página antes de ser arquivada quando a página ficar pesada ou ao alterar significativamente o filtro. Podemos até deixar no cabeçalho a quantidade de registros que foram arquivados e quantidades de falsos positivos para fins de estatística. Mais do que isso, não sei. Falta algo? Deste modo, cada filtro fica arquivado do modo mais econômico em sua própria página e creio que com algum esforço seja possível transcluir as informações do cabeçalho (que são enxutas) numa página só com todos os filtros.OTAVIO1981 (discussão) 15h28min de 24 de setembro de 2013 (UTC)Responder
OTAVIO1981, acha que minha sugestão (ano/mês#filtro) seria simples no ponto de vista de quem acessa as páginas só para olhar as estatísticas? Na parte técnica, por enquanto, não percebi complicações, por isso estava pensando em adotá-la.
O que eu não gostei na ideia de usar a forma como arquiva sua PDU é que ela dificultaria o processo usado pelo script para encontrar onde determinado log foi/pode ter sido analisado, para colorir a lista de registros (vide primeiro comentário), e imagino que impediria análises futuras de logs de períodos anteriores - digamos, os da última semana de um certo mês, quando o mês seguinte já tiver iniciado. Helder 15h45min de 24 de setembro de 2013 (UTC)Responder
Sua alternativa é simples o suficiente tanto é que já foi implementada parcialmente, conforme entendi. :-) OTAVIO1981 (discussão) 16h05min de 24 de setembro de 2013 (UTC)Responder
Quanto a ter sido implementado parcialmente: mais ou menos. Só fiz a conversão das análises que já existiam, mas os scripts (de análise e de estatísticas) ainda não lidam com essa estrutura proposta (queria deixar para depois que comentassem, principalmente para evitar problemas inesperados). Helder 16h57min de 24 de setembro de 2013 (UTC)Responder
Uma desvantagem de se manter esse banco de análises só em outro lugar é não podermos editar (tão facilmente) quando precisarmos por algum motivo, como mudar o comentário de uma análise indicando que já foi corrigido, ou editar+colar muitas análises, ou remover (sei lá).
Acho que o modelo ano/mês#filtro está bom. Não tendo conflito de edição ao se analisar dois filtros diferentes (acho que não tem, já que o script edita a seção e não a página, certo?), e não ficando muito pesado (agosto teve 70 kb, menos que muito artigo destacado nosso, e foi um mes de 'alta atividade' nas análises, então está bom) e nem ultrapassando o limite de chamadas de uma função (qual o limite mesmo? fazemos tanta análise assim?), vamos nesse mesmo.
Rjclaudio msg 13h47min de 25 de setembro de 2013 (UTC)Responder
Rjclaudio, hoje em dia os limites aparecem ao mostrar previsão da página inteira (antes da gerrit:53802, era só no código-fonte da página em HTML, em um comentário), abaixo da lista de predefinições utilizadas, sob o texto "Analisador de dados de perfis". A página que criei para o mês de agosto não excedeu nenhum dos limites.
E a ideia é, de fato, que o script edite apenas a seção necessária (deixando a edição de página inteira apenas para o caso de serem salvos registros de mais de um filtro, quando for implementada a possibilidade de fazer análises em massa). Helder 15h25min de 25 de setembro de 2013 (UTC)Responder

Só um obs: nas notificações que recebo desse tópico (ou seria só as do Helder.wiki D​ C​ E​ F?) aparece como se o título da seção fosse "Filtro 119": O Helder.wiki mencionou você na página de discussão Filtro de edições/Análise em "Filtro 119". Há 37 minutos | Ver mudanças . Algo errado aí. Talvez aquele ==Filtro 119== dentro do pré ali na tabela de exemplo esteja confundindo a notificação. Rjclaudio msg 16h05min de 25 de setembro de 2013 (UTC)Responder

Teste: Helder.wiki. Reverta-me (discussão) 16h35min de 25 de setembro de 2013 (UTC)Responder
E não é que é mesmo!? Ficheiro:Smiley emoticons doh.gif.
Helder 16h38min de 25 de setembro de 2013 (UTC)Responder
Informei no bugzilla:54603. Helder 16h50min de 25 de setembro de 2013 (UTC)Responder

Analises em massa

Outra opção para ajudar nas análises seria colocar em um campo uma lista do número dos registros, e um script adicionar todos eles de uma vez só a página, fazendo uma única edição. Alguns filtros são bem rápidos de analisar se estão corretos ou não, e eu demorava mais esperando o script salvar que analisar a ocorrência. Aí fiz pelo excel a formatação e ordenação, e salvei uns 400 análises de uma vez só. Um script ajudaria para esses casos. Rjclaudio msg 16h26min de 26 de agosto de 2013 (UTC)Responder

Que método um editor utilizaria para determinar, de uma só vez, que um lote de centenas de registros tem apenas registros válidos (ou apenas falsos positivos)? Helder 18h17min de 26 de agosto de 2013 (UTC)Responder
Olhando um por um e copiando o número do registro em um editor de texto? Assim que fiz aqui (250), e em algumas outras ocasiões com outros filtros.
Seria melhor ainda se pudesse marcar como "todos os registros entre o registro x e o registro y estão corretos", aí nem precisaria copiar+colar o número de cada um dos registros.
Rjclaudio msg 18h22min de 26 de agosto de 2013 (UTC)Responder
Talvez fosse o caso de colocar uns "(x) correto ( ) incorreto" no início de cada item da Especial:Registro de abusos (sem campo para observações, para não poluir demais a interface), e um botão [Salvar análises] no topo? O editor abriria o registro de abusos, e conforme abrisse cada item em uma nova aba para conferir se foi correto, voltava para a aba da lista e colocava o "(x)" na opção adequada. Quando quisesse enviar as análises, clicaria no botão. Dependendo da organização das páginas de análises (ver tópico sobre o arquivamento), e de ser uma lista de registros específica de um filtro ou não, isso exigiria apenas uma edição ou uma para cada filtro (cada edição salvaria o status de um "lote" de registros na subpágina correspondente, em vez de fazer edições individuais para cada registro). Helder 12h30min de 27 de agosto de 2013 (UTC)Responder
Essa opção está boa para mim. Possível de fazer? Esses filtros de ofensas tem bastante ocorrência, e dá para olhar se é correto ou não rapidamente. Fazendo falta isso. Rjclaudio msg 19h27min de 1 de setembro de 2013 (UTC)Responder
Não sei se é possível implementar esta análise em massa mas realmente faz falta a medida que nos afastamos da atividade para fazer outras coisas. OTAVIO1981 (discussão) 16h13min de 24 de setembro de 2013 (UTC)Responder
Eu diria que é possível, mas que deveria ser feita depois da reorganização dos "arquivos", para não ter que ser feito duas vezes... Helder 16h59min de 24 de setembro de 2013 (UTC)Responder

Análise estatística dos dados

Rjclaudio e Helder.wiki. Não lembro onde fiz o comentário anterior a respeito deste assunto mas como aqui parece ser o local mais apropriado vou dar continuidade ao tema. A tabela abaixo é um resumo que explico adiante:

Julho ' Agosto
Dia Impedimentos Ações % Dia Impedimentos Ações %
1 594 906 65,6% 1 423 624 67,8%
2 630 974 64,7% 2 430 618 69,6%
3 558 859 65,0% 3 336 492 68,3%
4 508 829 61,3% 4 412 593 69,5%
5 441 682 64,7% 5 480 757 63,4%
6 398 634 62,8% 6 543 799 68,0%
7 471 854 55,2% 7 556 813 68,4%
8 619 897 69,0% 8 532 859 61,9%
9 633 1006 62,9% 9 419 581 72,1%
10 568 911 62,3% 10 349 504 69,2%
11 539 794 67,9% 11 348 528 65,9%
12 516 810 63,7% 12 550 818 67,2%
13 342 575 59,5% 13 560 893 62,7%
14 421 661 63,7% 14 548 928 59,1%
15 609 1001 60,8% 15 796 1085 73,4%
16 660 1159 56,9% 16 445 620 71,8%
17 445 693 64,2% 17 385 562 68,5%
18 530 1281 41,4% 18 408 614 66,4%
19 642 1517 42,3% 19 545 791 68,9%
20 427 814 52,5% 20 609 874 69,7%
21 392 647 60,6% 21 563 801 70,3%
22 523 764 68,5% 22 514 778 66,1%
23 557 938 59,4% 23 480 669 71,7%
24 590 936 63,0% 24 367 525 69,9%
25 651 1146 56,8% 25 376 507 74,2%
26 569 949 60,0% 26 605 846 71,5%
27 472 708 66,7% 27 590 893 66,1%
28 506 814 62,2% 28 551 830 66,4%
29 721 1213 59,4% 29 555 802 69,2%
30 509 742 68,6% 30 565 791 71,4%
31 442 637 69,4% 31 389 546 71,2%

A coluna "ação" indica se houve uma edição correspondente do filtro e a coluna "impedimento" indica se dentre os filtros disparados por uma edição (mesmo timestamp, artigo, editor), se houve um aviso ou desautorização desta. Acho que deste modo é possível avaliar a eficiência dos filtros pois o ideal ao meu ver é termos os filtros avisando ou desautorizando o máximo possível visto que estão sendo acompanhados para detectar somente edições de má-fé. Então, lendo novamente a tabela, De todas as 546 ações de má fé no dia 31/08, somente 389 foram impedidas de alguma forma e 157 foram efetivamente salvas. Talvez seja interessante comparar estes valores diários com a quantidade de edições no dia e as quantidades de reversões no dia para saber qual a ordem de grandeza dos filtros no combate ao vandalismo. HAndrade (WMF) e Ocastro, tem como vocês gerarem estes dados? Voltando a tabela, vemos um aumento na quantidade de edições de má fé que os filtros impedem. Vou tentar gerar os dados de outros meses para me certificar que não é uma sazonalidade dos dados. OTAVIO1981 (discussão) 13h20min de 25 de setembro de 2013 (UTC)Responder

OTAVIO1981, se entendi bem os dados que você precisa agora são os números diários de edições e reversões, certo? HAndrade (WMF) (discussão) 13h25min de 25 de setembro de 2013 (UTC)Responder
Entendeu corretamente, HAndrade (WMF). Algum comentário/sugestão a respeito do que fiz? OTAVIO1981 (discussão) 13h29min de 25 de setembro de 2013 (UTC)Responder
Excelente, OTAVIO1981! Esse levantamento inclui todos os filtros ativos? Como vocês conseguem acompanhar apenas para detectar edições de má-fé? Talvez já tenham explicado em algum lugar que eu não tenha visto; se for o caso, fico feliz com o link. --Oona (discussão) 15h41min de 25 de setembro de 2013 (UTC)Responder
Não fui notificado, Ocastro. P1) O levantamento inclui todos os disparos dos filtros no período em análise. Se dispararam, é porque estavam ativos então a resposta é sim. P2) Boa pergunta. Respondendo rapidamente diria que todo filtro é projetado para detectar edições que precisam ser desfeitas/eliminadas (má fé) mas não é necessariamente para isto. Temos por exemplo o filtro 75 (salvamento sucessivo) que não tem ação alguma e no máximo rende um recado na PDU do sujeito. Tinha também o filtro 113 (página nova sem referência) que não tinha ações e sequer implicou numa ação da comunidade. Talvez fosse melhor ver na lista de filtros quais se dedicam exclusivamente ao combate de vandalismo e refazer a análise só com estes. O filtro 3 (conta nova removendo conteúdo) e o 68 (possivelmente ofensivo) são alguns que lidam com o benefício da boa fé. Mas aí seria uma pesquisa mais focada no vandalismo (que é a intenção, diga-se) do que uma genérica de filtros. OTAVIO1981 (discussão) 17h21min de 25 de setembro de 2013 (UTC)Responder
Obrigada, OTAVIO1981, pela explicação e pelo aviso de que não recebera a notificação. Imagino que agora receberá. É que eu, por erro, estava logada na conta pessoal, cujas preferências ainda informavam gênero (e a ferramenta não está funcionando para quem define gênero, com bug já registrado). Com exceção dos dias 11 e 14, o índice de ações realmente foi maior em agosto do que em julho, o que mostra que o trabalho de vocês nas melhorias dos filtros está surtindo efeito.--Oona (WMF) (discussão) 17h54min de 25 de setembro de 2013 (UTC)Responder
Sim, nos gráficos que gerei por aqui é possível notar uma diferença a partir de julho. Ainda não sei qual a melhor ferramenta para medir esta melhoria, alguém tem sugestões? E principalmente, o quanto ainda podemos melhorar? Tenho analisado o histórico de reversões do Salebot e de alguns reversores e a quantidade de vandalismo que poderia ser filtrada ainda é significativa então ainda há trabalho pela frente. Com os dados de reversão que o Henrique vai disponibilizar creio que seja possível ter uma idéia pois reversões de robôs e reversores muito ativos são das que mais contém erros básicos pois provém do monitoramento de mudanças recentes. OTAVIO1981 (discussão) 19h20min de 25 de setembro de 2013 (UTC)Responder
Ocastro, fiz novamente a consulta retirando os filtros 3 e 75. Segue a tabela com os filtros e sem os filtros. A diferença é muito pequena e ainda é preciso aprimorar a análise.OTAVIO1981 (discussão) 18h27min de 26 de setembro de 2013 (UTC)Responder
Beleza, OTAVIO1981! Tirei a variação das consultas com e sem os filtros 3 e 75 só de julho e agosto e publiquei aqui. No geral, as variações não são grandes - à primeira vista me pareceu que orbitariam em torno de 4% de forma consistente, mas em alguns dias do mês as variações são maiores. Inclusive, no dia 07, tem uma variação enorme. Se entendi bem, isso é bom. Significa que avaliando os filtros que impedem edições de má-fé o resultado é bem maior naquele dia do que a média com os demais. É isso mesmo?--Oona (WMF) (discussão) 15h27min de 27 de setembro de 2013 (UTC)Responder
A propósito, eu não consigo editar os filtros (e nem sei se me sinto segura para isso). Mas onde posso dar sugestões de acréscimo de expressões para cada um dos filtros? Há variações que não vi neles. Outra coisa: desculpe se isso já foi respondido em outro lugar, mas por que alguns filtros tratam das mesmas coisas mas estão separados (ex. conteúdo ofensivo - 18, 7, 112 e 70)? --Oona (WMF) (discussão) 15h27min de 27 de setembro de 2013 (UTC)Responder
Ocastro, a discussão de cada filtro passou a ser feita em uma subpágina específica, cujo título é do tipo "Wikipédia:Filtro de edições/N" (exemplo: Wikipédia:Filtro de edições/56). Há mais detalhes na Wikipédia:Filtro de edições/Solicitações#Organização do espaço. Helder 16h32min de 27 de setembro de 2013 (UTC)Responder
Ainda não temos um valor definido (pelo que me recordo), mas isso já foi mencionado brevemente pelo Kleiner em Wikipédia Discussão:Filtro de edições#Passos para criação de filtros e pelo Otávio em Wikipédia:Filtro de edições/Solicitações#Impacto das melhorias realizadas. (e possivelmente houve mais alguma discussão sobre isso, mas não lembro onde). Helder 16h32min de 27 de setembro de 2013 (UTC)Responder
Entendeu corretamente a questão das variações. Em específico neste dia 7 houve muitos salvamentos no artigo UFC 162 que "diluíram" a eficiência geral. Ver aqui. É provável que exista outros casos o que só reforça que é melhor excluir mesmo estes dois filtros. Talvez o 68 que é de "potencialmente ofensivo" também deva ser excluído daqui pra frente pois ele agora funciona com uma margem considerável de detecções de boa fé. Sim você não pode editar filtros (só admins podem) mas pode relatar os casos mais frequentes em expressões problemáticas. Já fiz uma lista e o Helder está criando uma ferramenta para tentar montar uma base de dados maior a partir do salebot. A separação é feita por duas razões: ajuda na organização (o 112 é de testes de novas expressões, o 68 lida com expressões que podem ser de boa fé, e o 70 e 18 para exclusivamente de má fé) e impede que o filtro seja desativado automaticamente (se um filtro ultrapassar 5% num determinado período com X disparos, por questões de segurança é desativado). Então, dito isso, os filtros tem uma limitação e ainda não sei o quanto podemos alcançar e o investimento para chegar lá. Não pretendia escrever para o Correio enquanto outras questões não fossem resolvidas: aonde queremos chegar e de que maneira a comunidade pode ajudar. OTAVIO1981 (discussão) 16h25min de 27 de setembro de 2013 (UTC)Responder
[conflito entre edições] O Kleiner separava os filtros pelo que explicou em Wikipédia Discussão:Filtro de edições#Fusão de filtros. Mas houve outro tópico mais recente sobre isso: Wikipédia:Filtro de edições/Solicitações#Filtros 06, 07, 18, 68 - Ofensas. Helder 16h32min de 27 de setembro de 2013 (UTC)Responder
Ocastro, a ferramenta que o OTAVIO1981 mencionou permite-nos obter tabelas com as "palavras mais revertidas". Veja, por exemplo, as palavras mais comuns nas últimas edições revertidas pelo Stuckkey e pelo Salebot. Helder 17h43min de 29 de setembro de 2013 (UTC)Responder

Nessas análises não esquecer de considerar os erros na edição dos filtros, tanto pros filtros que deixam de detectar algo (como o de texto após cat, meses sem detectar nada), como filtros que detectam tudo (texto após cabeçalho, 300 ocorrências indevidas em 12 horas, do dia 15 para 16 de agosto). Rjclaudio msg 19h04min de 27 de setembro de 2013 (UTC)Responder

Bem lembrado, cláudio! Acho que vale a pena mantermos uma lista temporária dos filtros que quebraram para facilitar os expurgos. Remover os filtros que são usados para testes também é conveniente pois o 112 atualmente é somente para isto. Na próxima semana vou tentar automatizar estas estatísticas e se conseguir gero a tabela novamente.OTAVIO1981 (discussão) 22h18min de 27 de setembro de 2013 (UTC)Responder
Voltar à página de projeto "Filtro de edições/Análise".