Usuário(a):OTAVIO1981/propostabloqueiofiltro

Pessoal, o texto é longo mas peço por favor a atenção de todos.

Os filtros de edições tem uma funcionalidade que permite o bloqueio por um determinado período de tempo. Esta é uma opção interessante para o combate ao vandalismo desde que seja utilizada com muita cautela. Além de ser necessário uma regex muito bem configurada, isto é, sem falsos positivos o bloqueio deve ser feito por um tempo reduzido de modo a não atrapalhar outros editores. Também é importante ressaltar que o bloqueio do filtro de edições não renderá um aviso na PDU do editor logo sem possibilidade dele saber como pedir revisão. Os registros de bloqueio do filtro estarão disponíveis numa pseudo-conta denominada "Filtro de abusos" onde será possível avaliar se está bloqueando quem é devido. Observem, porém, que o filtro efetuará bloqueios em contas sem edições mas que dispararam esta ação devido ao número de tentativas de vandalizar. Ao acessar o registro de abusos, será possível ver estas tentativas.

Dito tudo isso, gostaria de propor a ativação desta funcionalidade para experimento. Minha intenção é utilizar o recurso com uma variação do filtro 10 (caracteres repetidos) somente para o bloqueio de IPs por um período de 1 ou 2h. A partir da implementação bem sucedida do novo filtro, o 10 seria utilizado somente para contas não confirmadas com a ação de não autorizar. Tive o cuidado de reavaliar o filtro (ver registros) com somente 2 falsos positivos em 200 registros analisados. Porém como eram contas não confirmadas, não seriam afetadas pelo aqui proposto.

Este filtro teve mais de 14 mil disparos em 2016 (ver consulta), realizados por IPs, num total de 6263 IPs diferentes em dias diferentes (se o mesmo IP tentou em dias diferentes, apareceria duas vezes mas não achei nenhum caso). Aproximadamente 30% destes IPs consegue editar no mesmo dia que disparou o filtro (infelizmente perdi a tabela com estes dados e é uma consulta demorada então vão ter que ficar com a minha palavra) ao aprender o funcionamento do filtro e cometendo um vandalismo que não estamos preparados para lidar. Já analisei todos os registros com mais de 9 disparos (ver registros) com somente 1 falso positivo nos 129 casos. Então, se o filtro estivesse configurado no início do ano teria realizado 129 bloqueios e impedido no mínimo 87 edições. Minha intenção é analisar mais casos desta última página (conto com a preciosa ajuda de interessados, favor contatar minha PDU) de modo a reduzir o número de disparos para efetuar o bloqueio.

Infelizmente não consegui estimar qual o tempo mais eficiente de bloqueio então tomei por base um número que o Stuckkey me passou faz bastante tempo. Tomando por princípio o menor tempo possível para atrapalhar edições de boa fé e considerando que a ferramenta é automática creio ser um bom ponto de partida. Se alguém tiver ideias de como estimar este tempo, é só dizer que podemos tentar analisar.

Para quem leu até aqui, deve ter notado que tive a preocupação de fundamentar a proposta com alguma ciência baseada nos dados analisados. Acho importante seguir esta linha e estou aberto a sugestões e críticas dos números que levantei. Apesar do ganho da proposta ser relativamente pequeno (87 bloqueios de IPs que editaram em 2016), o espírito é fundamentar uma metodologia que permita apertar o filtro e implementar futuramente em outros.

Quem tiver dúvidas, é só falar que vou tentar esclarecer. Pretendo escrever um guia passo a passo para interessados em aplicar o recurso em outros filtros (estimar o tamanho das amostras a analisar, como lidar com FPs, os cálculos mais importantes, etc).

Agradeço a atenção, OTAVIO1981 (discussão) 20h43min de 13 de novembro de 2016 (UTC)

Eu creio que é uma idéia muito boa se bem-aplicada, e creio que o tempo de bloqueio deveria ser entre dez minutos e meia hora, pois já desestimularia usuários de má-fé, e tempos superiores já é fácil mudar de IP, o meu mesmo, que é estático, a não ser se desligo o modem por uns 10 minutos. —(Carlos Emanuel) ^(D) ^(C) 20h55min de 13 de novembro de 2016 (UTC)

Quanto a tempo de bloqueio, o mais eficiente sem dúvidas é pelo período de um dia. Como eu já disse outra vezes a outros usuários, assim que tornou-se possível o bloqueio de vândalos por reversores, eu os bloqueava por duas, seis ou doze horas. Porém, vi que isso era ineficiente em muitos casos, pois por várias vezes o IP acabava voltando horas depois. A partir de então comecei a bloquear sempre por um dia. Ainda hoje vejo editores bloqueando IPs por alguns minutos ou horas, e esse mesmo IP voltando a vandalizar mais tarde.
Quanto a atrapalhar editores bem intencionados, isso é utopia. Veja bem: qual a probabilidade de um bloqueio ser efetuado a um IP X e em menos de 24 horas esse mesmo IP passar para as mãos de outra outra pessoa, dessa pessoa acessar a Wikipédia, e além de acessar, resolver fazer uma edição bem intencionada? Simplesmente essa possibilidade é quase inexistente. Portanto, bloqueio por um dia é o mais adequado nos casos de vandalismo de um IP que nunca editou ou cujo o último vandalismo tenha sido a muito tempo. !Silent (discussão) 21h32min de 13 de novembro de 2016 (UTC)

Esse é o problema. Cada um quer rifar um número sem se prestar a analisar a melhor condição. Deixar a discussão ir por esse caminho e tudo se perde com o pessoal achando que pode bloquear com 1 disparo mesmo sem saber o impacto.OTAVIO1981 (discussão) 23h49min de 13 de novembro de 2016 (UTC)

Com um disparo eu não concordo não, mas com pelo menos dois ou três pra mim já dá. Claro, depois de já testado tudo e eliminado os falsos positivos. !Silent (discussão) 23h54min de 13 de novembro de 2016 (UTC)

Conversei ontem com o OTAVIO1981e me interessei em participar desse projeto. Acho que podemos sim modelar uma metodologia e realizarmos experimentos formais testando em alguns recortes temporais distintos tempos de bloqueios progressivos, enquanto medimos a taxa de retorno dos IPs, a qualificação das edições seguintes ao bloqueio e sua distância temporal do mesmo. Acho que podemos abrir uma página para definirmos um cronograma e centralizarmos todo esse mapeamento de dados. Agora comentando algumas preocupações apresentadas acimaː sobre os avisos nas PDU, podemos criar um robô que leia o histórico do filtro e envie essas mensagens. Sobre o comentário do !Silent de um IP passar para as mãos de outra pessoa, destaco que hoje são MUITO comuns as chamadas redes NAT, onde vários usuários compartilham o mesmo IP. Assim, ao bloquearmos um IP podemos estar bloqueando todo um prédio residencial ou toda uma universidade ao mesmo tempo. Crang115 (discussão) 13h45min de 18 de novembro de 2016 (UTC)

Quanto mais longos forem os bloqueios que se deseja realizar automaticamente, menor deverá ser a taxa de falsos positivos do filtro no qual pretende-se ativar esta ação de bloqueio. Se o bloqueio é "longo" o prejuízo causado por um eventual falsos positivo é muito maior (e menos tolerável) do que se for algo curto. Helder 19h27min de 20 de novembro de 2016 (UTC)

@He7d3r:, fiz alguns levantamentos em relação a este tempo de insistência dos vândalos. Da uma lida na discussão, mas em resumo 99,73% deixa de disparar o filtro após 69 segundos em média. Ou ele aprendeu e vandalizou de outra forma (aproximadamente 30% edita, estou levantando o tempo médio entre as edições), ou ele já desistiu. OTAVIO1981 (discussão) 19h37min de 20 de novembro de 2016 (UTC)

Só quis destacar que me preocupo mais com as vítimas inocentes de um "filtro que bloqueia" do que com os vândalos que ele combateria. Helder 20h14min de 20 de novembro de 2016 (UTC)

Também tenho esta preocupação. Estou analisando os registros e até o momento identifiquei 1 FP e 3 duvidosos em 186 registros. Comentei na discussão desta página sobre o tempo médio do IP editando quando dispara o filtro.OTAVIO1981 (discussão) 20h30min de 20 de novembro de 2016 (UTC)

@OTAVIO1981 Poderia dizer exatamente qual foram esses casos (o 1 FP e 3 duvidosos)? !Silent (discussão) 21h24min de 20 de novembro de 2016 (UTC)

@!Silent:, este IP no dia 29/04 foi o FP. esta edição que pode ser interpretada como "bloqueável", esta auto-revesão não-vandala potencialmente como FP e estas edições no dia 28/03 com alguma experimentação/auto reversão possivelmente como bloqueável. OTAVIO1981 (discussão) 22h07min de 20 de novembro de 2016 (UTC)

@OTAVIO1981 Sinceramente, isso daqui, isso e isso, não são nem de longe duvidosos. Pra mim é caso de bloqueio direto sim e o filtro faria bem em bloquear.
Mas o que eu acho é que o filtro 10 não seria o melhor opção pra se levar em consideração nessas questões de bloqueio, e sim os filtros 18 e 70, que possuem xingamentos e expressões que são claramente vandalismo. !Silent (discussão) 22h27min de 20 de novembro de 2016 (UTC)

┌────────────────────┘@!Silent:, já marquei os três como bloqueável. Conforme já disse, minha preocupação é criar uma metodologia para passar um filtro para modo bloqueio. Se a proposta der certo, pode ser aplicada para qualquer um. Eu não comecei pelo 18 e 70 porque a)Você está mexendo neles e eu só posso analisar a regex atual para os registros que ela disparou. Ao inserir uma palavra nova eu "perco" o histórico pois assumir um baixo índice de FP para a palavra nova com o histórico seria um erro. b) Em resumo, cada palavra seria uma analise independente. Ao achar um "VSF" válido num caso, eu teria que saber o histórico de incidência para saber se tá baixo ou não. Não podemos partir de pressupostos (tipo, toda palavra X é vandalismo) pq senão todo o trabalho, pra mim, perde o sentido.OTAVIO1981 (discussão) 22h43min de 20 de novembro de 2016 (UTC)

@OTAVIO1981 Entendi. Quanto a eu mexer no filtro 18 e 70, eu só farei isso agora se for para adicionar uma expressão que esteja ligada a outra que já está no filtro. Novas expressões eu adicionarei num novo filtro.
Quanto aos pressupostos, eu acho que tem sim palavras ou expressões que podem ser consideradas sempre como vandalismo. Como exemplo no filtro 18 nós temos: AROMBAD[AO@]+, B(?:AITOL(?:A|AO|INHA), G[A@]+Y[UÚÙ]CHO e COMI (?:A M[AÃÂÁÀÄ]E|O PAI|(?:O )?CU|VO[CÇ][EÈÉÊẼê]). Não consigo imaginar nenhum caso que alguma dessas expressões seria utilizada de maneira produtiva em qualquer página da Wikipédia.
Acho que poderia ser criada um novo filtro então, só com esses termos que evidentemente são vandalismo e partir dele ir fazendo as análises de cada edição. !Silent (discussão) 23h04min de 20 de novembro de 2016 (UTC)

Tabela de ações
Ação	Quantidade de registros	Quantidade de FP	Comentários
Nenhuma	0	"-"	Não é possível desativar o registro de ações de um filtro ativo.
Etiquetar	20	50%	Ideal para fase de testes no qual o padrão está sendo implementado. A comunidade pode ajudar.
Avisar	50	10%	Dados indicam que o mero aviso já inibe 70% das edições, isto é, o editor deixa de salvar mesmo podendo.
Desautorizar	100	5%	O ideal é que a taxa de FP seja próximo de zero, então para filtros de palavras estas podem ser movidas para filtros menos rígidos.
Bloquear	200	2,5%	Embora o bloqueio seja possível a partir da primeira edição, é prudente usá-lo em conjunto com o limitador de tempo.