Wikipédia:Filtro de edições/18

Conteúdo ofensivo
Status
	Desautorizando (mensagem padrão exibida).
Manutenção
	Alta. Requer atualização constante através da pesquisa de edições revertidas ou reportadas em expressões problemáticas para incluir novos casos ou tendências.
Resumo
	Existem 5 filtros de conteúdo ofensivo de modo a evitar uma desativação automática de filtros. Filtro 7 (verbos e expressões), filtro 18 (substantivos) e filtro 70 (corpo humano) estão no modo desautorizar e a priori não tem falsos positivos identificados. O filtro 68 (palavras com contexto não ofensivo) está configurado para avisar (aviso) e etiquetar (Conteúdo possivelmente ofensivo!) e não pode ser passado ao modo desautorizar pois lida com edições de boa fé. O filtro 112 (sem ação) é utilizado para testes no qual as palavras são movidas aos filtros específicos.
Ferramentas
	Código; Discussão; Histórico; Testes; Registros; Análise;
Falsos positivos
Total	27
Lista	Lista filtrada (com gadget); (PS: futuramente, poderíamos ver os 5 mais recentes aqui mesmo)
Tarefas
	Reavaliar filtro 68 em função da baixa eficiência (~68%)

Falso positivo? editar

Alguém sabe explicar porque esta edição foi detectada por este filtro? Kleiner ^msg 18h56min de 3 de agosto de 2010 (UTC)[responder]

Foi porque havia um "|" na lista de caracteres que seriam detectados após o "c": o código deveria ser apenas [uú], mas foi usado [u|ú]. Helder 19h30min de 14 de agosto de 2013 (UTC)[responder]

Ponto na expressão regular editar

Favor editar o filtro 18 retirando o ponto final em "pu.ta", que está casando qualquer palavra iniciada com "pu" e terminando com "ta", como por exemplo, em Punta del Leste. Também será conveniente fazer o mesmo com os termos "p.o.r.r.a" e "m.e.r.d.a".

O ponto final em regex é um símbolo curinga. Se a intenção é realmente casar o próprio sinal de pontuação, deve-se indicá-lo colocando uam contrabarra, por exemplo: "m\.e\.r\.d\.a". Kleiner ^msg 14h48min de 18 de setembro de 2012 (UTC)[responder]

(Já foi

feito pelo Nelson Teixeira.) – Opraco ^(discussão), às 02h37min de 2 de janeiro de 2013 (UTC)[responder]

Início e fim de página editar

Acredito que o referido filtro não detectou este e este pelo mesmo motivo que o tópico anterior não funcionava. Testei a string no rubular e ela não detecta a ofensa no final do parágrafo.OTAVIO1981 (discussão) 21h32min de 15 de julho de 2013 (UTC)[responder]

Update: Dois casos 1348399 e 1349098 que poderão ser detectados se o filtro for atualizado conforme o tópico anterior.OTAVIO1981 (discussão) 21h36min de 15 de julho de 2013 (UTC)[responder]

Modifiquei como no outro filtro. No entanto, todas essas edições continuam não sendo detectadas pois o filtro está configurado com "old_size > 0" (isto é, só testa páginas que já tinham algum conteúdo). Helder 22h00min de 15 de julho de 2013 (UTC) PS: sugeri uma nova melhoria na extensão ao testar isso: bugzilla:51402.[responder]

PS2: a melhoria que sugeri já está disponível. Helder 18h54min de 5 de agosto de 2013 (UTC)[responder]

Filtro 7 editar

Quase todas as detecções daqui também são detectadas pelo 7. Só há duas diferenças:

(filtro 7) f[ou]d[eê][ru ] | (filtro 18) fod(?:ão|ões|a)|fudido
(filtro 7) v[ãaá][oi]\s+t[ei]

O primeiro pode ir pra 18, é tudo variação da mesma palavra. O segundo me parece possível de falso-positivo, não sei, vai que tem título de obra assim, por isso queria olhar mais eles, deixaria no 7 só esse segundo caso, pra eu analisar os registros.

Engraçado que uma hora juntamos o filtro, outra hora separamos, e quando menos percebemos, já está duplicado (duplicado = fundido mas separado). Se precisar separar, preferia separar com algum critério mais fácil de manter a separação dos termos, algo como "corpo humano (órgãos) para um filtro, o resto para outro". Rjclaudio ^msg 16h09min de 30 de agosto de 2013 (UTC)[responder]

O Kleiner incluiu uma nota sobre desativação automática relacionada ao filtro 7. Concordo com a especificação como critério de inclusão de termos. Temos o filtro 70 que lida com uma parte do corpo humano. Não vi o código de lá mas poderíamos incorporar as outras variantes e partes do corpo. Pensei em separar uma categoria de ofensas relacionadas a verbos o que incluiria o "vai se" que fica por aqui. Acho que tem outros verbos a serem incluídos, também.OTAVIO1981 (discussão) 16h34min de 30 de agosto de 2013 (UTC)[responder]

Pode ser, usamos o 70 para corpo humano, o 7 para as expressões ('vai se'), e o 18 como genérico. Rjclaudio ^msg 16h37min de 30 de agosto de 2013 (UTC)[responder]

Outra coisa: os filtros só estão detectando edições em páginas existentes. A ideia era detectar em qualquer tipo de página (existente, ou criada). Precisa testar as expressões para as páginas criadas, ou podemos só remover o teste de página existente? Rjclaudio ^msg 16h37min de 30 de agosto de 2013 (UTC)[responder]

Acho que pode remover pois ainda não consegui vir uma justificativa contrária. Pode testar o filtro sem este parâmetro contra as MR's e ver se dá algum galho?OTAVIO1981 (discussão) 16h56min de 30 de agosto de 2013 (UTC)[responder]

Lista de verbos para análise de inclusão no 7: goz, chup, peid.OTAVIO1981 (discussão) 18h45min de 30 de agosto de 2013 (UTC)[responder]

O 7 seria para verbos? Aí colocariamos as (várias) conjugações verbais, ou só o radical? Rjclaudio ^msg 19h06min de 30 de agosto de 2013 (UTC)[responder]

Não sei. Que tal colocarmos 3 verbos com o radical e só ampliar quando tivermos confiança que está funcionando bem?OTAVIO1981 (discussão) 23h44min de 30 de agosto de 2013 (UTC)[responder]

Filtro 68 editar

O filtro 68 só detecta se for no início do parágrafo e na forma "'\n'vocês são umas 'ofensa'". Todas as ofensas do 68 também são detectadas pelo 18, o 68 é mais restrito, e está em um nível menor (aviso). Proponho então desabilitar esse 68. Rjclaudio ^msg 16h09min de 30 de agosto de 2013 (UTC)[responder]

Se todos os casos são detectados pelo 18 realmente não tem porque deixá-lo habilitado no momento.OTAVIO1981 (discussão) 16h35min de 30 de agosto de 2013 (UTC)[responder]

Este filtro lida com uma situação peculiar de ter uma quantidade razoável falsos positivos que precisamos mensurar o impacto para tirar ou não determinada palavra. Minha proposta é a seguinte: edições de boa fé que foram etiquetadas são corretas. Edições de má fé que foram etiquetadas são incorretas. Edições de boa fé que não foram etiquetadas (parou no aviso) são incorretas. Edições de má fé que não foram etiquetadas são corretas. Em todos vamos sinalizar a palavra e se foi ofensivo ou não. Deste modo podemos montar uma base de emprego da palavra em cada contexto e o quanto é perdido de boas edições.OTAVIO1981 (discussão) 12h52min de 5 de setembro de 2013 (UTC)[responder]

Melhor fazer com uma tabela para facilitar entendimento:

Tipo	Ação	Resultado	Justificativa
boa fé	Etiquetada	positivo	O filtro cumpriu seu papel de avisar e o editor prosseguiu.
boa fé	Avisada(sem salvamento)	falso positivo	O filtro impediu uma edição boa.
má fé	etiquetada	falso positivo	O filtro não impediu um vandalismo
má fé	avisada (sem salvamento)	positivo	O filtro impediu um vandalismo

O que acham?OTAVIO1981 (discussão) 17h24min de 5 de setembro de 2013 (UTC)[responder]

Prezados, acabei de fazer uma análise de 50 registros do filtro (salvos externamente para ganhar tempo) e eis o resultado: 25 edições de má fé pararam no aviso, 7 má fé etiquetaram, 3 boa fé pararam no aviso e 4 de boa fé etiqueram. Segundo meus cálculos a eficiência do filtro então é de aproximadamente 75%. Todavia, devemos levar em conta que muitas das edições de má fé podem ter sido impedidas por outros filtros. Como só perdemos 3 edições de boa fé de 7 vou analisar um pouco mais o filtro mas gostaria de saber se vocês tem idéias para reduzir a interferência dos outros filtros que desautorizam neste aqui.OTAVIO1981 (discussão) 20h02min de 11 de novembro de 2013 (UTC)[responder]

Uma opção mais 'pesada' é colocar uma exceção pro filtro para as edições que tem palavras ofensivas. Ou seja, não disparar se a edição tiver qualquer uma das palavras do filtro 18 e 7 *(duplicar a regex deles). Algo similar ao que fizemos no filtro 113 na parte /* Não detectar ações detectadas por outros filtros */ . É útil quando se está testando o filtro, mas depois fica ruim de manter atualizado e deixa o filtro pesado 'desnecessariamente'. Rjclaudio ^msg 00h47min de 12 de novembro de 2013 (UTC)[responder]

Reserva (marca) editar

O texto seguinte foi movido de: Wikipédia:Filtro de edições/Solicitações#Reserva (marca)

Estou tentando criar o conteúdo institucional da marca e diz estar com conteúdo ofensivo. Não pus nada ofensivo, pelo contrário, adicionei diversas referências. —comentário não assinado de 186.229.64.132 (discussão • contrib) 19h50min de 25 de fevereiro de 2015 (UTC)[responder]

Conteúdo institucional? Na Wikipédia? Isso provavelmente não é adequado ao escopo ao projeto...

Pelos registros do filtro para o IP em questão, o aviso que recebe deve ter sido causado pelo sobrenome do Luis Roberto. Helder 09h11min de 10 de março de 2015 (UTC)[responder]

O texto acima foi movido de: Wikipédia:Filtro de edições/Solicitações#Reserva (marca)

Termo "pinto" editar

Notei certa taxa de falsos positivos envolvendo o termo "pinto", pois tal termo, apesar de poder ser tratado como ofensivo, é usado como sobrenome, será que há alguma maneira de amenizar isso?--Leon saudanha (discussão) 21h19min de 11 de abril de 2015 (UTC)[responder]

Filtro 112 editar

O filtro 112 tem os mesmos parâmetros que esse, só tem algumas outras expressões que estavam em teste. Mas já analisei todos os 300+ registros e não teve nenhum falso-positivo, por isso tinha aumentado logo aquele filtro para aviso. Proponho fundir o 112 aqui para que essas expressões passem para impedimento, e deixar o 112 desabilitado (por hora) para ser usado como testes para outras expressões. Rjclaudio ^msg 16h13min de 30 de agosto de 2013 (UTC)[responder]

Concordo. Pensei em deixar o 112 para os casos em que existe real possibilidade de falsos positivos e após termos uma base concreta de quais são os falsos positivos decidir o que fazer (avisar ou não).OTAVIO1981 (discussão) 16h38min de 30 de agosto de 2013 (UTC)[responder]

Filtro 112 quebrou! editar

Rjclaudio, esta alteração quebrou o filtro que não dispara desde ontem.OTAVIO1981 (discussão) 12h43min de 5 de setembro de 2013 (UTC)[responder]

É, não entendi como usa essa função ccnorm. Só pedindo ajuda pro Helder. Rjclaudio ^msg 13h38min de 5 de setembro de 2013 (UTC)[responder]

Rjclaudio, veja o comentário 5 no bug relacionado ao ccnorm. Talvez seja a solução. Se vc estiver on-line podemos fazer a alteração e simular algumas tentativas.OTAVIO1981 (discussão) 14h13min de 5 de setembro de 2013 (UTC)[responder]

É isso que tentei fazer, mas ao invés de usar o contains usei o rlike pq tem uma expressão regular. Só que não deu. Rjclaudio ^msg 14h23min de 5 de setembro de 2013 (UTC)[responder]

A ccnorm converte "|" para "1", mas o "|" é um caractere especial em expressões regulares, então a nova regex produzida pela ccnorm não funciona como a antiga.

┌────┘ Para poder comparar a regex com o resultado da aplicação de ccnorm às linhas adicionadas, seria preciso o código do filtro 18 teria que ser trocado por algo do seguinte tipo (não é muito legível, mas deve funcionar):

Talvez também seja possível otimizar um pouco essa regex. Mas é bom testar com vários registros antes de implementar (pode-se usar aquele novo script para isso ) Helder 00h10min de 7 de outubro de 2013 (UTC)[responder]

Foi exatamente isso que passei a tarde fazendo, Helder.wiki e funciona sim! esta regex pode ser otimizada sim pq quando aplicamos a ccnorm em added lines ele converte todos os LIOS ou lios em 1105 então a regex não precisa ter estas letras assim como caracteres especiais õãé.

(?:[^A-ZÁÀÂÃÇÉêÊẼíÍóóòôõÓÒÔÕQ̃ÚŰÜŨ01ïÏ5]|^)(?:ARR0MBAD[A0]|F[0U]D(?:[1]D0|[E][RU]|A0|OE5|A)|BA1T01A|B1CHA|PUTAR1A|V1AD(?:0|A0|1NH0)?|GAYUCH0|CAG(?:AR|0NA|A0|UE1|A1H(?:A0|OE5))|PUT(?:[A0]|1NHA)|0TAR10|FDP|MERD[EA]|B05T(?:1NH)?A|P0RRA|PANE1E1?R0)5?(?:[^A-ZÁÀÂÃÇÉêÊẼíÍóóòôõÓÒÔÕQ̃ÚŰÜŨ01ïÏ5]|$)

Usei tb o rmdoubles então não pega mais dígrafos. Vou usar o filtro 60 para os testes. talvez tenha FP em códigos hexadecimais. Vai saber, né?OTAVIO1981 (discussão) 00h39min de 7 de outubro de 2013 (UTC)[responder]

[conflito de edições] OTAVIO1981, de acordo com o script de regressões, esse novo código que coloquei acima continuaria detectando cada um dos últimos 400 registros do filtro (ou seja, não pioraria o filtro). Note que troquei "RR" por "R" na regex. Helder 00h51min de 7 de outubro de 2013 (UTC)[responder]

Helder.wiki, pode testar este código com uma regex sem as letras OLIS e as especias convertidas para O e E? Eu testei assim e também detectou.OTAVIO1981 (discussão) 00h59min de 7 de outubro de 2013 (UTC)[responder]

O problema é justamente o que informei no ~~bugzilla:27987~~bugzilla:25619#c7. Confira o resultado de ccnorm( 'óï' ) na Especial:Filtro de abusos/tools. Helder 01h10min de 7 de outubro de 2013 (UTC)[responder]

Ah tá. Podemos deixar estes dois então enquanto não atualizam a tabela. E em relação ao LS? OTAVIO1981 (discussão) 01h39min de 7 de outubro de 2013 (UTC)[responder]

Eu tinha colocado o link errado. Teste ccnorm( "ìíîïĩļǐīĭḷĿї!ľį₤ĺľḷĿΛЛљóòôöõǒōŏǫőόὸὀὁὄὂὅὃọ$śŝşšṣσ" ). Helder 12h38min de 7 de outubro de 2013 (UTC)[responder]

Helder.wiki, não estou seguro que esta falta de conversão de caracteres seja uma deficiência significativa para nós porque são caracteres de pouquíssimo uso pela maioria dos nossos falantes. Destes caracteres o mais significativo é o "ó" que é de uso regular. Pensei melhor no assunto e acredito que podemos testar diretamente no filtro 18. Acho que devemos excluir o "P0RA" e tratar a ofensa no 60 pois a função converterá Porã em P0RA então teremos falsos positivos. O AR0BAD[0A] pode ficar pois não detectei possíveis falsos positivos. Depois vou avaliar o filtro 70 e 68 para ver se já podemos implementar ou se alguma palavra deve ser retirada devido a conversão do ccnorm com rmdoubles. OTAVIO1981 (discussão) 13h23min de 7 de outubro de 2013 (UTC)[responder]

Talvez... Em todo caso, também poderíamos usar um código como o seguinte:

(ele continua detectando os 400 últimos registros do filtro 18). Helder 13h45min de 7 de outubro de 2013 (UTC)[responder]

Ficou mais legível mas não vai consumir muitas condições? OTAVIO1981 (discussão) 14h35min de 7 de outubro de 2013 (UTC)[responder]

Bom, fiz um teste e a diferença entre declarar apenas uma variável "ofensas" e declarar tanto ela quanto as 6 variáveis auxiliares é que:

Com o código que está em uso, edições (por contas confirmadas ou não) consomem 4 condições;
Com o código acima, que usa 7 variáveis, edições por contas não confirmadas consomem 14 condições, e por contas confirmadas consomem 10.
Por outro lado, se mantivéssemos os ccnorm(rmdoubles(...))s mas utilizássemos apenas uma variável (menos legível, por não usar as variáveis auxiliares), edições por contas não confirmadas consumiriam 8 condições, e por contas confirmadas seriam 4;

A concatenação de strings não faz diferença, então poderíamos optar por não usar variáveis mas colocar strings separadas para cada palavra/variação (digamos uma por linha, como no exemplo acima). Ou ainda, podemos mudar a distribuição de condições consumidas (nas edições por usuários confirmados e não confirmados) utilizando parêntesis:

! 'confirmed' in user_groups & ( E := '[Eê]'; (...) S := '[5$śŝşšṣ]'; ofensas := (...); ccnorm(rmdoubles(added_lines)) irlike ofensas & ! ccnorm(rmdoubles(removed_lines)) irlike ofensas )

Assim, as edições de usuários confirmados consumiriam 2 condições (em vez de 4), mas as dos demais usuários consumiriam 15 (em vez de 14). Helder 15h49min de 7 de outubro de 2013 (UTC)[responder]

Acho melhor o código que consome menos condições (8 para NC e 4 para C). A legibilidade não chega a ser um problema mas será necessário documentar melhor o que estamos fazendo para que outros possam atualizar no futuro.OTAVIO1981 (discussão) 16h53min de 7 de outubro de 2013 (UTC)[responder]

OTAVIO1981 Têm ocorrido falsos positivos com "Porã", como em Special:Diff/39685783. Helder.wiki (discussão) 22h07min de 28 de julho de 2014 (UTC)[responder]

Helder.wiki, removi a palavra do filtro 18 e inclui no 70 a respectiva ofensa sem conversão ccnorm e rmdoubles.OTAVIO1981 (discussão) 12h19min de 29 de julho de 2014 (UTC)[responder]

Feito Rjclaudio e Helder.wiki. Implementei o ccnorm e rmdoubles no filtro 118. Testei os últimos 600 disparos do filtro e somente 3 casos deixaram de ser detectados. 2 eu consegui identificar a razão, a palavra da regex estava seguida de I que é convertido em i então a detecção falha. O outro caso não conseguir o motivo. A versão anterior da regex tinha um erro que fez disparar indevidamente uma edição no artigo "Favelamusic" onde foi inserido BNegão e na regex negão estava dentro do subgrupo de palavras iniciadas por B, então fica positivo. Pretendo implementar estas funções no filtro 70 nos próximos dias. Sds, OTAVIO1981 (discussão) 19h47min de 23 de outubro de 2013 (UTC)[responder]

No log 1424836, depois da aplicação de ccnorm(rmdoubles(...)), entre as linhas adicionadas aparece a palavra "PUTA" e entre as removidas há "P0NTA-P0RA", ou seja, caímos na situação que descrevi no Wikipédia:Filtro de edições/98#Falsos negativos do tipo "inserção de X quando já tem Y". Helder 21h00min de 23 de outubro de 2013 (UTC)[responder]

Feito Implementei o ccnorm e rmdoubles nos filtros 7, 70 e 112. Aproveitei e reorganizei os principais verbos no 7, e inclui novas palavras no 112. Falta só o 68 mas este vou ter que ver a eficiência antes. OTAVIO1981 (discussão) 00h22min de 28 de outubro de 2013 (UTC)[responder]

Atualização do filtro 112 editar

Rjclaudio e Helder.wiki. Já analisei um bocado dos registros do 112 e acho que está suficiente para ser atualizado. isto é, palavras com alta incidência serem movidas para os respectivos filtros desautorizadores e novas palavras serem inseridas. Coloquei em Wikipédia:Projetos/AntiVandalismo/Expressões_problemáticas algumas palavras que podem ser inseridas. OTAVIO1981 (discussão) 16h07min de 24 de setembro de 2013 (UTC) Feito fui audaz e fiz por conta própria. Vou seguir na análise de registros antigos e dos novos.OTAVIO1981 (discussão) 13h13min de 4 de outubro de 2013 (UTC)[responder]

Remoção do termo "comer" editar

Notei vários falsos positivos desse filtro com relação ao termo "comer" e proponho a remoção dele do filtro 12, uma vez que na maioria dos casos em que ele tem caráter ofensivo, está associado a algum outro termo ofensivo já listado no filtro, o que torna sua inclusão desnecessária e sujeita a alto indice de falsos positivos--Leon saudanha (discussão) 21h26min de 11 de abril de 2015 (UTC)[responder]

Falso-negativos editar

Abaixo uma lista de falso-negativos que foram verificados e é necessário avaliar melhor como adicioná-los ao filtro. Adicionar novos casos no final da seção.

Geral: [1] [2] [3] [4] [5] [6] [7] [8]

Corpo humano: [9]

Verbo: [10] [11] [12] (o verbo botar não é muito enciclopédico)

Variações de ofensas já detectadas: [13] [14] [15] [16] [17] [18] [19]

Potencial: [20] [21] [22]

Feito

Rjclaudio ^msg 19h06min de 30 de agosto de 2013 (UTC)[responder]

Movendo as ofensas de 'Solicitações#Sale':

Feito

Rjclaudio ^msg 19h16min de 30 de agosto de 2013 (UTC)[responder]

Mais alguns:

Feito

Acho válido remover os exemplos daqui a medida que os filtros serem atualizados para detectar os casos. Não necessariamente todas as possibilidades precisam ser incluídas, somente as mais frequentes.OTAVIO1981 (discussão) 20h21min de 30 de agosto de 2013 (UTC)[responder]

Mais alguns (2):

Feito

Novamente, peguei as últimas 50 do salebot apenas para gerar uma base de palavras que podem eventualmente serem implementadas nos filtros.OTAVIO1981 (discussão) 12h40min de 3 de setembro de 2013 (UTC)[responder]

Melhor reativar o 112 como teste, ficando apenas para registro (ou apenas etiqueta? assim sabemos pelo diff se ativou algum filtro), para colocarmos os casos acima (e limpamos essa lista que tende a crescer) para irmos acompanhando e vendo os falso-positivos, e depois decidimos se passa apenas para aviso ou vai para algum dos filtros de impedimento. Rjclaudio ^msg 14h27min de 3 de setembro de 2013 (UTC)[responder]

Concordo, pois está alinhado com a proposta que fiz na seção anterior. Embora considere que alguns casos aí em cima como este dificilmente terão falsos positivos, podemos fazer como propõe e mover para os filtros mais específicos quando houver base de dados. O 112, neste caso, ficaria sempre etiquetando (?) e com funcionamento similar ao 119 isto é, como laboratório para preparar o código para os filtros que desautorizam.OTAVIO1981 (discussão) 17h21min de 3 de setembro de 2013 (UTC)[responder]

Estou começando a remover os casos que já estão sendo detectados pelo 112 e deixo abaixo os que foi filtrado pelo 18 também:

[23]

Para o momento, é só.OTAVIO1981 (discussão) 21h00min de 3 de setembro de 2013 (UTC)[responder]

Mais uma rodada de falsos-negativos. Desta vez extraído do histórico de alguns reversores:

Feito

Acho que já é hora de lançar uma campanha para os reversores muito ativos reportarem estes casos de ofensas por conta própria ou pelo menos assinarem uma lista de "muito ativos" para facilitar encontrar que está com disposição e revertendo bastante. Eu vou lembrando das pessoas mas às vezes não estão muito ativos na reversão.OTAVIO1981 (discussão) 18h01min de 5 de setembro de 2013 (UTC)[responder]

Atualizando, tirei as já detectadas, e adicionei mais casos pro 112. Deixei os que não estão sendo detectados na lista, para discutirmos melhor como fazer. Rjclaudio ^msg 13h08min de 7 de setembro de 2013 (UTC)[responder]

Falso-positivo editar

O que se faz quando uma edição é desautorizada mas é válida? [24] Posso simplesmente criar o artigo e ficar com os créditos? Rjclaudio ^msg 20h49min de 30 de agosto de 2013 (UTC)[responder]

Não consegui ver porque foi desautorizado. só porque utilizou gay? melhor então passar então este para um de ofensas que só avise. Vamos monitorar mais um pouco. A respeito da sua pergunta. Não sei responder.OTAVIO1981 (discussão) 23h38min de 30 de agosto de 2013 (UTC)[responder]

Sim, o que foi detectado foi a palavra "gay". Helder 18h17min de 6 de outubro de 2013 (UTC)[responder]

Uma possibilidade é salvar a edição indicando o autor original no sumário, com link, e avisá-lo em sua página de discussão que completou a edição para ele. Helder 18h17min de 6 de outubro de 2013 (UTC)[responder]

Melhorias requeridas editar

Helder.wiki e Rjclaudio, passado o final de semana já dá para ver que alguns ajustes são necessários. Minha proposta é reativar o 68 e deixar os casos duvidosos lá, por enquanto. Pinto e gay são os primeiros candidatos porém pênis e vagina também podem ser elegíveis. Existem 5 municípios com Pau no nome então vai ser rotina de falsos positivos desautorizados. Estou pensando em um aviso novo para lidar com estas situações. Tratando estas situações, resta resolver o problema do Pikachu e do Pica-Pau que são falsos positivos daqui (filtro 70) mesmo, isto é, não era para terem sido detectados. Ainda tem o caso da url inserida com .cu/ que também não era para detectar por aqui. Quando finalizar a proposta de aviso, publico. Abs, OTAVIO1981 (discussão) 12h55min de 2 de setembro de 2013 (UTC)[responder]

Balão de ensaio:

Atenção: Em função da alta quantidade de vandalismos associados à algumas palavras, o sistema identificou automaticamente que sua edição tem o conteúdo potencialmente ofensivo.

Por favor, se considera que o conteúdo é adequado a uma enciclopédia, pressione novamente o botão "Gravar página" para salvar sua edição. Tenha em vista que sua edição será verificada por outros editores e prontamente revertida se for constatada como sendo um vandalismo.

Optei por não entregar quais são as palavras para não facilitar a vida do vândalo em outras variações. Acho que vale a pena etiquetar todas as edições.OTAVIO1981 (discussão) 13h18min de 2 de setembro de 2013 (UTC)[responder]

Concordo com colocar essas quatro palavras no filtro 68 para casos duvidosos mostrando apenas o aviso+etiqueta, sem impedir a edição. Se essas quatro palavras realmente estiverem sendo usadas em um contexto ofensivo, ainda podem ser detectadas por outra parte da edição, ou com o tempo podemos detectar as expressões mais usadas ao invés de apenas a palavra.

Pikachu não deveria ser detectado, pois tem um '([^a-záâãéêíóôõúç]|$)' no final da detecção. Não foi um falso-positivo antigo, antes da atualização dos filtros?

Pica-pau, talvez expandir essa lista ali em cima para incluir exceção para - , acho que tem poucos vandalos que usam -ofensa ou ofensa-

Da url não sei. Poderia colocar o / nas exceções, como acima, mas ainda assim teria urls cmo xxx.cu . Exceção para ponto antes não sei, não acho que seja raro colocarem uma ofensa logo depois do final de uma frase válida. Podiamos colocar uma exceção para não detectar se tiver no formato 'www.xxx.ofensa', e não acho que os vandalos usariam esse formato qnd vandalizassem.

Rjclaudio ^msg 14h01min de 2 de setembro de 2013 (UTC)[responder]

Cláudio, acha que vale a pena mover "pau" para o 68 também? Em relação ao pikachu, foi um erro meu. Na verdade o que fez detectar foi um "pica-la" no meio do texto então, resolvido. Fica então na mesma situação do Pica-pau onde devemos decidir se o - configura ou não uma exceção. Acho que pode tirar o hífen deixando como exceção (é isso?), pelo que acompanhei até agora de vandalismos é uma exceção mesmo. Para a url acho que colocar a barra no final pode ajudar a resolver provisoriamente até termos um monitoramento melhor. A maioria das urls vai ter alguma coisa depois do .cu que vai começar com a barra. São poucos os casos de referências que o sítio principal é apontado (tipo www.algumacoisa.com.br )OTAVIO1981 (discussão) 14h43min de 2 de setembro de 2013 (UTC)[responder]

Sobre o aviso, nós já temos MediaWiki:Abusefilter-warning-ofensa. Esse texto está bom, ou usamos o que vc fez?

Pau também, há pau como madeira, do tipo "bateu nela com um pedaço de pau". Vale separar, qualquer coisa trazemos de volta.

Feito. Reativei o Filtro 68 com o texto de aviso atual e com as cinco palavras sugeridas (e removi elas dos outros filtros). E mudei o filtro 70 para fazer exceção a - antes e depois da ofensa, e a / depois.

Rjclaudio ^msg 15h02min de 2 de setembro de 2013 (UTC)[responder]

Acho que a diferença entre os avisos é que o "Abusefilter-warning-ofensa" já dá a edição como não-construtiva enquanto o texto que propus explica que potencialmente é e que será verificada por outro editor. Em outras palavras, o texto existente é muito incisivo sobre a má fé do texto enquanto o segundo dá o benefício da dúvida que de fato existe.OTAVIO1981 (discussão) 16h35min de 2 de setembro de 2013 (UTC)[responder]

Aviso alterado. Rjclaudio ^msg 17h06min de 2 de setembro de 2013 (UTC)[responder]

Só para registrar, gostei mais da abordagem desse novo texto. Helder 23h22min de 6 de outubro de 2013 (UTC)[responder]

Analisando de 10 em 10 enquanto a análise em massa não é implementada editar

Tive uma idéia simples para resolver o nosso problema da análise em massa enquanto outro recurso não é implementado. Vamos analisar todas as edições em um grupo mas só registrar a décima de cada analisada e todos os falsos positivos no intervalo. Por exemplo, acabei de fazer o filtro 18 e analisei 100 edições em 9 minutos mas reportei só de dez em dez. Acho que para os filtros ou disparam muito (ofensas, principalmente) é um adianto tremendo e embora os cálculos e estatísticas fiquem um pouco prejudicados o mais importante é que o filtro está funcionando bem. Também desisti de arquivar os registros antigos pois reportando em pacotes serão menos edições então não vai sobrecarregar muito. O que acha Rjclaudio e Helder.wiki ?OTAVIO1981 (discussão) 16h04min de 25 de outubro de 2013 (UTC)[responder]

Estou conseguindo manter os filtros de ofensas 100% verificados com este recurso.OTAVIO1981 (discussão) 18h29min de 28 de outubro de 2013 (UTC)[responder]

Filtro 7 demorando mais do que o normal editar

Pode ser cedo para levantar a bola, mas o filtro 7 começou a demorar mais do que o normal após esta alteração ontem. Vou continuar acompanhando mas ao que parece a regex afetou um bocado o filtro.OTAVIO1981 (discussão) 13h00min de 28 de outubro de 2013 (UTC)[responder]

Bom, a nova regex é mais complexa, e abrange mais casos, então é natural que leve mais tempo para ser processada. Mas parte do aumento no tempo de processamento também pode vir da remoção de duplicatas e normalização do conteúdo dos diffs (principalmente nos casos em que são grandes). Helder 13h22min de 28 de outubro de 2013 (UTC)[responder]

Acabei de conferir novamente e o tempo estava em 1,92 ms que é próximo dos outros filtros de ofensa. Talvez eu tenha visto em dois momentos "ruins" do filtro onde precisou converter grandes trechos. Isso me faz pensar que precisamos começar a sistematizar a coleta destes tempos de execução para podermos ter uma base de melhorias.OTAVIO1981 (discussão) 17h55min de 28 de outubro de 2013 (UTC)[responder]

Pois é. É praticamente impossível identificar mudanças com um impacto negativo sem algo automatizado como aquelas tabelas (hoje inativas) da wiki em inglês, com dados das últimas horas, dias semanas, etc. Talvez o HAndrade (WMF) possa ajudar nisso? Helder 19h48min de 28 de outubro de 2013 (UTC)[responder]

Fiz uma pequena redução da regex e uma simplificação mas não adiantou nada. O valor máximo que notei foi 14 ms mas normalmente está na faixa de 8 a 9 ms. Acho que estas regexes de verbos estão complicando porque temos 7 radicais com 7 conjugações. Se reparar no guia de manutenção é a maior lista de análise. Se formos incluir mais verbos talvez valha a pena desmembrar este filtro em dois deixando em um só os verbos e nos outros as variações.OTAVIO1981 (discussão) 18h22min de 31 de outubro de 2013 (UTC)[responder]

Filtro de conteúdo ofensivos sem ccnorm editar

O texto seguinte foi movido de: Wikipédia:Filtro_de_edições/Solicitações#Filtro de conteúdo ofensivos sem ccnorm

Pessoal, estou rascunhando em Usuário(a):OTAVIO1981/Filtros as regexes para os filtros 70 e 112 com ccnorm e o que acontece é que algumas palavras tem alta incidência de vandalismo sem acentuação mas quando escritas corretamente tem falsos positivos. Portanto, para podermos usá-las precisariamos de um filtro só para elas sem o uso da função ccnorm. O que acham? Talvez depois possamos complementar com outras palavras para melhorar a eficiência do filtro. OTAVIO1981 (discussão) 21h59min de 25 de outubro de 2013 (UTC)[responder]

Precisaria de outro filtro? Não é só colocar num mesmo filtro uma vandalismo1 que usaria ccnorm, e outra vandalismo2 que não usaria a ccnorm? Acho que deixar junto facilita na hora de encontrar qual filtro que tem uma certa palavra (se é que tem), e deixa mais claro que aquelas palavras tem falso-positivo se usar o ccnorm. Rjclaudio ^msg 23h11min de 25 de outubro de 2013 (UTC)[responder]

Teria alguns exemplos, OTAVIO1981?

Se possível, eu tentaria manter tudo no mesmo filtro (pelo que o Rjclaudio disse), e usar parêntesis estrategicamente para tentar minimizar o uso de condições.

A propósito, pelo visto o sistema usado pela ccnorm estará funcionando um pouco melhor: gerrit:92057 e gerrit:92154. Só temos que ficar de olho na data em que a correção será feita, para atualizar os filtros que usam gambiarras para contornar aquele bug. Helder 09h53min de 26 de outubro de 2013 (UTC)[responder]

Se este jeito não vai consumir muito mais condições por mim não tem problema algum. Aliás, como fazemos para medir estas quantidades de condições no filtro, Helder.wiki? O tamanho e complexidade da regex influi na quantidade de condições? Os exemplos, por enquanto, são ânus e pênis em que damos o benefício da dúvida no 68 mas sem o acento é considerado ofensa no 70. Tem também porra que é convertido para pora e é um falso positivo para porã. Podem haver outros a medida que a lista de palavras desautorizadas crescer. Se o tamanho e complexidade da regex não influenciar nas condições acho que só mais 1 filtro para "protestos e fuleragens" do tipo "não colabore com a wiki" e "jura?", etc é suficiente. OTAVIO1981 (discussão) 15h19min de 26 de outubro de 2013 (UTC)[responder]

OTAVIO1981, a complexidade da expressão regular Y que aparece em uma condição X (i)rlike Y não muda o número de condições utilizadas, só influencia o tempo gasto para a execução do filtro (aquele que aparece em ms na linha de estatísticas de cada filtro). Helder 15h58min de 26 de outubro de 2013 (UTC)[responder]

O filtro pode falhar se o tempo de execução for muito alto?OTAVIO1981 (discussão) 16h06min de 26 de outubro de 2013 (UTC)[responder]

Não exatamente. O tempo de execução de cada filtro tem impacto no tempo que as edições levam para ser salvas (só são salvas depois que a AbuseFilter termina de testar os filtros, então se eles demoram, a edição demora para salvar). Mas pelo que eu lembro não tem nenhuma variável configurando um limite em milisegundos... Helder 19h07min de 26 de outubro de 2013 (UTC)[responder]

Aliás, esse é um dos motivos de eu não gostar da ideia de usar a extensão para o que se faz com o filtro 77 (o filtro que parece gastar mais tempo, conforme as estatísticas). Helder 19h11min de 26 de outubro de 2013 (UTC)[responder]

Bom, podemos trabalhar com um limite total dos tempos de execução inferior a 200 ms e estabelecer uma "investigação" quando um filtro exceder com frequência o limite de 5 ms. Isto enquanto um número arbitrário melhor não surgir...OTAVIO1981 (discussão) 00h46min de 28 de outubro de 2013 (UTC)[responder]

Só que o filtro 77 já passou dos 5 ms há tempos... Helder 10h03min de 28 de outubro de 2013 (UTC)[responder]

Investigação iniciada.OTAVIO1981 (discussão) 11h12min de 28 de outubro de 2013 (UTC)[responder]

Voltando a vaca fria das ofensas sem ccnorm, implementei no mesmo filtro e peço que vejam como ficou. Vou tentar ficar atento ao tempo de execução superior já que praticamente são 2 filtros em 1.OTAVIO1981 (discussão) 17h10min de 28 de outubro de 2013 (UTC)[responder]

Reorganizei um pouco as condições. Helder 21h23min de 28 de outubro de 2013 (UTC)[responder]

Tá certo isso? Com ccnorm(rmdoubles(added_lines)) irlike ofensas eu entendi que ccnorm (added_lines) ia transformar toda a added_lines em uma só opção, ou seja, C[Uú][5Z]A[O0] seria só uma palavra. Precisa comparar isso (uma única palavra) com uma regex (várias opções de palavras)? Isso não deixa o filtro mais pesado desnecessariamente? Rjclaudio ^msg 14h41min de 12 de novembro de 2013 (UTC)[responder]

Rjclaudio, não consegui entender a pergunta. Helder 15h55min de 12 de novembro de 2013 (UTC)[responder]

Cláudio, talvez você esteja confundindo a ccnorm com a norm. A ccnorm só transforma os caracteres (S em 5 por exemplo). A norm remove os caracteres duplicados (rmdoubles), remove o espaçamento em branco (rmwhitespace?) e faz esta transformação. O único passo extra possível para os filtros é tentar implementar a norm no lugar dessas duas mas acho que deve ter muitos FPs se removermos o espaçamento. É até interessante pegar casos como t e s t e só não sei se vale a pena.OTAVIO1981 (discussão) 16h22min de 12 de novembro de 2013 (UTC)[responder]

Não confundi. Eu digo, uma edição que adicione CUZAO a ccnorm vai transformar em CU540 (? se não for, serve de exemplo). Então bastaria comparar ccnorm (added_lines) com CU540, ao invés de comparar com C[Uú][5Z]A[O0].

Ou seja, estamos transformando a palavra adicionada x, y e z, todas em x, para depois comparar se o resultado dessa transformação é igual a x, a y ou a z. Mas aí a transformação de tudo em x perde o sentido. Rjclaudio ^msg 16h28min de 12 de novembro de 2013 (UTC)[responder]

Hum... vc está chando estranho ter [Uú], [O0] e [I1ï] no código? Bom é que a ccnorm não está no momento fazendo todas as conversões que precisamos. Ver comentários do Helder nesta discussão que relata o bug associado.OTAVIO1981 (discussão) 16h42min de 12 de novembro de 2013 (UTC)[responder]

Ah tá, se for isso ok. Estranho não converter 0O e o I1, sendo tão parecidos.

Aproveitando, seria útil mover essa discussão lá pro filtro 18 e com um link no topo para a seção q tb falada da ccnorm. Rjclaudio ^msg 16h50min de 12 de novembro de 2013 (UTC)[responder]

A lista de conversões feitas está aqui. Pessoalmente, não acho que os caracteres que deixam de ser convertidos tenham impacto pra gente. Nunca vi escreverem com "ł" mas se não tem impacto na execução do filtro fico indiferente.OTAVIO1981 (discussão) 17h07min de 12 de novembro de 2013 (UTC)[responder]

O texto acima foi movido de: Wikipédia:Filtro_de_edições/Solicitações#Filtro de conteúdo ofensivos sem ccnorm

Filtro 18 foi desativado automaticamente? editar

Acabei de fazer uma alteração na regex deste filtro e bem do lado de sinalizações tinha o seguinte aviso:"Este filtro foi desativado automaticamente por medida de segurança por ter atingido 5%" (ou algo próximo). Salvei a alteração imaginando que o aviso ia ficar lá e pensando que o filtro estava mesmo desativado. Porém o aviso sumiu e o filtro aparentemente não foi desativado. Sabem o que pode ter acontecido, Helder.wiki e Rjclaudio?OTAVIO1981 (discussão) 19h46min de 13 de novembro de 2013 (UTC)[responder]

Isso parece ser o bugzilla:52525. Helder 19h51min de 13 de novembro de 2013 (UTC)[responder]

Aplicar o norm editar

Tenho pensado em utilizar o filtro 112 para testar uma aplicação da função norm durante um dia para verificar se existem muitos falsos positivos. Minha intenção é fazer a substituição por somente 1 ou 2 dias no máximo dependendo das quantidades de falsos positivos que podem pipocar. Depois disso eu voltaria o 112 ao código atual. O que acha, Rjclaudio?OTAVIO1981 (discussão) 20h23min de 21 de novembro de 2013 (UTC)[responder]

Se ajudar, tudo certo. Contanto que o filtro não tenha nenhuma ação, pode ficar um pouco mais de tempo, mas é bom só ativar quando tiver disponível para olhar os problemas no início.

Não daria para usar a busca que o Danilo fez pra saber se tem ocorrência nos nossos artigos atuais?.

Rjclaudio ^msg 01h56min de 22 de novembro de 2013 (UTC)[responder]

Rjclaudio, ontem encontrei o Danilo.mac no IRC e ele conseguiu fazer exatamente isto. Testou os filtros 7, 18, 70 e 112 em 2% do dump e foram poucas as palavras que tiveram falsos positivos. Pretendo então na semana que vem usar o 112 para testar as palavras do 18 já retirando a palavra que causou falsos positivos. Existem duas alternativas para tratar estas possíveis palavras que causam falsos positivos: usar uma estrutura semelhante ao filtro 70 ou juntar num novo filtro (incluindo estes casos do 70). Qual te parece melhor? Muito obrigado pela ajuda, Danilo!OTAVIO1981 (discussão) 13h59min de 23 de novembro de 2013 (UTC)[responder]

Tentando adicionar tradução de seção em artigo editar

O texto seguinte foi movido de: WP:Filtro de edições/Solicitações#Tentando adicionar tradução de seção em artigo

Estava tentando inserir a tradução da seção "Biography", da Wiki inglesa, no artigo da Nina Simone, mas o filtro rejeitou a inserção por algum motivo (não há conteúdos ofensivos nem falta de fontes fiáveis - e o que tinha antes no artigo não foi excluído, só consertado, como informações e traduções erradas). Tentei fazer em partes a inserção, e consegui até a seção "Maturidade", a qual tentei colocar sem pensar, aqui para que fosse analisada, mas que foi, obviamente, filtrada por ter sido novamente identificada como "prejudicial". Peço para, por favor, analisarem meu pedido. Obrigado.--Juliothren (discussão) 18h27min de 13 de agosto de 2014 (UTC)[responder]

--ATUALIZAÇÃO--

Após revisar o parágrafo "problemático" frase por frase, acabei descobrindo que o problema estava numa das fontes, uma resenha fazendo referência ao nome de um álbum, Fo(dois Ds)er on My Wings (que foi citado no artigo e na discografia sem problemas - provavelmente um filtro pra evitar referências de vândalos a imagens obscenas). Ou seja, tive essa problemada toda graças ao fato da palavra "forragem" em inglês ser semelhante a um "verbo obsceno" em português - seria cômico se não fosse trágico.

Definitivamente alguns filtros precisam ser revistos, principalmente porque há muitas fontes fiáveis em inglês e muitas traduções de bons artigos ingleses. Não tenho acesso às palavras obscenas, mas recomendaria a quem o tem (e tem o direito de alterá-las) a conferir se alguma das variações de alguma "obscenidade" coincide com alguma palavra em outro idioma.--Juliothren (discussão) 19h43min de 13 de agosto de 2014 (UTC)[responder]

Lamento falso positivo, espero que não tenha mais problemas com a palavra fodder. Lechatjaune ^msg 19h47min de 13 de agosto de 2014 (UTC)[responder]

Observação: Embora você não possa alterar a programação do filtro, seu conteúdo é público, veja aqui. Lechatjaune ^msg 19h49min de 13 de agosto de 2014 (UTC)[responder]

O texto acima foi movido de: WP:Filtro de edições/Solicitações#Tentando adicionar tradução de seção em artigo

Lechatjaune: para que essa expressão não seja detectada, a alteração era em outro trecho do código. Helder 23h45min de 13 de agosto de 2014 (UTC)[responder]

Não consigo publicar tradução editar

Realizei a tradução do artigo Mutagenesis (molecular biology technique), gastando uma média de 1h40 com tradução, edição e pesquisas. Mesmo com todas as mudanças e edições do texto, a plataforma de edição/tradução acusa que o texto está 99% sem modificações. Alguns trechos eu realmente mantive, pois estão corretos e não precisam de edição, mas tenho plena certeza de que fiz bem mais de 1% de alterações. A tradução automática repetia o mesmo termo errado em praticamente todos os parágrafos e legendas das fotos, só isso já deveria contar como mais de 1% de edição... Como proceder? Devo alterar o texto mesmo sem necessidade para que fique diferente? --Natalia.de.Araujo (discussão) 14h11min de 31 de janeiro de 2022 (UTC)[responder]

@Natalia.de.Araujo: Nesse contexto, sugiro tratar apenas das alegações de palavras ofensivas, que é um erro que impede a publicação da tradução. A falta de modificação no texto é um alerta que não impede a publicação, podendo ser contornada includindo caracteres extra (p.ex., "..."), a serem removidos imediatamente após a publicação. Fgnievinski (discussão) 16h33min de 31 de janeiro de 2022 (UTC)[responder]

Olá, novamente não consigo publicar outra tradução por conta do aviso: "A sua tradução não pode ser publicada porque contém demasiado texto não modificado". Apenas 2 trechos pequenos estão 100% sem modificação, pois não há necessidade, o restante está abaixo de 99%. Não sei mais o que fazer para tirar esse aviso. Natalia.de.Araujo (discussão) 13h26min de 14 de fevereiro de 2022 (UTC)[responder]