Spam baseado em imagens

Spam baseado em imagens,[3][4] ou spam de imagens, é um tipo de spam de e-mail em que a mensagem textual de spam é incorporada às imagens, que são anexadas aos e-mails de spam. Como a maioria dos clientes de e-mail exibe o arquivo de imagem diretamente para o usuário, a mensagem de spam é transmitida assim que o e-mail é aberto (não há necessidade de abrir mais o arquivo de imagem anexado).

Figura 1. Exemplo de imagem limpa de spam
Figura 2. Exemplos de imagens de spam ofuscadas para evitar a detecção baseada em OCR e assinatura
Fig. 3. Tamanho médio de spam versus percentagem de spam de imagem[1]
Fig. 4. Tamanho médio de spam versus percentagem de imagem e spam ZIP / RAR (2011-2012, por semana)[2]

O objetivo do spam de imagem é claramente contornar a análise do conteúdo textual do e-mail realizada pela maioria dos filtros de spam (por exemplo, SpamAssassin, RadicalSpam, Bogofilter, SpamBayes). Assim, pelo mesmo motivo, juntamente com a imagem anexada, muitas vezes os spammers adicionam algum texto “falso” ao e-mail, nomeadamente, uma série de palavras que têm maior probabilidade de aparecer em e-mails legítimos e não em spam. Os e-mails de spam de imagem anteriores continham imagens de spam em que o texto era limpo e facilmente legível, conforme mostrado na Figura 1.

Consequentemente, ferramentas de reconhecimento óptico de caracteres foram usadas para extrair o texto embutido nas imagens de spam, que poderia então ser processado junto com o texto no corpo do e-mail pelo filtro de spam ou, mais geralmente, por técnicas de categorização de texto mais sofisticadas.[3][5] Além disso, assinaturas (por exemplo, hashing MD5) também foram geradas para facilmente detectar e bloquear imagens de spam já conhecidas. Os spammers, por sua vez, reagiram aplicando algumas técnicas de ofuscação às imagens de spam, de forma semelhante aos CAPTCHAs, tanto para evitar que o texto incorporado fosse lido por ferramentas de OCR, quanto para enganar a detecção baseada em assinatura. Alguns exemplos são mostrados na Fig. 2.

Isso levantou a questão de melhorar a detecção de spam de imagens usando visão computacional e técnicas de reconhecimento de padrões.[3][4][6][7]

Em particular, vários autores investigaram a possibilidade de reconhecer spam de imagem com imagens ofuscadas usando recursos de imagem de baixo nível genéricos (como número de cores, cobertura de cores predominantes, proporção de imagem, área de texto), metadados de imagem, etc.[6][7][8] (ver[4] para uma pesquisa abrangente). Notavelmente, alguns autores também tentaram detectar a presença de texto em imagens anexadas com artefatos denotando uma tentativa adversária de ofuscá-lo.[9][10][11][12]

O spam de imagem começou em 2004 e atingiu o pico no final de 2006, quando mais de 50% do spam era spam de imagem. Em meados de 2007, começou a diminuir e praticamente desapareceu em 2008.[1] A razão por trás desse fenômeno não é fácil de entender. O declínio do spam de imagens provavelmente pode ser atribuído tanto à melhoria das contra-medidas propostas (por exemplo, detectores rápidos de spam de imagem com base em recursos visuais), quanto aos requisitos mais elevados em termos de largura de banda de spam de imagem que forçam os spammers a enviarem uma quantidade menor de spam em um determinado intervalo de tempo. Ambos os fatores podem ter tornado o spam de imagens menos conveniente para os spammers do que outros tipos de spam. No entanto, no final de 2011, foi detectado um renascimento do spam de imagens, e o spam de imagens atingiu 8% de todo o tráfego de spam, embora por um pequeno período.[2]

Ver também editar

Referências

  1. a b IBM X-Force® 2010, Mid-Year Trend and Risk Report (August 2010)
  2. a b IBM X-Force® 2012, Mid-Year Trend and Risk Report (September 2012)
  3. a b c Giorgio Fumera, Ignazio Pillai, Fabio Roli,«Spam filtering based on the analysis of text information embedded into images»  Journal of Machine Learning Research (special issue on Machine Learning in Computer Security), vol. 7, pp. 2699-2720, 12/2006.
  4. a b c Battista Biggio, Giorgio Fumera, Ignazio Pillai, Fabio Roli,Biggio, Battista; Fumera, Giorgio; Pillai, Ignazio; Roli, Fabio (2011). «A survey and experimental evaluation of image spam filtering techniques, Pattern Recognition Letters». Pattern Recognition Letters. 32: 1436–1446. doi:10.1016/j.patrec.2011.03.022  Volume 32, Issue 10, 15 July 2011, Pages 1436-1446, ISSN 0167-8655.
  5. «Bayes OCR Spam Assassin's Plugin» 
  6. a b Aradhye, H., Myers, G., Herson, J. A., 2005. Image analysis for efficient cat egorization of image-based spam e-mail. In: Proc. Int. Conf. on Document Analysis and Recognition, pp. 914–918.
  7. a b Dredze, M., Gevaryahu, R., Elias-Bachrach, A., 2007. Learning fast classifiers for image spam. In: Proc. 4th Conf. on Email and Anti-Spam (CEAS)
  8. Liu, Q., Qin, Z., Cheng, H., Wan, M., 2010. Efficient modeling of spam images. In: Int. Symp. on Intelligent Information Technology and Security Informatics. IEEE Computer Society, pp. 663–666.
  9. «Fuzzy - OCR Spam Assassin's Plugin» 
  10. Battista Biggio, Giorgio Fumera, Ignazio Pillai, Fabio Roli, "Image Spam Filtering Using Visual Information", 14th Int. Conf. on Image Analysis and Processing (ICIAP 2007), Modena, Italy, IEEE Computer Society, pp. 105--110, 10/09/2007.
  11. Fabio Roli, Battista Biggio, Giorgio Fumera, Ignazio Pillai, Riccardo Satta, "Image Spam Filtering by Detection of Adversarial Obfuscated Text", Workshop on Neural Information Processing Systems (NIPS), Whistler, British Columbia, Canada, 08/12/2007.
  12. Battista Biggio, Giorgio Fumera, Ignazio Pillai, Fabio Roli, "Improving Image Spam Filtering Using Image Text Features", Fifth Conference on Email and Anti-Spam (CEAS 2008), Mountain View, CA, USA, 21/08/2008.