Aprendizado de máquina adversário

O aprendizado de máquinas adversário é uma técnica de aprendizado de máquina que tenta enganar os modelos fornecendo informações enganosas.^[1]^[2]^[3] O motivo mais comum é causar um mau funcionamento em um modelo de aprendizado de máquina.

A maioria das técnicas de aprendizado de máquina foi projetada para funcionar em conjuntos de problemas específicos nos quais os dados de treinamento e teste são gerados a partir da mesma distribuição estatística (IID). Quando esses modelos são aplicados ao mundo real, os adversários podem fornecer dados que violam essa suposição estatística. Esses dados podem ser organizados para explorar vulnerabilidades específicas e comprometer os resultados.^[3]^[4]

História editar

Em Snow Crash (1992), o autor ofereceu cenários de tecnologia que eram vulneráveis a um ataque adversário. Em Zero History (2010), um personagem veste uma camiseta decorada de modo a torná-lo invisível para a vigilância eletrônica.^[5]

Em 2004, Nilesh Dalvi e outros notaram que classificadores lineares usados em filtros de spam podiam ser derrotados por simples "ataques de evasão", pois os spammers inseriam "boas palavras" em seus e-mails de spam. (Por volta de 2007, alguns remetentes de spam adicionaram ruído aleatório às palavras difusas dentro de "imagens de spam" para derrotar os filtros baseados em OCR.) Em 2006, Marco Barreno e outros publicaram "Can Machine Learning Be Secure?", Descrevendo uma ampla taxonomia de ataques. No final de 2013, muitos pesquisadores continuaram a esperar que classificadores não lineares (como máquinas de vetores de suporte e redes neurais) pudessem ser robustos contra adversários. Em 2012, as redes neurais profundas começaram a dominar os problemas de visão computacional; a partir de 2014, Christian Szegedy e outros demonstraram que redes neurais profundas podem ser enganadas por adversários.^[6]

Recentemente, foi observado que os ataques adversários são mais difíceis de produzir no mundo prático devido às diferentes restrições ambientais que anulam o efeito dos ruídos.^[7]^[8] Por exemplo, qualquer pequena rotação ou leve iluminação em uma imagem adversária pode destruir a adversidade.

Exemplos editar

Os exemplos incluem ataques aos filtros de spam, em que as mensagens de spam são disfarçadas por meio da escrita incorreta de palavras “ruins” ou da inserção de palavras “boas”;^[9]^[10] ataques à segurança do computador, como o ocultamento do código de malware dentro de pacotes de rede ou para enganar a detecção de assinaturas; ataques em reconhecimento biométrico onde falsos traços biométricos podem ser explorados para se passar por um usuário legítimo;^[11] ou comprometer as galerias de modelos dos usuários que se adaptam a características atualizadas ao longo do tempo.

Os pesquisadores mostraram que, alterando apenas um pixel, era possível enganar algoritmos de aprendizado profundo.^[12]^[13] Outros imprimiram em 3D uma tartaruga de brinquedo com uma textura projetada para fazer com que a IA de detecção de objetos do Google classificásse-a como um rifle, independentemente do ângulo de onde a tartaruga fosse vista.^[14] A criação da tartaruga só exigiu tecnologia de impressão em 3D de baixo custo, disponível comercialmente.^[15]

Uma imagem de um cachorro ajustada por uma máquina se mostrou parecida com um gato tanto para computadores quanto para humanos.^[16] Um estudo de 2019 relatou que os humanos podem adivinhar como as máquinas classificarão as imagens adversárias.^[17] Os pesquisadores descobriram métodos para perturbar a aparência de uma placa de pare, de forma que um veículo autônomo a classifique como uma placa de convergência ou de limite de velocidade.^[3]^[18]^[19]

A McAfee atacou o antigo sistema Mobileye da Tesla, enganando-o para que conduzisse 50 mph acima do limite de velocidade, simplesmente adicionando uma faixa de duas polegadas de fita preta a um sinal de limite de velocidade.^[20]^[21]

Padrões antagônicos em óculos ou roupas projetados para enganar os sistemas de reconhecimento facial ou leitores de placas de veículos levaram a uma indústria de nicho de "roupa urbana furtiva".^[22]

Um ataque adversário a uma rede neural pode permitir que um invasor injete algoritmos no sistema de destino.^[23] Os pesquisadores também podem criar entradas de áudio adversárias para disfarçar comandos para assistentes inteligentes em áudio de aparência benigna;^[24] uma literatura paralela explora a percepção humana de tais estímulos.^[25]^[26]

Algoritmos de aglomeração são usados em aplicativos de segurança. A análise de malware e vírus de computador visa identificar famílias de malware e gerar assinaturas de detecção específicas.^[27]^[28]

Modalidades de ataque editar

Taxonomia editar

Ataques contra algoritmos de aprendizado de máquina (supervisionado) foram categorizados em três eixos principais:^[29] influência no classificador, a violação de segurança e sua especificidade.

Influência do classificador: um ataque pode influenciar o classificador perturbando a fase de classificação. Isso pode ser precedido por uma fase de exploração para identificar vulnerabilidades. Os recursos do invasor podem ser restringidos pela presença de restrições de manipulação de dados.^[30]
Violação de segurança: um ataque pode fornecer dados maliciosos que são classificados como legítimos. Dados maliciosos fornecidos durante o treinamento podem fazer com que dados legítimos sejam rejeitados após o treinamento.
Especificidade: um ataque direcionado tenta permitir uma intrusão/perturbação específica. Como alternativa, um ataque indiscriminado cria um caos geral.

Essa taxonomia foi estendida para um modelo de ameaça mais abrangente que permite suposições explícitas sobre o objetivo do adversário, o conhecimento do sistema atacado, a capacidade de manipular os dados de entrada/componentes do sistema e a estratégia de ataque.^[31]^[32] Essa taxonomia foi estendida para incluir dimensões para estratégias de defesa contra ataques adversos.^[33] Alguns dos principais cenários de ataque são:

Estratégias editar

Evasão editar

Ataques de evasão^[31]^[32]^[34] são o tipo de ataque mais prevalente. Por exemplo, spammers e hackers frequentemente tentam escapar da detecção ofuscando o conteúdo de e-mails de spam e malware. As amostras são modificadas para evitar a detecção; ou seja, para ser classificado como legítimas. Isso não envolve influência sobre os dados de treinamento. Um exemplo claro de evasão é o spam baseado em imagens, no qual o conteúdo do spam é incorporado a uma imagem anexada para evitar a análise textual por filtros anti-spam. Outro exemplo de evasão é dado por ataques de spoofing contra sistemas de verificação biométrica.^[11]

Envenenamento editar

O envenenamento é a contaminação adversária dos dados de treinamento. Os sistemas de aprendizado de máquina podem ser treinados novamente usando dados coletados durante as operações. Por exemplo, os sistemas de detecção de intrusão (IDSs) são frequentemente treinados novamente usando esses dados. Um invasor pode envenenar esses dados ao injetar amostras maliciosas durante a operação que, subsequentemente, afetam o retreinamento.^[31]^[32]^[29]^[35]^[36]^[37]

Roubo de modelo editar

O roubo de modelo (também chamado de extração de modelo) envolve um adversário sondando um sistema de aprendizado de máquina como uma caixa preta para reconstruir o modelo ou extrair os dados em que foi treinado.^[38]^[39] Isso pode causar problemas quando os dados de treinamento ou o próprio modelo são sensíveis e confidenciais. Por exemplo, o roubo de modelo pode ser usado para extrair um modelo de negociação de ações proprietário que o adversário pode então usar para seu próprio benefício financeiro.

Tipos de ataques específicos editar

Há uma grande variedade de ataques adversários diferentes que podem ser usados contra sistemas de aprendizado de máquina. Muitos deles funcionam tanto em sistemas de aprendizado profundo quanto em modelos tradicionais de aprendizado de máquina, como SVMs^[40] e regressão linear.^[41] Uma amostra de alto nível desses tipos de ataque inclui:

Exemplos Adversários^[42]
Ataques de Trojan/Ataques de backdoor^[43]
Inversão do modelo^[44]
Inferência de pertencimento^[45]

Exemplos adversários editar

Um exemplo adversário refere-se a uma entrada especialmente criada que é projetada para parecer "normal" para humanos, mas causa classificação incorreta para um modelo de aprendizado de máquina. Frequentemente, uma forma de "ruído" especialmente projetada é usada para induzir as classificações erradas. Abaixo estão algumas técnicas atuais para gerar exemplos adversários na literatura (de forma alguma uma lista exaustiva).

Método de sinal de gradiente rápido (FGSM)^[46]
Gradiente descendente projetado (PGD)^[47]
Ataque de Carlini e Wagner (C&W)^[48]
Ataque de patch adversário^[49]

Defesas editar

Representação conceitual da corrida armamentista pró-ativa^[32]^[28]

Os pesquisadores propuseram uma abordagem de várias etapas para proteger o aprendizado de máquina.^[6]

Modelagem de ameaças - formalize os objetivos e recursos dos invasores em relação ao sistema alvo.
Simulação de ataque - formaliza o problema de otimização que o invasor tenta resolver de acordo com as possíveis estratégias de ataque.
Avaliação do impacto do ataque
Projeto de contramedida
Detecção de ruído (para ataques baseado em evasão)^[50]
Lavagem de informações - Alterar as informações recebidas por adversários (para ataques de roubo de modelos)^[39]

Mecanismos editar

Vários mecanismos de defesa contra ataques de evasão, envenenamento e privacidade foram propostos, incluindo:

Algoritmos seguros de aprendizagem^[10]^[51]^[52]
Sistemas classificadores múltiplos^[9]^[53]
Algoritmos escritos por IA.^[23]
IAs que exploram o ambiente de treinamento; por exemplo, no reconhecimento de imagem, navegar ativamente em um ambiente 3D em vez de digitalizar passivamente um conjunto fixo de imagens 2D.
Aprendizagem que preserva a privacidade^[32]^[54]
Algoritmo Ladder para competições no estilo Kaggle
Modelos baseados em teoria de jogos^[55]^[56]^[57]
Sanitização dos dados de treinamento
Treinamento adversário^[46]
Algoritmos de detecção de backdoor^[58]

Programas editar

Bibliotecas de software disponíveis, principalmente para teste e pesquisa.

AdversariaLib - inclui a implementação de ataques de evasão
AdLib - biblioteca Python com uma interface no estilo scikit que inclui implementações de uma série de ataques de evasão e defesas publicados
AlfaSVMLib - Adversarial Label Flip Attacks contra máquinas de vetores de suporte^[59]
Ataques de envenenamento contra máquinas de vetores de suporte e ataques contra algoritmos de agrupamento
deep-pwning - Metasploit para aprendizado profundo que atualmente tem ataques em redes neurais profundas usando Tensorflow.^[60] Esta estrutura atualmente é atualizada para manter a compatibilidade com as versões mais recentes do Python.
Cleverhans - uma biblioteca Tensorflow para testar modelos de aprendizado profundo existentes contra ataques conhecidos
foolbox - Biblioteca Python para criar exemplos adversários, implementa ataques múltiplos
SecML - Biblioteca Python para aprendizado de máquina seguro e explicável - inclui a implementação de uma ampla gama de algoritmos de ML e de ataque, suporte para dados densos e esparsos, multiprocessamento e ferramentas de visualização.
TrojAI - Biblioteca Python para gerar modelos backdoored e trojaned em escala para pesquisa de detecção de trojan
Adversarial Robustness Toolkit (IBM ART) - Biblioteca Python para Segurança de Aprendizado de Máquina
Advertorch - caixa de ferramentas Python para pesquisa de robustez adversária cujas funções principais são implementadas em PyTorch

Ver também editar

Reconhecimento de padrões

Referências editar

↑ Kianpour, Mazaher; Wen, Shao-Fang (2020). «Timing Attacks on Machine Learning: State of the Art». Intelligent Systems and Applications. Col: Advances in Intelligent Systems and Computing (em inglês). 1037. [S.l.: s.n.] pp. 111–125. ISBN 978-3-030-29515-8. doi:10.1007/978-3-030-29516-5_10
↑ Bengio, Samy; Goodfellow, Ian J. (2017). «Adversarial Machine Learning at Scale». arXiv:1611.01236 [cs.CV]
↑ ^a ^b ^c Lim, Hazel Si Min; Taeihagh, Araz (2019). «Algorithmic Decision-Making in AVs: Understanding Ethical and Technical Concerns for Smart Cities». Sustainability (em inglês). 11. 5791 páginas. Bibcode:2019arXiv191013122L. arXiv:1910.13122 . doi:10.3390/su11205791
↑ Goodfellow, Ian; McDaniel, Patrick; Papernot, Nicolas (25 de junho de 2018). «Making machine learning robust against adversarial inputs». Communications of the ACM (em inglês). 61: 56–66. ISSN 0001-0782. doi:10.1145/3134599. Consultado em 13 de dezembro de 2018
↑ Vincent, James (12 de abril de 2017). «Magic AI: these are the optical illusions that trick, fool, and flummox computers». The Verge (em inglês). Consultado em 27 de março de 2020
↑ ^a ^b Biggio, Battista; Roli, Fabio (dezembro de 2018). «Wild patterns: Ten years after the rise of adversarial machine learning». Pattern Recognition. 84: 317–331. arXiv:1712.03141 . doi:10.1016/j.patcog.2018.07.023
↑ Kurakin, Alexey; Goodfellow, Ian. «Adversarial examples in the physical world». arXiv:1607.02533 [cs.CV]
↑ Gupta, Kishor Datta, Dipankar Dasgupta, and Zahid Akhtar. "Applicability issues of Evasion-Based Adversarial Attacks and Mitigation Techniques." 2020 IEEE Symposium Series on Computational Intelligence (SSCI). 2020.
↑ ^a ^b Biggio, Battista; Fumera, Giorgio; Roli, Fabio (2010). «Multiple classifier systems for robust classifier design in adversarial environments». International Journal of Machine Learning and Cybernetics. 1: 27–41. ISSN 1868-8071. doi:10.1007/s13042-010-0007-7
↑ ^a ^b Brückner, Michael; Kanzow, Christian; Scheffer, Tobias (2012). «Static Prediction Games for Adversarial Learning Problems» (PDF). Journal of Machine Learning Research. 13: 2617–2654. ISSN 1533-7928
↑ ^a ^b Rodrigues, Ricardo N.; Ling, Lee Luan; Govindaraju, Venu (1 de junho de 2009). «Robustness of multimodal biometric fusion methods against spoof attacks» (PDF). Journal of Visual Languages & Computing (em inglês). 20: 169–179. ISSN 1045-926X. doi:10.1016/j.jvlc.2009.01.010
↑ Su, Jiawei; Vargas, Danilo Vasconcellos; Sakurai, Kouichi (2019). «One Pixel Attack for Fooling Deep Neural Networks». IEEE Transactions on Evolutionary Computation. 23: 828–841. arXiv:1710.08864 . doi:10.1109/TEVC.2019.2890858
↑ Su, Jiawei; Vargas, Danilo Vasconcellos; Sakurai, Kouichi (outubro de 2019). «One Pixel Attack for Fooling Deep Neural Networks». IEEE Transactions on Evolutionary Computation. 23: 828–841. ISSN 1941-0026. arXiv:1710.08864 . doi:10.1109/TEVC.2019.2890858
↑ «Single pixel change fools AI programs». BBC News. 3 de novembro de 2017. Consultado em 12 de fevereiro de 2018
↑ Athalye, Anish; Engstrom, Logan. «Synthesizing Robust Adversarial Examples». arXiv:1707.07397 [cs.CV]
↑ «AI Has a Hallucination Problem That's Proving Tough to Fix». WIRED. 2018. Consultado em 10 de março de 2018
↑ Zhou, Zhenglong; Firestone, Chaz (2019). «Humans can decipher adversarial images». Nature Communications. 10: 1334. Bibcode:2019NatCo..10.1334Z. PMC 6430776 . PMID 30902973. arXiv:1809.04120 . doi:10.1038/s41467-019-08931-6
↑ Jain, Anant (9 de fevereiro de 2019). «Breaking neural networks with adversarial attacks - Towards Data Science». Medium (em inglês). Consultado em 15 de julho de 2019
↑ Ackerman, Evan (4 de agosto de 2017). «Slight Street Sign Modifications Can Completely Fool Machine Learning Algorithms». IEEE Spectrum: Technology, Engineering, and Science News (em inglês). Consultado em 15 de julho de 2019
↑ «A Tiny Piece of Tape Tricked Teslas Into Speeding Up 50 MPH». Wired (em inglês). 2020. Consultado em 11 de março de 2020
↑ «Model Hacking ADAS to Pave Safer Roads for Autonomous Vehicles». McAfee Blogs (em inglês). 19 de fevereiro de 2020. Consultado em 11 de março de 2020
↑ Seabrook, John (2020). «Dressing for the Surveillance Age». The New Yorker (em inglês). Consultado em 5 de abril de 2020
↑ ^a ^b Heaven, Douglas (outubro de 2019). «Why deep-learning AIs are so easy to fool». Nature (em inglês). 574: 163–166. Bibcode:2019Natur.574..163H. PMID 31597977. doi:10.1038/d41586-019-03013-5
↑ Hutson, Matthew (10 de maio de 2019). «AI can now defend itself against malicious messages hidden in speech». Nature. PMID 32385365. doi:10.1038/d41586-019-01510-1
↑ Lepori, Michael A; Firestone, Chaz (27 de março de 2020). «Can you hear me now? Sensitive comparisons of human and machine perception». arXiv:2003.12362 [eess.AS]
↑ Vadillo, Jon; Santana, Roberto (23 de janeiro de 2020). «On the human evaluation of audio adversarial examples». arXiv:2001.08444 [eess.AS]
↑ D. B. Skillicorn. "Adversarial knowledge discovery". IEEE Intelligent Systems, 24:54–61, 2009.
↑ ^a ^b B. Biggio, G. Fumera, and F. Roli. "Pattern recognition systems under attack: Design issues and research challenges". Int'l J. Patt. Recogn. Artif. Intell., 28(7):1460002, 2014.
↑ ^a ^b Barreno, Marco; Nelson, Blaine; Joseph, Anthony D.; Tygar, J. D. (2010). «The security of machine learning» (PDF). Machine Learning. 81: 121–148. doi:10.1007/s10994-010-5188-5
↑ Sikos, Leslie F. (2019). AI in Cybersecurity. Col: Intelligent Systems Reference Library. 151. Cham: Springer. ISBN 978-3-319-98841-2. doi:10.1007/978-3-319-98842-9
↑ ^a ^b ^c B. Biggio, G. Fumera, and F. Roli. "Security evaluation of pattern classifiers under attack Arquivado em 2018-05-18 no Wayback Machine". IEEE Transactions on Knowledge and Data Engineering, 26(4):984–996, 2014.
↑ ^a ^b ^c ^d ^e Biggio, Battista; Corona, Igino; Nelson, Blaine; Rubinstein, Benjamin I. P.; Maiorca, Davide; Fumera (2014). «Security Evaluation of Support Vector Machines in Adversarial Environments». Support Vector Machines Applications (em inglês). [S.l.]: Springer International Publishing. pp. 105–153. ISBN 978-3-319-02300-7. arXiv:1401.7727 . doi:10.1007/978-3-319-02300-7_4
↑ Heinrich, Kai; Graf, Johannes; Chen, Ji; Laurisch, Jakob; Zschech, Patrick (15 de junho de 2020). «FOOL ME ONCE, SHAME ON YOU, FOOL ME TWICE, SHAME ON ME: A TAXONOMY OF ATTACK AND DE-FENSE PATTERNS FOR AI SECURITY». ECIS 2020 Research Papers
↑ B. Nelson, B. I. Rubinstein, L. Huang, A. D. Joseph, S. J. Lee, S. Rao, and J. D. Tygar. "Query strategies for evading convex-inducing classifiers". J. Mach. Learn. Res., 13:1293–1332, 2012
↑ B. Biggio, B. Nelson, and P. Laskov. "Support vector machines under adversarial label noise". In Journal of Machine Learning Research - Proc. 3rd Asian Conf. Machine Learning, volume 20, pp. 97–112, 2011.
↑ M. Kloft and P. Laskov. "Security analysis of online centroid anomaly detection". Journal of Machine Learning Research, 13:3647–3690, 2012.
↑ Moisejevs, Ilja (15 de julho de 2019). «Poisoning attacks on Machine Learning - Towards Data Science». Medium (em inglês). Consultado em 15 de julho de 2019
↑ «How to steal modern NLP systems with gibberish?». cleverhans-blog (em inglês). 6 de abril de 2020. Consultado em 15 de outubro de 2020
↑ ^a ^b Wang, Xinran; Xiang, Yu (13 de setembro de 2020). «Information Laundering for Model Privacy». arXiv:2009.06112 [cs.CR]
↑ Biggio, Battista; Nelson, Blaine (25 de março de 2013). «Poisoning Attacks against Support Vector Machines». arXiv:1206.6389 [cs.LG]
↑ Jagielski, Matthew; Oprea, Alina; Biggio, Battista; Liu, Chang; Nita-Rotaru, Cristina; Li, Bo (maio de 2018). «Manipulating Machine Learning: Poisoning Attacks and Countermeasures for Regression Learning». IEEE. 2018 IEEE Symposium on Security and Privacy (SP): 19–35. ISBN 978-1-5386-4353-2. arXiv:1804.00308 . doi:10.1109/sp.2018.00057
↑ «Attacking Machine Learning with Adversarial Examples». OpenAI (em inglês). 24 de fevereiro de 2017. Consultado em 15 de outubro de 2020
↑ Gu, Tianyu; Dolan-Gavitt, Brendan (11 de março de 2019). «BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain». arXiv:1708.06733 [cs.CR]
↑ Veale, Michael; Binns, Reuben; Edwards, Lilian (28 de novembro de 2018). «Algorithms that remember: model inversion attacks and data protection law». Philosophical Transactions. Series A, Mathematical, Physical, and Engineering Sciences. 376. Bibcode:2018RSPTA.37680083V. ISSN 1364-503X. PMC 6191664 . PMID 30322998. arXiv:1807.04644 . doi:10.1098/rsta.2018.0083
↑ Shokri, Reza; Stronati, Marco (31 de março de 2017). «Membership Inference Attacks against Machine Learning Models». arXiv:1610.05820 [cs.CR]
↑ ^a ^b Goodfellow, Ian J.; Shlens, Jonathon (20 de março de 2015). «Explaining and Harnessing Adversarial Examples». arXiv:1412.6572 [stat.ML]
↑ Madry, Aleksander; Makelov, Aleksandar (4 de setembro de 2019). «Towards Deep Learning Models Resistant to Adversarial Attacks». arXiv:1706.06083 [stat.ML]
↑ Carlini, Nicholas; Wagner, David (22 de março de 2017). «Towards Evaluating the Robustness of Neural Networks». arXiv:1608.04644 [cs.CR]
↑ Brown, Tom B.; Mané, Dandelion (16 de maio de 2018). «Adversarial Patch». arXiv:1712.09665 [cs.CV]
↑ Kishor Datta Gupta; Akhtar, Zahid. «Determining Sequence of Image Processing Technique (IPT) to Detect Adversarial Attacks». arXiv:2007.00337 [cs.CV]
↑ O. Dekel, O. Shamir, and L. Xiao. "Learning to classify with missing and corrupted features". Machine Learning, 81:149–178, 2010.
↑ Liu, Wei; Chawla, Sanjay (2010). «Mining adversarial patterns via regularized loss minimization» (PDF). Machine Learning. 81: 69–83. doi:10.1007/s10994-010-5199-2
↑ B. Biggio, G. Fumera, and F. Roli. "Evade hard multiple classifier systems". In O. Okun and G. Valentini, editors, Supervised and Unsupervised Ensemble Methods and Their Applications, volume 245 of Studies in Computational Intelligence, pages 15–38. Springer Berlin / Heidelberg, 2009.
↑ B. I. P. Rubinstein, P. L. Bartlett, L. Huang, and N. Taft. "Learning in a large function space: Privacy- preserving mechanisms for svm learning". Journal of Privacy and Confidentiality, 4(1):65–100, 2012.
↑ M. Kantarcioglu, B. Xi, C. Clifton. "Classifier Evaluation and Attribute Selection against Active Adversaries". Data Min. Knowl. Discov., 22:291–335, January 2011.
↑ Chivukula, Aneesh; Yang, Xinghao; Liu, Wei; Zhu, Tianqing; Zhou, Wanlei (2020). «Game Theoretical Adversarial Deep Learning with Variational Adversaries». IEEE Transactions on Knowledge and Data Engineering. 1 páginas. ISSN 1558-2191. doi:10.1109/TKDE.2020.2972320
↑ Chivukula, Aneesh Sreevallabh; Liu, Wei (2019). «Adversarial Deep Learning Models with Multiple Adversaries». IEEE Transactions on Knowledge and Data Engineering. 31: 1066–1079. ISSN 1558-2191. doi:10.1109/TKDE.2018.2851247
↑ «TrojAI». www.iarpa.gov. Consultado em 14 de outubro de 2020
↑ H. Xiao, B. Biggio, B. Nelson, H. Xiao, C. Eckert, and F. Roli. "Support vector machines under adversarial label contamination". Neurocomputing, Special Issue on Advances in Learning with Label Noise, In Press.
↑ «cchio/deep-pwning». GitHub. Consultado em 8 de agosto de 2016

Ligações externas editar

Workshop NIPS 2007 sobre aprendizado de máquina em ambientes adversários para segurança de computador
Laskov, Pavel; Lippmann, Richard (2010). «Machine learning in adversarial environments». Machine Learning. 81: 115–119. doi:10.1007/s10994-010-5207-6
Oficina de Perspectivas de Dagstuhl sobre "Métodos de Aprendizado de Máquina para Segurança de Computadores"
Workshop on Artificial Intelligence and Security, (AISec) Series

[1] Kianpour, Mazaher; Wen, Shao-Fang (2020). «Timing Attacks on Machine Learning: State of the Art». Intelligent Systems and Applications. Col: Advances in Intelligent Systems and Computing (em inglês). 1037. [S.l.: s.n.] pp. 111–125. ISBN 978-3-030-29515-8. doi:10.1007/978-3-030-29516-5_10

[2] Bengio, Samy; Goodfellow, Ian J. (2017). «Adversarial Machine Learning at Scale». arXiv:1611.01236 [cs.CV]

[LimTaeihagh2019-3] Lim, Hazel Si Min; Taeihagh, Araz (2019). «Algorithmic Decision-Making in AVs: Understanding Ethical and Technical Concerns for Smart Cities». Sustainability (em inglês). 11. 5791 páginas. Bibcode:2019arXiv191013122L. arXiv:1910.13122 . doi:10.3390/su11205791

[GoodfellowMcDaniel2018-4] Goodfellow, Ian; McDaniel, Patrick; Papernot, Nicolas (25 de junho de 2018). «Making machine learning robust against adversarial inputs». Communications of the ACM (em inglês). 61: 56–66. ISSN 0001-0782. doi:10.1145/3134599. Consultado em 13 de dezembro de 2018

[5] Vincent, James (12 de abril de 2017). «Magic AI: these are the optical illusions that trick, fool, and flummox computers». The Verge (em inglês). Consultado em 27 de março de 2020

[:0-6] Biggio, Battista; Roli, Fabio (dezembro de 2018). «Wild patterns: Ten years after the rise of adversarial machine learning». Pattern Recognition. 84: 317–331. arXiv:1712.03141 . doi:10.1016/j.patcog.2018.07.023

[7] Kurakin, Alexey; Goodfellow, Ian. «Adversarial examples in the physical world». arXiv:1607.02533 [cs.CV]

[8] Gupta, Kishor Datta, Dipankar Dasgupta, and Zahid Akhtar. "Applicability issues of Evasion-Based Adversarial Attacks and Mitigation Techniques." 2020 IEEE Symposium Series on Computational Intelligence (SSCI). 2020.

[BiggioFumera2010-9] Biggio, Battista; Fumera, Giorgio; Roli, Fabio (2010). «Multiple classifier systems for robust classifier design in adversarial environments». International Journal of Machine Learning and Cybernetics. 1: 27–41. ISSN 1868-8071. doi:10.1007/s13042-010-0007-7

[Adversarial_Machine_Learning_18A-10] Brückner, Michael; Kanzow, Christian; Scheffer, Tobias (2012). «Static Prediction Games for Adversarial Learning Problems» (PDF). Journal of Machine Learning Research. 13: 2617–2654. ISSN 1533-7928

[RodriguesLing2009-11] Rodrigues, Ricardo N.; Ling, Lee Luan; Govindaraju, Venu (1 de junho de 2009). «Robustness of multimodal biometric fusion methods against spoof attacks» (PDF). Journal of Visual Languages & Computing (em inglês). 20: 169–179. ISSN 1045-926X. doi:10.1016/j.jvlc.2009.01.010

[12] Su, Jiawei; Vargas, Danilo Vasconcellos; Sakurai, Kouichi (2019). «One Pixel Attack for Fooling Deep Neural Networks». IEEE Transactions on Evolutionary Computation. 23: 828–841. arXiv:1710.08864 . doi:10.1109/TEVC.2019.2890858

[13] Su, Jiawei; Vargas, Danilo Vasconcellos; Sakurai, Kouichi (outubro de 2019). «One Pixel Attack for Fooling Deep Neural Networks». IEEE Transactions on Evolutionary Computation. 23: 828–841. ISSN 1941-0026. arXiv:1710.08864 . doi:10.1109/TEVC.2019.2890858

[14] «Single pixel change fools AI programs». BBC News. 3 de novembro de 2017. Consultado em 12 de fevereiro de 2018

[15] Athalye, Anish; Engstrom, Logan. «Synthesizing Robust Adversarial Examples». arXiv:1707.07397 [cs.CV]

[16] «AI Has a Hallucination Problem That's Proving Tough to Fix». WIRED. 2018. Consultado em 10 de março de 2018

[17] Zhou, Zhenglong; Firestone, Chaz (2019). «Humans can decipher adversarial images». Nature Communications. 10: 1334. Bibcode:2019NatCo..10.1334Z. PMC 6430776 . PMID 30902973. arXiv:1809.04120 . doi:10.1038/s41467-019-08931-6

[18] Jain, Anant (9 de fevereiro de 2019). «Breaking neural networks with adversarial attacks - Towards Data Science». Medium (em inglês). Consultado em 15 de julho de 2019

[19] Ackerman, Evan (4 de agosto de 2017). «Slight Street Sign Modifications Can Completely Fool Machine Learning Algorithms». IEEE Spectrum: Technology, Engineering, and Science News (em inglês). Consultado em 15 de julho de 2019

[20] «A Tiny Piece of Tape Tricked Teslas Into Speeding Up 50 MPH». Wired (em inglês). 2020. Consultado em 11 de março de 2020

[21] «Model Hacking ADAS to Pave Safer Roads for Autonomous Vehicles». McAfee Blogs (em inglês). 19 de fevereiro de 2020. Consultado em 11 de março de 2020

[22] Seabrook, John (2020). «Dressing for the Surveillance Age». The New Yorker (em inglês). Consultado em 5 de abril de 2020

[nature_why-23] Heaven, Douglas (outubro de 2019). «Why deep-learning AIs are so easy to fool». Nature (em inglês). 574: 163–166. Bibcode:2019Natur.574..163H. PMID 31597977. doi:10.1038/d41586-019-03013-5

[24] Hutson, Matthew (10 de maio de 2019). «AI can now defend itself against malicious messages hidden in speech». Nature. PMID 32385365. doi:10.1038/d41586-019-01510-1

[25] Lepori, Michael A; Firestone, Chaz (27 de março de 2020). «Can you hear me now? Sensitive comparisons of human and machine perception». arXiv:2003.12362 [eess.AS]

[26] Vadillo, Jon; Santana, Roberto (23 de janeiro de 2020). «On the human evaluation of audio adversarial examples». arXiv:2001.08444 [eess.AS]

[Adversarial_Machine_Learning_42A-27] D. B. Skillicorn. "Adversarial knowledge discovery". IEEE Intelligent Systems, 24:54–61, 2009.

[Adversarial_Machine_Learning_46A-28] B. Biggio, G. Fumera, and F. Roli. "Pattern recognition systems under attack: Design issues and research challenges". Int'l J. Patt. Recogn. Artif. Intell., 28(7):1460002, 2014.

[Adversarial_Machine_Learning_2-29] Barreno, Marco; Nelson, Blaine; Joseph, Anthony D.; Tygar, J. D. (2010). «The security of machine learning» (PDF). Machine Learning. 81: 121–148. doi:10.1007/s10994-010-5188-5

[30] Sikos, Leslie F. (2019). AI in Cybersecurity. Col: Intelligent Systems Reference Library. 151. Cham: Springer. ISBN 978-3-319-98841-2. doi:10.1007/978-3-319-98842-9

[Adversarial_Machine_Learning_4A-31] B. Biggio, G. Fumera, and F. Roli. "Security evaluation of pattern classifiers under attack Arquivado em 2018-05-18 no Wayback Machine". IEEE Transactions on Knowledge and Data Engineering, 26(4):984–996, 2014.

[Adversarial_Machine_Learning_5A-32] Biggio, Battista; Corona, Igino; Nelson, Blaine; Rubinstein, Benjamin I. P.; Maiorca, Davide; Fumera (2014). «Security Evaluation of Support Vector Machines in Adversarial Environments». Support Vector Machines Applications (em inglês). [S.l.]: Springer International Publishing. pp. 105–153. ISBN 978-3-319-02300-7. arXiv:1401.7727 . doi:10.1007/978-3-319-02300-7_4

[33] Heinrich, Kai; Graf, Johannes; Chen, Ji; Laurisch, Jakob; Zschech, Patrick (15 de junho de 2020). «FOOL ME ONCE, SHAME ON YOU, FOOL ME TWICE, SHAME ON ME: A TAXONOMY OF ATTACK AND DE-FENSE PATTERNS FOR AI SECURITY». ECIS 2020 Research Papers

[Adversarial_Machine_Learning_36A-34] B. Nelson, B. I. Rubinstein, L. Huang, A. D. Joseph, S. J. Lee, S. Rao, and J. D. Tygar. "Query strategies for evading convex-inducing classifiers". J. Mach. Learn. Res., 13:1293–1332, 2012

[Adversarial_Machine_Learning_15A-35] B. Biggio, B. Nelson, and P. Laskov. "Support vector machines under adversarial label noise". In Journal of Machine Learning Research - Proc. 3rd Asian Conf. Machine Learning, volume 20, pp. 97–112, 2011.

[Adversarial_Machine_Learning_29A-36] M. Kloft and P. Laskov. "Security analysis of online centroid anomaly detection". Journal of Machine Learning Research, 13:3647–3690, 2012.

[37] Moisejevs, Ilja (15 de julho de 2019). «Poisoning attacks on Machine Learning - Towards Data Science». Medium (em inglês). Consultado em 15 de julho de 2019

[38] «How to steal modern NLP systems with gibberish?». cleverhans-blog (em inglês). 6 de abril de 2020. Consultado em 15 de outubro de 2020

[:1-39] Wang, Xinran; Xiang, Yu (13 de setembro de 2020). «Information Laundering for Model Privacy». arXiv:2009.06112 [cs.CR]

[40] Biggio, Battista; Nelson, Blaine (25 de março de 2013). «Poisoning Attacks against Support Vector Machines». arXiv:1206.6389 [cs.LG]

[41] Jagielski, Matthew; Oprea, Alina; Biggio, Battista; Liu, Chang; Nita-Rotaru, Cristina; Li, Bo (maio de 2018). «Manipulating Machine Learning: Poisoning Attacks and Countermeasures for Regression Learning». IEEE. 2018 IEEE Symposium on Security and Privacy (SP): 19–35. ISBN 978-1-5386-4353-2. arXiv:1804.00308 . doi:10.1109/sp.2018.00057

[42] «Attacking Machine Learning with Adversarial Examples». OpenAI (em inglês). 24 de fevereiro de 2017. Consultado em 15 de outubro de 2020

[43] Gu, Tianyu; Dolan-Gavitt, Brendan (11 de março de 2019). «BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain». arXiv:1708.06733 [cs.CR]

[44] Veale, Michael; Binns, Reuben; Edwards, Lilian (28 de novembro de 2018). «Algorithms that remember: model inversion attacks and data protection law». Philosophical Transactions. Series A, Mathematical, Physical, and Engineering Sciences. 376. Bibcode:2018RSPTA.37680083V. ISSN 1364-503X. PMC 6191664 . PMID 30322998. arXiv:1807.04644 . doi:10.1098/rsta.2018.0083

[45] Shokri, Reza; Stronati, Marco (31 de março de 2017). «Membership Inference Attacks against Machine Learning Models». arXiv:1610.05820 [cs.CR]

[Explaining_and_Harnessing_Adversari-46] Goodfellow, Ian J.; Shlens, Jonathon (20 de março de 2015). «Explaining and Harnessing Adversarial Examples». arXiv:1412.6572 [stat.ML]

[47] Madry, Aleksander; Makelov, Aleksandar (4 de setembro de 2019). «Towards Deep Learning Models Resistant to Adversarial Attacks». arXiv:1706.06083 [stat.ML]

[48] Carlini, Nicholas; Wagner, David (22 de março de 2017). «Towards Evaluating the Robustness of Neural Networks». arXiv:1608.04644 [cs.CR]

[49] Brown, Tom B.; Mané, Dandelion (16 de maio de 2018). «Adversarial Patch». arXiv:1712.09665 [cs.CV]

[50] Kishor Datta Gupta; Akhtar, Zahid. «Determining Sequence of Image Processing Technique (IPT) to Detect Adversarial Attacks». arXiv:2007.00337 [cs.CV]

[Adversarial_Machine_Learning_22A-51] O. Dekel, O. Shamir, and L. Xiao. "Learning to classify with missing and corrupted features". Machine Learning, 81:149–178, 2010.

[Adversarial_Machine_Learning_45A-52] Liu, Wei; Chawla, Sanjay (2010). «Mining adversarial patterns via regularized loss minimization» (PDF). Machine Learning. 81: 69–83. doi:10.1007/s10994-010-5199-2

[Adversarial_Machine_Learning_10A-53] B. Biggio, G. Fumera, and F. Roli. "Evade hard multiple classifier systems". In O. Okun and G. Valentini, editors, Supervised and Unsupervised Ensemble Methods and Their Applications, volume 245 of Studies in Computational Intelligence, pages 15–38. Springer Berlin / Heidelberg, 2009.

[Adversarial_Machine_Learning_41A-54] B. I. P. Rubinstein, P. L. Bartlett, L. Huang, and N. Taft. "Learning in a large function space: Privacy- preserving mechanisms for svm learning". Journal of Privacy and Confidentiality, 4(1):65–100, 2012.

[feature_select-55] M. Kantarcioglu, B. Xi, C. Clifton. "Classifier Evaluation and Attribute Selection against Active Adversaries". Data Min. Knowl. Discov., 22:291–335, January 2011.

[56] Chivukula, Aneesh; Yang, Xinghao; Liu, Wei; Zhu, Tianqing; Zhou, Wanlei (2020). «Game Theoretical Adversarial Deep Learning with Variational Adversaries». IEEE Transactions on Knowledge and Data Engineering. 1 páginas. ISSN 1558-2191. doi:10.1109/TKDE.2020.2972320

[57] Chivukula, Aneesh Sreevallabh; Liu, Wei (2019). «Adversarial Deep Learning Models with Multiple Adversaries». IEEE Transactions on Knowledge and Data Engineering. 31: 1066–1079. ISSN 1558-2191. doi:10.1109/TKDE.2018.2851247

[58] «TrojAI». www.iarpa.gov. Consultado em 14 de outubro de 2020

[Adversarial_Machine_Learning_49A-59] H. Xiao, B. Biggio, B. Nelson, H. Xiao, C. Eckert, and F. Roli. "Support vector machines under adversarial label contamination". Neurocomputing, Special Issue on Advances in Learning with Label Noise, In Press.

[60] «cchio/deep-pwning». GitHub. Consultado em 8 de agosto de 2016

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]