Diferenças entre edições de "Inferência bayesiana"

2 118 bytes adicionados ,  05h11min de 20 de março de 2018
(→‎Pré-processamento: adicionado sobre regularização e renormalização)
 
=== Detector de SPAM ===
Considere uma caixa de emails com 1000 mensagens, 200 delas spam.
Um modelador decide fazer um algoritmo bem simples para obter um resultado
inicial de referência para um detector de spam (h_0 = não spam, h_1 = spam).
Seleciona então, como evidência, as palavra: viagra (100, 0), valium (70, 20), coursera (2, 120), edX (1, 100), hoje(20, 250), marcadas com o número de ocorrências dentre os emails que são (spam, não spam).
Seguindo a MLE, observa a obtenção da [[função de verossimilhança]]:
 
:<math>p(h=spam? | e=palavras) \propto p(e | h) p(h)</math>
 
Equação onde o lado direito pode ser obtido através dos dados:
:<math>p(h_1) = 200/1000</math>
:<math>p(h_0) = 1 - p(h_1) = 0.8</math>
:<math>p(viagra | h_1) = 100/200 = 0.5</math>
:<math>p(viagra | h_0) = 0/800 = 0</math>
:<math>p(nao\;viagra | h_1) = 0.5</math>
:<math>p(nao\;viagra | h_0) = 1</math>
:<math>p(valium | h_1) = 70/200 = 0.35</math>
:<math>p(valium | h_0) = 20/800 = 0.025</math>
:<math>p(nao\;valium | h_1) = 0.65</math>
:<math>p(nao\;valium | h_0) = 0.975</math>
:o mesmo para as outras palavras.
 
Assim, em posse de um email em que <math>palavras = (valium, edX, hoje)</math>, e não com as outras palavras,
pode-se obter <math>h_a</math> (i.e. a hipótese mais verossimilhante)
através da comparação:
:<math>p(h_0|palavras) \lessgtr p(h_1|palavras)</math>.
 
Este mesmo modelo pode ser ampliado para utilizar mais palavras,
potencialmente todas as encontradas em algum conjunto de emails
e considerado o [[corte de Luhn]].
Para otimização, podem ser mantidas apenas as palavras mais relevantes,
i.e. em que <math>p(palavra | h_0) \nsim p(palavra | h_1)</math>.
 
Note que as palavras/evidências foram interpretadas como Variáveis aleatórias independentes e identicamente distribuídas|variáveis IID]],
o que é ''falso'' já que viagra e valium são correlacionadas, portando não são independentes,
e a distribuição das palavras não é idêntica, por exemplo.
Mesmo assim, o método é considerado sólido e informativo,
e a MLE com evidências IID é o [[#BI|BI]], um dos algoritmos
mais tradicionais na [[#|IB]]
 
=== Regressão linear (caso específico da IB) ===
591

edições