Sobre-ajuste ou sobreajuste (do inglês: overfitting) é um termo usado em estatística para descrever quando um modelo estatístico se ajusta muito bem ao conjunto de dados anteriormente observado, mas se mostra ineficaz para prever novos resultados.[1][2]

Sistema de predição em que a linha verde representa um modelo sobreajustado e a linha preta um modelo regularizado.

É comum que a amostra apresente desvios causados por erros de medição ou fatores aleatórios. Ocorre o sobre-ajuste quando o modelo se ajusta a estes. Um modelo sobre-ajustado apresenta alta precisão quando testado com seu conjunto de dados, porém tal modelo não é uma boa representação da realidade e por isso deve ser evitado. É bem comum que estes modelos apresentem considerável variância e que seus gráficos tenham várias pequenas oscilações, portanto espera-se que modelos representativos sejam convexos.

Uma ferramenta para contornar o problema do sobre-ajuste é a regularização, que adiciona à função custo o valor dos parâmetros. Tal adição resulta na eliminação de parâmetros de pouca importância e, portanto, em um modelo mais convexo, do qual que se espera que seja mais representativo da realidade. Através da validação cruzada, em que testamos o nosso modelo em relação a uma parte reservada do conjunto de dados que não foi utilizada no treino do modelo em questão, é possível se ter uma ideia de se o modelo sofre de sobre-ajuste ou não.

Ver também editar

Referências

  1. Miguel Cárdenas-Montes. Sobreajuste - Overfitting. Ciemat - Centro de Investigaciones Energéticas Medioambientales y Tecnológicas.
  2. Nate Silver. Sinal e o Ruído. Editora Intrinseca, 2013 - 544 pp, p.190-1.

Bibliografia editar