Desenvolvida por Gottfried Leibniz, a regra da cadeia teve grande importância para o avanço do cálculo diferencial. Seu desenvolvimento foi devido à mudança de notação, ou seja, ao invés de usar a notação de Newton, Leibniz adotou uma notação referente à tangente, onde a derivada é dada pela diferença dos valores na ordenada dividida pela diferença dos valores na abcissa e onde essa diferença é infinitamente pequena
A partir desta observação, a regra da cadeia passou a permitir a diferenciação de funções diversas cujo argumento é outra função.
Intuitivamente, a regra da cadeia afirma que sabendo-se a taxa de variação instantânea de z relativa à y e àquela de y relativa à x permite que se calcule a taxa de variação instantânea de z relativa à x. Como dito por George F. Simmons: "se um carro viaja duas vezes mais rápido que uma bicicleta, e a bicicleta é quatro vezes mais rápida que um andarilho, então o carro viaja 2 × 4 = 8 vezes mais rapidamente que o andarilho."[1]
A regra da cadeia aplica-se também para funções de mais uma variável. Considere a função onde e então[2]
Suponha que cada função de é uma função de duas variáveis tais que e e que todas essas funções sejam diferenciáveis. Então a regra da cadeia é equivalente a:
Se considerarmos acima como um vetor função, podemos então utilizar a notação vetorial para escrever a equivalência acima como o produto escalar do gradiente de e a derivada de
Em geral, para funções de vetores a vetores, a regra da cadeia afirma que a Matriz Jacobiana da função composta é o produto de matrizes Jacobianas de duas funções: