Cópula (estatística)

Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.

Em estatística, uma função cópula é usada como método geral para formular distribuições multivariadas de maneira que diversos tipos gerais de dependência possam ser representados ^[1]

Ideia básica editar

Considere duas variáveis aleatórias $X$ e $Y$ com distribuição cumulativa conjunta dada por $F_{X,Y}(x,y)$ e distribuições cumulativas marginais dadas por $F_{X}(x)$ e $F_{Y}(y)$ . Segundo o teorema de Sklar,^[1] para qualquer par de variáveis aleatórias existe uma função $C(u,v)$ tal que:

F_{X,Y}\left(x,y\right)=C(F_{X}(x),F_{Y}(y))

Sempre é possível fazer a transformação de variáveis

U=F_{X}\left(X\right)

e

V=F_{Y}\left(Y\right)

,

de forma que U e V possuem ambas distribuições marginais uniformes no intervalo $[0,1]$ . A distribuição cumulativa conjunta de U e V é dada pela própria função cópula:

F_{U,V}\left(u,v\right)=C(u,v)

A função cópula C(u,v) contém todas as informações da distribuição de probabilidade que independem das distribuições marginais. Dessa forma, pode-se dizer que as cópulas codificam a dependência entre as variáveis. Com essa construção temos que a distribuição conjunta de variáveis aleatórias podem ser decompostas em distribuições marginais de cada uma das variáveis, que contém todas as informações sobre cada uma das variáveis correspondentes, e cópula, que contém toda a informação de como as variáveis dependem uma das outras.

Definição formal editar

Uma cópula é uma distribuição cumulativa conjunta multivariada no cubo unitário n-dimensional $[0,1]^{n}$ tal que todas as distribuições marginais são uniformes no intervalo $[0,1]$ :

C\left(u_{1},u_{2},\ldots ,u_{n}\right)=C(\mathbf {u} )=\mathrm {Prob} \left(U_{1}<u_{1},U_{2}<u_{2},\ldots ,U_{n}<u_{n}\right)

com

u_{n}\in [0,1]

,

\operatorname {Prob} \left(U_{i}<u_{i}\right)=u_{i}

para todo

i\in \{1,2,\ldots ,n\}

.

De maneira alternativa, uma função $C:\left[0,1\right]^{n}\rightarrow [0,1]$ é dita uma cópula em n dimensões se:

C(\mathbf {u} )=0

sempre que ao menos uma das componentes de

\mathbf {u}

for nula,

C(\mathbf {u} )=u_{i}

sempre que todas as componentes de

\mathbf {u}

são iguais a 1, exceto a i-ésima, que é igual a

u_{i}

,

C(\mathbf {u} )

é n-crescente, ou seja, todo

B=\times _{i=1}^{n}[x_{i},y_{i}]\subseteq [0,1]^{n}

possui C-volume maior ou igual a 0, com C-volume definido por

\sum _{\mathbf {z} \in \times _{i=1}^{n}\{x_{i},y_{i}\}}(-1)^{\operatorname {card} \{k\mid z_{k}=x_{k}\}}C(\mathbf {z} )

.

Caso n=2 editar

No caso bivariado, a função $C\left(u,v\right):[0,1]\times [0,1]\rightarrow [0,1]$ é denominada uma cópula se:

C(0,v)=C\left(u,0\right)=0

,

C\left(u,1\right)=u

e

C\left(1,v\right)=v

,

Se

u_{1}\leq u_{2}

e

v_{1}\leq v_{2}

, então

C\left(u_{2},v_{2}\right)-C\left(u_{1},v_{2}\right)-C\left(u_{2},v_{1}\right)+C\left(u_{1},v_{1}\right)\geq 0

Limites de Fréchet-Hoeffding editar

As funções $W(u,v)=\max(0,u+v-1)$ e $M(u,v)=\min(u,v)$ são cópulas bivariadas e possuem a propriedade de limitar por cima e por baixo todas as outras cópulas possíveis. Assim, se $C(u,v)$ é uma cópula em 2 dimensões, então:

W\left(u,v\right)\leq C(u,v)\leq M(u,v)

para quaisquer u e v no intervalo unitário.

No caso multivariado também existem cópulas limítrofes dadas por:

W(u_{1},u_{2},\ldots ,u_{n})=\max \left(1-n+\sum _{i=1}^{n}u_{i},0\right)

e

M(u_{1},u_{2},\ldots ,u_{n})=\min \left(u_{1},u_{2},\ldots ,u_{n}\right)

,

de tal forma que $W(\mathbf {u} )\leq C(\mathbf {u} )\leq M(\mathbf {u} )$ .

Densidade de Cópula editar

A função densidade de probabilidade é dada por:

p_{X,Y}(x,y)={\frac {\partial ^{2}F_{X,Y}\left(x,y\right)}{\partial x\partial y}}=c(F_{X}(x),F_{Y}(y))p_{X}(x)p_{Y}(y)

onde $p_{X}(x)$ e $p_{Y}(y)$ são as funções densidade de probabilidade marginais de X e Y respectivamente e a função:

c(u,v)={\frac {\partial ^{2}}{\partial u\partial v}}C(u,v)

é dita a densidade de cópula. A densidade de cópula é também a função densidade de probabilidade conjunta para as variáveis U e V definidas acima.

Cópulas importantes e famílias de cópulas editar

Nas aplicações em finanças e inferência estatística pode-se famílias de distribuições multivariadas construídas com cópulas parametrizadas por um ou mais parâmetros a serem encontrados através dos métodos estabelecidos de inferência (método dos momentos, máxima verossimilhança, estimação bayesiana de parâmetros, etc.). Abaixo algumas famílias conhecidas de cópulas são apresentadas com suas propriedades mais importantes.

Cópula trivial editar

Além das cópulas de Fréchet-Hoeffding, que indicam dependência máxima positiva e negativa, uma terceira cópula importante é aquela que indica dependência estatística nula, a cópula trivial ou cópula produto:

C\left(u,v\right)=uv

Essa cópula é a que surge quando as variáveis são estatisticamente independentes, ou seja, quando a distribuição conjunta pode ser escrita como um produto das distribuições marginais. No caso multivariado a cópula produto é dada por:

C\left(\mathbf {u} \right)=\prod _{i=1}^{n}u_{i}

Cópula Normal ou Gaussiana editar

A distribuição normal multivariada pode ser usada para construir uma família de cópulas através da mudança de variáveis indicada na introdução. Dessa forma se obtém uma família de cópulas parametrizadas pelos $n(n-1)/2$ coeficientes independentes da matriz de correlação. A cópula gaussiana ou normal será portanto dada por:

C_{\hat {\Sigma }}(\mathbf {u} )={\frac {1}{\left[2\pi \det({\hat {\Sigma }})\right]^{\frac {n}{2}}}}\int _{-\infty }^{\Phi ^{-1}\left(u_{1}\right)}\int _{-\infty }^{\Phi ^{-1}\left(u_{2}\right)}\cdots \int _{-\infty }^{\Phi ^{-1}\left(u_{n}\right)}dx_{1}dx_{2}\ldots dx_{n}\exp \left[-{\frac {1}{2}}\mathbf {x} ^{\mathrm {T} }{\hat {\Sigma }}^{-1}\mathbf {x} \right]

em que:

${\hat {\Sigma }}={\begin{bmatrix}1&\rho _{1,2}&\cdots &\rho _{1,n}\\\rho _{2,1}&1&\cdots &\rho _{2,n}\\\vdots &\vdots &\ddots &\vdots \\\rho _{n,1}&\rho _{n,2}&\cdots &1\end{bmatrix}}$ é a matriz de correlação que parametriza a cópula e

$\Phi (x)={\frac {1}{2}}+{\frac {1}{2}}\mathrm {erf} \left({\frac {x}{\sqrt {2}}}\right)$ é a distribuição cumulativa de uma variável com distribuição normal padronizada e $\operatorname {erf} (x)$ é a função erro.

No caso bivariado ficamos com:

C_{\rho }\left(u,v\right)={\frac {1}{2\pi {\sqrt {1-\rho ^{2}}}}}\int _{-\infty }^{\Phi ^{-1}\left(u\right)}dx\int _{-\infty }^{\Phi ^{-1}\left(v\right)}dy\exp \left(-{\frac {1}{2(1-\rho ^{2})}}\left[{x^{2}+y^{2}}-2\rho xy\right]\right)

onde $\rho$ é a correlação que parametriza a cópula.

A cópula normal se reduz à cópula produto quando a matriz de correlação é diagonal, i. e., quando todas as correlações são nulas.

Cópula t editar

Assim como a cópula normal pode ser definida a partir da distribuição normal multivariada, a distribuição t de Student multivariada dá origem à cópula t.^[2] A cópula t é dada por:

C_{{\hat {\Sigma }},\nu }(\mathbf {u} )={\frac {\Gamma ({\frac {\nu +d}{2}})}{\Gamma ({\frac {\nu }{2}}){\sqrt {(\pi \nu )^{d}|{\hat {\Sigma }}|}}}}\int _{-\infty }^{t_{\nu }^{-1}\left(u_{1}\right)}dx_{1}\int _{-\infty }^{t_{\nu }^{-1}\left(u_{2}\right)}dx_{2}\ldots \int _{-\infty }^{t_{\nu }^{-1}\left(u_{n}\right)}dx_{n}\left[1+{\frac {\mathbf {x} ^{\mathrm {T} }{\hat {\Sigma }}^{-1}\mathbf {x} }{\nu }}\right]^{-{\frac {\nu +d}{2}}}

,

em que:

${\hat {\Sigma }}$ é a matriz de correlações, como no caso da cópula normal,
$\nu$ é o parâmetro conhecido como número de graus de liberdade da distribuição t e
$t_{\nu }(x)$ é a distribuição cumulativa de uma distribuição Student t univariada padronizada.

Quando o número de graus de liberdade $\nu$ é muito grande, a cópula t fica cada vez mais próxima da cópula gaussiana, ficando idêntica à mesma no limite $\nu \rightarrow \infty$ .

Cópulas arquimedianas editar

Algumas cópulas podem ser escritas na forma:

C(u,v)=\phi \left(\phi ^{-1}(u)+\phi ^{-1}(v)\right)

e são chamadas cópulas arquimedianas com função geradora $\phi (x)$ . Qualquer função pode ser a função geradora de uma cópula arquimediana se satisfizer os critérios:

\phi \left(0\right)=1

\lim _{x\rightarrow 0}\phi (x)=\infty

{\frac {\mathrm {d} \phi }{\mathrm {d} x}}<0

{\frac {\mathrm {d} ^{2}\phi }{\mathrm {d} x^{2}}}>0

Cópulas dessa classe são usadas extensamente em econometria, finanças e estatística por possuírem expressões analíticas extremamente simples para a maioria de seus momentos e parâmetros de dependência.

A cópula produto é uma cópula arquimediana com função geradora $\phi (x)=-\ln(x)$ .

Mais importantes funcções geradoras para cópulas arquimedianas. ^[3]
name	função geradora $\,\phi (t)$	inversa da geradora $\,\phi ^{-1}(t)$	parameter
Ali-Mikhail-Haq	${\frac {1-\theta }{\exp(t)-\theta }}$	$\log \left({\frac {1-\theta +\theta t}{t}}\right)$	$\theta \in [0,1)$
Clayton^[4]	$\left(1+t\right)^{-1/\theta }$	$t^{-\theta }-1\,$	$\theta \in (0,\infty )$
Frank	$-{\frac {\log(1-(1-\exp(-\theta ))\exp(-t))}{\theta }}$	$-\log \left({\frac {\exp(-\theta t)-1}{\exp(-\theta )-1}}\right)$	$\theta \in (0,\infty )$
Gumbel	$\exp \left(-t^{1/\theta }\right)$	$\left(-\log(t)\right)^{\theta }$	$\theta \in [1,\infty )$
Independence	$\exp(-t)\,$	$-\log(t)\,$
Joe	$1-\left(1-\exp(-t)\right)^{1/\theta }$	$-\log \left(1-(1-t)^{\theta }\right)$	$\theta \in [1,\infty )$

Cópula de Clayton editar

A cópula de Clayton é obtida usando a função geradora:

\phi (x)={\frac {1}{\alpha }}(t^{-\alpha }-1)

,

e é dada pela expressão:

C(u,v)=\max(\left[u^{-\alpha }+v^{-\alpha }-1\right]^{-{\frac {1}{\alpha }}},0)

.

Cópula de Frank editar

A cópula de Frank é obtida usando a função geradora:

\phi (x)=-\ln \left({\frac {\exp(-\alpha t)-1}{\exp(-\alpha )-1}}\right)

,

e é dada pela expressão:

C(u,v)=-{\frac {1}{\alpha }}\ln \left(1+{\frac {(e^{-\alpha u}-1)(e^{-\alpha v}-1)}{e^{-\alpha }-1}}\right)

.

Estimação de cópulas editar

A função cópula pode ser estimada a partir dos métodos tradicionais de inferência paramétrica ou não-paramétrica.

Distribuição cumulativa empírica dos postos editar

O método mais simples e imediato é através da interpolação de um histograma dos postos. A partir de uma série de observações $(x_{i},y_{i})$ com $i=1,2,\ldots ,N$ das variáveis X e Y, definimos o posto $X_{i}$ da seguinte forma:

ordene os valores $x_{i}$ de forma crescente,
$X_{i}$ é definido como a posição do valor $x_{i}$ nessa sequência ordenada dividida pelo número de observações N.

analogamente $Y_{i}$ é a posição de $y_{i}$ na lista ordenada de todos os valores de Y normalizada pelo total N. As variáveis de posto $(X_{i},Y_{i})$ são estimadores para as variáveis U e V da introdução. Dessa forma, uma estimativa para a cópula pode ser obtida estimando a distribuição cumulativa dos postos:

C_{n}\left({\frac {j}{N}},{\frac {k}{N}}\right)={\frac {{\text{Numero de pares de postos}}(X_{i},Y_{i}){\text{tais que }}X_{i}\leq X_{(j)}{\text{ e }}Y_{i}\leq Y_{(k)}}{N}}.

Valores de C(u,v) não compreendidos pela expressão acima podem ser interpolados.

Método dos momentos editar

Uma outra forma de estimar a cópula associada a um certo conjunto de dados é usar uma família de cópulas $C(u,v|\theta )$ com um série de parâmetros $\theta _{1},\theta _{2},\ldots ,\theta _{n}$ . Se são conhecidas expressões analíticas dos valores esperados com relação a esta cópula de n funções:

E\left[f_{i}(u,v)\right]=F_{i}(\theta )

,

pode-se obter n equações para os parâmetros $\theta$ se houver estimativas para esses valores esperados a partir do conjunto de dados conhecido.

Método da máxima verossimilhança editar

O método da máxima verossimilhança pode ser aplicado a qualquer família distribuição de probabilidades com um certo número de parâmetros, e isso se aplica também a cópulas. O conjunto de parâmetros que maximiza a probabilidade dos dados observados:

{\hat {\theta }}=\arg \max _{\theta }L(\theta ,{(x_{i},y_{i}),i=1..n})=\arg \max _{\theta }\sum _{i=1}^{n}c\left(X_{i},Y_{i}|\theta \right)

,

onde $(X_{i},Y_{i})$ são os postos definidos acima, oferece uma estimativa para a cópula dada por:

{\hat {C}}(u,v)=C\left(u,v|{\hat {\theta }}\right)

.

Inferência bayesiana editar

Priores para estimação bayesiana, paramétrica e não paramétrica, de cópulas, particularmente se for suposta uma estrutura arquimediana, são assuntos tratados em referências recentes enquanto se escreve esse artigo.^[5]^[6]^[7]^[8]

Medidas de dependência editar

O conceito de medidas de dependência está intimamente ligado ao conceito de cópula. Alguns dos requisitos de Renyi^[9]^[10] para que um funcional possa ser considerado uma boa medida de dependência pode ser resumido no requisito de que dependa exclusivamente da densidade de cópula.

Aplicações editar

Ver também editar

Schölzel and Friederichs (2008): "Copulas in climate research"

Referências editar

Notas editar

↑ ^a ^b Roger B. Nelsen (1999). An Introduction to Copulas (em inglês). [S.l.: s.n.] ISBN 0-387-98623-5
↑ Demarta S; McNeil A J (2005). «The t copula and related copulas» (PDF). International Statistical Review (em inglês). 73 (1). pp. 111–129
↑ Jan Marius Hofert (2010): Sampling Nested Archimedean Copulas with Applications to CDO Pricing. Dissertation at the University of Ulm
↑ David G. Clayton (1978), "A model for association in bivariate life tables and its application in epidemiological studies of familial tendency in chronic disease incidence", Biometrika 65, 141–151. JSTOR (subscription)
↑ Philippe Lambert (2007). «Archimedean copula estimation using Bayesian splines smoothing techniques». Source Computational Statistics & Data Analysis archive. 51 (12). pp. 6307–6320
↑ David Huarda; Guillaume Évina ; Anne-Catherine Favre (2006). «Bayesian copula selection». Computational Statistics & Data Analysis. 51 (2). pp. 809–822
↑ Roberto de Matteis (2001). Fitting copulas to data. Zurique: Diploma Thesis apresentada à universidade de Zurique
↑ Dimitris Nicoloutsopoulos (2005). Parametric and Bayesian non-parametric estimation of copulas. [S.l.]: Ph.D. Thesis apresentada à universidade de Londres
↑ Renyi, A. (1959). «On measures of dependence.». Acta. Math. Acad. Sci. Hungar. (em inglês). 10. pp. 441–451
↑ Schweizer, B.; Wolff, E. F. (1981). «On nonparametric measures of dependence for random variables.». The Annals of Statistics (em inglês). 9 (4). pp. 879–885

Gerais editar

Ligações externas editar

What are Copulas?

[Nelsen-1] Roger B. Nelsen (1999). An Introduction to Copulas (em inglês). [S.l.: s.n.] ISBN 0-387-98623-5

[2] Demarta S; McNeil A J (2005). «The t copula and related copulas» (PDF). International Statistical Review (em inglês). 73 (1). pp. 111–129

[3] Jan Marius Hofert (2010): Sampling Nested Archimedean Copulas with Applications to CDO Pricing. Dissertation at the University of Ulm

[4] David G. Clayton (1978), "A model for association in bivariate life tables and its application in epidemiological studies of familial tendency in chronic disease incidence", Biometrika 65, 141–151. JSTOR (subscription)

[5] Philippe Lambert (2007). «Archimedean copula estimation using Bayesian splines smoothing techniques». Source Computational Statistics & Data Analysis archive. 51 (12). pp. 6307–6320

[6] David Huarda; Guillaume Évina ; Anne-Catherine Favre (2006). «Bayesian copula selection». Computational Statistics & Data Analysis. 51 (2). pp. 809–822

[7] Roberto de Matteis (2001). Fitting copulas to data. Zurique: Diploma Thesis apresentada à universidade de Zurique

[Dimitri-8] Dimitris Nicoloutsopoulos (2005). Parametric and Bayesian non-parametric estimation of copulas. [S.l.]: Ph.D. Thesis apresentada à universidade de Londres

[9] Renyi, A. (1959). «On measures of dependence.». Acta. Math. Acad. Sci. Hungar. (em inglês). 10. pp. 441–451

[10] Schweizer, B.; Wolff, E. F. (1981). «On nonparametric measures of dependence for random variables.». The Annals of Statistics (em inglês). 9 (4). pp. 879–885

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]