-->
-> PESQUISAS E ESTATÍSTICAS/Conceitos Estatísticos/Correlação e Regressão

Em pesquisas que envolvem a consideração de duas ou mais variáveis, estas são estudadas também simultaneamente, procurando-se uma possível correlação entre elas, isto é, quer-se saber se as alterações sofridas por uma das variáveis são acompanhadas por alterações nas outras.

Em outras situações, uma das variáveis apresenta um interesse específico e as restantes são estudadas de modo a fornecer informações sobre aquela variável particular; o que se procura, na verdade, é estabelecer uma relação funcional entre uma das variáveis e as restantes.

Quando existirem duas séries de dados, existirão várias medidas estatísticas que podem ser usadas para capturar como as duas séries se movem juntas através do tempo. As duas mais largamente usadas são a correlação e a covariância. Para duas séries de dados, X (X1, X2,.) e Y(Y1,Y2...  ), a covariância fornece uma medida não padronizada do grau no qual elas se movem juntas, e é estimada tomando o produto dos desvios da média para cada variável em cada período.

 

 

O sinal na covariância indica o tipo de relação que as duas variáveis têm. Um sinal positivo indica que elas movem juntas e um negativo que elas movem em direções opostas. Enquanto a covariância cresce com o poder do relacionamento, ainda é relativamente difícil fazer julgamentos sobre o poder do relacionamento entre as duas variáveis observando apenas a covariância, pois ela não é padronizada.

A correlação é a medida padronizada da relação entre duas variáveis. Ela pode ser calculada da covariância:

 

 

 

 

A correlação nunca pode ser maior do que 1 ou menor do que -1. Uma correlação próxima a zero indica que as duas variáveis não estão relacionadas. Uma correlação positiva indica que as duas variáveis movem juntas, e a relação é forte quanto mais a correlação se aproxima de um. Uma correlação negativa indica que as duas variáveis movem-se em direções opostas, e que a relação também fica mais forte quanto mais próxima de -1 a correlação ficar. Duas variáveis que estão perfeitamente correlacionadas positivamente (r=1) movem-se essencialmente em perfeita proporção na mesma direção, enquanto dois conjuntos que estão perfeitamente correlacionados negativamente movem-se em perfeita proporção em direções opostas.

 

Uma regressão simples é uma extensão do conceito correlação/covariância. Ela tenta explicar uma variável, a qual é chamada variável dependente, usando a outra variável, chamada variável independente. Mantendo a tradição estatística, seja Y a variável dependente e X a variável independente. Se as duas variáveis são plotadas uma contra a outra num gráfico de espalhamento, com Y no eixo vertical e X no eixo horizontal, a regressão tenta ajustar uma linha reta através dos pontos, de tal modo que minimiza a soma dos desvios quadrados dos pontos da linha. Conseqüentemente, ela é chamada de regressão ordinária dos mínimos quadrados (OLS). Quando tal linha é ajustada, dois parâmetros emergem - um é o ponto em que a linha corta o eixo Y, chamado de intercepção da regressão, e o outro é a inclinação da linha de regressão.

 

A inclinação (b) da regressão mede a direção e a magnitude da relação. Quando as duas variáveis estão correlacionadas positivamente, a inclinação também será positiva, enquanto quando as duas variáveis estão correlacionadas negativamente, a inclinação será negativa. A magnitude da inclinação da regressão pode ser lida como segue: para cada acréscimo unitário na variável (X), a variável dependente mudará por b (inclinação). A ligação estreita entre a inclinação da regressão e a correlação/covariância não seria surpreendente desde que a inclinação for estimada usando a covariância:

 

 

A intercepção (a) da regressão pode ser lida de várias maneiras. Uma interpretação diz que ela é o valor que Y terá quando X é zero. Uma outra é mais direta, e está baseada em como ela é calculada: na diferença entre o valor médio de Y, e o valor ajustado da inclinação de X.

 

 

Os parâmetros da regressão são sempre estimados com algum ruído, parcialmente porque o dado é medido com erro e porque os estimamos de amostra de dados. Este ruído é capturado numa dupla de estatísticas. Um é o R2 da regressão, que mede a proporção da variabilidade em Y que é explicada por X. É uma função direta da correlação entre as variáveis

 

 

 

Um valor de R2 muito próximo de 1 indica uma forte relação entre as duas variáveis, apesar de a relação poder ser positiva ou negativa. Uma outra medida do ruído numa regressão é o erro padrão, que mede o "espalhamento" ao redor de cada um dos dois parâmetros estimados - a intercepção e a inclinação. Cada parâmetro tem um erro padrão associado, que é calculado dos dados:

 

Erro Padrão da Intercepção =

 

 

Erro Padrão da Inclinação=  

 

Se fizermos uma suposição adicional de que a estimativa da intercepção e a inclinação são normalmente distribuídas, a estimativa do parâmetro e o erro padrão podem ser combinados para obter uma "estatística t" que mede se a relação é estatisticamente significante.

 

Estatística T para a intercepção = a/SEa

Estatística T da inclinação = b/SEb

 

A regressão que mede a relação entre duas variáveis torna-se uma regressão múltipla quando ela é extendida para incluir mais do que uma variável independente (X1, X2, X3, X4..) na tentativa de explicar a variável dependente Y. Enquanto as apresentações gráficas tornam-se mais difíceis, a regressão múltipla conduz a uma forma que é uma extensão da regressão simples.

 

            Y = a + b X1   + c X2 + d X3  + e X4

 

O R2 mede ainda a força da relação, mas uma estatística adicional do R2 chamada de R2 ajustado é calculada para contar a tendência que induziria o R2 a manter crescente quando as variáveis independentes são adicionadas à regressão. Se existem k variáveis independentes na regressão, o R2 ajustado é calculado como segue:

 

 

 

Na teoria, as variáveis independentes numa regressão precisam estar não correlacionadas uma com a outra. Na prática, elas são freqüentemente correlacionadas, e esta correlação cruzada das variáveis independentes é chamada multi-colinearidade. Quando existe multi-colinearidade:

·      Os coeficientes sobre cada uma das variáveis independentes tornam-se muito mais difíceis para serem isolados, pois as variáveis começam a procurar uma às outras.

·      A estatística-t relatada tende a exagerar a significância da relação. Existem aproximações estatísticas disponíveis para se tratar com a multi-colinearidade.

·      A regressão ainda tem poder de previsão.

 

Ambas regressões, a simples e a múltipla, estão baseadas numa relação linear entre a variável dependente e a variável independente. Quando a relação é não-linear, o uso de uma regressão linear conduzirá predições incorretas. Em tais casos, as variáveis independentes precisarão ser transformadas para tornar a relação mais linear