Guias

Como executar uma regressão multivariada no Excel

Antes de aprendermos como executar regressão multivariada no Excel, é importante relembrar a regressão como um todo e a regressão multivariada em particular.

Uma das marcas da inteligência humana é nossa capacidade de reconhecer padrões ao nosso redor. É o que nos faz reconhecer quando duas ou mais coisas parecem conectadas e quando uma coisa é provavelmente a causa ou efeito de outra.

Regressão multivariada no Excel

Digamos, por exemplo, que você decida coletar dados sobre as temperaturas médias e a precipitação média em um determinado local durante um ano inteiro, coletando dados todos os dias. Em seguida, você plota os dados de temperatura e precipitação média em uma folha de papel milimetrado. Você pode plotar os números da temperatura média no eixo xe os números da precipitação média no eixo y. Cada ponto neste gráfico de dispersão terá coordenadas: uma coordenada xe uma coordenada y. Essas coordenadas irão localizá-lo em um lugar especial no gráfico.

Conforme você plota os pontos, você pode começar a ver um padrão emergir. Pode parecer que - com o aumento das temperaturas médias - a precipitação média no local que você vem coletando dados aumenta. Os dois dados que você está coletando são tecnicamente conhecidos como variáveis. Neste caso, a temperatura média é a variável independente, enquanto a precipitação média é a variável dependente.

Quando você percebe que as duas variáveis ​​estão conectadas, dizemos que elas estão correlacionado. A correlação pode assumir várias formas. Se uma variável aumenta enquanto a outra diminui, isso é uma correlação negativa. Se uma variável sobe em conjunto com a outra, isso é uma correlação positiva. Se não parece haver nenhuma tendência clara nas variáveis, dizemos que não há correlação.

Dados e correlações

Uma correlação positiva perfeita recebe um valor de +1 enquanto a correlação negativa perfeita recebe um valor de -1. 0, que está no meio desses dois valores, não representa nenhuma correlação. Os dados podem, portanto, assumir um valor de correlação em qualquer lugar nesse intervalo. O valor exato dessa correlação é conhecido como coeficiente de correlação, que é calculado usando uma fórmula de estatística especial que existe em sua lista de funções do Excel.

Observe que os estatísticos gostam de distinguir entre correlação e causalidade. Só porque duas coisas estão correlacionadas não significa que tenham uma relação causal. Em nosso exemplo acima, o fato de um aumento na temperatura média corresponder a um aumento na precipitação média não significa que um cause o outro. Pode ser que um terceiro fator oculto cause as duas coisas.

Nesse caso, é bem conhecido entre os meteorologistas que um aumento na umidade leva a um aumento tanto na percepção da temperatura quanto na precipitação. É por isso que é importante entender a distinção. O mapeamento de correlações mostra onde os padrões existem; para dizer que mostra a você o que faz com que o que seria ultrapassar seu breve.

Você pode não se sentir feliz por ter um gráfico de dispersão. Talvez ter uma linha através dos dados que mostre como o relacionamento se parece seria mais fácil de entender. O que você está procurando é a linha de regressão ou a linha que melhor se ajusta aos dados que você tem antes de você. Isso envolve o emprego de uma fórmula de regressão que usa o coeficiente de correlação para encontrar a melhor linha de regressão.

Variáveis ​​Únicas e Múltiplas

A diversão não termina aí. As fórmulas acima são para uma única variável independente e uma única variável dependente. No entanto, como discutimos acima, às vezes pode haver mais de uma variável independente na equação.

Por exemplo, apontamos que simplesmente traçar a temperatura média em relação à precipitação média não dá uma imagem completa. A umidade média é outra variável independente que influencia tanto a temperatura média quanto a precipitação média. Não seria excelente se houvesse uma maneira de plotar a precipitação média como uma variável dependente contra as duas variáveis ​​independentes que são a precipitação média e a umidade média?

Acontece que é exatamente disso que se trata a regressão multivariada. Ele permite que você relacione uma única variável dependente com várias variáveis ​​independentes que você mediu e coletou dados.

Análise de regressão multivariada

A regressão multivariada é uma forma muito poderosa de análise de dados e passa a ser mais precisa quando aplicada ao mundo real. No mundo dos negócios, em particular, as situações raramente são influenciadas por um único fator. Normalmente, há muitos fatores trabalhando em conjunto para criar resultados. Quando você coleta dados em certos conjuntos de condições, esse tipo de análise de dados permite que você preveja dados em condições relacionadas.

Com o poder da regressão multivariada, você será capaz de entender melhor seu mercado e os clientes que existem nele.

Análise de regressão no Excel

Antes de comprar o software estatístico mais avançado do mercado, você ficará feliz em saber que você pode executar análise de regressão em Excel.

Abra o Excel

Para começar o seu análise multivariada em Excel, inicie o Microsoft Excel. Clique na guia rotulada "Arquivo" e depois clique no botão rotulado “Opções.” Uma caixa de diálogo será aberta.

Clique nas opções

No lado esquerdo da caixa de diálogo, há uma lista com opções. Clique nas opções rotuladas Suplementos. ” Você poderá ver os suplementos do aplicativo. Na lista de suplementos inativos, você deve ver um item rotulado Analysis ToolPak.Clique sobre isso, então clique o menu suspenso para “Suplementos do Excel.”Clique no botão rotulado "Vai" na parte inferior e outra caixa de diálogo rotulada “Suplementos”vai aparecer.

Verifica a caixa

Na frente da opção rotulada “Analysis ToolPak é uma caixa de seleção. Clique sobre isso e então clique no botão do lado direito da caixa de diálogo rotulado "OK." Isso ativará a opção que você acabou de marcar.

Executando a Regressão

Agora é hora de fazer a regressão. Suas colunas precisarão de cabeçalhos, que você pode inserir na linha 1. Os dados vão para o cabeçalho. Tenha uma coluna específica para sua variável dependente. Deve ser a primeira ou a última coluna. As variáveis ​​independentes podem preencher as outras colunas e devem estar em ordem consecutiva.

Aba de dados

Na fita, clique na guia rotulada "Dados." No grupo rotulado "Análise," clique no item rotulado "Análise de dados." Uma caixa de diálogo será aberta.

Regressão

No Ferramentas de Análise na caixa de diálogo, procure Regressão e clique nela, a seguir clique sobre "OK."

Variável dependente

Agora digite a localização do intervalo de células que tem sua variável dependente no campo rotulado “Faixa de entrada Y”.

Variável independente

Agora digite a localização do intervalo de células que tem sua variável independente no campo rotulado “Faixa de entrada X”.

Verifica a caixa

Para ter certeza de que Excel sabe que a primeira linha não tem nada além de rótulos_, clique_ na caixa de seleção rotulada “Etiquetas.”

Clique em Output Range

Na seção rotulada Opções de saída, há um botão de opção rotulado “Faixa de saída.”Clique nele e insira um intervalo para seus dados no primeiro, a fim de determinar onde a saída da análise de regressão aparecerá. Caso você queira que seus resultados apareçam em uma planilha separada, clique no botão de rádio rotulado “Folha de trabalho.” Se você os quiser em um novo arquivo, clique no botão de rádio rotulado “Novo livro de exercícios.”

Resíduos

Há uma seção da caixa de diálogo de regressão rotulada “Resíduos.” Estes são resumos dos resultados de sua análise que consideram os resultados caso a caso. Eles comparam a previsão com o resultado real. Os resíduos padronizados pegarão o desvio padrão dos seus resíduos e o corrigirão para 1.

Clique na caixa de seleção da opção rotulada "Trama," e seus resultados serão representados graficamente. Se você escolher “Gráfico de resíduos,” então, apenas os resíduos serão representados graficamente. Se você escolher “Line Fit Plot, então a previsão será plotada contra os resultados reais. Clique sobre "OK," e sua regressão começará a ser processada. Você pode ver os resultados posteriormente no local que especificou anteriormente.