4.1 Análisis de Regresión

Análisis  de Regresión.

El análisis de regresión involucra el estudio la relación entre dos variables CUANTITATIVAS. En general interesa: 
* Investigar si existe una asociación entre las dos variables testeando la hipótesis de independencia estadística.
 *Estudiar la fuerza de la asociación, a través de una medida de asociación denominada coeficiente de correlación.
 * Estudiar la forma de la relación. Usando los datos propondremos un modelo para la relación y a partir de ella será posible predecir el valor de una variable a partir de la otra. Para ello proponemos un MODELO que relaciona una variable dependiente (Y) con una variable independiente (X).
 La decisión sobre qué análisis usar en una situación particular, depende de la naturaleza del OUTCOME y del tipo de función que se propone para relacionar el outcome y la variable independiente.

                   






4.1.1 Fundamentos Estadísticos.

Fundamentos de Estadística
Sobre estadística se presentan diversos conceptos; por tal razón les presento los siguientes conceptos sobre estadística:
  •  La estadística es una rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas  como el diseño  de experimentos y la toma de decisiones.
  • La Estadística es la parte de las Matemáticas que se encarga de recoger datos, organizarlos, tabularlos, representarlos gráficamente, interpretarlos y analizarlos, para sacar conclusiones, tomar decisiones o predecir, a partir del estudio o investigación que se esté realizando sobre alguna característica, propiedad o situación en una población determinada.
División de la estadística
La estadística se divide en dos grandes partes:

Estadística descriptiva: Se encarga de la recolección, descripción, visualización y resumen de los datos, y que se pueden presentar de forma numérica o de forma gráfica.
La Estadística descriptiva , se encarga del "estudio sobre la población completa, observando una característica de la misma y calculando unos parámetros que den información global de toda la población".

Estadística inferencial: Se encarga de las predicciones relacionadas a los fenómenos estudiados, considerando la selección de tipo aleatoria y la incertidumbre en las observaciones.
La Estadística inferencial, "realiza el estudio descriptivo sobre un subconjunto de la población llamado muestra y, posteriormente, extiende los resultados obtenidos a toda la población"


4.1.2 Método de Mínimos Cuadrados.

Teorema del límite central Una medida y, puede considerarse como un variable aleatoria, distribuida gausianamente entorno a su valor verdadero λ, siempre que el error total sea la suma de un número grande de contribuciones pequeñas. 
Considerar un conjunto y1,y2,...yN de variables aleatorias independientes relacionadas con otra variable xi que se asume conocida sin error. 
Cada yi tiene un valor medio λi (desconocido) y una varianza σi 2 (conocida) Las N medidas de yi pueden considerarse como la medida de un vector aleatorio N-dimensional.


Suponer además que el valor verdadero de las yi es una función de la variable x que depende de un vector de parámetros desconocido en principio.
El objetivo del método de mínimos cuadrados es estimar el vector de parámetros θ. 
Además, el método permite evaluar la bondad con la que la función λ(x,θ) ajusta los datos experimentales.


 MATLAB con  Método de mínimos cuadrados  .



4.1.2.1 Regresión lineal simple.

El análisis de regresión es una técnica estadística para investigar la relación funcional entre dos o más variables, ajustando algún modelo matemático. La regresión lineal simple utiliza una sola variable de regresión y el caso más sencillo es el modelo de línea recta. Supóngase que se tiene un conjunto de n pares de observaciones (xi,yi), se busca encontrar una recta que describa de la mejor manera cada uno de esos pares observados.

Se considera que la variable X es la variable independiente o regresiva y se mide sin error, mientras que Y es la variable respuesta para cada valor específico xi de X; y además Y es una variable aleatoria con alguna función de densidad para cada nivel de X.


MATLAB con regresión lineal simple.







4.1.2.2 Regresión Polinomial.

El procedimiento Regresión Polinomial está diseñado para construir una modelo estadístico que describa el impacto de un solo factor cuantitativo X en una variable dependiente Y. Se ajusta a los datos un modelo polinomial que involucra a X y potencias de X. Se realizan pruebas para determinar el orden apropiado del polinomio. Se puede graficar el modelo ajustado con intervalos de confianza y/o predicción. También se pueden grafican residuos e identificar observaciones influyentes. 


MATLAB con Regresión polinomial.







4.1.2.3 Regresión Lineal Múltiple.

En la regresión lineal múltiple vamos a utilizar más de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar más información en la construcción del modelo y, consecuentemente, realizar estimaciones más precisas
. Al tener más de una variable explicativa (no se debe de emplear el término independiente) surgirán algunas diferencias con el modelo de regresión lineal simple.
 Una cuestión de gran interés será responder a la siguiente pregunta: de un vasto conjunto de variables explicativas: x1, x2, …, xk, cuáles son las que más influyen en la variable dependiente Y. En definitiva, y al igual que en regresión lineal simple, vamos a considerar que los valores de la variable dependiente Y han sido generados por una combinación lineal de los valores de una o más variables explicativas y un término aleatorio:
 Los coeficientes son elegidos de forma que la suma de cuadrados entre los valores observados y los pronosticados sea mínima, es decir, que se va a minimizar la varianza residual.
 Esta ecuación recibe el nombre de hiperplano, pues cuando tenemos dos variables explicativas, en vez de recta de regresión tenemos un plano:


Con tres variables explicativas tendríamos un espacio de tres dimensiones, y así sucesivamente.



MATLAB con Regresión Lineal Múltiple.





4.1.2.4 Regresión no Lineal.


En estadística, la regresión no lineal es un problema de inferencia para un modelo tipo:
basado en datos multidimensionales ,, donde  es alguna función no lineal respecto a algunos parámetros desconocidos θ. Como mínimo, se pretende obtener los valores de los parámetros asociados con la mejor curva de ajuste(habitualmente, con el método de los mínimos cuadrados). Con el fin de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia estadística tales como intervalos de confianza para los parámetros así como pruebas de bondad de ajuste.
El objetivo de la regresión no lineal se puede clarificar al considerar el caso de la regresion polinomial, la cual es mejor no tratar como un caso de regresión no lineal. Cuando la función  toma la forma:
la función  es no lineal en función de  pero lineal en función de los parámetros desconocidos , y. Este es el sentido del término "lineal" en el contexto de la regresión estadística. Los procedimientos computacionales para la regresión polinomial son procedimientos de regresion lineal  (múltiple), en este caso con dos variables predictoras  y . Sin embargo, en ocasiones se sugiere que la regresión no lineal es necesaria para ajustar polinomios. Las consecuencias prácticas de esta mala interpretación conducen a que un procedimiento de optimización no lineal sea usado cuando en realidad hay una solución disponible en términos de regresión lineal. Paquetes (software) estadísticos consideran, por lo general, más alternativas de regresión lineal que de regresión no lineal en sus procedimientos.




Comentarios

Entradas populares de este blog

Introducción ala Programación en MATLAB (Click)