MARCO TEORICO MARCO REFERENCIAL
Diagrama de dispersión y correlación
Los diagramas de dispersión son una forma fenomenal de expresar datos de dos variables, y hacer predicciones basadas en los datos. Al contrario de los histogramas y los diagramas de caja, los de dispersión muestran valores de datos individuales. Este es el diagrama de dispersión que expresa la cantidad de dinero que se ganó Mateo cada semana trabajando en la tienda de su padre.
Las semanas estn diagramadas en el eje X , y la cantidad de dinero que se ganó en esa semana en el eje Y . En general, la variable independiente !la variable que no est influenciada por nada" est en el eje X y y la variable dependiente !la que es modificada por la variable independiente" est en el eje Y . En este diagrama podemos ver que en la semana # Mateo se ganó alrededor de $%#&, y en la semana %' estuvo cerca de los $%(&. )ero ms importante a*n es la tendencia. )or ejemplo, con estos datos podemos ver que Mateo gana cada ve+ ms seg*n pasan las semanas. ui+ su padre le da ms horas a la semana o ms responsabilidades responsabilidades..
Correlación
-on los diagramas de dispersión podemos ver cómo se relacionan ambas variables entre s. Esto es lo que se conoce como correlación. /ay tres tipos de correlación0 positiva, negativa y nula !sin correlación". •
Correlación positiva: ocurre cuando una variable aumenta y la otra
tambi1n. )or ejemplo, la altura de una persona y el tama2o de su pie3 mientras aumenta la altura, el pie tambi1n. •
Correlación negativa: es cuando una variable aumenta y la otra
disminuye. El tiempo de estudio y el tiempo que pasas jugando videojuegos, tienen una correlación negativa, ya que cuando tu tiempo de estudio aumenta, no te queda tanto tiempo para jugar videojuegos. •
Sin correlación: no hay una relación aparente entre las variables. Los
puntos en tus videojuegos y tu talla de +apato no parece tener ninguna correlación3 mientras una aumenta, la otra no tiene ning*n efecto. El diagrama de dispersión que anali+amos tiene una fuerte correlación positiva0 a medida que las semanas aumentan, su pago tambi1n. Lnea de a!"ste
4samos la 5lnea de ajuste5 para hacer predicciones basndonos en datos pasados. /ay muchas y muy complicadas fórmulas para encontrar esta recta, pero por ahora solo la dibujaremos a trav1s de los puntos en la grfica para que se ajuste a la tendencia que nos marcan los datos. -uando se dibuje la recta, es necesario asegurarse de que encaje con la mayor parte de los datos. 6i hay un punto que est muy por encima o muy por debajo con respecto al resto !los atpicos" es recomendable colocarlos fuera de la recta.
An#lisis Regresión
de
El anlisis de regresión involucra el estudio la relación entre dos variables -4A7898A89:A6. En general interesa0 ;
9nvestigar si existe una asociación entre las dos variables testeando la hipótesis de independencia estadstica. ; Estudiar la fuer+a de la asociación, a trav1s de una medida de asociación denominada coeficiente de correlación. ; Estudiar la forma de la relación. 4sando los datos propondremos un modelo para la relación y a partir de ella ser posible predecir el valor de una variable a partir de la otra. )ara ello se propone un M<=EL< que relaciona una variable dependiente !>" con una variable independiente !?". Modelo
Llamaremos M<=EL< MA8EM@89-< a la función matemtica que proponemos como forma de relación entre la variable dependiente !>" y la o las variables independientes. La función ms simple para la relación entre dos variables es la 47-9B7 L97EAL Y = a + b X
♦
♦ ♦
Esta expresión es una aproximación de la verdadera relación entre ? e >. )ara un dado valor de ? el modelo predice un cierto valor para >. Mientras mejor sea la predicción, mejor es el modelo para explicar el fenómeno.
4n M<=EL< E68A=C689-< permite la incorporación de un - de la recta de regresión de mejor ajuste. La primera fórmula calcula la pendiente0
=onde0 ;
b =¿
pendiente de la lnea de estimación de mejor ajuste
;
X =¿
valores de la variable independiente
;
Y =¿
valores de la variable dependiente
;
´ =¿ X
media de los valores de la variable independiente
;
´ =¿ Y
media de los valores de la variable dependiente
;
n =¿
n*mero de puntos !es decir, el n*mero de pares de valores de las variables independiente y dependiente"
La segunda fórmula calcula la ordenada > de la recta.
=onde0 ;
a =¿
ordenada >
;
b =¿
pendiente de la ecuación !hallada anteriormente"
;
´ =¿ X
media de los valores de la variable independiente
;
´ =¿ Y
media de los valores de la variable dependiente
El coe$iciente de determinación
El coeficiente de determinación es la principal forma en que podemos medir el grado, o fuer+a, de la asociación que existe entre dos variables, ? e >. =ebido a que usamos una muestra de puntos para desarrollar rectas de regresión, nos referimos a esta medida como el coeficiente de determinación muestral. El coeficiente de determinación muestral se deriva de la relación entre dos tipos de variación0 la variación de los valores > en un conjunto de datos alrededor de %. la recta de regresión ajustada3 #. su propia media.
=onde0 ;
2
r =¿
coeficiente de determinación de la muestra
;
a =¿
ordenada >
;
b =¿
pendiente de la lnea de estimación de mejor ajuste
;
n =¿
n*mero de puntos de datos
;
X =¿
valores de la variable independiente
;
Y =¿
valores de la variable dependiente
;
´ =¿ Y
media de los valores de la variable dependiente
El coe$iciente de correlación lineal
Mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal !es decir, si representramos en un grfico los pares de valores de las dos variables la nube de puntos se aproximara a una recta". 7o obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal medira mal la intensidad de la relación las variables, por lo que convendra utili+ar otro tipo de coeficiente ms apropiado. )ara ver, por tanto, si se puede utili+ar el coeficiente de correlación lineal, lo mejor es representar los pares de valores en un grfico y ver qu1 forma describe. El coe$iciente de correlación lineal se calcula aplicando la siguiente fórmula0
Los valores que puede tomar el coe$iciente de correlación %r% son0 ;% I r I % Si %r% & ', la correlación lineal es positiva !si sube el valor de una variable sube
el de la otra". La correlación es tanto ms fuerte cuanto ms se aproxime a %. )or ejemplo0 altura y peso0 los alumnos ms altos suelen pesar ms. Si %r% ( ', la correlación lineal es negativa !si sube el valor de una variable
disminuye el de la otra". La correlación negativa es tanto ms fuerte cuanto ms se aproxime a ;%. )or ejemplo0 peso y velocidad0 los alumnos ms gordos suelen correr menos. Si %r% ) ', no existe correlación lineal entre las variables. Aunque podra existir
otro tipo de correlación !parabólica, exponencial, etc." =e todos modos, aunque el valor de 5r5 fuera próximo a % o ;%, tampoco esto quiere decir obligatoriamente que existe una relación de causa;efecto entre las dos variables, ya que este resultado podra haberse debido al puro a+ar.
MARCO CONCEPTUAL
%. Estimación* -onjunto de t1cnicas que permiten dar un valor aproximado de un parmetro de una población a partir de los datos proporcionados por una muestra. )or ejemplo, una estimación de la media de una determinada caracterstica de una población de tama2o 7 podra ser la media de esa misma caracterstica para una muestra de tama2o n.
#. M"estra* Es un subconjunto de casos o individuos de una población estadstica. En diversas aplicaciones interesa que una muestra sea una muestra representativa y para ello debe escogerse una t1cnica de muestreo adecuada que produ+ca una muestra aleatoria adecuada !contrariamente se obtiene una muestra sesgada cuyo inter1s y utilidad es ms limitado dependiendo del grado de sesgo que presente". J. +endiente* La pendiente de una recta en un sistema de representación rectangular !de un plano cartesiano", suele estar representada por la letra m, y est definida como la diferencia en el eje > dividido por la diferencia en el eje ? para dos puntos distintos en una recta. K. ,ariable dependiente* 4na variable dependiente es aquella cuyos valores dependen de los que tomen otra variable. La variable dependiente en una función se suele representar por >. La variable dependiente se representa en el eje de las ordenadas. 6on las variables de respuesta que se observan en el estudio, y que podran estar influenciadas por los valores de las variables independientes. &. ,ariable independiente* 4na variable independiente es aquella cuyo valor no depende de otra variable. Es aquella caracterstica o propiedad que se supone es la causa del fenómeno estudiado. En investigación experimental se llama as a la variable que el investigador manipula. Las variables independientes son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrnsecamente a los casos del mismo. La variable independiente se suele representar en el eje de abscisas. (. Regresión* La regresión estadstica o regresión a la media es la tendencia de una medición extrema a presentarse ms cercana a la media en una segunda medición. . Diagrama de dispersión* Es un tipo de diagrama matemtico que utili+a las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje hori+ontal !?" y el valor de la otra variable determinado por la posición en el eje vertical !>". '. Modelo estadstico* Es la forma que pueden tomar un conjunto de datos obtenidos de muestreos de datos con comportamiento que se supone aleatorio. 4n modelo estadstico es un tipo de modelo matemtico que usa la probabilidad, y que incluye un conjunto de asunciones sobre la generación de algunos datos muestrales, de tal manera que asemejen a los datos de una población mayor. . Correlación* 9ndica la fuer+a y la dirección de una relación lineal y proporcionalidad entre dos variables estadsticas.
%N. Error est#ndar de la regresión* Es el valor que muestra la diferencia entre los valores reales y los estimados de una regresión. Es utili+ado para valorar si existe una correlación entre la regresión y los valores medidos. Muchos autores prefieren este dato a otros como el coeficiente de correlación lineal, ya que el error estndar se mide en las mismas unidades que los valores que se estudian. %%. Coe$iciente de determinación* =enominado DO, es un estadstico usado en el contexto de un modelo estadstico cuyo principal propósito es predecir futuros resultados o probar una hipótesis. El coeficiente determina la calidad del modelo para replicar los resultados, y la proporción de variación de los resultados que puede explicarse por el modelo. %#. Coe$iciente de correlación de +earson* Es una medida de la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarian+a, la correlación de )earson es independiente de la escala de medida de las variables. =e manera menos formal, podemos definir el coeficiente de correlación de )earson como un ndice que puede utili+arse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas. %J. +ronóstico* Es el proceso de estimación en situaciones de incertidumbre. El pronóstico ha evolucionado hacia la prctica en el pronóstico diario de los negocios. Entonces, tenemos que los pronósticos son procesos crticos y continuos que se necesitan para obtener buenos resultados durante la planificación de un proyecto.