ESTADÍSTICA DESCRIPTIVA BOTELLA CAPÍTULO 1: Conceptos Generales La estadísca actual no sólo es un conjunto de técnicas para resumir y transmir información cuantava, sino que sirve también, y fundamentalmente para hacer inferencias, generalizaciones y extrapolaciones de un conjunto relavamente pequeo de datos a un conjunto mayor! "l#sicamente la estadísca se ha dividido en dos partes, la estadísca descripva y la estadísca inferencial ! $ara hacer un estudio inferencial primero hay que hacer un estudio descripvo de los datos! %s decir, un estudio descripvo se agota en la descripción, mientras que uno inferencial comienza por la descripción y luego aborda la inferencia! &ientras que la estadísca descripva puede abordars abordarsee sin conocimien conocimientos tos técnicos técnicos previos, previos, aparte del #lgebra #lgebra elementa elemental,l, para para el estudio estudio de la estadís estadísca ca inferencial inferencial es imprescindible adquirir nociones b#sicas de probabilidad! Estadísca es la ciencia $%e se oc%pa !e la or!enacin # an&lisis !e !atos proce!entes !e '%estras( # !e
la reali)acin !e in*erencias acerca acerca !e las po+laciones !e las $%e ,stas proce!en'tro conjunto de técnicas m#s so(scadas y desconocidas de la estadísca, y que se ulizan para extraer conclusiones de poblaciones a parr de la observación de unos pocos casos, son las que integran la estadísca inferencial! Disncin entre esta!"sca terica # esta!"sca aplica!a ) la primera se dedica al estudio de los métodos formalmente v#lidos para la realización de inferencias! La segunda se dedica a la aplicación de esos métodos y modelos de actuación a campos reales! "ualquier trabajo en el que se aplica la estadísca se re(ere a un conjunto de endades, conocido con el nombre de población! Se lla'a población estadísca al co con. n.%n %nto to !e to to!o !oss lo loss el ele' e'en ento toss $% $%e e c% c%'p 'ple len n %n %naa o /a /ari rias as caracter"scas caracter "scas o propie!a!es * los elementos que componen una población se les denomina endades estadíscas o individuos! +ependiendo del nmero nmero de eleme element ntos os que la compon componga gan, n, la poblac población ión puede ser fnita o infnita! La mayor parte de las poblaciones con las que solemos trabajar son (nitas, pero tan numerosas que a la hora de hacer inferencias acerca de ellas se pueden considerar in(nitas a efectos pr#ccos! "uando un invesgador aborda un trabajo empírico debe de(nir claramente la población sobre la cual se interesa! La poblac población ión ha de ser el marco marco o conjun conjunto to de refe refere renci nciaa sobre sobre el cual cual van a recae recaerr las conclusi conclusione oness e interpretaciones, y éstas no pueden exceder ese marco! %l hecho de que las poblaciones sean, por lo general, muy numerosas, suele hacer inaccesible la descripción de sus propiedades! +e ahí que se trabaje fundamentalmente con muestras! Una muestra es %n s%+con.%nto s %+con.%nto !e los ele'entos !e %na po+lacin La muestra nos va a ofrecer una serie de datos que podemos ordenar, simpli(car y describir! $ero el objevo fundamental es el poder describir la población de parda mediante lo que podamos encontrar en la muestra! - para poder extraer esas conclusiones lo m#s importante importante es que las muestras de observaciones sean representavas. %xiste todo un campo de la estadísca, llamado muestreo, dedicado a estudiar los procedimientos de extracción de muestras encaminados a maximizar la representavidad de las mismas! $or ello un primer objevo de la estadís estadísca ca descripv descripvaa consist consistee en conseguir conseguir resmenes resmenes de los datos en índices índices compactos compactos y de gran calidad informava! Las poblaciones pueden caracterizarse caracterizarse a parr de unas constantes constantes denominadas par#metros! "omo normalmente los par#metros son desconocidos, una de las tareas de la estadísca es la de hacer conjeturas lo m#s acertada posibles acerca de esas candades! $ara ello se ulizan candades an#logas obtenidas en las muestras, que se denominan estadíscos! estadíscos! Un parámetro es %na propie!a! !escrip/a !e %na po+lacin Un estadísco es %na propie!a! !escrip/a !e %na '%estra Los par#metros y estadíscos no sólo son medias, sino que pueden ser otros pos de candades, como porcentajes! +esde un punto de vista simbólico, conviene indicar, para disnguirlos, que los par#metros se suelen representar por letras griegas mientras que los estadíscos se suelen simbolizar por letras lanas! %n la primera fase de una invesgación se obenen los estadíscos, y en la segunda se ulizan los valores obtenidos para hacer inferencias inferencias acerca de los par#metros! par#metros!
"uando estudiamos las endades que conforman una población nos interesamos por algunas de las propiedades de sus elementos, y esas propiedades adoptan disntas variedades! Una caracterísca es %na propie!a! o c%ali!a! !e %n in!i/i!%oUna modalidad es es ca!a %na !e las 'aneras co'o se presenta %na caracter"sca 0EDICI2 La estadís estadísca ca no realiza realiza sus funciones funciones directamen directamente te sobre sobre las modalidades modalidades observad observadas, as, sino que éstas éstas se representan representan por nmeros, y la estadísca estadísca realiza sus funciones sobre esos nmeros!
Se lla'a medición al proceso !e atri+%ir n3'eros a las caracter caracter"scas "scas La asignación de nmeros a las caracteríscas se hace siguiendo unas reglas. del estudio de los modelos mediante los cuales conocemos las reglas para una correcta atribución de los nmeros se ocupa la /eoría de la &edida! %l sistema numérico est# formado por un conjunto de endades 0nmeros1 y unas relaciones entre ellos! %s decir, que se trata de un sistema sistema relacional relacional numérico. numérico. %l objevo de la medición de una caracterísca es conectar un sistema relacional empírico y un sistema relacional numérico, de tal forma que las relaciones entre las endades se re2ejen en las relaciones entre los nmeros que los simbolizan! 3ólo si se consigue este objevo ocurrir# que de las relaciones entre entre los nmeros podr#n hacerse hacerse inferencias inferencias v#lidas v#lidas acerca de las relaciones entre entre las endades! $or ejemplo) las modalidades que adopta la variable estatura son tales que se podría decir que una determinada modalidad es una estatura superior a otra determinada modalidad! $ues bien, los nmeros que se atribuyan a esas modalidades en el proceso de medición deben re2ejar esa superioridad! $or el contrario, lo nico que podemos decir al comprar las modalidades de dos individuos en la variable sexo es si esas modalidades son la misma o no. no ene sendo decir que una de las modalidades supone tener m#s sexo que la otra! La medición estudia las condiciones de construcción de representaciones numéricas, y los modelos desarrollados para la medición se llaman escalas: nominales, ordinales, cuantavas de intervalo y cuantavas cuantavas de razón! razón! 3e uliza una clase por cada una de las modalidades que adopta la caracterísca que se est# estudiando! Las clases son mutuamente exclusivas y exhausvas, exhausvas, es decir, cada observación es incluida en una y sólo una clase! Trans*or'acin Trans*or'acin a!'isi+le: es a!'isi+le: es un concepto ligado al concepto de escala y que de hecho las se caracteriza, que hace referencia al problema de la unicidad de la medida! La cuesón de la unicidad puede plantearse de la siguiente manera) 4es la representación numérica que hemos construido la nica posible5 %n general la respuesta ser# nega negava va!! 3er#n 3er#n muchas muchas las repre represen senta tacion ciones es altern alterna ava vass que serían serían corre correcta ctas! s! +e un conjun conjunto to de valor valores es correctamente atribuidos se puede pasar a otro también correctamente atribuido mediante una transformación admisible! 3e dice que una transformación de los nmeros asignados en una escala es una transformación admisible si preserva las caracteríscas que de(nen a esa escala, es decir, si los nmeros transformados transformados también representan representan al sistema empírico! ESCALA 2O0I2AL: supongamos 2O0I2AL: supongamos que se ene un conjunto de objetos cuya caracterísca caracterísca nos interesa para su estud estudio! io! 6sta 6sta adopt adoptaa un nmer nmero o k de modalidades modalidades disntas. disntas. represent representamos amos por m a la modalidad del objeto! *signamos nmeros a los objetos en función de la modalidad que presentan en esa caracterísca. caracterísca. representamos representamos por n al nmero asignado al objeto! *l po de medición que cumple estas condiciones se le llama escalamiento cualitavo o nominal! $odrían también ulizarse otros símbolos, como letras, palabras, etc!, puesto que los nmeros asignados asignados no se van a ulizar ulizar como tales, tales, sino como simples simples códigos de iden(cación! iden(cación! $or ejemplo) ejemplo) el sexo, sexo, los diagnóscos psicopatológicos 0neurosis, psicosis, psicopa7as, etc!1! La clave de estas escalas de medidas es que solo informan de la igualdad o desigualdad de los individuos en una caracterísca, pero no de posibles ordenaciones, puesto que la caracterísca a la que se re(eren no se ene en mayor o menor medida, sino que simplemente adopta formas cualitavamente disntas! %n una escala escala nominal nominal son admisibles admisibles todas las transf transformaci ormaciones ones que supongan supongan aplicaciones aplicaciones inyecv inyecvas! as! %l conjunto de transformaciones transformaciones admisibles determina el po de escala o grado de unicidad de la medida! ESCALAS ORDI2ALES) ORDI2ALES ) supongamos que contamos de nuevo con un conjunto de objetos que di(eren en una caracterísca que cada uno posee en una cierta candad! +e nuevo el proceso de medición debe consisr en la aplicación de una regla de asignación de nmeros a las diferentes candades, pero ahora de tal forma que los nmeros asignados a los objetos re2ejen esos disntos grados en los que se presenta la caracterísca! Los nmeros asignados nos permir#n extraer conclusiones acerca de las magnitudes! 3in embargo, a veces lo nico que esos nmeros nos permiten inferir son relaciones del po 8mayor que8 o 8menor que8! Los objetos pueden ordenarse, puede decirse decirse cu#l de esos objetos objetos presenta presenta una mayor o menor magnitud magnitud de esa caracterís caracterísca! ca! %jemplo) %jemplo) un individuo es m#s extraverdo que otro, que un nio es m#s hiperacvo que otro, o que el aprendizaje es m#s r#pido con el método * que con el método 9!
*l igual que en las escalas nominales, las ordinales enen transformaciones admisibles, que lógicamente ser#n todas aquellas que preserven las caracteríscas de la escala ordinal! 3e puede demostrar que esto ocurre con todas aquellas transformaciones transformaciones que cumplan con la condición de ser transformaciones crecientes. La limitación de estas escalas es que aunque nos informa de que un objeto presenta la caracterísca en cuesón en una mayor magnitud que otro objeto, no nos dice en cuanto mas! ESCALA DE I2TERVALO I2TERVALO)) supone una mejora sustancial con respecto a las escalas ordinales, es que se cuenta con una unidad de medida, sin importar que tanto esta unidad de medida como el origen de la escala sean arbitrarios! La diferencia entre los nmeros asignados a dos objetos es igual a la diferencia entre los nmeros asignados a otros dos, entonces también son iguales las diferencias en magnitudes entre estos dos pares! -, -, por el contrario, una mayor diferencia entre los nmeros asignados implica una mayor diferencia diferencia entre las magnitudes representadas! representadas! %jemplo) la temperatura! $ara construir la escala cen7grada se enfría el agua hasta la temperatura temperatura de congelación, y se pone un cero en la altura que alcanza la columna de mercurio! +espués se calienta el agua hasta el punto de ebullición, y donde se encuentre la altura de la columna de mercurio se marca cien!, $osteriormente se divide el espacio entre esas dos marcas en cien partes iguales, a las que se llama grados cen7grados! cen7grados! La condición para que una transformación de los nmeros asignados en una escala de intervalos sea una transformación admisible es que los nmeros asignados deben ser transformaciones lineales de las magnitudes reales, entonces son admisibles las transformaciones que sean también son lineales! Las transformaciones transformaciones admisibles para las escalas de intervalo no signi(can m#s que un cambio en la unidad de medida y en el origen asignado a la escala, valores ambos arbitrarios en ese po de escalas! La principal limitación de este po de escalas es que, aunque cuenta con una unidad de medida, no ene un cero absoluto! absoluto! %s decir, decir, el nmero nmero cero no represen representa ta realmen realmente te la ausencia ausencia de esa caracterís caracterísca! ca! :n ejemplo ejemplo de transformación transformación admisible es su traducción a grados ;ahrenheit! ESCALA DE RA42: cumple RA42: cumple la función de preservar el signi(cado del valor cero, de forma que siempre represente la ausencia de esa caracterísca! La consecuencia fundamental de la presencia de un origen absoluto, y no arbitrario, es que a dem#s de poder extraer conclusiones acerca de la igualdad o desigualdad de diferencias, también puede hablarse de desigualdad o igualdad de razones! La nica transformación admisible es la mulplicación por una constante posiva, puesto que solo estas transformaciones transformaciones preservan el cero, mientras que permiten un cambio en la unidad de medida! Tipo 2o'inal Or!inal
Inter/alo
Ra)n
In*or'acin !e!%ci+le o =disnto que> o =igual que>
Trans*or'acin A!'isi+le *plicaciones inyecvas ;unciones crecientes
?gualdad o desigualdad de diferencias ?gualdad o desigualdad de razones
* @ b A x 0b B C1
9 A x 0b B C1
E.e'plos 3exo, estado civil, diagnósco clínico +ureza, nivel socioeconómico, grado de aservidad /emperatura, calendario, inteligencia Longitud, peso
VARIABLES %n el proceso de medición se asignan nmeros a los objetos segn unas reglas, y el conjunto de valores numéricos atribuidos a las modalidades de una caracterísca constuyen lo que llamamos variable estadísca!
Una variable es %na represent representacin acin n%',rica !e %na caracter"sca Los valores valores atribuidos atribuidos a las correspon correspondien dientes tes modalidades modalidades de una caracter caracterís ísca ca permiten permiten diferenciar diferenciar a los objetos, que varían entre sí en esa caracterísca! $or el contrario, hay veces que una caracterísca ene una nica modalidad, en ese caso todas las endades estudiadas adoptarían el mismo valor numérico, y decimos que se trata de una constante ! Las variables pueden clasi(carse de varias formas) l as /aria+les c%anta/as c%anta/as 0sean 0sean de intervalo o razón1 pueden a su vez clasi(carse en /aria+les !iscretas # /aria+les conn%as, conn%as , en función del nmero de valores asumibles por ellas! :na variable discreta es aquella que adopta valores aislados! $or tanto, (jados dos consecuvos, no puede tomar ninguno intermedio! %jemplo) hijos de las familias espaolas, el nmero de piezas dentales que conservan los
internos de una residencia de ancianos, el numero numero de libros leídos pasado el verano, verano, etc! %n las variables connuas entre dos valores cualesquiera, por próximos que sean, siempre pueden encontrarse encontrarse valores intermedios! %jemplo) la longitud, la duración de los sucesos o el peso! Las variables estadíscas se simbolizan por letras maysculas lanas, y generalmente generalmente con un subíndice, para disnguirlas de las constantes! constantes! %n la pr#cca las variables connuas no pueden representarse numéricamente como tales! Los instrumentos de medida son imprecisos y solo permiten atribuir nmeros discretos! "uando decimos que un suceso ha durado DC segundos lo que queremos decir es que el numero de segundos mas cercano a su duración es DC. es decir, que su duración esta en el intervalo DC @EF C,G! %l DC se llama valor informado, mientras mientras que los valores HI,G y DC,G se llaman límites exactos de la medida, y se obenen sumando y restando el valor informado la mitad de la unidad de medida ulizada, que pueden ser unidades, decimas, centésimas, etc! CAPÍTULO 5: or6ani)acin # representacin representacin !e !atos Luego de obtener un conjunto de valores tomados en una o varias variables hay que empezar por inspeccionar los datos! "uando la candad de nmeros recolectados es demasiado grande, se hace diJcil hacer una inspección directa que sea realmente comprensiva! $or eso el primer paso suele consisr en reorganizar los datos! :n instrumento para conseguir conseguir esa ordenación ordenación es la denominada denominada distribución de recuencias , y a parr de ella es frecuente también construir representaciones representaciones gráfcas! DISTRIBUCI2 DE 7RECUE2CIAS La distribución de frecuencias es un instrumento diseado para cumplir tres funciones) a1 proporcionar una reorg reorgani aniza zación ción y orden ordenació ación n racion racional al de los datos datos recog recogido idos, s, b1 ofrece ofrecerr la inform informació ación n necesa necesaria ria para para hacer hacer repr represe esent ntaci acione oness gr#(c gr#(cas as y c1 facil facilita itarr los c#lcul c#lculos os necesa necesario rioss para para obtene obtenerr los estad estadís ísco coss muest muestra rales les!!
Se lla'a frecuencia absoluta !e %n /alor X p # se si'+o si'+oli)a li)a por np al n3'ero !e /eces $%e se repite el /alor 9i en la '%estraSe lla'a frecuencia relava !e %n /alor x p # se si'+oli)a por pp al cociente entre la *rec%encia a+sol%ta !e ese /alor # el ta'ao !e la '%estraSe lla' lla'aa frecuencia absoluta acumulada !e %n /alo /alorr x p # se si'+oli si'+oli)a )a por p; al cociente entre s% *rec%encia a+sol%ta ac%'%la!a # el ta'ao !e la '%estra* veces las frecuencias relavas, ya sean simples o acumuladas, se expresan en términos porcentuales! %n esos casos suelen representarse con maysculas. par obtenerlas basta con mulplicar por HCC las frecuencias relavas! "onstruimos la distribución de frecuencias siguiendo los pasos descritos descritos ) a8 3e ponen los valores que toma la variable en la primera columna de abajo hacia arriba! +8 $ara la columna de f! absolutas contamos el nmero de veces que se repite cada valor! La suma de ellos es igual al tamao de la muestra! c8 $ara la columna de f! relavas dividimos cada f! absoluta por n! La suma de ellas debe dar H! !8 $ara obtener las f! absolutas acumuladas sumamos para cada valor su f! absoluta m#s la absoluta acumulada del valor anterior! anterior! 3u suma debe dar también n! e8 $ara las f! relavas acumuladas dividimos cada f! absoluta acumulada por n! La frecuencia relava de valor mayor debe ser igual a H! %n muestras en donde se enen muchísimos valores que toma la variable, suele aplicarse lo que se denomina una agrupación en intervalos, y que consiste en formar grupos de valores consecuvos, llamados intervalos, y poner uno de estos grupos en cada (la, en lugar de poner cada valor individual por separado! * connuación se calculan las f! absolutas conjuntas de los valores incluidos en el intervalo haciendo lo mismo después con las f! relavas, las absolutas acumuladas y las relavas acumuladas! %n las distribuciones de frecuencias con valores agrupados en intervalos aparecen algunos elementos nuevos) Se lla' lla'aa intervalo a ca!a %no !e los 6r%pos !e /alores $%e oc%pan %na
Nay tres reglas y algunas directrices para hacer una distribución) a1 el intervalo superior debe incluir al mayor valor observado, b1 el intervalo inferior debe incluir al menor valor observado, c1 cada intervalo debe incluir el mismo nmero de valores! $ero al ser muchas las agrupaciones diferentes que se pueden realizar, para decidir entre ellas hay que tener presentes algunas directrices basadas en dos guías principales) a1 dado que el objevo de una distribución es conseguir una ordenación manejable que ayude a comprender el signi(cado de los datos, no es conveniente que el nmero de intervalos sea demasiado grande, b1 el nmero apropiado de intervalos debe ser tal que, simult#neamente, con ella se consiga una agrupación operava y que cumpla los objevos para los que ha sido diseada la distribución, pero sin distorsionar distorsionar los valores con el error de agrupamiento! REPRESE2TACIO2ES GR=7ICAS * parr de las distribuciones de frecuencias se pueden construir representaciones representaciones gr#(cas! La función de éstas es dar informaciones globales mediante un solo golpe de vista! Dia6ra'a !e rect&n6%los) rect&n6%los ) para hacer un diagrama de rect#ngulos se colocan en el eje de abscisas las modalidades 0o los nmeros que las representan1, y en el eje de ordenadas las frecuencias 0puede ser absolutas o relava relavass simples simples o acumuladas1 acumuladas1!! 3obre 3obre cada modalidad se levanta levanta un rect#ngulo rect#ngulo cuya altura es la frecuenci frecuenciaa correspondiente! correspondiente! La base de los rect#ngulos ser# arbitraria! $ara variables nominales u ordinales! Peristo6ra'a: se >isto6ra'a: se uliza para variables cuantavas connuas con datos agrupados en intervalos! %n el eje de abscisas se colocan los límites exactos de los intervalos, y en el eje de ordenadas las frecuencias! 3obre cada intervalo se levanta un rect#ngulo cuya altura sea igual a la frecuencia correspondiente! Pol"6ono !e *rec%encias: para *rec%encias: para variables discretas, el polígono es la (gura que resulta de unir los extremos superiores de las que hubieran sido las barras! 3i se trata de una variable connua, podemos decir lo mismo pero referido referido a los puntos medios de las bases superiores de los rect#ngulos correspondientes correspondientes a un hipotéco histograma histograma construido con esos mismos datos! Dia6ra'a !e +arras ac%'%la!as: se uliza en variables discretas! %n el eje de abscisas se colocan los valores de la variable y en el de ordenadas las frecuencias acumuladas, ya sean absolutas o relavas! 3obre cada valor se traza una perpendicular cuya longitud sea igual a la f! acumulada! +esde el extremo superior de cada una de estas barras se traza una línea horizontal horizontal que se une con la barra situada a su derecha! Pol"6ono !e *rec%encias ac%'%la!as: se ac%'%la!as: se uliza en variables connuas! %l eje de abscisas se construye igual que en los histogramas, pero en el de ordenadas se incluyen las f! acumuladas, ya sean absolutas o relavas! 3obre cada límite se levanta una perpendicular cuya longitud sea idénca a la f! acumulada y se une con los extremos superiores de dichas perpendiculares! Otros !i+%.os: muchas !i+%.os: muchas veces se ulizan otras representaciones (guritas, en las que se incluyen los objetos de los que se est#n haciendo recuentos de frecuencias, a algn símbolo que los iden(que de forma muy expresiva!
-
-
-
-
-
-
-
-
-
VARIABLES VARIABLES
2o'inales
!ia6ra'a !e rect&n6%los
C%anta/as C%anta/as !iscretas
C%anta/as conn%as
Dia6ra'a !e +arras Pol"6ono Pol"6ono !e *rec%encias Dia6ra'a !e +arras ac%'%la!as >isto6ra'a >isto6ra'a Pol"6ono Pol"6ono !e *rec%encias Per
PROPIEDADES PROPIEDADES DE LAS DISTRIBUCIO2ES DE 7RECUE2CIAS Los conjuntos de datos de variables cuantavas obtenidos en muestras, enen algunas caracteríscas! 3on cuatro) Ten!encia central: se central: se re(ere a la magnitud general de las observaciones hechas! %sta magnitud general puede cuan(carse mediante unos índices conocidos como índices de tendencia central o promedios y que reciben ese nombre porque pretenden ser síntesis de los valores de la variable!
-
Varia+ili!a!: esta Varia+ili!a!: esta propiedad se re(ere al grado de concentración de las observaciones en torno al promedio! :na distribución ser# homogénea o poco variable si los datos di(eren poco entre si, y por tanto, se agolpan en trono a su promedio! 3er# heterogénea o muy variable si los datos se dispersan mucho con respecto al promedio! %sta propiedad es independiente de la anterior, es decir, dos grupos que tengan disnta variabilidad pueden tener tendencias centrales muy disntas o similares! Asi'etr"a o ses6o) ses6o ) esta propiedad se re(ere, por tanto, al grado en que los datos enden a concentrarse en los valores centrales, en los valores inferiores inferiores al promedio, o en los valores superiores a éste! %xiste simetría perfecta cuando en caso de doblar la representación gr#(ca por una vercal trazada sobre la media, las dos mitades se superponen perfectamente! C%rtosis: se C%rtosis: se re(ere al grado de apuntamiento de la distribución de frecuencias! 3i es muy apuntada, se llama leptocúrca, y si es muy aplastada, se llama placúrca! Oeneralmente el grado de curtosis de una distribución se compar comparaa con un modelo modelo de distri distribuc bución ión llamad llamado o distri distribuci bución ón normal normal,, y que respecto respecto a la curto curtosis sis se llama llama distribución mesocúrca! DIAGRA0A DE TALLOS ? >O@AS Las distribuciones de frecuencias no son el nico medio para resumir y exponer conjuntos de datos. una alternava alternava a ellas son los llamados diagramas de tallo y hojas! 3u obtención requiere separar cada puntuación en dos partes) el primer o primeros dígitos, que reciben el nombre de tallo y el dígito o dígitos restantes, que reciben el nombre de hojas! 0xPGQ, G 0tallo1 y Q 0hoja1! Pasos: a8 3e iden(can los valores m#ximo y mínimo observados! +8 3e toma una decisión acerca del nmero m#s apropiado de tallos disntos! c8 3e listan todos los tallos disntos en una columna, ordenados de forma creciente de arriba hacia abajo! !8 3e escribe cada hoja, junto al tallo que le corresponda, preferiblemente preferiblemente ordenados segn su valor! valor! %l diagrama de tallo y hojas ene varias ventajas sobre la distribución e inconvenientes) una primera ventaja es que permite iden(car cada puntuación individual! %n las distribuciones tradicionales sólo conocemos las frecuencias del intervalo, y eso nos obliga a tratar los datos de ciertas maneras distorsionadas. no facilita, como la distribución cl#sica, el c#lculo de estadíscos. ofrece tanto un listado de las puntuaciones como un dibujo de la distribución. al contener los valores de cada observación es m#s f#cil de modi(car para obtener un dibujo con un nivel de detalle disnto. pueden representarse representarse dos conjuntos de datos en el mismo diagrama, con lo que facilita la comparación! -
-
-
CAPÍTULO : 0e!i!as !e posicin $ara $ara hacer estas valoracione valoracioness relav relavas as se pueden ulizar las llamadas llamadas medidas de posición que son índices diseados especialmente para revelar la situación de una puntuación con respecto a un grupo, ulizando a éste como marco de referencia! :n po concreto de medida de posición son las llamadas medidas de tendencia central y y también hay medidas de posición mas generales, que reciben el nombre de cuanles Cenles o percenles) percenles) son II valores de la variable que dividen a la distribución en HCC secciones, cada una conteniendo a la centésima parte de las observaciones! =3e simboliza por " DR a aquella puntuación que deja por debajo de si al DR por HCC de las observaciones y que es superada por el SD por HCC> HCC >! +ado +ado que los valor valores es corre correspo spondi ndien ente tess a los cenle cenless se determ determina inan n en funció función n de los porcen porcenta tajes jes de observ observacio aciones nes,, normal normalmen mente te las distan distancia ciass entr entree ellos, ellos, en térmi términos nos de puntua puntuació ción, n, no ser#n ser#n const constant antes! es! Oeneralmente Oeneralmente las distancias entre los cenles intermedios ser#n menores que las distancias entre cenles extremos! Los cenles no suelen calcularse con candades de pequeos datos, y cuando es necesario hacerlo se obenen sencillamente ordenando las puntuaciones y calculando la proporción de éstas que superan al valor que se quiere comparar! Tormalmente los cenles se obenen sobre datos agrupados en intervalos, y en su c#lculo se asume el supuesto de distribución homogénea intraintervalo! intraintervalo! %l cenl cenl sete setent ntaa es, es, por por de(n de(nici ición ón,, aque aquellllaa punt puntua uació ción n que que deja deja por por deba debajo jo de si al SC por por HCC HCC de las las observaciones y es superada por el C por HCC de ellas! "omo se trata de un grupo de DCC observaciones, el SC por HCC son HUC. por lo tanto, buscamos aquella puntuación que deja por debajo a HUC observaciones, y por encima a las otras QC! Las puntuaciones que dejan por debajo a esas candades de observaciones, son los límites exactos superiores de los intervalos! Deciles: son Deciles: son nueve puntuaciones que dividen a la distribución en HC partes, cada una conteniendo al HC por HCC de las observaciones! 3e representa por + V, donde V indica el nmero del decil al que se re(ere! *sí, el decil cuarto, es la puntuación que deja por debajo de si al UC por HCC de las observaciones y por encima de si al QC por HCC! C%arles) C%arles) son tres puntuaciones que dividen a la distribución en cuatro partes, cada una conteniendo al DG por HCC de las observaciones! 3e representan representan por W V donde V indica el nmero del cuarl al que se re(ere
%xiste una equivalencia directa entre los disntos cuanles! Oracias a esta equivalencia, las fórmulas de c#lculo de los cuanles se resumen en la de los cenles correspondientes correspondientes al cuanl que se quiera! CAPÍTULO : 'e!i!as !e ten!encia central Las medidas de posición permiten comparar una puntuación con aquellos valores que ocupan ciertas posiciones especiales en un grupo de referencia! +e todas esas posiciones hay una, la que representa la posición central, que suele suscitar un mayor interés que las dem#s, las medidas de tendencia central! 3on índices que actan como resmenes numéricos de las observaciones hechas!
cuando haya intervalos abiertos! %ste tercer y lmo caso se re(ere a situaciones en las que el intervalo superior carece de límite superior, el intervalo inferior carece de límite inferior, o ambas cosas a la vez! La mediana ser# la segunda candidata para representar la tendencia central y por tanto, si no hay argumentos de peso en contra, se preferir# la mediana a la moda! $ero hay al menos dos situaciones en las que se dar# esa preferencia) a8 cuando a8 cuando se trate de una variable medida en una escala nominal, +8 cuando +8 cuando haya intervalos abiertos y la mediana pertenezca pertenezca a uno de ellos! %n algunos algunos casos casos los tres tres índice índicess de tende tendenci nciaa centr central al dan valor valores es pareci parecidos dos,, o inclus incluso o pueden pueden coinci coincidir dir exactamente! CAPÍTULO : 0e!i!as !e /ariacin $ara conseguir una visión completa y comprensiva de los datos hay que complementar las medidas de tendencia central con las de otras propiedades de los mismos! :na de las propiedades m#s importantes de los conjuntos de datos es el grado en que éstos se parecen o se diferencian entre sí! %sta propiedad se denomina variabilidad, dispersión u homogeneidad, y es diferente diferente de la tendencia central! VARIA24A ? DESVIACI2 TÍPICA :na idea que se ha demostrado l a las hora de cuan(car la variabilidad es la de trabajar con las distancias desde los valores hasta algn poste central, que podría ser la media aritméca! 3in embargo también vimos en el tema anterior que la suma de las diferenciales es necesariamente igual a cero! :na solución al problema de que las distancias con respecto a la media sumen cero consiste en elevar al cuadrado esas distancias antes de hallar su promedio, dado que los cuadrados son siempre posivos - El "n!ice +asa!o en esta i!ea se lla'a /arian)a( # se representa por la e;presin S5;- C%an!o se $%iere !escri+ir el 6ra!o !e /aria+ili!a! !e %n 6r%po !e /alores +asta con o+tener este "n!ice- La cuesón que puede surgir es la de cómo valorar valorar el grado de dispersió dispersión n cuan(can cuan(cando do mediante este índice! +ado que valores de varianzas que pueden ser normales en ciertas variables y poblaciones podrían parecer exagerados en otros casos, no ene sendo comparar varianzas halladas sobre variables disntas! La varianza sirve sobre todo para comparar el grado de dispersión de dos o m#s conjuntos de valores en una misma variable, llegando a conclusiones como la siguiente) =la población de hombres presenta una mayor variabilidad en su estatura estatura que la población de mujeres, que son m#s homogéneas en esa caracterísca>! caracterísca>! La razón de esta discrepancia es que las distancias no se han tratado como tales, sino que para evitar el problema de que las diferenciales sumen cero se han elevado éstas al cuadrado! $or ello es frecuente, con objeto de retomar las unidades originales de esas distancias, se calcule la raíz cuadrada de la candad obtenida! *l índice así hallado se le llama desviación 7pica, se representa por 3x y se de(ne sencillamente como la raíz cuadrada de la varianza! Las variaciones entre los datos est#n re2ejando variaciones en las caracteríscas que est#n estudiando, y que en psicología suelen ser indicadores de varia variable bless psicol psicológi ógicas cas o medicio mediciones nes del compor comportam tamien iento! to! La variab variabili ilidad dad de los datos datos re2ej re2ejand ando o el hecho hecho incuesonable de las diferencias individuales! :no de los objevos de la psicología es precisamente la explicación sistem# sistem#ca ca de esas diferencias diferencias,, en tanto tanto en cuanto cuanto present presentan an regularida regularidades des asociadas asociadas a segundas segundas o tercera tercerass variables! To siempre son la varianza y la desviación 7pica los índices m#s apropiados para representar la variabilidad de un grupo de datos! Nay N ay veces en que algn dato extremo distorsionaría distorsionaría su interpretación, interpretación, en otras ocasiones la variable est# medida en una escala ordinal y en otras no se puede calcular! C=LCULO: puede siempre hacerse hacerse por medio de la fórmula que la de(ne, pero pero en muchas ocasiones resulta resulta m#s pr#cco ulizar otras fórmulas derivadas de aquélla, y en cualquier caso es necesario adaptar la fórmula a aquellas situaciones en las que los valores est#n agrupados en intervalos! F La varianz varianzaa es también también igual a la media media de de las puntuacion puntuaciones es direct directas as elevad elevadas as al cuadr cuadrado ado menos menos el el cuadrad cuadrado o de la media! %sta fórmula resultar# resultar# l en ciertos casos! PROPIEDADES: PROPIEDADES: e n primer lugar, hay que destacar que un conjunto de valores puede mostrar un mayor o menor grado de homogeneidad, pero el grado m#s pequeo posible de homogeneidad se produce cuando todos los valores son idéncos! %n ese caso las desviaciones de los valores con respecto a su media son todas cero y en consecuencia también es igual a cero la media de sus cuadrados, por tanto, ése es el mismo valor que puede adoptar la varianza! ?gualmente, como desviación 7pica se toma la raíz posiva de la varianza! 1- La /arian)a /arian)a # la !es/ia !es/iacin cin pica( pica( co'o co'o 'e!i!as 'e!i!as !e la !ispersin !ispersin(( son /alore /aloress esencial'en esencial'ente te posi/osposi/os* veces interesa transformar las puntuaciones observadas sumando una constante yEo mulplicando por otra constante, tal y como vimos al exponer las propiedades de la media! %n esos casos no har# falta calcular la varianza de las puntuaciones transformadas, sino que podr# deducirse conociendo la varianza de las puntuaciones originales! 5- Si s%'a'o s%'a'oss %na constan constante te a %n con.%nt con.%nto o !e p%nt%aci p%nt%acione ones( s( s% /arian /arian)a )a no se altera altera-- 3i la transformación consiste en mulplicar por una constante, la varianza si se ve alterada! "onociendo la varianza de las puntuaciones originales y la constante mulplicada se puede obtener f#cilmente la varianza de las puntuaciones obtenidas mediante la mulplicación de la constante! constante!
- Si '%lplic '%lplica'os a'os por %na %na constant constante e a %n con.%nto con.%nto !e p%nt% p%nt%acion aciones( es( la /arian /arian)a )a $%e!ar& $%e!ar& '%lpli '%lplica!a ca!a por por el c%a!r c%a!ra!o a!o !e la const constant ante( e( # la !es/ia !es/iaci cin n pi pica ca por el /alor /alor a+sol%t a+sol%to o !e esa const constant antee- %n ciertas ocasiones conocemos las varianzas de varios subgrupos y se quiere obtener la varianza del grupo total! %sto se puede conseguir aplicando una propiedad que relaciona la varianza de todas las puntuaciones juntas con las varianzas, medias, y tamaos de los subgrupos! - La /arian) /arian)aa total !e !e %n 6r%po 6r%po !e p%nt%acione p%nt%aciones( s( c%an!o c%an!o se conocen conocen los los ta'aos( ta'aos( las 'e!ias 'e!ias(( las /arian) /arian)as as !e /arios s%+6r%pos ecos a parr !el 6r%po total( '%t%a'ente e;cl%si/os # e;a%s/os( p%e!e o+tenerse s%'an!o la 'e!ia Hpon!era!a8 !e las /arian)as # la /arian)a Hpon!era!a8 Hpon!era!a8 !e las 'e!iasOTRAS: :na forma muy sencilla el grado de dispersión consiste en calcular la distancia entre el mayor y el menor de los valores observados! %ste índice se llama amplitud total, rango o recorrido y se obene sencillamente hallando la diferencia entre los valores extremos! +isnción entre ambos pos de amplitud, que se denominan rango excluyente excluyente y rango incluyente, usadas en variables discretas y connuas! %sto es muy sensible a los valores extremos y nada sensibles a los intermedios, pudiendo carecer de toda representavidad! 'tro inconveniente inconveniente de este índice es que est# ligado al tamao de la muestra ulizada! 3i se quiere comprara la variabilidad de las dispersión de dos conjuntos de datos de tamao marcadamente disnto, es probable que la muestra de mayor tamao presente una mayor amplitud aunque las poblaciones de referencia referencia tengan la misma variabilidad! X +esviación +esviación media) media) tomar tomar las las desviacion desviaciones es con respecto respecto a la la media, media, o puntuacion puntuaciones es diferen diferenciales ciales,, en valore valoress absolutos! X *mplitud *mplitud semiFin semiFinter tercuarl cuarl)) basad en en las puntuaci puntuaciones ones corres correspondie pondiente ntess a los cuarle cuarless primero primero y terce tercero! ro! X "oe(ci "oe(cien ente te de variaci variación) ón) a veces veces se desea compar comparar ar la variabil variabilida idad d de grupos grupos cuya cuya media es disn disnta! ta! %ste %ste índice es expresado como un porcentaje! %ste índice puede construirse como un índice de la representavidad de la media! "uanto mayor es el coe(ciente de variación, menos representav representavaa es la media! CAPÍTULO F: P%nt%aciones picas # escalas !eri/a!as"omparar las magnitudes mediante la comparación de los valores asociales a ellas! 'tras soluciones, que se basan en la transformación de las puntuaciones observadas en otras que, sin perder o distorsionar la información contenida en las puntuaciones originales, permitan una comparación directa de las mismas! PU2TUACI2 PU2TUACI2 TÍPICA :n sujeto obtuvo una puntuación U al medir sobre él la variable K, y queremos hacer una valoración de este dato, hay una di(cultad de carecer de referencias apropiadas para hacer esa valoración! :na forma es calcular lo que de(nimos como puntuación dierencial , que es la distancia o diferencia entre esa puntuación y la media del grupo de puntuaciones! Las puntuaciones diferenciales nos indican si la puntuación es superior o inferior a la media o si coincide con ella! 3in embargo estas son informaciones insu(cientes para comparar puntuaciones de sujetos pertenecientes pertenecientes a disntos grupos o a disntas variables! :na solución consiste en no medir las distancias a la media en términos absolutos, sino con relación a la variabilidad del grupo de referencia! 3e trataría de indicar como de grande es una distancia en términos de las distancias observadas en general en esas puntuaciones! 3e la denominan como puntuaciones picas, se representa por letra !! *l proceso de obtención de las puntuaciones 7picas se llama pifcación! La formula de ! es) zi PKi F KE 3 x
La p%nt%acin pica !e %na o+ser/acin in!ica el n3'ero !e !es/iaciones picas $%e esa o+ser/acin se separa !e la 'e!ia !el 6r%po !e o+ser/aciones Las puntuaciones 7picas permiten, por tanto, hacer comparaciones entre unidades de disntos grupos, entre variables medidas de disntas formas, o incluso entre variables diferentes! diferentes! %n cualquier caso, las puntuaciones 7picas siempre nos indicar#n el nmero de desviaciones 7picas 0de las de ese grupo y variable1 que se separan de la media 0de ese grupo y variable1 y si esa desviación es por encima o por debajo de la media 0segn el signo de la puntuación 7pica1! Las caracteríscas de las puntuaciones 7picas son universales, no dependen del po de puntuaciones ni de su dispersión, ni de su nmero! La 'e!ia !e las p%nt%aciones picas es cero( 'ientras $%e s% /arian)a # !es/iacin pica son i6%ales a %no Las puntuaciones 7picas re2ejan las relaciones esenciales entre las puntuaciones, con independencia de la unidad de medida que se haya ulizado en la medición! "uando en dos conjuntos de puntuaciones, emparejadas con algn criterio, a los elementos de cada para les corresponde la misma puntuación 7pica dentro de su conjunto, puede decirse que manenen la misma estructura interna, y se dice entonces que son puntuaciones e"uivalentes e"uivalentes! ESCALAS DERIVADAS
?nconvenientes que surgen de las desviaciones 7picas! %n concreto y dado que la media de las 7picas es cero y su desviación 7pica uno, buena parte de las puntuaciones suelen ser negavas, y casi todas decimales! %sto hace que resulte resulte incómodo su tratamie tratamiento nto y que muchas veces veces se busquen busquen procedimi procedimient entos os que permitan permitan superar superar esta di(cultad! :n procedimiento consiste en transformar las puntuaciones 7picas en otras que retengan todas las relaciones que mani(estan las puntuaciones originales, por tanto que sean puntuaciones equivalent equivalentes, es, pero evitando la di(cultad operava, y que constuyen lo que se denomina una escala derivada! %stas transformaciones se basan en una propiedad de las puntuaciones 7picas! Si trans*or'a'os lineal'ente las p%ntaciones picas( '%lplic&n!olas por %na constante a( # s%'an!o %na constante constante b( entonces las p%nt%aciones trans*or'a!as ten!r&n co'o 'e!ia la constante s%'a!a b( co'o !es/iacin pica el /alor !e la constante '%lplica!a( K aK # co'o /arian)a el c%a!ra!o !e esta constante( a5%n resumen la construcción de una escala derivada parte de unas puntuaciones directas, éstas se pi(can, y después se transforman linealmente en otras puntuaciones! La cuesón fundamental de las escalas derivadas consiste en transformar las puntuaciones originales, K i, en otras puntuaciones transformadas, # i i, tales que sean m#s cómodas de tratar e interpretar, pero que a la vez retengan las relaciones comerciales entre los valores, es decir, decir, que sean puntuaciones equivalentes! CAPÍTULO : 0e!i!as !e asi'etr"a # C%rtosis Nay otras dos caracteríscas con las que se pueden describir y comparar las distribuciones de frecuencias! Í2DICES DE ASI0ETRÍA %l grado de asimetría de una distribución hace referencia al grado en que los datos se reparten equilibradamente por encima y por debajo de la tendencia tendencia central! central! 3e han propuesto propuesto difere diferente ntess índices índices con los que cuan(car cuan(car esta propiedad! Relacin entre la 'e!ia # la 'o!a) 'o!a ) se de(ne como la distancia entre la media y la moda, medida en desviaciones 7picas, es decir) la media es inferior a la moda, y por tanto este índice dar# un valor negavo. la media es superior y el índice dar# posivo. coinciden los dos índices de tendencia central y por tanto el índice de asimetría dar# cero! Las distribuciones como las primeras enen asimetría negava y el índice da valores menores que cero. las del segundo po asimetría posiva , y este índice da valores mayores que cero! %n las lmas se dice que son distribuciones simétricas, puesto que no est#n inclinadas hacia ningn lado. este índice da en ellas valores en torno a cero y si la simetría es perfecta entonces da exactamente cero! 3ólo se puede calcular en distribuciones unimodales! Ín!ice !e asi'etr"a !e Pearson: Pearson: es igual al promedio de las puntuaciones 7picas elevadas al cubo! Los valores menores que cero indican asimetría negava, los mayores mayores que cero asimetría posiva y los valores en torno a cero indican distribuciones aproximadamente aproximadamente simétricas! %s el índice m#s ulizado! Ín!ice !e asi'etr"a interc%arlico: se interc%arlico: se basa, en los cuarles! La interpretación es similar a la de los índices anteriores! Los valores mayores de cero indican asimetría posiva, los menores indican asimetría negava y los valores en torno a cero re2ejan distribuciones simétricas! /ienen una ventaja sobre los índices anteriores, y es que ene un valor m#ximo y mínimo con lo que se facilita su interpretación en términos relavos! Í2DICES DE CURTOSIS 3e basa en el promedio de las 7picas elevadas a la cuarta potencia! :na distribución en la que el índice sea igual a cero enen un grado de "urtosis similar al de la distribución normal, y se dice que es mesocúrca, mientras que si es posivo su grado de apuntamiento es mayor que el de la distribución normal, y se dice que es una distribución leptocúrca y si es negavo su apuntamiento es menor que el de la distribución normal y se dice que es placúrca! La "urtosis se calcula obteniendo primero la media y la desviación 7pica, después pi(cando, luego elevando las 7picas a la cuarta potencia, y después sustuyendo en la formula! 3i los datos est#n agrupados en intervalos la nica diferencia es que lo que se pi(ca son los puntos medios de intervalos, y cada 7pica elevada a la cuarta potencia se mulplica por el numero de observaciones que comparten ese valor 0n1
CAPÍTULO J: Correlacin lineal :no de los objevos principales de la ciencia consiste en descubrir las relaciones entre variables, y la estadísca ha desarrollado instrumentos apropiados para esta tarea! *sí, por ejemplo, en el campo de la $sicología podemos preguntarnos si el rendimiento laboral de un po de puesto de trabajo guarda relación con la personalidad del trabajador, si el fracaso escolar es m#s probable en nios con determinadas circunstancias personales y familiares, etc! La observación de relaciones claras y estables entre las variables ayuda a comprender los fenómenos y a
encontrar explicaciones de los mismos, e indica las vías probablemente m#s e(caces para intervenir sobre las situaciones! %l estudio e las ciencias sociales, incluida la psicología, nunca se encuentran relaciones deterministas, sino m#s bien conjuntos de observaciones que mani(estan una con(guración concreta! REPRESE2TACI2 REPRESE2TACI2 GRA7ICA DE U2A RELACI2 3upongamos que registramos dos variables en un grupo de estudiantes) al comienzo del curso medimos su nivel de inteligencia mediante un test apropiado, y al (nal del curso evaluamos su rendimiento rendimiento mediante la nota obtenida! %s habitual que el resultado de la inspección de estos dos conjuntos de puntuaciones sea la constatación de que, en general, los estudiantes con inteligencia alta enden mejores cali(caciones que los estudiantes con inteligencia baja! %sta relación no es mec#nica! %xisten factores externos que pueden ejercer su in2uencia sobre estudiantes con cualquier nivel de exigencia pero estos casos especiales suelen ser minoría! %n la mayoría de los casos si podr# apreciarse esa tendencia general en la relación entre las variables) valores altos en inteligencia enen a emparejarse emparejarse con valores altos en rendimiento, y valores bajos en la primera enden a emparejarse con valores bajos en la segunda!
Se !ice $%e !os /aria+ /aria+les les X e e ? 'anenen %na relacin lineal directa c%an!o los /alores altos en ? en!en en! en a e'pa e'pare.ar re.arse se con /al /alores ores altos en X, los /alores inter'e!ios en ? en!en a e'pare.arse con /alores inter'e!ios en X, # los /alores +a.os en ? en!en a e'pare.arse con /alores +a.os !e X 3upongamos que ahora hay otra prueba que consiste en tachar las letras
hemos destacado su alternava principal, el coe(ciente de correlación de $earson, precisamente porque no ene esa di(cultadM El coe
FH
FC,G
C
C,G
H
relaciones directas
3in embargo, la valoración de r no debe hacerse con base en su valor simple! +e hacerlo así se cae en la tentación de establecer conclusiones del po de que una correlación de C,QC indica que hay un QC por HCC de asociación lineal, o que una correlación de C,RC indica el doble de asociación lineal que una correlación que una correlación de C,UC! La valo valora ració ción n de un coe( coe(ci cien ente te de corr correl elac ació ión n debe debe hace hacers rsee con con base base en el cuad cuadrrado ado de su valo valorr r D! D ! "omo "omo consecuencia, el grado de asociación lineal r xy xy P C,RC y r uv uv P C,UC no es el doble en la primera que en la segunda, sino D D del cu#druple 0r xyEr uv PC,QUEC,HQP U1 Nay, adem#s, otros factores que alteran las expectavas sobre el valor de r , como son la variabilidad, la mediación de terceras variables, etc! /ambién hay una especi(cidad en los campos de estudios concretos! $or ejemplo, para estudiar la estabilidad de la puntuaciones que ofrece un test se suele aplicar el test dos veces en un breve intervalo de empo 0es 7pico hacerlo en el plazo de una semana1, y se halla la correlación entre las puntuaciones obtenidas en las dos administraciones de la prueba! *sí se obene la fabilidad del del test! %n cada #rea de estudio se va a desarrollar un conocimiento que permite valorar los coe(cientes de correlación en términos relavos! Los coe(cientes de correlación deben valorarse comparando unos con otros o compar#ndolos con los valores que 7picamente se suelen encontrar en el campo de estudio especi(co del que se trate! trate! La obtención de una correlación igual 0o cercana1 a cero puede llevar a pensar que no hay relación entre las variables sin ser cierto! La correlación de $earson mide el grado de adecuación de unos datos a un modelo lineal, pero entre las variables puede exisr otro po de relación! :n ejemplo proto7pico de esto es la relación entre acvación y rendimiento, por ejemplo) con estados altos de ansiedad se reduce el rendimiento en los ex#menes! %s decir el rendimiento m#ximo se obene con niveles medios de acvación, mientras que con niveles demasiados bajos o demasiados altos el rendimiento disminuye! Lo que se desprende de todo esto es que no conviene analizar la relación entre dos variables exclusivamente mediante el c#lculo coe(ciente de correlación, sino que conviene representar gr#(camente gr#(camente el diagrama de dispersión para observar esa relación! :na representación gra(ca puede ser mucho m#s informava informava que un simple valor de r. /ampoco ampoco hay que interpr interpretar etar los coe(cien coe(cientes tes de correlació correlación n en términos términos de relaciones relaciones causales causales entre entre las variables!
REUC>LI2 CAPÍTULO 1: car&cter /aria+le !e las con!%ctas LAS 7UE2TES DE VARIACIO2 ? A2ALSIS ESTADISTICO Las variaciones que son imprevisibles porque no est#n asociadas a ninguna fuente de variación sistem#ca! sistem#ca ! To se ha introducido ninguna diferencia sistem#ca entre dos presencias de la misma bombilla roja o entre el examen de un nio de I aos y el examen de otro nio de I aos! Las variaciones imprevisibles imprevisibles se atribuyen así a un conjunto de uentes ortuitas ortuitas de variación variación para el experimentador o encuestador!
Las Las vari variac acio ione ness que que son son prev previs isib ible less porq porque ue est# est#n n asoc asociad iadas as a uentes sistemácas de variación ! 3i el experimentador compara DC empos de reacción frente a un esmulo nico 0bombilla roja1 con DC empos de reacción frente a un esmulo que debe escogerse entre tres es7mulos posibles 0bombillas roja, verde, amarilla1, es porque prevé que el proceso mental, m#s complejo en la segunda experiencia, agrandara de manera signi(cava los empos de reacción! 3i el encuestador compara HCC nios de I aos con otros HCC nios de HC aos es porque prevé que este cambio sistem#co en la edad constuir# constuir# la fuente de una variación signi(cava de los resultados en el test! 3i las variaciones así previstas no son mayores que las variaciones imprevisibles, el psicólogo comprobar# que no se veri(ca su hipótesis sobre el efecto de las fuentes sistem#cas de variación que había creído introducir en la experiencia o en la encuesta! La comparación entre la amplitud de las variaciones previsibles y la amplitud de las variaciones imprevisibles permite interpretar los resultados de la experiencia o de la encuesta e iden(car, a la vez, algunas fuentes sistem#cas de variación! Las variaciones de las conductas son previsibles cuando se conoce la situación, el momento o la persona! $or otra parte, estas variaciones de las conductas son imprevisibles a parr de las informaciones de las que dispone el observador! %l psicólogo uliza a menudo el método estadísco precisamente porque este método permite tratar con m#s e(cacia las observaciones que presentan presentan a la vez variaciones previsibles y variaciones imprevisibles! PO2DERACI2 DE U2A 7UE2TE SISTE0=TICA DE VARIACI2 "uando el experimentador o el encuestador hace la hipótesis de que varias fuentes sistem#cas de variación producen efectos sobre sus observaciones, comienza en general por veri(car si cada una de ellas ene efecvamente efecvamente un efecto no nulo y signi(cavo! $or ejemplo) veri(cara en primer lugar si la dispersión de las notas en el test es efecvamente mayor 0teniendo en cuenta las variaciones fortuitas1 en un grupo de nios de edades diferentes que en un grupo de nios de la misma edad. en un grupo de nios de medios diferentes que en un grupo de nios del mismo medio! %l experimentador podr# intentar averiguar cu#les son las fuentes de variación m#s importantes, importantes, es decir, decir, las que contribuyen m#s a las variaciones de las observaciones! PO2DERACI2 DE LAS 7UE2TES 7ORTUITAS DE VARIACI2 +ebe evaluar el peso que toman en sus observaciones las fuentes fortuitas de variación! 3i este peso es grande, con relación al de las fuentes sistem#cas de variación, ser# diJcil poner en evidencia estas lmas, reconocer su signi(cado! $or ejemplo) en la encuesta sobre desarrollo desarrollo intelectual, si la variación observada entre nios de I aos o entre nios de HC aos fue muy grande con respecto a la variación observada entre I aos y HC aos! :na de las razones de peso que tomarían aquí las variaciones fortuitas podría buscarse en una escasez de 8(delidad8 del test! $uede deducirse que un test es (el, si, aplicado dos veces al mismo nio, proporcionaría dos resultados poco diferentes! $ero podría haber otras razones 0efectos del medio, etc!1, para las cuales un an#lisis apropiado podría disnguirse e iden(car los efectos, pero que si no se hace este an#lisis suelen interpretarse como fuentes fortuitas!
CAPÍTULO 5: Res3'enes esta!"scos en el ni/el !e las escalas no'inales El e'pleo !e la esta!"sca en psicolo6"a: disnguir dentro de las observaciones las variaciones fortuitas de las variaciones sistem#cas! $ara asumir esta función del método estadísco estadísco procede a hacer resmenes de series de observaciones! 4$or qué ene necesidad el psicólogo de efectuar resmenes estadíscos de este po5 $ara poder razonar sobre conjuntos de observaciones) pueden compararse dos medias o dos gr#(cos! %l resumen de una serie de observaciones puede hacerse de manera que se ponga en evidencia un aspecto parcular de la información contenida en estas observaciones y llegar así a poseer un instrumento de an#lisis de esta información! Nay que examinar algunos métodos que permiten describir una serie de observaciones en forma resumida y que pueden tener signi(caciones diferentes! diferentes! La elección de uno u otro de estos métodos depender# del problema que se plantee el psicólogo! 2i/eles !e 'e!i!a: se 'e!i!a: se disnguen tres niveles de medida, estando de(nido cada nivel por las propiedades del conjunto de los valores que pueden obtener mediante las operaciones de medida! Nay una jerarquía entre estos tres niveles) en cada uno de ellos los nmeros gozan de todas las propiedades del nivel inferior inferior y de otras propiedades! %l nivel mas bajo 0el mas débil1 se llama escalas escalas nominales Constr%ccin !e la escala no'inal: para no'inal: para construir una escala nominal basta que el psicólogo sea capaz de reparr sus observaciones en un cierto nmero de clases, el conjunto de las cuales constuye la escala, y que deben poseer las dos propiedades siguientes) cada observación debe entrar en una clase y solamente en una! %l que dos observaciones entren o no en la misma clase de e"uivalencia no se sigue de un criterio estadísco, sino de un criterio empírico, es decir, relavo relavo a los propios hechos! 3e producen di(cultades, ya que hay que de(nir el conjunto de clases de manera tal que toda observación entre dentro de una clase, luego hay que conseguir que cada observación no pueda entrar m#s que en una nica clase! 3e necesitar# adoptar una de(nición precisa de cada clase y veri(car que los criterios así propuestos propuestos los comprenden de la misma manera ulizadores diferentes! diferentes! /ambién /ambién deber# decidir en función de sus posibilidades y de sus problemas
propios el nmero de clases de la escala, es decir, la (nura de la parción! :na parción mas (na exigir# una candad de información mayor, mayor, criterios m#s precisos y las posibilidades del observador no son ilimitadas en este aspecto! Propi Propie!a e!a!es !es !e los n3'eros n3'eros en %na escala escala no'ina no'inal: l: una vez realizada esta parción de una serie de observaciones se van a poder ulizar nmeros para describir y resumir esta serie! $ero cada uno de estos nmeros design designar ar## aquí aquí una clase clase de observ observaci acione ones! s! %sta %stass opera operacio ciones nes sólo sólo permit permiten en decir decir que una observ observaci ación ón que pertenece a una clase es diferente de una observación que pertenece a otra clase. no permiten decir que la primera es mayor o menor que la segunda! %l nmero de observaciones que pertenecen a una clase es el eecvo de esta clase! +espués de aplicar una escala nominal a una serie de observaciones se puede hacer una tabla numérica que proporcione, para cada clase, su afecvo! afecvo! %sta tabla presenta la distribución de los aecvos. 3e les puede comparara y, en parcular, averiguar la clase para la cual el efecvo es el mayor 0es la clase modal o también la moda1 $ara conocer la importancia relava de una clase en la serie de observaciones se puede dividir el efecvo efecvo de esta clase por el nmero total de observaciones observaciones!! 3e obtendr# obtendr# así una recuencia. %l interés de las frecuencias o porcentajes es permir comparaciones entre distribuciones correspondientes a series de observaciCnes desigualmente numerosas! Res3'enes esta!"scos: la distri una tabl tablaa meno menoss volu volumi mino nosa sa en gene genera rall que que la seri seriee de distribuc bución ión es una observaciones! %l resumen que proporciona pone en evidencia un aspecto de la información contenida en las observacio observaciones) nes) la equivalenc equivalencia ia de algunas algunas observacio observaciones nes y el nmero nmero de observaci observaciones ones equivalente equivalentess de cada catego categoría ría!! %n lugar lugar de estar estar repr represe esent ntada ada por una tabla tabla de nmer nmeros, os, la distri distribuc bución ión puede puede repr represe esent ntar arse se gr#(camente gr#(camente por un $istograma. La moda es la clase que ene mayor efecvo, efecvo, se puede considerar que resume o representa 8de la mejor manera8 la distribución! 3i, en una encuesta, se mani(estan varias opiniones, se podr# resumir el resultado diciendo 8la opinión de la mayoría es!!!8! $ero se ve que este resumen implica la pérdida de una parte de la información aportada por la distri distribuc bución ión y esa perdid perdidaa ser# ser# muy import important antee si se expre expresan san varias varias opinio opiniones nes con frecu frecuenc encias ias poco poco diferentes! Entrop"a: la moda no resumen m#s que un aspecto de la información en la distribución) indica a qué clase hay m#s posibilidad de que pertenezca la observación sacada al azar del conjunto de las observaciones! $ero no permite saber si las posibilidades de pertenecer a otra clase son muy diferentes o solamente poco diferentes, dicho de otro modo, si las observaciones son muy diferentes o poco diferentes, si su distribución est# muy dispersada o poco dispersada! 3e admir# que la dispersión podr# ser tanto mayor cuanto mayor sea el nmero de clases! $ara un nmero (jo de clases, ser# mayor si las observaciones se reparten igualmente sobre todas las clases en vez de concentrarse concentrarse solamente sobre algunas clases! 3e puede explicitar y cuan(car esta noción de(niendo y calculando la entropía de la distribución! %s una medida de variación para variables cualitavas! cualitavas! &ide el 8grado de desorden de un sistema8! $or tanto tanto a entr entropí opíaa se puede puede pensar pensar como la canda candad d media media de inform informaci ación, ón, pues pues es la esper esperanz anzaa de la canda candad d de información!
GLOSARIO DE CO2CEPTOS ELE0E2TOS O U2IDADES: son U2IDADES: son las endades acerca de las que se renen datos! $or ejemplo) H1 si se evala la memoria de los aspirantes a un puesto de mozo en el restaurante K, las unidades son cada uno de los aspirantes! D1 si a un comerciante le interesa el volumen de ventas semanal de su comercio durante el lmo ao, las unidades son cada una de las semanas de ese ao! POBLACI2 DE I2DIVIDUOS: es I2DIVIDUOS: es el conjunto de todos los elementos sobre los cuales se observa una o m#s caracteríscas de interés! 3e alude a ella como población ob%evo , en razón de que sobre ella recae el objevo o el interés del estudio! %jemplos) H1 el conjunto de aspirantes al empleo del restaurante restaurante K! D1 el conjunto de semanas a lo largo del ulmo ao! 0UESTRA DE I2DIVIDUOS: es I2DIVIDUOS: es un subconjunto o parte de una población de individuos! %jemplos) H1 los cinco primeros aspirantes aspirantes entrevistados! entrevistados! 1 las semanas H, Q, HD, HI,DS, etc! del lmo ao! &otas: cuando hablamos de unidades como de la población objevo o de individuos o de la muestra de individuos, estas endades deben deben ser situadas en el espacio 0situación geogr#(ca1 y en el empo 0ao o fecha1! "omo generalmente las muestras se extraen con (nes inferenciales. esto es, para tener conocimiento de lo que acontece a nivel poblacional, es de desear que sean representavas representavas de las respecvas poblaciones! $ara favorecer favorecer la representavidad de las muestras, la llamada /eoría de &uestreo ha desarrollado diversidad de métodos! :no de ellos es la elección al azar de las unidades muestrales! VARIABLES O CARACTERÍSTICA: CARACTERÍSTICA: es una caracterísca de un fenómeno observable en los individuos de una población! población! %s una variable propiamente propiamente dicha cuando cuando present presentaa diferen diferentes tes modalidades modalidades 0dos o m#s1 entre los
individuos! 3i se presenta bajo una nica modalidad se dice que es una caracterísca constante! %jemplos) H1 memoria de los aspirantes aspirantes al empleo! D1 volumen de ventas respecvamente respecvamente!! VARIABLE VARIABLE ESTADÍSTICA ESTADÍSTICA)) es una representación, a través de nmeros u otros símbolos, de una variable! %sta representación representación se obene mediante algn procedimiento procedimiento de medición! %jemplos) H1 candad de palabras recordadas de una lista de HD! D1 total de Y de los productos vendidos en una semana! Las variables estadíscas se clasi(can de acuerdo con el po de valores que pueden tomar en) Varia+le Varia+le c%alita/a c%alita/a ) es aquella cuyos valores expresan atributos! %jemplo) po de trastorno que presentan los pacientes de un servicio de salud mental 0de ansiedad, de atención, de sueo, etc!1 Varia+le Varia+le c%asiMc%anta/a c%asiMc%anta/a) es aquella cuyos valores indican un orden de jerarquía! %jemplo! Tivel de deserción escolar 0bajo, medio, alto1 Varia+le c%anta/a) c%anta/a ) es aquella cuyos valores expresan candades numéricas! +entro de las variables cuantavas se diferencian las llamadas discretas de las connuas! 3e consideran discretas aquellas cuyos valores son puntos aislados, esto es, cuando todo valor ene un consecuvo! 3e dice que dos valores son consecuvos cuando no puede exisr un valor de la variable entre ellos! %jemplo) candad de palabras recordadas! 3e consideran connuas a las variables que, al menos teóricamente pueden tomar cualquier valor dentro de un intervalo numérico! %jemplo) empo de reacción ante un esmulo! CO2STRUCTO ? OPERACIO2ALI4ACI2: la mayoría de las caracteríscas caracteríscas psicológicas son de naturaleza compleja, resultado de varias variables que interactan! "uando se alude a estas variables es necesario explicitar que se enende por ellas, o que aspectos se est#n considerando y qué relaciones se veri(can entre ellas! +e allí surge una construcción teórica, hipotéca que toma el nombre de constructo ! %jemplos) inteligencia, la memoria, la ansiedad, la actud solidaria, etc! %stos constructos o variables complejas no son directamente observables como son. por ejemplo, la estatura estatura o el estado estado civil de una persona, y esto es lo que di(culta el proceso proceso de medición, para poder obtener valores de estas variables a través de la medición es necesario hacer un =recorte adecuado> del constructo. es decir, considerar un solo aspecto del mismo y explicitar cu#les son las manifestaciones observables que dan cuenta de él! $or ejemplo, una manifestación observable de la memoria es la candad de palabras recordadas, aunque la sola recordación de palabras no agota la riqueza del constructo memoria! %n estos casos se recurre a una de(nición operacional 0operacionalización1 del constructo permite asignar sin ambigZedad un valor a la variable a través del proceso de medición! %n el ejemplo, la de(nición operacional del constructo memoria es la candad de palabras recordadas! * las variables que no son directamente observables también se las denomina rasgos latentes ! *sí, por ejemplo, la obsesividad de un estudiante es un rasgo latente que se puede manifestarse a través de la candad de veces que pregunta lo mismo hasta senrse sasfecho! sasfecho! NCO2TI2UO O DISCRETO: el DISCRETO: el hecho de que una variable estadísca sea discreta o connua determina el po de tratamiento estadísco que se le dar#! 3in embargo muchas veces es decisión del invesgador si la tratar# de un modo y otro dependiendo de la naturaleza de la variable estadísca y de su correspondiente variable latente! $or ejemplo) la candad de palabras recordadas de una lista es claramente una variable discreta! $ero esta variable representa representa a la variable latente memoria' la cual ene sendo que sea concebida en una connuo. esto es, entre dos niveles de memoria es razonable pensar que podrían exisr in(nitos valores posibles! +e modo que se puede considerar que en realidad est# ante una discrezación de un connuo debida al instrumento de medición. del mismo modo que la hora registrada con un reloj digital es una discrezación del empo que se desea medir! 9ajo esta perspecva perspecva el invesgador puede dar a la candad de palabras recordadas un tratamiento de variable connua y considerar, considerar, por ejemplo, que el valor HC 0diez palabras recordadas1 bien puede representar representar todo un connuo de niveles de memoria entre I,G y HC,G que podría observar si dispusiera de un instrumento de medición m#s sensible que la sola candad de palabras recordadas! %s importante considerar que para que una variable discreta pueda ser tratada adecuadamente como connua, es conveniente que tome una gran candad de valores diferentes! POBLACI2 DE OBSERVACIO2ES: OBSERVACIO2ES: es es el conjunto de todos los valores que pueden tomar una variable estadísca sobre la población de individuos! Tótese que sobre una misma población de individuos se pueden de(nir muchas poblaciones de observaciones, tantas como variables de interés! 0UESTRA DE OBSERVACIO2ES: es OBSERVACIO2ES: es el conjunto de de valores que toma una variable estadísca sobre una muestra de individuos. es decir, es un subconjunto de la población de observaciones! ESTADÍSTICA DESCRIPTIVA: es DESCRIPTIVA: es la parte de la %stadísca que proporciona métodos para organizar, representar, resumir y analizar la información contenida en un conjunto de datos muestrales o poblaciones! ESTADÍSTICA I27ERE2CIAL) I27ERE2CIAL) es la parte de la %stadísca que proporciona métodos para extraer conclusiones sobre las poblaciones a parr de sus muestras muestras controlando el margen de error que se pueden cometer en esa extrapolación de lo muestral a lo poblacional! Los métodos de inferencia estadísca se agrupan fundamentalmente en dos clases) esmación de par#metros y contraste de hipótesis! POBLACIO2ES REALES O >IPOTTICAS( 7I2ITAS O I27I2ITAS) I27I2ITAS ) una muestra de observaciones siempre es real porque consiste de datos efecvamente efecvamente recolectados. pero la correspondiente población de observaciones puede ser
real o $ipotéca ! $or otra parte, una población de observaciones puede ser fnita, esto es con una candad grande o pequea pero limitada de elementos! $ero una población puede ser in(nita! La importancia de reconocer con que po de población se est# trabajando radica en la pernencia de los métodos estadíscos que se ulizan para recoger los datos, analizarlos y sacar conclusiones! PAR=0ETRO: es PAR=0ETRO: es una caracterísca (ja, generalmente numérica, de la población de valores de una variable! $or ejemplo) si la variable es el empo de reacción de sujetos entrenados ante un esmulo, un par#metro es el empo promedio de reacción de todos los individuos de la población de interés si estos fueran entrenados! 'tro par#metro podría ser el empo mínimo de reacción que surgiría de comparar comparar los empos de todos los sujetos sujetos de la población y que, que, por tanto, tanto, tambi también én es nico. nico. lo mismo mismo puede decirse decirse del empo má(imo. 3i la variable es actud de los consumidores hacia un nuevo producto, un par#metro puede ser el porcenta%e de consumidores de toda la población objevo que ene actud posiva! ESTADÍSTICO) ESTADÍSTICO) es una caracterísca muestral y como tal, es una variable porque sus valores dependen de la muestra que salga seleccionada! "ada valor del estadísco se obene como función de las observaciones de una muest muestra ra!! $or $or eje ejempl mplo, o, empo empo prome promedio dio de reacci reacción ón de HC indivi individuo duoss que fuero fueron n entr entrena enados dos!! $orce $orcent ntaje aje de consumidores entre HCC encuestados que manifestaron manifestaron tener una actud posiva frente al producto! ESTI0ADOR: es ESTI0ADOR: es un estadísco cuyos valores se consideran próximos a un par#metro que, por ser generalmente desconocido, se desea esmar! 7RECUE2CIA ABSOLUTA ABSOLUTA)) es la candad de veces que cada valor de la variable aparece en un conjunto de datos! La suma de todas las frecuencias absolutas coincide con la totalidad de los datos!
ESTADÍSTICA I27ERE2CIAL BOTELLA CAPÍTULO 11 %l azar ene que ver con aquellos eventos cuyo resultado no podemos predecir con certeza, y a los que nosotros llamaremos e(perimentos e(perimentos aleatorios! Lo que depende del azar, y por tanto, da sendo al término aleatorio en este contexto, es el procedimiento de extracción de un individuo y sólo uno, de los que componen la población! /odo experimen experimento to aleatori aleatorio o ene dos o m#s resultados resultados posibles, posibles, que nosotros nosotros llamaremos llamaremos sucesos elementales ! %n un experimento que tuviera solo un resultado posible no habría incerdumbre y por tanto, no podríamos hablar de experimento aleatorio! La realización de un experimento aleatorio da lugar a un suceso elemental, y sólo uno, de entre los posibles! *l conjunto de los resultados posibles de un experimento aleatorio, o sucesos elementales, se le llam llamaa espacio muestral y y se representa por %! 3e llama veri(cación de un suceso elemental al hecho de que la realización del experimento aleatorio produzca ese suceso elemental! 3obre los espacios muestrales, como conjuntos que son, se pueden de(nir subconjuntos, que denominaremos sucesos y los representaremos representaremos por letras maysculas! *unque para de(nir un suceso basta con de(nir un subconjunto cualquiera de %, normalmente los sucesos con los que trabajaremos se constuirían con los sucesos elementales que cumplen alguna condición, y no de forma arbitraria! :n suceso se veri(car# cuando el experimento aleatorio de lugar a uno de los sucesos elementales que integran el subconjunto que lo de(ne! %n algunas ocasiones se de(nen sucesos a parr de subconjuntos vacíos! %ste po de suces sucesos os reciben reciben el nombr nombree de suceso imposible ! %n otras ocasiones de(nen sucesos cuyo subconjunto constuyente constuyente est# formado por todos los elementos elementos del espacio muestral! %ste po de sucesos reciben el nombre de suceso seguro ! [amos a de(nir operaciones sobre sucesos que ulizaremos a parr de aquí) a8 Llamaremos unión de dos sucesos al subconjunto % formado por sucesos elementales que integran los subconjuntos de al menos uno de esos sucesos! +8 Llamaremos intersección de dos sucesos al subconjunto de % formado por los sucesos elementales que pertenecen simult#neamente a ambos sucesos! "uando la intersección de dos sucesos es un subconjunto vacío se dice que son sucesos incompables o exclusivos! c8 Llamar Llamaremo emoss difer diferenc encia ia de dos suceso sucesoss al subcon subconjun junto to % integr integrado ado por los suceso sucesoss elemen elementa tales les que pertenecen al primero, pero no al segundo! !8 Llamaremos complementario de un suceso al subconjunto de % integrado por los sucesos elementales no incluidos en ese suceso! %n términos términos generales generales representar representaremos emos por n al nmer nmero o de suceso sucesoss elemen elementa tales les que inte integra gran n el espaci espacio o muestral, y por n a al nmero de sucesos elementales que constuyen constuyen el suceso *! Un experimento aleatorio es to!a accin c%#o res%lta!o no se p%e!e pre!ecir con certe)aCa!aa %no !e los res%lta Ca! res%lta!os !os pos posi+l i+les es !e %n e;p e;peri eri'en 'ento to ale aleat atori orio o se lla lla'a 'a suceso ele'ental # s% con.%nto const%#e el espacio '%estral !el e;peri'ento aleatorioLa /e /eri< ri
Un s%ceso es c%al$%ier s%+con.%nto !e los ele'entos !e %n espacio '%estralDos s%cesos son inco'pa+les o e;cl%si/os si no enen ele'entos co'%nes # por tanto( no p%e!en /eri
La pro+a+ili!a! !e %n s%ceso es %n n3'ero $%e c%an
in(nitamente grande! $or tanto, desde el enfoque frecuencialista la probabilidad de un suceso * se de(ne como el límite de la frecuencia relava de apariciones de ese suceso cuando el nmero de repeciones del experimento aleatorio ende a in(nito! La diferencia fundamental entre este enfoque y el anterior es que mientras en el primero n era el tamao del espacio muestral, muestral, en este representa representa el nmero de repeciones repeciones del experimento experimento aleatorio! +e esta de(nición se deducen las mismas consecuencias y propiedades que exponíamos exponíamos en conexión con el enfoque enfoque cl#sico! CAPÍTULO 1: 0o!elos !e !istri+%cin !e pro+a+ili!a! DISTRIBUCI2 BI2O0IAL $ara que la distribución de probabilidad de una variable se ajuste al modelo binomial deben cumplirse una serie de requisitos! %l primero es que se base en una variable dicotómica! %sta variable dicotómica no es todavía la variable nominal, pero su presencia es imprescindible para la generación de ésta! :na variable dicotómica es una variable que solo admite dos valores, y que habitualmente son los valores H y C! %stas variables de base pueden ser autencas variables dicotómicas o variables dicotomizadas ar(cialmente! Las variables que est#n en la base de una variable binomial pueden de(nirse como a"uellas "ue adoptan la regla de asignar un ) si se cumple una cierta condición y un
* si no se cumple.
%l segundo requisito es que haya una repeción de n ensayos de la variable dicotómica en los que la probabilidad de que cada repeción se veri(que la condición, y por tanto se asigne un H, sea constante! * la probabilidad de veri(cación de la condición en cada ensayo independiente la representaremos por \! %l tercer y lmo requisito es que se de(na una variable X , como el =nmero de casos que en la secuencia de n ensayos dicotómicos veri(can la condición especi(cada, o lo que es lo mismo, el nmero de unos observados! Si: A- !e
a8 %s simétrica con respecto a un valor central 0\1 y en ese valor central coinciden la media, la mediana o la moda! +8 %s asintóca con respecto al eje de abscisas, es decir, decir, por mucho que se exenda, nunca llega a tocar los ejes, y sólo en ]^ la altura de la curva llegaría a ser igual a C, se propuso el nombre de distribución normal unitaria ! c8 Nay toda una famil familia ia de curvas curvas normal normales, es, dependi dependiend endo o de los valor valores es de \ y o! +e entre ellas, la m#s importante es aquella que enen media C y de desviación 7pica H! !8 Los puntos de in2exión se encuentran en los puntos correspondientes a la media m#sEmenos una desviación 7pica 0\ ] o1 e8 "ualquier combinación lineal de variables aleatorias normales se ajusta también al modelo normal! La mayor parte del trabajo pr#cco con variables aleatorias normales consiste en hallar probabilidades asociadas a valores! %sto signi(caría integrar la función de densidad entre los valores de interés! $ara evitar tener que resolver este po de operaciones se han construido tablas apropiadas con las #reas ya halladas y cuyo eso se basa en el teorema de pifcación ! 3egn este teorema, la función de distribución asociada a un valor de una variable aleatoria, X' con distribución normal, es la misma que la función de distribución de la pi(cada de ese valor en la normal unitaria! $ara obtener las #reas asociadas a un valor de cualquier otra distribución normal basta con pi(car ese valor y acudir con la ! obtenida en la tabla correspondiente! correspondiente! Se63n el t eorema de picación para /aria+les nor'ales( la *%ncin !e !istri+%cin asocia!a a %n /alor !e la /aria+le nor'al( X ( es i6%al a la !e la pi
!X " " i !# i i i !on!e #
2 H(18
$ara $ara referirn referirnos os a un valor concreto concreto de la distribuc distribución ión normal unitaria unitaria ulizaremos ulizaremos la letra letra + y a su derecha el subíndice correspondiente a la probabilidad acumulada para ese valor! valor! *sí) + C,QS C,QSP C,UU %l trabajo con variables aleatorias normales, al igual que con otras variables connuas, se reduce a la obtención de las probabilidades de obtener un valor menor o igual que uno concreto, la de obtener un valor mayor o igual que uno concreto, o la de obtener un valor comprendido entre dos valores concretos!
PARDO ? SA2 0ARTI2 A2=LISIS DE DATOS E2 PSICOLOGÍA CO2TRASTE DE >IPTESIS %l objevo lmo del an#lisis de datos es el de extraer conclusiones de po general a parr de unos pocos datos parculares! %s decir, el de extraer conclusiones sobre las propiedades de una población a parr de la información contenida en una muestra procedente de esa población! %ste salto de lo concreto 0la muestra1 a lo general 0la poblac población ión11 se conoce conoce con el nombre nombre de inerencia estadísca formas b#sicas de infere inferencia ncia estadís estadísca) ca) la estadísca! +os formas esmación de parámetros y el contraste de $ipótesis ! La esmación de par#metros es el proceso consistente en asignar a las propiedades desconocidas de una población las propiedades conocidas de una muestra extraída de esa población! %l contraste de hipótesis es un proceso mediante el cual se trata de comprobar si una a(rmación sobre alguna propiedad poblacional puede ser sostenida a la luz de la información muestral disponible! $uede ser entendido como un método de toma de decisiones, es un procedimiento que nos permite decidir si una proposición acerca de una población puede ser mantenida o debe ser rechazada! 3urgido el problema, el paso siguiente en aventurar algn po de solución al mismo! %sta solución provisional suele tomar forma de a(rmación directamente veri(cable 0es decir, empíricamente contrastable1 en la que se establece de forma operava el comportamiento de la variable o las variables involucradas en el problema! %sa a(rmación veri(cable recibe el nombre de hipótesis cien7(ca! LGICA DEL CO2TRASTE DE >IPOTESIS %l pri'er paso del paso del proceso de veri(cación de una hipótesis consiste en ormular estadíscamente estadíscamente la $ipótesis cienfca "ue se desea contrastar' es decir, en transformar la hipótesis cien7(ca en $ipótesis estadísca estadísca! %sto supone que una hipóte hipótesis sis cien7 cien7(ca (ca puede puede ser formu formulad ladaa en térmi términos nos de la forma forma de una o varias varias distri distribuc bucion iones es poblacionales, o en términos del valor de uno o m#s par#metros par#metros de esa o esas distribuciones! ;ormulada la hipótesis estadís estadísca, ca, el se6%n!o paso del paso del proceso de veri(cación consiste en buscar evidencia empírica relevante capa! de inormar sobre si la $ipótesis establecida es o no sostenible. :na hipótesis ser# compable con los datos empíricos cuando a parr de ella sea posible deducir o predecir un resultado muestral con cierta precisión!
3upongamos que nuestra hipótesis consiste en a(rmar que los varones y las mujeres no di(eren en inteligencia! %n términos estadíscos \ y P\m! 3i nuestra hipótesis es correcta, debemos esperar que, al extraer una muestra aleatoria de la población de varones y otra de las mujeres, las medias observadas K y y Km sean similares! :na discrepancia importante entre la a(rmación propuesta en nuestra hipótesis y el resultado muestral encontrado puede estar indicando dos cosas diferentes) buen nuestra hipótesis es correcta y la discrepancia observada es producto de 2uctuaciones esperables por azar. bien nuestra hipótesis es incorrecta, y por lo tanto, incapaz de proporcionarnos predicciones acertadas! La cuesón clave que se nos plantea ese momento es la de determinar cuando la discrepancia encontrada es lo bastante grande como para poder considerar que el resultado muestral observado es incompable con la hipótesis formulada y, y, en consecuencia, para hacernos pensar que esa discrepancia encontrada no es explicable por 2uctuaciones debidas al azar sino por el hecho de que la hipótesis planteada es incorrecta! Tecesitamos, y este es el tercer paso, paso, una regla de decisión que debe establecerse en términos de probabilidad ! 3i en el ejemplo anterior planteado pudiéramos trabajar con las poblaciones completas de varones y mujeres no tendríamos que recurrir a la teoría de la probabilidad porque tampoco sería necesario efectuar ningn po de contraste de hipótesis) conoceríamos los valores de \ y y ,m y sabríamos si son iguales o no! $ero la necesidad de trabajar con muestras en lugar de con poblaciones nos obliga a establecer una regla de decisión en términos de probabilidad! %n general, la regla de decisión que ulizaremos ser# una a(rmación de este po) si el resultado muestral observado es, suponiendo correcta nuestra hipótesis, muy poco probable, consideraremos que nuestra hipótesis es incompable con los datos. por el contrario, si el resultado muestral observado es, suponiendo correcta nuestra hipótesis, probable, consideraremos consideraremos que nuestra nuestra hipótesis es compable con los datos! Un contraste !e iptesis es %n proceso !e !ecisin en el $%e %na iptesis *or'%la!a en t,r'inos esta!"scos es p%esta en relacin con los !atos e'p"ricos para !eter'inar si es o no co'pa+le con ellos>IPTESIS ESTADÍSTICA :na hipótesis estadísca es una a(rmación sobre una o m#s distribuciones de probabilidad. m#s concretamente, sobre sobre la orma de una o m#s distribuciones de probabilidad, o sobre el valor de uno o m#s parámetros de esas distribuciones! La hipótesis estadísca se suele representar por la letra - seguida de una información que le da contenido! 3urge a parr de una hipótesis cien7(ca! La primera proporciona la base para la formulación de la segunda, pero no son la misma cosa! &ientras una hipótesis cien7(ca se re(ere a algn aspecto de la realidad, una hipótesis estadísca se re(ere a algn aspecto de una distribución de probabilidad! $or ejemplo, en lugar del promedio podríamos ulizar la dn! %xisten varias formas de expresar estadíscamente una hipótesis cien7(ca correcta! %l primer paso en el proceso de veri(cación de una hipótesis consiste en formular en términos estadíscos la a(rmación contenida en la hipótesis cien7(ca que se desea veri(car! /odo contraste se basa en la formulación de dos hipótesis)
La iptesis n%la( representa!a por $ La L a iptesis alterna/a( representa!a representa!a por $ i i La $ipótesis nula es la hipótesis que se somete a contraste! "onsiste generalmente en una a(rmación concreta sobre la forma de una distribución de probabilidad o sobre el valor de alguno de los par#metros de esa distribución! La $ipótesis alternava es la negación de la nula, incluye todo lo que la nula excluye! &ientras la nula suele ser una hipótesis e(acta 0tal cosa es igual a a tal otra1, la alternava alternava suele ser ine(acta 0tal cosa es disnta' o menor que que disnta' mayor o otra1! "uando en Ni aparece el signo =disnto> decimos que el contraste es bilateral o bidireccion bidireccional! al! "uando en -i aparece aparece los signos mayor mayor o menor, menor, decimos decimos que el contraste contraste es unilateral o unidireccional! La hipótesis nula y alternava alternava suelen plantearse como hipótesis rivales! 3on 3 on exhausvas y mutuamente exclusivas, exclusivas, lo cual implica que si una es verdadera, la otra es necesariamente necesariamente falsa! %l signo de igualdad siempre va en la hipótesis nula! SUPUESTOS $ara que una hipótesis estadísca pueda predecir un resultado muestral con cierta exactud es necesario, en primer lugar, que la distribución poblacional con la que se va a trabajar esté completamente especi(cada! 3on hipótesis que especi(can por completo las distribuciones poblacionales a las que hacen referencia! 3e las llama completamente especi(cada reciben el nombre simples! Las hipótesis en las que la distribución poblacional no queda completamente de compuestas ! Lo ideal es plantear plantear hipótesis hipótesis nulas simples, pero ocurre que ni los intereses del invesgador se corresponden siempre con el contenido de una hipótesis simple! Los supuestos de un contraste contraste de hipótesis hacen referencia referencia al conjunto de condiciones que deben cumplirse para poder tomar una decisión sobre la hipótesis nula -o basada en una distribución de probabilidad conocida!
Los s%p%estos !e %n contraste !e iptesis son %n con.%nto !e ao-
*lgunos *lgunos de estos supuestos supuestos son m#s restricvos o e(igent e(igentes es que otros! %s importante tener presente que el incumplimiento de uno o varios supuestos podrían invalidad el contraste y llevarnos a una decisión errónea! "onviene, por tanto, que los supuestos sean pocos y poco exigentes! ESTADÍSTICO DE CO2TRASTE
Un esta!"sco !e contraste es %n res%lta!o '%estral $%e c%'ple la !o+le con!icin !e proporcionar in*or in *or'ac 'acin in e'p e'p"ri "rica ca re rele/ le/an ante te so+ so+re re la a
La re6la !e !ecisin consiste en reca)ar >o si el esta!"sco !e contraste to'a %n /alor perteneciente a la )ona !e reca)o o cr"ca 'antener >o si el esta!"sco !e contraste to'a %n /alor perteneciente a la )ona !e aceptacin 3e rechaza una hipótesis someda a contraste cuando el valor del estadísco estadísco de contraste cae en la zona críca. y se recha rechaza za por"ue eso signi(ca que el valor tomado por el estadísco de contraste se aleja demasiado de la predicción establecida por esa hipótesis, es decir, por"ue, si la hipótesis planteada fuera verdadera, el estadísco de contraste contraste no debería haber tomado ese valor. como de hecho el estadísco ha tomado es el valor, valor, la conclusión m#s razonable ser# que la hipótesis planteada no es verdadera! verdadera! %l tamao de las zonas de rechazo y aceptación se determina (jando el valor de alfa, es decir, decir, (jando el valor de signi(cación con el que se desea trabajar! trabajar! *lfa ser#, necesariamente, un valor pequeo! La forma dividir la distribución muestral en zonas depende de si el contraste es bilateral o unilateral! La zona críca debe estar situada allí donde puedan aparecer los valores muestrales incompables con -o, es decir, allí donde puedan aparecer los valores muestrales que apunten en la dirección propuesta en -! 0n los contrastes bilaterales' la !ona críca se encuentra' generalmente reparda a partes iguales entre las dos colas de la distribución muestral. 0n los contrastes unilaterales la !ona críca se encuentra en una de las dos colas de la distribución muestral.
DECISI2 %l paso consiste en obtener una muestra aleatoria de tamao n, calcular el estadísco de contraste y tomar una decisión! /al decisión se toma siempre, respecto a -o, y consiste en rechazarla o mantenerla de acuerdo con el valor tomado tomado por el estadísc estadísco o de contraste contraste y las condiciones condiciones establecidas establecidas en la regla de decisión) si el estadísco de
contraste contraste cae en la !ona crica' se rec$a!a - o 1 si el estadísco estadísco de contraste contraste cae en la !ona de aceptación' aceptación' se manene manene -o. :na decisión, decisión, en el context contexto o del contraste contraste,, siempre siempre consiste consiste en rec$a!ar o mantener una -o parcular! 3i la
rechazamos estamos a(rmando que esa hipótesis es falsa, es decir, decir, estamos a(rmando con una probabilidad alga de equivocarnos, que hemos conseguido probar que esa hipótesis es falsa! $or el contrario, si la mantenemos, no estamos a(rmando que hemos probado que esa hipótesis es verdadera, simplemente estamos a(rmando que no
disponemos de evidencia empírica su(ciente para rechazarla y que por lo tanto, podemos considerarla compable con los datos C%an!o !eci!i'os mantener %na %na iptesis n%la( $%ere'os si6ni
Lla'a'os error !e po I al $%e se co'ete c%an!o se !eci!e reca)ar %na >o $%e en reali!a! es /er!a!era/er!a!er a- La pro+a+ili!a! !e co'eter ese error es al*aLla'a'os error !e po II al $%e se co'ete c%an!o se !eci!e 'antener %na >o $%e en reali!a! es *alsaLa pro+a+ili!a! !e co'eter ese error es +eta$or tanto ? _` ser# la probabilidad de tomar una decisión correcta cuando No es verdadera! - HFbeta ser# la probabilidad de tomar una decisión correcta correcta cuando No es falsa! La probabilidad de cometer cometer un error ? con nuestra nuestra decisión es una probabilidad conocida, pues el valor de alfa lo (ja el propio invesgador invesgador!! 3in embargo, la probabilidad de cometer un error de po ??, es un valor desconocido que en un contraste depende de tres factores) la verdadera Ni, el valor de alfa y el tamao del error 7pico de la distribución muestral ulizada para efectuar el contraste! contraste! POTE2CIA
La potencia H1MB8 !e %n contraste es la pro+a+ili!a! !e reca)ar %na iptesis n%la $%e en reali!a! es *alsa"uando hablamos de la potencia de un contraste, por tanto, nos estamos re(riendo a la capacidad de ese contras contraste te para detectar detectar que una hipótesis hipótesis concreta concreta es falsa! falsa! $ara $ara poder calcular la potencia potencia de un contras contraste te necesitamos referirnos referirnos a una a(rmación de las muchas de(nidas en Ni! 2IVEL CRÍTICO ? TA0AWO DEL E7ECTOE7ECTOLa probabilidad de cometer un error de po ? se establece antes de efectuar el contraste para evitar que in2uya en la decisión (nal! %n ese sendo, podemos entender el nivel de signi(cación como el riesgo m#ximo que estamos dispuestos a asumir al tomar la decisión de rechazar la hipótesis concreta! %fectuar un contraste estableciendo previamente un nivel de signi(cación es lo que se hace, aunque trae inconvenientes) 1- La decisión sobre -o puede depender decisivamente del nivel de signi(cación establecido! $odemos decidir mantener la hipótesis con ` P C!CH y rechazarla con ` P C!CG! 5- +ecidir si -o es o no falsa no proporciona ningn po de información sobre el grado en el que la evidencia muestral se muestra incompable con esta hipótesis! 3i consideramos que cometer un error de po ? es muy grave, adoptaremos para alfa un valor m#s pequeo que si consideramos que cometer ese error no ene consecuencias graves! $ero recordemos que al hacer m#s pequeo el valor de alfa, la potencia del contraste contraste disminuye autom#camente autom#camente 0que es igual que decir que la potencia de que se produzca un error ?? se incrementa1! %so puede llevar a cometer un error ?? por querer evitar el ?!
Lla'a'os Lla'a' os nivel críco # lo representa'os por p( al ni/el !e si6ni
su(ciente para determinar si el experimento realizado contribuye o no de la forma signi(cava al desarrollo de una teoría o de una línea de invesgación! %sto es así porque la decisión a la que se llega en un contraste de hipótesis sobre la base del grado de discrepancia existente entre la -o planteada y la evidencia muestral observada depende directamente, segn hemos sealado ya, del tamao de la muestra ulizada! /amaos muestrales grandes pueden llevarnos llevarnos a consider considerar ar estadís estadíscame camente nte signi(ca signi(cavas vas discrepanc discrepancias ias muy pequeas pequeas y tamaos tamaos muestral muestrales es muy pequeos pueden llevarnos a considerar estadíscamente insigni(cantes discrepancias teóricamente relevantes! relevantes! %l nivel críco, no solo nos ayuda a tomar una decisión sobre -o, sino que su tamao nos informa sobre el grado de compabilidad o discrepancia existente entre la evidencia muestral observada y esa -o! $odemos decir que el tamao del nivel críco nos est# informando sobre el grado en el que la evidencia empírica obtenida se muestra incompable con la -o planteada! La ulización del nivel críco como una medida del grado de discrepancia entre la -o planteada y la evidencia muestral observada ene el inconveniente de que el valor del nivel críco est# condicionado por el tamao de la muestra concreta ulizada! Tecesitamos, por tanto, otra medida de ese grado de discrepancia que no dependa del tamao de la muestra ta'ao !el e*ecto +ecid +ecidir ir si una hipótesi hipótesiss es o no falsa falsa no cons constuy tuyee un crite criterio rio sufcient sufciente e para determinar si el experimento realizado contribuye o no de forma signi(cava al desarrollo de una teoría o de una línea de invesgación! invesgación! %sto es así porque la decisión a la que se llega en un contraste de hipótesis sobre la base del grado de discrepancia existente entr entree -o planteada y la evidencia muestral observada depende directamente del tamao de la muestra ulizada! /amaos muéstrales grandes pueden llevar a considerar como estadíscamente signi(cavas discrepancias muy pequeas. y tamaos muéstrales muy pequeos pueden llevarnos a considerar estadíscamente insigni(cante discrepancias teóricamente relevantes! CO2TRASTE BILATERALES ? U2ILATERALES "uando un invesgador desea comprobar si un par#metro toma o no un determinado valor, si dos grupos di(eren entre si en alguna variable, si dos variables son independientes, independientes, etc!, puede someter a contraste contraste de hipótesis como estas) -o) \P C,G. -i : , 4 C,G Las hipótesis formuladas no conenen ninguna predicción sobre la dirección en la que se puede producir un resultado muestral muestral incompable con la a(rmación establecida en No! Lo cual est# re2ejado en Ni, con el signo de8 P8 *sí, por ejemplo, si se quiere estudiar si los varones y las mujeres di(eren en inteligencia, y no existen una expectava jus(cada sobre cu#l de los dos grupos es m#s inteligente, lo razonable ser# plantear un contraste bilateral) -o: ,v 5 5 ,m. -i : ,v 4 4 ,m "uando se uliza la distribución normal o la distribución t de de 6tudent en en un contraste contraste bilateral, la zona crica est# reparda en partes iguales, entre las dos colas de la distribución muestral! +e ahí el nombre bilateral. "uando un invesgador desea comprobar si el valor de un par#metro ha aumentado, si un grupo supera o es mejor que otro en alguna variable, si dos variables se encuentran negavamente relacionadas, etc! puede someter a contraste contraste hipótesis como estas : -o: , C,QG. -i : 4 C,QG * este po de contraste se les llama unilaterales! Las hipótesis conenen una predicción concreta sobre la dirección en la que se puede producir un resultado muestral incompable con la a(rmación establecida en No! Lo cual esta re2ejado en Ni, con los signos 8 y B8 "uando se uliza la distribución normal o la distribución t de de 6tudent en en un contraste contraste bilateral, la zona crica est# en una de las dos colas de la distribución!
XELYOXIT4
RA2GO PERCE2TILAR
:na forma de suministrar la información adicional consiste en transformar la puntuación original 0puntuación directa1 en una nueva puntuación que mostrar de forma inmediata la situación de un individuo en comparación con los dem#s estudiantes de la clase) los percenles! %l rango percenl de un valor dado es un nmero que expresa el tanto por ciento de casos en el grupo especí(co de referencia, referencia, cuyo valor es igual o inferior al dado! $or ejemplo) a una puntuación de UH le corresponde un rango RG, signi(ca que el RG de la clase obtuvo una puntuación igual o inferior a UH puntos, mientras que sólo un HG de la clase recibió puntuaciones m#s elevadaselevadas- Un percenl es %n /alor no s%pera!o por %n tanto por ciento !a!o !e los casos re6istra!osre6istra!os- :na :na puntuación que nos colocase en el percenl G debería inquietarnos, pues signi(caría que el IG de la clase lo hizo mejor que nosotros y solo un G se comporto peor o igual! *sí, el percenl muestra directamente directamente como un valor concreto se compara con los dem#s en un grupo especí(co! especí(co ! To se puede interpretarse correctamente un percenl si no se conoce perfectamente un grupo de referencia en cuesón!
:n percenl compara un valor con un grupo específco de valores. PROCEDI0IE2TO DE CALCULO: para CALCULO: para encontrar el rango del percenl correspondiente a la cali(cación de UH, solo hay que hacer lo siguiente) H! Localizar Localizar el el interva intervalo lo de clase clase al que perten pertenece ece dicha dicha cali(ca cali(cación ción 0inte 0intervalo rvalo crico crico11 D! "lasi(car "lasi(car las frecuen frecuencias cias 0f1 en tres tres categorí categorías) as) las corres correspondi pondiente entess a todas las cali(c cali(cacione acioness superiore superioress al intervalo críco, las correspondientes a todas las cali(caciones del intervalo críco y las correspondientes correspondientes a todas las cali(caciones inferiores a dicho intervalo! %n orden a determinar exactamente nuestra situación en el intervalo críco debemos cerciorarnos de cu#l es el límite inferior real del mismo! :na regla conveniente consiste en situar el límite inferior real de un intervalo exactamente en el punto medio entre la cali(cación m#s baja de este intervalo y la m#s alta inmediatamente inferior! TEORE0A CE2TRAL DEL LÍ0ITE "uando el tamao muestral es su(cientemente grande la distribución de K es aproximadamente normal 0tanto m#s normal cuanto mayor el tamao de la muestra1 con media \ y varianza o DEn! %standarizando %standarizando K obtenemos el estadísco) estadísco) K F \E o n que sigue aproximadamente aproximadamente la distribución normal est#ndar y se usa en inferencia estadísca estadísca para probar hipótesis acerca de la media poblacional! 3i X es es una variable, u la media de todos sus valores y s su varianza o D, la media X de de muestras de n observaciones ene distribución aproximadamente normal con la misma media u y la nFésima5 $arte de la varianza! La distribución de K ser# tanto m#s normal cuanto mayor sea el tamao de la muestra!