Introducción
a la Estadística
Introducción a la Estadística ARNOLD NAIMAN
Late Professor Nassau Community College
ROBERT ROSENFELD Nassau Community College
GENE ZIRKEL Nassau Community College Traducción: EDMUNDO GERARDO URBINA MEDAL Ingeniería Biomédica Depto. de Ingeniería Eléctrica UAM-Iztapalapa IRMA SAUCEDO GONZÁLEZ Licenciada en Economía Revisión técnica: MIGUEL ÁNGEL CURIEL ARAIZA Profesor de Matemáticas Instituto Nacional de Educación para los Adultos Jefe del Departamento de Textos
McGRAW-HILL MÉXICO • BOGOTÁ • BUENOS AIRES • CARACAS • GUATEMALA • LISBOA MADRID • NUEVA YORK • PANAMÁ • SAN JUAN • SANTIAGO • SAO PAULO AUCKLAND • HAMBURGO • LONDRES • MILÁN • MONTREAL • NUEVA DELHI PARÍS • SAN FRANCISCO • SINGAPUR • ST. LOUIS SIDNEY • TOKIO • TORONTO
INTRODUCCIÓN A LA ESTADÍSTICA Prohibida la reproducción total o parcial de esta obra, por cualquier medio, sin autorización escrita del editor. DERECHOS RESERVADOS © 1987, respecto a la primera edición en español por LIBROS McGRAW-HILL DE MÉXICO, S. A. de C. V. Atlacomulco 499-501, Fracc. Ind. San Andrés Atoto 53500 Naucalpan de Juárez, Edo. de México Miembro de la Cámara Nacional de la Industria Editorial, Reg. Núm. 465 ISBN 968-422-062-6 Traducido de la tercera edición en inglés de UNDERSTANDING STATISTICS Copyright© MCMLXXXIII. by McGraw-Hill, Inc., U. S. A. ISBN 0-07-045863-4 1234567890
F.I.-87
Impreso en México Esta obra se terminó de imprimir en julio de 1987 en Fuentes Impresores, S. A. Centeno No. 109 Col. Granjas Esmeralda Delegación Iztapalapa 09810 México, D. F. Se tiraron 5 000 ejemplares
8012345697 Printed in México
A la memoria de nuestro colega Dr. ARNOLD NAIMAN
Contenido PREFACIO
ix
CAPÍTULOS 1 2 3 4 5 6 7
INTRODUCCIÓN MEDIDAS ESTADÍSTICAS COMUNES TABLAS Y GRÁFICAS DE FRECUENCIAS PROBABILIDAD LA DISTRIBUCIÓN BINOMIAL LA DISTRIBUCIÓN NORMAL APROXIMACIÓN DE LA DISTRIBUCIÓN BINOMIAL MEDIANTE EL EMPLEO DE LA DISTRIBUCIÓN NORMAL 8 PRUEBA DE HIPÓTESIS: BINOMIAL DE UNA MUESTRA 9 PRUEBA DE HIPÓTESIS: BINOMIAL DE DOS MUESTRAS 10 PRUEBA DE HIPÓTESIS CON MEDIAS MUESTRALES: MUESTRAS GRANDES 11 PRUEBA DE HIPÓTESIS CON MEDIAS DE UNA MUESTRA: MUESTRAS PEQUEÑAS 12 INTERVALOS DE CONFIANZA 13 PRUEBAS JI-CUADRADA 14 CORRELACIÓN Y PREDICCIÓN 15 PRUEBAS QUE INCLUYEN VARIANZA 16 PRUEBAS NO PARAMÉTRICAS APÉNDICES A REPASO SOBRE ARITMÉTICA B PROBABILIDAD C TABLAS RESPUESTAS A LOS EJERCICIOS SELECCIONADOS ÍNDICE
1 13 42 62 76 93
112 127 163 179 196 215 233 261 285 307 332 334 343 367 395
Prefacio La primera edición de Introducción a la Estadística se escribió en colaboración con el finado Dr. Arnold Naiman, para estudiantes que poseían poca experiencia en las Matemáticas, como es el caso de los que han asistido al Nassau Community College durante muchos años. Se trató de que fuera un texto lo suficientemente elemental para que los estudiantes lo entendiesen pero, a la vez, con buenos fundamentos matemáticos, apropiado para cursos de un semestre a nivel preparatoria. Si se cumplen estos objetivos estaremos muy satisfechos de que el libro se utilice por mucha gente. Durante un periodo de diez años, a través de dos ediciones, muchos estudiantes y profesores que han empleado el libro nos han proporcionado comentarios con respecto a éste; de ellos hemos aprendido que las grandes cualidades del libro son su amena lectura, su enfoque muchas veces humorístico y los conjuntos de problemas matemáticos. Al incluir todo lo anterior en esta tercera edición, se ha tratado de mantener todas estas cualidades así como de responder a los usuarios que han sugerido cambios. El objetivo de este libro es mostrar al lector cómo se emplea la estadística, y no el de entrenarlo para que se convierta en un estadístico. Los estudiantes que lo empleen, obtendrán un panorama completo del uso apropiado de la estadística y de los términos estadísticos que encontrarán en libros, periódicos, revistas, radio y televisión. El mayor énfasis del libro está en comprender el muestreo y la prueba de hipótesis. En esta edición se ha incluido una encuesta al comienzo del libro, de manera tal que los estudiantes tengan datos reales, sobre sí mismos, para emplear. Entonces se proponen problemas con base en esos datos en grupos especiales de preguntas que se encuentran al final de muchos de los
Prefacio
x grupos de ejercicios. Hemos encontrado esta opción muy útil durante la primera parte del curso. Pensamos que la mejor manera de introducir la inferencia estadística es a través de la teoría de la probabilidad. Por lo tanto, después de una breve presentación de la estadística descriptiva, la probabilidad se trata de manera intuitiva. Lo anterior conduce a la distribución binomial y entonces se introduce la distribución normal como una aproximación a la distribución binomial. En el capítulo ocho, se conjuntan los resultados anteriores y se presenta el método de la prueba estadística de hipótesis. Para introducir esta importante idea, se emplean las pruebas binomiales de una muestra. Los capítulos siguientes presentan otros tipos de pruebas de hipótesis. Se incluyen las pruebas binomiales con respecto a la media para una y dos muestras, tanto con muestras de tamaño grande como pequeño, pruebas ji-cuadrada, y pruebas con respecto a la varianza de la población (incluyendo una pequeña introducción al análisis de varianza). El texto concluye con un capítulo sobre predicción y correlación y otro sobre pruebas no paramétricas. Una vez que los estudiantes dominen el material básico que incluye hasta el capítulo ocho, el profesor puede seleccionar de los capítulos restantes aquéllos tópicos que considere apropiados para las necesidades de sus estudiantes. No se presentan pruebas formales. Cuando es factible, los teoremas se motivan haciendo uso del sentido común. Mientras esta presentación no es rigurosa desde el punto de vista matemático, se ha tenido mucho cuidado para que todas las veces el material sea matemáticamente preciso. Los tópicos se introducen de manera informal mediante el empleo de preguntas y ejemplo que llevan, de manera natural, al desarrollo de las ideas pertinentes. La notación que se usa es la más simple posible, y a través del libro se emplean numerosas ilustraciones cuyo propósito es el de aclarar todas las ideas. Se proporcionan numerosos ejemplos y ejercicios que provienen de distintos campos, incluyendo biología, medicina, negocios, psicología, educación y ciencia política. Estos varían desde lo más sencillo hasta lo más complicado, y se han escogido de manera cuidadosa para despertar el interés del estudiante. No son sólo listas de ejercicios numéricos. En esta edición se han añadido muchos ejercicios, los cuales incluyen aquéllos que no son rutinarios, y preguntas que provocan el cuestionamiento al comienzo de muchos grupos de ejercicios. Al finalizar cada capítulo, se proporciona un glosario de términos nuevos y fórmulas y al finalizar el libro se proporcionan las respuestas a los ejercicios con numeración impar. El Apéndice A contiene una selección de problemas aritméticos típicos que ilustran las habilidades matemáticas necesarias para comprender el material que se presenta en el libro. Recomendamos a cada estudiante que resuelva estos problemas al inicio del curso. Los estudiantes deben ser capaces de manejar números con signo, pero no es necesario que tengan una habilidad manipulativa del álgebra. En esta edición se han hecho varios cambios. En el capítulo dos se añadió material elemental sobre tasas, especialmente tasas de nacimiento y
Prefacio xi de mortalidad. Se reescribió el capítulo tres para presentar el histograma como una gráfica de una tabla de frecuencias, dando un énfasis menor sobre detalles de intervalos, fronteras y otros tópicos. En el capítulo cinco, se incluyó una sección sobre la solución de problemas binomiales con ayuda de una tabla de probabilidades binomiales, la cual se incluyó en el apéndice de tablas. En el capítulo 13, se mejoró la sección sobre tablas de contingencia de 2 por 2, y se menciona la relación que existe entre tales problemas y los binomiales de dos muestras, también se proporciona una fórmula simplificada para calcular X2 para tablas de 2 por 2. En el capítulo 16 se incluyó la prueba U de Mann-Whitney para comparar dos muestras. Se ha incluido de nuevo el apéndice sobre probabilidad escrito para la primera edición por el Dr. Arnold Naiman. Existen algunos cambios en la notación. En el capítulo 12, se ha simplificado la notación para intervalos de confianza al emplear menos símbolos de desigualdad. Se continúa empleando tanto X ¯ como m para denotar medias muéstrales, y a pesar de que el símbolo m se emplea muchas veces, se hace uso de X ¯ con mayor frecuencia que en las anteriores ediciones. Se ha cambiado el símbolo para la estadística en la prueba de corridas de U a R, y se reserva la U para el nuevo material sobre la prueba U de Mann-Whitney. Dado que las calculadoras y computadores tienen ya un lugar común entre la gente, se omitió el material sobre codificación que se había convertido ya en algo obsoleto. Lo anterior se ha dejado relegado a unos cuantos ejercicios que se dirigen hacia las propiedades de la media y la desviación estándar. De manera similar, se omitió la tabla de raíces cuadradas así como la de números aleatorios, ya que muchos profesores mencionaron que no las utilizaban. También en conexión con el empleo de las calculadoras, se ha incluido material sobre redondeo y trabajo con números aproximados en el capítulo uno. Esperamos que el lector encuentre, entre todos estos cambios, las características que han hecho a este libro tan popular con el paso de los años, simplicidad, exactitud, y una combinación de ejemplos humorísticos con problemas reales. Los elementos anteriores han motivado a los estudiantes que poseen poco interés y experiencia matemática. Deseamos agradecer a nuestros colegas en Nassau Community College por su aliento y valiosas sugerencias, en especial a los profesores Frank Avenoso, James Baldwin, Eli Berlinger, Alice Berridge, Mauro Cassano, Dennis Christy, Jerry Kornbluth, George Miller, Aaron Schein, Michael Steuer, y Abraham Weinstein. Agradecemos también a Roy McLeod de LaGuardia Community College. Por las detalladas críticas del manuscrito deseamos agradecer a los profesores Daniel Brunk; Wilfrid Dixon, UCLA; James Edmondson, Santa Barbara City College; y a Paul Kroll, del William Paterson College de New Jersey. Para esta edición en particular deseamos agradecer a la Hermana Mary Erwin Baker, Saint Mary's College; a los profesores Donald Evans, Polk Community College; David M. Crystal, Rochester Institute of Technology; John S. Mowbray, Shippensburg State College; Norman Neff, Trenton State College; Charles A. Oprian, Western Illinois University; Ronald
Prefacio
xii E. Pierce, Eastern Kentucky University; Maxine D. Reed, Tennessee State Technical Institute en Memphis; William M. Self, Pittsburg State University; William Scott, Ocean County College; y a Patricia L. Smith, Old Dominion University. Damos las gracias a todos aquéllos que nos ayudaron y cuyas sugerencias hicieron posibles todas estas mejoras. ROBERT ROSENFELD GENE ZIRKEL
Introducción 1
Cuando un estudiante se inscribe en una escuela es probable que llene una forma diseñada para establecer sus "necesidades de financiamiento". También es posible que haya efectuado algún tipo de examen como el SAT o el ACT. Entonces, algún extraño emplea estos números para decidir, a fin de cuentas, en qué colegio puede inscribirse y cuánto dinero tendrá que pagar. En gran medida, el estudiante es considerado como una colección de números o de estadísticas. El lector debe comprender cómo se emplean las estadísticas, ya que muchas decisiones que afectan a su persona se basan en éstas. "Su promedio es muy bajo; discúlpenos, tendremos que ponerlo a prueba. Sabemos que usted tuvo un mal momento con sus padres, pero afrontémoslo, todas las personas tienen problemas". Qué problema. Es probable que en algunas ocasiones el lector tenga duda de si se le está tratando como una fuente de estadísticas. MUY ESTIMADO AMIGO: NUESTRO INFALIBLE SISTEMA DE CITAS COMPUTARIZADO HA PROCESADO SUS ESTADÍSTICAS VITALES Y CON MUCHO GUSTO LE ESTAMOS ENVIANDO UNA LISTA DE LOS NOMBRES, DIRECCIONES Y NÚMEROS TELEFÓNICOS DE SEIS PERSONAS QUE PUEDEN FORMAR CON USTED UNA PAREJA IDEAL. ESPERAMOS QUE PUEDA ESTABLECER UNA RELACIÓN DURADERA POR LO MENOS CON ELLAS. APROVECHAMOS LA OPORTUNIDAD PARA RECORDARLE QUE SU PAGO NO ES RETORNABLE. ATENTAMENTE. SERVICIO DE CITAS COMPUTARIZADO
Introducción a la estadística
2 La publicidad que acompaña a los productos que se ofrecen en el comercio hacen referencia a números: 1) "Desde que empleo la pasta para dientes Grit, tengo 20% menos de caries." (¿Menos de cuánto?) 2) "¡Atención! ¡Comience el día con el cereal Daystart! ¡Contiene el doble de hierro que una rebanada de pan tostado y más vitamina C que dos rebanadas de tocino! (Pero, ¿quién dijo que el pan tostado era una buena fuente de hierro, o que el tocino tuviese vitamina C?) Los médicos que prescriben un tratamiento basan su juicio en información estadística. 1) El empleo de este medicamento causará serios efectos colaterales en el 1.4% de los pacientes. (¿Vale la pena correr el riesgo?) 2) Existe el 40% de posibilidades de que una persona que sufre de una hernia en un disco de la columna vertebral se recupere sin necesidad de recibir algún tratamiento. (¿Deberá correrse el riesgo de someterse a una intervención quirúrgica?) DOS USOS DE LA ESTADÍSTICA Considérese el siguiente ejemplo. Quizá el lector ya haya participado en esta clase de encuestas, si vive cerca de un gran centro comercial. En un centro comercial de la ciudad de Niles se toma una muestra aleatoria de personas. De las personas entrevistadas, el 15% usaba pasta para dientes de la marca NoCav. Después de llevar a cabo, durante tres semanas, una intensa campaña publicitaria a favor de la marca NoCav, se realiza una nueva encuesta y ésta muestra que el 19% de las personas emplean la pasta de dientes NoCav. ¿Es correcto suponer que el aumento del 15%, en la primera muestra, al 19% en la segunda se debe a la publicidad? Si existe alguna duda con respecto a que la publicidad haya sido la causa del aumento en el número de personas que emplean NoCav, ¿qué preguntas deberán contestarse en relación con los datos obtenidos en la encuesta? En este ejemplo los números se emplean en dos formas diferentes. El número 15% se emplea para describir a la fracción de personas en la primera muestra que usaban NoCav. Como tal, constituye un resumen conciso y claro del hecho no mencionado de que de las 140 personas entrevistas, sólo 21 emplean la marca NoCav. La situación anterior es un ejemplo de lo que se conoce como estadística descriptiva. La estadística descriptiva se encarga de utilizar los números con el propósito de resumir información conocida con respecto a una situación de interés. En contraste con este uso de los números, si se emplea la muestra para implicar que, en forma aproximada, el 15% de todos los habitantes de Niles usan NoCav, entonces los números se utilizan para inferir algo con respecto a una población grande de la cual no se tiene información completa. La situación anterior constituye un ejemplo de inferencia estadística. La inferencia estadística se encarga de utilizar los números para proporcionar información con respecto a grupos más grandes que aquellos a partir de los cuales se obtuvieron los datos originales. Al caracterizar gran cantidad de datos mediante unas cuantas estadísticas descriptivas, se gana claridad y concisión pero se pierde detalle. Las
Introducción
3
siguientes estadísticas, por medio de las que se resume la información, describen de distinta manera las poblaciones a partir de las cuales se obtienen. 1. El Cl promedio en el colegio Nostrum es 109. 2. Las calificaciones del último examen variaron entre 52 y 98. 3. Nielsen informó que, del total de televidentes entrevistados, el 25% vio la conferencia del Presidente el pasado domingo por la noche. Las siguientes situaciones son ejemplos de inferencias estadísticas. A partir de muestras adecuadas, es posible inferir que: 1. Entre el 20% y el 25% de todos los estudiantes de las universidades de Estados Unidos son casados. 2. Existe una relación entre el nivel de colesterol y las enfermedades cardiacas. 3. El 25% de todos los televidentes vieron la conferencia del Presidente el pasado domingo por la noche. A continuación se proporciona un ejemplo más detallado de inferencia estadística. Supóngase que existe una enfermedad de la que las tres cuartas partes de los pacientes se recuperan después de los tres meses siguientes de haberla contraído. Supóngase que un médico afirma que ha descubierto un nuevo medicamento para curar esta enfermedad. Se administra el medicamento a 100 pacientes. A pesar de que el medicamento no tenga ninguna utilidad, debe esperarse que alrededor de 75 pacientes (las tres cuartas partes) se recuperen. A causa de fluctuaciones aleatorias, puede recuperarse más o menos 75. Para el ejemplo anterior, uno de los problemas de la inferencia estadística radica en decidir cuántos pacientes deberán recuperarse antes de decidirse a aceptar que el medicamento cura realmente la enfermedad. Con toda seguridad, si los 100 pacientes se recuperan, entonces el medicamento tienen un gran potencial pero, ¿qué puede afirmarse si sólo se recuperan 95, 90 u 85 pacientes?. ¿En dónde deberá colocarse la línea? El trabajo de decidir dónde colocar la línea es algo muy importante para el estadístico. Es una de las habilidades que se espera desarrolle el lector al leer este libro. ¿Puede decirse, con toda certeza, que el nuevo medicamento es útil o que los resultados que se obtuvieron durante su aplicación se deben al azar? Incluso si los 100 pacientes se recuperasen, es posible (aunque poco probable) que lo hubiesen hecho sin la ayuda del medicamento, además, y sólo por suerte, es posible que estos 100 enfermos tu-vieran una resistencia poco común a la enfermedad. Es importante que el estadístico obtenga la muestra en una forma imparcial. Es probable que el medicamento se haya ensayado sólo en casos no agudos y de esta forma los resultados podrían estar equivocados. Siempre debe esperarse que la muestra sea una verdadero reflejo de la población a partir de la cual se obtiene y de la que se desea aprender algo (en este caso, todas las víctimas de la enfermedad).
Introducción a la estadística
4 Las encuestas, censos y pruebas estadísticas se han convertido en parte de la vida cotidiana. Todos los días la gente hace uso de cifras para demostrar o no ciertas afirmaciones, por ejemplo, el empleo de algunas sustancias para preservar los alimentos ¿provocarán el cáncer? ¿Fumar marihuana propicia el uso de la heroína? En este libro se estudiarán algunas de las pruebas que los estadísticos usan cuando formulan inferencias. Se espera mostrar al lector cómo realizar estas pruebas de manera apropiada y cómo interpretarlas. ALGUNOS TÉRMINOS ESTADÍSTICOS Si en determinada escuela se listan las edades de todos sus estudiantes, entonces cada edad recibe el nombre de puntaje original. En general, un puntaje de esta naturaleza es cualquier número que aparezca en un experimento. Una colección de esos puntajes con frecuencia recibe el nombre de distribución de puntajes. Si se consideran las calificaciones que un grupo obtiene en el primer examen de un curso determinado, entonces es posible que alguien se encuentre interesado no únicamente en la distribución de puntajes sino también en uno en particular. Muchas veces se obtienen puntajes de diferentes cosas a la vez. Es posible, por ejemplo, obtener información con respecto a la altura, peso y edad de las personas que forman parte de cierta organización. Toda esta información recibe el nombre de datos. Así, puede decirse "los datos demuestran que X es más popular que Y". Se emplea la palabra población para referirse a todas las personas, objetos, puntajes o mediciones que resultan de interés. La palabra muestra se refiere a cualquier parte de la población. Una población puede ser grande o pequeña. Supóngase que un científico trata de determinar el peso promedio de todos los conejos blancos de un año de edad que han sido alimentados durante ese periodo con una dieta especial. Es imposible pesar a todos los conejos de la población, pero pueden seleccionarse 50 conejos y determinar su peso promedio; esta selección es la que recibe el nombre de muestra de la población. En los ejemplos que se proporcionaron al inicio de este capítulo se empleó la palabra aleatorio. Ninguna palabra es tan importante en la teoría de la inferencia estadística como ésta. Un objeto se escoge de una población "en forma aleatoria" si en el proceso de selección todos los objetos de la población tienen la misma probabilidad u oportunidad de estar en la muestra; el proceso de selección no deberá favorecer a algún objeto en particular, ya sea intencional o inadvertidamente. Una muestra de objetos en la que cada uno de éstos se escoge en forma aleatoria recibe el nombre de muestra aleatoria. Se han escrito muchos libros que describen un sinnúmero de procedimientos para obtener muestras aleatorias y algunos de éstos son bastante complicados. En este libro se dejará esta idea a la intuición del lector. En este sentido será suficiente pensar en una muestra aleatoria como aquélla que se obtiene al asegurar a cada objeto la misma oportunidad de pertenecer a ésta (sin afectar la oportunidad de los demás miembros de la población). Por ejemplo, si se desea obtener una muestra
Introduccción 5 aleatoria de 20 personas, en ntonces cualqu uier agrupamie ento posible de 20 personas deb berá tener la m misma oportunidad de ser se eleccionado co omo muestra. La práctica p de juntar pedacitos de d papel y desspués mezclarrlos para extraer sólo uno, constituye un modelo o sencillo de se elección aleato oria. Con frecuen ncia, las prueb bas estadísticas se basan en n la suposición de que la muestra que se tiene a la mano se obtuvo en form ma aleatoria. Si S la muestra no es s aleatoria, los resultados que e se infieran a partir de ella puep den no ser útiles. El sesgo oculto o y sin sosspecha puede d destruir comple etamente la utilid dad de la información estad dística y de lass inferencias que q puedan formularse a partir de esa informacción. Por ejemp plo, si se hacen n en forma aleatoria a llamadas tele efónicas a las 13.00 con el pro opósito de cono ocer la opinión de lo os votantes con n respecto a un n candidato en particular, falta arán muchas perso onas que en ese e momento se encuentran tra abajando. Nota: La palabra aleatorio describe el pro oceso por med dio del cual se obtiene la muestra. Esto no garrantiza que, a su s vez, la muesstra sea representativa. ARITMÉTICA, CALCULADO ORAS Y REDO ONDEO Al leer este libro, el lector ten ndrá que resolv ver gran cantida ad de problema as y lo más probab ble es que lo ha aga utilizando para ello una ca alculadora. Una a de las característiicas de las calcculadoras es qu ue muestran mu uchos dígitos, más m de los que se necesitan para a proporcionar la solución de u un problema. Esto E significa que algunas a veces será necesario o redondear lo os resultados a un valor aproxim mado que resu ulte convenien nte. Esta seccción proporcio ona algunas reglas informales para efectuar un redondeo razonable. REGLA BÁSIC CA PARA RED DONDEAR UN NÚMERO DET TERMINADO DE DÍGITOS Obsérvese el dígito que se encuentra inmediatamente e después del que q va a ser redondeado. Si ess igual o menor que 4 omítase, pero si es igua al o mayor que 5 entonces súm mese uno al díg gito que se dessea redondear. EJEMPLO 1-1
Redondéen nse los siguie ntes números sólo a dos lug gares decimalles: 16.837, 8.00 0319, 9.105 y 1 10.1349.
SOLUCIÓN
dato original
dígito siguiente
regla
resultado
16.837
7
su umar 1 al 3
16.84
8.00319 9.105 10.1349
3 5 4
om mitir su umar 1 al 0 om mitir
8.00 9.11 10.13
Nótese que para redondearr hasta el número de lugaress deseados no o se toman en cue enta todos los lugares resta antes. Un errorr común es ca ambiar primero 10 0.1349 1 10.13 35 y después a 10.14. Lo anterrior no es corre ec-
Introducciión a la estadísttica 6
■ EJEMPL LO 1-2 SOLUCIÓN N
to; sólo debe d tomarse en cuenta el dígito siguien nte al que se desea d redond ear. Redond déense los sigu uientes número os hasta la cen ntena más próxxima: 5 826, 9 084, 163.7, y 4 041. datos orig ginales 5826 9084 163.7 4041
■
dígito siguiente 28 6 4
regla omitir sumar 1 al 0 sumar 1 al 1 omitir
resultado 5800 9100 200 4000
En el ejem mplo anterior d deben notarse dos cosas: la primera p respue esta es 5 800 y no 58. Se necesittan los ceros para indicar que e el número es grande, de miles. Nótese tambié én que para la segunda respu uesta el primerr cero es exacto y los l últimos doss no lo son. Cua ando es importa ante indicar lo anterior, a se coloca a una barra so obre el último dígito d exacto. En E este caso 4 000. En el mismo m sentido ssólo se escribirrán ceros si ésstos se necesita an después del punto p decimal. Los números 6.0, 6 y 6.00 se e consideran como c diferentes si s resultan serr valores aproxximados. OPERAC CIONES CON N NÚMEROS AP PROXIMADOS S El prome edio de los sigu uientes ocho nú úmeros 6, 9, 9, 0, 7, 7, 5 y 4 es e 47/8 = 5.875. Sii los números anteriores a representan el nú úmero de miem mbros de ocho fam milias, entonce es son númerros exactos. Ninguna familia tiene aproxima adamente siete e miembros, po or lo tanto pue ede decirse que e el promedio es s exactamente igual a 5.875.. Sin em mbargo, si los d datos representan ocho mediciones, entoncces éstas son núm meros aproxim mados. Por eje emplo, estos n números podría an ser el peso de pasto p en tonela adas que posee e un rancho mu uy grande al fin nal de un periodo de d ocho mesess, o el peso de e las fresas en kilogramos qu ue en un día de ca ampo recolecta aron ocho pers sonas. En el ca aso de las med diciones, los datos s no son exacto os sino aproxim mados. Ellos se e redondean all número entero más m cercano. Ell que alguien afirme a conocer el promedio co orrecto al millar má ás cercano es ridículo, r ya que e los datos sólo o son correctos hasta el número entero e más ce ercano. De esta a manera, deccir que el prom medio es "alrededo or de 6" es má ás razonable que q proporcion nar la falsa imagen de que esta a cifra es correcta hasta en trres lugares de ecimales. La reg gla básica es la siguiente: El resultado final de los cálculos debe d estar en completo c acuerdo con los datos,, así que éste deberá redond dearse en form ma apropiada. Existen otras reglas más complicad das y de hecho o existe una árrea de la ciencia, el e análisis num mérico, que tiene que ver con la exactitud y precisión p de los nú úmeros despué és de haber efe ectuado un cálcculo con éstos. Sin em-
Introducción
7 bargo, para los fines que persigue este libro, la regla anterior es más que suficiente. RESULTADOS INTERMEDIOS Cuando se informan resultados intermedios, antes de proporcionar la respuesta final, es común retener uno o más dígitos extras. De esta manera, para encontrar el promedio de los números aproximados 19.62, 18.3, 17.064 y 16.21 primero se encuentra la suma que es 71.184. Al dividir este resultado entre 4 se obtiene un promedio igual a 17.796. A continuación se busca el dato que tenga el menor número de lugares decimales, 18.3 y se redondea el resultado a 17.8. No es poco común que se proporcione la suma de los números, la cual es un resultado intermedio, hasta con dos cifras decimales, en este caso 71.18. Calculadoras diferentes proporcionarán un número distinto de dígitos en el resultado, y si se emplea lápiz y papel es probable que se utilice un número menor de dígitos de los que la calculadora maneja. El hecho anterior puede, en algunas ocasiones, conducir a una respuesta ligeramente diferente. ¿Qué respuesta es errónea? Ninguna. Siempre deberá recordarse que se están manejando números aproximados, así que no debe existir ninguna preocupación cuando la respuesta difiera en 1 en el último dígito exacto con respecto a la que obtienen otras personas o de la proporcionada por el libro. ADVERTENCIA Se deberá tener mucho cuidado de no redondear los números al principio de los cálculos. Siempre deberá conservarse por lo menos un dígito extra en los resultados intermedios, antes de obtener la respuesta final. Las precauciones deben extremarse ya que mucha gente realiza operaciones aritméticas con calculadoras y computadoras. Por ejemplo, si la suma de 17 números aproximados es 68.23, su promedio, que es 68.23/17, puede mostrarse en una calculadora como 4.013 529 411 764. Con toda seguridad el lector sabe que esta cifra no es correcta y que la mejor respuesta es 4.01. Hace muchos años, cuando todos los cálculos se efectuaban con lápiz y papel existía poco peligro de que se realizaran divisiones hasta con trece dígitos. Sin embargo, es importante tomar en cuenta que las calculadoras proporcionan, la mayor parte de las veces, resultados erróneos y sin sentido cuando se trata de números aproximados. Es responsabilidad del usuario el empleo inteligente de estos instrumentos. La siguiente cita, tomada de Métodos estadísticos en ensayos biológicos de D.J. Finney, subraya los comentarios anteriores. Los bioensayos son, en su mayor parte, lo suficientemente poco precisos como para confiar en aquellos resultados con más de cuatro cifras significativas: la afirmación de que se estima que una preparación de prueba tiene una potencia de 35.71685 unidades por mg, es estúpida y confusa.
Introducción a la estadística 8 Está bien que una calculadora muestre que la raíz cuadrada de 34.26 es 5.832 042 506 64 si el número en cuestión es un valor exacto, pero si éste representa un número aproximado, entonces, dependiendo de los datos originales, la mejor respuesta podría ser 5.8. Recuérdese que es responsabilidad de quien efectúa los cálculos redondear los resultados en forma razonable. A lo largo del libro se supondrá que todos los datos que aparecen en cualquier problema se proporcionan con la misma precisión o exactitud. Lo anterior se hace con el fin de mantener el uso común. Los profesionales de la estadística no miden una parte de la población redondeando a la décima de pulgada más cercana y al resto redondeando a la pulgada más cercana. Si se proporcionan los datos 17, 21,19 y 30 se debe suponer que 30 también es correcto con respecto a la unidad más cercana. De manera similar, si se tienen los siguientes datos: 18.02,191,19.61 y 10, éstos implican que 10 y 191 son correctos hasta el segundo lugar decimal. Para indicar lo anterior es mejor escribirlos como 10.00 y 191.00.
AYUDAS PARA ESTUDIO VOCABULARIO 1. Estadística descriptiva 2. Inferencia estadística 3. Puntaje original 4. Distribución 5. Datos 6. Población 7. Muestra 8. Aleatorio 9. Muestra aleatoria 10. Número exacto 11. Número aproximado
EJERCICIOS 1-1 Miguel Ángel lanza una moneda cuatro veces y obtiene cuatro caras. Los resultados anteriores, ¿constituyen una muestra aleatoria? 1-2 ¿Cuál es la idea principal en el ejemplo dado de la pasta NoCav en este capítulo? ¿Qué preguntas pueden formularse con el propósito de decidir si la campaña publicitaria fue realmente eficaz? ¿Qué otros argumentos pueden formularse para explicar el aumento en el número de personas que usan NoCav? 1-3 "Existen tres clases de mentiras: las mentiras, las malditas mentiras y las estadísticas" [Benjamín Disraeli, Primer Ministro de Inglaterra (1804-1881)]. ¿Por qué las personas admiran y al mismo tiempo temen tanto a la estadística? ¿Qué ventajas tiene la estadística? ¿Tiene algunas desventajas? 1-4 El 95% de las personas que son adictas a la heroína comenzaron fumando marihuana en forma regular; por lo tanto, fumar marihuana lleva al uso de la heroína. Coméntese la afirmación anterior. 1-5 El 98% de las personas que fuman marihuana tomaban leche en forma regular; por lo tanto, beber leche periódicamente lleva al uso de la marihuana. Coméntese la afirmación anterior. 1-6 Clasifíquese cada una de las afirmaciones siguientes ya sea como inferencias o estadísticas descriptivas.
Introducción
9 a) Walter Kankrite predijo quién sería el ganador en una elección después de conocer los resultados de las votaciones en 15 de los 100 distritos electorales. b) El Dr. Bea Kareful, un ecólogo, informó que en cierto lago la carne de los peces contienen un promedio de 400 unidades de mercurio. c) El año pasado, en la escuela preparatoria normal Webelo, el puntaje promedio para el examen SAT fue 528. d) Los consejos de seguridad de los condados de Pessam y Mystic, vaticinaron 600 accidentes automovilísticos para el próximo fin de semana. e) El año pasado el 72% de los empleados de la firma de contadores Scrooge y Marley no fueron a trabajar por lo menos un día. 1-7 Para cada una de las siguientes afirmaciones descríbase la población o poblaciones que tuvieron que muestrearse para obtener la información dada. Si es necesario, reformúlese la pregunta hasta que quede claro de qué población se trata. a) El 30% de todos los suicidas son viudas. b) El 80% de todas las ratas que fueron inyectadas con la sustancia X desarrollaron tumores malignos. c) Los estudiantes de inglés en la Universidad de Hudson tienen un promedio mayor que los que estudian química. d) Mucho colesterol es malo para el corazón. e) Las mujeres aprenden a hablar antes que los hombres. 1-8 En una caja se mezclan dos variedades de chícharos o guisantes. Propónganse dos métodos que permitan, sin necesidad de contar o aun de ver todos los chícharos, estimar qué fracción, del total que hay en la caja, pertenece a una de las dos variedades. Llévense a la práctica estos métodos. ¿Funcionan? En este experimento ¿cuál es la población?, ¿cuál es la muestra? 1-9 Encuéntrense en otros libros algunos ejemplos de estadísticas (muestras, promedio, porcentajes, etc.). ¿Pueden clasificarse como descriptivas o como inferenciales? 1-10 Búsquese en las revistas y periódicos alguno de los usos de la estadística. Luego clasifíquense como descriptivas o inferenciales. 1-11 Un anuncio asegura que tres cuartas partes de los médicos entrevistados prefieren la marca X. ¿Cuál es su opinión? 1-12 Contéstese a), b), o c). a) Encuéntrese alguna referencia a la encuesta realizada en 1936 por Literary Digest, que predijo que Alf London ganaría con facilidad las elecciones presidenciales de Estados Unidos (véase p. ej., Huff, Cómo mentir con estadísticas). b) Encuéntrese alguna referencia con respecto a las votaciones del 18 de junio de 1970, en Gran Bretaña. (Consúltense los periódicos de esa semana.) c) Encuéntrense algunas referencias que analicen lo aleatorio del resultado de la lotería del primero de diciembre de 1969. (Consúltense los periódicos de esa semana o véase el libro, A sampler on sampling de Bill Williams.) 1-13 Redondéense los siguientes números como se indica, a) 16.43 (décimos)
Introducción n a la estadística a
10 b) 50 631 (centenas) c) 40 538 (decenas) d) 18.062 (centésimos) e) 40 100 (millares) f) 19.8963 3 (centésimos) 1-14 Estím mense las siguientes raíces cuadradas si los datos originales son los que e se indican. a) √3.120 pulgadas p (déccimos de pulga ada) b) √0.0196 toneladas (ce entésimos de tonelada) t c) √800 gra ados (hasta la a decena más cercana) d) √89 volttios (hasta la u unidad más ce ercana) e) √26 000 0 000 personass (hasta el milllar más cercan no). 1-15 Encuéntrese el promedio p de lo os siguientes gastos: g $16 000.00, $120 000, $40 $ ¯0 000. 1-16 Enccuéntrese la suma de 0.0016 60, 0.00058 y 0.002098. 1-17
a) Calcúlese z =
si los datos o riginales se propor-
cionaron ha asta décimos d de pulgada. b)
Calcúle ese z =
si los datos originale es se proporcion naron
hasta la braza más cerca ana. 1-18 Se mide la longitu ud del dedo an nular de la man no izquierda de e ocho personas y se obtienen lo os siguientes re esultados: 2.30, 1.92, 2.10 0, 2.41, 1.88, 1.70, 2.00, y 1.80 pulgadas. Encu uéntrese la long gitud promedio o. 1-19 a) Multiplíq quese 0.18422 2 x 1.9, redond déese el resulttado hasta el décimo d más cercan no. b) Redond déese 0.1842 a décimos, multiplíquese m p 1.9 y de nue por evo redondéese a décimos. c) Formúlese un comentario con respe ecto a sus resp puestas a los in ncisos a) y b). 1-20 Encué éntrense en lib bros, periódico os y revistas ejjemplos de números exactos y redondeados. r ENCUESTA A Las ideas básicas b de la esstadística se ap prenden de manera más intere esante cuando el lector l puede trrabajar con info ormación reco opilada por él mismo. m El siguiente e cuestionario tiene como fin n proporcionar los suficientess datos proveniente es de sus com mpañeros de generación, g co omo para cons siderar algunas prreguntas intere esantes. Es po osible que el lector desee añadir algunas pre eguntas más. A Al final de much hos de los ejerccicios se incluye en una o dos preguntas basadass en esta encu uesta. CUESTION NARIO Escríbase una X si no sa abe la respuessta. 1. Su sex xo 2. Su eda ad. 3. Su altu ura en pulgada as.
Introducción
11
4. La altura de su padre. 5. La altura de su madre. 6. El quinto dígito de su número de seguridad social. 7. El último dígito de su número de seguridad social. 8. El color de su cabello. 9. El color de sus ojos. 10. ¿Se ha fracturado un hueso alguna vez? 11. ¿Es usted zurdo, derecho a ambidiestro? 12. ¿Fuma con regularidad?
Una manera conveniente de reunir los datos de tal manera que cada estudiante tenga la información completa, es la siguiente. Primero, cada estudiante tiene sus propias respuestas en una hoja de papel; segundo, los estudiantes copian sus respuestas en una hoja maestra (o en algún papel que pueda ser fotocopiado). Al finalizar, se tendrá una hoja como la que se muestra más abajo. Las copias de ésta se entregan a todos los estudiantes de su generación. persona
1
2
respuestas a 3 4 5
la preguntas de la encuesta 6 7 8 9 10 11
12
1
M
20
68
70
63
0
5 café
café
no R
no
2 3 • • •
F
20
62
72
X
6
8 café
azul
no A
no
EJERCICIOS RELACIONADOS CON LA ENCUESTA 1 Encuéntrese el número de hombres y mujeres, así como el total de personas encuestadas. 2 Encuéntrese el porcentaje de hombres y el de mujeres en la encuesta. ¿Cuál es la suma de estos porcentajes? ¿Por qué? 3 ¿Cuántas mujeres fuman regularmente? ¿Cuál es el porcentaje de éstas con respecto al total de mujeres en la encuesta? ¿Existe alguna relación entre fumar y el sexo? Explíquese. 4 Obsérvense todos los datos. Infórmese cualquier hallazgo que parezca interesante. Preséntelo en una forma clara. PROYECTO DE CAMPO 1 Supóngase que se tiene una muestra aleatoria de estudiantes de su escuela. Si la muestra es representativa de edad y sexo, entonces debe esperarse que la edad promedio de la muestra sea muy parecida a la de la población y que la proporción de hombres en la muestra sea muy similar a la de la población. El trabajo, si se decide aceptarlo, es proponer un mé-
Introducción a la estadística
12 todo para obtener una muestra aleatoria de 100 estudiantes, de tal manera que la edad y el sexo sean aleatorios. Descríbase el método clara y detalladamente. Inclúyanse las preguntas que se formularán. Hágase un comentario de las cualidades y debilidades de su método. 2 Después de que el profesor apruebe el método, ordénense los datos. Inclúyanse en el informe los datos originales, la edad promedio en la muestra, el número de hombres y mujeres en ésta y coméntese cualquier cosa que haya ocurrido y que no era esperada. ¿Se piensa que la edad promedio de todos los estudiantes se encuentra cercana al valor promedio calculado a partir de la muestra? ¿Se piensa que la proporción de hombres en la escuela se encuentra cercana a la de la muestra?
Medidas estadísticas comunes
2
MEDIDAS DE TENDENCIA CENTRAL Tomás Tufluque acaba de reprobar Matemáticas. Se queja con el jefe del departamento de que las calificaciones del profesor Noays fueron demasiado bajas. Las notas del primer examen fueron las siguientes: 100
100
100
63
62
60
12
12
6
2
0
Tomás indicó que el promedio de la clase, que fue de 47, en su opinión era muy bajo. El profesor Noays aseguró que a pesar de lo anterior, había un mayor número de 100 que de otras calificaciones. El jefe del departamento dijo que la calificación media era de 60, lo que resulta ser un hecho común. Cada una de las personas anteriores hace uso de un número para representar la tendencia general de las calificaciones del examen. Estos números reciben el nombre de promedios o medidas de tendencia central. Tomás Tufluque empleó la media o promedio aritmético que se obtiene al sumar las calificaciones y dividirlas entre el total de éstas. El profesor Noays usó la moda, que en el número más frecuente. El jefe del departamento hechó mano de la mediana, que es el número que se encuentra a la mitad, cuando el grupo de éstos se escribe en orden numérico. Los anteriores son los tres promedios más comúnmente usados. ¿Cuál de ellos es el mejor? Depende de la situación concreta. Considérense los siguientes números: 71, 71, 71, 71, 73, 74, 74, 75 y 95. Si éstos representan el número de modelo de los vestidos que se venden cierto día en una
Introducción a la estadística 14
boutique, entonces el modelo más popular es el 71. Este número es la moda y es importante cuando se desea renovar la existencia. Si los números representan las calificaciones de un examen final de psicología y se desea efectuar ciertas pruebas estadísticas, entonces deberá emplearse a la media, que en este caso es igual a 75. Si los números representan los ingresos anuales, en cientos de dólares, de los empleados del complejo industrial Smith, entonces deberá tomarse a la mediana $7 300 como el salario promedio. Nótese que el salario medio, $7 500, es más grande que 7 de los 9 salarios. Cada promedio tiene ciertas propiedades. Depende del contexto si éstas pueden ser de utilidad o no. Por ejemplo, el valor de la mediana no cambia mucho si se tienen algunos valores pequeños o grandes, mientras que la media resulta afectada por cualquier valor. En este libro se hará un empleo muy amplio de la media ya que ésta se presta para muchas pruebas estadísticas. En el ejemplo anterior se encontró la mediana de una distribución con un número impar de puntajes. En este caso, encontrar el número que se encuentra a la mitad no constituye ningún problema. Por ejemplo, la mediana de 3, 7, 5, 6, 8 es _______ ? Se espera que el lector no haya contestado que el valor de ésta es 5, dado que por definición la mediana es igual al valor que se encuentra a la mitad cuando los datos se ordenan de manera creciente. De esta forma, la mediana de 3, 5, 6, 7, 8 es 6. Si la distribución incluye un número par de puntajes, entonces el promedio de los dos que se encuentran a la mitad es igual a la mediana. Ejemplo: La mediana de 3, 3, 5, 6, 8, 13 se encuentra al sumar los dos números que se encuentran en la porción media, 5 y 6 y dividiendo entre 2. De esta forma la mediana es igual a 5.5. Nótese que la mitad de los puntajes es menor de 5.5 mientras que la otra mitad resulta ser mayor que este valor.
SÍMBOLOS Y FÓRMULAS Se denotará con la letra n el número de números o puntajes en una distribución dada. Para la distribución 3, 1, 8, 9, n = 4. La media de una muestra será denotada con la letra m. Para la media de la población se utilizará la letra griega µ (léase: mu). Las medidas de una población, es decir, aquéllas que toman en cuenta a cualquier miembro de la población reciben el nombre de parámetros; µ es un parámetro. Las medidas que se basan en los datos de la muestra, es decir, aquéllas que sólo toman en cuenta a algunos miembros de la población reciben el nombre de estadísticas; m es una estadística. Muchos profesionales de la estadística emplean letras griegas para denotar los parámetros, y letras itálicas para las estadísticas. De acuerdo con lo anterior, se emplea µ para la media de la población y m para la media muestral. Es importante que el lector aprenda a conocer y escribir letras griegas. La mayor parte de las veces se denotará con letras mayúsculas, como X o Y, la lista de números en una distribución. Por ejemplo, .Y: 1, 5, 3, 2. (A veces se utilizará X para señalar un número de la distribución, como
Medidas es stadísticas comu unes 15
X = 3. Algunos libros utiliza an, con el mism mo propósito, la notación Xi.)) De acuerdo con el contexto, de eberá ser clara la manera com mo se emplee X. X Se denotará con n la letra griega Σ (léase sigma, s que se e parece a una M acostada) la orden de "sum mar". De esta forma, f si una d distribución X consiste en cua tro números, 1, 5, 3 y 2, en tonces ΣX es 1 +5 + 3 + 2 = 11. La media de esta muestra es m = 2.75. Otro O símbolo m muy empleado para p la media de una muestra e es X ¯ (léase X barra). b Una fórmu ula para la me edia de una mu uestra es
Para el ejemplo anteriorr se tiene
Existe otra manera de intterpretar el sím mbolo ΣX y es lla siguiente: si una columna con el título de atien ne los números s 1, 5, 3 y 2 ento onces ΣX deno ota la suma de los números conte enidos en dicha a columna. De manera similar, X2 indicará una columna c de nú úmeros en dond de cada eleme ento es el resulttado de tomar el cuadrado c corre espondiente de e cada número o de la column na X. 2 Para los núm meros 1, 5, 3 y 2 2, la columna X consistirá en los números 1, 25, 2 2 2 9 y 4, y ΣX = 39. El símbolo (ΣX) denota a (11) que es ig gual a 121. Nótese 2 2 que (ΣX) es diferente de ΣX Σ .
Con el enca abezado X - 1 se denotará la columna que se s obtiene al re estar 1 a cada núm mero que se encuentra e en la a columna X. P Para la misma distribución de números, n esta columna estarrá formada porr 0, 4, 2 y 1. Po or lo tanto, Σ(X - 1) = 7.
Nótese que Σ(X - 1) = 7,, mientras qu e XX - 1
= 11-1
= 10.
Algunas ve eces es necesa ario distinguir entre e dos poblaciones diferentes en el mismo ejemplo. e Si se denota la prime era población p por X y la segunda
Introducció ón a la estadístiica 16
por Y, enttonces el núme ero de elementos en la prime era población indicará i como nx (léase n sub X), X) mientras que e para la segunda población el símbolo es nγ (léase n sub Y Y). La media de la primera ess µx y el de la segunda s µY. De accuerdo con lo aanterior, se tie ene
Para mue estras, lo anterior se denota como c
Por ejemplo, el presid dente de la Aso ociación de Pla anificación Fam miliar de cierta loca alidad tiene cuatro hijos cuya as edades son 18, 11, 15 y 9 años, y tres hijas de 18, 2 y 10 a años. Si se rep presenta con X la distribución n de las edades de e los varones y con Y la distrib bución de las edades de las mujeres, m se tiene
EJERCICIIOS 2-1 "El nú úmero promed dio de niños en n una familia no n puede ser, simplemente, igu ual a 2.3. ¿Qué é sentido tiene e la expresión 3 3/10 de hijo?". Formúlese un co omentario con n respecto a lo anterior. 2-2 Se ea µ la media de la distribució ón X. ¿Qué razó ón existe para denotar con m a l a media muesstral?, ¿por el símbolo X ¯ ? 2-3 Da ada Y: 2, 3, 4, 5 5, 6, 7,8, calcúle ese cada una d de las siguiente es cantidades.
Medidas esttadísticas comu unes
17 2-4 Repíítase el proble ma anterior co on Y: 3, 4, 5, 6, 6 7, 8, 9. 2-5 Dada a una muestra d de seis valoress, X: 4, 4, 3, 0, -1, 2, calcúles se cada una de las siiguientes cantidades.
2-6 Rep ítase el proble ema anterior con c X: 3, 3, 2, -1, -2, 1. 2-7 Dada a la siguiente po oblación X. 2, 7, 7 6, 11, 0, calccúlese cada un na de las siguiente es cantidades.
2-8 Repíttase el problem ma anterior con X: 4, 14, 12,, 22, 0. 2 2 2-9 Propónganse tres números tales s, que (ΣX) = ΣX . 2-10 Una a familia guarda a un registro de e la edad en que murieron su us antecesores durante un lapso o que abarca varias generacio ones. Los dato os son 72, 68, 0, 67, 45, 7, 70, 68,, 72, 66, 70. Ca alcúlese la me edia, la median na y la moda y decídase cual es la que tiene ma ayor significad do. 2-11 Los s salarios de loss profesores de e un departame ento de matemáticas son los siguientes: cuatro ganan $15 00 00, dos $21 00 00, seis $16 000, 0 y uno $28 000.. Calcúlese la m media, mediana y moda de lo os salarios. ¿Cu uál es la que tiene un mayor sign nificado? 2-12 Enccuéntrese la me edia, mediana y moda de lass siguientes callificaciones promedio: 2.9, 3.1, 3.4 y 3.8. 2-13 Ilústtrese mediantte un ejemplo o la afirmació ón "el valor de la mediana no cambia much ho si se tiene en algunos va alores pequeño os o grandes, mie entras que la media m resulta afectada a por cu ualquier valor".. 2-14 Esccríbanse tres d diferentes disttribuciones, en n donde cada una contenga cin nco números y el promedio sea igual a 70 0. ¿Cuántas distrid buciones es posible p enconttrar con esta propiedad? p 2-15 Un estudiante e que trata de resolver el ejercicio 2-14 2 toma como los cuatro primeros números de d una distribución los siguie entes: 0, 1, 2 y 3. A pesar de lo anterior, a ¿pued de completar la distribución de tal manera a que ésta tenga una media igual a 70? ¿Podríía haber comenzado con cua alesquiera otros cuatro número os? 2-16 Enc cuéntrese la me edia del siguien nte conjunto de e datos: 70, 75,, 80, 81, 82, 83, 85, 85, 8 86, 86, 86, 89, 90, 90, 91 1, 92, 94 y 95.. 2-17 El gobierno g de Estados Unidos informa cada año a la mediana a de la edad de las parejas p de novvios que contra aen matrimonio o por primera vez. v A continuación n se muestran los resultadoss para la décad da de los 70.
Introducció ón a la estadístic ca 18 añ ño
mediana dde la edad de laa novia
medianaa de la edad dell novio
1970
20.6
22.5
19771 1972 1973 1974 1975 1976 1977 1978 1979
20.5 20.5 20.6 20.6 20.8 21.0 21.1 21.4 21.6
22.5 22.4 22.5 22.5 22.7 22.9 23.0 23.2 23.4
a) ¿Se ob bserva alguna tendencia? b) Los resultados anterriores quizá hubiesen sido differentes si se hubiera h dado a co onocer la media a en lugar de la a mediana. ¿S Se cree que ésttos hubiesen sid do mayores o m menores? 2-18 Algu unas propieda ades de la media Conocerr algunas propiiedades de la med dia puede ser ú útil para calcula arla. Si se sum ma el mismo va alor a todos los nú úmeros de una a distribución, entonces la m media aumentará en la misma ca antidad.
La propie edad anterior ttambién es vá álida para la rresta, multipliccación y división. Hágase usso de la idea a anterior para co ontestar las siguientes pregun ntas. a) Supóngase que los d datos proporcio onados en el ejjercicio 2-16 re epresentan califica aciones y se h ha cometido un n error al añadir cinco puntoss más. Corríjase el valor de la media. b) Si la media m de 15,18, 23, 24 es igual a 20, ¿cuál es el valor de la media m de 1.5, 1.8, 2.3 2 y 2.4? ¿Po or qué? 2-19 Datos D agrupa dos La distribución X de una a muestra conssiste en 25 númerros tres y 6 cin ncos.
a) ¿Cuál es el valor de e n? b) ¿Cu uál es el valorr de ΣX? 2 c) ¿Cuál es el valor de e ΣX ? d) Si los 31 valores se arreglan en orrden numérico,, ¿cuál es el va alor que se encontrará a la mitad d? (Es posible que q sea el 16°. ¿Por qué) Esste valor es igual a la mediana.
Medidas estadísticas comunes 19
2-20 La distribución X de una muestra consiste en 1 000 cincos, 500 seises y 500 ochos. Encuéntrese la media, mediana y moda. 2-21 Durante el pasado mes el costo de las acciones del grupo Contaminación Ambiental fue el siguiente: 587, 588, 588, 590, 593, 597, 597, 600, 601, 599, 598, 597, 599, 600, 603, 605, 605, 604, 607,605 y 607. Encuéntrese el costo medio de una acción. 2-22 La moda fue definida como el número que aparece en forma más frecuente en una distribución. Algunas distribuciones pueden tener más de una moda. Encuéntrense las modas de cada una de las siguientes distribuciones: (a) 5, 3, 7, 3,8, 5, 7, 1, 3, 6, 2,8, 7 (b) 2, 0, 3,3, 0, 5, 2,6, 0, 7, -1, 2, 3
(c) 1 ,5 ,9 ,7 2-23 Un anuncio de la revista "Smithsonian", aparecido en 1981, afirmó que el ingreso promedio de sus suscriptores era de $42 500. ¿Qué tipo de promedio se piensa que se utilizó? ¿Cómo se supone que se obtuvo esta información?
MEDIDAS DE VARIABILIDAD Supóngase que se está planeando ir al Caribe en un crucero, durante las vacaciones de primavera. El agente de viajes informa que existen tres cruceros posibles y que las edades medias de los pasajeros en cada uno de éstos son 20, 29 y 41 años, respectivamente. ¿Qué crucero se seleccionará? ¿Cuál se espera que seleccione su madre? ¿Escogerá un barco en el que vayan pasajeros con una edad media de 20, 29 o 41 ? Después de seleccionar la opción, véase la tabla 2-1 que proporciona una lista detallada de las edades de los pasajeros. Después de conocer esta lista, ¿se desea cambiar la selección? Como puede observarse, la media no refleja de manera exacta la distribución de edades en los barcos 1 y 2. Se necesita una medida que indique si los números de una distribución se encuentran cercanos o lejanos; ésta recibe el nombre de medida de variabilidad, dispersión o extensión. De manera ideal, deberá tener un valor grande si los puntajes se encuentran muy dispersos, y pequeño si se encuentran muy cercanos entre sí. Una medida sencilla de variabilidad es el recorrido. El recorrido es la diferencia entre el número más grande y el más pequeño de una distribución. De esta forma, para el barco 1 el recorrido es 62 - 2 = 60 años, para el barco 2 el recorrido es 52 - 19 = 33 años y para el barco 3 esta cantidad es igual a 43 - 39 = 4 años. Para gran parte de los problemas "cotidianos" que se tendrán que resolver sobre una base intuitiva, el recorrido es una buena medida de variabilidad. Sin embargo, para muchos problemas de tipo "técnico", como los que se tratarán más adelante en este libro, existe otra medida de variabilidad muy útil; ésta recibe el nombre de desviación estándar. Para ilustrar el concepto de desviación estándar, considérense dos poblaciones pequeñas. Dos estudiantes, David y Laura, tienen el mismo promedio en álgebra, 70. Las calificaciones de David son 67, 70, 72 y 71
Introducción n a la estadístic ca 20
mientras que las de Laura son 100, 62 2 y 48. Las calificaciones de Laura se encuenttran más dispe ersas entre sí que las de Da avid. Una mane era de observar lo o anterior radicca en considera ar las desviaciones con res specto a la media a. La desviació ón de un punta aje con respeccto a la media se encuentra si se resta a éste e el valor de la a media (Tabla a 2-2).
Si el valo or de la desvia ación tiene un signo positivo, entonces la calificac ción es mayor que la media, y si el signo es negativo la calificación es menor que la med dia. Una desviiación cuyo va alor es igual a cero indica qu ue esa calificación n en particular es igual a la media. m Nótese q que las desvia aciones de las califiicaciones de Da avid tienen un valor v más próxiimo a cero que e las de Laura. Lo anterior es co onsecuencia de el hecho de que las calificaciones de David se s encuentran menos dispersas que las de e Laura. Si se calcula la media d de las desviaciiones para las calificaciones de d David, se enccontrará que ésta é es cero: (-3 ( +0+2+1 1)/4 = 0/4 = 0.. Si se calcula la media m de las de esviaciones de las calificaciones de Laura, ta ambién se observa a que el valor de e ésta es cero. De hecho, lo anterior a siempre e
Medidas esttadísticas comu unes 21
es cierto para a cualquier distrribución, y por lo tanto la med dia de las desvviaciones es cerro. Recuérdese e que se trata de introducir una nueva medida de variabilidad denominada desviación esttándar. Se dessea que la desviación están ndar sea representtativa de las de esviaciones. Po odría pensarse e en usar la me edia de las desviaciones como re epresentativa de d éstas, pero ya se ha mencionado que el valor v de ésta sie empre es igual a cero sin importar cuánta va ariabilidad exista en la distribucción. Así que lo os estadísticoss desarrollaron n un método que no n es inmediata amente obvio. Primero, se ob btienen los cuad drados de las dessviaciones. Ning guno de éstos es e un número n negativo. Segun ndo, se encuentra a la media de éstos. Por eje emplo, las dessviaciones de las calificaciones de David son -3, 0, 2 y 1, assí que los cuad drados de las desd viaciones son n 9, 0, 4 y 1. La a media de esto os cuadrados e es (9 + 0 + 4 + 1)/4 = 14/4 = 3.5. Este número, la media de los s cuadrados de e las desviacion nes, puede utilizarsse como una m medida de varia abilidad. Esta re ecibe el nombre e de varianza de las calificacion nes de David. El capítulo 15 muestra varias situaciones pa ara las que la vvarianza es la medida de variabilidad más fácil f de emplear. Debe notarrse que en este e proceso se han h tomado loss cuadrados de e todas las desvia aciones origina ales, así que la a varianza es u una medida rep presentativa de los cuadrados de las desviac ciones. Para ob btener un núm mero representativo o de las desviacciones originale es, se toma la raíz cuadrada de la varianza. El resultado r de la a operación an nterior recibe e el nombre de desd viación estándar. En el caso o de las calificaciones de Da avid, ya que la varianza es igua al a 3.5, la dessviación estándar es √3,5 =1 1.9. Dado que las desviaciones con respecto a la media se encuentran e entre 0 y 3 unidad des, 1.9 es un valo or razonable pa ara representarr las desviacion nes. La desviacción estándar siem mpre tiene las mismas unidad des que los da atos originales. En este caso, la desviación d está ándar es igual a 1.9 puntos de e calificación. Si S se tiene un prob blema en donde las unidades s de los datos originales se encuentran en pies, p entonces la desviación estándar tamb bién tendrá uniidades en pies. A continuacción se calcula ará la desviació ón estándar de e las calificaciones de Laura (Tab bla 2-3).
Introducciión a la estadísttica 22
Desviación estándar = raíz cuadrada a de la varianzza
De nuevo o, nótese que llas desviacione es originales son 8, 22 y 30. Así que 22 es una cifra razonab ble para representar la desvviación. FÓRMUL LAS Se hará uso u de la letra griega o (léase sigma) s para la le etra minúscula s, con el propósito o de denotar la desviación esttándar de una p población. Por lo tanto, 2 σ repres senta la varianzza. De accuerdo con lo anterior, a la fórmula para la vvarianza es
y la fó órmula para la desviación estándar es
En muchas aplicaciones estadística as no se conoccen todos los datos d de interés so obre la poblaciión. En genera al, sólo se tiene e una muestra de ésta. Un proble ema común para el estadístico o es estimar la a desviación estándar e de la pob blación a partirr de los datos contenidos c en la muestra. La a fórmula dada con n anterioridad para σ, propo orciona la desvviación estánd dar de la población n. Se utiliza cuando se tienen n todos los dato os de la poblacción. Sin embargo, cuando se de esea estimar o mediante m el uso o exclusivo de los l datos de la muestra es necessario modificarlla fórmula. Esta a estimación se e denota por s.
Utilizar n - 1 en lugar d de n proporcio ona un valor más m grande. Además, lo anterior compensa c el h hecho de que las l estimaciones que emplea an n en la fórmula tiienden a ser de emasiado pequ ueñas debido a que la variabilidad en la muestra es, e generalmen nte, menor que e la de la pobla ación. Dado que e s es una estimació ón de σ basad da en los datos de la muesttra, s es una estadística e mientras que σ es un p parámetro. Cua ando no existe peligro de confusión, los profesion nales de la Esstadística, algunas veces se refieren a s como la desviació ón estándar a pesar de que ésta es sólo una u estimación n. La estimación de d la varianza se s denota por s2.
Medidas es stadísticas com munes 23
OTRA FÓRM MULA PARA E EL CÁLCULO DE D s Resulta que en la práctica el uso de la fó órmula dada para p s no es co onveniente debid do a la gran ca antidad de res stas que debe en efectuarse. Una fórmula más s adecuada, co omputacional, es la siguiente e:
La expresiión anterior pro oporciona la misma respuesta a que la fórmula a dada con anterrioridad. A con ntinuación se ilustra el cálculo de s median nte el empleo de la as dos fórmula as para los sig guientes datoss 1, 8, 0, 3, 9.
Introducció ón a la estadístiica 24 EJERCIC IOS
2-24 Dura ante el pasado año, la media de la temperattura más alta en dos ciudades Squaresville y Octothorpe, fue de 70°F. Exp plíquese cómo estas dos ciudad des podrían ser muy diferente es con respecto o a sus tempera aturas dianas. 2-25 Para a las siguientess distribucione es encuéntrese e el valor de s, primero, media ante el empleo de la definició ón
y despuéss por la fórmula computacion nal
Establézccase para cada a parte, qué método m es el más sencillo. a) 4, 6 y 8 b) 3, 8, 9, 9 17 y 20 2-26 Líste ense todos los datos originale es en la parte a) a del ejercicio 2-25 que se encuen ntren a una o m más desviacion nes estándar p por debajo de la l media. Lístense todos t los datoss de la parte b) del ejercicio 2 2-25 que se encuentren alejados a más de una d desviación esttándar de la me edia. 2-27 Una muestra aleattoria de reos, de la Prisión E Estatal SingSo ong, contestaron una u prueba de e honestidad. Los L puntajes vvariaron entre -31 y 9, proporcion nando un recorrrido igual a 40. El puntaje prom medio fue igual a -17 y la desviación n estándar de lla muestra fue de 7. Warden Warren W Wardo on estima que el pu untaje promedio para toda la población del penal se encuentra alrededor de -17, pero el recorrido es mayor m de 40 y la desviación : estándar mayor que 7. Explíque ese por qué ess probable qu ue Warden Wa ardon se encuentre e en lo correcto o. Hágase uso u de las sigu uientes ideas para p contestarr los ejercicios s 2-28 a 2-32. Algunas propiedades p de e s Si se suma el mismo valo or a todos los números n de una disstribución, el vvalor de la desvviación estánda ar no cambia. Lo anterior también es válido para la resta. Ejemplo X: X 1, 2, 3 da s = 1. de s iguall a 1.
X + 6 da 7, 8, 9 lo os que tienen un u valor
Si se multiplican m todoss los números de d una distribu ución por el missmo valor positivo, el e valor de la a desviación estándar tambié én resulta mu ultiplicado por esa cantidad. c Lo an nterior también n es válido pa ra la división. Ejemplo X: X 1, 2, 3 da s = 1.
X x 6 da d 6, 12, 18 lo os cuáles tiene en s = 6.
2-28 a)) Mediante el e empleo de cualquier método p presentado en este capítulo, enc cuéntrese m, s2, y s para la distribución d 2, 5, 6 y 7. 2 b) En la parte p a) se hallaron los valore es de m, s , y ss, para la distrribución 2, 5, 6 y 7. 7 Empléense la as ideas propo orcionadas líne eas arriba para a encon2 trar m, s , y S para la disstribución 12, 15, 1 16 y 17. :
Medidas estadísticas comunes
25 c) Para la distribución del inciso a) lístense todos los valores que se encuentren a menos de una desviación estándar de la media. 2-29 a) Mediante el empleo de cualquiera de los dos métodos encuén2 trese m, s , y s para la distribución 3, 4, 7, 9 y 11. 2 b) Encuéntrese m, s , y s para la distribución 30, 40, 70, 90 y 110. c) Para la distribución dada en el inciso a) lístense todos los valores que se encuentren a más de tres desviaciones estándar de la media. 2-30 Como resultado de una gestión, los trabajadores de la Unión Internacional Pogo Stick obtuvieron un contrato en el cual el salario promedio es de 11 000 marcos anuales con una desviación estándar de 800 marcos. a) A partir del siguiente año, cada trabajador recibirá un incremento en su sueldo de 500 marcos anuales. ¿Cuáles serán los nuevos valores de la media y la desviación estándar? b) El año siguiente cada trabajador recibirá un aumento del 10%. ¿Cuáles serán los valores de la media y la desviación estándar? 2-31 Sin efectuar los cálculos, compárese la media y la desviación estándar de las siguientes edades. X: 5, 2, 7 y 3 Y: 65, 62, 67 y 63 2-32 Sin efectuar los cálculos, compárese la media y la desviación estándar de las siguientes temperaturas: Kodiak, Alaska, 10, 8, 0 y -1 Coldfoot, Alaska, -10, -8, 0 y 1 2-33 A continuación se muestran el monto de las cuentas y las propinas que recibió un camarero en una noche. monto de la cuenta, dólares propina, dólares 12.46 1.75 20.16 6.25 22.00 15.88 38.50
3.00 .75 3.25 2.50 5.50
a) ¿Cuál es el promedio de las propinas? b) ¿Cuál es el valor de la varianza y la desviación estándar para las propinas? c) Determínese qué porcentaje, de cada cuenta, representa la propina. ¿Cuál es el valor del porcentaje promedio? d) ¿Qué valor tienen la varianza y la desviación estándar de estos porcentajes? 2-34 Encuéntrense cinco números cuya varianza sea: a) Mayor que su desviación estándar. b) Menor que su desviación estándar. c) Cero. 2-35 Considérense las siguientes calificaciones de una prueba de aritmética: 70, 75, 80, 81, 82, 83, 85, 85, 86, 86, 89, 90, 90, 91, 92, 94 y 95. En esta distribución X ¯ = 85.53 y s = 6.7.
Introducció ón a la estadístic ca 26
a) ¿Cuánttos datos se en ncuentran a me enos de una de esviación estándar de la media? b) ¿Qué porcentaje p de lo os datos se enc cuentra a meno os de una desv viación estándar de d la media? c) ¿Cuánttos datos se en ncuentran a me enos de dos de esviaciones esttándar de la mediia? d) ¿Qué porcentaje p de lo os datos se encuentra a menos de dos desvviaciones estánd dar de la media? 2-36 El Centro Naciona al de Informacción sobre OV NIS informó que q durante los últimos ú 12 messes se observa aron, por mes,, 30, 3, 27, 0, 15, 40, 37, 1, 1, 20 0, 10 y 5 OVNIIS. Calcúlese, para esta distrribución, la me edia y el valor de s. Contéstense las preguntas a) a d) del ejerrcicio anterior. 2-37 Dos grupos g de estu udiantes de 4o o. año efectúan n una prueba de d coeficiente inttelectual (Cl). Uno de los grrupos pertenecce a una escu uela del condado de d Nassau, mie entras que el otro o proviene de e una institució ón para niños psicó óticos. Ambos grupos tienen una media igu ual a 100 pero la desviación esttándar de los e estudiantes norrmales fue de 14, 1 mientras qu ue para los psicóticos ésta tuvo un valor de 23 3. Interprétensse estas estad dísticas. 2-38 El ca apataz de una mina compara a los producto os de dos fabricantes de explosivvos. Los produ uctos de amba as compañías e estallan en un tiempo promedio de d 40 minutos después de su u instalación, p pero la desviacción estándar de la marca A ess de cuatro minutos, mientra as que para la a marca B ésta tien ne un valor de e 14 minutos. ¿Qué ¿ marca deberá d escoger el capataz? 2-39 Dos varillas de ma arca distinta tie enen una long itud promedio igual a 36 pulgadas. La desviacción estándar de d la marca Eu uclidiana es de e 0.002 pulgadas mientras m que la a Pitagoreana tiene una desviación estándarr igual a 0.001 pulg gadas. ¿Qué m marca es la me ejor? 2-40 U Unos días desp pués de haber efectuado e un e examen de esta adística, el lector se e dirije a la oficina de su professor para preguntar por su calificación. El profesorr no se encuentra en ese mom mento, pero sob bre su escritorio o se observan los siguientes resultados: Clase I: media = 80, desviación d es tándar = 5 Clase II: media m = 80, d esviación est ándar = 10 a) ¿En qu ué clase cree e encontrarse el lector? b) Si Maríía se encuentra a en la clase I y a no más de ttres desviacion nes estándar de la l media, encuéntrese el interrvalo en el cuáll está su calificación. c) Si Guillermo está en lla clase II y se encuentra a más m de dos dessviaciones estánd dar de la media, hállese el in ntervalo en el ccual está su ca alificación. 2-41 Se efectúan e dos experimentos sobre diferentes marcas de corazón c artificial. El E primero compara la marca A con respecto o a la marca B. B El segundo com mpara la marca a X con respectto a la marca Y Y. Todos los corrazones se desgasstan y, con el paso del tiem mpo, deben re eemplazarse. A continuación se e muestran los resultados de las pruebas effectuadas en 10 1 corazones de cada marca. E Explíquese porr qué, en el priimer experimento, los resultadoss son concluye entes mientrass que para el ssegundo no lo son.
Medidas esstadísticas comu unes
27 2-42 Juan lle eva un registro de los precioss del espagueti en los superm mercados localess. Cada lunes visita v 20 tienda as y verifica el precio de una caja de una libra de espagueti marca m House. A continuación se muestran n los precios duran nte las pasada as 10 semanass.
semana
precio de esviación prromedio, en esttándar, en centavos ce entavos
1
49.3
2.01
2 3 4 5 6 7 8 9 10
50.0 48.7 52.1 51.0 50.0 49.7 51.0 51.2 51.4
1.79 2.00 2.61 1.98 1.90 1.82 1.00 2.45 2.30
a) ¿Cuál es el precio prom medio durante este lapso? b) ¿Cuál es el valor prome edio de la des sviación estánd dar para este período? 2-43 Todas l as semanas, e el gobierno de e Estados Unid dos publica cie ertas estadísticas sobre s la salud. Uno de estos in nformes proporrciona el númerro de casos inform ados acerca de d distintas en nfermedades d urante el año.. (El conteo comie enza el primero o de enero.) A continuación sse muestran loss resultados para a las primeras 29 2 semanas de e los años 1980 0 y 1981, resp ectiva me nt e, de l o s c a s o s de s a ra m p ió n . L as ci fr as s e p r opor cio na n p o r
región Nueva Inglaterra Atlántico Me edio Central Atlántico Sur Montañosa Pacífico
p primeras 29 ssemanas de 1980
primeras 2 29 semanas d de 1981 1
665
72 2
3612 4754 1839 415 971
756 6 961 1 332 2 32 2 315 5
12 256
2468 8
a) Para las primeras p 29 sem manas de 1980 0, encuéntrese la media y la desd viación estándar del número o de casos de sarampión en las diferentes regiones. ¿Esto os valores son n los mismos para el año 198 81? b) Para el añ ño de 1980, en ncuéntrese el porcentaje p de ccasos en cada región. c) ¿Cuál es la impresión g general acerca a de lo que estta tabla significca? MEDIDAS IN NDIVIDUALES EN UNA POBLACIÓN PUNTAJES z Los resultad dos del último examen fueron buenos: el p promedio de la clase es 83, la a mediana de 87, 8 el recorrido 24 y la desviacción estándar 5. 5
Introducción a la estadísttica 28
La informa ación anterior es e preciosa, pe ero lo que se de esea conocer en e realidad es: ¿q qué tan bien le e fue en el exam men a una perssona en particu ular? Ya se ha me encionado que e una medida de un dato o original es el puntaje original. Otra O medida m muy importante para situar a una persona en la población se denomina puntaje z- El puntaje p z es un na medida del número de desvia aciones estánd dar a las que se s encuentra u un puntaje brutto de la media de la población. E En el ejemplo anterior, µ = 83 y σ = 5. Por lo tanto, t el puntaje z que correspon nde a 88 (deno otado por z88) es 1, dado que e 88 se encuentra a a una desviacción estándar (5 unidades) po or encima de la a media; z73 = -2, ya que 73 está a dos desvia aciones estánd dar (10 unidad des) por debajo de e la media. Una fó órmula para enccontrar el punta aje z correspondiente a un datto original X es e la siguiente e
Mediante el uso de ssímbolos, la fó órmula para el puntaje z es
Cuando no exista con nfusión se omittirá la x subscripta y simplemente se escribirá
EJEMPL LO 2 2-1 SOLUCIÓ ÓN
■
Miguel se s encuentra en n la clase anterrior. Su calificacción fue 69. Enccuéntrese el pu untaje z para esta calificación n. Se susttituye en la fó órmula X = 69 , µ = 83, y σ = 5:
El resulttado anterior in ndica que el pu untaje de Miguel se encuentrra a casi tres desviaciones está ándar de la med dia y por debajo de ésta. En general, g el valor anterior es mu uy inferior al va alor promedio. Si en la a clase anteriorr Beverly tiene un puntaje z de e 2, ¿cuál fue su s calificación en n el examen? D Dado que la desviación está ándar es igual a 5 y la media es 83, el valor que corresponde a dos desviaciones estándarr por encima de la media será á 83 + 2(5) = 93. 9 Una fó órmula para calcular el puntaje e original correspondiente a un u puntaje z en particular e es Puntaje e original correspondiente al puntaje z = media m + puntaje z • desviación estánd dar En sím mbolos, ésta ess o, en forma f más sen ncilla, X = µ + zσ
Medidas es stadísticas comunes
29 Sí David tien ne un puntaje z igual a -.7, entonces e su pu untaje original es 83 + (-.7)(5 5) = 83 - 3.5 5 = 79.5 Nótese que primero se efe ectúa la multip plicación. Si se deno ota con 5 la esttimación de o, entonces e las fó órmulas se transsforman en
EJEMPLO2-2
Supóngase que q una person na afirma que la profundidad media de los pozos p petroleros más productivoss es de 2 500 pies. p Si al estim mar la desviación estándar a parrtir de algunos datos se obtiene un valor de e s igual a 100 pies, encuéntrese el puntaje z co orrespondiente a una profundid dad de 2 250 pies. p
SOLUCIÓN De manera similar, s para encontrar e la pro ofundidad que corresponde a un puntaje z de e 1.65 se tiene
■
X = µ + zs = 2500 + 1.65 5(100) = 2665 5 pies POSICIÓN RELATIVA R EMPLEANDO EL PUNTAJE z Supóngase que q se reciben n las calificacio ones de dos exxámenes, 85 en inglés y 65 en física. Resulta obvio que es más m agradable e obtener una calific cación de 85 5 que una de 65 5, pero también debe tenerse e en cuenta qu ue es importante su posición rela ativa con respe ecto a los dem más estudiantes de la clase. Sup póngase que le e informan que la media en in nglés es 70 y la a correspondiente e a física 50. D De esta forma, en ambas cla ases usted tiene 15 puntos más que q la media. ¿ ¿Significa lo an nterior, habland do en términos relativos, que su esfuerzo en am mbas clases fue e el mismo? La respuesta es no; n el número de puntos por encim ma o por debajjo de la media no son informa ación suficiente para dar una classificación relatiiva con respeccto a su posició ón en la clase; com mo puede obserrvarse en los da atos que apare ecen en la tabla a 2-4.
Tabla T 2-4
ingllés
Fíísica
100 99 98 85 (su calificación) 73 67 60 (calificación de Alicia) 53 45 20 media a = 70 s = 26.4
65 (su calificación n) 57 55 53 50 49 47 44 44 (calificación de e Alicia] 36
media = 50 s = 8.1
Introducció ón a la estadístic ca 30
De esta tabla t es posible e concluir que a pesar de que e se tienen 15 puntos por encima a de la media e en ambas clases y cuando es comparado con c los demás estudiantes, su d desempeño fue e mejor en físicca que en inglés, ya que la califficación que ob btuvo en física fue f la más alta de la clase, miientras que en inglés tres estudiiantes obtuvierron una mejor calificación. Se emplean los puntajes z con el pro opósito de com mparar el desem mpeño con el del resto de la cla ase. El puntaje e z para el exa amen de inglés s es
el corresp pondiente punta aje z para la calificación en ffísica es
De acuerd do con lo anterior se observa claramente qu ue a pesar de que en ambos exá ámenes se enccuentra 15 porr encima de la media, la calificación en física fu ue, en forma re elativa, mejor. EJEMPLO 2--3
SOLUCIÓN
De acuerrdo con la información proporc cionada en la ta abla 2-4, Alicia obtuvo 60 en inglés y 44 en físicca. ¿En cuál de e las dos materrias su calificaciión fue mejor? El puntajje z de Alicia e en inglés es
y el corresspondiente a física es
■
Ya que – .4 . es mayor qu ue –.7, la califficación de Aliccia en el exam men de inglés tiene e un puntaje z mayor que el que q obtuvo en física, así que e Alicia tuvo un me ejor rendimientto, en términoss comparativoss, en inglés que e en física.
RANGO DEL D PERCENT TIL Otra medida de la posicción que guarda a un individuo en relación co on la población es s el rango de el percentil. Este E se emple a, principalme ente, en poblacione es grandes, en n poblaciones pequeñas suelen emplearse las clasificacione es comunes co omo "ocupa el quinto lugar entre nueve". De manera esencial, el rango d del percentil de e un puntaje orriginal proporciona una indicación del porcentaje e de la distribución que se en ncuentra por de ebajo de este punta aje. Por ejemp plo, considéresse una person na cuyo punta aje original tiene un u rango del pe ercentil igual a 75. Lo anterio or significa que e, en forma aprox imada, el 75% % o alrededor de las tres cu uartas partes de los
Medidas es stadísticas comunes
31 puntajes de la población se e encuentran por p debajo del que tiene esta a persona. En una dis stribución de g gran tamaño, si un puntaje de e 72 tiene un rango del percentil de 80, entoncces el 80% de todos t los puntajes se encuen ntran por debajo de d 72 y el resta ante 20% por encima de este valor. Considé érese el siguiente ejemplo. e Se tie ene una distribu ución de pesoss de recién naccidos en donde el 70% de éstos ttuvieron, al nac cer, un peso menor m que el de e Steven, el 10% un u peso igual a al de éste y el re estante 20% un n peso mayor. Dado D que un 70% tiene un peso o menor y un 20% 2 un peso m mayor, entonc ces el rango del pe ercentil de Stevven debe enco ontrarse entre 7 70 y 80. Para fines prácticos se utilizará el valo or 75, que es el e que se encu uentra a la mita ad de los porcentajjes anteriores. Para encontrar el rango del p percentil de un puntaje primero se s determina el porcentaje de datos que tiene en un puntaje menor m al dado y de espués se sum ma la mitad del porcentaje corrrespondiente a los datos cuyo puntaje p es igua al al de interés s. En el ejempllo anterior, un 70% de los recién n nacidos pesaron menos que e Steven y 10% % pesaron lo mismo 1 que él, así que el rango de el percentil del peso de Steve en es 70 + /2(10) = 75. Considére ese otro ejempllo. Supóngase que en un gru upo de 50 alum mnos Andrea obtie ene una calificación de 603 en e una prueba a de aptitud. Posteriormente ella descubre que seis de sus compañeros c ob btuvieron una calific cación mayo or, tres (incluye endo a Andrea)) tienen la mism ma calificación y 41 una menor. De D esta forma 4 41/50 = .82 = 82% 8 se encuen ntran por debajjo del resultado obtenido por And drea y un 3/50 = 6% tienen un na nota mayorr. Por 1 lo tanto, el rango r del perccentil de Andre ea es 82 + /2 (6) = 85. El procedimiento anteriorr para encontra ar el rango del percentil puede expresarse porr medio de una a fórmula. Sea B el número d de puntajes po or debajo de un da ato X en particu ular. Sea E el número n de dato os que son igua ales a X, incluyend do a X mismo. Sea n el núm mero total de pu untajes. Entonces s el rango del percentil, RP de d X está dado por
En el ejemplo o anterior, el ra ango del percen ntil de la califica ación de Andrea a es
Una calificacción que tiene un rango del percentil p de 85 se dice que es e "el percentil 85o o. Se denotará con P85 (léase e P sub 85) el p puntaje que co orresponde al perrcentil 85o. De acuerdo con el e ejemplo ante erior, la califica ación de Andrea se erá el 85o. perccentil y éste será denotado porr P85. La idea de etrás de lo anterio or es que el rango del percen ntil es un valorr que se encue entra entre 0 y 100 0, mientras qu ue un percentil puede ser cua alquier puntaje e. De esta forma, puede escrib irse que RP 6003 = 85 y P 85 = 603. Por lo gen neral, los rangos de los percen ntiles se redond dean al entero más cercano. Por ejemplo, sup póngase que en una distribucción de 150 nú úme-
Introducción a la estadístic ca 32
ros, 97 de éstos son menores de 700 y 11 iguales a este valor. El rango del percen ntil de 700 es:
De acuerd do con lo anterrior, puede decirse que el ra ango del perce entil de 700 es 68, o RP700 = 68 o que 700 es el 68o. percentil, P68 = 700. Cua ando se dice, por ejemplo e que la calificación de e un examen es el 82o. perce entil, lo anterior siignifica que alrededor a de un u 82% de los que efectua aron el examen tu uvieron una calificación meno or que la dada.
EJEMPLO O 2-4 4
Con resp pecto a los dato os que aparece en en la tabla 2 2-4, encuéntrense los rangos de d los percentilles de sus califficaciones en in nglés y física. Hágase H lo mismo o para las califficaciones de Alicia. A
SOLUCIÓN
El rango o del percentil para su calific cación de 85 en e inglés es
y el corrrespondiente a su calificació ón de 65 en física está dado por
El rango o del percentil para la califica ación de Alicia a en inglés es
y el corre espondiente a física está dad do por
En la tab bla 2-5 se prop porciona un res sumen de los rresultados ante eriores
c calificación
Tablla 2--5
■
Inglés, lector Física, lector Inglés, Alicia Física a, Alicia
85 65 60 44
pu untaje z rango o del percentil .57 1.86 - .3 8 - .74
65 95 35 20
Medidas estadísticas comunes 33
EJERCICIOS 2-44
(a)
Complétese la siguiente tabla. símbolo
pronunciación
significado
n
ene
número de objetos en una distribución
m
(b)
X barra
(c)
mu
(d)
(e)
símbolo sumatorio
σ
(f)
z sub 98
(g)
puntaje correspondiente al 78o. percentil
(h)
estimación de la desviación estándar
(¡)
RP198
2-45 Proporciónese un ejemplo en el que sea posible obtener un valor negativo para cada una de las siguientes cantidades: media, mediana, moda, desviación estándar, varianza, recorrido, puntaje z, rango del percentil, 25o. 2-46 Una distribución de temperaturas tiene una media de 98.6°F y una desviación estándar igual a 0.5°. Encuéntrense los puntajes z correspondientes para las siguientes temperaturas, (a) 99.1° (b) 97.6° (c) 98.6° (d) 100° (e) 98° 2-47 Una distribución de presiones de aire tiene una media de 32 libras por in cuadrada y una desviación estándar igual a 1.2 libras por in cuadrada. Encuéntrense las presiones de aire que corresponden a los siguientes puntajes z. (a) 2 (b) 0 (c) -3 (d) 1.35 (e) -.06 2-48 Se aplicó una prueba de sensibilidad a 1 000 personas. A continuación se proporcionan los puntajes z de cinco de ellas: Adalberto -.02, Bastión 1.27, Carmulon .001, José -2.03, Elfremde .48. a) De estas cinco personas, ¿cuáles obtuvieron un puntaje por encima de la media? b) ¿Cuáles obtuvieron un puntaje por debajo de la media? c) Clasifíquense a estas cinco personas de mayor a menor puntaje. 2-49 Supóngase que en el ejercicio anterior la media de la prueba fue de 10 y la desviación estándar 5. a) Encuéntrese, para cada una de las cinco personas, el puntaje original. b) En general, ¿deben corresponder siempre los puntajes z negativos a puntajes origínales negativos?
Introducción a la estadística 34
c) En general, ¿deben corresponder siempre los puntajes z positivos a puntajes originales positivos? Sugerencia: Considérense las temperaturas en el Polo Norte. d) Otras seis personas obtuvieron los siguientes puntajes en la prueba de sensibilidad: Lou 10, Nes 9, Bates 5, Inés 15, Pat 12, Sue 11. Encuéntrense sus puntajes z. 2-50 Los astronautas descubren que la altura media de un marciano es de 3.6 in marcianas con una desviación estándar de 0.2 in marcianas. Nota: 12 in marcianas equivalen a un ft marciano. a) Dadas las alturas de los siguientes marcianos, encuéntrense sus puntajes z: Xgol 3.8, Zib 2.6, Mni 2.6, Rfd 4. b) Si el puntaje z del Presidente Mil es -0.5, ¿cuál es su altura? c) El señor Zar es un marciano de 3.9 ¡n marcianas de altura. La señora Zar tiene un puntaje z igual a 1.6. ¿Quién es el más alto de los dos? 2-51 ¿Falso o verdadero? Si todos los miembros de una población tienen el mismo puntaje z, entonces todos deben tener un puntaje z igual a cero. 2-52 En una distribución de edades muy grande, el rango del percentil correspondiente a una edad de 72 es 50. Las siguientes afirmaciones, ¿son falsas o verdaderas? a) La mediana de la edad en esta población se encuentra alrededor de 72. b) La edad promedio de esta población es, aproximadamente, 72. 2-53 Durante cierto año, la longitud promedio de los automóviles fabricados en Estados Unidos fue de 171 in con una desviación estándar de 5 in. a) Encuéntrense los puntajes z para automóviles con una longitud de 169, 170 y 180 in. b) Tres modelos de un fabricante tienen los siguientes puntajes z: -1, 0 y 0.3. Encuéntrese la longitud de estos modelos. c) Todos los automóviles de Colonel Motors tienen una longitud que se encuentra a no más de dos desviaciones estándar de la media. 1) Jaime afirma que su automóvil CM tiene una longitud de 185 in. ¿Por qué no es posible que la afirmación de Jaime sea correcta? 2) ¿Cuál es la máxima longitud posible del automóvil de Jaime? 3) ¿Cuál es la mínima longitud posible del automóvil de Jaime? 2-54 A continuación se muestran los puntajes que obtuvo Pentak en algunos exámenes. También se proporciona información estadística con respecto a los exámenes del resto de la clase. prueba matemáticas habilidad verbal geografía
media 47.2 64.6 74.5
desviación estándar puntaje de Pentak 10.4 8.3 11.7
83 71 72
a) Transfórmese cada uno de los puntajes de las pruebas de Pentak en puntajes z. b) ¿Para qué examen Pentak tiene, en forma relativa, la clasificación más alta?; ¿la más baja? 2-55 Un doctor recopila información sobre la altura, el peso y la presión
Medidas estadísticas comunes 35
sanguínea de un grupo de personas las cuales reciben el nombre de grupo de control y calcula tres medias y tres desviaciones estándar. Después de obtener su peso, su altura y su presión sanguínea, el médico calcula los correspondientes puntajes z con respecto al grupo de control. Los resultados son: altura, z = 2.1; peso, z = –1.3; y presión sanguínea, z = 0.003. Interprétense los resultados anteriores. 2-56 a) Samuel Safety efectúa una prueba de manejo. De las 120 000 personas que también efectuaron la prueba, 100 000 obtuvieron un resultado inferior al de Samuel, mientras que 2 400 tuvieron lo mismo. Encuéntrese el rango del percentil correspondiente al puntaje de Samuel. b) Juan Hasty también efectúa una prueba de manejo. De las 120 000 personas que efectuaron la prueba, 18 000 tienen un puntaje menor que el de Juan mientras que 1 000 obtuvieron lo mismo. Encuéntrese el rango del percentil correspondiente al puntaje de Juan. 2-57 De acuerdo con las estadísticas de la compañía Quick and Easy Data, algunas de los percentiles para los ingresos familiares en el condado de Nowso, son los siguientes:
P25 = $4000
P50 = $6800
P75 = $10 200
P90 = $14 500
Establézcase, en forma aproximada, el porcentaje de familias cuyos ingresos son: a) Menores de $ 4 000 b) Menores de $ 6 800 c) Menores de $ 10 200 d) Menores de $ 14 500 e) Mayores de $ 14 500 f) Entre $ 4 000 y $ 10 200 2-58 En el condado de Nowso habitan alrededor de 500 000 familias. Mediante el empleo de los resultados del ejercicio anterior, establézcanse aproximadamente cuántas familias tienen ingresos: a) Menores de $ 4 000 b) Menores de $$ 6 800 c) Menores de $ 10 200 d) Menores de $ 14 500 e) Mayores de $ 14 500 f) Entre $ 4 000 y $ 10 200 2-59 Se lleva a cabo una prueba de susceptibilidad a un estímulo fotográfico en 500 suscriptores de la revista Sportfellow. Algunos de los resultados que se obtuvieron se muestran a continuación: 68 puntaje z rango del percentil
Al a) b) c) d)
-2 2
84 -1 16
puntaje de la prueba 100
116
132
148
0 30
1 50
2 98
3 99
inspeccionar esta tabla, es posible decir: ¿Cuál es el valor de n? ¿Por qué? ¿Cuál es la media de los resultados de la prueba? ¿Por qué? ¿Cuál es la mediana de los resultados de la prueba? ¿Por qué? ¿Qué porcentaje de los lectores de la revista obtuvieron un puntaje por debajo de 68?, ¿entre 84 y 116? e) ¿Cuál es la desviación estándar de esta distribución? f) ¿Qué puntajes de la prueba se encuentran a 1.5 desviaciones estándar por encima de la media?
Introducción a la estadística
36 g) ¿Qué puntaje de la prueba se transformará en un puntaje z igual a -1.2? 2-60 En un estudio para determinar la cantidad diaria de basura que se produce en el condado de Nowso, se descubrió que la cantidad promedio de ésta por día y por familia era de 30 libras, mientras que la mediana resultó ser igual a 35 libras por familia. ¿Cuál de las siguientes afirmaciones es verdadera? a) La mitad de las familias en el condado de Nowso producen 30 o más libras de basura al día. b) Más de la mitad de las familias producen 30 o más libras de basura al día. c) Menos de la mitad de las familias producen 30 o más libras de basura al día. 2-61 En un examen muy importante el puntaje z de Phil fue negativo. El afirma que su calificación tiene un rango del percentil de 60. ¿Qué está pasando? 2-62 Si exactamente el 50% de los puntajes de una población son menores de 70, entonces, ¿cuáles de las siguientes cantidades son correctas? (a) PR50 = 70 (b) P50 = 70 (c) PR70 = 50 (d) P70 = 50 2-63 Daniel Kazort es un experto en demoliciones. Es capaz de derribar 75 departamentos en un tiempo promedio de 3.5 semanas por departamento y una desviación estándar de 4 días. Un trabajo difícil requirió cinco semanas. ¿Qué puntaje z deberá tener este trabajo? 2-64 Bess obtuvo una calificación de 87 en un examen de ortografía y 78 en otro de física, a pesar de que el puntaje z para el 87 fue 0 y el correspondiente al 78, dos. Expliqúese cómo puede ocurrir lo anterior y qué significado tiene. En relación con los demás estudiantes, ¿Bess es mejor estudiante de ortografía o de física? TASAS En el capítulo 1 se mencionó que uno de los grandes usos de la estadística era de tipo "descriptivo", al resumir grandes cantidades de datos. En este capítulo se han presentado varias cantidades muy útiles para este propósito. Por ejemplo, la media proporciona la localización del "centro" de los datos; la varianza la variabilidad de éstos. Otra medida descriptiva de la cual se hace un uso extenso en informes estadísticos es la que recibe el nombre de tasa. Las tasas tienen su mayor utilidad en el campo de las estadísticas vitales, las cuales están relacionadas con problemas de la población como el nacimiento (natalidad) muerte (mortalidad) y varios fenómenos de tipo social. Sin lugar a dudas, se han escuchado afirmaciones como "la tasa de nacimientos está disminuyendo", "la tasa de divorcios aumenta todos los años", "la tasa de mortalidad causada por el cáncer pulmonar entre las mujeres aumenta rápidamente", etcétera. Una tasa es, básicamente, una fracción que se expresa en una forma decimal conveniente. Como primer ejemplo, se considerarán tasas de nacimiento. De acuerdo con los datos del gobierno de Estados Unidos, durante el transcurso del año 1980 se registraron 3 598 000 (3.598 millones)
Medidas esttadísticas comu unes
37 de nacimiento os. Durante esse año la pobla ación fue de 22 23 300 000 (22 22.3 millones) perrsonas.* Se dicce que la tasa a de nacimiento os para el año o de 1980 fue de 3.598 3 millones de nacimiento os por 222.3 millones de habitantes. Expresad do como una ffracción ésta es e
3 598 000 222 300 000 Para expresa ar lo anterior co omo una fracció ón decimal, se e efectúa la divissión: 3598000 222 300 000
=0.016
Esta cifra rep presenta la tasa de nacimientos expresada como número o de nacimientos por p habitante. En E general, éstta no es una manera m muy con nveniente para expresar e una ta asa. Lo más co omún es proporcionarla en términos de cada 1 000 (o 100 0 000) habitan ntes. Para logrrar lo anterior,, se multiplica el número n decima al por 1 000 (o por 100 000). P Para el ejemplo o se tiene que .0 16 x 1000 = 1 16. De acuerdo o con lo anterio or, puede afirm marse que la tasa de nacimien ntos correspondien nte al año 1980 0 fue de 16 porr cada mil habitantes. Lo ante erior significa que, en promedio, por cada mil habitantes nacie eron 16. El cálcculo anterior pued de efectuarse e en un sólo paso: Tasa anual de d nacimientoss =
número de e nacimientos durante el año o número de e habitantes du urante el año
Las tasas se s emplean cua ando es natura al referirse a un na población ba ase. Por ejemplo, supóngase qu ue se lleva a cabo c un estudio para determ minar cómo las perrsonas que pro ovienen de dife erentes cultura as se adaptan a la tensión, dado o que se cree q que los resultad dos serían útiles para estudiarr las causas del suicidio s en Esttados Unidos y Finlandia. Supóngase que e en 1979, 1 190 personas p se su uicidaron en Fin nlandia, mientra as que en Esta ados Unidos esta cifra c fue de 27 500 personas. Lo anterior, ¿a afirma que es más m probable que e la gente se suicide, s en may yor cantidad en e Estados Uniidos que en Finlan ndia? La respu uesta es no, da ado que no se ha mencionad do el hecho de que Estados Unidos tiene una a población mayor. Al tomarr en cuenta el núm mero de habita antes se tiene:
Así pues, se tiene: Tasa de suic cidios para el año 1979 en Finlandia = = 25 ssuicidios por cada 100 00 00 habitantes *Esta cifra fue f estimada porr la Oficina del Censo C a mitad de el año, julio 1, 19 980.
Introducción a la estadísttica 38
De los ressultados anterio ores se despre ende el hecho de d que la tasa de suicidios en Fiinlandia es el d doble de la de Estados Unidos. Por lo tanto,, es más común el suicidio en Finlandia que en n Estados Unid dos. En mucchas ocasioness las tasas se obtienen o para la a misma localidad, pero en diferen ntes lapsos. Po or ejemplo, a co ontinuación se muestran las tasas t de nacimientto (por cada 1 000 habitantess) en Estados Unidos durantte varios años.
Al analiizar las tasas a anteriores, se observa o que la a tendencia a disminuir d se detuvo en el año de 19 975 para come enzar a aumenta ar. Estas tende encias se muestran muchas vecess en gráficas co omo la que apa arece en la figu ura 2-1.
En resu umen, para com mprender totalm mente el signifiicado de una ta asa debe conocerse: 1. El pe eriodo de tiemp po al que la tassa hace referen ncia (un año, un mes, etc.) 2. Qué es lo que se e está contando (nacimientos, ( m muertes, etc.). Esto es el nu umerador. 3. El to otal de la pobla ación. Este es el denominador. 4. Las unidades (por cada 1 000 ha abitantes, por ccada 100 000 habitanh tes). A continu uación se prop porcionan algunos ejemplos. 1. La tasa t de matrim monios en Esta ados Unidos p ara el año 198 80 fue de 10.9 por cada 1 000 0 habitantes. Lo L anterior significa que alrede edor de
Medidas estadísticas comunes 39
2.
3.
22 personas de cada 1 000 se casaron. Nótese que la cifra de 1 000 habitantes incluye tanto a niños como a personas que ya se encontraban casadas. La tasa de mortalidad infantil en Estados Unidos para el año de 1980 por cada 1 000 nacimientos fue de 12.5. Lo anterior significa que 13 de cada 1 000 niños murieron antes de cumplir un año de edad. La tasa de mortalidad para personas que tienen entre 15 y 24 años en Estados Unidos para el año de 1979 fue de 118.2. Esto significa que murieron alrededor de118 personas que se encontraban en ese grupo de edad por cada 100 000 habitantes. Esta cifra recibe el nombre de tasa de mortalidad por edad específica.
AYUDAS PARA ESTUDIO VOCABULARIO 1. Media 4. Parámetro 7. Recorrido 9. Varianza 11. Puntaje z 14. Tasa SÍMBOLOS
FÓRMULAS
2. Moda 3. Mediana 5. Estadística 6. Variabilidad 8. Desviación estándar de la población 10. Valor estimado de la desviación estándar 12. Rango del percentil 13. Percentil
Introducción a la estadística 40 EJERCICIOS
2-65 Coward Hossel afirmó, "En 1924 el promedio de bateo de Babe Ruth fue de 378". ¿Qué clase de promedio es el promedio de bateo? 2-66 Un informe del gobierno afirmó que en 1979 la tasa de matrimonios en Estados Unidos fue de 63.6 por cada 1 000 en la clasificación "mujeres solteras de 15 o más de edad", pero fue de 107.9 para la categoría "mujeres solteras entre 15 y 44 años de edad". ¿Qué es lo que significan estas dos tasas? ¿Por qué son tan diferentes? 2-67 Para cada una de las siguientes tasas menciónese: 1) El periodo de tiempo. 2) La población base. 3) Lo que se está contando, a) La tasa de nacimiento en Estados Unidos para el año 1978. b) La tasa de mortalidad en Estados Unidos de las personas con una edad mayor de 65 años durante el año de 1983. c) La tasa de divorcios durante el mes de julio de 1981 en Estados Unidos. d) La tasa de consumo de manzanas en el Jardín del Edén para el año 1. 2-68 Exprésense los siguientes datos como tasas. a) La población de Ciudad Concepción, en junio de 1982, fue de 400 000 habitantes. Durante ese mes nacieron 400 niños. Encuéntrese: 1) La tasa mensual de nacimientos por cada 1 000 habitantes. 2) Estímese la tasa anual de nacimientos por cada 1 000 habitantes (multiplíquese el valor de la tasa mensual por 12). b) En el año 1979, la población de Estados Unidos fue, aproximadamente, de 220 millones de habitantes. Durante ese año contrajeron nupcias 2 359 000 habitantes, hubo 1 170 000 divorcios, 953 100 defunciones atribuibles a enfermedades cardiovasculares, 403 100 decesos por causa del cáncer y 53 990 muertos por accidentes automovilísticos. Exprésense las tasas de matrimonio y divorcio por cada 1 000 habitantes. Exprésense las tasas de mortalidad por cada 100 000 habitantes. c) En la Tierra de la Diversión, todos los días 3 500 personas se suben a los carritos chocadores y diariamente se registran un promedio de 68 000 colisiones. Exprésese la tasa diaria de choques por persona. 2-69 En 1975 se casaron, en Estados Unidos, 2 152 662 parejas, dando como resultado una tasa de 10.1 por cada 1 000 habitantes. En 1976 la cifra fue de 2 154 807 y una tasa de 10.0 por cada 1 000 habitantes. ¿Cómo puede explicarse que la tasa haya disminuido si el número de parejas que contrajeron nupcias aumentó? 2-70 ¿Por qué los siguientes informes están incompletos o no son interpretables? a) La tasa de matrimonios en Estados Unidos es de 45 por cada 1 000 habitantes. b) La tasa anual de descompostura en cierto motor es de 24.2. c) La tasa de mortalidad para la enfermedad A es de 2.4, mientras que para la enfermedad B ésta tiene un valor de 24.0. 2-71 La epidemiología es el estudio de quiénes, en una población, contraen una enfermedad y quiénes no. Se llama a los epidemiólogos cuando existe un brote repentino de cierta enfermedad. Su trabajo consiste en precisar la causa de la enfermedad. Un ejemplo típico lo constituye tratar de localizar qué alimento es la causa de un brote por envenenamiento. En es-
Medidas estadísticas comunes 41
tos casos, una tasa útil es la tasa de ataque a favor y en contra de varios alimentos: Tasa de ataque "favorable" para un alimento
=
número de personas enfermas que ingirieron el alimento número de personas que ingirieron el alimento
Tasa de ataque "no favorable" para un alimento
=
número de personas enfermas que no ingirieron el alimento número de personas que no ingirieron el alimento
La tabla que se muestra más abajo contiene la información que un epidemiólogo recopiló con respecto a un día de campo durante el cual surgió el brote por ingerir alimentos en mal estado. Obsérvense todos los datos y decídase qué alimento es la fuente más probable de la infección. Calcúlense las diferentes tasas de ataque para confirmar su intuición. personas que
personas que no
alimento jamón enlatado
29
17
46
17
12
29
espinacas puré de papas ensalada de col gelatina rollos pan leche café agua pastel helado de vainilla helado de chocolate ensalada de frutas
26 23 18 16 21 18 2 19 13 27 43 25 4
17 14 10 7 16 9 2 12 11 13 11 22 2
43 37 28 23 37 27 4 31 24 40 54 47 6
20 23 28 30 25 28 44 27 33 19 3 21 42
12 15 19 22 13 20 27 17 18 16 18 7 27
32 38 47 52 38 48 71 44 51 35 21 28 69
EJERCICIOS RELACIONADOS CON LA ENCUESTA 1 a) Encuéntrese la media, mediana y moda de las edades de sus compañeros de clase. b) ¿Es correcto pensar que la edad promedio de sus compañeros sea una buena estimación de la edad promedio de la escuela? ¿Por qué sí o por qué no? 2 a) Encuéntrese el recorrido y la desviación estándar de las alturas de todos sus compañeros que fuman. b) Encuéntrese el recorrido y la desviación estándar de las alturas de todos sus compañeros que no fuman. c) ¿Qué grupo tiene la mayor variabilidad? d) Encuéntrese el puntaje z y el rango del percentil para su altura de acuerdo con el grupo al que pertenece.
Tablas y gráficas de frecuencias ORGANIZACIÓN DE LOS DATOS: TABLAS DE FRECUENCIAS En general, cuando se ordena una colección de datos estadísticos éstos deben agruparse en una forma conveniente antes de obtener información útil de ellos. Probablemente la manera más común de organizar los datos es la de combinar los puntajes originales en algunas categorías y, entonces, hacer un resumen de este agrupamiento en una pequeña tabla. Lo anterior se ilustra con el siguiente ejemplo. EJEMPLO 3-1
George Stephen, un famoso matemático, espera todos los días a las ocho de la mañana el autobús que lo conducirá a su trabajo. Cierta mañana decide llevar un registro diario del tiempo que tarda el autobús en pasar. A continuación se muestra el resultado de sus observaciones durante los pasados 30 días.
a) Para organizar los datos, primero se ordenan éstos de menor a mayor. minutos de espera 1 1 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 5 5 5 5 5 6 6 6 7 7 9 10 10
Tablas y gráficas de frecuencias 43
b)
Entonces se condensan les datos en una tabla de frecuencias. Para lograr lo anterior, primero debe decidirse el tamaño de cada categoría. Si, para los datos anteriores, se decide que cada categoría será de un minuto, entonces se obtiene la tabla de frecuencias que se muestra en la tabla 3-1. La frecuencia de un resultado es igual al número de veces que éste ocurre.
La tabla anterior permite dar respuestas a ciertas preguntas sencillas. Por ejemplo: a)
¿Qué porcentaje de los tiempos de espera fue mayor de cinco minutos? Respuesta Se suman las frecuencias de todos los tiempos de espera que son mayores de cinco minutos y el resultado se divide entre 30:
Es decir, aproximadamente el 27% de los tiempos de espera fueron mayores de cinco minutos. b)
¿Cuál fue el tiempo de espera más común?, Es decir, encuéntrese la moda de la distribución de tiempos de espera. Respuesta Véase en la tabla qué tiempo tiene la mayor frecuencia. Esta corresponde a tres minutos ya que este tiempo fue el que ocurrió el mayor número de veces. HISTOGRAMAS Y GRÁFICAS DE BARRAS La mayor parte de las veces es una buena idea presentar una gráfica de los datos. Lo anterior proporciona forma a éstos y hace muy clara la existencia de ciertos patrones y tendencias en ellos. La gráfica más sencilla es la gráfica de barras. Una tabla de frecuencias se puede trasladar, en forma directa, en una gráfica de barras, colocando sobre el eje horizontal marcas de acuerdo con las frecuencias correspondientes. De esta forma, cada renglón de la tabla de frecuencias se convierte en una barra de la gráfica. Para los datos que se encuentran en la tabla 3-1, se obtiene la gráfica
Introducción a la estadística 44
de barras que se muestra en la figura 3-1. De ésta resulta un hecho muy claro: que, por ejemplo, el tiempo de espera más común es de tres minutos. Muy relacionado con la gráfica de barras es el histograma. Este es una gráfica de barras en donde se permite que éstas se junten y después se borren las líneas verticales interiores. Si falta una barra se considera que ésta se encuentra en ese sitio y que su altura es cero. En la figura 3-2 se muestra el histograma que se obtiene a partir de la gráfica de barras de la figura 3-1. Este tipo de gráficas tiene sentido cuando el eje horizontal describe algún tipo de cantidad que es creciente, como la del ejemplo anterior, en donde es posible colocar las categorías en un orden numérico natural. El histograma no tiene mucho sentido cuando los grupos no tienen un orden numérico natural. Por ejemplo, si en una peluquería para damas se cuen-
Tablas y gráficas de frecuencias 45
ta, durante una semana, el número de personas que tiene el color de cabello negro, café, rubio y pelirrojo, entonces puede obtenerse una gráfica de barras como la que se muestra en la figura 3-3. No resulta muy útil unir estas barras para formar un histograma. No existe ningún orden lógico, sólo nombres de colores, que permita ordenar las categorías. En este caso, es mejor utilizar únicamente la gráfica de barras. Resulta útil aprender algo del vocabulario específico que se utiliza para describir histogramas.
1. El límite es el valor sobre el eje horizontal en donde dos barras de un histograma coinciden; por ejemplo, George Stephen midió los tiempos de espera redondeando las mediciones al minuto más cercano. De tal manera que los tiempos de espera que él informó como de tres minutos, en realidad pueden variar entre 2.5 y 3.5 minutos. De acuerdo con lo anterior, 2.5 y 3.5 son los límites para esa categoría. Por lo general, un histograma muestra los valores de los límites. En la figura 3-4 se muestra el histograma de la figura 3-2 que indica los valores de los límites.
2.
La porción del eje horizontal que se encuentra entre dos límites consecutivos recibe el nombre de intervalo. Por ejemplo, la porción que se encuentra entre 0.5 y 1.5 es el intervalo de 0.5 a 1.5.
Introducción a la estadística 46
3.
EJEMPLO 3-2
Cuando se sustrae el límite inferior de un intervalo del límite superior correspondiente, el resultado se conoce como amplitud del intervalo. Por ejemplo, la amplitud del intervalo de 0.5 a 1.5 es 1.5 – 0.5 = 1. Nótese que todos los intervalos que se encuentran en un histograma tienen la misma amplitud. El valor de la amplitud de los intervalos en un histograma es decisión de quien está dibujando la gráfica. La amplitud puede ser pequeña o grande y lo anterior depende del propósito de la gráfica. Por ejemplo, George Stephen quizá podría haber medido el tiempo hasta la mitad de minuto más próximo en lugar de hacerlo al minuto más próximo y haber escogido intervalos de amplitud 0.5. Por otro lado, quizá sólo podría haber estado interesado en tiempos cercanos a dos minutos y de esta forma la amplitud de los intervalos hubiese sido de dos.
Un experimento consiste en lanzar una moneda de plata de 20 dólares y contar el número de caras. Se efectúa este experimento 30 veces. Los resultados se muestran en la tabla 3-2, y la gráfica de barras en la figura 3-5. Dibújese el histograma correspondiente a estos datos. Tabla 3-2
número de caras con 20 lanzamientos
número de experimentos
15
2
14 13 12 11 10 9 8 7 6 5 4 3
1 3 0 4 5 7 3 2 2 0 0 1
número total de experimentos = 30
SOLUCIÓN
El histograma se forma al unir las barras y al encontrar los límites de cada intervalo. En la figura 3-6 se muestra el resultado. ¿Cuál es el efecto de una gráfica de este tipo? Proporciona la impresión de que el número de caras que aparecen es una cantidad que aumenta en forma continua. Sugiere, por ejemplo, que en los siete experimentos representados por el intervalo de 8.5 a 9.5. el número de caras puede ser cualquier número entre 8.5 y 9.5 cuando de hecho sólo puede haber, en forma exacta, 9. Por otro lado, la gráfica proporciona una imagen precisa de los resultados del experimento y de la frecuencia de éstos. Por ejemplo, puede observarse de manera muy clara que el resultado que ocurrió un número de veces mayor, 9, fue cara. También puede observarse que ningún experimento arrojó como resultado 12 caras. En otras palabras, se
Tablas y gráficas de frecuencias 47
conserva la forma básica de la distribución. En los capítulos 5 y 7 se verá que resulta de gran utilidad graficar, mediante el empleo de histogramas, algunas cantidades no continuas que servirán para dar respuestas a preguntas que surgen con respecto a áreas, ya que éstas serán más fáciles de contestar si se tiene una gráfica continua que una de barras separadas. Siempre que se tengan en mente las clases de datos que se manejan, no surgirán confusiones. Considérese, de nuevo, el experimento de lanzar una moneda. Veremos cómo dibujar un histograma para estos datos. Primero, deben tomarse dos decisiones: 1) ¿Cuál deberá ser la amplitud de los intervalos? 2) ¿En dónde deberá colocarse el intervalo más bajo? No existen reglas fijas para dar respuesta a las preguntas anteriores. Éstas dependen de la persona que dibuja la gráfica. Es posible que alguien trate de graficar los mismos datos en histogramas de diferente amplitud con el propósito de observar el efecto. Por lo general, si los intervalos son muy grandes, se tendrá una gran concentración de datos y por lo tanto las tendencias de éstos serán
Introducción a la estadística 48 Figura 3-3
número de caras en 20 lanzamientos
número de experimentos
límites 14.5 a 17.5
frecuencia (número de experimentos)
15
2
2
14 13 12
1 3 0
11.5 a 14.5
4
11 10 9
4 5 7
8.5 a 11.5
16
8 7 6
3 2 2
5.5 a 8.5
7
5 4 3
0 0 1
2.5 a 5.5
1
difíciles de observar. Supóngase que para los datos del experimento de lanzar una moneda se decide utilizar una amplitud de 3 y que el intervalo más bajo comenzará con un límite igual a 2.5. Los datos pueden tabularse como se muestra en la tabla 3-3. El histograma correspondiente a estos datos se muestra en la figura 3-7.
Puede observarse que este histograma es similar al de la figura 3-6, pero es más fácil de entender, pues muestra claramente la idea de que en este experimento la mayor parte de las veces se obtienen alrededor de 10 caras y que este resultado se convierte en más y más raro conforme aumenta el número de caras.
Tablas y gráficas de frecuencias
49 LECTURA DE HISTOGRAMAS ¿Qué información contiene un histograma? Nótese que el porcentaje correspondiente al área de la gráfica que se encuentra por encima de un intervalo en particular es igual al porcentaje de resultados que se encuentran en el intervalo. A continuación se verá por qué lo anterior es así. En la figura 3-8 aparece el histograma de la figura 3-7, al cual se le ha añadido algunas líneas tanto verticales como horizontales con el propósito de mostrar cómo se encuentran representados cada uno de los 30 resultados por un área igual. Lo anterior constituye la idea clave detrás de los histogramas: cada resultado se encuentra representado por un área igual.
Obsérvese, por ejemplo, que existen 16 secciones de igual tamaño en el tercer intervalo. Esto corresponde a la frecuencia de 16 en la tabla 3-3. A continuación se da respuesta a algunas preguntas específicas con el propósito de ilustrar los principios incluidos. 1.
¿En qué porcentaje de los experimentos se obtuvo un resultado de entre 3 y 5 caras? Respuesta De las últimas dos columnas de la tabla 3-3 se observa que la frecuencia para estos resultados es igual a 1. El número total de resultados es 30. Por lo tanto, el porcentaje de resultados en este intervalo es 1/30 = .0333 = 3.33 %.
2.
¿Qué porcentaje del área del histograma corresponde a los experimentos en donde el resultado fue entre 3 y 5 caras? Respuesta Puede observarse que el área por encima de este intervalo es igual a una unidad. El número total de unidades de área en la gráfica es de 30. Por lo tanto, el porcentaje de área en la gráfica por encima de este intervalo es 1/30 = .0333 = 3.33 %.
Introducción a la estadística 50
De lo anterior debe notarse que, siempre que se trate de porcentajes de resultados, la tabla y la gráfica contienen la misma información. En el siguiente capítulo se verá que los porcentajes de los resultados son muy importantes en el análisis de las ideas básicas de la probabilidad. Esto significa a su vez que es posible echar mano de las gráficas y de los porcentajes de área sobre distintos intervalos para contestar preguntas con respecto a la probabilidad. Además, ésta es una gran herramienta de la estadística ya que muchas preguntas, en apariencia diferentes, llevan a gráficas de la misma forma. Así que una vez que se conoce cómo medir los porcentajes de área sobre los intervalos de la gráfica, entonces se será capaz de dar respuesta a cuestiones de tipo estadístico. Lo que resta de este capítulo es mostrar cómo puede relacionarse lo que se conoce con respecto a los porcentajes de área sobre distintos intervalos, con el perfil de la gráfica.
RANGO DEL PERCENTIL, PUNTAJES z Y GRÁFICAS En distribuciones diferentes, el mismo puntaje z puede asociarse con diferentes rangos de percentiles. Lo anterior se debe a que las distribuciones poseen diferentes perfiles. Por ejemplo, en una distribución en particular de las edades de los estudiantes de preparatoria, 21 años pueden corresponder a z = 1 y tener un rango del percentil igual a 60, mientras que en una distribución de ingresos, $12 000 también puede corresponder a z = 1, pero tiene un rango del percentil igual a 75. Si se conoce qué rangos de los percentiles corresponden a los puntajes z en los límites de los intervalos, entonces es posible dibujar el histograma. Con los siguientes ejemplos se demostrará la relación que existe entre los puntajes z, los rangos de los percentiles y el área. EJEMPLO 3-3
SOLUCIÓN
Dibújese el histograma correspondiente a los siguientes datos. puntaje z
rango percentil
2
100
1 0 -1 -2
70 30 20 0
Dado que los puntajes z de 0 y 1 tienen rangos de los percentiles 30 y 70, respectivamente, el 40% de la distribución debe encontrarse entre z = 0 y z = 1. Para dibujar el histograma, se necesita conocer el área correspondiente a cada intervalo. Como ya se ha mencionado, el área de un intervalo se obtiene al restar los rangos de los percentiles de sus límites. limites 1a 2 0a 1 -1a 0 - 2 a -1
porcentaje de área 100 70 30 20
- 70 = 30 - 30 = 40 - 20 = 10 0 = 20
Tablas y gráficas de frecuencias . 51
Con la información anterior, se dibuja el histograma (Fig. 3-9).
Si se tienen nueve puntajes z en lugar de cinco, entonces puede dibujarse un histograma más exacto, como se indica en el siguiente ejemplo.
EJEMPLO 3-4
Dibújese un histograma similar al que se obtuvo en el ejemplo 3-3, si se tienen los siguientes nueve puntajes z así como sus correspondientes rangos de los percentiles. puntaje z
SOLUCIÓN
rango percentil
2
100
1.5 1 0.5 0 - 0.5 -1 -1.5 -2
90 70 55 30
25 20 5 0
Al igual que en el ejemplo anterior, se encuentran los porcentajes de área correspondientes a cada intervalo. límites 1.5 a 2 1 0.5 0 - 0. 5 -1 - 1.5 -2
a a a a a a a
1.5 1 0.5 0 -0.5 -1 -1.5
porcentaje de área 10 20 15 25 5 5 15 5
Introducción a la estadística 52
El histograma correspondiente a estos datos se muestra en la figura 3-10.
Si se tienen 100 puntajes z, entonces es posible tener un histograma con 99 intervalos. Este histograma sería difícil de dibujar y la mayor parte de las veces se aproxima mediante el empleo de una curva, como se muestra en la figura 3-11.
AYUDAS PARA ESTUDIO VOCABULARIO 1. Tabla de frecuencias 3. Histograma 5. Intervalo 7. Frecuencia
2. Gráfica de barras 4. Límite 6. Amplitud del intervalo
Tablas y gráficas de frecuencias 53 EJERCICIOS 3-1 El siguiente histograma fue el resultado de un estudio realizado en una escuela de mecánica automotriz, sobre el tiempo de reparación de un motor.
a) ¿Cuántas reparaciones se incluyeron en este estudio? b) ¿Cuántas reparaciones se terminaron en un tiempo mayor de 11.5 horas? ¿Qué porcentaje de las reparaciones se hicieron en un tiempo mayor de 11.5 horas? c) ¿Qué porcentaje de las reparaciones se terminaron en un periodo de tiempo de entre 7.5 y 11.5 horas? 3-2 Para el histograma mostrado a continuación, contéstense las siguientes preguntas.
a) Encuéntrese el número de personas representadas en cada intervalo y el total de éstas representadas en la gráfica. b) Encuéntrese el porcentaje de personas correspondientes a cada intervalo. c) Encuéntrese el porcentaje del área de la gráfica que se encuentra en el espacio sobre cada intervalo y verifíquese que el total de éstos es igual a 100%.
Introducción a la estadística 54
3-3 A continuación se muestran las edades de los Presidentes de Estados Unidos cuando éstos tomaron posesión de su cargo, desde Washington hasta Reagan. nombre (partido) 1. Washington (F) 2. J. Adams (F) 3. Jefferson (DR) 4. Madison (DR) 5. Monroe (DR) 6. J. Q. Adams (DR) 7. Jackson (D) 8. Van Burén (D) 9. W. H. Harrison (W) 10. Tyler(W) 11. Polk(D) 12. Taylor(W) 13. Fillmore(W) 14. Pierce (D) 15. Buchanan (D) 16. Lincoln (R) 17. A. Johnson (U) 18. Grant(R) 19. Hayes(R) 20. Garfield (R) 21. Arthur (R) 22. Cleveland (D) 23. B. Harrison (R) 24. Cleveland (D) 25. McKinley(R) 26. T. Roosevelt (R) 27. Taft (R) 28. Wilson (D) 29. Harding (R) 30. Coolidge (R) 31. Hoover (R) 32. F. D. Roosevelt (D) 33. Truman (D) 34. Eisenhower (R) 35. Kennedy (D) 36. L. B. Johnson (D) 37. Nixon (R) 38. Ford (R) 39. Cárter (D) 40. Reagan (R)
edad 57 61 57 57 58 57 61 54 68 51 49 64 50 48 65 52 56 46 54 49 50 47 55 55 54 42 51 56 55 51 54 51 60 62 43 55 56 61 52 68
a) Constrúyase una tabla de frecuencias para las edades y dibújese el correspondiente histograma. Empléense categorías de cinco años comenzando en una edad de 40 años. (La primera categoría es 40-44.) b) Calcúlese el promedio y la mediana de las edades.
Tablas y gráficas de frecuencias 55
c) ¿Qué porcentaje de los Presidentes tenía 50 años cuando tomaron posesión del cargo? 3-4 A continuación se muestran los porcentajes de la población de Estados Unidos, en diferentes años, en distintas categorías de edades. año
edad menos de 5
5-19
20-44
1860
15.4
35.8
35.7
45-64 más de 65 10.4
2.7
1870 1880 1890 1900 1910 1920 1930 1940 1950 1960 1970
14.3 13.8 12.2 12.1 11.6 11.0 9.3 8.0 10.7 11.3 8.4
35.4 34.3 33.9 32.3 30.4 29.8 29.5 26.4 23.2 27.1 29.4
35.4 35.9 36.9 37.8 39.1 38.4 38.3 38.9 37.7 32.4 31.7
11.9 12.6 13.1 13.7 14.6 16.1 17.5 19.8 20.3 20.0 20.6
3.0 3.4 3.9 4.1 4.3 4.7 5.4 6.9 8.1 9.2 9.9
a) Mediante el empleo de estas categorías, constrúyase una gráfica de barras para los datos a partir del año 1870. Descríbase con pocas palabras lo que está pasando. b) Nótese que las categorías no tienen la misma amplitud. Lo anterior hace difícil dibujar un histograma. ¿Por qué se escogieron estas categorías? 3-5 Dibújese un histograma para las siguientes clasificaciones de eficiencia en el trabajo. intervalo 10 9 8 7 6 5 4 3 2 1 0
límites
frecuencia
9.5 a 10.5 8.5 a 7.5 a 6.5 a 5.5 a 4.5 a 3.5 a 2.5 a 1.5 a .5 a -.5 a
9.5 8.5 7.5 6.5 5.5 4.5 3.5 2.5 1.5 .5
7 16 15 36 99 150 216 304 401 197 253
3-6 Para los datos del ejercicio anterior, calcúlese la frecuencia de cada intervalo y dibújese el histograma. intervalo 9a 6a 3a 0a
11 8 5 2
límites 8.5 a 5.5 a 2.5 a -.5 a
frecuencia
11.5 8.5 5.5 2.5
3-7 A continuación se muestran los salarios por temporada de hace algunos años, para los 26 equipos de la liga mayor de béisbol. Constrúyase
Introducción a la estadística 56 una tabla de frecuencia y dibújese un histograma para estos datos, comenzando en un límite inferior de $50 000 y utilizando intervalos de amplitud a) $25 000 y b) $40 000 ¿Qué agrupamiento se prefiere más? ¿Por qué? equipo N.Y. Yankees Philadelphia Pittsburgh California Boston Los Angeles Houston St. Louis Cincinnati Chicago Cubs Milwaukee Montreal Texas San Francisco Atlanta San Diego Cleveland N.Y. Mets Baltimore Kansas City Detroit Seattle Minnesota Chicago White Sox Toronto Oakland
salario promedio $242 937 221 274 199 185 191 014 184 686 183124 176 720 173 480 162 655 160 209 159 086 158196 148 792 148 265 147 989 138 978 127 505 126 448 116 156 100 453 86 998 82 244 80 538 72 415 67 218 54 994
3-8 A continuación se muestra una tabla en donde aparecen los montos de los gastos de una compañía de inversiones durante tres años consecutivos. Se desea comparar los montos con el propósito de descubrir si existe algún patrón. Todas las cantidades se proporcionan en miles de dólares. gastos gastos de la gerencia servicios proporcionados a los accionistas imprenta correo gastos de los profesionistas renta gastos de registro mantenimiento de equipo gastos de seguridad gastos de los directores impuestos estatales y locales Total
año 1
año 2
año 3
1147
3086
7478
639 45 38 78 148 75 72 38 13 11
1541 167 119 65 156 195 102 101 21 8
2702 506 419 325 307 261 151 138 40 7
2304
5561
12,334
Tablas y gráficas de frecuencias
57 a) Para el primer año, dibújese una gráfica de barras correspondiente a las cantidades de dólares gastadas en cada categoría. b) Para el primer año, efectúese la conversión de cantidades de dólares a "fracciones del gasto total". (Por ejemplo, gastos de la gerencia =
= .50.) Dibújese una gráfica
de barras utilizando para ello las fracciones con el propósito de determinar las alturas de las barras. Compárense las gráficas de barras de las partes a) y b). c) Para los años 2 y 3, conviértanse los gastos a fracciones del gasto total. Entonces, dibújense las gráficas de barras correspondientes a los años 2 y 3. d) Compárense las gráficas correspondientes a los años 1, 2, y 3. ¿Pueden observarse algunas tendencias interesantes en los gastos de la compañía? 3-9 A continuación se muestran algunas cifras sobre la distribución del ingreso que proporciona el gobierno de Estados Unidos de algunos años a la fecha. Las frecuencias cuentan con lo que el gobierno denomina unidades STATS y que se emplean con el propósito de estimar los ingresos por la vía de impuestos. Estas son unidades financieras interdependientes (como familias, personas solteras que viven solas, grupos de personas que viven juntas y que no tienen ningún parentesco entre sí). Estos datos proporcionan una ligera idea de los ingresos familiares. ingresos
porcentaje de familias
sin ingresos
25.1
1- 999 1000- 1499 1500- 1999 2000- 2499 2500- 2999 3000- 3499 3500- 3999 4000- 4999 5000- 5999 6000- 6999 7000- 7999 8000- 9999 10 000- 14 999 15 000-24 999 25 000 o más
5.0 1.9 2.2 1.7 1.7 1.5 1.9 3.0 3.6 4.0 3.9 7.4 16.9 15.8 4.5
$
a) Reagrúpese la tabla anterior mediante el empleo de las siguientes categorías. 04999 50009999 10 000- 14 999 15 000- 24 999 25 000 o más
Introducción a la estadística 58 b) Dibújese la gráfica de barras correspondiente a la parte a). Nótese que las
barras no cubren a todas las categorías con la misma amplitud. c) ¿Qué porcentaje de familias tienen un ingreso menor de $5000? ¿Entre $10 000 y $25 000? d) En forma aproximada, ¿cuál es la mediana de los ingresos? 3-10 Un experimento consiste en lanzar un dado seis veces. Este experimento se repite en 20 ocasiones y se observa el número de veces, en cada experimento, en el que aparece un 2. Los resultados se tabulan colocando una marca después del sexto lanzamiento del dado.
a) Dibújese un histograma para los datos que aparecen en la tabla. b) ¿Cuál es el número promedio de veces en el que apareció el 2? 3-11 a) Láncese una moneda cinco veces y cuéntese el número de ocasiones en las que el resultado es un "sello". Repítase este experimento 15 veces. Llévese un registro de los datos en una tabla como la que se muestra más abajo y dibújese un histograma. Colóquese una marca después de cada cinco lanzamientos de la moneda. número de "sellos"
marca
frecuencia
5 4 3 2 1 0 15
b) ¿Cuál es el número promedio de "sellos" que ocurren cada cinco lanzamientos? 3-12 ¿Qué impresión puede crearse si se alarga o se acorta la escala correspondiente a los números que se encuentran en el eje vertical de una gráfica de barras? ¿Qué pasaría si no se comienza con un valor igual a cero? Supóngase que se comparan los volúmenes de ventas de tres marcas de reproductores de casetes. A continuación se proporcionan los datos.
Tablas y gráficas de frecuencias
59 marca
ventas durante el último año
Nipco Sanyaha Monimo
30 000 unidades 25 000 unidades 15 000 unidades
a) Dibújense las correspondientes gráficas de barras para estos datos mediante el empleo de las tres siguientes escalas verticales diferentes.
b) Descríbanse los diferentes efectos globales de cada una de las tres gráficas. ¿Qué gráfica se prefiere más? ¿Por qué? ¿Qué gráfica preferiría alguien que trabajase para Monimo? ¿Por qué? 3-13 El histograma que se muestra a continuación es simétrico. Los datos representan las alturas de los niños que asisten a la escuela Únele Don's Nursery. Algunos de los puntajes z y rangos de los percentiles se encuentran relacionados de la siguiente manera.
¿Qué porcentaje del área de la gráfica se encuentra: a) a la izquierda del 0? b) a la izquierda del 1? c) a la izquierda del –1? d) a la derecha del 2? e) a la derecha del –2? f) entre 0 y 3? g) entre 0 y 2? h) entre –2 y 0? i) entre –1 y 1? j) entre –2 y 2?
Introducción a la estadística 60
3-14 Los siguientes datos describen la distribución de calificaciones en la clase de buceo.
Dese respuesta a las partes a) hasta j) del ejercicio anterior. 3-15 Los siguientes datos representan la distribución de salarios de los empleados de un supermercado. puntaje z
rango percentil
3
100
2 1 0 -1 -2 -3
85 45 35 30 10 0
a) Para los datos proporcionados, ¿qué porcentaje de los salarios se encuentra entre z - 1 y z = 2? b) Con base en estos datos, ¿qué porcentaje del área del histograma basado en esos datos se encontrará entre z = 1 y z = 2? c) Complétese la siguiente tabla.
Tablas y gráficas de frecuencias 61
d) Dibújese el histograma. 3-16 Los datos que a continuación se proporcionan son las calificaciones de una prueba de un curso de pre-enfermería. Constrúyase una tabla de límites y porcentajes de área, y dibújese el histograma correspondiente.
3-17 Los datos que aparecen a continuación representan la cantidad de dinero ganada en una noche al apostar a las carreras. Constrúyase una tabla de límites y porcentajes de área y dibújese el histograma correspondiente. puntaje z
rango percentil
3
100
2 1 0 -1
90 60 40 0
EJERCICIOS RELACIONADOS CON LA ENCUESTA 1 Dibújense tres histogramas para las alturas de los hombres. La gráfica 1 tiene intervalos de una amplitud igual a 1 in; la gráfica 2 tiene intervalos de una amplitud igual a 2 in y la gráfica tres, intervalos de 3 in. Iníciense todas las gráficas con el mismo valor de altura. 2 De las tres gráficas, ¿cuál es la que más se prefiere? ¿Por qué? 3 Dibújese un histograma para las alturas de las mujeres utilizando para ello intervalos de amplitud igual a los mencionados en la parte 1. 4 Compárense los dos histogramas de las partes 2 y 3 formúlese un comentario con respecto a cualquier diferencia.
Probabilidad La probabilidad de obtener un corazón de una baraja es 1/4. La probabilidad de obtener una cara al lanzar una moneda es 1/2. El servicio meteorológico anuncia que la probabilidad de que mañana llueva es de un 40%. ¿Qué significado tiene la palabra probabilidad? Si se lanza una moneda dos veces, ¿se obtendrá, de manera exacta, una cara? Si la misma moneda se lanza 10 veces, ¿se obtendrán exactamente cinco caras? Si se lanza sólo una vez, ¿el resultado será la mitad de una cara? Un porcentaje de 40 para la posibilidad de que llueva el día de mañana, ¿significa que lloverá el 40% del día? o que ¿casi lloverá mañana? En general, la probabilidad se interpreta haciendo referencia a un número muy grande de ensayos. La probabilidad de obtener una cara al lanzar una moneda es 1/2. Lo anterior significa que, para un número muy grande de ensayos, se espera que el resultado de éstos sea, la mitad de las veces, cara. La probabilidad de que el día de mañana llueva es de un 40%. Lo anterior significa que de un número muy grande de días para los cuales las condiciones climáticas fueron parecidas a las de hoy, el 40% de las veces llovió al día siguiente. Considérese el siguiente ejemplo. En una fiesta, Peter Parapsych afirmó tener poderes de percepción extrasensorial (PES). Para probar su afirmación, se colocaron en una caja seis caramelos; dos de fresa y cuatro de naranja. Los caramelos se mezclaron entre sí y se pidió a Peter, que estaba vendado, extrajera un caramelo de fresa, y así lo hizo. ¿Significa este hecho que Peter posee
Probabilidad
63 PES? ¿Cuáles son las posibilidades de extraer un caramelo de fresa sólo por suerte? En este experimento existen seis resultados igualmente probables, ya que es posible seleccionar cualquiera de los seis caramelos. De estos resultados, sólo dos favorecen a Peter. De esta forma, se dice que la probabilidad de seleccionar un caramelo por suerte es de dos oportunidades entre seis; es decir, la probabilidad es igual a 2/6 o 1/3. Lo anterior no implica el hecho de que se extraiga un caramelo de fresa en uno de cada tres intentos sino, más bien, que después de efectuar un número muy grande de experimentos se espera que la tercera parte de éstos den como resultado, sólo por suerte, la extracción de un caramelo de fresa. Por lo tanto no debe creerse en la afirmación de Peter a menos que, después de gran número de experimentos, él extraiga caramelos de fresa, en una proporción mayor a la tercera parte de los experimentos. DEFINICIÓN DE PROBABILIDAD Cuando todos los posibles resultados de un experimento son igualmente probables, entonces se define la probabilidad de un evento o resultado de la siguiente manera. La probabilidad de un evento es el cociente del número de resultados favorables del experimento entre el número total de resultados posibles. FÓRMULA PARA CALCULAR LA PROBABILIDAD La fórmula para calcular la probabilidad de un evento es P (evento) = en donde F es el número de resultados favorables y T el número total de resultados. En otras palabras, la fracción de la población que forma parte del suceso es igual a la probabilidad de éste. En el ejemplo anterior, P (selecciónese un caramelo de fresa) = 2/6 = 1/3 La idea de probabilidad se encuentra relacionada con la de aleatoriedad. Por ejemplo, cuando una persona juega a las cartas, primero se asegura de que las cartas estén bien barajadas. ¿Por qué? Para garantizar que ninguna carta o cartas tengan un lugar especial en la baraja y asegurar que cada carta tiene la misma oportunidad de encontrarse en cualquier lugar de la baraja. El profesional de la estadística afirma que el hecho de que las cartas se barajen asegura que éstas se arreglen aleatoriamente o que se encuentren en un orden aleatorio. Cuando se extrae un objeto (o número) aleatoriamente de una población, entonces este objeto tiene la misma oportunidad que cualquier otro de ser extraído, es decir, no tiene ninguna posición privilegiada en la población ni sobre cualquier otro miembro de ésta.
Introducción a la estadística 64 EJEMPLOS DE CÁLCULOS DE PROBABILIDAD EJEMPLO 4-1
Si se lanza una moneda existen dos resultados posibles, cara o "sello". Estos dos resultados son igualmente probables. La probabilidad de obtener una cara se escribe como P(cara) = 1/2 = 0.5
EJEMPLO 4-2
Una ruleta tiene inscritos los números del 1 al 20, encontrándose éstos igualmente espaciados. Se le da vueltas y después se detiene, en forma adelatoria, en alguno de los números. a) La probabilidad de que se detenga en el número 14 es 1/20 (o .05) debido a que: 1) Se tienen 20 números, y 2) uno de ellos es el número 14. b) La probabilidad de que se detenga en un número par es 10/20 (o .5) debido a que: 1) Se tienen 20 números, y 2) diez de ellos son pares. c) La probabilidad de que se detenga en el número 15 o en otro más grande es 6/20 (o .3) debido a que: 1) Se tienen 20 números, y 2) seis números son iguales o mayores que 15 (15, 16, 17, 18,19, 20)
EJEMPLO 4-3
Si se tira un dado, entonces se tienen seis posibles resultados. Si se representa con X el valor de un resultado, se tiene que P (el resultado es 3) = P(X = 3) = 1/6 P (el resultado es par) = P(X es par) = 3/6 = 1/2 P (el resultado es mayor de 4) = P(X > 4) = 2/6 = 1/3
EJEMPLO 4-4
En el centro de la ciudad de Juvena, el 40% de la población tiene una edad de 25 años o menos; el otro 60% tiene una edad mayor. Si se extrae de esta población una persona, la probabilidad de que ésta tenga 25 años o menos de edad es 0.40, cifra que corresponde a la fracción de la población que corresponde a las personas que tienen esa edad. La fracción de probabilidad F/T siempre tiene un valor que se encuentra entre cero y uno. Si un resultado es imposible, su probabilidad es cero. De esta forma, la probabilidad de obtener un 13 al tirar dos dados es cero. Si es seguro que ocurra un resultado, entonces su probabilidad es igual a uno. De esta forma, si se extraen de una baraja cinco cartas, entonces la probabilidad de que por lo menos dos pertenezcan al mismo palo es uno. Si la probabilidad de que un estudiante apruebe un curso es 0.9; entonces la probabilidad de que no lo haga es 0.1. En general si p es la probabili-
Probabilidad 65
dad de que ocurra un suceso y q la probabilidad de que éste no ocurra entonces p + q = 1
o q = 1 — p
Considérese una ruleta en la cual se han marcado, a intervalos regulares, los números 1 a 36. Denótese con X el número en el que se detiene la ruleta. S i p = P(X < 13), entonces q = P(X ≥ 13). Dado que p = 12/36 = 1/3, entonces q = 1 –1/3 = 2/3. Nótese que el valor de q puede calcularse de manera directa: q = 24/36 = 2/3.
EJEMPLO 4-5
Se lanza una moneda dos veces. ¿Cuál es la probabilidad de obtener dos "sellos"?
SOLUCIÓN
Si en el primer lanzamiento se obtiene una cara, el segundo puede dar como resultado cara o "sello". De manera similar, si en el primer lanzamiento se obtiene un "sello", entonces el segundo puede dar como resultado cara o "sello". Dado que en cada lanzamiento se tienen dos posibles resultados, entonces existen 2 x 2 o 4 resultados igualmente probables para los dos lanzamientos. resultado 1 2 3 4
primer lanzamiento, segundo lanzamiento cara, cara cara, "sello" "sello", cara "sello", "sello"
Únicamente el último de los 4 resultados posibles es favorable. Por lo tanto, P(dos "sellos") = 1/4.
EJEMPLO 4-6
Se lanza una moneda una vez y un dado dos veces. Lístense todos los posibles resultados.
SOLUCIÓN
Dado que la moneda puede dar dos resultados posibles y el dado seis, existen 2 x 6 = 12 resultados que son H1, H2, H3, H4, H5, H6, T1, T2, T3, T4, T5, T6.*
EJEMPLO 4-7
Encuéntrense, para el ejemplo 4-6, las probabilidades correspondientes a los siguientes resultados. a) Obtener una cara y tirar un número par. b) Obtener una cara o tirar un número par. c) Obtener una cara y tirar un 5. d) Obtener una cara o tirar un 5. e) Tirar ya sea un 4 o un 6. g) Obtener una cara o tirar un 7. f) Tirar un 4 y un 6. h) Obtener una cara y tirar un 7. * Nota: A lo largo de la obra H denotará cara y T denotará sello.
Introducción a la estadística 66
SOLUCIÓN
a) Existen tres resultados favorables, H2, H4, H6. La respuesta es 3/12 o 1/4. b) Existen nueve resultados favorables, H1, H2, H3, H4, H5, H6, T2, T4, T6. La respuesta es 9/12 = 3/4. c) Existe un resultado favorable, H5. La respuesta es 1/12. d) Existen siete resultados favorables, H1, H2, H3, H4, H5, H6, T5. La respuesta es 7/12. e) Existen cuatro resultados favorables, H4, H6, T4, T6. La respuesta es 4/12 = 1/3. f) No se tiene ningún resultado favorable. La respuesta es cero. g) Existen seis resultados favorables, H1, H2, H3, H4, H5, H6. La respuesta es 6/12 = 1/2. h) No existe ningún resultado favorable. La respuesta es cero.
EJEMPLO 4-8
Encuéntrese la probabilidad de que al tirar dos dados, la suma de las caras sea igual a siete.
SOLUCIÓN
Cada dado tiene seis caras, numeradas del 1 al 6. Si el resultado de tirar el primer dado es 1, entonces al tirar el segundo dado se tienen seis posibles resultados: 1, 2, 3, 4, 5 y 6. Si en el primer tiro el resultado es 2, entonces al tirar de nuevo el segundo dado se tienen seis posibles resultados: 1, 2, 3, 4, 5 y 6. De esta forma, para cualquier resultado del primer dado siempre existen seis resultados posibles para el segundo. Así, el número total de resultados es 6 x 6 = 36, todos ellos igualmente probables.
dado 1, dado 2 dado 1, dado 2 dado 1, dado 2 dado 1, dado 2 dado 1, dado 2 dado 1, dado 2 1, 1
2, 1
3, 1
4, 1
5, 1
6, 1
1, 2 1,3 1, 4 1, 5 1, 6
2,2 2, 3 2,4 2,5 2,6
3,2 3,3 3,4
4,2 4, 3 4,4 4,5 4,6
5, 2 5, 3 5,4 5,5 5,6
6, 2 6,3 6, 4 6, 5 6,6
3,5 3,6
De los 36 resultados, sólo existen seis para los que la suma de las caras es 7; por lo tanto, P(suma de las caras es 7) = 6/36 = 1/6
EJEMPLO 4-9
Pamela Purloiner trabaja en una joyería y tiene una gran pasión por los diamantes. En un cajón se guardan cuatro diamantes y ella reemplaza dos de estas gemas por imitaciones. El dueño de la joyería extrae, al azar, dos piedras. ¿Cuál es la probabilidad de que extraiga dos diamantes legítimos?
SOLUCIÓN
Primero debe determinarse el número de resultados posibles. Para distinguir entre las piedras se denotarán los diamantes por D1 y D2, y las imita-
Probabilidad 67
cienes por l1 e l2. Si el dueño extrae la primera vez un diamante, entonces uno cualquiera de los tres restantes se extraerá en la segunda oportunidad. De manera similar, al tomar una de las cuatro piedras por primera vez, siempre se puede escoger una de las tres restantes en la segunda selección, Por lo tanto, se tienen 4 X 3 o 12 resultados igualmente probables.
De los 12 posibles resultados, sólo dos son favorables. Por lo tanto, la probabilidad de extraer dos diamantes legítimos es 2/12 o 1/6.
PROBABILIDAD E HISTOGRAMAS Ya que la fracción del total de una población que corresponde a un evento es igual a la probabilidad de éste, entonces en un histograma la fracción de área que representa al evento es igual a la probabilidad de éste. EJEMPLO 4-10
Un profesional de la estadística llevó a cabo un estudio sobre el consumo de gasolina del motor Datsun 1595 ce. La gráfica correspondiente a este estudio se muestra en la figura 4-1. distancia (millas)
rango percentil
15
0
18 21 24 27 30 33
2 16 50 84 98 100
¿Cuál es la probabilidad de que, al escoger al azar una máquina Datsun 1595 cc, ésta proporcione un rendimiento menor de 27 millas por galón?
Introducción a la estadística 68
SOLUCIÓN
Primero se necesita saber la fracción de máquinas que corresponde a esta categoría. La fracción es igual al porcentaje del área de la gráfica que se encuentre a la izquierda de 27. El rango del percentil de 27 es 84, así que un 84% de la gráfica se encuentra a la izquierda de 27. Por lo tanto, P (rendimiento menor de 27 millas por galón) = 0.84 Nota: Véase el apéndice B para una exposición adicional de la probabilidad. AYUDAS PARA ESTUDIO VOCABULARIO 1. Probabilidad SÍMBOLOS 1. P(evento)
2. p
3. q
FÓRMULAS
EJERCICIOS 4-1 Si se lanzan dos monedas, entonces existen tres posibles resultados: dos caras, una cara o ninguna cara. ¿Por qué la probabilidad de obtener dos caras no es igual a 1/3? 4-2 De una baraja ordinaria de 52 cartas se extrae una al azar. Encuéntrense las probabilidades correspondientes a los siguientes eventos, a) extraer un tres de diamantes b) extraer un corazón c) extraer una sota 4-3 ¿Cuál es la probabilidad de que al seleccionar aleatoriamente un día del presente mes, éste sea lunes? 4-4 Para la selección aleatoria de una carta perteneciente a una baraja, encuéntrense las siguientes probabilidades: a) P(reina) b) P(corazón) c) P(reina o corazón) d) P(reina y corazón) e) P(rey o reina) f) P(rey y reina) g) P(corazón o diamante) h) P(rojo o negro) 4-5 Las siguientes afirmaciones ¿son falsas o verdaderas? a) Sea X el dígito que ocupa la parte media del número de seguridad social, que tiene un total de nueve dígitos. Si se escoge aleatoriamente un número de seguridad social, entonces P(X sea par) = 1/2. b) El Banco de Depósitos y Ahorros Inseguros utiliza 12 clasificaciones diferentes para sus empleados, incluyendo a los cajeros. El conde de Mun-
Probabilidad 69 nee trabaja en el banco, por lo tanto, la probabilidad de que él sea un cajero es 1/12. 4-6 Un experimento consiste en lanzar dos monedas, una de 10 centavos y otra de un centavo. a) Lístense todos los resultados posibles. Encuéntrese la probabilidad de cada uno de los siguientes eventos b) P(cara en la moneda de c) P(cara en ambas monedas) un centavo) d) P(exactamente una cara) e) P(por lo menos una cara) 4-7 El piso de una habitación es de azulejos. Cada azulejo se encuentra numerado y los números pares corresponden a los azulejos negros, mientras que los azulejos con numeración impar son verdes.
Una persona vendada deja caer un alfiler y éste puede caer en un azulejo de cualquier color. Si el alfiler cae en la unión de dos azulejos, se vuelve a dejar caer el alfiler. Los resultados son el color y el número. Encuéntrese: a) P(el resultado es negro) b) P(el resultado es verde) c) P(el número es menor que 5) d) P(el número es mayor que 5) e) P(el número es menor que 5 y el color es verde) 4-8 En cierta preparatoria, el 20% de los estudiantes son personas mayores de 21 años y un 48% son mujeres. Si se supone que los estudiantes entran en la cafetería aleatoriamente, ¿cuál es la probabilidad de que el siguiente estudiante en entrar a la cafetería sea: a) mayor de 21 años? b) menor de 21 años? 4-9 En una compañía trabajan 100 hombres y 100 mujeres, 80 hombres y 10 mujeres son científicos. ¿Cuál es la probabilidad de que al escoger aleatoriamente una persona de la lista de empleados ésta sea: a) mujer? b) científico? c) mujer y científico? d) ¿Cuál es la probabilidad de que al seleccionar en forma aleatoria un científico éste sea mujer? 4-10 Tasas y probabilidad En muchas situaciones las tasas pueden interpretarse como probabilidades. Por ejemplo, en el capítulo 2 se analizaron las tasas de mortalidad. Supóngase que la tasa anual de mortalidad para cierta enfermedad es de 2 por cada 100 000 habitantes. Puede decirse que la probabilidad de que un individuo, al seleccionarlo aleatoriamente de esta población, muera por causa de esa enfermedad en el transcurso del año es de 2/100 000.
Introducción a la estadística 70 La patrulla de caminos de la ciudad predijo 20 accidentes fatales para el siguiente fin de semana. Se espera una afluencia de 5,000 vehículos, a) ¿Cuál es la tasa de mortalidad para 1 000 vehículos? b) ¿Cuál es la probabilidad de que al seleccionar un vehículo al azar, éste tenga un accidente fatal? 4-11 En una prueba del tipo falso-verdadero una persona no tiene ni la menor idea de las respuestas correspondientes a tres preguntas, así que decide adivinarlas. a) Lístense todos los resultados posibles utilizando C para denotar correcto y W para equivocados. b) Si X = número de aciertos correctos, encuéntrese: (1) P(X = 3), (2) P(X > 2), (3) P(X = 0). 4-12 Una rueda se encuentra marcada como se indica en la figura.
Si se da vuelta a la rueda una vez, encuéntrese: a) P(el resultado es Alicia) b) P(el resultado es un muchacho) c) Si el juego se lleva a cabo dos veces, entonces se tienen 16 resultados posibles. Lístense estos resultados. Encuéntrense las siguientes probabilidades: d) P(primera vuelta, Alicia; en la segunda Bob) e) P(primera vuelta, Alicia; en la segunda Alicia) f) P(el resultado incluye a Alicia exactamente una vez) g) P(el resultado incluye a Alicia, por lo menos una vez) 4-13 En el juego de monopolio, José Capitalista necesita tirar un ocho para ir a Place Park. Consúltese la lista de resultados posibles proporcionada en el ejemplo 4-8. a) ¿Cuál es la probabilidad de que José tenga éxito? b) Beatriz Malasuerte irá a la prisión si tira dobles en más de una ocasión. ¿Cuál es la probabilidad de que esto ocurra? 4-14 Un grupo de personas juega, de manera continua, a la ruleta rusa hasta que una deja de existir. Se puede construir un modelo estadístico de este experimento de la siguiente manera: cada persona lanzará un dado sólo una vez; si el resultado es uno, la persona está "muerta". El dado continúa tirándose por las personas que sobreviven hasta que sólo queda una. Encuéntrese: a) P(la primera persona "muere" en la primera tirada) b) P(la segunda persona "muere" en la primera tirada) c) Mediante el empleo de la lista de todos los resultados posibles para el lanzamiento de dos dados proporcionada en el ejemplo 4-8, encuéntrese P(una persona en particular que sobrevive después de los dos lanzamientos primeros); es decir, encuéntrese P(el primer lanzamiento no es uno y el segundo tampoco lo es).
Probabilidad 71
Diagrama de árbol
4-15 Algunas veces es fácil obtener todos los resultados posibles de un experimento mediante un diagrama de árbol. En el ejemplo 4-5, en donde se lanza una moneda dos veces, el diagrama de árbol es:
Cada una de las trayectorias posibles que comienzan en el punto situado a la izquierda y que terminan en un punto de la derecha representa un resultado posible. De acuerdo con el diagrama anterior es fácil observar que se tienen cuatro resultados. a) Dibújese un diagrama de árbol para el ejemplo 4-6 y lístense los resultados correspondientes a cada rama. La respuesta deberá ser la misma que la obtenida en el ejemplo. b) Se lanzan cuatro monedas. Dibújese un diagrama de árbol para este experimento. Encuéntrese la probabilidad de obtener, de manera exacta, dos caras; más de dos caras. c) Si el experimento de la parte b) consiste en tirar cuatro dados, ¿es conveniente el utilizar un diagrama de árbol para resolver el problema? ¿Por qué sí o por qué no? d) Constrúyase un diagrama de árbol para los resultados de la parte c) para el problema de la ruleta rusa, ejercicio 4-14. ¿Por qué sólo se tienen 31 ramas y no 36? 4-16 Una muchacha recolecta champiñones. De manera accidental recoge dos hongos venenosos que son casi idénticos a tres champiñones que ya había recolectado. Después se come dos de los cinco hongos. a) Utilizando M1, M2 y M3 para los hongos comestibles y T1 y T2 para los hongos venenosos, lístense los 20 resultados posibles. ¿Cuál es la probabilidad de que: b) se coma dos hongos venenosos? c) se coma por lo menos un hongo venenoso? d) no coma por lo menos ningún hongo venenoso? 4-17 Un niño juega con una máquina tragamonedas que tiene tres ruedas, y en cada una de éstas hay un plátano, una cereza y un limón, respectivamente. a) Lístense todos los resultados posibles. b) Encuéntrese P(tres limones). c) Encuéntrese P(tres idénticos). d) Encuéntrese P(por lo menos dos limones). e) Si se juega 54 veces en este juguete, ¿alrededor de cuántas veces se espera obtener dos o más limones? Supóngase que lo anterior sólo ocurre una vez. ¿Qué explicación podría darse? 4-18 Váyase a la cafetería en el momento del almuerzo. Llévese un registro de 50 ventas consecutivas. Dibújese una gráfica de la distribución de las ventas.
Introducción a la estadística 72 a) ¿Qué fracción del total de las ventas fue igual o mayor de $2.00? b) Con base en la respuesta dada a la parte a), ¿cuál es la probabilidad de que al seleccionar el monto de una venta, en forma aleatoria, éste sea mayor o igual a $2.00? c) Repítase el problema en un día distinto con el propósito de observar si existe una gran variación en las respuestas dadas a las partes a) y b). d) Analícese si las muestras son aleatorias o no. e) Encuéntrese la media y la varianza de las 50 ventas. f) ¿Qué porcentaje de las ventas es mayor en una desviación estándar que la media? 4-19 Prunella Fructus desea seleccionar dos frutas de una canasta que contiene dos higos, dos dátiles y una lima. a) Si selecciona una fruta y no la reemplaza antes de seleccionar la segunda, encuéntrese la probabilidad de que seleccione dos frutas diferentes. b) Repítase la parte a) si Prunella reemplaza la primera antes de extraer la segunda. c) ¿Supóngase que ella extrae dos frutas sin reemplazarlas. Si la primera fruta es un higo, ¿cuál es la probabilidad de que seleccione una fruta distinta? d) Repítase la parte c) si la primera fruta es la lima. 4-20 Se mezclan 365 cápsulas, cada una marcada con la fecha de un día del año, y se extrae una al azar. ¿Cuál es la probabilidad de que la cápsula: a) tenga la fecha de algún día de enero? b) tenga la fecha dos de marzo? c) tenga una fecha correspondiente a marzo o abril? d) no tenga una fecha correspondiente a diciembre? 4-21 Una persona escoge al azar una letra del alfabeto. Después se pide a un auditorio de 260 personas que se concentren y escriban la letra que escogió la primera persona. Nueve personas dieron una respuesta correcta. ¿Se ha descubierto que estas nueve personas tienen percepción extrasensorial? 4-22 A continuación se muestra la procedencia racial de los empleados de cierta fábrica. raza Asiático Negro Blanco Otras
porcentaje 6 46 43 5
¿Cuál es la probabilidad de que al escoger al azar un empleado éste sea: a) asiático? b) no blanco? c) negro o asiático? d) no negro? 4-23 Cuando nace un bebé, éste puede ser hombre o mujer. Si es cierto que existe una posibilidad igual de que un recién nacido sea hombre o mujer, entonces la gráfica que a continuación se muestra proporciona la dis-
Probabilidad 73
tribución teórica de las frecuencias relativas de hombres y mujeres en una familia que tiene cuatro hijos.
Mediante el empleo del histograma anterior, ¿cuál es la probabilidad de que una familia con cuatro hijos: a) no tenga varones? b) tenga dos varones? c) todos sean varones? d) tenga dos o más varones? e) tenga un varón o tres varones? 4-24 Los ingresos de las familias de Padsville tienen la tabla y la gráfica de frecuencias relativas que a continuación se muestra.
¿Cuál es la probabilidad de que al escoger aleatoriamente a una familia de Padsville, ésta tenga un ingreso: a) menor de $20 000? b) entre $10 000 y $30 000? c) menor de $10 000 o mayor de $30 000? d) menor de $30 000?
Introducción a la estadística 74 4-25 Encuéntrese, para los datos del automóvil Datsun que se encuentran en el ejemplo 4-10, la probabilidad de que al seleccionar aleatoriamente uno, éste: a) proporcione un rendimiento menor de 21 millas por galón. b) tenga un rendimiento entre 21 y 27 millas por galón. c) tenga un rendimiento mayor de 24 millas por galón. 4-26 Si se tiene un recipiente con 500 fichas verdes, 400 azules y 300 verdes y se extraen 50 fichas al azar, entonces, ¿cuál de los dos resultados siguientes es más probable? (10 rojas, 20 azules y 20 verdes) o (20 rojas, 20 azules y 30 verdes) EJERCICIOS RELACIONADOS CON LA ENCUESTA ¿Cuál es la probabilidad de que al seleccionar aleatoriamente a un estudiante de su clase: a) sea fumador? b) no fume? c) sea zurdo? d) sea derecho? e) haya sufrido una o más fracturas? EXAMEN DE LOS CAPÍTULOS 1, 2, 3, Y 4 1 La estadística inferencial formula inferencias con respecto a a) una población o b) una muestra. 2 Una cuestión importante en estadísticas es si una muestra es o no
.
3 ¿Qué promedio deberá utilizarse para medir la tendencia central de una distribución de salarios?; ¿de una de calificaciones de examen?; ¿del tiempo que requieren 10 caballos para correr una milla?; ¿de la hora proporcionada por diez relojes diferentes? 4 De las siguientes, ¿cuáles son medidas de variabilidad?: recorrido, puntaje z, varianza, desviación estándar, rango del percentil, datos originales. 5 Una estimación de σ2 es s2. ¿Es ésta una estadística o un parámetro? 6 ¿Cuál es la probabilidad de que al lanzar una moneda tres veces se obtengan tres caras? ¿Cuál es la probabilidad de que al lanzar tres monedas se obtenga el mismo resultado? 7 En un grupo de historia P(X sea mujer) = .43. ¿Cuál es el porcentaje de hombres y mujeres en el grupo? 8 En un histograma, el 62% de su área se encuentra a la izquierda de la calificación 75. ¿Qué porcentaje de la clase obtuvo una calificación menor de 75? ¿Cuál es el valor de P(X ≥ 75)? 9 Una moneda cargada tiene P(cara) = .70. Si esta moneda se lanza 50 veces, ¿qué cantidad de caras se espera observar? 10 Se le pregunta a un grupo de personas cuántos hermanos y hermanas tienen. Sus respuestas fueron las siguientes: 3, 2, 1, 0, 2, 3, 2, 1, 6, 1. a) Encuéntrese la media, mediana y moda de esta distribución. b) Encuéntrese el recorrido, la varianza y la desviación estándar.
Probabilidad 75 c) Encuéntrese los puntajes z más grande y más pequeño. d) Si una persona tiene un puntaje z igual a 0.54, ¿cuántos hermanos y hermanas tiene? 1 1 a ) Dibújese un histograma para las siguientes alturas. 72, 50, 59, 60, 63, 71, 70, 35, 65, 63, 61, 75, 60, y 67 in. b) Encuéntrese el rango percentil correspondiente a una altura de 61 in. 12 Un sociólogo, Andrés Grievley, desea determinar el número promedio de niños por familia en la ciudad de Apawling. Con este propósito se dirije a todas las escuelas y toma una muestra aleatoria de niños a los cuales les pregunta el número de niños que habitan en su casa. Posteriormente emplea estos datos para estimar el promedio. ¿Por qué para su estudio la muestra se encuentra sesgada?
La distribución binomial Si se investiga una población, entonces cualquier característica de ésta que pueda tomar diferentes valores recibe el nombre de variable. Algunas variables pueden tomar muchos valores, como las que a continuación se mencionan. 1.
Las calificaciones de los exámenes varían entre 0 y 100. La calificación de un estudiante en particular se encontrará entre estos dos valores. 2. Los seis resultados posibles al tirar un dado. Un resultado individual puede ser cualquiera de estos valores. 3. Los cuatro estados civiles, soltero, casado, divorciado o viudo. Una persona puede tener uno, cualquiera, de los cuatro estados civiles. Existen otras variables que sólo tienen dos valores o resultados. Ejemplos de éstas son los siguientes. 1. 2. 3. 4. 5. 6. 7.
Las respuestas en una prueba del tipo falso-verdadero. Las respuestas a preguntas del tipo sí o no. Los resultados de una competencia en términos de ganar-perder (pero no en términos de ganar, perder o empatar). Las calificaciones otorgadas en un sistema de evaluación (aprobado o reprobado). El resultado de lanzar una moneda (cara-"sello"). El sexo de un recién nacido (hombre o mujer). Los resultados de un juego de dados en términos de tirar o no un siete.
La distribución binomial 77
1) Si una variable tiene sólo dos posibles resultados y 2) las probabilidades de éstos no cambian en cada ensayo sin importar lo que haya ocurrido en ensayos anteriores, entonces la variable recibe el nombre de variable binomial. No se consideran variables binomiales resultados como llueve o no llueve, ya que la probabilidad de que esto ocurra cambia con cada día; sin embargo, el resultado de lanzar una moneda al aire es una variable binomial ya que las probabilidades de obtener cara o "sello" son las mismas para cada lanzamiento.
EJEMPLO 5-1
Los Bisturíes de Columbus llevan a cabo todos los años un bazar con el propósito de reunir fondos para el hospital local. Uno de los juegos de azar que se pueden encontrar en el bazar es el siguiente: un disco tiene tres regiones iguales y cada una de ellas se encuentra iluminada por un color diferente, rojo, verde y azul. El jugador escoge un color. El disco da vueltas y si se detiene en el color que el jugador seleccionó, gana. Martín decide jugar dos veces y seleccionar el color rojo en ambas ocasiones. El resultado de su elección es una variable binomial (pierde o gana) con dos ensayos (ya que decidió jugar dos veces).
¿Cuál es la probabilidad de que Martín: a) gane en ambas ocasiones? b) gane sólo una vez? c) no gane? Se resolverá este problema en dos formas diferentes: la primera al obtener todos los resultados igualmente probables; la segunda mediante el empleo de un nuevo enfoque el cual se denominará "método binomial". SOLUCIÓN
Método 1 Ya que para cada juego existen tres posibles resultados, entonces, para los dos juegos, se tienen 3 x 3 = 9 resultados para los dos juegos. Éstos se muestran a continuación. resultado
er
o
1 juego, 2 juego
número de rojos
1
rojo, rojo
2 rojos
2 3 4 5
rojo, verde rojo, azul azul, rojo verde, rojo
1 rojo
6 7 8 9
azul, verde verde, azul azul, azul verde, verde
ningún rojo
Introducción a la estadística 78
a) La probabilidad de que Martín gane dos veces es P(ganar dos veces) = 1/9, ya que existen nueve posibles resultados igualmente probables y sólo uno de ellos corresponde a dos rojos. b) La probabilidad de que Martín gane sólo una vez es P(ganar una vez) = 4/9, debido a que se tienen cuatro resultados que consisten en un rojo. c) De manera similar, la probabilidad de que Martín no gane es P(no ganar) = 4/9. Estas probabilidades pueden presentarse en un histograma, como se muestra en la figura 5-1.
SOLUCIÓN
Método 2 Existe una manera alternativa de calcular las probabilidades anteriores (1/9, 4/9, 4/9) que es mucho más fácil. Se puede analizar el juego en forma directa en términos de ganar o perder en vez de hacer uso de los colores. En lo que concierne a Martín, él sólo gana dos, una o ninguna vez. Por lo tanto sólo existe una forma en la que puede ganar dos veces (debe ganar en los dos juegos); existen dos en que puede ganar sólo una vez (que gane el primero o el segundo); y una manera de perder dos veces (que es perder en ambos juegos). En la tabla 5-1 se proporciona un resumen de lo anterior. Tabla 5-1
Número de victorias 2 1 0
formas en las que se puede ganar
número de formas en las que se puede ganar
WW WL, LW LL
1 2 1
Recuérdese que en un problema binomial sólo existen dos resultados posibles. Uno de ellos recibe el nombre de "éxito" y el otro de "fracaso". Al tratar este problema como uno de tipo binomial, el "éxito" es ganar, el "fracaso" es perder y el "ensayo" es darle vueltas una vez al disco. En este tipo de problemas es práctica común denotar con n el número de en– sayos, con S el número de éxitos en n ensayos y con
el número de
La distribución binomial 79
diferentes formas en las que S puede ocurrir. El símbolo
recibe el
nombre de coeficiente binomial. De acuerdo con lo anterior, puede reescribirse la tabla 5-1 como se muestra en la tabla 5-2.
En este momento puede reformularse el problema de la elección de Martín como un problema de tipo binomial. Se desea encontrar P(S = 2), P(S = 1), P(S = 0). Para lograr lo anterior primero debe conocerse la probabilidad de tener un éxito en cualquier ensayo. Se utilizará el símbolo p para denotar lo anterior: p = probabilidad de éxito en cualquier ensayo de un experimento binomial. Ya que un "éxito" en un ensayo significa "color rojo en una vuelta", y la probabilidad de que esto suceda es 1/3, se tiene que p = 1/3. De manera similar, la probabilidad de "fracaso" en un ensayo, denotada por q, es q = 2/3. Para calcular las probabilidades P(S = 2), P(S = 1), y P(S = 0), se puede aplicar la siguiente regla. Multiplíquese
por p para cada éxito y por q
para cada fracaso. Lo anterior se muestra en la tabla 5-3.
De la tabla anterior, se observa que las probabilidades pueden obtenerse de manera directa. a) La probabilidad de que Martín gane dos veces es P(S = 2) = 1/9. b) La probabilidad de que Martín gane sólo una vez es P(S = 1) = 4/9. c)
La probabilidad de que Martín no gane una sola vez es P(S = 0) = 4/9.
El histograma correspondiente es igual al mostrado en la figura 5-1.
Introducción a la estadística 80
El principio que hay detrás de un problema binomial es que la probabilidad de una secuencia de eventos se encuentra al multiplicar las probabilidades de cada uno de éstos. Lo anterior recibe, la mayor parte de las veces, el nombre de regla de multiplicación. Por ejemplo, la probabilidad de que Martín primero gane y después pierda es P(WL) = 2/3 x 1/3 = 2/9. La probabilidad de que primero pierda y después gane es P(LW) = 2/3 x 1/3 = 2/9. Para cualquiera de las dos secuencias, Martín ganará exactamente una vez, así que existen dos formas en que puede ganar una sola vez, cada una con probabilidad 2/9, para un total de 4/9. Este valor corresponde, en forma exacta, al cálculo en la tabla 5-3
EJEMPLO 5-2
Supóngase que Martín decide jugar cuatro veces. En este caso él puede ganar 4, 3, 2, 1, o 0 veces. Encuéntrese la probabilidad correspondiente a cada uno de estos resultados.
SOLUCIÓN
Si se intenta resolver este problema listando todos los posibles resultados, como se hizo en el método 1 del ejemplo anterior, entonces es necesario listar 3 x 3 x 3 x 3 = 81 resultados. Algunos de ellos podrían ser (rojo, rojo, rojo, rojo), (rojo, rojo, azul, verde) o (rojo, rojo, verde, azul). Lo anterior puede evitarse al resolver este problema con el método 2 del ejemplo anterior. Al tratar este problema como binomial sólo se considerarán ganados y perdidos. Ya que Martín jugará cuatro veces, puede entonces ganar 4, 3, 2, 1, o 0 veces. Las formas en que puede ganar o perder se muestran en la tabla 5-4. Recuérdese que p = 1/3 y q = 2/3, debido a que p y q son las probabilidades de ganar y perder, respectivamente, para cualquier ensayo.
Es la tabla 5-5 se muestra el cálculo de las probabilidades.
La distribución binomial 81
De la tabla anterior pueden obtenerse las probabilidades deseadas. a) La probabilidad de que Martín gane en los cuatro juegos es P(S = 4) = 1/81. b) La probabilidad de que Martín gane tres juegos es P(S = 3) = 8/81. c) P(S = 2) = 24/81. d) P(S = 1) = 32/81. é) P(S = 0) = 16/81. El histograma correspondiente a estas probabilidades se muestra en la figura 5-2. Nótese también cómo se interpretan las expresiones que se encuentran en la columna P(S) de la tabla 5-5. Considérese, por ejemplo, el término 3 4p q en la línea correspondiente a S = 3. El exponente de p es 3. Lo anterior indica que se obtuvieron tres éxitos. El exponente de q es 1. Esto significa que se tuvo un fracaso. El 4 indica las cuatro formas en que lo anterior puede ocurrir, explícitamente, WWWL, WWLW, WLWW, y LWWW.
EL TRIÁNGULO DE PASCAL Dos hombres juegan con un dado; si el dado muestra un 1 o un 2, Jeremías gana; de otra forma Ramón gana. Encuéntrese la probabilidad de que Jeremías: a) gane tres veces b) gane dos veces c) gane una vez d) no gane nunca
Introducción a la estadística 82
Ya que jugarán tres veces, entonces n = 3. Si se denota con p = P(Jeremías gana en una tirada) = 2/6 = 1/3. Por lo tanto, q = P(Jeremías pierde en una tirada) = 2/3. A continuación se muestra una tabla similar a las tablas 5-4 y 5-5 del ejemplo anterior.
Para dar respuesta a las cuatro preguntas es necesario llenar la última columna de la tabla. Se sabe que las respuestas se encontrarán al multiplicar los valores de la tercera columna por los correspondientes números de p y q.
Con anterioridad se encuentran los valores correspondientes a las entradas de la columna
listando todas las posibles formas en que S puede
ocurrir y contándolas entonces. Sin embargo, existe una forma de obtener estas entradas sin necesidad de contar. En este problema, por ejemplo, los números son 1, 3, 3, 1. De acuerdo con lo anterior, se puede llenar la tabla en la siguiente forma.
Por lo tanto, las respuestas a las preguntas a), b), c), y d) son: a) P(S = 3) = 1/27
b) P(S = 2) = 6/27
c) P(S = 1) = 12/27
d) P(S = 0) = 8/27
La distribución binomial 83
Los números que se encuentran en la columna tres,
, representan las
diferentes formas en que puede ocurrir S. Estos pueden obtenerse a partir de un triángulo de números, como el que se muestra más abajo, y que se conoce como triángulo de Pascal. Blaise Pascal (1623-1662) fue un matemático francés y uno de los fundadores de la ciencia de la probabilidad. Él construyó el siguiente triángulo de números
, en donde n indica el
número de ensayos y S el número de éxitos.
En el problema anterior, dado que Jeremías tiró el dado tres veces, entonces n = 3. Por lo tanto, se busca el renglón correspondiente a n = 3. En él se encuentran los números 1, 3, 3,1. Recuérdese que en el ejemplo 5-2, Martín jugó cuatro veces. Si se busca el renglón del triángulo de Pascal que corresponde a n = 4, se observan las entradas 1, 4, 6, 4. 1. Estos corresponden a los valores calculados en ese ejemplo. Es muy sencillo construir un triángulo de Pascal. Cada número se obtiene al sumar los dos que se encuentran en el renglón anterior, uno por encima y el otro a la izquierda de él. De acuerdo con lo anterior, el 10 que se encuentra en la columna correspondiente a n = 5 se obtiene al sumar el 6 y el 4 que se encuentran en el renglón anterior. Este proceso puede continuarse con el propósito de construir más renglones. Nótese que cada renglón comienza y termina con un 1. Inténtese construir el renglón correspondiente a n = 6. Para verificar la respuesta véase la tabla C-1 que se encuentra en el apéndice C.
EJEMPLO 5-3
Un ingeniero en genética lleva a cabo un experimento con el propósito de intentar producir cierta proteína. La genética de la situación es tal que la probabilidad de que el experimento tenga éxito es de .7. El ingeniero cuenta con los fondos y el equipo suficiente para llevar a cabo seis repeticiones del experimento. Denótese con p = P(éxito en cualquier experimento) = .7 y q = P(fracaso) = 3. Encuéntrense las siguientes probabilidades: a) P(S = 3) e) P(1 ≤ S ≤ 4)
b) P(S > 3)
c) P(S ≥ 3)
f) P(a lo más tres éxitos)
g) P(por lo menos tres éxitos).
d) P(S ≤ 3)
Introducción a la estadística 84
SOLUCIÓN Primero se lista el número de éxitos y el renglón correspondiente del triángulo de Pascal para n = 6 (ya que se tienen seis repeticiones del experimento).
a) P(S = 3) = .19 b) En este problema S > 3 significa S = 4, S = 5, o S = 6. Para encontrar P(S > 3), se suman P(S = 4) + P(S = 5) + P(S = 6): P(S > 3) = P(S = 4) + P(S = 5) + P(S = 6) = .32 + .30 + .12 = .74 c) P(S ≥ 3) = P(S = 3) + P(S > 3). El valor de P(S > 3) se calculó en la parte b), así que P(S ≥ 3) = .19 + .74 = .93 d) P ( S ≤ 3 ) = P ( S = 3 ) + P ( S = 2 ) + P ( S = 1 ) + P ( S = 0 ) = 1 - P( S > 3) y, de acuerdo con la parte b), P(S ≤ 3) = 1 – .74 = .26
e) P(1 ≤ S ≤ 4) = P(S = 1) + P(S = 2) + P(S = 3) + P(S = 4) = .01 + .06 + .19 + .32 = .58 f) El que se tengan a lo más tres éxitos significa 0, 1, 2 o 3 éxitos. Por lo tanto, puede escribirse P(S ≤ 3). El resultado es el mismo que el de la parte d). g) Por lo menos tres éxitos significa 3, 4, 5 o 6 éxitos. Así que puede escribirse P(S ≥ 3). Véase la parte c).
EJERCICIOS 5-1 En todos los cursos en los que se inscribe Stuart Dente puede obtener una calificación de aprobado o no aprobado. A pesar de que la pregunta es si Stuart aprueba o no tres de sus cinco cursos, éste no es un problema de tipo binomial. ¿Por qué?
La distribución binomial 85
5-2 De los siguientes experimentos, ¿cuáles son de tipo binomial? a) Una caja contiene 500 fichas rojas y 300 blancas. Ruby Redoux escoge, aleatoriamente, 20 fichas y cuenta las que son rojas. Después vuelve a colocarlas en la caja y repite el experimento. b) El mismo procedimiento que el de la parte a), excepto que en este caso Ruby no vuelve a colocar las fichas en la caja antes de repetir el experimento. c) Jaime Slim se encuentra a dieta. Por lo tanto, decide comer una vez al día el doble de alimentos. Todos los días selecciona la ocasión por medio de un disco dividido en tres partes iguales, cada una etiquetada como desayuno, comida y cena. d) Se extrae una carta de una baraja y se ve si es o no una figura. La carta se regresa a la baraja y se repite el experimento. e) Se marcan las orejas de 60 conejos pertenecientes a una colonia, que en ese momento cuenta con 100 miembros. Todos los días primero de cada mes se escoge, al azar, un conejo y se anota si éste tiene o no la oreja marcada. 5-3 Mediante el empleo del triángulo de Pascal, encuéntrese el valor de a.
5-4
Empléese el triángulo de Pascal para dar respuesta a lo siguiente.
5-5 Escríbanse los primeros cuatro números correspondientes al renglón n + 21 del triángulo de Pascal. Empléese la tabla C-1. 5-6 Lístense los 32 posibles resultados de éxito S o fracaso F para un experimento binomial con cinco ensayos. ¿Se encuentran los resultados en completo acuerdo con el triángulo de Pascal para n = 5? 5-7 En el ejemplo 5-2, se mencionó que, en términos de colores, existen 81 posibles resultados. Lístense todos éstos.
Introducción a la estadística 86
5-8 En un experimento en el que se tira un dado varias veces, los seis posibles resultados se agrupan en dos categorías "3" y "diferente de 3" ¿Es éste un experimento binomial? 5-9 Se lanza una moneda tres veces. a) Complétese la siguiente tabla.
b) Dibújese el histograma correspondiente a los resultados anteriores. ¿Cuál es la probabilidad de obtener cara: c) las tres veces? d) exactamente dos veces? e) por lo menos una vez? Encuéntrese: f) P(S = 0) (g) P(S < 2) (h) P(S < 2) 5-10 a) Se aplica un examen de cinco preguntas del tipo falsoverdadero. Para aprobar es necesario contestar por lo menos cuatro preguntas correctamente. Un estudiante decide adivinar todas las respuestas. 1) ¿Cuál es la probabilidad de que apruebe? 2) Si el número de estudiantes que presenta el examen es muy grande y si otros estudiantes también están adivinando, ¿qué porcentaje, aproximadamente, aprobará el examen? b) Si en cada embarazo la probabilidad de tener una niña es 1/2, ¿cuál es la probabilidad de que un matrimonio sin hijos y que planea tener cinco, tenga por lo menos cuatro niñas? ¿Qué porcentaje se espera tener de parejas con cinco hijos de los cuales cuatro o cinco son niñas? c) En un experimento binomial, p = .5, q = .5 y n = 5. Encuéntrese P(S ≥ 4). ¿Qué porcentaje de resultados con cuatro o más éxitos debe esperarse? 5-11 a) Eileen Dover necesita sacar 70 en un examen para aprobar la materia de fisiología patológica. El examen consiste en 10 preguntas del tipo falso-verdadero. Si adivina todas las preguntas, ¿cuál es la probabilidad de que apruebe la materia? b) El hermano de Eileen, Benjamín, también necesita obtener 70 para aprobar la materia de anatomía de los nematodos. Sin embargo, el examen de Benjamín consiste en 10 preguntas de opción múltiple en donde cada pregunta tiene cinco respuestas posibles. Si trata de adivinar las respuestas a todas las preguntas, ¿cuál es la probabilidad de que apruebe la materia? 5-12 Una moneda no legal tiene una probabilidad igual a .4 de mostrar cara, cada vez que se lanza. La moneda se lanza cinco veces. a) ¿Cuál es la probabilidad de obtener por lo menos tres caras? b) ¿Cuál es la probabilidad de obtener tres caras como máximo?
La distribución binomial 87
5-13 Cuando se lanza una tachuela al aire, la probabilidad de que ésta caiga con la punta hacia arriba es .21 (para una tachuela del No. 35). Se lanzan tres tachuelas. Encuéntrese la probabilidad de que: a) Todas caigan con la punta hacia arriba, b) Ninguna caiga con la punta hacia arriba, c) Por lo menos una caiga con la punta hacia arriba. 5-14 De acuerdo con un artículo reciente aparecido en una revista, si la concepción se efectúa mediante el método de inseminación artificial, la probabilidad de que el producto sea varón es de .8. La señora Clark planea tener dos hijos mediante esta técnica. Encuéntrese la probabilidad de que: Los dos hijos sean varones b) Por lo menos uno de ellos sea mujer. 5-15 a) En el juego de la revancha de Moctezuma se usa una moneda ordinaria y para ganarle al oponente se debe obtener una cantidad mayor de caras consecutivas que las de éste. Michelle tiene una racha de tres caras consecutivas. Para ganarle, Miguel debe tener una racha de cuatro caras. ¿Cuál es la probabilidad de que Miguel le gane a Michelle?; ¿de que no le gane? a) En una forma alternativa del juego se emplea un dado. En su oportunidad, Félix lanza el mismo número tres veces. Para ganar, Felicia debe obtener cuatro veces consecutivas cualquier otro número. ¿Cuál es la probabilidad de que Felicia pierda? (¿Por qué debe utilizarse n = 3 y no n = 4?) 5-16 Un héroe del espacio, Luke Warmwater, tiene cuatro cohetes sin disparar. Su nave sufre un daño severo y la probabilidad de que cualquier cohete pueda dispararse es de .20. Para escapar de una muerte repentina (y sobrevivir para el siguiente episodio) Luke necesita disparar por lo menos uno de los cohetes. Por lo tanto, acciona los cuatro botones de disparo, ¿cuál es la probabilidad de que aparezca en la próxima película? 5-17 Examen médico. Un examen médico es un procedimiento sencillo que indica si es probable que un paciente tenga una enfermedad. Una persona cuyos resultados en el examen fueron "positivos" probablemente tenga la enfermedad y con el propósito de formular un diagnóstico adecuado se le hacen más estudios. Lo anterior significa que algunas personas cuyos resultados fueron "positivos" no tengan la enfermedad. Estas personas se conocen como "falsos positivos". La tasa de falsos positivos es la proporción de personas que en un examen obtuvieron resultados positivos pero que no están enfermas. Supóngase que la tasa de falsos positivos para un examen es de .10. a) ¿Qué significado tiene lo anterior? En forma aproximada, ¿cuántos falsos positivos deben esperarse en 10 exámenes positivos? b) ¿Cuál es la probabilidad de que en 10 pacientes cuyo examen fue positivo se tenga más de un falso positivo? c) ¿Qué es más probable que haya en 10 exámenes positivos, 0 o 1 falso positivo o más de uno? 5-18 Considérese el siguiente juego. Un disco tiene cuatro secciones como se muestra en la figura. Todas las tardes, Algernon, un estudiante, le da vueltas al disco. Este se detiene, en forma aleatoria, en una de las secciones. Supóngase que si se detiene en la sección P, entonces Algernon juega toda la tarde, pero si se detiene en una sección S permanece en casa estudiando. Algernon le da vuelta al disco dos veces.
Introducción a la estadística 88
¿Cuál es la probabilidad de que: a) juegue dos veces? b) no juegue en ninguna ocasión? c) juegue por lo menos un vez? d) juegue menos de dos días? 5-19 Morgel, amigo de Algernon, piensa utilizar el método de! disco para decidir qué hacer en las tardes; para esto construye un disco como el que se muestra, en donde cuatro secciones se encuentran marcadas con una P, para jugar y otra con una S, para estudiar. Morgel decide darle al disco siete vueltas con el propósito de planear sus actividades durante una semana.
¿Cuál es la probabilidad de que Morgel: a) juegue toda la semana? b) estudie exactamente durante tres días? c) no juegue en toda la semana? d) estudie menos de cuatro días? 5-20 Chastain, amigo de Morgel, también desea jugar con el disco. Éste es igual al que se muestra más abajo, donde la J representa al club de Jay y la K al club de Ken, sus dos lugares nocturnos favoritos. Si e! disco señala K, entonces irá al club de Ken por la tarde. Si señala J irá al club de Jay. Como se encuentran próximos cuatro días festivos, Chastain le da cuatro vueltas al disco con el propósito de hacer sus planes para esos días.
¿Cuál es la probabilidad de que: a) asista una noche al club de Jay y tres al de Ken? b) asista dos noches al club de Jay y dos al de Ken? c) asista las cuatro noches al mismo club? 5-21 El profesor Ratso conduce un experimento de psicología en el que se habituará a las ratas a caminar por pasillos. El profesor predice que una rata que se encuentre al final de un pasillo cuyo extremo tiene forma de T dará vuelta a la izquierda con una probabilidad mayor que a la derecha. Se cree que la proporción de ratas que darán vuelta a la izquierda es de
La dis stribución binom mial 89
0.65. Si lo ante erior es cierto y se envían se eis ratas a cam minar por los pa asillos, ¿cuál es la probabilidad d de que: a tres den vuelta a la izquie a) erda y tres a la a derecha? b un número menor de cincco de vuelta a la izquierda? b) c todas den vuelta c) v a la izqu uierda o todass a la derecha? ? 5-22 5 Un sisttema de luz de e emergencia tiiene 4 bateríass. La probabilid dad de d que cualquie era de ellas fallle es de .01. ¿C Cuál es la proba abilidad de que: a) ninguna falle? b) todas fallen n? c) fallen máss de 2? 5-23 5 Un fab bricante asegu ura que cuatro de cada cinco dentistas recomiendan a sus s pacientes goma de mascarr sin azúcar. Suponiendo que e la afirmación a ante erior es cierta, encuéntrese la l probabilidad d de que al seleccionar c aleatoria amente 20 dentistas, 16 o más recomienden n goma de mascar sin s azúcar a sus pacientes. 5-24 5 Supóngase que dos e equipos de béisbol, A y B, tienen la misma clac sificación. s El re esultado de cada juego entre e ellos es una vvariable aleatoria, con c una proba abilidad de qu e el equipo A gane, igual a .5. a Si se efectúan seis juegos, ¿cuál es la prrobabilidad de q a) que cada equip po g gane tres vece es? b Si se juega una serie en donde b) d el primerr equipo en gan nar cuatro jueg gos g gana la serie, ¿cuál es ¡a prrobabilidad de que el equipo o A gane la serrie e el séptimo juego? en j Sugere encia: utilícese e la respuesta de la parte a). 5 5-25 Cristina e Ivonne, d dos jugadoras de d tenis, dispu utan un encuen ntro e entre sí. La pro obabilidad de qu ue Cristina gane un punto es de d .8. El juego se d detiene con "vventaja para Ivvonne" (ella ne ecesita un pun nto para ganarr). ¿ ¿Cuál es la pro obabilidad de q que Cristina ga ane los tres pu untos siguiente es e forma conssecutiva y de esta en e manera gane el juego? 5-26 Pedro Pe edalista debe viajar v en bicicleta dos millass para comprar el periódico del domingo. Si lleg ga al puesto de periódicos muy temprano, ésstos t todavía no llega an. Si lo hace m muy tarde, ya no o hay ejemplare es. La experien ncia le ha enseñado que si llega a las 8.30 AM tiene t el 85% de e posibilidadess de o obtener un ejemplar. ¿Cuál e es la probabilida ad de que en lo os siguientes occho d domingos, por lo menos en sseis de ellos co ompre el periód dico si llega a las 8 8.30 AM? 5 5-27 El cocinero Victoir sa abe cómo pre eparar dos de liciosos platillos: Q Quiche Fillisse e y huevos á la a Ari-Bari. El dueño del resta aurante, la señora S Sharonne, ha notado que el 63% de las ve eces Victoir pre epara huevos a la A Ari-Bari. Si la señora s Sharonne entra al resstaurante seis vveces, ¿cuál ess la p probabilidad de que saboree e tres veces ca ada platillo? 5 5-28 Se hace referencia r a un n elemento del triángulo de Pascal P por med dio . Por ejem d símbolo del mplo, = 15.. Lo anterior puede calcul ars por la fórmu se ula
en donde, n! = 1 x 2 x 3 x ... x n. (Una calc culadora pued e tener una te ecla x!) a) Verifíquese que
Introducción a la estadísttica 90 b) Verifíq quese que c) Calcúlese el valor d de
d) Calcúlese el valor d de
TABLAS S DE PROBAB BILIDAD BINO OMIAL (Esta seccción puede om mitirse sin pérrdida de continuidad.) Ahora qu ue se compren nden las ideas básicas que se e encuentran detrás d de una distrribución binomiial, se considerrará otro enfoque. En el ejerccicio 5-10 se menccionó a los diferentes problem mas que tienen n la misma solu ución. Lo anterior lleva a la idea de listar todos s los resultado os de estos cálculos en forma tabular. De esta a forma, si se observa o la tabla C-2 se enco ontrará la solución al ejercicio 5-10 localizando o los dos núme eros S = 4 y S = 5 correspond dientes a n = 5, 5 y p = .50. Ésstos son .1563 3 y .0313. Dado o que su suma es s .1876 la solucción del proble ema es, en form ma aproximada a, 19%. Los profesionales p d la estadísttica emplean con frecuencia tablas de de proba abilidad binom mial para resolvver problemass. Nótese que, al igual que en cualquier c tabla a, ocurren errorres por redond deo. Por ejemp plo, si se calcula la a solución del ejercicio 5-10,, en forma dire ecta, se obtiene e .15625 + .03125 5 = .1875, y no .1876. Tamb bién, ya que la a tabla no pue ede contener tod dos los valoress de probabilid dad posibles de p, muchas veces v es necesario encontrar esstos valores me ediante aproximación. Por ejemplo,
(.59)4 (.41)2 es aproximad damente igual a .3055. Sin embargo e ,
p = .59 no o se encuentra en la tabla. El valor v más cerca ano es .60. Al buscar b en la tabla la entrada corrrespondiente a p = .60 y n = 6, se encue entra que para S = 4 la solución es .3110. Si el e investigador no necesita re esultados muy preccisos, entoncess puede encon ntrarse el valor aproximado a partir de la tabla. (Con toda seguridad, el creciiente uso de las calculadorass reducirá la depen ndencia de los p profesionales de d la estadísticca con respecto o a estas tablas.)
EJEMPL LO 5 5-4
Se resolv verán las partess a), b), y c) de el experimento d de genética dell ejemplo 5-3, en donde p = .7,, y n = 6.
SOLUCIÓ ÓN
a) Para a encontrar P(S S = 3), se buscca en la tabla d de entrada corrrespondien nte a p = .70, n = 6, y S = 3. La solució n es .1852, o .19. b) Para a encontrar P(S S > 3), se suma an las entradass correspondientes a S = 4, 5, y 6. La solu ución es .3241 + .3025 + .1176 = .7442, o aproximad damente 0.19. c) Para a encontrar P((S ≥ 3), de nue evo se suma P P(S = 3) a la respuesta de la a parte b), obtteniéndose .18 852 + .7442 = .9294, o 93.
La distribución binomial 91
EJEMPLO 5-5
SOLUCIÓN
Sundat Motors tiene que re eemplazar las rótulas r de la pa arte izquierda de d la suspensión delantera d en el 39% de sus modelos del a año pasado. Acme Trucking adq quirió en el tran nscurso del año o pasado doce e automóviles SunS dat. ¿Cuál ess la probabilidad d de que Acmé é tenga que ree emplazar las ró ótulas de seis de e los automóviles? a) La solucción es P(S = 6) =
6
6
( (.39) (.61) = .1 1675 o alreded dor
del 17%. b) Con el empleo de las ta ablas es posible aproximar la a solución. Ya que q .39 no se encuentra e en la tabla, se utilizarán los valores v p = .40 0, n = 12, y S = 6. La solu ción es .1766 o aproximada amente 18%. De acuerdo con c el grado de exactitud que el profesiona al de la estadísstica necesite, esta a segunda solu ución, más ráp pida, puede enccontrarse muy cercana a la que requiere. AYUDAS PA ARA ESTUDIO O VOCABULAR RIO 1. Variable binomial b 3. Resultado o exitoso 5. Ensayo
2. Coeficiente binomial 4. Triángulo o de Pascal
SÍMBOLOS
1. n
22. S
4. p
55. q
EJERCICIOS S Resuélvase cualquiera c de llos ejercicios 5-11 a 5-27, utillizando para ellllo la tabla de prob babilidades bin nomiales.
EJERCICIOS S RELACIONA ADOS CON LA A ENCUESTA 1 Sea p = P((un estudiante e de la clase es mujer). a) Evalúese el e valor de p. b) Supóngase e que cada estu udiante escribe su nombre en u un pedazo de pa apel y que todos ellos se colo ocan en una caja c muy gran nde y despuéss se mezclan entrre sí. Extráigasse un papel, al azar, anótese e el resultado y entonces vuélva ase a colocar en la caja. Repítase el experimento dos ve eces más. ¿Cuál es e la probabilid dad de que los tres nombres sean de mujerr, de hombre o de el mismo sexo? ?
Introducción a la estadística
92 2 a) ¿Cuáles de las preguntas formuladas en la encuesta pueden utilizarse para un experimento binomial? b) Utilizando algunas de las respuestas dadas a la parte a), constrúyase un ejercicio similar al de la parte b) de la pregunta 1; es decir, defínase p, evalúese p y calcúlese la probabilidad de algún evento específico de su elección.
La dist d ribu ució ón norrmall Considérese el siguiente prroblema basad do en la extracción, al azar,, de una carta perrteneciente a u una baraja. Supóngase que sse define un éxito é como "extraerr un diamante". El experimento consiste en extraer una ca arta, ver si ésta ess un diamante,, colocarla de nuevo en la ba araja, mezclarr las cartas y extraer una más, ha asta completarr cinco experim mentos. Este ess un experimento binomial b con n = 5 y p = 0.25.. En consecuencia, si se efecctúa un análisis bin nomial se obtie ene el histogra ama que se mu uestra en la fig gura 6-1.
Introducción a la estadísttica 94 Si se lleva l a cabo u un experimento o similar pero con n = 10 o n = 20, entoncess se obtienen lo os histogramass que se muesttran en las figurras 6-2 y 6-3.
Si este e experimento se s repite 100 veces v (n = 100)), entonces exissten 101 resultado os posibles que e van desde ob btener 0 diama antes hasta 100 de éstos. En una u hoja de tam maño normal el histograma co orrespondiente a la distribución de éxitos tendrá intervalos ta an pequeños qu ue será difícil dibujarla. d En estoss casos, es pre eferible dibujar una curva con ntinua que se aproxime a a la forma del histogram ma. La curva se e dibujará unie endo los puntos s medios de cada intervalo a la a altura apropiada a (que es la altura de la barra a que correspond dería al histogrrama si se estu uviese dibujand do éste). Por eje emplo, si se ap proximan los trres histograma as mostrados con c anterioridad, entonces se obtienen las grá áficas que se m muestran en las figuras 6-4, 6-5 y 6-6. En forma a afortunada, y de acuerdo co on la teoría mattemática, se sabe que en ciertass condiciones la a curva utilizad da para aproximar un
La a distribución normal 95
histograma binomial tendrrá un perfil en forma de cam mpana y, de ma anera específica, se s encontrará m muy próxima a una curva conocida como curva c normal. (Nótese que no cu ualquier curva en e forma de cam mpana es una curva c normal.) La curva normal e es la gráfica de e una distribución de número os
Introducción n a la estadístic ca 96 que se con noce como dis stribución norrmal. Lo anterior significa qu ue si se tiene un prroblema que p puede considerrarse como de tipo binomial, entonces puede utilizarse tamb bién, para reso olverlo, una disstribución norm mal. Dado que tod dos los datos ne ecesarios para a utilizar la distribución norma al ya se encuentran tabulados, uttilizar ésta aho orra gran cantid dad de tiempo a costa de sólo un n poco de exacctitud.
La distribución normall es la distribuc ción más impo ortante en estadística. Uno de su us primeros uso os fue el de ap proximar a la distribución binomial y esto sigue e siendo muy im mportante. Sin embargo, tien ne otras aplicac ciones, algunas de d las cuales se estudiarán n en este libro o. De hecho, se ha encontrado o que muchos de los datos que q provienen de experimenttos reales se enccuentran, en fo orma aproxima ada, distribuido os normalmentte. La figurra 6-7 ilustra un ejemplo en el que las marrcas de la liga mayor de béisbol siguen un pa atrón aproximadamente norm mal. LA CURVA A NORMAL TE EÓRICA La distribu ución normal y su gráfica (véa ase la Fig. 6-8) tienen las sigu uientes propiedades importantess.
La a distribución no ormal 97 1. La disttribución es simétrica con re especto a la media m (esto sig gnifica que las s porciones izq quierda y derec cha de la gráfica son una la im magen de esp pejo de la otra). Por lo tanto, la media es igual a la mediana. 2. Los da atos que forma an parte de un na distribución normal tiende en a agrupa arse alrededorr de la media. 3. El reco orrido de los pu untajes no tien ne límites, pero o sólo un pequ ueño porcen ntaje de los dattos, menos de 3 en 1 000, se e encuentra a más m de tress desviacioness estándar de la media. Para los fine es de este libro o, la distribució ón normal será á definida mediante una tabla de e puntajes z y rangos de perc centiles. Se dijjo, en el capítu ulo 3, que una tabla de puntajes z y rangos de lo os percentiles determinan d la forma f de una distribución; cuanto os más puntajes z y rangos de los percentile es se tengan, mayyor será la exa actitud de la representación r de la distribu ución. Cuando se trabaja, no es n necesario dibujjar una gráfica precisa de la distrid bución norm mal; ésta pued de representarrse mediante cualquier c esqu uema que tenga, en e forma razon nable, una curvva en forma de e campana, ya a que todos los núm meros que se e emplean en cálculos basadoss en la curva no ormal se encuentran tabulados e en las tablas C-3 C y C-4.
USO DE LA A TABLA DE LA CURVA NORMAL N La tabla C-4 proporciona una lista de pun ntajes z, de -4 a 4. Para cada puntaje z se pro oporciona el áre ea bajo la curvva que se encuentra a la izquierda del puntaje. Se S ilustrará el e empleo de la ta abla con los sig guientes ejemplos.
EJEMPLO 6-1 SOLUCIÓN
Para una currva normal, enccuéntrese el áre ea situada a la izzquierda de z = 1. Se busca en n la tabla el va alor z = 1 y se e lee el corresp pondiente valo or del área, en este e caso .6413. A Algunas veces lo anterior se esscribe como Árrea (z = 1) = .8413. Esto significa que el 84.13% % del área bajo o la curva norm mal se encuentra a la izquierda d del valor z= 1 como c se muesstra en la figura a 6-9. Algunas inte erpretaciones d de lo anterior son s las siguien ntes.
1. El 84.13% de los miem mbros de una po oblación tienen n puntajes z me enores de 1. 2. Un miem mbro de la población que tien ne un puntaje z igual a 1 tien ne un rango de el percentil igu ual a 84.
Introducción a la estadístic ca 98 3. La pro obabilidad de se eleccionar alea atoriamente un miembro de esta e población n con un punta aje z menor de e 1 es .8413.
EJEMPLO O 6-2 2
Para una curva normal , encuéntrese e el área situa ada a la dereccha de z = –1.65 .
SOLUCIÓN N
Se busca en e la tabla el va alor z = – 1.65 y se lee Área(zz = –1.65) = .04 495. Ya que el valo or anterior es el e área que se e encuentra a la a izquierda de z, ésta debe resta arse de 1.000 00, que es el área total, parra obtener la que se encuentra a la derecha. D De esta forma, 1.000 - .0495 = .9505. Lo anterior se muestra en la figura 6-10 0. Alguna as interpretacio ones de este re esultado son las siguientes: 1. El 95.05% de los miiembros de una población no ormal tienen puntajes z mayo ores que -1.65 5.
2. La pro obabilidad de seleccionar alea atoriamente un n miembro de esta e población con un punta aje z mayor qu ue -1.65 es .9505.
EJEMPLO O 6--3 SOLUCIÓN N
Encuéntre ese el área por debajo de la cu urva normal en ntre z = -1.65 y z = 1. De la figura 6-11 se tien ne Área
Área a (2 = 1) = .84 13 (z = -1.65) = .0 0495 .7 7918
El área se e obtiene por ssustracción. De e esta forma, el e área es .791 18 y se nuestra en e la figura 6-1 11.
La distribución norm mal 99
En los ejemplos anterioress, el área se intterpretó como un porcentaje de los datos origin nales, como un rango del perce entil, y como un na probabilidad. Si se conoce cua alquiera de esstas cantidades s, entonces pu uede invertirse e el proceso para encontrar el va alor correspon ndiente del pun ntaje z.
EJEMPLO 6-4
En una distribución normal el e 10.2% de loss miembros de e la población tiet nen un puntaje e z menor que cierto puntaje z. Encuéntrese e el valor de éste último.
SOLUCIÓN S
Se utilizará el símbolo z? pa ara denotar estte puntaje descconocido. El prop blema es enco ontrar z?, como o se ilustra en la figura 6-12.
Ya que en la a tabla se propo orcionan las áre eas con cuatro cifras decimale es, se escribe 10..2% como .102 20. De esta fo orma se encue entra el valor coc rrespondiente e del puntaje zz, z ? = - 1.27.
EJEMPLO 6-5
S SOLUCIÓN
En una distribu ución normal ciierto puntaje z, z?, tiene la pro opiedad de que e si se escoge alea atoriamente otrro puntaje z la probabilidad de que este últim mo sea mayor que e z? es de 0.95 5. Encuéntrese e z?. Este puntaje se s ilustra en la a figura 6-13.
Ya que el 95% 9 de los pun ntajes z deben n mayores que e z ? , entoncess el 5% restante es e menor que z ? .AI buscar en n la tabla un área igual a .05 500, se observa que e el valor exactto no se encuen ntra en ésta. Sin n embargo, pue ede encontrarse un n área igual a .0495 que corrresponde a un puntaje z igua al a –1.65. Por lo tanto, t el valor de z, es, en fo orma aproxima ada, -1.65.
Introduccción a la estadísstica 100 LA TAB BLA DE LA CU URVA NORMA AL Y LOS PUNTAJES ORIGIINALES Muchos problemas tra atan principalm mente con los puntajes origin nales. En algunas ocasiones se proporcionan los puntajes o originales y se pide que se formu ule una propossición con resp pecto al porcentaje, al rango o del percentil o una probabilida ad. En otro tipo o de problemass se proporcion na el porcentaje, el rango del p percentil o una a probabilidad y se pide enc contrar el puntaje original. La tabla C-4 sólo proporciona p pu untajes z y porrcentajes. Para ressolver este tipo o de problemas s se deben con nvertir los punta ajes originales en n puntajes z y vviceversa.
EJEMP PLO 6-6
Se encue entra que los p pesos de cierta a población de e ratas de laboratorio se encuentrra normalmente distribuida † con µ = 14 on nzas y σ = 2 onzas. o Se denotará á a la població ón por DN(µ = 14, σ = 2). La expre esión DN(µ = 14, 1 σ = 2) indic ca tres cosas: 1. 2. 3.
La distribución es normal. La media m es igual a 14. La desviación d está ándar es igual a 2.
a) Una rata pesa 12 o onzas. ¿Cuál ess el rango del percentil p correspondiente a este e peso? b) En esta población, ¿qué porcenta aje de ratas se espera que ten ngan un peso enttre 10 y 15 onzzas? SOLUCIÓ ÓN
a) Recuérdese que la a fórmula para a convertir un puntaje origin nal en un puntaje z es
Por lo ta anto, el puntaje e z correspond diente a un pe eso de 12 onza as es
De la tab bla C-4 se tiene que Área(z = – 1) = . 1587. Lo o anterior se muestra m en la figura 6-14, 6 en donde e se han dibuja ado dos ejes ho orizontales, uno o para los puntajess z y otro corre espondiente a los puntajes originales. Esto significa que el 15.87% de la as ratas pesa m menos de 12 onzas. o Al redondea ar, puede decirse que el rango del percenttil correspondie ente a 12 onzas ess de 16, es de ecir, P 16 = 12 onzas o RP 12 = 16. †
En forma obvia, ésta es sólo o aproximadamente e normal. En gran p parte de la literatura a estadística se acostum mbra referirse a esttas distribuciones como c "normales" cuando es evidente e, dentro del contexto, que q las distribucio ones son necesariiamente sólo apro oximaciones a la distribución normal.
La d distribución norrmal
101
b) Se dibuja un esquema de la distribució ón correspondie ente a esta población (véase la a Fig. 6-15).
Dado que µ = 14, entonce es este valor co orresponde a z = 0. La desviac ción estándar es 2 onzas. Por lo tanto, el peso se s incrementa e en dos onzas cada vez que el pu untaje z se inccrementa en un no. Se desea calcular c el área a entre 10 y 15 5 onzas. Al con nvertir los punta ajes originales en puntajes z, se e obtiene:
De la tabla C-4 C Área(z = .5) = .6915 Área(z = -2)) = .0228. Al restar .6 6915 - .0228 sse obtiene .6687. Por lo tanto, se espera que alrededor de en 67% de tod das las ratas de e la población te enga un peso entre e 10 y 15 onza as, como se muestra m en la figura 6-16.
Introducció ón a la estadístiica 102
EJEMPLO O 6--7
Un técnico en control de e calidad prueb ba la exactitud de cierto tipo de d resistor, el cua al se supone qu ue tiene una res sistencia de 14 4 ohms. Se sabe que la distribució ón de resistenccias es aproxim madamente normal con una media m n de alrededor de 14.06 o ohms y una de esviación estánd dar a de, aproxximadamente, 1.73 ohms. a) ¿Cuál es la probabilidad de que al seleccionar al azar un resisto or, éste tenga una a resistencia m mayor o igual a 16 ohms? b) ¿Cuál es la probabilidad de que al seleccionar al azar un resisto or, éste tenga una a resistencia no o mayor que un ohm con respe ecto al valor de e la media?; es decir, d encuénttrese P(13.06 ≤ X ≤ 15.06).
SOLUCIÓN
a) Esta situación se ilustra en la gráffica de la figurra 6-17.
Primero se s encuentra el área a la izquie erda de 16 y pa ara hacer esto se s convierte el valor v 16 en un n puntaje z.
De la tabla C-4 se tiene e que Área(z = 1.12) = .8686. En este mom mento, el problema a puede repressentarse como o se ilustra en la figura 6-18. Por lo tanto, t la probab bilidad de que al seleccionar aleatoriamente e uno de los resisttores éste teng ga una resistencia igual o mayor m que 16 ohms o es 1.000 -.86 686 = .1314, o alrededor de .1 13. Si se denotta con x la resis stencia
La d distribución norm mal 103
de cualquier resistor r que se e selecciona, entonces e puede e escribirse P((X ≥ 16) = .13. b) La situació ón se muestra en la figura 6--19.
Al resta ar se obtiene u un valor de .43 380 o aproxima adamente .44. Por lo ta nto, P(13.06 ≤ X ≤ 15.06) = .44.
EJEMPLO 6-8
El profesor Frrankenstein tien ne un laboratorio en donde ccría vampiros. Las longitudes de los colmillos izzquierdos de ésstos se encuen ntran normalme ente distribuidos co on una media µ = 28 mm y de esviación estánd dar σ = 4 mm. a) El vampiro o favorito del prrofesor, Sheldo on, tiene un co olmillo cuya lon ngitud correspond de a un rango del percentil de e 84 (véase la Fig. 6-20). ¿Cu uál es la longitud del colmillo izzquierdo de Sh heldon? b) El profesorr Frankenstein sabe que el mo ordisco de un vvampiro cuyo colmillo tenga un na longitud que e se encuentre e dentro del 5% % más grande de la población, causará c una mu uerte instantánea. Encuéntresse la longitud del d colmillo izquierdo que delimitta al 5% del exttremo superior de la población.
Introducción a la estadística 104
SOLUCIÓ ÓN
a) El pro oblema es dón nde dibujar una a línea vertical de tal manera a que el 84% del área se encuentre a la izquie erda de ésta. En n la tabla C-4 se s busca un área igual a .8400 ((o la que se en ncuentre más p próxima a este e valor). En este caso, el valor más cercano es e .8389, que ccorresponde a z = .99 y, por lo tanto, la línea vvertical se dibu uja en z = .99. A continuación se con vierte este puntaje z en n un dato. Recu uérdese que la a fórmula para convertir c puntajess z en datos ess
X =
µ
+ 2σσ
De acue erdo con lo antterior, X = 28 + .99 (4) = 28 + 3.96 = 31.96 Por lo ta anto, la longitu ud del colmillo o izquierdo de Sheldon es, en e forma aproxima ada, 32 mm. b) Esta situación se m muestra en la figura f 6-21.
Ya que el área prroporcionada en !a tabla C-4 es la que se en ncuentra a la izq quierda, se bussca el valor 1.0000 - .0500 = .9500. Ya qu ue éste no se en ncuentra en la ttabla C-4, se escoge e el valor .9505, que corrresponde a z = 1-65. Al convvertir este pun ntaje z en longitud, se tiene
X =
µ
+
2σ
= 28 + 1.65 (4) = 34.6 mm m, o aproximad damente 35 mm m De acuerdo con lo an nterior, la longitud de 35 mm e es la que delim mita al 5% de la po oblación; es decir alrededorr del 5% de lo os vampiros tiienen un colmillo izquierdo mayyor que 35 mm m de longitud.
La distribución normal 105 AYUDAS PARA ESTUDIO
1. Curva normal
2. Distribución normal
SÍMBOLOS 1. Área(z = )
2. DN( µ =
,σ=
)
EJERCICIOS 6-1 En teoría, una distribución normal es una distribución infinita. Muchas de las distribuciones que se encuentran en estadística son finitas. Supóngase que una persona lanza una moneda un millón de veces y cuenta el número de caras que se obtienen. Sólo existen un millón uno de posibles resultados. Entonces, ¿qué es lo que debe entenderse cuando se dice que la distribución de estos resultados es normal? 6.2 Se denota por DN(µ = 18 in, σ = 2 in) una distribución de diámetros de pizzas. ¿Qué puede decirse acerca de esta distribución? 6-3 Para una distribución normal de pesos, encuéntrese el porcentaje de éstos cuando sus puntajes z son: a) Menores que z = 2.33. b) Mayores que z = 1.65. c) Entre la media y z = 2.5. d) Entre z = 0 y z = –1.6. e) Menores que z = –1.6. f) Mayores que z = – 1.6. g) Entre z = 2 y z = 2.5. h) Mayores que una desviación estándar con respecto a la media. 6-4 Para una distribución normal de las longitudes de las piernas de los venusinos, encuéntrese el porcentaje de longitudes cuyos puntajes z son: a) Mayores que z = –1.96. b) Menores que z = .23. c) Entre z = –2.13 y z = –1.45. d) Mayores que z = 3. e) A no más de dos desviaciones estándares de la media. f) Mayores que z = 6. Para la misma distribución, encuéntrese:
g) P(z< .5) i) P(.3
h) P(z> 1.5) J) P(z>7)
6-5 Para una distribución de diámetros de nueces, encuéntrense los porcentajes de los diámetros cuyos puntajes z son: a) Mayores que z = 1.96. b) Menores que z = —2. c) No están entre z = — 1 y z= + 1. Para la misma distribución, encuéntrese:
d) P(z< -3) f) P(z > 1.5) h) P(-3
e) P(z>0.15) g) P(2
Introducción a la estadística 106 6-6 a) Para una distribución de toneladas de maíz por acre de tierra, encuéntrese el rango del percentil de z = 2 más el rango del percentil de z = -2. b) ¿Qué ocurre si z = 2 y z = -2 se reemplazan por z = -3 y z = 3? 6-7 Para una distribución normal de kilometraje por galón de gasolina, a) ¿Cuál es el puntaje z para el que el rango del percentil es dos? b) ¿Cuál es el puntaje z para el que el rango del percentil es 95? c) ¿Cuál es el puntaje z para el que el rango del percentil es 50? d) ¿Cuál es el valor del puntaje z correspondiente a la mitad del 70% de la población? e) Si la distribución normal fuese de pesos de bolsas de azúcar, ¿cuáles son las respuestas a las partes a) hasta d)? ¿Por qué? 6-8 En una distribución normal, a) ¿Cuál es el puntaje z que delimita al 10% más alto de la población? b) ¿Cuál es el puntaje z que delimita al 20% más bajo de la población? c) ¿Cuál es el puntaje z que se encuentra a la mitad del 30% de la población? d) Si P(z < z?) = .45, encuéntrese z?. e) Si P(z >z ?) = .35, encuéntrese z?. f) Si P(–Z?< Z
6-12 Obténganse los puntajes z que corresponden a los datos proporcionados en la siguiente gráfica.
La d distribución normal 107
6-13 Boris Gudenuv G se inscribe en un concurso de lliteratura rusa a. El año pasado, los resultadoss de la compettencia fueron rrepresentados por DN (µ = 230, σ = 11). Si este e año los resulttados son similares y Boris de esea quedar clasifiicado dentro d del 10% más alto, ¿qué pun ntaje será lo sufis cientemente bueno para Gu udenuv? 6-14 La distribución de los resultados de una prueba de e moral es norm mal, con una med dia igual a 0 y σ = 10. ¿Qué resultados de elimitarán: a) el 5% que e se encuentra a a la derecha de la distribucción? b) el 5% que e se encuentra a a la izquierda a de la distribu ución? c) el 2.5% que se encuenttra a la izquierrda de la distribución? d) el 2.5% que se encuenttra a la derech ha de la distrib bución? 6-15 La distrribución de ga anancias de este e año para la concesionaria Aunty Pasto es e DN(µ = $24 4 500, σ = $320). La correspo ondiente a la conc cesionaria Au unt Chilada ess DN(µ = 23.90 00, σ= $600). a) ¿Cuál es la a probabilidad d de que el propietario de la con ncesionaria Aunty Pasto tenga ganancias g porr más de $ 25 200? b) ¿Cuál es la probabilidad de que el prop pietario de la co oncesionaria Au unt Chilada tenga a ganancias por más de $ 25 200? 6-16 Un técn nico en electró ónica repite un n experimento o gran número o de veces y en ca ada una de ella as anota una lectura del voltaje. El técnico encuentra que la serie de lectturas se encue entra, en forma a aproximada, normalmente disstribuida, con µ alrededor de e 74 voltios y σ de, aproxima adamente, 6 voltiios. a) ¿Cuál es el e porcentaje de e lecturas que se s encuentran entre e 70 y 80 volv tios? b) ¿Cuál es la l probabilidad d de que, al selleccionarse ale eatoriamente una u lectura, ésta sea mayor de 86 voltios? c) ¿Cuál es la probabilidad d de seleccion nar, al azar, un na lectura que no se encuentre e en el intervalo entre 69 y 79 voltios? 6-17 Se sabe e que los resulltados de cierta a prueba sang guínea se encu uentran normalm mente distribuid dos, con µ = 60 6 y σ = 18. a) ¿Qué porcentaje de los resultados es stá entre 40 y 80? 8 b) ¿Qué porcentaje de los resultados es stá entre 76 y 78? 7 c) ¿Qué porc centaje de los resultados es mayor que 10 00? d) ¿Qué porcentaje de los resultados es s menor que 60 0? e) ¿Qué porcentaje de los resultados es stá entre 78 y 80? 8 f) ¿Qué porccentaje de resu ultados se enccuentra fuera de los "límites norn males" de 30 0 a 90?
Introducción a la estadística 108 g) ¿Cuál es la probabilidad de que al seleccionar aleatoriamente una muestra de sangre, el resultado de ella se encuentre dentro de los límites normales de 30 a 90? h) ¿Qué resultado de la prueba tiene un rango del percentil de 5? 6-18 Se efectuó un estudio para saber durante cuántas horas de clase los alumnos de una preparatoria piensan en el sexo. Los resultados se encontraron normalmente distribuidos con µ = 2.7 horas y σ = 0.6 horas. ¿Cuál es el porcentaje de estudiantes que piensa en el sexo: a) más de una hora diaria? b) más de 4.5 horas diarias? c) entre dos y tres horas diarias? 6-19 En un hospital, el peso de los recién nacidos se encuentra distribuido normalmente con µ = 7 libras y σ = 15 onzas. Denótese con X el peso de un recién nacido seleccionado al azar. Encuéntrense las siguientes probabilidades. a) F(X ≥ 8 libras) b) P(X ≤ 5 libras, 5 onzas) c) P(6 libras ≤ X ≤ 8 libras) d) Si el peso de un recién nacido corresponde al percentil 70°, encuéntrese su peso. (Es decir, encuéntrese P70.) e) Denótese con W un peso fijo. La probabilidad de seleccionar al azar un recién nacido con un peso menor que W es de .70. Encuéntrese el valor de W. [Es decir, encuéntrese W tal que P(X < W) = .70.] f) Encuéntrese el valor de W tal que P(X < W) = .10. 6-20 La duración de las lámparas para filmación de cierta marca tiene una distribución normal con µ = 210 horas y σ = 56 horas. Denótese con X la duración de una lámpara seleccionada al azar. Encuéntrese las siguientes probabilidades.
a) P(X≥300) b) P(X ≤100)
c) P(100≤X≤300) d) La compañía garantiza que la duración de sus lámparas es, de por lo menos, 120 horas. De acuerdo con la garantía, ¿qué porcentaje de lámparas, se espera reemplazar? 6-21 El ingreso de los ejecutivos de una gran compañía se encuentra normalmente distribuido, con µ = $ 32 800 y a = $ 3000. a) Existe una opinión tácita de que un ejecutivo "ha triunfado" si su sueldo se encuentra dentro del 15% que corresponde a los más altos. ¿Cuál debe ser el salario de un ejecutivo para que se considere como triunfador? b) El 25% de los ejecutivos tienen los salarios más altos y por lo tanto derecho al comedor de ejecutivos. Victoria tiene un sueldo de $ 35 080. ¿Tiene derecho al comedor? c) A causa de la recesión se espera que abandonen la compañía aquellos ejecutivos que tengan un salario por debajo del 5% de la distribución. ¿Qué sueldo delimita a este porcentaje? d) El porcentaje de ejecutivos que gana un sueldo mayor al del 80% de la distribución salen a comer. El 30% que se encuentra por debajo de éstos, manda traer su comida. El restante 50% la trae de su casa. Encuéntrense los dos salarios que delimitan a estas categorías.
La distribución no ormal 109
6-22 ¿Fa also o verdadero? Para una curva normal, a) El área entre e z = 0 y z = 1 es igual al área entre e z = 0 y z = - 1. b) El área entre e z = 0 y z = 1 es igual al área entre e z = 1 y z = 2. 2 c) El rango del percentil de z = 1 es igual al rango o del percenti l de z = -1. 6-23 Las siguientes gráfica as representan n la distribució ón de ingresoss en dos poblacion nes. Analícense e todas las dife erencias entre las dos distribu uciones.
6-24 La siguientes gráficass representan la distribución n de calificacio ones en una gran universidad. Una gráfica es para p los cursoss de primer año o de licenciatura. La L otra pertene ece a cursos más m avanzados. Analícense to odas las diferencia as entre las do os distribucione es. Califficaciones de los cursos c de primer año de licenciatura
Calificacione es en cursos avanzados
Introducció ón a la estadístiica 110
6-25 En una u distribució ón de calificaciiones, µ = 80 y σ = 10. No ob bstante, no es cierrto que el 34% de d los valores de d la distribució ón se encuentre en entre 80 y 90. De D hecho, no e es posible enco ontrar el porcentaje de calificcaciones que se en ncuentra entre 80 y 90 sólo co on la información anterior. ¿P Por qué? 6-26 En una u escuela, la a distribución de los salarios d de los profesorres tiene una media µ = $ 17 00 00 y una desv viación estánda ar σ = $ 2 400 0. ¿Qué porcentaje de los professores tienen un n ingreso entre e $ 17 000 y $ 19 000? 6-27 Catt Moran es insstructor de navvegación en la a Marina y ha notado que, en el e primer viaje d del principiante, el bote siemp pre se vuelca. También T ha observ vado que el tie empo que los principiantes tardan t en zozo obrar se encuentra a normalmente e distribuido con c una media a igual a 21 minutos y una varia anza de 16. a) ¿Cuáll es el rango del percentil correspondiente a un principian nte que permanece a flote dura ante media horra? b) ¿Es más m probable que q el principiante naufrague durante los prime ros 15 minutos o duran nte los segundos 15 minutoss? 6-28 Una a persona quiere escribir un folleto técniico que descrriba una nueva pla ancha de vaporr. Encuentra qu ue cuando se llenan 15 plancchas con siete onzzas de agua de estilada, éstas operan durante un promedio de 17 minutos antes a de que cconsuman toda a el agua. Tam mbién encuentra a que la distribució ón de los tiemp pos es aproximadamente norm mal, con s = 2 minutos. m Por lo ta anto decide escribir e que las planchas funcionarán "durante " aproximadamente 20 minutos". m ¿Qué porcentaje de las personas que q utilicen este modelo enconttrarán que la affirmación dada en el folleto no o es verdadera? (Es ( decir, sus p planchas opera arán durante un n periodo meno or de 20 minutos.) 6-29 A co ontinuación se e proporcionan los datos para a el ejemplo de e Sandy Koufax dado en este ca apítulo (Fig. 6--7):
Encuéntrrese la media y la desviació ón estándar de e estos 110 números. Sandy ba ateó un promed dio de cinco hits por juego ccon una desvia ación estándar de e 2.3. a) A parttir de los datoss, calcúlese ta anto el puntaje e z como el ran ngo del percentil para seis hits.. b) Encué éntrese el rang go del percenttil en la tabla C C-4 para el puntaje z calculado o en la parte a). Compárense los dos rangos de los percentiiles encontrados s. c) Repíta anse las parte es a) y b) para distintos núme eros de hits. Lo L anterior, ¿con nfirma o desmiiente la impres sión visual de que q la distribucción es aproxima adamente norm mal?
La distribución normal 111
EJERCICIOS RELACIONADOS CON LA ENCUESTA 1 Las alturas de las mujeres que están en la muestra, ¿parecen estar distribuidas normalmente? 2 ¿Es posible pensar que las alturas de todas las mujeres de la escuela tienen una distribución, en forma aproximada, normal?
Ap prox xima ació ón de e la dist d tribu ució ón bin nom mial me edian nte el empleo o de e la dis strib buciión norrmall El doctor I.M. Normal, un n reconocido in nvestigador en p psicología, lleva a a cabo un experim mento con rata as. Cada rata se e coloca en un laberinto en form ma de T. El investigador supone que, por azar,, es igualmente e probable que e la rata tome el ca amino de la de erecha que el de la izquierda. Nótese que ésste es un experimento binomial ya a que se tienen sólo dos resulttados y si se co onsidera "izquierda a" como un éxiito, entonces P(la P rata da vue elta a la izquierrda) = p = 1/2 y P(la P rata da v uelta a la derrecha) = q = 1 1/2.
El docttor Normal colloca 20 ratas en e el laberinto o y nota que nueve de ellas dan vuelta a la izq quierda. Entoncces pide a su a ayudante de lab boratorio que repita a el experimento con 20 ratas s en 200 ocasio ones. El ayuda ante lleva una relacción de 200 núm meros la cual indica, para cada a experimento, cuántas ratas dierron vuelta a la izquierda. En la siguiente tab bla se proporciiona una lista parciial de los resulttados en donde e S representa e el número de éxitos. é
Aproxima ación de la disttribución binom mial mediante el empleo de la d distribución norrmal 113
número de experimento o
numero de d éxitos S
1
9
2 3 4 5 6 • • • 200
10 11 10 9 16 • • • 8
El ayudante ca alcula la media a y la desviación n estándar para a los 200 núme eros. El valor de la a media es alre ededor de 10 y la desviació ón estándar ess, en forma aproxim mada, 2.3. Si se consid dera que coloca ar a 20 ratas en n un laberinto en e forma de T es e un experimento binomial, b con p = 1/2 y n = 20 0 y se repite ésste muchas ve eces, entonces pued de esperarse que el número medio m de ratas que dan vuelta a a la izquierda sea aproximadame ente 10. Los prrofesionales de e la estadística han demostrado matemáticamen m nte, que si un experimento e bin nomial se repitte un número muy grande g de vece es, entonces, en e teoría, el núm mero promedio de éxitos es igua al a np y su de esviación está ándar es Lo anterior se escribe como El ayudante e repitió el expe erimento mucha as veces. Por lo o tanto, las fórm mulas anteriores de eberán proporccionar, en form ma aproximada a, los mismoss resultados que los obtenidos experimentalm mente.
EJEMPLO 7-1
SOLUCIÓN 1
Para el expe erimento anteriior: a) Cuál es la probabilidad d de que 16 o má ás ratas den vuelta a la izquierrda? b) ¿Cuál ess la probabilida ad de que 16 o menos ratas d den vuelta a la a izquierda? Al utilizar el triángulo de P Pascal
Introducció ón a la estadístic ca
114 a) Al sum mar las probab bilidades ante eriores, se tien ne que P(S > 16) = .0013, que e al redondearrse es .001, o alrededor a de un na vez por cad da mil. b) La tabla anterior pue ede continuarse para valore es de S = 16, 15, 14, . . . , 0 y entonces e calcullar las probabilidades corresp pondientes. Si se suman éstass, el resultado será s .9987. El problema p puede e resolverse en forma más rápida simplemente e al restar 1 - .0 0013 = .9987, o alrededor de e .999. SOLUCIÓN N 2
Solución aproximada a uttilizando la currva normal En ciertas condiciones (q que se analizarán más adelan nte), la distribu ución binomial se encuentra mu uy cercana a la a normal. Ya qu ue n = 20 y p = 1/2, se tiene que µs = np = 10 y σs = √npq = √5 √ = 2.24. La pregunta es, ¿dónde ¿ colocar la a línea que separa el área correspondient c te a más de 16 1 ratas (véase la Fig. F 7-1)? Dado o que el númerro de éxitos es un número entero y la distribució ón normal tom ma en cuenta todos los núm meros incluyen ndo los racionales s, debe adaptarse una a la ottra. El primer problema p es en ncontrar P(S > 16),, y el segundo P(S ≤ 16).Esta as dos probabillidades deberá án tener una suma a igual a uno.
Si se em mplea S = 17 y S = 16 para resolver el prim mero y segundo o problemas, tal como c se hizo en la solución n que utilizó all triángulo de Pascal, la suma de d las dos resp puestas no será igual a uno. Lo anterior se deberá a que no está incluido e el hueco que ex xiste entre los números 16 y 17 (Fig. 7-2).
Aproxima ación de la distrribución binomial mediante el empleo de la d distribución norm mal 115
Para evitar este e error, se dibuja d una líne ea que se encu uentre en la pa arte media del hue eco entre 16 y 17, es decir, en 16.5 (Fig. 7-3 3) que separa los resultados favvorables, 17, 18 8, 19 y 20, de los no favorab bles, 0, 1, 2, . . . , 16. Recuérdesse que el valor 16.5 es el lím mite en el histo ograma binom mial, y éste último se s aproxima p por medio de una u curva norm mal. Para estim mar P(S > 16), en donde d S es una a variable de una distribución b binomial se calccula P(S ≥ 16.5) en n donde S es un na variable de una distribució ón normal. Ya que q S = 16.5 es u n dato,
De la tabla C-4, se tiene que e el área corre espondiente a z = 2.90 es .99 981 (véase la Fig. 7-4). Por lo ta anto, P(S ≥ 16 6) es, aproximadamente, P(S S≥ 16.5) = 1 - .99 981 = .0019, o a alrededor de .0 002. Nótese qu ue las respuestas de la solución n 1 y de la 2, difieren d por sóllo .001.
La segunda a solución proporciona un resultado que es lo suficienteme ente exacto para muchos m problemas prácticos y que, ademá ás, es mucho más m fácil de calcula ar. Lo poco que e se pierde en exactitud se encuentra comp pensado por la fa acilidad de cálcculo y, en forma especial, cua ando el valor de d n es grande.
Introducciión a la estadísttica 116
CONDIC CIONES PARA APROXIMAR UNA DISTRIB BUCIÓN BINOM MIAL POR ME EDIO DE UNA NORMAL ¿Cuándo o puede afirma arse que esta aproximación a e lo bastante exacta? es e Considérense los histo ogramas de do os distribucione es binomiales.
EJEMPL LO 7-2 7
Para n = 11, p = 1/2, se obtiene
El histog grama correspo ondiente a esta as probabilidades se muestra en la figura 7-5.
EJEMPL LO 7 7-3
Para n = 3, p = 1/4, sse tiene que
Aproximac ción de la distriibución binomia al mediante el empleo e de la dis stribución norm mal 1 117
La gráfica de estos datos se e muestra en la l figura 7-6.
La curva esq quematizada e en el primer hisstograma se ve e como aproxim madamente norm mal, mientras que q para el seg gundo histogra ama no ocurre e lo mismo. La curvva no es siméttrica, aparece sesgada s a la izzquierda debido oa que la media = np = 3(1/4 4) = 3/4 se en ncuentra muy cercana a ce ero. Siempre que np n sea muy pe equeño, ocurre e lo anterior. Po or otro lado, si el valor de np es muy grande, la a media tendrá á un valor cerca ano a n y la currva estará sesgada a la derecha a. En este casso el valor de nq será muy pep queño. Una buena regla a seguir y que asegura ará que el histtograma binom mial sea, en forma aproximada, no ormal, es que los l valores de np n y nq sean mam yores que cinco. Si np o nq tie ene un valor igu ual o más pequ ueño que cinco, la aproximación no n será lo suficcientemente ce ercana y el prob blema tendrá que q resolverse med diante el emple eo del triángulo o de Pascal. E En el ejemplo 7-2, 7 np = 5.5 y nq = 5.5, ambas cantidades son mayores que e cinco, mientrras que en el ejem mplo 7-3 np = 3/4, que es un valor muy p equeño.
EJEMPLO 7-4
Considérese el e siguiente eje emplo que ilusstra cómo pue ede manejarse e el problema de aproximar a una distribución binomial b por medio de una normal. Una pers sona se dirije h hacia su trabajo, en automóvvil, todos los días durante la hora a de mayor trá ánsito por la ma añana. Debe attravesar un cru uce de ferrocarril que q siempre tie ene una gran afluencia a de ve ehículos. Observa que el 30% de e las veces no e es posible cruzzar la vía en fo orma inmediata a. A causa del tráns sito, el tiempo que q requiere atravesar el cruce es aleatorio. a) Encuéntres se la probabilid dad de que en un día cualquiera el conducttor llegue al cruce e y lo atraviese e inmediatame ente. El siguiente e mes se dirije e a su trabajo o en automóviil sólo 19 vec ces. Denótese con S el número de d veces en qu ue al llegar al cruce fue posible atravesarlo inm mediatamente.. b) Encuéntrese P(S < 12). c) Encuéntrese la probabiliidad de que S tenga, por lo menos, un valor igual a 15; es decir encuénttrese P(S ≥ 15 5).
Introducciión a la estadística 118
d) Encu uéntrese P(14 4≤ 5≤ 18). e) Encu éntrese P(S = 16). f) Cierto o número de éxxitos es tan alto o, y por lo tanto o tan poco común, que sólo exissto una probab bilidad de alrededor de .05 de e que ocurra. ¿Cuál ¿ es el númerro de estos éxxitos? En símbolos: Encué éntrese S? tal, que P(S > S?) sea aproxima adamente igua al a .05. SOLUCIÓ ÓN
a) p = P(atravesar P in nmediatamentte) = 1 - .30 = .70 = .7
b)
q = .3 n = 19 np = 19(.7) = 13. 3 nq = 19(.3) = 5.7 7
Dado que tanto 13.3 como 5.7 son mayores que ccinco, puede uttilizarse la distribuc ción normal como una aproxiimación de la b binomial.
Ya que los anteriores sson números enteros, F(S < 12) debe encon ntrarse utilizando un límite de 11.5, que es el que q separa los resultados favo orables 0, 1, 2, . . . , 11 de los no favorables 12, 13, . . . , 19. Lo o anterior se muestra en la figura a 7.7.
El áre ea a la izquierd da de -.90 es Área(z Á = -.90) = .1841, o alrededor de .18. Por P lo tanto, P P(S < 12) es, en forma aprroximada, P(S S ≤ 11 5) = .18 8. c) Para encontrar e P(S ≥ 15) se utilizarrá el limite 14.5 5, que es el que e separa a los re esultados favo orables de los no n favorables ((Fig. 7-8).
Aproxima ación de la distrribución binomial mediante el empleo de la distribución normal 119
La respuesta a es P(S ≥ 15)), que es aprox ximadamente P(S ≥ 14.5), = 1 -.7257 = .2743, o alrededo or de .27.
d) Para enccontrar P(14 ≤ S ≤ 18), se e calculará P( 13.5 ≤ S ≤ 18 8.5). El área co orrespondiente e se muestra en n la figura 7-9.
El área en ntre 13.5 y 18.5 se obtiene al a restar los valores de las árreas y la respu uesta es, en fo orma aproxima ada, P(13.5 ≤ S ≤18.5) = .45 555, o alrededo or de .46 (Fig. 7-10).
Introducció ón a la estadístiica 120
e) Para encontrar P(S S = 16), se utilizarán los lím mites 15.5 a 16 6.5 (Fig. 7-11).
P(S = 16)) tiene un valo or aproximado o de P(15.5 ≤ S ≤ 16.5) = .0 0809, o alrededorr de .08. f) Para en ncontrar el núm mero de éxitos s S? tales, que e P(S > S?) = .05, se busca en la tabla C-4 4 un área igual a .9500. Esta sse muestra en la figura 7-12.
El área a .9500 corressponde a un pu untaje z de 1.6 65. Para conve ertir este valor en e el número d de éxitos se utilizará u la fórm mula S? = µ-s + zσs. El resulta ado es
S ? = 13.3 + 1.65(22) = 13.3 + 3 .30 = 16.6 De estta forma, los re esultados 17, 18 y 19 ocurrirán sólo el 5% % de las veces.
Aproxim mación de la disstribución binom mial mediante el e empleo de la distribución no ormal 121
AYUDAS PA ARA ESTUDIO O SÍMBOLOS 1. n FÓRMULAS
EJERCICIOS S 7-1 Considérrese el siguien nte problema binomial. b Duran nte varios año os, el porcentaje de e estudiantes q que aprueban la materia de Cálculo C I con el profesor Tomch hick es de .430 0. Si 12 estudiantes se insccriben en su cllase, ¿cuál es la probabilidad p de que aprueben n 10 o más? Si el problema se resuelve por medio del triángulo de Pascal, la respuesta es e .005. Al utiliz zar la tabla de prob babilidades bin nomiales (con p = .40) se o obtiene un valo or de .003. La apro oximación norm mal proporciona una respuessta igual a .006 6. De las respuesta as anteriores, ¿ ¿cuál es la máss exacta?, ¿cuá ál la menos exa acta? Formúlese un comentario. 7-2 Resuélva ase este proble ema primero mediante el emp pleo de las técn nicas binomiales, ya y sea con el ttriángulo de Pa ascal o la tabla a de probabilida ades binomiales y, y segundo, po or una aproxim mación normal.. Leticia lanza a una moneda para a decidir si com merá en un re estaurante chin no (cara) o en uno griego ("sello o"). Leticia dessea planear de esta manera ssus próximas doce d comidas. ¿C Cuál es la prob babilidad de qu ue coma en el restaurante chino c más de nuevve veces? Formúlese un com mentario con rrespecto a las respuestas. Sug gerencia: "Máss de nueve vecces" significa 10, 1 11 o 12. 7-3 Un emple eado de superrmercado, Ken nt, puede traba ajar con cualqu uiera de los dos co ontadores de tie empo parcial, Lois L o Lañe. Kent decide con quién q trabajará cad da día utilizando o el disco que a continuación se muestra.
a) Encuéntr ese p = P(Ken nt trabaja con Lois). b) Encuéntre ese q. Si Kent hace uso del disco 14 veces para determinar con n cual contador trabajará cada día de las próximas dos sem manas, c) Justifíque ese el empleo o de la aproxim mación norma l a la distribucción binomial. d) Encuéntre ese µs. e) Encuéntre ese σs. f) Encuéntre ese la probabilid dad de que Lois trabaje con Kent K siete o menos días.
Introducción a la estadística
122 7-4 La probabilidad de obtener un siete al tirar dos dados cargados es igual a .3. Si los dados se tiran 20 veces, a) Justifíquese el empleo de la aproximación normal a la distribución binomial. b) Encuéntrese µs. c) Encuéntrese σs. d) Encuéntrese la probabilidad de tirar más de tres sietes. e) Encuéntrese P(S > 9), en donde S es el número de sietes tirados. f) Si P(S > S?) tiene un valor aproximado de .99, encuéntrese el número entero S?. 7-5 Se lleva a cabo un juego entre dos personas en donde cada una muestra, al mismo tiempo, 2,1, o 0 dedos. Si el número total de dedos es impar, entonces la persona designada como "impar" gana. Si el número total de dedos es par, entonces, la otra persona, designada como "par", gana. a) Hágase una lista de todos los resultados posibles. b) Demuéstrese que P(impar) = 4/9. Si Mario y Gina juegan 18 veces, encuéntrese la probabilidad de que: c) se tengan impares más de 14 veces. d) se tengan impares nueve veces. e) se tengan impares, 7, 8 o 9 veces. 7-6 Se sabe que al salir de la línea de producción el 30% de los automóviles fabricados por la compañía Necromate Auto están defectuosos. (Así que puede afirmarse que la probabilidad de que un automóvil esté defectuoso al salir de la línea de producción es de .30). a) ¿Cuál es la probabilidad de que, de 900 automóviles, el 40% sean defectuosos? (Esto significa que más de 360 automóviles son defectuosos.) b) ¿Cuál es la probabilidad de que más de un 33% de los 900 automóviles se encuentre defectuoso? c) ¿Cuál es la probabilidad de que menos del 28% de los 900 automóviles se encuentre defectuoso? 7-7 La probabilidad de que un hombre de 40 años muera antes de cumplir 60 es .17. Una compañía asegura a 1 200 empleados que tienen 40 años de edad. a) ¿Cuál es la probabilidad de que menos del 15% de estos hombres muera antes de los 60 años? b) ¿Cuál es la probabilidad de que más del 20% muera antes de cumplir los 60 años? 7-8 En ciertas condiciones, la probabilidad de que un renacuajo sobreviva y madure hasta convertirse en una rana es de .10. Si se tienen 100 renacuajos. a) ¿Cuál es la probabilidad de que sobrevivan más de 14? b) ¿Cuál es la probabilidad de que ninguno sobreviva? Sugerencia: puede interpretarse "ninguno" como "menos que uno". c) Si la probabilidad de que por lo menos S ? renacuajos sobrevivan es de .95, encuéntrese el número entero S?. 7-9 El Journal of Morbidity Tables indica que la probabilidad de que un adolescente contraiga acné es de .12. Si se efectúa un examen médico a
Aproximación de la distribución binomial mediante el empleo de la distribución normal 123
100 adolescentes seleccionados al azar, ¿cuál es la probabilidad de que más de 20 adolescentes tengan la enfermedad? 7-10 Para cierta enfermedad, la mitad de las víctimas se recupera en una semana sin recibir tratamiento. El doctor Quack desarrolla un tratamiento para esta enfermedad. (La probabilidad de recuperarse de la enfermedad con su tratamiento sigue siendo .5. No hay nada mejor que hacer.) Veinte pacientes reciben el tratamiento. De éstos, 12 sanan en una semana. El doctor afirma que este hecho prueba que su tratamiento es bueno. ¿Cuál es la probabilidad de que por lo menos 12 de las 20 personas sanen sin recibir tratamiento? 7-11 Rosencrantz tira una moneda 10 veces. En todas las ocasiones el resultado fue cara. Él afirma que la moneda es legal. ¿Es esto posible? ¿Puede creérsele? (Justifíquese matemáticamente la respuesta). 7-12 Considérese el problema de las ratas que se encuentra al principio de este capítulo, ¿cuál podría ser la reacción de una persona que efectuase el experimento tres veces y en cada una de éstas observara que más de 16 ratas dan vuelta a la izquierda? 7-13 Bob y Gene juegan extrayendo una carta de una baraja común la cual vuelven a colocar después de observarla. Si la carta es una espada, Bob gana. Si no lo es, entonces Gene es el que gana. De las últimas 24 extracciones, Bob ha ganado en 18. a) Si p = P(Bob gana) = 1/4, encuéntrese la probabilidad de que Bob gane 18 o más veces en 24 juegos. b) Si p = P(Gene gana) = 3/4, encuéntrese la probabilidad de que Gene gane seis o menos veces en 24 juegos. 7-14 Repítase el ejercicio 5-10) utilizando la aproximación normal. Explíquense todas las diferencias entre las respuestas obtenidas por el método binomial y las proporcionadas por la aproximación normal. Reformúlese el problema. Si para cada embarazo la probabilidad de tener una niña es 1/2, ¿cuál es la probabilidad de que una pareja que no tiene hijos y que planea tener cinco, tenga por lo menos cuatro niñas? ¿qué porcentaje se espera tener de parejas con cinco hijos de los cuales cuatro o cinco son niñas? (La respuesta proporcionada por el método binomial fue .1875.) 7-15 Repítase el ejercicio 5-23 utilizando la aproximación normal. Explíquense todas las diferencias entre las respuestas obtenidas por el método binomial y las proporcionadas por la aproximación normal. Reformúlese el problema. Un fabricante asegura que cuatro de cada cinco dentistas recomiendan goma de mascar a sus pacientes. Suponiendo que la afirmación anterior es verdadera, encuéntrese la probabilidad de que al seleccionar aleatoriamente un grupo de 20 dentistas 16 o más recomienden goma de mascar a sus pacientes. (La respuesta proporcionada por este método fue .63.) 7-16 Una distribución grande del número de cacahuates en una bolsa de la marca Sower es aproximadamente normal, con µ = 120 y σ = 15. Supóngase que se selecciona una bolsa al azar y se denota con x el número de cacahuates contenido en ésta. a) Encuéntrese P(X < 100). b) Encuéntrese un número A tal que P(X > A) sea aproximadamente
Introducción a la estadística
124 igual a .35. Sugerencia: el número de cacahuates en la bolsa es un número entero. c) Repítanse las partes a) y b) si la distribución se refiere al peso, en gramos, de una bolsa de cacahuates. Sugerencia: el peso es continuo. 7-17 Supóngase que se tienen los datos de una distribución continua. Esta es aproximadamente normal, con una media igual a 14 y una desviación estándar de tres. a) Si se selecciona, al azar, un número X de esta distribución, encuéntrese P(X> 18). b) En esta distribución existe un número A con la propiedad de que P(X < A) = .4. Encuéntrese el valor de este número. c) Repítanse las partes a) y c) si la distribución consiste sólo en números enteros. 7-18 Se sabe que el 20% de los cierres EZ son defectuosos. Si se examina una gran cantidad de muestras aleatorias, cada una de ellas con 100 cierres. a) Encuéntrese el número promedio de cierres defectuosos en las muestras. b) Encuéntrese la desviación estándar del número de cierres defectuosos. c) Encuéntrese la probabilidad de que en una muestra aleatoria más de 25 cierres estén defectuosos. d) La probabilidad de que más de S? cierres, en una muestra aleatoria, se encuentren defectuosos es, en forma aproximada, igual a .30. Encuéntrese el número entero S?. 7-19 En una feria, los premios se encuentran en cajitas idénticas, sin marcas, de tal manera que 9 de cada 10 contienen un premio equivalente a 10 centavos, mientras que la cajita restante tiene un premio de 50 centavos. Existen cientos de estas cajitas distribuidas en cada uno de los juegos que tiene la feria. Por 30 centavos, Silvia escoge una cajita y obtiene un premio. a) Si ella sólo tiene una oportunidad, ¿cuál es la probabilidad de que su premio tenga un monto mayor al que pagó por jugar? b) Si en la tarde del sábado 500 personas juegan sólo una vez, ¿cuál es la probabilidad de que más del 12% obtenga un "buen" premio? c) ¿Cuántas veces deberá jugar Silvia para tener una oportunidad mayor del 50% de ganar, por lo menos, un premio de 50 centavos? Sugerencia: Lo anterior significa que la probabilidad de no obtener un "buen" pre mio debe ser menor del 50%. 7-20 G. Whilakers acude a un salón de diversiones. En este sitio existe un juego conocido como Skee-Boll, en el que el jugador gana cuando obtiene más de 200 puntos. El señor Whilakers nota que, en total, el 80% de los juegos son ganados por el jugador. En una noche se efectúa un promedio de 600 juegos. ¿Cuál es la probabilidad de que se tengan más de 500 ganadores? 7-21 a) En cierta comunidad, la probabilidad de que una persona sea portadora de la fatal enfermedad de Tay-Sachs es de uno en 30. Si se examina a 300 personas, ¿cuál es la probabilidad de que más de 10 sean portadoras de esta enfermedad?
Aproxima ación de la distrribución binomia al mediante el empleo e de la distribución norm mal 125 b) Si se casan dos persona as de esta com munidad, ¿cuál es la probabiliidad de que amba as sean portado oras de la enfe ermedad? c) S Si los padres de e un niño son, ambos, portadore es de la enferm medad, entonce es la probabilidad de que éste contraiga c la enffermedad es de e 1/4. ¿Cuál ess la probabilidad d de que el primer hijo de una pa areja de esta co omunidad teng ga la enfermed dad? Sugerencia: Esta E es una se ecuencia de evventos. Primerro, ambos pad dres deben ser po ortadores; desspués, los dos tendrán que e procrear un hijo enfermo. Utilícese la regla de multiplicación mencionad da en el capítulo 4 para obtener la probabilidad d de una secue encia de evento os. 7-22 Recienttemente se efe ectuó en la ciudad de Goth ham una eleccción. Los hechos fu ueron los siguie entes: votaron 10 1 000 ciudada anos; 4 900 a fa avor de Elizabeth Buenalma y 5 100 a favo or de Jaime M Malmuchacho. La elección fue im mpugnada y se e encontró que 1 000 ciudadanos habían vottado en forma ileg gal. La señora a Buenalma pid de que se efe ectúe de nuevo o la elección, pero o el juez Negro falla en conttra de su peticción. El argume ento del juez fue que no era prob bable que una nueva n elección entre los votan ntes legales camb biase el resulta ado final. Utilizando p = P(un ciuda adano vota a fa avor de Buena alma) .49. y suponiiendo que n = 1 000, efectúe ense los siguientes cálculoss. Si se excluyen al a azar 1 000 vo otos, Buenalma a necesita, por lo menos, 4501 1 de los 9 000 parra ganar. Esto significa que de d los 1 000 vo otos eliminado os al azar, menos de 400 pertene ecen a Buenalma. Encuéntre ese la probabiliidad de que, de lo os 1 000 votoss eliminados, menos de 400 0 sean a favorr de Buenalma. EXAMEN DE E LOS CAPÍTU ULOS 5, 6 Y 7 1 a) El pesso de los disfra aces de Disne eylandia se encuentra, en fo orma aproximada, distribuido norrmalmente. ¿Qué porcentaje tiene un peso mayor de 1.5 ve eces la desviacción estándar por encima de e la media? b) Si el peso promedio es d de 6.7 libras y σ = 2.3 libras, ¿qué tan pesa ados son los disfra aces más allá del 90% de la a distribución? c) ¿Qué pesso delimita al 1 15% de los dis sfraces más lig geros en esta distribución? d) ¿Cuál es la probabilida ad de que al se eleccionar al a azar un disfraz z, su peso se encu uentre entre siiete y ocho librras? 2 Si al emp pleado promed dio de la Comp pañía Amistosa a se le paga $ 3.10 3 por sonrisa co on una desviacción estándar de $ 1.29, ¿es p posible que los empleados que se encuentran n más allá del 94% 9 de la distrribución se less pague menos de d $ 4.00 por ssonrisa? 3 Un rengló ón del triángulo o de Pascal ess el siguiente: 1, 4, 6, 4, 1. ¿Qué significado tie enen los cuatro os? 4 Evalúensse
Introducción a la estadística 126
Resuélvanse los problemas cinco y seis en tres formas: a) Por el uso del triángulo de Pascal. b) Por el uso de las tablas de probabilidades binomiales. c) Por el empleo de la aproximación normal. Formúlese un comentario con respecto a las soluciones. 5 Se lanza una moneda legal 18 veces. Encuéntrese la probabilidad de obtener, 8, 9 y 10 caras. 6 La probabilidad de que una de las luces de aterrizaje del cohete lunar XL-12 deje de funcionar es de 0.42. Encuéntrese la probabilidad de que las doce luces de aterrizaje funcionen. 7 El editor de la revista Honestidad afirma que el 70% de sus suscriptores tienen una edad menor de 30 años. Una muestra aleatoria de 500 suscriptores demuestra que sólo el 63% son menores de 30 años. El editor comenta que sólo se muestreo a algunos suscriptores, y que una segunda muestra podría arrojar un resultado igual al 77%. a) Si se supone que la afirmación original es verdadera, ¿cuál es la probabilidad de que en una muestra de 500 suscriptores, un 63% o menos tenga una edad menor de 30 años? b) ¿Es posible que la afirmación del editor sea cierta? c) ¿Puede creérsele al editor? d) Es posible que la muestra no fuese aleatoria. ¿Cómo puede determinarse lo anterior?
Prueba de hipótesis: Binomial de una muestra En este capítulo se reúnen muchas de las ideas que ya se han presentado. El material proporcionado aquí tiene gran importancia. La prueba de hipótesis es uno de los procedimientos más comunes y utilizados en estadística. Al concluir este capítulo el lector estará en posición de comprender lo que es una prueba estadística y de llevar a cabo sus propios experimentos. HIPÓTESIS ESTADÍSTICAS Considérense las siguientes cinco preguntas. 1. ¿Qué porcentaje de los cupones impresos en un periódico se recupera? 2. ¿Es más eficaz la receta A que la 6? 3. ¿Es cierto que el 30% de las personas compra su marca favorita de pasta para dientes sin importarle el precio de ésta? 4. ¿Se encuentra este dado cargado a favor del 3? 5. Los resultados que obtienen los hombres y las mujeres en la parte verbal de la prueba SAT, ¿son diferentes? Estas preguntas son de dos tipos. Las preguntas 1 y 2 piden una respuesta numérica. Las últimas tres requieren una respuesta del tipo sí o no. En muchas ocasiones, los estadísticos tratan este tipo de preguntas mediante la formulación de dos proposiciones opuestas que reciben el nom-
Introducción a la estadística 128
bre de hipótesis. Una hipótesis estadística es una afirmación acerca de una población. Un experimentador intenta probar o desmentir una afirmación "más allá de toda duda razonable" mediante un análisis de la muestra obtenida de esa población. Para las preguntas 3, 4 y 5 pueden obtenerse los siguientes pares de hipótesis. 3. Denótese con p = P(una persona compra su marca favorita de pasta para dientes sin importar el precio de ésta). Entonces las dos hipótesis podrían ser: H1: el 30% de las personas compra su marca favorita sin importarle el precio, p = 0.30. H2: el porcentaje de quienes son fieles a su marca es diferente del 30%, p ≠ .30 4. Sea p = P(en un tiro, el dado muestra un 3). Las dos hipótesis podrían ser: H1:
el dado es legal, p = 1/6.
H2:
el dado está cargado en favor del 3, p > 1/6
Nótese que no se considera la posibilidad de que p sea menor de 1/6. De manera estricta, H1 y H2, en este ejemplo, no son exactamente opuestas. La hipótesis opuesta de H2: p > 1/6 es H: p ≤ 1/6, esto es p es menor o igual a 1/6. Ocurre en muchas ocasiones que en un experimento real no se consideran ciertas alternativas. En este caso, si una persona comienza a sospechar al observar que el dado muestra muchos 3, el mismo comportamiento indica que no existe ninguna razón para tratar de establecer que se están obteniendo muy pocos 3. Sólo se desea decidir si se obtienen o no más números 3 de los que se esperaría obtener con un dado legal. 5. Sea µB el promedio de los resultados obtenidos por los hombres, y µG el promedio de las mujeres. Las hipótesis podrían ser: H1: los hombres y las mujeres obtienen los mismos resultados en la parte verbal de la prueba SAT, esto es, µB = µG H2: los hombres y las mujeres obtienen diferentes resultados en la parte verbal de la prueba SAT, esto es, µB ≠ µG
PRUEBA DE LA HIPÓTESIS NULA Supóngase que se tiene interés en dar respuesta a la siguiente pregunta, ¿es ésta una moneda legal? Una moneda legal es aquélla con la cual la probabilidad de obtener cara en un lanzamiento es de 0.50. Por lo tanto, si se denota con p = P(aparece una cara en un lanzamiento), entonces las dos hipótesis son H1:p = .50 y H2:p≠ .50. Puede intentarse establecer la verdad de cualquiera de ellas, pero si una es verdadera la otra es falsa, y viceversa.
Prueba de hipótesis: Binomial de una muestra 129
Resulta que es mucho más fácil probar la primera: p = .50. Nótese que si se supone que H1 es verdadera y se lanza la moneda 80 veces, entonces se sabe con anticipación qué es lo que se espera. Se espera obtener 40 caras. No se levantará ninguna sospecha si el resultado es de 38 caras, pero éstas aflorarán si se obtienen 72 caras. Por otro lado, si se trata de probar H2 lanzando la moneda 80 veces, entonces no se tiene ningún conocimiento previo de lo que se espera, ya que H2 no especifica ningún valor en particular de p con el cual trabajar. ¿Deben esperarse 50 caras? ¿15 caras? En general, los profesionales de la estadística prueban la hipótesis que les dice qué esperar al proporcionarles un valor específico con qué trabajar. Ellos hacen llamar a esta hipótesis hipótesis nula y la denotan por Ho. La hipótesis nula es la que presupone franqueza y lealtad. Es la que ve al mundo a través de anteojos de color rosa. El dado es legal. La afirmación que se encuentra en este periódico es verdadera. Esta teoría es correcta. La hipótesis opuesta recibe el nombre de hipótesis alternativa y se denota como Ha. Sin embargo, la mayor parte de las veces esta hipótesis no es de interés. Se sospecha que el dado está cargado, que el periódico está en un error, que la teoría está equivocada. En muchas ocasiones, es esta sospecha la que incita a investigar, en primer lugar, la pregunta. Algunos estadísticos se refieren a Ha como la hipótesis motivada. Considérense las dos hipótesis de las preguntas 3, 4 y 5 formuladas con anterioridad. ¿Puede el lector decir cuál es la hipótesis nula? Es decir ¿cuál, al proporcionar un valor específico con qué trabajar, dice en forma más clara lo que se espera si ésta fuese cierta? Para la pregunta 3, si se entrevista a 200 personas, ¿cuántas deberá esperarse que respondan "Sí; compro mi marca favorita de pasta para dientes sin importar su precio"? SI H1 es verdadera, entonces se espera que alrededor de 60 personas respondan en forma afirmativa, ya que el 30% de 200 es 60. Si H2 es verdadera, entonces no se sabrá con mucha precisión qué es lo que deberá esperarse, excepto que esto no es igual a 60. Para la pregunta 4, si se tira el dado 60 veces, ¿cuántas veces se espera que el resultado sea un 3? Para la pregunta 5, supóngase que se examina a un grupo de 50 muchachos y a otro de 50 mujeres y se encuentra la diferencia entre los resultados obtenidos por cada uno de los grupos. ¿Qué valor deberá esperarse para esta diferencia? Para cada uno de los ejemplos anteriores, la hipótesis nula es H1, ya que si ésta fuese verdadera se tendría conocimiento de lo que debe esperarse. En el ejemplo 3, se debe esperar que de las 200 personas el 30%, es decir, 60, contesten sí. Para el ejemplo 4, se debe esperar que ocurran 10 tres, o alrededor de 1/6 de 60. En el ejemplo 5 se debe esperar que la diferencia entre las dos medias se encuentre próxima a cero. Para resumir, la hipótesis nula proporciona un valor específico de algún parámetro de la población sobre el cual se basan las expectativas. Esto se manifiesta por la aparición de un signo de igualdad ( = ) cuando se utilizan símbolos para escribirlo. La hipótesis alternativa, en símbolos, se encuentra caracterizada buena parte de las veces por la aparición de un símbolo de no es igual (≠) o por signos de desigualdad (>, <).
Introducc ción a la estadís stica 130
PRUEBA AS DE UNO Y DOS EXTRE EMOS Si se sospecha que cierta hipótesis nula es falsa, pueden formullarse tres alternativas diferentess. Supóngase que una perssona lee en la revista "Pets" qu ue el 34% de las personas en Goatemola sson propietarios de más de dos mascotas m y se pregunta si en su localidad, N North Southtow wn, el porcentaje será s el mismo.. Entonces, su hipótesis nula deberá ser qu ue la cifra de 34% es verdadera.. Sea p = P(un habita ante de North Southtown es propietaria de e más de dos mas scotas). Enton nces, Ho es p = .34. La hip pótesis alterna ativa podría ser cualquiera de e las siguiente es. 1. Si se piensa que p es mayor de .34, . entonces Ha : p>.34 p 2. Si se sospecha que e p es menor de d .34, entoncces Ha : p <. 34 3. Si no o se tiene ninguna idea de si el valor de p e es más grande e o más pequeño de .34, en ntonces puede escribirse p ≠ .34. En la primera alterna ativa sólo se es stá interesado e en aquellos valores de P que sea an más grande es que .34, y en e la segunda a en aquellos que q sean menores s de .34. Estass se denominan n pruebas de un extremo, ya y que los valores de interés se encuentran e sólo en una direccción a partir del .34. La tercera alternativa a se cconoce como prueba p de dos s extremos, ya y que los valores de interés se encuentran en n cualquier dire ección a partirr de .34. Nótes se que se han fformulado las hipótesis h de ma anera tal que el signo de igualdad d ( = ) siemprre aparezca en n la hipótesis nula, mientrass que los signos (<) ( y (>) apare ecen en la hipó ótesis alternatiiva para prueb bas de un extremo o. La hipótesis alternativa pa ara pruebas de e dos extremoss siempre contiene e el signo de no o es igual (≠). La L elección enttre una prueba a de uno o de dos extremos se encuentra e dete erminada por lo que al esta adístico le interese e encontrar.
EJEMP PLO 8-1
Formúle ense las hipótessis nula y altern nativa, para cad da una de las siguientes s cuestion nes. a) ¿Los s perros viven, en promedio,, más de 13 añ ños? b) La proporción de conductores de 18 años de ed dad que sufren accidentes, ¿ess igual que la ccorrespondien nte a los condu uctores de 26 años de edad? c) ¿Qué porcentaje d de personas qu ue nacieron con n el síndrome de d Down puede aprender a a leerr? d) ¿Las s niñas reciben n una suma de e dinero seman nal menor que la de los niños?
Prueba de hip pótesis: Binomial de una muesstra 131 SOLUCIÓN
a) Sea µ = ell promedio de vida de los pe erros Ho: µ = 13 Ha : µ > 13
(prue eba de un extrremo)
b) Sea p 1 = P(un P conducto or de 18 años de edad tiene e un accidente e) p2 = P(un P conductor de 26 años de d edad tiene un accidente) (pru ueba de dos e extremos) c) En ésta se e pide una resp puesta numéricca, no una prue eba de hipótessis. d) Sea µ1 = promedio p de la suma de dinerro semanal parra las niñas y µ2 = promedio de la suma de dinero d semana al para los niñ ños,
(prrueba de un exxtremo) EJERCICIOS 8-1 Se formula la siguiente afirmación: ell 40% de todoss los televiden ntes ven el progra ama "Matemátiicas y humor".. La hipótesis nula para pro obar esta afirmació ón podría ser p = .40. ¿Cuál será s la hipótesis motivada parra: a) un estudia ante de estadísstica que consid dera demostra ar la verdad de la afirmación? b) un patrocin nador que desea considerar el introducir cierta publicidad d de determinado producto en el programa de televisión? c) Al Jebra, la estrella del p programa, que e desea saber su popularidad? Para los siguie entes ejercicioss, y en donde la a situación sea a adecuada, forrmúlense las dos hipótesis y de ecídase si la siituación requie ere de una prueba de uno o de dos d extremos. 8-2 En Canterville el trabajo o promedio porr semana, ¿ess menor de 40 horas? 8-3 Entre los propietarios d de mascotas, ¿serán un porrcentaje mayor al 10% los propietarios de pecces dorados? 8-4 ¿Cuáll es la condena a prisión pro omedio por rob bar un banco? ? 8-5 De loss estudiantes de d una escuela a, ¿tendrá el 12 2% la especiallización en matem máticas? 8-6 La altu ura promedio de e los caballos de d seis años de e edad, ¿será ig gual a la altura pro omedio de las yeguas de la misma edad? 8-7 ¿Cuál es la altura promedio de loss monos babuinos adultos? 8-8 El porccentaje de mujeres de 20 año os que llevan u una dieta, ¿es mayor que el corrrespondiente a los hombress de la misma edad? REGLAS DE DECISIÓN Al comienzo de d un experime ento deben form mularse dos hipótesis que tie enen la característica de ser opue estas entre sí. Después D deberrá formularse una
Introducción a la estadística 132
proposición con respecto a qué evidencia llevará a pensar que la hipótesis alternativa es verdadera. Esta proposición recibe el nombre de regla de decisión. Cuando la evidencia apoya a la hipótesis alternativa se dice que "se rechaza la hipótesis nula". Cuando la evidencia no apoya a la hipótesis alternativa, entonces se dice que "no es posible rechazar la hipótesis nula".
EJEMPLO 8-2
Guildenstern sospecha que cierta moneda se encuentra cargada a favor de cara. Por lo tanto, decide probarla lanzándola 40 veces. Su hipótesis nula es H o : la moneda es legal, p = P(cara) = .5 Su hipótesis alternativa es Ha: la moneda está cargada a favor de cara, p > .5. Guildenstern razona que si la moneda es legal entonces deberá obtener alrededor de 20 caras. Por lo tanto, formula la siguiente regla de decisión: si al tirar la moneda 40 veces se producen 25 o más caras, entonces concluirá que la moneda está cargada. Si denota con S el número de caras que obtiene, entonces la regla de decisión es: rechácese Ho si S es mayor de 25.
EJEMPLO 8-3
Amir Treifel desea probar la hipótesis nula de que el ingreso promedio de los sheiks es de 1.5 millones de dólares por año, Ho: µ = 1.5 millones de dólares; su hipótesis alternativa es Ha: µ ≠ 1.5 millones de dólares. Decide rechazar la hipótesis nula si el ingreso promedio de una muestra aleatoria de sheiks tiene un ingreso promedio menor de un millón o mayor de dos millones de dólares. Si denota con m la media de esta muestra entonces, en forma breve, su regla de decisión es: rechazar Ho si m es menor de un millón o mayor de dos millones.
ERRORES ESTADÍSTICOS Una idea básica que es inseparable de la prueba de hipótesis es que nunca se puede tener la seguridad completa sobre cuál de las dos hipótesis es la verdadera. Por ejemplo, en el caso de probar una moneda con el propósito de verificar si es legal, la sola definición de "moneda legal" hará imposible probar, en forma completa, una moneda. Recuérdese que una moneda legal es aquélla para la cual la probabilidad de obtener una cara en un lanzamiento es igual a .5. Pero "una probabilidad igual a .5" significa que al tirarla muchas veces en la mitad de éstas se obtuvo cara, y "muchas veces" significa que la moneda siempre se está tirando. Así que cada vez que se prueba una moneda, sin importar cuántas veces se tire, sólo se tendrá una pequeña porción de los resultados posibles. Supóngase que Guildenstern lanza la moneda en 40 ocasiones y obtiene 30 caras. Por lo tanto, asegura que la moneda no es legal (recuérdese
Prueba de hipótesis: Binom mial de una mue estra 133
su regla de decisión). ¿Quié én sabe qué es lo que pasarría si Guildensttern hubiese seguiido lanzando la a moneda? Es posible que de e hecho tenga una moneda legal en su poder, p pero los resulta ados del experrimento lo enga añaron. Si es asíí, los datos le ccondujeron a to omar una decisión errónea y las consecuencia as de esto no pueden p atribuírs sele a él. Esto es una posibilidad inevitable en cualquier prueba de hipótesis ya que sólo se estudia una muestra y no a toda la pobllación. Puede reducirse r la prrobabilidad de que esto ocurra obteniendo mayyor cantidad de e datos, pero e en algún mome ento este proceso se detendrá y aún así siem mpre existirá u una posibilidad d de error debida al a proceso de muestreo. Cuando se prueba una hipótesis nula, lo o que se está tratando de deccidir es si ésta es falsa f o verdade era. Sin embarrgo, ya que la p prueba estadísstica de hipótesis se s basa en la información prop porcionada porr una muestra y no es posible ten ner la segurida ad completa de que la decissión sea corre ecta, entonces, en realidad, se en ncaran cuatro posibles situaciones. 1. Ho es verd dadera y la información proporrcionada por la a muestra conduce a decid dir que ésta ess verdadera. 2. Ho es verd dadera, pero la a información proporcionada a por la muesttra conduce a decidir, incorrrectamente, que q ésta es falssa. 3. Ho es falsa a y la informacción proporcion nada por la mu uestra conduce ea decidir, de e manera corre ecta, que ésta es falsa. 4. Ho es falsa a, pero la información proporrcionada por la a muestra cond duce a decid dir, en forma errónea, que és sta es verdade era. En la prime era y tercera sittuaciones, se ha h tomado una decisión correcta. En la segunda a situación se rechaza una hipótesis h nula q que es verdade era. Esto se conocce como error de tipo I. En la última situacción no se rechaza una hipótesis nula que es falsa. Los profesionales de la esstadística llama an a esto error de tipo II. La tab bla 8-1 proporc ciona un resum men de estos dos d tipos de errorres.
Se utilizará la primera letra a del alfabeto grriego, alfa (α), para p representa ar la probabilidad de d cometer un n error de tipo o I. De manera a similar, beta a(β), representará la probabilidad d de cometer un u error de tipo II.
EJEMPLO 8-4
El sheriff de una u ciudad donde se juega pre efiere creer que la ruleta es le egal en vez de dettener al encarg gado de ésta y después ser a acusado de un encarcelamiento o indebido. Si sse considera que q la afirmació ón "la ruleta ess legal" es la hipó ótesis nula, ¿q qué prefiere co ometer el sherifff, un error de tipo I o uno de tip po II?
Introducció ón a la estadísttica 134 SOLUCIÓ ÓN
Ho: la rule eta es legal Ha: la rule eta está arregla ada Error de tipo t I: el sherifff afirma que la ruleta está arrreglada pero, en e realidad, ésta a es legal. Error de tipo t II: el sheri riff acepta que la ruleta es legal pero, en re ealidad, está arreg glada. El sherifff prefiere come eter un error de tipo II. EJERCIC CIOS 8-9 María a realizó un análisis estadísstico para su in nstructor de avviones y terminó rechazando r su u hipótesis nula a. Martín afirm ma: "No es posible que usted haya cometido un error de tipo o II". María inte errumpe: "Por lo tanto, usted cometió un errorr de tipo I". ¿S Se encuentran los muchacho os en lo correcto? ? Dése una explicación. Para los siguientes ejerrcicios, formúle ense afirmacion nes como "esta a persona es ino ocente", "este medicamento o es seguro", o "este produccto tiene un precio o adecuado" co omo hipótesis nulas. 8-10 Si un juez prefiere dejar en libertad a un delincu uente en vez de d correr el riesgo de d condenar a un inocente, ¿q qué tipo de erro or prefiere cometer, de tipo I o de tipo II? 8-11 Si el e director de una escuela prefiere p creer que un estudiante es culpable hasta h que éste e no demuestre su inocencia, ¿qué tipo de error prefiere com meter el directo or, de tipo I o de d tipo II? 8-12 Si una u empresa farmacéutica f p prefiere no ven nder un mediccamento en vez de e correr el riessgo de que éstte provoque se erios efectos ad dversos, ¿qué tipo o de error prefie ere cometer, de d tipo I o de tip po II? 8-13 Si, durante d un exa amen médico, una persona tiene t una reacción positiva parra cierta enferm medad, entonces se llevan a cabo otros exxámenes con el pro opósito de decidir si en realid dad padece la e enfermedad. Po or lo general, es stos exámeness son más diffíciles, requiere en bastante tiiempo y cuestan más m que el examen médico inicial. En el examen e médico o inicial pueden n ocurrir dos "e errores" similarres a los de tipo I y tipo II. Este p puede indicar que q una perso ona sana se en ncuentra enferma, y viceversa. a) Si se dispone un exa amen médico inicial, ¿cuál es el tipo de errror más importantte? ¿Depende e éste de la enffermedad? b) Un exxamen médico para detectar glaucoma mid de la presión de algún fluido en el ojo. Si la pre esión se encue entra por encim ma de cierto va alor, por ejemplo 1000, 1 la reacción se considera como "posittiva" y se envia ará a la persona para p que le hag gan más exám menes. Analícesse lo que podríía pasar si el exam men cambiara y el nuevo valo or límite fuese igual a 900. La a figura que a con ntinuación se muestra m puede ser útil para ressolver este pro oblema.
Prueba de hipótesis: Binomial de una muestra 135 8-14 Un entrenador de basketball busca nuevos jugadores. Cada candidato debe tirar 30 veces a la canasta desde una distancia de 20 pies. El candidato es rechazado si menos de 20 tiros son canasta. Si el entrenador decide que los candidatos tiren desde una distancia de 25 pies, ¿está aumentando o disminuyendo el valor de α? 8-15 Un profesor de biología lleva a cabo un experimento con el propósito de demostrar que el nuevo plan de estudios es superior al anterior. Las hipótesis son: Ho: el nuevo plan de estudios da los mismos resultados que el anterior Ha: el nuevo plan de estudios es superior al anterior Según el Consejo de la escuela, ¿cómo dependería el valor de a si el nuevo plan de estudios utiliza el equipo de laboratorio ya existente o requiere de una gran inversión para adquirir nuevo equipo? 8-16 Se lanzan cuatro monedas 40 veces, dos legales y dos cargadas a favor de cruz. Los resultados se muestran a continuación. número de caras moneda moneda moneda moneda
1 2 3 4
21 33 18 6
conclusión Legal arreglada a favor de cara legal arreglada a favor de sello
a) ¿Cuál de las situaciones anteriores es un error de tipo I? b) ¿Cuál de las situaciones anteriores es un error de tipo II? 8-17 El sargento Wednesday, detective del escuadrón rackets, confiscó cuatro discos para apostar, cada uno dividido en siete áreas ¡guales. De éstos, dos son legales. Mientras esperaba que el Gran Jurado le concediera una audiencia, le dio 70 vueltas a cada disco y llevó un registro detallado, para cada uno, del número de veces en las que el número resultaba ganador. Lístense, en forma de tabla, las cuatro situaciones que pueden ocurrir e indíquense los errores de tipo I y II.
ERRORES DE TIPO I EJEMPLO 8-5
En el ejemplo 8-2 Guildenstern empleó la siguiente regla de decisión: se concluirá que la moneda está cargada si al tirarla 40 veces se obtienen 25 o más caras. Con toda seguridad, es posible que aun una moneda legal dé como resultados 25 o más caras sólo por azar, pero esto no es muy probable. S¡ la moneda fuese legal y se obtuviesen más de 25 caras, entonces Guildenstern concluiría, en forma errónea, que la moneda se encuentra arreglada y cometería un error de tipo I. Encuéntrese la probabilidad de que, al utilizar su regla de decisión, Guildenstern decida, equivocadamente, que una moneda legal está arreglada. Esto es, encuéntrese P(S ≥ 25). Este es un experimento binomial con n = 40.
Introducc ción a la estadís stica 136
Ha: la moneda m se enccuentra arregla ada a favor de cara, p = P(ca ara) > .5 (pru ueba de un exttremo). Ho:
la moneda m es le gal, p = P(carra) = .5
De la hip pótesis nula Ho, se toma el valor v de p p = P(ca ara) = .5
y
q = .5
Ya que np = 20 > 5 y nq = 20 > 5, es posible utilizar la aprox ximación normal con c
µ = np = 20
y
Si S representa el núm mero de caras, entonces se desea encontrar P(S ≥ 25). Ya que q se utiliza u una aproximación normal, se encontrará P(S S > 24.5). Lo anterrior se muestra a en la figura 8-1. 8
Por lo o tanto, P(S ≥ 25) = 1 - .922 22 = .0778, o a alrededor de 8/100. 8 En otras palabras, la prob babilidad de cometer un errorr de tipo I es de e, aproximadame ente, .08 y puede escribirse α = .08. Alguno os investigadores hacen referenccia a esta cifra como el valor p parra el experim mento. Si Guildensstern lanza la m moneda 40 veces y obtiene 25 5 o más caras, entonces rechazará la hipótesis nula. Al hacerllo así, tiene ple ena confianza en e que el resultado se debe al h hecho de que la l moneda está arreglada y no a una ocurrenccia poco proba able para una moneda legal.. Recué érdese que cad da vez que se rechaza r una hipótesis nula, no importa cuál sea a la regla de decisión que se e emplee, siem mpre existe la probabilip dad, sin importar lo pequeña que sea a ésta, de que el rechazo sea a un error causado o por la mala ssuerte. CÓMO ENCONTRAR E LA REGLA DE E DECISIÓN CORRESPOND DIENTE A UN VAL LOR DADO DE Eα En el eje emplo 8-5, α te enía un valor ig gual a .08. Quizzá ahora, Guild denstern no se en ncuentre muy ssatisfecho con tener una prob babilidad tan grrande de
Prueba de hipótesis: Binomial de una muestra 137
cometer un error. El desea re esolver el problema, pero al rrevés. Esto es, primero estableccerá lo grande que es el riesg go que está disspuesto a acep ptar de cometer un n error de tipo I (p. ej., .01). Essto recibe el no ombre de nivell de significancia de la prueba (e en este caso, .0 01). Después de eberá calcular una u regla de decissión que satisfa aga este reque erimiento. La re egla de decisión le dirá cuántas caras c deberán aparecer a para rechazar la hip pótesis nula, de e tal manera que la a probabilidad de d cometer un error de tipo I no sea mayorr de .01. Este proccedimiento se ilustra en la fig gura 8-2.
Ya que se desea d que el valor v de a sea igual a .01, se e busca el área a1 - .01 o .99. (Re ecuérdese que e ésta es una prueba p de un e extremo a la de erecha.) Esta área corresponde e a zc = 2.33. Se S utiliza el sub bíndice c para indicar que éste e es un valor crítico. c Un valo or crítico es aq quél que indica a el inicio de la reg gión de rechazzo. Se transform ma este puntaje e z en un núme ero de caras, de e la siguiente mam nera: Sc = µ + ZCσ
= 20 + 2.3 33(3.16) = 200 + 7.4 = 27.4 4 Por lo tanto, si s Guildenstern escoge α = .0 01 .entonces te endrá que obtener más de 27.4 ca aras, esto es, por p lo menos 28 8 caras para recchazar la hipóte esis nula y concluiir que la mone eda está arreglada a favor d e la cara.
EJEMPLO 8-6
Tomás Tenacious, mientras se recupera de d un desaforttunado acciden nte en que se hirió ó las manos, trrata nuevamente de construirr un par de dad dos cargados. El ya ha alterado un u dado en disttintas formas, ttodas ellas sec cretas. Tomás pie ensa que la prrobabilidad de obtener un 6 ccon este dado ha cambiado pero o, a causa de ssu falta de habiilidad circunsta ancial, no está ses guro de si ahora obtendrá po ocos o muchos seises. Por lo tanto, decide tiirar el dado 60 veces y contar el número n de ocas siones en las que el resultado o es un 6. Si decide probar el dado o con un nivel de e significancia de d .05, ¿cuál se erá su regla de de ecisión?
SOLUCIÓN
Para determin nar la regla de decisión a utiliizar en esta prrueba, primero se establece la hipótesis h en té érminos de p = P(6).
Introduccción a la estadísstica 138 Ha: el da ado está cargado,
p ≠ 1/6 (prueba de dos extremos))
H o : el dado d es legal, p = 1/6 Al suponer que la hipó ótesis nula es verdadera,
p = P(66) = 1/6 q = 5/66 n = 60 Ya qu ue np = 10 > 5 y nq = 50 > 5, 5 se puede uttilizar la aproxximación normal.
µ = 10
y
σ = √8.33 = 2. 89
Debido a que Tomás ssospecha que el dado puede estar cargado o a favor o en contrra del 6, el experimento pue ede terminar co on pocos o con n muchos seises. Por lo tanto, de ecide dividir el nivel de signifficancia del 5% % entre los dos extrremos de la disstribución normal, como se mu uestra en la figu ura 8-3.
Al bus scar los puntajjes z correspo ondientes a loss valores .025 y .975 se obtienen n los siguientes valores críticcos ± 1.96. Parra convertir esttos en números de d seises, Tom más utiliza la siguiente fórmu ula S c = µ + σz c = 100 + 2.89(±1.966) = 1 0 ± 5.7 = 15.7
y
4 4.3
Por lo ta anto, su regla d de decisión es:: rechazar Ho ssi se obtienen menos m de 4.3 seisses o más de 15.7 seises. Si S lo anterior o ocurre, entonce es Tomás concluirrá que el dado se encuentra cargado. La p probabilidad de e cometer un errorr de tipo I es ig gual a .05. Un investigador pue ede escoger cualquier c valor para el nivel de d significancia, pero en la mayor parte de lo os casos se utiilizan los valore es, más o menos estándares, de e .01 y .05 com mo niveles de significancia. Estas E probabilida ades de cometter un error so on lo suficiente emente peque eñas para que se consideren c com mo razonables en buena parte e de las circunsstancias.
Prueba de hipótesis: Binomial de una muestra 139
EJERCICIOS 8-18 ¿Qué opción deberá escogerse? a) Se lanza una moneda 100 veces y se obtiene un resultado de 97 caras. opción 1 La moneda es legal pero ha ocurrido un evento extraordinario.
opción 2 La moneda no es legal, hechos lo demuestran.
como los
b) Una muestra de 500 adolescentes indica que el porcentaje de mujeres que fuman es 25% mayor que el correspondiente a los hombres. opción 1
opción 2
No existe diferencia alguna en los
La muestra es representativa de todos
hábitos de fumar entre los hombres y las mujeres, así que es muy probable que esta muestra no se haya seleccionado al azar.
los adolescentes. Por lo tanto, puede concluirse que es poco probable que los porcentajes de hombres y mujeres que fuman sean iguales entre sí.
c) De una población se toma una muestra, y la estadística correspondiente a ésta no se encuentra en algún punto cercano a algún parámetro hipo tético de la población. opción 1
opción 2
Éste es un evento poco probable de
Ésta es una muestra representativa, y el
manera tal que la evidencia es casi un milagro, pero no existe ninguna razón para rechazar el parámetro propuesto.
resultado es común al provenir de una población con un valor del parámetro diferente. Lo más probable es que el valor propuesto del parámetro no sea el correcto.
8-19 Daniel Dropout y Sally Student están en desacuerdo con una afirmación publicada en un periódico, en la cual se asegura que el 30% de los estudiantes de Happy High faltan a clases por lo menos una vez a la semana. Ellos piensan que un porcentaje del 30% es demasiado alto. Por lo tanto, deciden probar lo anterior utilizando para ello una muestra de 200 estudiantes. Daniel afirma: "Rechazaré la afirmación si en nuestra muestra, el número de estudiantes que faltan a la escuela por lo menos una vez a la semana es menor de 50". Sally, que ya ha estudiado estadística, dice: 'Utilizaré un nivel de significancia σ = .5". "¿Quién tiene el mayor riesgo de cometer un error de tipo I? 8-20 Se tiene la sospecha de que una moneda se encuentra arreglada. a) Establézcanse las dos hipótesis. b) La moneda se lanza 40 veces. ¿Cuántas caras, más o menos, se necesitan para establecer, en forma estadística, que la moneda está arreglada Si α = .05? c) Repítase la parte b) si n = 100. 8-21 Un investigador comienza a sospechar que un porcentaje menor al 3% de todos los genitz son pibled. a) Establézcanse las dos hipótesis.
Introducción a la estadística
140 b) Si se toma una muestra de 1000 genitz, ¿cuántos de éstos deberán ser pibled para asegurar que la sospecha es verdadera con un nivel de significancia igual a .01? 8-22 Un estadístico prueba la afirmación de que, en cierta población, las tres cuartas partes son mujeres y la cuarta parte son hombres. A continuación selecciona, al azar, 80 personas de esa población. Su regla de decisión es: si en la muestra menos de 15 o más de 25 personas son hombres, se rechazará la afirmación de que p = P(hombre) = .25. Supóngase que es verdadera la afirmación de que p es igual a .25. ¿Cuál es la probabilidad de que los resultados muéstrales le lleven a rechazar, en forma errónea, este hecho? Esto es, ¿cuál es el valor de α? (Asegúrese de dibujar una curva normal claramente rotulada.) 8-23 La sección local de Mujeres Contra la Explotación de las Mujeres (MCEM) vigila un cine de "arte". Ellas afirman que por lo menos el 75% de las personas que acuden a ver esos tipos de películas son hombres. El reportero de un periódico piensa que esta cifra es muy alta y decide tomar una muestra aleatoria de 100 personas provenientes del público que asiste a este cine. El reportero utilizará como regla de decisión la siguiente: si la muestra contiene menos de 60 hombres, rechazará la afirmación hecha por la MCEM. a) Establézcase la hipótesis motivada. b) Establézcase la hipótesis nula. c) Dibújese la curva normal, incluyendo la línea correspondiente al puntaje z para el número de éxitos, y una región sombreada que indique la región de rechazo. d) Encuéntrese la probabilidad de cometer un error de tipo I. 8-24 El gobernador U.R. Careless asegura que el ferrocarril ILLR siempre llega tarde. Un ejecutivo de la compañía afirma que sólo el 4% de sus trenes llegan con más de cinco minutos de retraso. Un estadístico, contratado por un grupo de pasajeros muy molestos, reúne una muestra aleatoria de 500 tiempos de llegada de los trenes. De acuerdo con las cifras de la compañía, el estadístico espera que, en forma aproximada, 20 trenes lleguen con retraso. Para darle a la compañía el beneficio de la duda, su regla de decisión es: si más de 40 trenes llegan con retraso, rechazará la afirmación de la compañía. a) Establézcase la hipótesis motivada. b) Establézcase la hipótesis nula. c) Dibújese la curva normal, incluyendo la línea correspondiente al punta je z, la correspondiente al número de éxitos, y una región sombreada que indique la región de rechazo. d) Encuéntrese la probabilidad de cometer un error de tipo I. e) Si la regla de decisión fuese rechazar Ho si más de 30 trenes llegan con un retraso, encuéntrese el valor de α. f) Si en la parte e) el número 30 se cambia a 50, ¿disminuirá o aumentará el valor de α? g) ¿Qué regla de decisión dará como resultado α = .05? 8-25 El 42% de la población de Smalltown está constituida por mujeres. Un estadístico trata de probar la afirmación de que un porcentaje mayor al 42% de republicanos en Smalltown son mujeres. Al suponer que el sexo
Prueba de hip pótesis: Binomiial de una mues stra 141
no tiene nada que ver con la a filiación políttica, entonces p = P(un republicano sea muje er) = .42. Se se eleccionan 100 0 republicanos al azar. Utilíce ese un nivel de significancia iguall a .01 para enccontrar la regla a de decisión pa ara el número de mujeres m que de eberán encontra arse en la mue estra antes de que q se rechace la suposición. 8-26 En un arrtículo apareciido en un periódico, se afirm ma que de tod dos los niños entre e uno y cuatro años de edad que fallecen, el 60% muere en accidentes auttomovilísticos. Un funcionario de salubrida ad duda que es sta afirmación sea a verdadera y, por lo tanto, reúne informacción con respeccto a las causas del d fallecimiento o de 30 niños seleccionados de manera ale eatoria. a) Establézca ase la hipótesiss motivada. b) Establézca ase la hipótesiss nula. c) De los 30 decesos, d ¿qué ccantidad, grand de o pequeña, ccausados por aca cidentes autom movilísticos deberá tenerse para p rechazar la a afirmación del artículo con un n nivel de sign nificancia igual a .05? 8-27 Un fabriccante asegura que de todas las variedades de nueces que q vende, sólo el 30% son nueces de la India. Se abre un cosstal y se selecc cionan 100 nuece es al azar, resulttando que 36 de ellas son nue eces de la India. Si p es igual a .30, ¿cuál es lla probabilidad d de que al esscoger, en form ma aleatoria, 100 nueces la mue estra contenga a 36 o más nue eces de la India? ¿Es posible qu ue alguien se a atreva a acusarr al fabricante d de que su afirm mación es falsa? 8-28 Un jugad dor lanza 10 ve eces una mone eda legal y obttiene ocho caras. Comete un erro or de tipo I al e establecer que la l moneda se e encuentra arreg glada. Encuéntres se la probabilid dad de que al lanzar l una mon neda legal 10 vev ces se obteng ga un resultado o de ocho o más caras. ERRORES DE E TIPO II (Esta sección puede omitirsse sin pérdida de d continuidad d) En la sección anterior se esstudió el error de tipo I que es el que ocurre cuando la evid dencia estadístiica lleva a rech hazar una hipóttesis nula cuan ndo en realidad és sta es cierta. Recuérdese R que e el error de tipo II se presen nta cuando la hipó ótesis nula es fa alsa pero la evidencia estadísstica no es lo suficientemente fu uerte para indiccarlo. Esto es, se s ha fallado, e en forma erróne ea, al no rechazarr la hipótesis n nula. La proba abilidad de com meter un error de tipo II se denota por β. Si el vvalor de p prop porcionado porr la hipótesis nula no es correcto o, entonces otro o valor particular de p es el ccorrecto. Recu uérdese que la hipótesis alterna ativa no proporrciona ningún vvalor de p. Porr lo tanto, para cada posible valor de p existe un valor de β..
EJEMPLO 8-7
Supóngase que q se le pide a una persona que q pruebe cierrta moneda. El decide lanzarla a 60 veces y razzona que, si la moneda es leg gal, obtendrá alrededor de 30 0 caras. Por l o tanto, esco ge como regl a de decisión n la siguiente: la moneda no ess legal si el núm mero de caras es menor de 26 o mayor de 34 4.
Introducc ción a la estadís stica 142
Si no sabe que la m moneda está arrreglada y que p = P(cara) = .6 entonces, ¿cu uál es la probab bilidad de que el e experimento arroje a un resultado entre 26 y 34 caras? Esto ess, ¿cuál es la probabilidad de que cometa un n error de tipo II? SOLUCIÓ ÓN
p = .6
q= .4 n = 60 0 np = 36 6>5 nq = 24 4>5 Por lo tanto, se puede e utilizar la aproximación no ormal:
P(26 ≤ s≤ s 34) es apro oximadamente e igual a P(25. 5 < 5 < 34.5); véase la figura 8--4.
Por lo tanto, t P(26 ≤ S ≤ 34)= .3446 6 - .0028 = 34 418, o alrededo or de 34. La pro obabilidad de q que acepte la afirmación a "la m moneda es leg gal" cuando de he echo está arre eglada con p = .6 es de .34 o o, en forma aprroximada, 1/3. De acuerdo con lo anterior, pu uede escribirse e β = .34. Com mo puede observarse, la regla de e decisión no es e muy poderossa para distinguir, cuando p = .6 6, entre una moneda m legal y otra arreglada.. También pued de observarse qu ue es necesario conocer el valor de p, en e este caso .6, pa ara poder calcular el valor de β. No es posible calcular el valo or de β hasta que q no se escoja un u valor específfico de p para la l hipótesis alte ernativa. Puede e repetir-
Prueba de hipótesis: h Binom mial de una mue estra 143
se el cálculo anterior a para d diferentes valo ores de p, como o .7, .8, etc., co on el propósito de obtener una id dea de la posib ble gama de va alores para el error de tipo II. Esto o último contra asta con el caso correspondie ente al error de e tipo I en donde, tan pronto como se formula la regla r de decisió ón, se sabe el valor v de α.
EJEMPLO 8-8
Una persona piensa que un na moneda se encuentra arrreglada a favorr de cara. Desea probar p la afirma ación "la moneda es legal" lan nzando la moneda 40 veces y empleando un n nivel de significancia igual a .05. a) Encuéntre ese el valor de α. b) Encuéntre ese la regla de decisión. c) Encuéntrese el valor de β. β
SOLUCIÓN
a) α = .05 ya a que la perso ona escoge este valor. b) H a : p = f((cara) > .5 H o : p = P(ca ra) = .5 p = .5 q = .5 n = 40
(de la hipó ótesis nula "la moneda es le egal")
np = 20 > 5 nq = 20 > 5 µ = 20 σ = √10 = 3.16 α = .05 Ahora, pue ede utilizarse la aproximación n normal como o se muestra en e la figura 8-5. Al buscar el puntaje zc corrrespondiente a un área igual a .9500 se tiene que zc = 1.65. 1 Al converrtir este puntaje e z en un dato original, S c = 20 + 1.65(3.16) = 25.2 Por lo tanto o, la regla de decisión es: recchazar la hipóte esis nula de que la moneda es s legal si se obttienen más de 25.2 2 caras. En este problema, ya que se em mplea la curva continua para a aproximar un na distribución de números enteros, e se debe interpretar la frase "más de 25.2 caras" co omo cualquier número n de cara as mayor de 26 6. Sin embargo o, con el propós sito de conoce er el valor de β β.
Introducción a la estadísttica 144 es del todo correcto cconsiderar el va alor de Sc iguall a 25.2. Esto simplifica s los cálculos y dará ccomo resultado o una diferencia a muy pequeña en los resulta ados finales. Después, al considerar c pro oblemas que incluyen desde e el principio va ariables continu uas, se verá qu ue el procedim miento es el mismo. c) No es posible calcula ar un valor espe ecífico para p h hasta que no se e decida un valor particular de d p para la hip pótesis alterna ativa.
EJEMPL LO 8 8-9
Para el ejemplo e anterior, supóngase que q en realidad d el valor de p es aproximadam mente igual a .7 70. Calcúlese el valor de β, que es la prob babilidad de que la a evidencia ind dique que la moneda m arregla ada es legal.
SOLUCIÓ ÓN
La regla de decisión de epende del valo or de α y se ob btuvo en la parrte b) del ejemplo anterior bajo la suposición de d que p = .5 (véase la Fig. 8-6). La regla de decisión era rrechazar a H0, la afirmación de que la mo oneda es legal, si al a lanzar ésta se e obtienen más s de 25 caras. Pero P si se supo one que p = .7, enttonces se obtie ene una distribución diferen nte:
Recuérde ese que en estte problema β es una medida a de la probab bilidad de que una moneda arreg glada produzca a información que q apoye la hipótesis h nula. Porr lo tanto, se de esea medir el área á de la gráffica que corres sponde a aquellos resultados qu ue apoyan la hipótesis h nula de que la mo oneda es legal, estto es, el área que se encuentra a la izquiierda del valor de 25.2 (véase la a Fig. 8-7):
Prueba de hipótesis: Binom mial de una muestra
145
Al convertir 25 5.2 en un punta aje z con el pro opósito de med dir el área, se tiene que
Área(z = -.97 7) = .1660 = .17 Por lo tanto, β = .17. Al emplear esta e regla de d decisión, existe una probabilid dad igual a . 17 7 de que la persona a decida, de ma anera errónea, que la moneda a es legal cuan ndo, de hecho, esttá arreglada ccon p = .7. En el ejemp plo, sólo se ob btuvieron los va alores de β pa ara p = .6 y p = .8 siendo éstos iguales a .65 y .004, respectiv vamente. Adem más, si se com mienza de nuevo o con α = .01 1, entonces se s encontrará á que S c = 20 2 + 2.33(3.16) = 27.4. 2 Para esta a regla de decissión, los valore es de β para p = .6, .7, y .8 son .86 6, .42, y .03, resspectivamente. Esta informació ón se resume en e la tabla 8-2. Tabla 8-2
valores de β para n = 40 valor real de p
α = .05
α = .01
.6
.65
.86
.7 .8
.17 .004
.42 .03
Puede observvarse, en la ta abla, que para un valor fijo de e n, si aumenta a α, disminuye β, y viceversa. ¿Qué pasa a con el valor de e β cuando se cambia el tama año de la muesstra? Si α = .05 y n = 60, se pue eden encontrarr los valores de e β en la siguie ente forma. Primerro, se establece e la regla de de ecisión al supon ner que la hipóttesis nula (p = .5) es verdadera a. Se obtiene
S c = 30 + 1. 65(3.87) = 366.4
Introducció ón a la estadístic ca 146
Se rechazzará H0 si se ob btienen más de e 36.4 caras. A Ahora que se tie ene una regla de decisión, es posible p calcular el valor de β β. El correspo ondiente cálculo para p p = .7 es
np = 422 nq = 188
Los valorres de β para p = .6 y .8, pu ueden encontra arse en forma similar. Un resum men de estos rresultados se muestra m en la tabla t 8-3. T Tabla 8-3
valore es de β para α = .05 valo or real de ep
n = 40
.6
.6 65
n = 60 .5 54
.7 .8
.17 .0 004
.06 .0 0001
Puede observarse qu ue al aumentarr el tamaño de e la muestra y sin aumentar el valor de α, disminuye el valor de β. Al lle evar a cabo un experimento esttadístico, y si se tiene el tiempo suficiente, con c frecuencia pueden hacerse lo os valores de α y β tan pequeñ ños como se de esee al utilizar un valor suficientem mente grande d de n. Por ejemp plo, supóngase e que se tiene Ho: p = .5 y se dese ea estar razona ablemente seg guro de rechazzar Ho si el verdadero valor de p es mayor de .6 60 (prueba de un extremo). E Entonces, al tom mar una muestra muy m grande se puede tener, por p ejemplo, qu ue los valores máximos m de α y β sean s ambos igu uales a .05. (Trátese de hallarr lo grande que e deberá ser el tam maño de la mu uestra para que e ocurra lo antterior. En la ta abla 8-3 puede obs servarse que, ccon seguridad, el valor de n d debe ser mayorr de 60.) EJERCIC CIOS 8-29 En el ejercicio 8- 19 Daniel Dro opout afirmó "Rechazaré la afirmación si en nuestra muesttra el número de d estudiantes que faltan a la escuela por lo menos una vez a la semana, ess menor de 50"". Encuéntrese el valor de a. ¿P Por qué no ess posible encontrar, fácilme ente, el valor correspondiente e a β? 8-30 En la l tabla 8-2, verifíquese el valor de β pa ara n = 40, p = .6, α = .05. 8-31 En la l tabla 8-2, verifíquese el valor de β pa ara n = 40, p = .8, α = .05. 8-32 En la l tabla 8-3, verifíquese el valor de β pa ara n = 60, p = .6, α = .05.
Prueba de hipótesis: Binomial de una muestra 147
8-33 En la tabla 8-3, verifíquese el valor de β para n = 60, p = .8, α = .05. 8-34 Connie Consumer afirma que el 30% de las bujías marca Nunca Fallan, son defectuosas. Sparky, el mecánico, afirma que la tasa de bujías defectuosas es menor. Por lo tanto, deciden examinar una muestra aleatoria de 100 bujías NF. a) Encuéntrese la regla de decisión, utilizando para ello un valor de a igual a .05. b) Si de hecho el 20% de las bujías NF son defectuosas, ¿cuál es la probabilidad de que la evidencia conduzca, en forma errónea, a creer que la afirmación de Connie es correcta? 8-35 Repítase el ejercicio 8-34 si Ha : p > .30. 8-36 Repítase el ejercicio 8-34 si Ha: p ≠ .30. 8-37 Con respecto a la historia de Tomás Tenacious dada en el ejemplo 8-6, si el valor de p es en realidad igual a .35, ¿cuál es la probabilidad de que Tomás decida erróneamente que los dados son legales? POTENCIA DE UNA PRUEBA Los estadísticos hacen referencia al valor de la expresión 1 – β como la potencia de una prueba. Esta es una medida de lo buena que es una prueba para rechazar una hipótesis nula que es falsa. Mientras más "poderosa" sea una prueba, es decir, mientras más cercano a uno sea el valor de 1 - β será mayor la probabilidad de rechazar una hipótesis nula que sea falsa. Una parte importante de la teoría estadística trata con el problema de encontrar una regla de decisión que haga que una prueba de hipótesis sea lo más poderosa posible para cualquier valor dado de α. El trabajo teórico original en esta área fue desarrollado por J. Neyman y E. S. Pearson en la década 1930-1940.
EJEMPLO 8-10
Supóngase que se tiene una prueba binomial en donde
Ho: Ha: α= n=
p = .6 p < .6 .05 50
Entonces, por ejemplo, se pueden calcular la regla de decisión y los valores de β correspondientes a p = .50 y .40. Los valores de la potencia de la prueba se proporcionan en la tabla 8-4.
Tabla 8-4
P
β
potencia
.5 .4
.56 .10
.44 .90
Introducción a la estadística 148 EJERCICIOS 8-38 Verifíquese la potencia de la prueba anterior para p = .40. 8-39 Recientemente, la revista AGRI dio a conocer los resultados de dos estudios sobre la eficacia de cierto fertilizante para el maíz. El Dr. Bulschmidt informó que "no fue capaz de rechazar", con un nivel de significancia igual a .05, su hipótesis nula. En el segundo artículo, el Dr. Senserd informó que al utilizar una prueba con un nivel de significancia igual a .05 y una potencia mayor que 96%, "aceptó la hipótesis nula". a) ¿Por qué ambos personajes informaron sus resultados en forma correcta? b) ¿Cuál es la diferencia entre lo que ellos han aprendido? 8-40 En el ejemplo 8-10, cámbiese Ha por p > .6 y encuéntrese la potencia de esta nueva prueba para los valores de p que a continuación se indican. p
β
potencia
.5 .6 .7 .8 .9 8-41 Cámbiese Ha por p ≠ .6 en el ejemplo 8-10, y encuéntrese la potencia de esta nueva prueba para los valores de p que a continuación se indican. p
β
potencia
.4
.5 .7 .8
8-42 En Middlesex, Massachusetts, se toma una muestra de 100 humanoides extraterrestres con el propósito de probar si un porcentaje mayor que 20% no tiene sexo. a) Encuéntrese el número crítico de éxitos para α = .01. b) Si el verdadero valor es 25%, encuéntrese el valor de β. c) Si el verdadero valor es 18%, encuéntrese el valor de β. d) Si el verdadero valor es 15%, encuéntrese el valor de β. 8-43 Se lanza una moneda 50 veces para probar la hipótesis nula de que es legal. a) Si se escoge un valor de a igual a .05, encuéntrense los dos valores críticos para la regla de decisión. b) Si p = P(cara) = .80, encuéntrese el valor de β. c) Repítanse las partes a) y b) con un número de lanzamientos igual a 100. d) ¿En qué forma se afecta el valor de β al aumentar el tamaño de la muestra? 8-44 Reconsidérese la parte b) del ejercicio 8-20. Se decide que si se
Prueba de hipótesis: Binomial de una muestra 149 obtienen más de 26 caras o menos de 14 en 40 lanzamientos, la moneda será considerada como no legal. Si la proporción verdadera de caras fuese p = .25, encuéntrese la probabilidad de cometer un error de tipo II. 8-45 Un grupo de investigadores del cáncer desea probar la hipótesis de que el 40% de todos los estudiantes de preparatoria fuma. Al utilizar un nivel de significancia igual a .05, se encontró que los puntos críticos de la regla de decisión, para una muestra de 50 estudiantes, fueron 13.5 y 26.5 fumadores. Si la verdadera proporción de estudiantes que fuma es de 45%, encuéntrese la probabilidad de cometer un error de tipo II. 8-46 Repítase el ejercicio anterior, pero esta vez encuéntrese la probabilidad de cometer un error de tipo II si la verdadera proporción de estudiantes que fuma es igual a 70%. 8-47 Max, un camarero del café Paragon, afirma que sólo una cuarta parte de los parroquianos puede diferenciar la bebida Northern Comfort de la Rot Gut. Don, su ayudante, apuesta a que la cifra es muy alta. Por lo tanto, obtienen una muestra aleatoria de 25 personas. A cada una de ellas se les da una copa de cada bebida y se les pide que la identifiquen. a) Si α = .05, ¿cuántos parroquianos deberán contestar en forma correcta para que Don gane la apuesta? b) Después de que finaliza el experimento, Don piensa que el valor de p se encuentra entre .40 y .50. Si se supone que lo anterior es cierto, ¿cuál fue el valor más grande de β para la prueba de la hipótesis de la parte a)? 8-48 Un fabricante de juegos de magia produce dos tipos de "monedas". Una tiene un valor de p = P(cara) = .80 y la otra es una moneda legal con p = P(cara) = .50. En forma accidental, un empleado mezcla 100 monedas legales con 200 arregladas. Su jefe le pide que las ordene. Ya que las monedas tienen el mismo aspecto, el empleado decide lanzar cada moneda 30 veces. Espera que la moneda legal dé como resultado un número de caras de alrededor de 15. Para la otra moneda, espera obtener aproximadamente 24 caras. Además, decide que si obtiene una cantidad igual o menor a 19 caras, la moneda será legal, pero si obtiene 20 o más caras la moneda estará arreglada. Cuando termina su proceso, coloca las monedas en dos montones. a) En forma aproximada, ¿cuántas monedas tiene cada montón? b) En forma aproximada, ¿cuántas monedas legales se encuentran en el montón correspondiente a las arregladas? (¿Cuántos errores de tipo I se cometieron?) c) ¿Alrededor de cuántas monedas arregladas se encuentran en el montón correspondiente a las monedas legales? (¿Cuántos errores de tipo II se cometieron?) d) ¿Cómo podría el empleado mejorar sus resultados? 8-49 Un falsificador tiene un montón en el cual se encuentran mezcladas tanto monedas falsas como verdaderas. El detective Michelle Ignatius Gallagher se encuentra a cargo de la investigación y le sigue la pista. El falsificador tiene hambre y por lo tanto necesita comprar un poco de comida, pero sólo desea utilizar las monedas legales con el propósito de que no lo puedan atrapar. Así que decide lanzar cada moneda 20 veces. Para las monedas legales, espera obtener alrededor de 10 caras y de las falsas sabe que no tienen una probabilidad p = P(caras) = .5. Por lo tanto, deci-
Introducción a la estadística 150 de que una moneda será legal si obtiene con ella 9,10 y 11 caras; de otra forma será falsa. a) Si clasifica 100 monedas en esta forma, ¿alrededor de cuántas monedas legales rechazará? b) Si en esta forma obtiene 1 000 monedas supuestamente legales, ¿alrededor de cuántas, en realidad, serán falsas? c) El falsificador decide cambiar de escondite y huir con la mayor cantidad posible de monedas legales. Por lo tanto, decide separarlas lanzando cada una 20 veces. ¿Cuál de las siguientes decisiones asegurará el mayor porcentaje de monedas no falsas en el montón de las "legales"?: 1) Dejar la regla de decisión de 9 a 11 caras, inclusive. 2) Reducirla a 10 caras únicamente. 3) Incrementarla entre 5 y 15 caras. PROCEDIMIENTOS PARA LA PRUEBA DE UNA HIPÓTESIS El procedimiento por medio del cual los estadísticos llevan a cabo un análisis de los datos con el propósito de decidir cuándo la evidencia es lo suficientemente fuerte para apoyar la hipótesis motivada, recibe el nombre de prueba de la hipótesis. En esta sección se hace un resumen y se formaliza el material presentado con anterioridad. Para probar la validez de una afirmación estadística se formulan dos hipótesis opuestas entre sí: la alternativa (o motivada) y la nula. Con frecuencia el estadístico considera probable que la hipótesis nula es la verdadera, aunque es importante no dejar que ninguna idea preconcebida interfiera con la realización del experimento, que deberá ser objetivo e imparcial. El experimento se lleva a cabo en la forma descrita más adelante y tiene como objetivo establecer si la evidencia es suficiente para probar, más allá de cualquier duda razonable, que la hipótesis motivada (o alternativa) es verdadera al demostrar que la hipótesis nula es, con mucha probabilidad, falsa. 1. Con base en alguna idea o experiencia previa, se formula una proposición que se desea probar mediante un experimento. Esto es, se establece la hipótesis motivada Ha con respecto a la población en la que se tiene interés. 2. Para propósitos estadísticos, se prueba la hipótesis opuesta. Por lo tanto, se establece la hipótesis nula Ho. 3. Se selecciona el nivel de significancia a (que es la probabilidad de cometer un error de tipo I). Es decir, se establece lo grande que es el riesgo que se está dispuesto a aceptar al cometer el error de afirmar que la hipótesis motivada es verdadera. Se puede seleccionar cualquier nivel de significancia que se desee. La mayor parte de las publicaciones estadísticas utilizan α = .05 o α = .01. Estos valores son, en general, los estándares aceptados. 4. Se escoge el tamaño de la muestra aleatoria. Con frecuencia, esta elección depende de la cantidad de tiempo o dinero que se está dispuesto a invertir en el experimento, y de la disponibilidad de los sujetos. La facilidad para efectuar los cálculos necesarios también puede ser un factor importante en la selección de n.
Prueba de hipótesis: Binomial de una muestra 151 5. Con base en la hipótesis motivada y en la elección del nivel de significancia, se calcula la regla de decisión. Esta tendrá uno o dos puntos críticos, dependiendo de si la hipótesis motivada es de uno o dos extremos. 6. Se selecciona una muestra aleatoria de la población de interés y se obtienen los datos, 7. Con base en los resultados experimentales y en la regla de decisión previamente calculada, se toma una de dos decisiones posibles. a) Se rechaza la hipótesis nula y se afirma que la hipótesis motivada es la correcta. b) Se fracasa al tratar de rechazar la hipótesis nula; no es posible demostrar que la hipótesis motivada es correcta. Ya que no se ha determinado la potencia de la prueba, no se desea establecer que la hipótesis nula es verdadera. Si la potencia es baja, entonces deberá existir una probabilidad muy grande de cometer un error de tipo II. De acuerdo con lo anterior, se preferirá utilizar la frase "se fracasa al intentar rechazar Ho" en lugar de "se acepta Ho". Algunos autores dicen que ellos tienen "un juicio reservado" en aquellos casos en los que no rechazan la hipótesis nula. Por ejemplo, nunca se puede obtener (en la prueba de una hipótesis) una demostración suficiente que muestre en forma absoluta que una hipótesis nula, por decir algo p es igual a .5, sea verdadera; "igual" es una palabra muy fuerte. Además, el valor de p podría ser, en realidad, .5001, o .5000001. En este caso, difícilmente podría distinguirse .5 de estos valores en forma exacta. Descríbanse los hallazgos en forma clara, asegurando especificar la población involucrada y el significado de la decisión. EJEMPLOS ADICIONALES SOBRE LA PRUEBA DE HIPÓTESIS
EJEMPLO 8-11
Un fabricante afirma que de todas las mujeres que utilizan su píldora para el control de la natalidad, un porcentaje menor al 2% sufre de efectos colaterales. Se piensa que esta estimación es muy baja. Por lo tanto, se decide probar esta afirmación con un nivel de significancia igual a .01, utilizando para ello una muestra de 900 mujeres seleccionadas en forma aleatoria. Encuéntrese la regla de decisión.
SOLUCIÓN
Sea p la probabilidad de que, al seleccionar en forma aleatoria, una mujer que utilice esta píldora sufra de efectos colaterales. Paso 1 Se establece la hipótesis motivada. Ésta afirma que un porcentaje mayor al 2% de las mujeres que utilizan el medicamento sufre efectos colaterarles (prueba de un extremo). Ha: p > .02. Paso 2 Se establece la hipótesis nula. Ésta afirma que el porcentaje de mujeres que sufre de efectos colaterales es menor del 2%, o que la probabilidad de seleccionar una mujer al azar que sufra de efectos colaterales es igual a .02. H o: p = .02. Paso 3 α = .01.
Introducció ón a la estadística 152
Paso 4 n = 900. Se pue ede utilizar la aproximación a n normal a la disttribución binomial ya que np = 90 00(.02) = 18 > 5 y nq = 900(.98) = 882 > 5. Paso 5 Se calcu ula la regla de e decisión. Al suponer que e la hipótesis nula es verdadera a, se tiene que e µ = 18 y σ = √17.64 = 4.20,, (véase la Fig.. 8-8). El puntaje z correspondien nte a un área = .99 es zc = 2.3 33. Mediante el empleo de la fórm mula para conve ertir puntajes z en datos origin nales, se tiene = 18 + 2.33(4.20) = 18 + 9.8 = 27.8 De acuerrdo con lo ante erior, se tiene la distribución n normal mostra ada en la figura 8-9 9. Al ser 27.8 ell valor crítico, la a regla de deciisión es la sigu uiente. Si en la mue estra se encuentran más de 27.8 2 mujeres (e esto es, 28 o más) m que presentan n efectos colaterales, se rech hazará la hipóte esis nula y se afirmará que la ciifra proporcion nada por el fa abricante es demasiado baja a. Si se tienen me enos de 27.8 mujeres que sufren s de efecctos colateraless, no se rechazará á la hipótesis n nula y se habrá á fracasado al intentar demos strar que el fabrica ante se encuen ntra equivocad do.
Paso 6 Supóngase S que e se selecciona a la muestra y se encuentran en ella 23 mujerres que sufren de efectos co olaterales. Paso 7 Ya Y que 23 es m menor que 27.8, de acuerdo co on la regla de decisión, d se fracassa al tratar de rechazar la hipótesis h nula y de esta form ma no es posible demostrar, con un nivel de sign nificancia igual a .01, que el fa abricante está equivocado.
Prueba de hip pótesis: Binomiial de una mues stra 153
EJEMPLO 8-12
El Dr. Bunny Hassenpfefferr, un biólogo muy m famoso, trata de cambia ar la coloración de las crías de cconejo mediante el uso de una dieta especcial. Se sabe que el e 30% de las crías c son blanccas y el resto p presenta manch has. Se escoge un grupo grande de crías y se la as alimenta con n la dieta especcial. Después, se selecciona s una a muestra aleatoria de 100 crrías y se anota a su coloración. El Dr. Hassenpfeffer decide utilizar u un nive el de significan ncia igual a .05. Encuéntrese la regla de decis sión.
SOLUCIÓN
Paso 1 El Dr. Hassenpfeffe er espera que la dieta afecte e la coloración n de las crías pero o no está segu uro de si obten ndrá, con respe ecto a la cantidad usual de cone ejos blancos, u un número may yor o menor. Para P cualquiera a de los dos casoss, p = P(la cría a es blanca) te endrá un valorr diferente de .30. Esto es, Ha: p ≠ .30, que ess una prueba de d dos extrem mos. Paso 2 Ho: p = .30. Esto e es, la proporción de conejoss blancos seguirá siendo igual al a 30%. Paso 3
α = .05.
Paso 4
n = 100.
Paso 5 Se ca alcula la regla de decisión. Al A suponer que e la hipótesis nula n es verdadera a, se tiene que e p = .30, q = .70. Ya que np n = 30 > 5 y nq n = 70 > 5, pued de utilizarse la a aproximación n normal con µ = 30 y σ = √21 = 4.58 como se muestra en n la figura 8-10 0.
Los puntajes z correspondie entes a las área as .025 y .975 son -1.96 y 1..96, respectivame ente. Al converrtir éstos en da atos se obtiene e
= 30 + (± 1.96)(4.58) = 30 ± 8.98 = 21.02 2
y
38.98
De acuerdo co on lo anterior, se e tiene la situac ción mostrada en e la figura 8-11. De esta forma, si el Dr. Hassenp pfeffer obtiene menos de 21.0 02 o más de 38 8.98 crías blancas, rechazará la hipótesis nula y afirmará que e su idea de qu ue la dieta afecta a la coloración es verdadera para esta raza a en particular.. De otra forma, diirá que fue inccapaz de proba ar la existencia a, con un nivel de significancia igual a .05, de e tal relación.
Introducció ón a la estadística 154
Paso 6 Supóngase S que e el Dr. Hassen npfeffer encuen ntra que sólo 15 de las 100 críass son de color blanco. Paso 7 Ya a que 15 es me enor que 21.02 2, de acuerdo ccon la regla de decisión d rechazará á la hipótesis nula. En este caso, el Dr. Hassenpfeffer H afirmará haber pro obado, más allá de toda duda razonable, q que la dieta afe ecta a la coloración n de esta raza d de conejos. En apariencia, éstta reduce el número de conejos blancos. b OTRO MÉ ÉTODO Para llega ar a una conclusión en el eje emplo 8-12, fue e necesario co omparar el resultad do proporcionado por la muesstra (15 conejoss) con los valores críticos (± 1.9 96). En este caso se escogió convertir los puntajes z en da atos. Algunos estadísticos preffieren convertirr los datos en puntajes z. Al A seguir este procceso en el ejem mplo 8-12, se tiene t
Ya que este valor se en ncuentra a la izzquierda de z = -1.96, se recchaza la hipótesis nula.
SENTIDO O COMÚN Y ESTADÍSTICA**
Cuand do el estadista norteamerican no Henry Clay ((1777-1850) ac cuñó las palabras "las estadíssticas no son un u sustituto del sentido común" quizá no haccía referencia a la conclusión de una prueba de hipótesiis, pero * Reimp preso con permiiso de MATYC JOURNAL, J vol. 1 13, no. 2, ¿a la vuelta v de la esquiina o a 12 millas de d distancia? ¿La a persona es o no activa? ¿Es pe esimista u optimistta? ¿El número o que figura en la etiqueta, 350 0 pies cuadrado os, es un mínimo o un promedio? ? ¿Estará satisfe echo si los último os 20 pies cuadrados se pintan sólo s con una cap pa delgada? ¿Se e va a pintar con n un color oscuro o una superficie e que tiene un co olor claro, o vice eversa?
Prueba de hipó ótesis: Binomia al de una muesttra 15 55
sus palabras enciierran una gra an verdad. La prueba estadística de una hipó ótesis es sólo un modelo, y con frecuenccia muy simpliificado, de la realidad. Al igual q que el problem ma real debe trrasladarse en algún a modelo mattemático, la con nclusión que ofrece el modelo debe interpre etarse a la luz de la a realidad y, ad demás, en conjjunción con facctores que no se s encuentran inclu uidos en el mo odelo. Con freccuencia este proceso p es igno orado por los estu udiantes. S Supóngase, po or ejemplo, que e la prueba de alguna hipótessis estadística cond duce a la siguie ente regla de decisión, "con un nivel de significancia igual a .0 01, se rechaza ará la hipótesiss nula si el ressultado es ma ayor de 61.1". Ade emás, supóngase que la muestra proporcion na un resultado o igual a 61.0. Los libros dicen qu ue no es posib ble rechazar la hipótesis nula con base en esta a evidencia; pero p algunos estudiantes re eaccionan en formas muy dive ersas. A Alicia: "Bien; p pienso que estte valor es lo suficientement s te cercano". Berry: "¿No se pu uede cambiar el nivel de sig gnificancia a .0 05?" Stossh: "Supongam mos que efectu uamos una prueba de un extrremo en lugar de una u de dos. ¿Q Qué ocurriría?" Deb bbie: "¿Se pue ede repetir el experimento e co on otra muestra?" Ann nette: "Pienso q que deberíamo os obtener una a muestra más s grande". E Estos estudian ntes buscan un n procedimientto numérico exxacto que les perm mita tomar deccisiones, pero esto e no es tan sencillo. A con ntinuación se pres senta una analogía que quiz zá aclare la situación. S Supóngase qu ue una persona a desea pintarr su dormitorio o. Efectúa un cálcculo con el pro opósito de conocer la superfficie total a pin ntar: 721 pies cuad drados. Entoncces lee la etique eta de una lata de pintura: "El contenido de esta a lata alcanza p para pintar una a superficie de 350 pies cuadrrados". Al ser un genio g en matem máticas, dicha persona calcu ula que necesita ará 2.06 latas. Aho ora, ¿cuántas la atas de pintura a deberá comp prar, dos o tress? El modelo mattemático del p problema real proporciona u una respuesta exacta, 2.06 latass. Pero, con tod da claridad, quizá no sean suficientes dos latas; así que deberán comprarsse tres. P Pero el mundo real impone ottros aspectos: ¿está a la ventta la pintura?, ¿la tienda t se localiiza cerca de la esquina o a 12 2 millas del cam mino?, ¿es un pinto or pulcro o de escuidado?, ¿e es pesimista u optimista?, ¿cree ¿ que el núm mero que está en e la etiqueta —300 — pies cua adrados— es un u promedio o un mínimo?, m ¿le sa atisfaría que loss últimos 20 pie es se cubrieran sólo con una capa delgada?, ¿se va a pintarr con un color oscuro una su uperficie que tiene un color clarro, o viceversa a? E modelo mattemático propo El orciona lineamiientos para tom mar la última deciisión pero se deben consid derar los riesg gos al tomar una u decisión equ uivocada. Si só ólo se compran n dos botes de e pintura, es po osible que se teng ga que volver a la tienda; quizzá ya no tengan n el mismo colo or de pintura o el precio haya aum mentado. Si se e compran tress botes quizá se s tenga que volvver a la tienda a devolver uno o y es posible que en ésta no se acepten devo oluciones. E la misma fo En orma, la prueb ba estadística de d una hipótessis es sólo un mod delo de una situación s real. Así que la re espuesta que puede darse a Alicia, A Berry, Sttosh, Debbie y Annette A es ésta a. “Ustedes tie enen una res-
Introducció ón a la estadístiica 156
puesta; quizá sea correccta. Consideren n las consecue encias de todoss los posibles errores e que se e encontrarían de etrás de una deccisión equivocada". AYUDAS S PARA ESTUD DIO VOCABU ULARIO 1. Hipóttesis nula 3. Prueb ba de hipótesis 5. Prueb ba de dos extrremos 7. Errorr de tipo I 9. Nivel de significanccia 11. Potencia
2. Hipótesis altternativa (o mo 2 otivada) 4 Prueba de u 4. un extremo 6 Regla de de 6. ecisión 8 Error de tipo 8. o II 10 0. Valor critico o
SÍMBOLO OS
FÓRMUL LAS
EJERCIC CIOS 8-50
Complétese la a siguiente tab bla. símbolo
a)
pronuncciación
b)
H sub cero
c)
alfa a
d)
significado
Ha
probabilidad de e ccometer un erro or de tipo II.
8-51 En el artículo "S Sentido común y estadísticca", que se en ncuentra reimpresso líneas arriba, existe un párrafo en el que se formulan va arias preguntas. ¿Qué ¿ pregunta as análogas se deberán considerar al tomarr una decisión práctica como resultado de e las pruebass de hipótesiss de los siguiente es ejercicios? a a) 8-59 b) 8-63 c) 8-64 8-52 Luccky Larry nota a que una de sus monedas muestra cara en casi todas lass ocasiones en n que se lanza.. Decide llevar a cabo una prrueba de hipótesiss. Sus hipótesis son Ho: p = .80, Ha: p > .80 0. Al utilizar un nivel de significan ncia igual a .01 1, rechaza Ho y por lo tanto sse convence de e que su moneda mostrará cara a en más del 80% 8 de las veces. Al utilizarr esta informació ón, apuesta varrias veces y piierde 500 dóla ares. Después de todo, ¿es posiible que la mon neda fuese leg gal? 8-53 Un ingeniero en ccontrol de calid dad de la compañía Acame Bindery, inspeccio ona un libro de e cada 25 que salen s de la enccuadernación. Su regla de decisiión es la siguiente: si un porce entaje mayor de el 1% de los libros en la muestra son defectuosos, entonces se s rechaza el lo ote. Recientemente,
Prueba de hipótesis: Binomial de una muestra 157 un lote pasó la inspección y fue enviado a Ketchum Book Distributors en Filadelfia. Aquí se descubrió que la mayor parte de los libros se encontraban defectuosos. ¿Cómo pudo ocurrir lo anterior? 8-54 Para las siguientes hipótesis, decídase si se utilizará una prueba de uno o dos extremos. Para cada una, establézcanse una hipótesis nula y otra alternativa. Para el caso en que se tiene una prueba de un extremo, establézcase en qué extremo se encuentra la región de rechazo. a) La moneda está arreglada. b) La moneda está arreglada a favor de la cara. c) El nuevo proceso reducirá el número de partes defectuosas que se producen en la línea de producción. d) La afirmación de un fabricante con respecto al número de personas que sufren de deficiencia de hierro es falsa. e) Un fabricante afirma que el número de personas que sufren de deficiencia de hierro es muy alto. f) La vacuna disminuirá el número de casos de sarampión. 8-55 Síganse las instrucciones dadas en el ejercicio 8-54. a) Un porcentaje menor al 3% de las serpientes que se encuentran en Park Avenue, tienen los colmillos fracturados. b) Más del 18% de los profesores de cierta escuela llega tarde a sus clases. c) Unirse a la Unión de Recogedores de Basura, aumentará el sueldo neto promedio de un trabajador de este ramo. d) La costumbre del doctor Meany de sorprender a sus estudiantes con exámenes inesperados en su curso "Hágalo usted mismo en la cirugía a corazón abierto", mejorará el grado de aprovechamiento de los estudiantes. e) La política del entrenador Aquanuts de que sus jugadores de basquetbol se pongan aletas durante el entrenamiento, mejorará el número de puntos promedio anotados por éstos. 8-56 Lorenzo Jones inventa un nuevo proceso para fabricar circuitos integrados para computadoras. Lorenzo afirma que su proceso es mejor que cualquiera de los que se encuentran en uso. Un fabricante decide comparar los dos procesos en un estudio piloto y analizar entonces los resultados mediante una prueba estadística de hipótesis. El fabricante desea utilizar una prueba de dos extremos pero Lorenzo desea que se efectúe una prueba de un extremo. ¿Por qué Lorenzo prefiere una prueba de un extremo? Para los ejercicios 8-57 a 8-70, efectúense las pruebas de hipótesis correspondientes, esto es: a) Establézcase la población y la hipótesis motivada. b) Establézcase la hipótesis nula. c) Decídase si se utilizará una prueba de uno o dos extremos. d) Calcúlese la regla de decisión. e) Interprétense las conclusiones en términos del problema. 8-57 En una universidad, el encargado de las sillas y los escritorios siempre ha supuesto que el 10% de todos los estudiantes son zurdos. Martinique, un estudiante zurdo, tiene problemas para encontrar un pupitre para zurdos. Él sospecha que un porcentaje mayor al 10% de todos los estudiantes son zurdos. Efectúa una encuesta entre 100 estudiantes se-
Introducción a la estadística 158
leccionados al azar y encuentra que 16 de éstos son zurdos. Con nivel de significancia igual a α = .05, ¿es esta una buena evidencia para indicar que el encargado de las sillas y escritorios está equivocado? 8-58 Fargo North, criptógrafo y descifrador, afirma que el 40% de las letras de todos los mensajes son vocales. Utilizando la primera oración de este ejercicio como una muestra aleatoria, pruébese la hipótesis de que Fargo sobreestimó el porcentaje de vocales. Utilícese un nivel de significancia igual a .01. 8-59 Un fabricante de automóviles encuentra que el 20% de éstos no se encuentran en condiciones de ser vendidos cuando salen de la línea de montaje. Un investigador propone una nueva técnica de montaje y afirma que reducirá el porcentaje de automóviles defectuosos. La técnica se utiliza en 80 automóviles seleccionados al azar y se encuentra que sólo tres se encuentran defectuosos. Utilícese un nivel de significancia igual a α = .05. 8-60 El 68% de las personas que contraen la enfermedad Dandruffia terminata, sanan sin recibir ningún tratamiento. El resto muere después de transcurrir un tiempo muy corto. El Dr. Ubaldo tiene un nuevo medicamento y espera que sea una cura para la enfermedad. Lo administra a 64 pacientes, víctimas de este mal, y 50 se recuperan. ¿Constituye este hecho evidencia suficiente para establecer que el medicamento es eficaz? (¿O este resultado es causa del azar?) Efectúese la prueba utilizando un nivel de significancia igual a .05. 8-61 La tasa anual de deserción de los estudiantes del primer año de licenciatura en el Colegio Wealth es igual al 50%. El nuevo jefe de la oficina de admisión afirma que con una nueva política han tenido como resultado una disminución de la tasa de deserción, ya que en este año, de 600 estudiantes que ingresaron a la licenciatura, únicamente desertaron 260. Pruébese la afirmación anterior utilizando para ello un nivel de significancia igual a .05. ¿Apoyan las estadísticas tal afirmación? 8-62 Al utilizar un tipo particular de mecanismo para bombardeo, el 70% de las bombas dan en el blanco. Un ingeniero afirma haber desarrollado un mecanismo mucho más exacto. El nuevo mecanismo se monta en 100 bombas y se efectúa un bombardeo. En éste, 75 bombas dan en el blanco. ¿Existe la evidencia suficiente para afirmar que el nuevo mecanismo es mejor que el anterior? Utilícese un nivel de significancia igual α = .05. 8-63 De acuerdo con una encuesta efectuada en toda la nación, sólo un 40% de todos los entrevistados piensa que pagar una cuota por los servicios de salud beneficiará a los pobres. Cierto político piensa que, en su distrito, el porcentaje de personas que se encuentran a favor del pago de los servicios de salud es más alto. Se toma una muestra aleatoria de 30 personas de este distrito y se encuentra que 14 se encuentran a favor del pago. ¿Es este hecho evidencia suficiente para apoyar, con un nivel de significancia igual a .01, lo que piensa el político? 8-64 Se dice que cierta medicina tiene un porcentaje de eficacia de por lo menos 90% al proporcionar alivio a la gente que es alérgica a los perros y a los gatos. El Dr. Kay Nyne piensa que esta afirmación es incorrecta. De sus pacientes, selecciona 60 que sufren de este tipo de alergias. ¿Qué puede decirse de la afirmación, al utilizar un nivel de significancia igual a .05, si de las 60 personas 58 presentan alivio?
Prueba de hipótesis: Binomial de una muestra 159 8-65 Rafael se queja de que el 25% de todo el tiempo dedicado a la programación matutina dominical por la cadena televisiva WW-TV, es para anuncios. Un estudiante prueba esta afirmación un domingo al encender el televisor, entre las siete de la mañana y el atardecer, 50 veces al azar. En nueve ocasiones, vio un anuncio. ¿Este hecho apoya la afirmación de Rafael? (Utilícese α = .05.) 8-66 Se sabe que en el mes de julio, en cierta región de la costa noreste de Estados Unidos, el 60% de las gaviotas marinas son de raza Franklin. Una mañana, un admirador de las aves fotografía 80 gaviotas. Después se da cuenta de que 75 son gaviotas Franklin. Proporciónense dos posibles explicaciones para este hecho. Utilícese α = .01. 8-67 Dos profesores leen en un periódico que el 60% de todos los estudiantes de primer año de licenciatura están más interesados en ser muy populares entre sus compañeros que en obtener buenas calificaciones. Los profesores piensan que este porcentaje es muy alto y, por lo tanto, entrevistan a 100 estudiantes del primer año de licenciatura. Encuentran que 10 contestaron en forma afirmativa que su mayor interés era ser muy populares, mientras que los 90 restantes contestaron negativamente. Pruébense los resultados anteriores utilizando para ello un nivel de significancia igual a .05. Proporciónense varias interpretaciones para los resultados. 8-68 Un estudiante de economía lee que en su ciudad, el 35% de todos los que tienen un empleo, ganan más de $ 15 000 dólares anuales. Como desea saber lo exacto que es la afirmación, envía 500 cuestionarios a un número igual de personas seleccionadas al azar con ayuda de un directorio telefónico. Sólo contestan 100 personas; 80 informan ingresos superiores a los $ 15 000 dólares anuales. El estudiante planea llevar a cabo la prueba utilizando un nivel de significancia igual a .05. Proporciónense varias interpretaciones para los resultados. 8-69 En ciertas condiciones, la probabilidad de que un renacuajo madure y se convierta en rana es igual a .10. Un científico afirma haber encontrado una forma de colocar vitaminas en el estanque donde habitan las ranas de manera que un número mayor de renacuajos pueda sobrevivir. Después de utilizar el método se toma una muestra aleatoria de 98 renacuajos, y se prueba la hipótesis utilizando para ello un nivel de significancia igual a .05. Para la parte e), si sobreviven 12 renacuajos, establézcase si se rechazará o no la hipótesis nula y Expliqúese lo que esto significa. Si sobreviven 27 renacuajos, establézcase si se rechazará o no la hipótesis nula y explíquese lo que esto significa. 8-70 Stan Sly afirma que puede controlar el resultado de lanzar una moneda legal. Para ver si lo anterior es correcto, un amigo de Stan toma dos monedas, una de las cuales se la proporciona a Stan, la lanza y después le pide a Stan que lance la suya tratando de obtener el mismo resultado. Si el resultado es una cara, Stan deberá tratar de obtener una cara en su turno. Este experimento se repite 18 veces y Stan tiene éxito en 15 ocasiones. Al utilizar un nivel de significancia igual a .05, ¿es este resultado poco común? 8-71 Con un par de dados, se debe tirar un doble (dos números idénticos) alrededor de una sexta parte de todas las veces. Marsha, que está
Introducción a la estadística
160 perdiendo en el juego del monopolio, ha tirado 15 dobles en 60 tiros. Por lo tanto, afirma que los dados están cargados. a) Encuéntrese la probabilidad de que un par de dados legales den como resultado 15 dobles en 60 tiros. b) ¿Es este valor de la probabilidad, el hallado en la parte a), igual a α, β, o a ninguno de los dos? 8-72 ¿Cuán grande deberá ser el tamaño de una muestra para utilizar una aproximación normal con el propósito de probar la hipótesis de que el 3% de todos los habitantes de los Cárpatos que son zurdos tienen por lo menos un ojo verde?
PREGUNTAS RELACIONADAS CON LA ENCUESTA 1. Parece razonable suponer que el último dígito de la mitad de todos los números de la credencial del Seguro Social es impar, mientras que para la otra mitad, éste es par. (Nota: el cero se considera par.) Pruébese esta suposición con α = .05, utilizando los datos de la encuesta. 2. Llévese a cabo una prueba de hipótesis similar sobre el quinto dígito del número de registro del Seguro Social de algún conocido. ¿Qué es lo que ocurre? PROYECTOS DE CAMPO En esta sección se incluyen algunas sugerencias para realizar proyectos de campo. Se espera que el lector lleve a cabo por lo menos uno. Se sugiere que estos proyectos se lleven a cabo en dos etapas. 1. Establézcase en forma clara lo que se pretende hacer. Identifíquense la o las poblaciones que se desean muestrear. Descríbase el procedimiento de muestreo que se pretende llevar a cabo. Estúdiense sus aspectos fuertes y débiles. Establézcanse las hipótesis nula y alternativa, el nivel de significancia, y el tamaño de la muestra. Si se van a formular preguntas a las personas que se encuentran en la muestra, establézcase en forma exacta cómo se les pedirá que las contesten. Si se va a tomar en cuenta alguna otra característica de la muestra, establézcase de manera exacta qué es lo que se está buscando. En cualquier caso, establézcase cómo se manejarán las respuestas que no se ajusten a las categorías ya determinadas. Proporciónese toda esta información al profesor. Después de que éste apruebe el proyecto, continúese con la etapa 2. 2. Llévese a cabo el experimento, como éste se aprobó. Efectúense los cálculos. Infórmese sobre los resultados con comentarios respecto a las bondades y debilidades del proyecto tal y como fue llevado a cabo. EJEMPLO DE UN PROYECTO DE CAMPO En un periódico se asegura que el 60% de los estadounidenses sienten que el Presidente está "haciendo un buen trabajo". Un estudiante duda
Prueba de hipótesis: Binomial de una muestra 161
de que este porcentaje sea el correcto en su vecindario, así que decide realizar el siguiente proyecto de campo. Etapa 1 a) Población Todas las personas de 16 o más años y que viven a no más de tres manzanas de su casa. b) Procedimiento de muestreo En el vecindario existen 30 manzanas. De cada una de éstas, se escogen tres casas al azar. En cada casa, sólo se le preguntará a una persona. Si no hay nadie en la casa, se escogerá otra. c) Preguntas a formular 1) Estoy efectuando una encuesta para mi clase de estadística. ¿Podría contestarme las siguientes preguntas? 2) ¿Qué edad tiene usted? 3) ¿Piensa que el Presidente está haciendo bien su trabajo? Se continúa este procedimiento hasta que se obtienen 90 respuestas afirmativas para la pregunta 1, y la misma cantidad para la pregunta 2, y cualquier número de respuestas afirmativas o no para la pregunta 3. Ya que np = 90(.6) = 54 > 5, y nq = 90(.4) = 36 > 5, se puede utilizar la distribución normal. d) H0: el porcentaje en el vecindario es igual al de toda la nación, p = .60. Ha: el porcentaje en el vecindario no es igual al de toda la nación, p ≠ .60. (prueba de dos extremos). Se utilizará un nivel de significancia α = .05. e) Comentarios sobre las virtudes y las debilidades Si es posible hacer la encuesta en un número mayor de casas, entonces se tendrá un número mayor de personas en la muestra. Etapa 2 (Ésta se lleva a cabo después de que la etapa 1 fue autorizada) Se acudió a 123 casas. En 12 de ellas no había nadie. En tres, no se encontraba presente ninguna persona de 16 o más años de edad. En dos casas, la respuesta a la pregunta 2) fue no. En cuatro, la primera pregunta se contestó en forma afirmativa, pero después de escuchar la pregunta 3) cambiaron de opinión. Para las restantes 90 casas, las respuestas fueron las siguientes sí
no
48
42
SOLUCIÓN DEL PROYECTO Ha: el porcentaje en el vecindario no es igual al de toda la nación, p ≠ .60 (prueba de dos extremos) H 0 : p = .60 n = 90 α = .05
(prueba de dos extremos)
Introduccción a la estadísstica 162 Ya que np = 54 > 5, nq q = 36 > 5, se puede p utilizar lla aproximació ón normal con µ = 54 y σ = √2 1.6 = 4.6.
La curva a para esta disstribución se muestra m en la ffigura 8-12. Por lo o tanto, la regla de decisión ess rechazar la hipótesis nula si se obtienen máss de 63 o meno os de 45 respu uestas afirmativvas. Ya que el resultado del expe erimento es de e 48 respuesta as afirmativas, no es posible rechazar la hipóte esis nula. Esto quiere decir qu ue no fue posib ble demostrar que la hipótesis nula n era falsa. De las 33 perssonas que se negaron n a conttestar, no se tiene evidencia alguna que indiqu ue que sus resspuestas podríían haber sido dife erentes, en form ma muy marca ada, de las pro oporcionadas por p las 90 persona as que sí conte estaron las preguntas. Si exisste una diferen ncia notable, esto o podría camb biar la conclusión.
SUGERE ENCIAS PARA A PROYECTO S Escójase una població ón y diséñese una u prueba binomial de una muestra m a llevar a cabo c sobre dicha población. Después D de que el profesor apruebe el diseño, obténgase la muestra y efecctúese la prueba de hipótesiis. 1. Selec cciónese un re eportaje de algú ún periódico u otra fuente de información,, como se hizo o en el ejemplo o anterior, y effectúese la pr ueba. 2. Prué ébese una hipó ótesis teórica con c respecto a monedas, dad dos, cartas, etc. e Por ejemplo o, ¿las moneda as de diez centavos tienen una probabilida ad igual a .5 de que al lanzarla as el resultado ssea cara? Obté énganse 100 monedas m de die ez centavos y efectúense e 10 experimentos e c cada con una de d ellas con el propósito de probar la hipó ótesis. 3. Lléve ese a cabo cua alquier prueba binomial de un na muestra de elección e propiia.
Prueba de hipótesis: Binomial de dos muestras SÍMBOLOS PARA ESTIMACIONES En el capítulo anterior se preguntaba si una muestra podría o no considerarse, en forma razonable, como seleccionada aleatoriamente de una población. Por ejemplo, si el 62% de todos los habitantes de cierta población son mujeres, ¿cuál es la probabilidad de obtener una muestra aleatoria de 40 personas en la que sólo 48% son mujeres? Sin embargo, y con frecuencia, no se conocen las proporciones en que se encuentran los miembros de una población. Por ejemplo, ¿conocerá un estudiante la proporción de mujeres que estudia historia en su escuela? ¿Sabrá el porcentaje de personas en su barrio que son diabéticas? ¿Qué proporción de las personas que viven en el estado de Carotina del Norte son bautistas? Si se desea llevar a cabo una prueba estadística, pero no se sabe cuáles son las proporciones que se esperan, es posible estimar el valor de éstas obteniendo una muestra aleatoria. Por ejemplo, si se desea conocer el número de clientes de una cafetería que son mujeres, se puede tomar una muestra aleatoria de toda la clientela. Si la muestra tiene 80 personas y 60 de éstas son mujeres, entonces la mejor estimación del porcentaje de clientes que son mujeres será 60/80 = 75%. En este caso no se afirma que la probabilidad de seleccionar a una mujer sea, de manera exacta, .75, sino más bien que esta cantidad es una estimación razonable del verdadero valor basada en los datos que se obtuvieron. Cuando se utiliza el símbolo p para P(x es mujer), entonces se afirma que el valor real de p es .75. Se utilizará el símbolo â (léase: sombrero)
Introducción a la estadística 164
cuando no sea posible conocer el valor real de p sino sólo una estimación ^ de éste. En este caso puede escribirse p = .75. Si se desea encontrar la edad promedio de los estudiantes de una universidad, puede estimarse ésta obteniendo una muestra de aleatoria de las edades de 50 estudiantes. Si se suman estas edades y el resultado se divide entre 50, entonces se tiene la media de la muestra. Este valor puede o no ser el valor real de la media de la población, pero quizá sea una buena estimación de éste. Si µ es el símbolo para denotar el valor real, no conocido, de la media, entonces µ(léase: mu sombrero) será el símbolo que denotará a la mejor estimación de µ. parámetro de la población
valor estimado a partir de la muestra
P µ
p ^ µ
^
DISTRIBUCIÓN DE DIFERENCIAS Supóngase que, para un proyecto, 25 estudiantes desean comparar el porcentaje de estudiantes en dos universidades diferentes pero cercanas entre sí, que apoyan la política del senador Foghorn con respecto a los impuestos sobre el monto de las ventas. Supóngase que todos desconocen que el porcentaje real es 63% o p1 = .63 para una de las universidades. En ésta, cada uno de los 23 estudiantes toma una muestra aleatoria de 100 personas y con ella calculan la mejor estimación de p1, se denotará por ^ p 1 (léase: p sub uno sombrero). Los resultados fueron los siguientes:
^
Si se suman estos valores de p 1 y el resultado se divide entre 23, es probable que se obtenga un valor cercano al real, que es de .63. Ahora, supóngase que cada estudiante toma una segunda muestra de 100 personas de la otra universidad. (Todos desconocen el porcentaje real, que es igual al 60%, o p 2 = .60.)
Prueba de hipó ótesis: Binomia al de dos muesttras
165
Al calcular la diferencia entrre cada par de e estimacioness, se obtienen los siguientes res sultados:
La distribución n de números que aparece en la última columna c recibe e el nombre de dis stribución de diferencias de d las proporciones muéstrales. ^ ^ ^ Se empleará el e símbolo d p para indicar la cantidad p 1 - p 2- De manera te eórica, si se tom man todos los p posibles paress de muestras aleatorias provvenientes de doss poblaciones, la distribución de diferencias resultante tend drá tres importanttes propiedade es. (No es nece esario.) 1. La distribu ución de difere encias será, en n forma aproximada, normal si n1p1, n1q1, n2p2 y n2q2 so on todos mayorres que cinco. 2. La media de las diferencias será igua al a p1 – p2. Esto se esscribe de la sig guiente forma 3. La desviacción estándar de las diferenc cias será igual a
Introducc ción a la estadís stica 166
es de ecir,
en donde n1 = número de persona as en la muestra correspondiente a la prime era población (qué ( población n es la "primerra" y cuál la "se egunda" es un hecho arbitra ario) p 1 = proporrción real de la a primera pobllación q1 = 1 – p1 n2 = número de persona as en la muestrra correspondiente a la segunda población p2 = proporcción real de la segunda pob lación. q2 = 1 - p2 Esta distribución d se muestra en la figura 9-1. En n el caso particcular en el que p1 y p2 tienen el m mismo valor (p),, la fórmula para se red duce a
EJEMPLO 9-1 9
Leonardo ha sido acep ptado en las un niversidades de Adelphi y de e Hofstra. Por lo ta anto, decidirá asistir a la que tenga t el mayorr porcentaje de e dormitorios para a estudiantes. Un amigo le dice que eso no o es importante e, ya que las proporciones para ambas univerrsidades son, a aproximadamente iguales. Dud dando de la afirrmación de su amigo y al serr incapaz de ob btener informació ón más exacta, Leonardo deccide efectuar una u prueba bin nomial de dos mue estras. Su hipó ótesis motivada a es que el po orcentaje de do ormitorios para esttudiantes en la a Universidad de d Adelphi es diferente del de d la Universidad d de Hofstra. S Su hipótesis nula es que las p proporciones en e ambas universid dades son iguales. Si se denota con p1 = p (un estudiante de la Universidad de Adelph hi, seleccionado al azar, tiene e asignado un dormitorio) y con p2 = P (un esstudiante de la Universidad de e Hofstra, selecciona-
Prueba de hip pótesis: Binomiial de dos mues stras 167
do al azar, tiene asignado d o un dormitorrio), entonces la presentac ción s simbólica de la as hipótesis ess (prueba de loss extremos) ^
^
Después, Leonardo toma d dos muestras aleatorias, calcu ula p1, p 2 y obtiene ^ ^ ^ su s diferencia dp = p1 - p 2. La a diferencia qu ue Leonardo ca alcula es sólo una de d las muchas que se pueden n obtener si se tuviesen más p pares de muesstras aleatorias. a Se mencionó con anterioridad que q la distribucción teórica de e las diferencias d es normal. De acuerdo con la hipótesis nula a de Leonardo o, la media m de esta distribución es cero. El problema p consisste en decidir si s la ^ ^ ^ diferencia d muestral d p = p 1 - p 2 se encue entra o no, en fforma significattiva, le ejos del valor de la media, lo o cual indicaría a que la hipóte esis nula está, en forma f probable e, equivocada a. En este cas so, lo anteriorr significa que los valores v reales de d las proporciones p1 y p2 no o son iguales. Con el prop pósito de prob bar la hipótessis nula, Leonardo obtiene dos muestras alea atorias, una pa ara cada unive ersidad. La muestra aleatoria a de 100 estudiante es que corresp ponde a la Univ versidad de Ad delphi, contiene e 60 ^ estudiantes que tienen asig gnado un dorm mitorio. Por lo ttanto, n1 = 100 0, p1 ^ ^ = 60/100 = .6 60 y q1 = 1 - p1 = .40. La muestra m aleato oria de 100 esstudiantes corresspondiente a la a Universidad de d Hofstra, con ntiene 50 estudian^ tes que tiene en asignado un u dormitorio . Por lo tanto o, n 2 = 110, p 2 = ^ ^ 50/100 = .45 , y q 2 = 1 - p 2 = 1 - .45 = .55. La difere encia muestra l es ^ ^ ^ dp = p1 – p2 = -60 - .45 = .15. Ya que no se s conocen loss valores de p1, q1, p2, o q2, no es posible afira mar si n1p1, n1q1, n2p2 o n2q2 son mayoress que cinco. Po or lo tanto, se utilizarán las estimaciones y ccon éstas se verificará v si loss cuatro núme eros ^ ^ ^ ^ n1p1, n1q1, n2p2 y n2q2 son ma ayores que cin nco.
(Nótese ( que loss cuatro número os son idéntico os a los resultad dos muéstraless: en Adelphi, A 60 es studiantes tiene en dormitorio y 40 no; en H Hofstra, 50 tie enen dormitorio d y 50 no. Lo anteriorr siempre ocurrre en este tipo de problemas.)) Ya que q 60, 40, 50, y 60 son núme eros mayores que q 5, entoncess la distribución n de la as diferencias será aproxima adamente norm mal. De acuerd do con la hipóte esis nula, n = 0 pe ero ¿qué valor sse puede utiliza ar para estimarr ? De acue erdo con c la hipótesiss nula, p1 y p2 son iguales. Pero, P ¿cuál es su valor numé érico común? c Lo mejor que puede hacerse es forrmar lo que se conoce como una estimación e co onjunta de su u valor. En to otal, Leonardo encuesto a 210 estudiantes e (n1+ n2) y encontrró que 110 teníían asignado un dormitorio (6 60 + 50). 5 De tal manera, m que la estimación n conjunta pa ara la verdad dera proporción p de estudiantes qu ue tienen dorm mitorio será
Introducción a la estadísstica 168 ^
Se escrib be p = .52 y se e utiliza este va alor en la fórmula para tado será á una estimació ón de Se llamará
El resul-
Esta disttribución se mu uestra en la fig gura 9-2.
Si Leo onardo decide usar un nivel de d significancia a α = .05 ¿cuá ál deberá ser su reg gla de decisión n para este expe erimento? Ya q que se tiene una prueba de dos extremos,
z c = ±1. 96 ^
Se convierte este punttaje z crítico en una diferenccia crítica dpc:
La regla de decisión se erá rechazar la a hipótesis nula a si la diferenccia mues^ ^ ^ tral d p = p1 - p2 es me enor de -.14 o mayor de +..14. Ya que e la diferencia muestral es ig gual a .15, que e es un númerro mayor que .14, Leonardo rech haza la hipótes sis nula y afirm ma que el porce entaje de estudianttes en la Unive ersidad de Adelphi que tienen asignado un dormitorio es distin nto al corresp pondiente a la a Universidad de Hofstra. Evidente mente, el e porcentaje es e más alto en la Universida ad de Adelphi. PRUEBA AS BINOMIAL LES DE DOS MUESTRAS. M R RESUMEN La prueb ba binomial de e dos muestrass se utiliza cua ando se compa aran dos poblacion nes. Se denota a con p1 la proporción real de e aciertos en la a primera población, y con p2 la proporción p corre espondiente de e la segunda población. La hipó ótesis nula esta ablece que la diferencia entre las proporciones reales es un núm mero fijo. Para la mayor parte de los problemas que se presentan en este libro o, la hipótesis nula es que p 1 = p 2 , la cual implica que p1 - p2 = 0. Lo anterrior significa q que si se tom masen todos los pares possibles de diferencias, entonces la media de la a distribución de éstas será á igual a cero. De acuerdo con lo anterior, pu uede escribirse e
Prueba de hip pótesis: Binomial de dos mues stras
169
La hipótesis alternativa tendrá un símbolo <, >, o #, que indica si se efe ectuará una prueba de uno o dos extremos. Para calcula ar la regla de decisión es necesario n cono ocer la media y la desviación está ándar de la distribución de differencias. La m media se obtiene e de la hipótesis nulla y la desviació ón estándar se estima median nte el empleo de d la siguiente fórm mula
^
en donde p es s la estimación conjunta dell valor común p. EJEMPLO 9-2
SOLUCIÓN
Un investigado or compara loss niveles de seguridad de doss automóviles muy m populares. Su interés recae en e el porcentaje de accidente es automovilísticos en los cuales fa alleció el condu uctor. El investig gador ha escucchado rumores con respecto a que e el modelo Bo oomer es más peligroso p que e el modelo Zoom mer. Al buscar en archivos recientes, encuen ntra que en lo os últimos me eses ocurrieron 423 3 accidentes de el modelo Zoom mer. En 34 de éstos, é el condu uctor murió. La cifra correspondien nte al modelo Boomer B fue de 5 580 accidentes s, en 58 de los cua ales falleció el conductor. Al utilizar un nive el de significan ncia igual a .01, ¿in ndican los hech hos anteriores que q es más pro obable que, al sufrir s un accidente, el e conductor muera si maneja a un automóvil m modelo Boome er? Sea p1 = P (el conductor de un automóvil Boomer B muere e si tiene un accidente), y p2 = P (el conducto or de un autom móvil Zoomer muere m si tiene un u accidente), (p rueba de un extremo e sobre e el e extremo dereccho) (si la población n Zoomer es ig gual a 1, se ten ndría una prue eba de un extre emo, sobre el extremo izquierdo).
Ya que sson todos máss grandes que 5, la distribucción de la diferenciia es, en forma a aproximada, normal. La esstimación conju unta de p es
Esta distribución se muestra a en la figura 9-3. 9
Introducciión a la estadísttica 170
De acuerrdo con lo ante erior, se tiene la a situación mosstrada en la figura 9-4.
^
El valor crítico c de d p es .04. Por lo ta anto, la regla de decisión es que q si el ^ valor de dp es mayor q que .04 entoncces se rechaz ará la hipótesis nula. ^ ^ El valo or de la difere encia es p1 - p2 = .10 - .08 = .02, que no o se encuentra en e la región de rechazo. De es sta forma, no h ha sido posible establecer, con α = .01, que el p porcentaje de accidentes a fata ales sea mayorr para los automóviiles Boomer. L La diferencia entre éstos d dos porcentaje es no es estadísticcamente signifiicativa.
AYUDAS S PARA EL ES STUDIO VOCABU ULARIO 1. Estima ación 2. Pru ueba de hipóte esis con dos muestras m 3. Distrib bución de dife rencias 4. Esttimación conju unta SÍMBOLO OS
Prueba de hip pótesis: Binomia al de dos muesttras
171
3. Diferencia a muestral 4. Diferencia crítica EJERCICIOS 9-1 Randy Se emple, un estudiante de esta adística, efectu uó un proyecto de campo para el capítulo 8. Leyyó en un periód dico que el 28% % de los habitan ntes de la ciudad de d Nueva York era propietario o de un perro. Llevó a cabo una u prueba con el propósito de ssaber si el 28% % de los habitantes de su ciud dad tienen un perro o. Esta es una prueba de hipó ótesis con una m muestra. Despu ués de estudiar el capítulo 9, se d da cuenta de que la cifra prop porcionada para a la ciudad de Nue eva York debió haberse obten nido por medio de una muestra a y, por lo tanto, de esea llevar a cabo una prueba de dos muesstras. ¿Tiene a su disposición loss datos suficientes? 9-2 Se sabe que q una cantidad muy peque eña de moneda as de 10 y 5 centavos tienen una probabilidad d igual, en form ma exacta, a 1//2 de que el res sultado, al lanzarrlas, sea cara. Si éstas tiene en una probabilidad p = P (ca ara) poco diferente e de .5, se dese ea probar sí lass monedas son n, en forma sign nificativa, diferen ntes entre sí. Se obtienen 100 0 monedas de 10 centavos y 50 de cinco centa avos, todas reciién acuñadas. Entonces E se lanza cada mone eda en 10 ocasion nes y se anota el número de veces v que el re esultado fue ca ara. Para las mone edas de 10 centavos, n1 = 1000 y se obtuvvieron 490 carras. Para las mone edas de cinco centavos, n2 = 500 y se obtu uvieron 240 carras. a) Establézca anse las hipóte esis. b) ¿Es ésta una u prueba de uno o dos exttremos? c) Encuéntren nse d) Encuéntresse e) Encuéntres se la regla de decisión para a este experim mento utilizand do α = .05. ^ ^ ^ f) Calcúlese e d p = p1 - p2 y establézcas e la conclusió ón alcanzada en este experimento. 9-3 Aerolíneas Ejecutivas analiza a el servicio que propo orciona a sus pap sajeros. Una de d las pregunta as es la siguien nte: entre dos vuelos, ¿cuál es s el que transportó ó el mayor porccentaje de personas dedicada as a los negocio os? Durante un pe eriodo de tiemp po igual a un mes, m se entrevissta a una muesstra aleatoria de pa asajeros. En ell primer vuelo 130 1 de 200 perrsonas se dediccan a los negocios. En el segundo, 120 de 200 2 personas sse dedican a los negocios. a) Encuéntres se la regla de decisión para esta prueba. U Utilícese α = .0 01. ^ b) Calcúlese dp y establézccase la conclusión. 9-4 Una forma a de comparar d dos escuelas entre sí es a travvés del porcenttaje de estudiantes, en cada un na de ellas, qu ue trabajan con el propósito de pagarse sus estudios e durantte el año escolar. En dos esccuelas se efecctúa una encuesta a y se obtiene en los siguien ntes resultadoss: en la escu uela Cardinal, el 70 0% de los entrrevistados trab baja, mientras que en el cole egio Blank el porce entaje es igual al 75%. El núm mero de personas entrevistad das en cada escuela fue de 100 0.
Introducción a la estadística 172 a) Encuéntrese la regla de decisión para esta prueba. Utilícese α = .05. ^ b) Calcúlese dp y establézcase la conclusión. 9-5 En ciertos procedimientos médicos debe introducirse, durante un lapso grande, un catéter en las venas del paciente. Lo anterior constituye un factor potencial para la formación de coágulos sanguíneos. Se lleva a cabo un experimento clínico en el que se administra a un grupo de estos pacientes una pequeña dosis de aspirina, medicamento que se piensa reducirá la ocurrencia de coágulos sanguíneos. En uno de estos experimentos, los resultados son los siguientes: de 19 pacientes a los que se les administró aspirina, 6 desarrollaron coágulos, mientras que de 25 que recibieron un placebo, 18 presentaron coágulos. La evidencia anterior, ¿se encuentra a favor del uso de la aspirina? Utilícese α = .01. 9-6 Un profesor se entera de un nuevo método para enseñar una idea difícil. Como tiene a su cargo dos grupos de alumnos con inteligencias, habilidades y conocimientos iguales, decide enseñar un tema utilizando para ello dos métodos, el nuevo y el tradicional. Al enseñar el tema a una clase de 20 alumnos con el método tradicional, descubre que 12 de ellos comprendieron el tema. Al enseñar con el método nuevo en el segundo grupo, que está formado por 25 estudiantes, encuentra que 16 de ellos asimilaron el tema. Pruébese la teoría de que la nueva técnica es significativamente mejor que la tradicional. Utilícese un nivel de significancia igual a .01. 9-7 Con el propósito de probar la hipótesis de que la actitud con respecto al control de la natalidad de los católicos es, en forma significativa, diferente a la de los judíos ortodoxos, se toman dos muestras aleatorias. De 60 católicos entrevistados, 42 se oponen al control natal, mientras que de 60 judíos sólo 29 están contra éste. Pruébese la hipótesis. Utilícese α = .05. 9-8 El gerente de un almacén de pinturas desea determinar el efecto que la publicidad tiene sobre el volumen de ventas. El almacén vende una marca particular de pintura de $ 10.98. El gerente decide anunciar un precio especial de venta para esta pintura el viernes, sábado y domingo únicamente. Para detectar si la publicidad tuvo o no algún efecto en el volumen de ventas, se toman dos muestras aleatorias entre los clientes. Un fin de semana antes de la campaña publicitaria, se encuentra que, de 100 clientes, 12 compraron la pintura. Durante la venta de fin de semana, 21 de 110 clientes adquirieron la pintura. Determínese si la publicidad fue eficaz. Utilícese un nivel de significancia igual a .05. 9-9 El dietista de cierta universidad sospecha que la proporción de hombres que comen tres veces al día es mayor que la correspondiente a las mujeres que tienen la misma costumbre. Se toman dos muestras aleatorias. De 500 hombres entrevistados, 432 afirmaron que por lo general comen tres veces al día, mientras que de 500 mujeres encuestadas, 401 comen tres veces al día. Determínese si esta diferencia es significativa. Utilícese un nivel de significancia igual a .01. 9-10 Óscar, un candidato al doctorado, efectúa una encuesta relativa al programa infantil "Calle Sésamo". Desea saber si existe alguna diferencia entre el número de niños televidentes que ven el programa con frecuencia, en las zonas urbanas, y el correspondiente a las zonas no urbanas. En dos muestras aleatorias, Oscar encuentra que 24 de 30 niños que habitan en
Prueba de hipótesis: Binomial de dos muestras 173 zonas no urbanas ven el programa, mientras que de 25 que habitan en zonas urbanas, 19 ven el programa. Llévese a cabo la prueba utilizando α = .05. 9-11 Al efectuar una revisión de los archivos de defunciones en un hospital de veteranos, se encontró que de 50 personas no fumadoras seis murieron de cáncer pulmonar mientras qué de 60 fumadores, 15 fallecieron a consecuencia de cáncer pulmonar. Utilícese una prueba de un extremo para decidir, con un nivel de significancia igual a .05, si esta diferencia es significativa. 9-12 Dustin acude a una fiesta de graduación. Ya que la mayoría de los asistentes son, principalmente, los padres de sus amigos, decide pasar el tiempo llevando a cabo una prueba de hipótesis binomial de dos muestras. Él nota que existe una diferencia entre los hombres y las mujeres. Piensa que gran proporción de hombres apagan sus cerillos mediante un soplo. Toma dos muestras aleatorias y encuentra que de 13 hombres siete apagan sus cerillos con un soplo, mientras que sólo 6 de 14 mujeres lo hacen en esa forma. Pruébese, con un nivel de significancia igual a .01, si existe alguna diferencia. 9-13 Marcos y Antonio discuten acerca de quién de los dos tiene una percepción extrasensorial (PES) mayor. Entre ellos se reparten un par de dados y, en forma alterna, cada uno lanza el suyo. Después de que Marcos tira su dado y observa el resultado, Antonio intenta, sin ver, adivinar el resultado correcto. Después, Antonio tira su dado y Marcos trata de determinar el resultado. Después de que cada uno ha lanzado el dado 60 veces, Marcos acertó en 20 ocasiones mientras que Antonio sólo lo hizo en 15. a) Con un nivel de significancia igual a .05, ¿los hechos anteriores indican alguna diferencia entre las PES de Marcos y Antonio? b) Con un nivel de significancia igual a .01, ¿muestra Marcos una PES extraordinaria? c) ¿Qué puede decirse con respecto a Antonio? 9-14 La profesora Laura Hardy lleva a cabo un estudio con el propósito de determinar si el hombre primitivo podría haber tenido el pie palmeado. En su estudio examinó los dedos de 1 000 niños en edad escolar. De los varones examinados, 45 de 500 tenían una membrana entre el segundo y tercer dedos. De las niñas, 33 de 500 presentaron la misma característica. En algunos niños, la membrana se encontró presente en todos los dedos y la profesora Hardy ignoró estos casos, ya que este fenómeno es desconocido entre todos los primates. Las cifras anteriores ¿indican alguna diferencia entre el porcentaje de varones y el correspondiente a las mujeres que presentan una membrana entre el segundo y tercer dedo? Utilícese α= .01. 9-15 Hace poco se encuesto a 1 457 personas cuyas edades fluctuaban entre 18 y 64 años de edad. De manera similar, se entrevistó a 2 797 personas cuya edad era de 65 o más años. En el primer grupo, el 50% de sus miembros informó sufrir de alguna enfermedad, mientras que en el segundo este porcentaje fue de sólo 23%. Llévese a cabo una prueba de hipótesis de un extremo utilizando para ello un nivel de significancia igual a .01. ¿Qué es exactamente lo que se está probando? 9-16 Una compañía petrolera dispone de dos métodos para decidir don-
Introducción a la estadística 174 de perforar un pozo. El método A ha tenido éxito en 10 de los últimos 30 ensayos. El método B, en 7 de 27 ocasiones. Con α = .05, ¿indica esta evidencia que el método A es superior? 9-17 En un examen nacional de aptitud en matemáticas se planteó el siguiente problema a una muestra de 500 adultos (de 26 a 35 años) y a otra de 500 adolescentes (todos de 17 años). Una bebida de fruta se hace con cantidades iguales de agua de limón, agua de lima, jugo de naranja y ginger ale. Se desea preparar dos galones de esta bebida. ¿Qué cantidad de ginger ale deberá utilizarse? Se encontró que el 30% de los adolescentes obtuvo la respuesta correcta, mientras que el 36% de los adultos hicieron lo mismo. ¿Estos resultados apoyan la idea de que las personas adultas son mejores en este tipo de preguntas? Utilícese α = .01. ¿Cuál es la respuesta correcta al problema de la bebida? 9-18 En un estudio para saber quién tenía la culpa en los accidentes automóvil-bicicleta, una encuesta reveló que los ciclistas cuya edad era de 12 años o menos fueron probablemente responsables en el 92% de los accidentes en los que estuvieron involucrados. La tasa disminuyó al 43% para los ciclistas de 20 a 24 años, y a 36% para todos aquellos que tenían una edad de 25 o más años. a) Si la encuesta incluyó 500 accidentes automóvil-bicicleta que involucraban a ciclistas de 12 o menos años, 300 de 20 a 24 años, y 400 de 25 o más años, pruébese la hipótesis de que el porcentaje correspondiente al grupo de 20 a 24 años es mayor que el del grupo de 25 o más años. Utilícese un nivel de significancia igual a .05. b) En una ciudad se inició en las escuelas primarias un programa intensivo de seguridad para los ciclistas. Después de un año, los informes que detallan la responsabilidad de los ciclistas en accidentes se pueden resumir en la siguiente forma. grupo de edad menos de 12 20 a 24 más de 25
responsable del accidente 240 de 300 40 de 100 25 de 76
¿Los resultados anteriores indican que el programa redujo la responsabilidad en los accidentes para el grupo de 12 o menos años? Utilícese α = .05. 9-19 Un estudio financiado por el gobierno, para 2 100 adultos (de 26 a 35 años) y 1 700 adolescentes (todos de 17 años), a los cuales se les enseñó la "nueva" matemática, demostró que algunos ciudadanos pierden cientos de dólares al año debido a que no pueden aplicar las matemáticas en sus actividades. El Dr. Noha Progress, un miembro de la comisión que efectuó la encuesta, especula que la nación ha perdido toda una generación de estudiantes a los que se les enseñó cómo trabajan las matemáticas pero no cómo emplearlas. "Ellos no pueden aplicar las matemáticas a los problemas cotidianos", dijo en alguna ocasión. Con un nivel de significancia igual a .01 y con base en la evidencia de que sólo el 40% de los adolescentes y el 45% de los adultos son capaces de calcular el precio
Prueba de hip pótesis: Binomia al de dos mues stras 175
más bajo de una u caja de arrroz, ¿puede afirmarse a que sus conclusiones son válidas? 9-20 Un médiico llevó a cab bo un estudio sobre s el emple eo de los anticcoagulantes en el e tratamiento del infarto carrdiaco agudo. Encontró que e de 1 104 paciente es que recibierron anticoagula antes, el 8.3% murió en el tra anscurso de 21 días d después d de sufrir el infarto. De 1 226 que no recibie eron ningún tratam miento con anticcoagulantes, murió m el 27.3% % en el mismo periodo de tiemp po. Demuéstresse que, con un nivel de significcancia igual a .01, esta diferencia a es significativa. 9-21 De una muestra alea atoria de las liibretas de vis ita del asilo Sea S Wiew, se obtu uvieron los sigu uientes datos: el interno re ecibe el interno no visitas co on recibe visita as frecuenccia con frecuen ncia el interno tiene nie etos
20
40
60
el in nterno no tiene nietos
10
30
40
30
70
Con frecuencia se obtiene la a conclusión típ pica de que com mo 20/30, o 2/3 3 de quienes recibe en una visita en n forma regularr tienen nietos,, entonces es más m probable que una u persona que e tiene nietos se ea visitada con mayor frecuencia. Pero esta concclusión es falsa a, ya que 20/60, o 1/3 (que es menor que 1/2)) de los abuelos re eciben visitas. En este mom mento se pued den formular dos d preguntas. a) ¿Cuál es la a probabilidad de que una pe ersona que recibe visitas de mam nera regular se ea abuelo? ¿Cu uál es la probabilidad de que un na persona que e no recibe visitas con frecuencia a sea abuelo? Sea la poblacción 1 la forma ada por los interno os que reciben n visitas con fre ecuencia. Sea la población 2 la formada por lo os internos qu ue no reciben visitas v con freccuencia. Con α = .01, ¿los datoss indican que e existe un porce entaje diferente e de abuelos en ntre estas dos pob blaciones? b) ¿Cuál es la a probabilidad de que un abuelo reciba vissitas con frecuencia? ¿Cuál es la probabilidad d de que una persona p que no o es abuelo recciba visitas con frecuencia? Sea la población 1 la formada po r los abuelos, y la población 2 la integrada por los que no son n abuelos. Con α = .01, ¿indiccan los datos que existe un porce entaje diferente e de pacientes que reciben visita con freccuencia entre e estas dos poblaciones? 9-22 Donald Wahn W llevó a ca abo una encue esta con el pro pósito de cono ocer la opinión de la as personas con respecto a un na escuela de finanzas. Entrevvistó a 400 estudian ntes y encontró que 100 tenían n una opinión fa avorable. Tamb bién entrevistó a 100 1 profesoress y 10 opinaro on también en forma favorable. Demuéstrese,, utilizando parra ello un nivel de significanccia igual a .01, que estos resultad dos indican una a diferencia de opiniones. 9-23 a) Winnyy tira un dado. Ella gana si el resultado es un número im par; de otra mane era pierde. ¿Alrededor de qu ué porcentaje de d juegos deb berá ganar Winny? ? b) Lucy extrae e una carta de u una baraja que contiene 52. P Pierde si obtiene e un corazón. ¿Alrrededor de qué é porcentaje de juegos perde erá Lucy?
Introducción a la estadísttica
176
c) Winnyy tira el dado 20 veces y anotta e! porcentajee de ocasioness en las ^
que gana a por p1 ; Lucy e extrae 50 carta as y denota el porcentaje de ocasio^ ^ ^ nes en la as que pierde por p p 2. Drew efe ectúa la sustraccción p 1 - p 2 y denota ^ las difere encias por dp. Ellos repiten este e procedimiento muchas veces v y ^ obtienen,, como resultad do, una distribu ución muy gran nde de dp ′s. Esstímese la media de esta distrib bución. ^ d) Norma almente, Drew dibuja una grá áfica de las dp ′′s. Expliqúese por p qué la gráfica a que Drew dibu ujó en el inciso o anterior debe ser, en forma aproximada, la de una curva normal. ^ e) Ya que p1 ≠ p2, la de esviación están ndar de las dp tiene que enco ontrarse mediante e una fórmula diferente: d
Sea D ell número que separa al 95% % en la distribu ución de resulttados de Drew del restante 5% q que se encuenttra a la derecha a en la distribucción. Encuéntresse el valor de D D. 9-24 En lugar de proba ar la hipótesis de que p 1 = p2 , se puede pro obar que p1 es 20% % mayor que p2. A pesar de esto, e es igu ual a p1 - p2, pe ero no se conjuntan los resultado os experimentales, y
Mediante e el empleo de esta idea, prué ébese la hipótessis de que el po orcentaje de mujerres que fuman es 20% mayo or al correspon ndiente a los hombres. h Utilícense e los siguientess datos: de 200 0 mujeres entre evistadas, 120 fuman, y de 400 hombres, h 150 fuman y α = .05. EJERCIC CIOS RELACIO ONADOS CON N LA ENCUES STA Suponien ndo que la classificación de la clase de acuerdo con el colo or del cabello es representativa r de la de toda la escuela, llévese a cabo el siguiente s experime ento. Pruébese e si el porcentaje de mujere es de cabello claro es igual al de d los hombress de cabello cllaro. PROYEC CTOS DE CAM MPO Repásen nse las instruccciones generalles dadas para a proyectos esspeciales que se encuentran e al final f del capítulo 8 y selecció ónese entoncess uno de los siguie entes. 1. Lléve ese a cabo un experimento similar s al ejercicio 9.2 2. Lléve ese a cabo un experimento e co on el propósito de decidir si ex xiste al-
Prueba de hipótesis: Binomial de dos muestras 177
guna diferencia significativa entre el porcentaje de hombres zurdos y el correspondiente a las mujeres que también son zurdas. 3. Llévese a cabo una prueba binomial de dos muestras que sea de elección propia. Sugerencias: Diferencias entre grupos de edad, grupos políticos, sexos, religiones, razas, etc., sobre opiniones, política, preferencias por cierto tipo de alimentos, literatura, música, etc. EJEMPLO DE PROYECTO DE CAMPO Problema ¿Existe alguna diferencia entre el porcentaje de mujeres que asiste a los servicios religiosos con frecuencia y que se encuentran inscritas en el Colegio Washington y el correspondiente a las que viven en la localidad pero que no asisten a ninguna escuela y que también asisten a los servicios religiosos con frecuencia? Se pedirá a 30 mujeres del Colegio Washington que contesten las siguientes preguntas. 1. Estoy efectuando una encuesta para mi clase de estadística. ¿Sería tan amable de contestar dos preguntas con respuestas sí o no? 2. ¿Estudia en el Colegio Washington? 3. ¿Asiste a los servicios religiosos por lo menos dos veces al mes? La encuesta terminará cuando se tengan 30 mujeres con una respuesta afirmativa a las preguntas 1 y 2, y cualquier respuesta a la pregunta 3. Después se pide a 30 mujeres, por ejemplo las que se encuentran en un centro comercial, que den respuesta a las siguientes preguntas. 1. Estoy efectuando una encuesta para mi clase de estadística. ¿Sería tan amable de contestar dos preguntas con respuestas sí o no? 2. ¿Asiste a algún Colegio? 3. ¿Asiste a los servicios religiosos por lo menos dos veces al mes? La encuesta se continúa hasta que se tienen 30 mujeres con una respuesta afirmativa a la pregunta 1, una respuesta negativa a la pregunta 2 y cualquier respuesta a la pregunta 3. Entonces, pueden formularse las hipótesis siguientes: Ha: El porcentaje de mujeres que asisten tanto al Colegio Washington como a los servicios religiosos es distinto al correspondiente a las mujeres que no están inscritas en ninguna escuela. H0: Los dos porcentajes son iguales entre sí Sea p1 = P(una alumna del Colegio Washington asiste con frecuencia a los servicios religiosos), y p2 = P(una mujer que no va a ningún colegio y asiste con frecuencia a los servicios religiosos). Informe El martes 27 de abril, de las 3:15 a las 4:30 PM, se encuesto a 47 mujeres en la cafetería del Colegio Washington. De todas ellas, 4 dieron una respuesta negativa a la pregunta 1, 3 no eran estudiantes, 8 no dieron respuesta a la pregunta 3, 2 dieron respuestas muy vagas que no eran del
Introducción a la estadísttica 178
tipo sí/no o. De las 30 qu ue dieron respu uesta al cuestionario, 13 lo hicieron h ^ en forma a afirmativa. Por P lo tanto, p 1 = 13/30 = .4 43 y n 1 = 30. El miérrcoles 28 de ab bril, de las 1:20 0 a las 3:05 PM M, se preguntó a 56 mujeres de un u centro come ercial. De éstas s, 10 dieron una respuesta ne egativa a la pregun nta 1, 16 se enccontraban inscrritas en alguna escuela. De las 30 que contestarron, 15 lo hicieron en forma a afirmativa. Por P lo tanto, n2 = 30 y ^ p 2 = 153 30 = .50. Ya que q son iguales a 13, 17. 15, y 15, y todos ellos sson mayores de e 5, entonces p puede utilizarse e la distribución no ormal, α = .05. Ésta es una prueba p de dos extremos. Por lo tanto, zc = ± 1. 96.
La distribución se mue estra en la figu ura 9.5. La dife erencia crítica es
La regla de d decisión serrá rechazar H0 si la diferencia a muestral es menor m de -.25 o ma ayor que .25. ^ ^ ^ La diferencia muestra al es dp = p1 - p 2 = .43 - .50 = -.07. Por lo tan nto, no es posible re echazar la hip pótesis nula, essto es, no es posible demosstrar que existe alg guna diferencia significativa a entre la asisstencia a los servicios religiososs y la asistencia a al Colegio Wa ashington (con un nivel de significancia igual a .0 05). Se considera poco prob bable que aqué éllas que se negaron n a contestar hubiesen camb biado el resulta ado en forma significativa.
Pru ueba a de e hipó ótes sis con c med dias s mu uésttrale es: Mue estrras g gran ndes Un hombre e que ofrece sus servicios a una compañía muy gra ande pregunta al jeffe de personal la edad prome edio de todas la as secretarias que trabajan t en la a empresa. El je efe explica que la compañía da a empleo a cien ntos de d secretarias y que no sabe la respuesta a correcta. Al o observar a todo el personal de la oficina, en do onde trabajan 38 3 secretarias, el jefe mencionó que q la edad pro omedio en su área á es de 20 años a y que las secretarias s hab bían sido s selecciona adas en forma aleatoria de un na escuela seccretarial. El hom mbre pensó que el promedio para to oda la compañíía no debería ser muy diferentte al mencionado po or el jefe de perrsonal para su área, así que fiirmó el contrato o de trabajo. t El hombre llevó a cabo, de manera infformal, una pru ueba de hipóte esis que con frecu uencia efectúan n los estadístic cos. Llegó a un na conclusión con respecto a la media de una población, den notada por µpopp, sobre la base e de lo que sabía con respecto a la media de e una muestra obtenida de esta e población. Essta media se conoce como media m muestra al, y se denom mina m. En este ca apítulo se expliccará, de manerra formal, cómo o efectuar prue ebas de hipótesis con c medias mu uéstrales, pero o las ideas bássicas son las mism mas que se encuentran e detrrás de los proccedimientos parra la prueba de e hipótesis que se s presentaron en capítulos anteriores. Se llevan a cabo o los mismos siete pasos. Las ún nicas diferenciias son las siguientes: 1. Las hipótesis son propo osiciones con respecto a \i e en lugar de p. 2. Las fórmu ulas para calcullar la media y la a desviación esstándar de la curva normal cambian.
Introducciión a la estadísttica 180
DISTRIB BUCIÓN TEÓR RICA DE MEDIAS MUÉSTRA ALES Supónga ase que el hom mbre del ejemp plo va de oficin na en oficina y en cada una de éstas é calcula la a edad promed dio de las secretarias. Al terrminar el día, tend drá una lista muy grande de medias m muéstrrales y, con se eguridad, estos pro omedios variarán. Esta lista a de promedioss recibe el nombre de distribuc ción de media as muéstrales s. En forma teó órica, es posible imaginar que cada c secretaria a anota su edad en una hoja de d papel y la coloca en una urna a gigante de lla cual puede extraerse la información en e forma aleatoria. Supóngase q que el hombre extrae 38 hoja as, calcula la media, m la anota, y regresa r las hojas a la urna pa ara que sean re evueltas entre sí. s Puede observarse que este p procedimiento se s puede repe etir muchas ve eces, obteniéndos se una distribu ución muy gran nde de medias muéstrales. Una distribución típica de éstas podría ser la que q se proporcciona en la tablla 10-1. Tabla
Distribucción de medias muéstrales m
10-1 número de la m muestra
media de la muestra, m (e edad
( (cada muestra co ontiene 38 edadess)
promedio de las 38 secretaria as que
se encuen ntran en la muesstra)
1
26
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
22 19 21 29 20 20 19 18 26 21 20 20 19 22 21 20
La media de la disttribución . de muestras m muésstrales se deno ota por
La desvviación estándar de la distribu ución de media as muéstrales se s de nota por
Los mattemáticos han analizado este e tipo de distrib bución y han ap prendido algunos hechos útiles con c respecto a la apariencia q que ésta tendría a confor-
Prueba de hip pótesis con med dias muéstrales:: Muestras gran ndes
1 181 me se calcula a un número m mayor de media as muéstrales. Esta situación se resume en el teorema del límite central .
TEOREMA DE EL LÍMITE CE ENTRAL En muchas circunstancias, lla distribución de las medias de gran cantid dad de muestras tomadas t de una población tiene, t en teoría a, tres caracte erísticas. 1. La forma es e normal. 2. La media µm es igual a la media de la población orig ginal,
1. La desviación estándar es más peque eña que la corrrespondiente a la población n original. Lo pequeña p que sea s depende del d tamaño de e la muestra.
La exactitud con c que se cum mple el teorema a en una aplica ación particular depende princip palmente de do os factores. 1. El tamaño n de cada una a de las muestrras. En teoría, ccuanto más gra ande es una mu uestra más cercana se encue entra la distribucción a una normal. Para much has aplicacione es, una muestra a cuyo tamaño o es mayor que e 30, llevará a una u distribución n de medias mu uy cercana a la a normal, de ma anera tal que los cálculos ba asados en valores correspond dientes a una distribución norrmal proporcionarán resultados razonables.. 2. La "forma" de la distribu ución original. Si S la distribució ón de la población es muy pa arecida a la no ormal, entonces pueden utilizzarse muestras s de menor tam maño y esperar que las medias muéstraless tengan, en fo orma aproximad da, una distribu ución normal. En E muchas aplicaciones esta adísticas, las poblaciones p so on de tal natura aleza que se puede p suponer que el teorema a se verifica. Ess este libro se considerará c qu ue no existe nin ngún problema de este tipo. El teorema ess, en realidad, muy útil ya qu ue proporciona a las propiedades de las distribu uciones de me edias muéstrale es. Esto, a su vez, permite estie mar en un exp perimento lo lejo os que se encu uentra la media de la población n de la media muestral. Y dado o que en mucchos experime entos la pregu unta principal tiene e que ver con la media de la a población, ell teorema perm mite relacionar la evidencia mue estral con la prregunta princip pal. A continuacción se mostra ará cómo puede ser de ayuda a el teorema en e el problema de las secretariass. Puede indicarse en un dia agrama (Fig. 10-1) la relación qu ue existe entre e la distribución n de las edade es de cada una a de las secretaria as y la distribución de las me edias muéstrales proporcion nada por el teorem ma del límite ce entral. Por eje emplo, se sabe e que las mediias
Introducc ción a la estadís stica 182
muéstrales se agrupan n alrededor de la media de la a población. De e manera más preccisa, ya que la a distribución es e normal, se ssabe que sólo el e 5% de las medias muéstrales se encuentra más allá de 1.9 96 desviacione es estándar de la a media de la po oblación. Otra forma de considerar esta situ uación es la siguien nte. Si se seleccciona al azar una u muestra, la a probabilidad de d que la media de e ésta se encu uentre a más de d 1.96 desvia aciones estánd dar de la media de e la población es igual a .05 5. Esta in nformación pue ede ser muy úttil. Por ejemplo o, recuérdese la afirmación de que q la edad prromedio de las secretarias de e la compañía es de 20 años. Ah hora supóngasse que se toma a una muestra de 38 secreta arias y se encuentrra que la media a muestral es ig gual a 47. Enton nces puede pensarse la siguiente e situación, "Esta media muestral se encu uentra muy ale ejada del valor verrdadero supuessto para la med dia y la probabilidad de que essto ocurra es muy pequeña. Quiizá ocurrió un evento extrañ ño y poco pro obable, o alguien mintió m con resp pecto a la media a de la població ón". En la prueb ba formal de hipóte esis, cuando la a media muestrral se encuentrra muy alejada del valor propuestto de manera que la probab bilidad de este e hecho es me enor que algún nú úmero pequeño α, previamente especificad do, los estadíssticos no deciden que tienen sólo o un evento po oco probable y a la vez fantásttico; más bien raz zonan que lo que obtuviero on era probable, y sobre essta base rechazan la afirmación n con respecto o a la media de e la población..
EJEMPLO 10 0-1
Supónga ase que se tom ma como población el peso de todos los tenientes t del ejérccito de Estados Unidos. También, supóngase e que el verdad dero valor de la me edia µpop es igu ual a 159 libras s y el correspo ondiente a la de esviación estándarr σpop igual a 24 libras. Desscríbase la disttribución teóricca de las medidass muéstrales, ssi éstas se obttienen al toma ar cada vez un n número mayor de muestras, to odas de tamañ ño 36.
SOLUCIÓ ÓN
a) La disstribución de la as medias mué éstrales será n normal, ya que e n = 36 es mayor que 30.
Prueba de hipó ótesis con media as muéstrales: Muestras grand des
1 183
Recuérdese que q la desviación estándar mide m la variabiliidad en una distribución. La desviación están ndar de la población σpop, reflleja la variabilidad existente entrre el peso de lo os individuos. Estos pesos vvarían entre 12 20 y 200 libras. La a desviación esstándar de las medias muésttrales σm refleja la variabilidad en ntre las muestra as de pesos, y es muy poco probable p que és stas tengan una media m igual a 120 1 libras en una u muestra a aleatoria de 36 6 tenientes. Lo anterior se deb be a que cada a muestra tend drá personas que q pesan mucho y oirás que pe esan poco, y essta situación te enderá a equilib brar los pesos. Esstas medias ten ndrán una variiabilidad much ho menor, de aquí a que σm tenga un valor más p pequeño que σpop. Esta distrib bución se muesstra en la figura 10 0-2. ESTIMACIÓN DE LA DESVIIACIÓN ESTÁN NDAR DE UNA A DISTRIBUCIÓN DE MEDIAS MUÉSTRALES M S En las prueba as de hipótesiss basadas en el e teorema del límite central,, es necesario con nocer el valor de la desviación n estándar de la a población con el propósito de calcular c la desviación estándar de la distribucción de las med dias muéstrales. Recuérdese R que
Sin embargo, con frecuenciia los estadístiicos desean uttilizar el teorem ma cuando no sab ben el valor de σpop. En este ca aso, se deben h hacer dos cosass. 1. Encontrar un valor estim mado de σpop. Recuérdese R que éste se deno ota por s. 2. Utilizar s para p obtener un u valor estima ado de σm, esto o es,
EJEMPLO 10-2
Se afirma que e la familia esta adounidense, en promedio, p produce al día 5.2 libras de basu ura orgánica. Un empleado de e salud pública piensa que la cifra c es, probablem mente, incorreccta. Para prob bar esto, se prropone un exp perimento para el que los resultados serán an nalizados con un nivel de sig gni-
Introducción a la estadística 184
ficancia igual a .05. Se escogen al azar 40 familias y se pesa la basura de tipo orgánico que producen en un día. Los resultados se muestran en la tabla 10-2. Tabla 10-2
Resultados del experimento de pesar la basura para una muestra aleatoria de 40 familias número de la familia
X, número de familiares
1
2.6
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
4.8 5.0 7.3 2.2 3.4 4.6 5.8 5.0 4.0 3.1 2.2 5.1 4.7 4.8 3.0 7.3 7.1 6.2 6.0 4.3 4.2 4.1 4.0 3.6 3.8
n = 40
7.0 6.2 5.5 4.3 4.2 3.2 2.7 4.0 4.0 3.2 4.1 4.0 4.2 5.5
ΣX = 180.3
Prueba de hipó ótesis con medias muéstrales: Muestras gran ndes 185 SOLUCIÓN
A partir de los datos, el em mpleado calcu ula lo siguiente e: n = 40 ΣX = 180.3 2
(ΣX) = 32,50 08.09 = 883.65 Paso 1 Ha: La a afirmación hecha con respec cto a la produccción de basura a de t tipo orgánico p producida por las l familias esstadounidensess es f falsa, µpop ≠ 5.2..
Paso 2 H 0 : µpop = 5.2. Paso 3 α = .05. . Paso 4 n = 40 0 > 30. Por lo tanto, t la distrib bución de las medias m muéstra ales será, en form ma aproximada, normal. Paso 5 Ya qu ue Ha incluye el signo ≠, ésta es una prueba a de dos extrem mos con un valor en cada extre emo igual a .02 25, así que zc = ± 1.96. Bajo o la suposición de e la hipótesis n nula,
Ya que no se conoce el valo or de σpop, deb be calcularse s: s
Como σpop es desconocido o y se estima a partir de s, de ebe también es stimarse σm por sm. Por lo tanto o,
Esta distribucción se muestrra en la figura 10-3.
Introducciión a la estadísttica 186
La regla de d decisión es que si una mu uestra tiene una media que no se encuentra entre e 4.8 y 5.6 6, llevará al recchazo de la hip pótesis nula de e que la media de e la población es de 5.2 libra as de basura. Paso 6 Resultado R del experimento La L media muestral es
Paso 7 Conclusión C El resultado se encuentra e fuerra del intervalo o que va de 4.8 a 5.6. Con base e en esta evide encia, el emple eado de salubrridad rechaza la hipótesis nula que afirma que la cantidad promedio p de ba asura orgánica producida por la población es igual a 5.2 libras. Evidenttemente, dicha can ntidad es menor. EJERCIC CIOS 10-1 En la encuesta que se propuso o en el capítulo 1 se encuen ntran las edades de d los condiscíp pulos. Si se tie ene la media, el e recorrido y la a desviación está ándar de las ed dades (quizá se e hayan encon ntrado estos resultados en el cap pítulo 2, pero se puede contestar esta pregu unta si se cono oce o no los valore es numéricos), ¿cómo puede en compararse éstos con la media, m el recorrido y la desviación n estándar de las edades de toda t la escuela a? Sugerencia: ¿s se cree que la clase tiene co omo miembro a al estudiante de d mayor edad de toda t la escuela a?; ¿al de men nor edad? 10-2 Por las tardes y de e camino a cassa después de e trabajar, una persona compra cacahuates c en n una máquin na expendedorra. En las últimas 40 compras,, recibió el sigu uiente número de cacahuatess por cada com mpra: 12, 10, 0, 5, 15, 1 16, 20, 3, 12 2, 0, 12, 10, 9, 11, 8, 13, 15, 20, 18, 19, 20, 0, 0 14, 13, 15, 16, 15, 19, 11, 10, 10, 10, 3, 8, 2, 2 0, 0, 20, 12, 12. a) ¿Cuáll es la població ón que se está á muestreando? Considérese e las 40 compras como una muestra de tamaño 40: b) Calcúlese la media de la muestra. c) Estímese la media de d la población n. d) Estímese la desviacción estándar de d la población. e) Descrríbase la distrib bución de med dias muéstraless. f) Estímese la media de d la distribuciión de las med dias muéstrale es. g) Estíme ese la desviació ón estándar de la distribución d de medias mué éstrales.
Prueba de hipótesis con medias muéstrales: Muestras grandes 187
10-3 Se toma una muestra de las contribuciones de los médicos a la United Fund; se muestrearon 50 médicos. Los resultados, en dólares, fueron los siguientes: 100, 95, 92, 92, 91, 90, 86, 85, 81, 80, 76, 76, 73, 73, 70, 70, 69, 69, 67, 66, 65, 61, 57, 52, 50, 49, 48, 47, 45, 39, 35, 35, 35, 35, 35, 30, 30, 30, 25, 25, 20, 20, 15, 15, 10, 10, 9, 5, 5, 0. Repítanse las partes desde a) hasta g) del ejercicio anterior. 10-4 Recientemente se efectuó en Europa un estudio con el propósito de investigar los riesgos de salud que se corren al trabajar durante muchas horas frente a una computadora o a un equipo de video para procesamiento de texto. Se encontró que, en promedio, transcurrían 2.6 horas antes de que se presentaran síntomas de agotamiento en los ojos. Un experimento similar, llevado a cabo en Estados Unidos, demostró que m = 2.8 horas, con s = .5 horas, ¿Lo anterior indica que los resultados de Estados Unidos son diferentes de los europeos? α = .05. Desde un punto de vista práctico, ¿puede pensarse que la diferencia entre 2.6 y 2.8 es importante? 10-5 Brad Brandt estudia aves. Como ecólogo del gobierno, coloca una banda en la extremidad izquierda de miles de gaviotas con el propósito de estudiar sus hábitos migratorios. En promedio, coloca una banda a 50 gaviotas por semana. La distribución del número de gaviotas que tienen una banda es, en forma aproximada, normal con una desviación estándar igual a 7. El supervisor de Brad verifica, con frecuencia, el trabajo de éste y el número de gaviotas que tienen una banda. a) ¿Cuál es la probabilidad de que el supervisor, al escoger al azar una semana cualquiera, encuentre que Brad ha colocado bandas en menos de 40 aves? Sugerencia: El número de bandas es un número entero. b) Si el supervisor selecciona, al azar, 36 semanas de los últimos tres años de trabajo, ¿cuál es la probabilidad de que obtenga un promedio de menos de 45 aves marcadas con una banda por semana? Sugerencia: Considérense los promedios como datos continuos. 10-6 La señora Kupp, propietaria de la compañía de cosméticos Mae, encarga un estudio de los hábitos de compra de sus clientes. Entre los resultados, Mae llega a saber que sus clientes compran, en promedio, siete lápices labiales marca Passion Flower por año. Esta distribución es, en forma aproximada, normal con una desviación estándar de 2.3 lápices labiales. a) ¿Cuál es la probabilidad de que, al seleccionar una cliente al azar, ésta adquiera 10 o más lápices labiales Passion Flower? Sugerencia: El núme ro de lápices vendidos es un número entero. b) Si se toma una muestra aleatoria de 100 clientes, ¿cuál es la probabilidad de que el promedio de la muestra sea mayor de ocho lápices Passion Flower? Sugerencia: Considérense los promedios como datos continuos. 10-7 El jefe del departamento de admisiones de cierta escuela piensa que en este año los estudiantes del primer año de licenciatura tendrán una aptitud para las matemáticas superior a la de los estudiantes admitidos en años anteriores. El número promedio de respuestas correctas obtenido en la prueba de aptitud de matemáticas el año pasado fue de 470 con α = 120. a) Si el valor de o es el mismo para los estudiantes admitidos en este año, y si se efectúa una prueba con una muestra aleatoria de 400 estudiantes
Introducción a la estadísttica 188 admitidos s utilizando para ello un nivell de significanccia igual a .01, ¿cuál es el número o crítico de resp puestas correcttas que apoyarrá la opinión del jefe del departam mento de admisiones? b) Si la muestra tiene un número pro omedio de respuestas correcctas m = 490, ¿ap poyará este ressultado la opinión del jefe de admisiones? 10-8 Un reportaje periiodístico afirma a que los estu udiantes de cie erta universidad estatal gastan un promedio de d 56 dólares al a año en la co ompra de drogas ile egales. Un esttudiante desea probar esta hiipótesis utilizan ndo para ello un nivel de significa ancia igual a .0 05. Obtiene una muestra alea atoria de 144 estu udiantes y enc uentra que m = $70 y s = $5 54 para esta muestra. m a) ¿Cuá ál es la cantida ad crítica de dinero para esta a muestra? b) ¿Esta a evidencia apo oya la afirmación hecha en e el reportaje? 10-9 En el departame ento de inspe ección de una planta química, John Smith toma una peque eña cantidad, ya especificad da, de cierta sustancia s química, la coloca en e el portaobjetos de un microsccopio y cuenta el número de mic croorganismos que se encuentran presente es en la muestrra. Se supone que e el número p promedio de microorganismo m os en esta can ntidad de sustancia a es de 1 000. Cierto día, Joh hn encuentra qu ue en una mue estra aleatoria de 36 3 especímene es, m = 1 030 y s = 18. Si el vvalor real de la media es 1 000, encuéntrese e la probabilidad de que el señ ñor Smith obte enga una media muestral m mayorr o igual a 1 03 30. 10-10 Se e afirma que en e cierta área donde existe un alto índice e de desempleo, la cantidad promedio p que gasta g una familia de cuatro personas p en alimentos a la sema ana es de 95 dólares. d Un eco onomista desea probar esta afirm mación contra lla sospecha de e que el promed dio real es men nor de 95 dólares. Por lo tanto, llleva a cabo un na encuesta so obre 36 familia as seleccionadas s al azar, y que e habitan en essa área. Encue entra que m = $ 93.20 y 5 = $ 4.80. Llévese a ca abo la prueba con c α = .05. ¿Cuál es la conclu usión del economis sta? 10-11 La a media del prromedio de lass calificacioness de quienes han h sido admitidoss en la escuela a de graduados es de 3.1, en n donde por ca ada A se otorgan 4 puntos. En la a Universidad de d Ivy, una mue estra de 36 esttudiantes admitidoss para realizarr estudios de postgrados p pro oporcionó una calificación prom medio de 3.2 con una desviacción estándar d de .24. ¿Se pu uede afirmar, con n un nivel de significancia s ig gual a .01, qu ue los estudian ntes que ingresan en Ivy tienen mejores calificaciones que el promedio nacional? 10-12 Un na distribución normal de loss diámetros de e cierto tipo de e baleros tiene una a media igual a .52 pulgadas s con una desvviación estánda ar de .04 pulgadass. Si se toma una muestra ale eatoria de 50 baleros, ¿cuál es e la probabilidad d de que la med dia muestral se e encuentre enttre .53 y .55 pulgadas? PRUEBA AS DE DOS MUESTRAS CO ON RESPECTO O A LAS MEDIAS Con freccuencia, se dessea comparar las medias de dos poblacion nes. Una manera de d hacer esto es examinar la a diferencia qu ue existe entre e las medias de las l muestras tomadas t de ca ada una de lass poblaciones.
EJEMPL LO 10 0-3
La representante de un n grupo de mujjeres desea presentar eviden ncia con el propóssito de apoyar la afirmación de que, en el p primer año de trabajo
P Prueba de hipóte esis con medias s muéstrales: Muestras M grande es 1 189 en e una industrria, ganan máss los científicoss que son hombres que los que son s mujeres y desempeñan e el mismo trabajjo Ella obtiene de dos muestrras aleatorias a los datos que apa arecen en la siguiente tabla ho ombre n tamaño de la muestra m media mue estral s estimación de la desviación estándar de d la población b basada en los dato os muestrales
muje er
1 100
86
$22 2 400
$21 30 00
$1 1200
$100 00
Resulta claro que R q de los 186 científicos, los hombres son, en promedio, los m mejor pagados s La diferencia entre las mediias de las dos m muestras es de e$ 2 22,400 - $ 21,300 = $ 1,100 0 dólares La prregunta es ¿es esta diferenccia e estadísticamen nte significativa a? ¿A partir de e estos resulta ados, deberá inf ferirse que la media m de toda la población de d científicos m masculinos, en su p primer año de trabajo, es má ás alta que la media m correspo ondiente a toda a la p población de mujeres m científiccas en su prime er año de trabajjo? ¿O es posib ble q las medias que s de ambas pob blaciones sean n iguales y los resultados que se t tienen sean só ólo resultado del d azar? Cuando se presenta p la pre egunta- ¿es la diferencia d entre e las dos mediias muéstrales obs m servadas estad dísticamente significativa?, s la situación tiene q analizarse que e en forma muyy similar a la que q se empleo en el capítulo 9, d donde se probó ó la diferencia entre dos prop porciones muésstrales En teorría, p puede pensarsse que el muesttreo de hombre es y mujeres cie entíficos se rep pite e muchas occasiones, con pares de mu en uestras de 100 0 hombres y 86 m mujeres Si se lleva a cabo lo anterior, en ntonces es possible obtener los l r resultados que e se proporcionan en la tabla a 10-3
Cuando las dos d muestras son s grandes, es sto es, cuando o tanto n1 como n2 ttienen un valorr mayor que 30 0, entonces la distribución d de los números que q a aparecen en la a tercera colum mna, que son la as diferencias entre las mediias m muéstrales, será aproximada amente normal La media de éstas dm's, µ d m e s igual a
Nótese que si, en realidad,, los hombres tienen t salarios más altos, ento onces las diferen ncias tenderán a ser positivass, es decir, µdm alor m tendrá un va mayor que cero o Si los salarios de las mujere es son más alto os, entonces la as
Introducc ción a la estadís stica 190
diferenccias tenderán a ser negativas de manera tal que µdm tendrá á un valor menor que q cero. Si en n realidad no exxisten diferencias entre los sa alarios de los hom mbres y las mu ujeres, entonce es algunas dife erencias serán positivas mientrass que otras tendrán un sig gno negativo y el resultado o será la cancelación de unas ccon otras de manera m tal que e µdm tenderá a tener un valor igu ual a cero. Nóttese que la inte erpretación de µdm como positiva o negativa dependerá de q qué población sea s el número 1. Un resumen n de estas ¡deas se e proporciona en el siguiente e teorema.
TEOREM MA CON RESP PECTO A LA D DIFERENCIA ENTRE E LAS M MEDIAS DE DOS S MUESTRAS GRANDES G 1. Supóngase que se e tienen dos poblaciones, la 1 y la 2. 2. De la a población 1 sse obtiene una muestra aleatoria de tamaño o n1, y en form ma separada e independiente se obtiene una muestra alea atoria de † la po oblación 2 de tamaño t n2. 3. Se calcula c la mediia de cada mu uestra. 4. Se obtiene o la diferrencia entre esstas dos media as. 5. Los pasos 2, 3 y 4 se s repiten en muchas m ocasion nes (en teoría un u número infinito de veces), lo que proporciona una listta muy grande e de diferenc cias. Esta lista de diferencias recibe el nom mbre de distrib bución de las diferencias d de e las medias (denotada por d dm). CONCL LUSIÓN Las sigu uientes afirmacciones con respecto a la distrribución de lass diferencias de medias muésttrales son verd daderas. 1. La distribución de las diferenciass es, en forma a aproximada, normal. 2. La m media de las differencias µdm = µpop 1 - µpop 2. Si se supone que la hip pótesis nula es µpop 1 = µpop 2, entonces e µdm = 0. 3. La d esviación esttándar de las diferencias σ dm p la d está dada por fórmula.
Por lo general, el experimentador no conoce los valores de e σpop σpop 2, en este caso o éstos pueden n estimarse porr medio de s1 y s2.
†
1
y
Para ob btener buenos ressultados, tanto el valor de n1 como o el de n2 deberá á ser mayor que 30. Por lo general, cuanto más grrandes son las m muestras, más cercana c se encuen ntra la distribució ón de las diferen ncias a una distrribución normal..
P Prueba de hipóte esis con medias s muéstrales: M Muestras grande es 191
A APLICACIÓN DEL TEOREM MA El teorema se aplicará al prob blema estableccido en el ejemplo 10-3. Recuérdese la inform ación proporciionada.
n m s
hombre (p población 1)
mujer (población 2)
100 $22 400 $1200
86 $21 300 $1000
Se llevará a cabo c una prueb ba de hipótesi s con un nivel de significan cia igual a .05. Lo os hombres se rán la població ón 1, mientras que las mujerres integrarán la población p 2. Paso 1 Ha: el salario promedio P o para los hombres científicoss es mayor que e el c correspondien nte a las mujer es científicas, µ dm = µ 1 - µ 2 > 0. Paso P 2 H o : loss salarios pro medio son igu uales, µ dm = µ 1 - µ 2 = 0. Paso P 3
α = .05.
Paso 4 n 1 = 10 P 00 > 30 y n 2 = 86 > 30. Por lo tanto, la disstribución de las l d diferencias es , en forma aprroximada, norm mal. Paso P 5 Ya que H a incluye el ssigno >, la prue eba es de un exxtremo. Este se erá el e que se enccuentra a la de erecha, ya que se escogió, como poblaciión 1, la integrada a por los homb bres. Así que z c = 1.65.
Ya que no se co onocen los valo ores de σ1 y σ2 se s estimarán mediante el emp leo de s 1 y s2- Así, el valor de σdm or medio de sdm m se estima po m.
L distribución La n anterior se muestra m en la figura 10-4.
La regla de de ecisión es la siiguiente: si la diferencia d entr e las dos medias muéstrales es mayor de $ 26 66.19, entoncess se afirmará que a los hombres se les paga más m que a las m mujeres.
Introducc ción a la estadís stica 192
Paso 6 Los L resultadoss experimentales son m 1 - m 2 = $22 400 - $21 300 = $1 1100 Paso 7 La diferencia entre las medias muéstraless es de 1 100 dólares, que es una u cantidad mayor m que la diferencia d crítica, 266.19. Porr lo tanto, puede afirmarse a que e el salario promedio de los hombres es mayyor que el de las mujeres. m Supon niendo que las dos poblaciones tienen la miisma media, pu uede preguntarse e: ¿cuál es la p probabilidad de e que al obtene er una muestra aleatoria de cada una de las po oblaciones, la diferencia entrre las medias muestras sea mayyor que 1 100 dólares? d El aná álisis anterior muestra m que la probabilidad de que q esto ocurrra es menor de .05. Por lo tanto, puede concluirse que ya que q se obtuvo una u diferencia igual a 1 100 d dólares, es prob bable que las poblaciones no ten ngan la misma a media. AYUDAS PARA ESTU UDIO VOCABU ULARIO 1. 2. 3. 4. 5. 6. 7.
Mediia muestral Distrribución de me edias muéstrale es Teorrema del límite e central Diferrencia entre do os medias mué éstrales Muesstras grandes Teorema con respe ecto a la diferen ncia entre las medias m de dos muestras m Distrribución de lass diferencias en ntre las media as muéstrales
SÍMBOL LOS
FÓRMULAS Pruebass de un extrem mo
P Prueba de hipóttesis con media as muéstrales: M Muestras grandes
193
5.
Resultado o experimenta al, m =
Pruebas de do os extremos
EJERCICIOS 10-13 Se apliccó una prueba de aptitud a to odos los estud diantes de secu undaria de la gra an metrópolis de Futura, con el e propósito de e medir su capa acidad para colon nizar una estacción espacial. Se S considera a cada una de las muchas escue elas como una muestra aleato oria de todos lo os estudiantes de secundaria en Futura. Para ccada escuela, se obtiene la diferencia d entre e el puntaje promedio de los hom mbres y el corre espondiente a llas mujeres. ¿D Deberá ser la gráfica de estass diferencias aproximadamen nte normal? ¿P Por qué? 10-14 El ingen niero de diseño, Wilbur Orvillle, quiere com mparar dos mecanismos utilizad dos en los asie entos expulsables de los pilottos. Construye 50 piezas de cada mecanismo,, y entonces lo os somete a un na prueba de esfuerzo. Se ano ota la fuerza (en n libras) que pro ovoca cada ma al funcionamien nto. A continuació ón se proporccionan los resultados. ¿Ess esta eviden ncia concluyente a favor del mo delo 1? α = .0 01.
modelo 1 m = 600 seguundos s = 75 segunddos
modelo 2 m = 550 segundos s = 75 segundos
10-15 Un proffesor emplea d dos métodos de enseñanza d diferentes en dos d grupos de esta adística, cada uno de 35 esttudiantes. Desp pués, cada gru upo efectúa un exa amen que es el mismo para lo os dos grupos. P Para el primero om = 82 y S = 4. Para P el segundo, m = 77 y s = 7. Pruébese si s se tiene algu una evidencia que indique que un no de los métodos es significa ativamente me ejor que el otro. Utilícese U α = .0 05. 10-16 En un experimento e poco común, el profesor Stevver tiene algun nos estudiantes effectuando un e examen de ca abeza, mientra as que otro gru upo de estudiantess lo contestan acostados a en el e piso. Los resu ultados fueron los siguientes: Grrupo de cabeza a: m = 52, s = 10, 1 n = 36. . Grrupo acostado: m = 60, s = 7, n = 36. ¿La evvidencia anterio or indica una diferencia sign nificativa en los resultados? r U Utilícese α = .0 01. 10-17 ¿Han aumentado a loss promedios de e los estudiantes que ingres san al primer año de d licenciatura si el año pasad do, al tomar un na muestra alea atoria de 80 estud diantes admitid dos, el promedio o fue de 82.5 con c s = 2.5, mie en-
Introducción a la estadística 194
tras que en este año la muestra incluyó a 84 estudiantes con un promedio de 83.1 y s = 2.6? Utilícese α = 0.5. 10-18 Es un hecho conocido que cuanta más edad tienen las personas menor es su capacidad auditiva. Se aplica una prueba auditiva a un grupo de 40 niños (edad 10 años) y a otro de 40 adultos (edad 50 años). Obtener un puntaje alto en la prueba significa que la persona fue capaz de percibir sonidos con tonos muy agudos. La media para los niños fue 200 con s = 20. La media para los adultos fue 170 con S = 20. Demuéstrese que, con un nivel de significancia igual a .05, estos resultados son estadísticamente significativos. (Recuérdese que la frase "estadísticamente significativo" quiere decir que la diferencia es lo bastante grande para provocar el rechazo de la hipótesis nula.) 10-19 Al comparar el volumen de compras de hábitos, se obtuvieron de dos muestras, de 64 monjas cada una, los siguientes datos: hace 10 años las monjas compraban, en promedio, 120 hábitos por año con s = 8. En la actualidad, el promedio es de 30 hábitos por año con s = 1 2 . Con α = .01, ¿los datos indican un cambio en la tendencia a comprar hábitos por parte de las monjas? 10-20 El psicólogo de una escuela en California aplicó una prueba de aptitud en aritmética a un grupo de 75 estudiantes que habían llegado a California procedentes de Vietnam durante el pasado año. También aplicó la misma prueba a 75 estudiantes que habían asistido a la escuela en el estado de California. El promedio para los vietnamitas fue 150 con s = 25, mientras que el de los californianos fue de 100 con s = 40. Demuéstrese que los resultados de los vietnamitas son más altos en forma significativa. Utilícese un nivel de significancia igual a .01. 10-21 Se pide a un grupo de 40 zurdos que extraigan, con la mayor rapidez posible, 10 monedas con su mano derecha. Después se pide a un grupo de 80 diestros que extraigan 10 monedas, lo más rápidamente posible, con su mano izquierda. Se anota el lapso que requiere cada persona al extraer las 10 monedas. Se obtiene la siguiente información, n1 = 40,
m1 = 2.8 segundos,
s1 = 1.0 segundos
n2 = 80,
m2 = 3.2 segundos,
s2 = 2.0 segundos
Con α = .05, ¿es esta diferencia significativa? 10-22 En un experimento cuidadosamente controlado, Etherea cultivó 35 girasoles recitándoles un poema de Jalil Gibrán cada vez que los abonaba y regaba. También cultivó otros 35 girasoles, pero a éstos no les recitó ningún poema. Después de un mes, se obtuvieron los siguientes resultados. Para las plantas a las que se les recitó el poema, su crecimiento medio fue de 10.1 pulgadas con s = 1 pulgada. Para las otras, el crecimiento medio fue de 9.8 pulgadas con s = 1 pulgada. Con α = .05, ¿indican los resultados anteriores que recitar un poema se encuentra asociado con un crecimiento mayor? 10-23 El profesor Signo Diferens desea saber si existe alguna diferencia significativa entre el promedio de las calificaciones que obtienen los estudiantes que tienen el examen a tiempo y los que lo tienen después. En un examen efectuado a 80 estudiantes, los 40 que recibieron el examen con
Prueba de hipótesis con medias muéstrales: Muestras grandes 195
anticipación obtuvieron una calificación promedio de 83 con s = 1 0 . Los otros 40 reciben el examen tardíamente y obtienen una calificación promedio de 78 con s = 6. ¿Indica esta información alguna diferencia significativa? Utilícese α = .05.
PREGUNTAS RELACIONADAS CON LA ENCUESTA Si se tienen los datos de más de 30 estudiantes, pruébese la hipótesis de que el promedio del último dígito del registro de seguridad social de todos los estudiantes es igual a 41/2. ¿Qué puede decirse con respecto al promedio del quinto dígito? PROYECTOS DE CAMPO Selecciónese uno de los siguientes proyectos. 1. Para probar si las personas pueden extraer o no un número al azar, solicítese a 100 personas que extraigan un número del 1 al 10. La hipótesis nula es que la media de las 100 personas debe ser igual a 5.5. Efectúese la prueba con un nivel de significancia igual a .1. 2. Pruébese la hipótesis de que los estudiantes de ambos sexos de una escuela llevan en promedio la misma cantidad de dinero. 3. Llévese a cabo una prueba de hipótesis con una muestra grande de elección propia. Esta puede ser una prueba de uno o dos extremos. Algunos de los proyectos que con anterioridad han efectuado los estudiantes incluyen los siguientes. a) ¿Existe alguna diferencia entre el número de cigarrillos diarios que fuma el personal de ventas de la tienda Brandt y el correspondiente a los empleados del almacén de la misma tienda? b) Efectuar una prueba sobre la diferencia que existe entre el promedio de calificaciones en una prueba para dos profesores diferentes. c) Efectuar una prueba sobre la diferencia que existe entre la edad promedio de los profesores y la correspondiente al resto de los empleados de la escuela. d) Un periódico afirma que las personas gastan, en promedio, cierta cantidad de dinero a la semana en pasatiempos. Llévese a cabo una prueba para determinar si el promedio correspondiente al vecindario propio es diferente. e) Un reportaje afirma que, en promedio, las personas ven la televisión cierto número de horas por semana. ¿Es este promedio diferente en el lugar donde el lector trabaja?
Prrueb ba de e hip póte esis s co on med m dias de e un na m muestra a: Mues stras s pe eque eñas DISTR RIBUCIÓN t DE E STUDENT estro análisis d del teorema del límite central (Cap. 10) se dijo d que la En nue distribu ución de las me edias de muestras grandes d de cualquier po oblación es de form ma normal con n
Por supuesto, s en ccualquier prueb ba de hipótesiss se construye una curva normal particular, tom mando usualme ente para µpop u un valor dado en nuestra hipótessis nula y tom mando Í de la información de la muestra a como la estimacción de σpop. S Se puede comp probar que estte procedimiento produce buenoss resultados ta anto en la teoría como en la práctica. Po or ejemplo: cuando o fijamos α = ..05, en mucha as pruebas, realmente se rechaza una hipótes sis verdadera aproximadame ente el 5% de las veces. W. S. S Gossett fue u un estadístico británico b que trrabajó en una cervecería, c de la cual c tomó muestras pequeña as. En 1908 esscribió un artíc culo bajo el seudón nimo "A. Stude ent", donde mo ostró que si se emplea este mismo m procedimie ento cuando se tienen mues stras pequeña as, se cometerrán errores de tipo o I más del 5% % de las veces. Esto se debe e a que en exp perimentos repetidos con muestrras pequeñas, los valores de e s tienden a se er muy variables,, de tal manera a que si en cua alquier experim mento se toma el e valor correspondiente de 5 y se usa en la fórmula f
Prueba de hipótesis con medias de una muestra: Muestras pequeñas 197
realmente se corre más el riesgo de cometer un error de tipo I de lo que zc indicaría. Para resolver este problema, lo que Gossett hizo, desde nuestro punto de vista, fue encontrar conjuntos de diferentes valores críticos llamados valores t de Student, que se utilizarían en lugar de los valores críticos z, dependiendo de lo grande que fuese la muestra. Estos valores son llamados también valores críticos de t, y se encuentran en la tabla C-5 para las pruebas de dos extremos y en la tabla C-6 para las pruebas de un extremo. Gossett mostró que aun estos valores t no siempre son confiables. Sin embargo, son confiables cuando la población original de la cual se tomó la muestra es ya de por sí cercana a la normal. Por ejemplo: emplear los valores de t para muestras pequeñas de paquetes de pan, hechos por la panadería Acame, probablemente estaría bien ya que los pesos de los paquetes son distribuidos cerca de la normal. Sin embargo, un experimento basado en muestras pequeñas de una variable no normal no se debe analizar utilizando los valores de t. Por ejemplo: un experimento para probar una afirmación sobre el ingreso medio anual de la planta docente de una universidad no debe ser analizado empleando valores de t si sólo se puede incluir en la muestra unos 20 maestros, ya que sabemos de antemano que los ingresos tienen una distribución que es usualmente no normal. En resumen, el procedimiento que se ha estado utilizando con la curva normal y los valores z, es correcto para pruebas de muestras grandes de cualquier población. Los valores t de Student son correctos para pruebas de muestras pequeñas de poblaciones normales. En general, no hay un método simple para muestras pequeñas de poblaciones no normales. Ciertas pruebas, llamadas pruebas no paramétricas pueden ser útiles en esos casos. Veáse el capítulo 16 para una explicación breve sobre este tema. Cuando se dibuja la curva para un experimento en particular empleando una muestra pequeña, se estará utilizando un conjunto específico de valores t que corresponden al tamaño de la muestra. Una curva que corresponde a un conjunto de valores t se denomina curva t. Hay muchas curvas t, y para cada tamaño de una muestra hay una curva ligeramente distinta. Las curvas t son similares a la curva normal ya que son simétricas y en forma de campana. Para bosquejos aproximados no es necesario distinguir entre las dos formas. Sin embargo, cuando se dibujan con exactitud, se puede observar que las curvas t son un poco más planas que la curva normal y que cuanto más pequeña sea la muestra, la curva será más plana. De igual manera, cuanto mayor sea la muestra, la curva t se parecerá más a la curva normal. Cuando la muestra es de más de 30, la curva t y la curva normal son prácticamente la misma. Por lo tanto, en muchos experimentos se utilizan las curvas t para muestras de 30 o menos, y la curva normal para muestras de más de 30, aunque sea siempre correcto usar las curvas t En pruebas de muestras pequeñas, los valores críticos de t son numéricamente más grandes que los valores críticos z de pruebas para muestras grandes; cuanto menor sea la muestra, los valores críticos t deberán ser mayores. Esto puede observarse en las tablas t (Tablas C-5 y C-6). Lo anterior tiene sentido, ya que cuando se emplea una muestra pequeña se debe requerir más evidencia concluyente para rechazar la hipótesis nula.
Introducción a la estadística 198
La media de una muestra pequeña tendría que ser realmente muy diferente de la predicha por la hipótesis nula si se va a utilizar para rechazar la hipótesis nula. Al usar valores críticos de t más grandes estamos requiriendo prácticamente evidencia de más peso para rechazar una hipótesis nula. GRADOS DE LIBERTAD Y EL USO DE LA TABLA t Para emplear la tabla t se tiene que buscar el número que corresponda al tamaño de la muestra. Por lo tanto, se podría esperar que la tabla tuviera una columna llamada n para el tamaño de la muestra. Sin embargo, esta tabla puede ser utilizada en otros problemas (por ejemplo: problemas que involucran dos muestras diferentes y de tamaños distintos) donde tal columna no tendría sentido. Debido a esto, generalmente se tiene una columna llamada grados de libertad. No existe ninguna razón obvia por la cual se utilice este nombre. Técnicamente, se emplea porque la curva t está relacionada con otra curva que se estudiará después (llamada curva ji-cuadrada) para la cual la frase "grados de libertad" tiene más sentido. No veremos esa relación en este capítulo. Para nuestros objetivos es suficiente saber que en una prueba de hipótesis sobre la media de una población donde se está trabajando sólo con una muestra pequeña de tamaño n, el valor numérico correcto de los grados de libertad para t es n - 1. EJEMPLOS DE GRADOS DE LIBERTAD La frase "grados de libertad" aparece frecuentemente en trabajos de estadística. A continuación presentamos algunos ejemplos de los contextos en los cuales se puede encontrar. EJEMPLO 11-1
Supongamos que alguien selecciona dos ángulos de un triángulo y se les da los valores de 40° y 50° y que además nos dice que el tercer ángulo es de 90°. Esta persona tuvo la libertad de elegir diferentes valores para los dos primeros ángulos, pero una vez seleccionados los dos primeros ya no era libre de seleccionar el tercero, pues los tres ángulos deben sumar 180°. Podemos decir, por lo tanto, que en la selección de los valores para los tres ángulos de un triángulo solamente se tienen dos grados de libertad.
EJEMPLO 11-2
Consideremos ahora a una maestra que desea elegir 5 números para un ejemplo. Ella desea que la media de los números sea 10; por lo tanto podrá escoger los primeros 4 números que desea, pero el quinto está decidido. Decimos que en la selección de 5 números cuya media sea 10, tenemos sólo 4 grados de libertad.
EJEMPLO 11-3
Supongamos que un estadístico quiere seleccionar 200 personas de las cuales 100 sean hombres y 100 mujeres y que incluyan 50 demócratas y 150 republicanos. Para esta selección se necesitarían cuatro grupos: hombres demócratas, mujeres demócratas; hombres republicanos y mujeres republicanas. Sin embargo, dados los tamaños de estos cuatro grupos sólo se tiene 1 grado de libertad.
Prueba de hipótesis co on medias de una muestra: Mu uestras pequeñas 2 200
Tabla T 1 11-1
homb bre
Demócratas
R Republicanos
20
100
mujerr
100 50
150
200
Como podemo os observar que e en la tabla 11--1, si se seleccionan 20 homb bres demócratas se e deben selecccionar 30 mujerres demócratass, 80 hombres republicanos y 70 7 mujeres republicanas.
EJEMPLO 11-4
Cuando se calcula la desvia ación estándarr de 10 número os, se utilizan las desviaciones de d la media. E Estas desviacio ones siempre ttienen que sum mar 0. Por lo tanto, cuando calcu ulamos la desviación estánda ar de 10 númerros, sólo hay 9 gra ados de libertad. En general, cuando tratam mos de estimarr la desviación estándar de una u población emp pleando una muestra de tama año n, tenemos n - 1 grados de libertad. EJEMPLO DE E UNA PRUEB BA t
EJEMPLO 11-5
Alguien afirma a que la edad media m del grup po Eagle Scoutts es de 14 añ ños. Dudando que esto sea cierto o, tomamos un na muestra ale eatoria de 16 in ntegrantes del grupo, y encontrramos que la edad e media de la muestra ess de 12. El cálculo de la estimació ón s de la desv viación estánda ar es 4. Pruébe ese con el nivel .05 de significan ncia, suponiend do que las eda ades de todos los integrantes de el grupo Eagle Scout están distribuidas de ta al manera que e no difieren mucho o de lo normall.
(Por lo ta nto, estamos haciendo una prueba de dos extre mos)
(Por lo tan nto, empleare mos la distrib ución t) El número de g ra do s d e li b berta d es tá d a do por n– 1 O 1 6 – = 15 .
Para esta distribución t, esccribimos tD(µm = 14, sm = 1). Se busca .025 y 975 con 15 gra ados de libertad d en la tabla C-5 5 y se encuentra que los valores críticos de t so on tc = ±2.13. C Convirtiéndoloss a datos origin nales, se obtien ne = 14 + (±2 2.13)(1) = 14 ± 2.13 = 11.8 87
y
16.1 3
Introducción a la estadística 200
Por lo tanto, nuestra regla de decisión es rechazar la hipótesis nula si obtenemos una media de la muestra que sea menor que 11.87 o mayor que 16.13. Como nuestro cálculo de la media fue de 12, no hemos podido establecer que la edad media del grupo Eagle Scouts sea diferente a 14 años. Como podemos notar, la única diferencia entre este problema y uno con n mayor que 30, es que empleamos tc = ±2.13 en vez de zc = ±1.96.
EJERCICIOS 11-1 Si por falta de información se llevara a cabo una prueba z en vez de una prueba t para una muestra pequeña, ¿qué pasaría con α, aumentaría o disminuiría? ¿Qué pasaría con β? 11-2 ¿Cuál de las siguientes afirmaciones es cierta? a) Toda curva normal tiene forma de campana. b) Toda curva en forma de campana es una curva normal. 11-3 Se dice que una corporación grande discrimina en su política de promoción a las mujeres que emplea. Durante muchos años, el tiempo promedio para obtener la primera promoción ha sido de 3 años para los hombres. Una muestra aleatoria de 20 mujeres que habían trabajado en esa misma corporación durante muchos años, mostró un tiempo promedio de 3.8 años antes de obtener su primera promoción, con una s = 1 . 2 años. Utilizando α = .05, verifíquese si la información corrobora la afirmación antes mencionada. 11-4 Recientemente se descubrió que en Paraguay vive una especie de pécari que se creía extinta. La afirmación se hizo debido a que las medidas de varios cráneos son muy cercanas a las medidas de fósiles antiguos. Por ejemplo, una muestra de 13 pécaris paraguayos tuvo una media de 60.8 mm de ancho entre los caninos, con una s = 1.8 mm. Suponiendo que estas medidas tienen una distribución normal, muestre que con α = .05 no se puede rechazar la hipótesis de que ambas especies tienen el mismo promedio de ancho entre los caninos. 11-5 Se dice que el promedio de coeficiente intelectual de los marcianos es de 260. Pensando que este promedio es demasiado alto, un terrestre llevó a cabo una prueba con la tripulación de la primera nave espacial de Marte que aterrizó en Nueva Jersey. El cociente intelectual promedio de los 8 tripulantes fue de 250 con s = 8. Pruébese α = .01, suponiendo que los cocientes están distribuidos cerca de la normal. 11-6 El secretario de una asociación de jardineros profesionales asegura que el costo promedio de los servicios a los clientes es de $90 por mes. Pensando que esta cantidad es muy baja, se interrogó a una muestra aleatoria de 10 clientes. El costo promedio de la muestra fue de $125 con s = $20. Pruébese al nivel de significancia de .05, suponiendo que los costos están distribuidos en una forma normal. 11-7 Se dice que la altura media de los oficiales de policía es de 5 ft 11 in. Para probar si esto es cierto o no, se tomó una muestra aleatoria de 25 policías. La muestra dio una altura promedio de 5 ft 10 in con s = 3 in. Pruébese con el nivel de significancia de .05, suponiendo que las alturas están distribuidas en forma normal.
Prueba P de hipótessis con medias de d una muestra: M Muestras pequeñ ñas 201
11-8 Se supon ne que la califficación media a en una prue eba estándar de pssicología es de e 50. Pensando o que un grupo de psicólogos o obtendrá mejorres ca alificaciones, se s examina un na muestra ale eatoria de 11 de ellos. Su cac lifficación media es de 45 con s = 3. Pruébese e a α = .01. Sup poniendo que las l ca alificaciones están distribuidas cerca de la normal. 11-9 Si una mu uestra de las c lases de 16 prrofesores tuvo o una media de e3 472 palabras co on s = 500 pala abras, ¿es cierrto que en la cllase promedio se usan 3 000 pala abras? Emplée ese α = .01. Sup póngase que la a duración de las l cllases está disttribuida en form ma normal, aprroximadamente. 11-10 Un astró ónomo está probando p la affirmación de q que la brillanttez promedio de cie erta estrella ess ahora más de d 30 unidades. Logra obten ner para su prueba 6 lecturas de la estrella dura ante su experim mento. Utilizan ndo α = 01, y las me edidas siguienttes, ¿ello indicaría una media a de brillantez de m de 30? más lectura
brillantez
1
30
2 3
30 29 31 32 33
4 5 6
Supóngase que S e las lecturas e están distribuid das normalmen nte. 11-11 El conde e Fatchula sup pervisa a los estudiantes que están sien ndo entrenados para ser hematólo ogos. Para un n trabajo, sus 8 estudiantes tuviieron que conta ar ciertos tiposs de células en n muestras de sangre. s Sus co onte eos fueron 103,, 75, 82,109, 63 3, 240, 81 y 72. ¿Corrobora essto la hipótesis de que el conteo medio m es de 100 0? Utilícese α = .05. Supónga ase que el tipo de cé élula está distribuida normallmente. 11-12 Si sabem mos que una po oblación está distribuida no rmalmente y que q co onocemos el valor v de o, se e pueden emplear los valore es z para prob bar hipótesis sin im mportar el tama año de n. Repíttase el ejercicio 11-7 con σ = 3 e n vez de s = 3. 3 11-13 Skippy, el e escéptico, duda acerca de e la aseveració ón de su maesstro de estadística de d que el 95% % de las media as de muestra as de 9 tamañ ños te endrán un valor t menor que 1.86. Como su u computadora tiene una sub brutina que elije un número al aza ar de una distrib bución normal ccon una media de ce ero, programa su computado ora para elegir 9 de estos núm meros aleatorio os. D Después calcula a m, s y sm. Fin nalmente, emp pleando
ccalcula los valores de t para la a media de su muestra. m Utilizando una orden de itteración, hace que la computa adora repita esste experimento o 500 veces, y en 4 de ellas obttiene un valor t ¡de menos de 1.86! Por lo tan 468 nto, afirma que su m maestro está equivocado. e Prruébese emple eando α = .05.
Introduccción a la estadísstica 202
PRUEBAS t DE DOS MUESTRAS El proble ema de probar la diferencia entre dos media as cuando una de d ellas o ambas son s pequeñas (menores que 30), se simpliffica cuando se e incluyen dos sup posiciones máss. 1. Amb bas poblaciones son aproximadamente normales. 2. Las varianzas v de la as dos poblacio ones son aproxximadamente iguales. Cuando estas suposicciones son razo onables, se ded duce que la disstribución de las diferencias de la as medias de la as muestras pueden compararse con la distribucción t. Para em mplear la tabla a t, necesitamo os saber los grados g de libertad correspondien ntes. Para calcular la difere encia crítica ne ecesitaremos una a fórmula para sdm, la desviacción estándar d de las diferencias de las muestra as. Se deben obtener o estos dos d resultadoss: Gradoss de libertad = (n 1 - 1) + (n n 2 - 1) = n 1 + n 2 - 2
donde s2p es la estim mación combina ado de la varia anza
2
Nótesse que s p es un promedio po onderado de la a estimación de d las dos varianza as. De acuerdo o con la suposición 2, las varianzas de amb bas muestras está án estimando la misma varian nza verdadera. Por lo tanto, tiene t sentido com mbinar ambas estimaciones. e La L ponderación n sólo asigna más m peso a la estima ación de la mue estra más gran nde. Si las dos muestras son del d mismo tamaño, entonces
Nota: Sii el número de grados de libe ertad dado por n1 + n2 - 2 no está e en la tabla, se e aproximará a al valor más cerrcano que se p proporcione en ella. Si el número de grados de libertad es may yor de 500, se utiliza la última a línea de la tabla. Nótese que estas partidas son s los valoress críticos de z.
EJEMP PLO 11-6 1
SOLUCIÓ ÓN
Se afirm ma que los gra aduados de Harvard tienen un cociente in ntelectual más alto o que los gradu uados de Have emor. En un intento por establecer esta afirmación al nivel de ssignificancia de e .01, seleccionamos una mue estra aleatoria de cada población. (Supóngase e que ambas po oblaciones son n de forma normal). En una mu uestra de 15 graduados de e Harvard, el cociente intelectu ual medio fue d de 120 con s1 = 10, mientras que en una muestra de 18 grad duados de Havvemor la media a fue de 110 ccon s 2 = 5. n1 = 15
n2
= 18
m 1 = 12 20
m 2 = 110
s 1 = 10
s2
=8
Prueba de d hipótesis con medias de un na muestra: Muestras pequeña as 20 03
Ho: la media del cociente intele ectual para los dos d grupos de graduados es l a misma, Ha: la medida de el cociente intelectual de los graduados de Harvard es mayo or que la media del cocien nte intelectual de los gradu uados de Have emor, µdm = µ1 - µ2 > 0. (Por lo tanto tenem mos una prueba a de un extrem mo hacia la derecha). G Grados de libe ertad = 1 5 + 1 8 - 2 = 31
α = .01
Como los grad dos de libertad d son 31 y no están e en nuesttra tabla, aplica amos el valor máss cercano, grad m dos de libertad = 30. Buscand do el valor críticco de e t encontramos tc = 2.46. Encontramos los valores co ombinados de s2.
Te enemos tD(µdm nera que m = 0, s dm = 3. 13), de tal man
Po or lo tanto, nue estra regla de d decisión es recchazar la hipóte esis nula si obtene emos una dife erencia mayor que 7.70. Nu uestro resultad do experimenttal dm m = 120 – 110 = 10, es mayo or que 7.70. Po or ello rechazamos la hipótessis nu ula al nivel de e significancia de .01 y afirm mamos que loss graduados de d Harvard tienen un cociente iintelectual más alto que loss graduados de d Havemor. EJ JERCICIOS En n estos ejerciicios, supónga ase que las p poblaciones mu uestreadas so on ap proximadamen nte de forma no ormal y que su us varianzas son aproximada amente m iguales. 11 1-14 La compa añía manufactu urera Goodben nefits reemplazzó la máquina de d ju uego Ratari en el e salón de desscanso de los empleados, deb bido a la cantida ad de e heridas en la a muñeca. El médico m de la compañía, c Dr. L Leech, nota qu ue co on el nuevo juego Satari h ha habido un promedio de 38 lesiones de d m muñeca por día a, en los últim mos 14 días la aborales, con una desviació ón esstándar de 4 lessiones de muñe eca. Revisando o sus fichas ante eriores descubre qu ue con la máqu uina Ratari hub bo un promedio o de 40 lesione es durante
Introducción a la estadística 204
los últimos 10 días que tuvieron el juego. La desviación estándar fue también 4. Si estos promedios son diferentes en forma significativa (α = .05), el Dr. Leech piensa que puede escribir un artículo que será publicado en la revista médica local. ¿Son los promedios diferentes en forma significativa? 11-15 Para probar si había diferencia entre el promedio de calificaciones de hombres y mujeres en la carrera de Matemáticas de la universidad State, se tomaron dos muestras aleatorias. Para la muestra de 35 varones se encontró que m1 = 3.1 con s1 = .2. Para la muestra de 20 mujeres m2 = 3.2 con s 2 = 15. Pruébese con α = .01. 11-16 Para ver si el tratamiento con fluoruro es eficaz para disminuir la caries, se compararon 15 niños que habían recibido el tratamiento de fluoruro con 15 que no lo habían recibido. Para los que usaron fluoruro, la media del número de caries ml fue .8 con s 1 = .7. Para aquellos que no usaron fluoruro, m2, fue 1.4 con s2 = .9. Pruébese con el nivel de significancia .05. 11-17 Permitir exentos en un examen final puede mejorar las calificaciones de los estudiantes. Para probar esta idea, se seleccionaron al azar 40 estudiantes de francés con experiencias y aptitudes similares y se dividieron en dos clases de 20 estudiantes. En una clase se les dijo que si obtenían un promedio de 90 o más en su trabajo de clase durante el curso, estarían exentos del examen final. A la segunda clase se le dijo que no habría exentos. La calificación promedio para el trabajo de clase del primer grupo fue de 83.3 con s1 = 9.4. El promedio en la segunda clase fue de 80.7 con s 2 = 11.1. Pruébese con α = .05. 11-18 Un inventor asegura que su nuevo método de empacar huevos es mejor que el método antiguo. Se empacan dos partidas de huevos, una con el método anterior, y la otra con el nuevo método. Después de que los huevos son entregados, una muestra de 10 gruesas de cada cargamento fueron inspeccionadas y se contó el número de huevos rotos en cada una de ellas. En la primera muestra, el promedio de huevos rotos por gruesa m1 fue 7.2 con s1 = 3.2. En la segunda muestra m2 fue de 4.1 con s2 = 3.0. Pruébese con un nivel de significancia .01. Sugerencia: n1 = 10 y n2 = 10. 11-19 Para ver si hay una diferencia estadística significativa entre las edades de los dueños de automóviles convertibles y los dueños de automóviles sedán, una agencia de publicidad de Madison obtuvo dos muestras aleatorias y encontró que 15 dueños de convertibles tenían una edad promedio de 29.2 años con s1 = 5, y que 35 dueños de sedán tenían una edad promedio de 24.8 con s2 = 8. Utilícese un nivel de significancia de .05. 11-20 Recientemente se llevó a cabo un estudio de las temperaturas de las bujías en automóviles manejados a 50 mph y 55 mph. Los resultados mostraron que 22 bujías probadas a 50 mph registraron temperaturas, en C F, de la siguiente manera: 900°, 920°, 860°, 890°, 910°, 820°, 950°, 880°, 930°, 870°, 900°, 850°, 910°, 830°, 930°, 950°, 840°, 860°, 900°, 900°, 960°, 890°. Las bujías probadas a 55 mph registraron las siguientes temperaturas: 1000°, 930°, 900°, 1100°, 950°, 1070°, 890°, 1050°, 910°, 1090°, 870°, 1130°, 1000°, 1110°, 1050°, 950°. ¿Sugieren estos datos
Prueba de hipótesis co on medias de un na muestra: Mu uestras pequeña as 205 que el promed dio de tempera atura es diferen nte a 50 mph? Utilícese un nivel de significancia de .01. 11-21 Amy y Josh J salen tod das las tardes a recoger sapos. En el mes de j junio cazaron 50 5 sapos con un peso prome edio de 1.1 onzas y con s = .05 o onzas. En agos sto atraparon 25 2 sapos con un u peso promed dio de 2.1 onza as y s = .07 onzas. ¿Nos indicarían estos datos, con nivel de sig gnificancia de .01, q los sapos de agosto son que n más pesadoss que los saposs de junio? 11-22 Se le prreguntó a un g rupo de perso onas cuánto tie empo después s de una comida volvían a tener ha ambre. Una mu uestra aleatoria de 10 clientes del restaurante Ho ow Long tuvo una media de d 1.3 horas y una desviacción e estándar de .5 5 h. La muestra a de 15 clientes del restauran nte Sum Fun tu uvo una media de 1.7 horas con n una desviación estándar d de .2 h. ¿Es esta e d diferencia sign nificativa con α = .05? 11-23 Existe alguna a diferenccia significativa a entre el prom medio en el jue ego d boliche de los de l enfermeross y los hombres s de negocios si el juego de liga l d año pasado mostró los siguientes resultados?: 10 enffermeros tuvieron del un promedio de e 180 con s = 10, 1 y 15 hombrres de negocioss 170 con s = 10. Utilícese α = .05. 11-24 Casey está bateand do contra una a máquina de lanzamiento de béisbol. La má áquina tiene un lanzamiento rá ápido o muy rá ápido. La distan ncia que recorren to odas las pelotass bateadas porr Casey se anottan. Pruébese con c un nivel de sig gnificancia de .05 si los lanza amientos muy rrápidos tienden a ser bateados más m lejos. Utilícese la inform mación siguien nte. rápido
250
300
275
280 0
350
350 0
muy rápido
300
290
400
325 5
330
400 0
11-25 ¿Son los tostadores Krispy máss rápidos que e los tostadores No-Burn, con un u nivel de sign nificancia de .01? Los tiemposs que necesitaron para tostar differentes rebanadas de pan fueron: f No-Burn
60, 55, 70, 6 65, 80 segundos s
Krispy
70, 65, 65, 6 60, 60 segundoss
11-26
Lass dos fórmulas p para s2p son:
a) ¿Cuan dife erentes son? b) Calcúlese s2p con ambas fórmulas, utilizzando diferente es valores para a S1, s2, n1 y n2, como se indic ca a continuación.
Introducción a la estadística 206 Si tiene acceso a una computadora, podrá comparar fácilmente muchos valores más. UNA PRUEBA t PARA DIFERENCIAS PAREADAS EJEMPLO 11-7
Tabla 11-2
En el ejercicio 11-17 observamos un experimento preparado para ver si se mejoraban las calificaciones de los exámenes finales cuando había exentos. La prueba t de dos muestras reveló "diferencia no significativa". Para ese experimento se dividieron aleatoriamente a 40 estudiantes en dos clases de 20 estudiantes cada una. Decimos que las dos muestras fueron elegidas independientemente porque no hay una relación particular entre los estudiantes de una clase y la otra. Existe otra manera de decidir qué estudiantes irán a cada clase. Por ejemplo, supóngase que primero se establece una categoría para los estudiantes de 1 al 40, de acuerdo con sus calificaciones en el último examen de francés. Después son pareados como se muestra en la tabla 11-2. número de estudiantes 1y2 3y 4 5y 6 7y 8 9 y 10 11 y 12 13 y 14 15 y 16 17 y 18 19 y 20
número de estudiante 21 y 22 23 25 27 29 31 33 35 37 39
y 24 y 26 y 28 y 30 y 32 y 34 y 36 y 38 y 40
De esta manera tenemos dos estudiantes de aptitudes similares en cada par. Un estudiante tiene un número non y el otro un número par. Ahora decidimos qué estudiante de cada par irá en la primera clase y cuál en la segunda. Lanzamos una moneda 20 veces, una para cada par. Decidimos que sol significa que los estudiantes de números nones irán a la primera clase y que águila indicará que los estudiantes de números nones irán a la segunda clase. Si nuestros resultados son
S A A A A
S A A S A
A S A S A
SSSAS
entonces nuestras dos clases estarían integradas como se muestra en la tabla 11-3. El experimento ha sido cambiado sustancialmente ya que cada estudiante ha sido pareado en una clase, con un espiante de aptitudes similares en la segunda clase. Los estadísticos dicen que éste es un diseño experimental nuevo. Para este tipo de diseño es mejor no analizar los datos como una prueba t de dos muestras empleando la diferencia de las medias de las muestras, ya que ese método ignora que los pares han sido apareados. En el caso de pares apareados, la prueba t de dos muestras es más débil
Prueba de hipótesis con medias de una muestra: Muestras pequeñas 207 Tabla
11-3
número del par
estudiantes en la segunda clase
1
1
2
2
5
4 6 8 10
3 5 7 9
6
11
12
7 8 9 10
14 16 17 20
13 15 18 19
11
22
21
12 13 14 15
23 26 27 30
24 25 28 29
16
31
32
17 18 19
33 35 38 39
34 36 37 40
3 4
20
Tabla 11-4
estudiantes en la primera clase
número del par
calificaciones de estudiantes de la primera clase (con exentos)
calificaciones de estudiantes de la segunda clase (sin exentos)
1
100
98
2 3 4 5
96 97 92 91
100
6
93
88
7 8 9 10
79 79 81 86
80 83 71 85
11
90 80 80
88
12 13 14 15
95 90 91
82 82
77 74 78 80
16
75
71
17 18 19 20
71 73 65 75
60 69 72
65
Introducc ción a la estadís stica 208
SOLUCIÓN
en su en nfoque, ya que e no es probable que perciba una diferencia pequeña, pero rea al, entre las doss poblaciones. La prueba t de e dos muestrass no percibiría, po or ejemplo, la ssituación en qu ue cada estudia ante de la prim mera clase fuera mejor que su "par" en la segunda clase, si lo os estudiantes de la primera clase fueran solamente un po oco mejores qu ue sus pares. Supongamos, co on una ilustració ón menos obvia a, que las calificaciones para el trabajo de clase e se ordenarán como muesttra la tabla 11--4. Tendríamos entoncces una muestra de 20 difere encias. Podem mos considerarlass como una mu uestra de tama año 20, de la po oblación de tod das las diferencia as. Clasificamo os estas difere encias con la letra d. Como o siempre, clasifica amos la media de la muestra (de ( des) con ell símbolo m. Su uponiendo que la población p de to odas las des ess aproximadamente normal, nuestro experimen nto se reduce a una prueba de d hipótesis de e una muestra en donde utilizamos las medias de d la muestra en e la que nuesttro dato original es ahora d en ve ez de X. Ho: no o hay diferencia a al exentar, µpop = 0. p Ha: exentar tiende a mejorar las calificaciones µpoop > 0 exttremo) n = 20
(prue eba de un
(por lo tanto, tenemos un na prueba t con 19 grados de e libertad)
µm = µpop = 0
Necesitamos calcula ar spop y sm. Regresando R a lo os datos anteriores, tendremos s ahora datos como c se muesstran en la tablla 11-5.
Prueba de d hipótesis co on medias de un na muestra: Mue estras pequeña as 209
P lo tanto, ten Por nemos tD(µm = 0, sm = 1.03), y G Grados de libe rtad = 19
Nuestra regla de e decisión es, entonces, rech hazar la hipóte esis nula si el rer su ultado es mayo or que 1.8. Co omo en nuestro o resultado, m = 2.6, es may yor qu ue 1.8, rechazzamos la hipóttesis nula. Loss exentos, mejjoran al pareccer su us calificacione es. Este tipo de experimento sse denomina experimento e de e pares apare eado os, y las des se s llaman diferrencias parea adas. Este es e el tipo de expe erim mento que enco ontramos usua almente cuando hacemos co omparaciones de d "a antes y despué és" o cuando ccomparamos hermanos. h Si lo os sujetos de un u exxperimento pue eden ser "pare eados" de algun na manera razo onable, este tip po de e prueba de un na muestra tien ne más fuerza que q la prueba t simple para do os m muestras. Con ella e tenemos m más posibilidad des de detectar una diferenciia, si es que existe e.
GUÍA G DE ESTU UDIO VOCABULARIO V O 1. Muestra pequeña 3 . Curva t 5. Par apareado o SÍMBOLOS S
2. Valor t de Student 4. Grados s de libertad 6. Diferencias apareadas
Introducción a la estadíística 210
FÓRMULAS Prueba as de una mue estra 1. Grad dos de liberta ad = n - 1
5. Resu ultado experim mental, Prueba as de dos mue stras 1. G r a d o s d e l i b e r t a d = n 1 + n 2 - 2 2. µ d m = µ 1 - µ 2 . Si H 0 indica que µ 1 = µ 2 , entoncces µ 1 - µ 2 = 0 .
5. Res ultado experi mental, m dm = m l - m 2
EJERC CICIOS 11-27 En E este capítullo se utilizaron los mismos da atos para dos pruebas p de hipótes sis. En el ejercicio 11-17, emp pleando la prue eba t para la differencia de dos me edias de muesttra, no logramo os probar que dar exentos affectaba las califica aciones. Sin em mbargo, en el ejemplo 11-17 7, mediante un na prueba t para diferencias d parreadas probam mos que dar exentos e sí afe ectaba las calificaciones. ¿Cómo o pueden los mismos m datos llevarnos a conclusiones diferentes? 11-28 En un estudio sobre los efectos de fumarr cigarrillos en las condiciones de la sangre, sse tomó una mu uestra de sangre a 11 persona as, antes y despué és de fumar u un solo cigarrillo. A cada m muestra de san ngre se le añadió una sustancia a química coag gulante. A cada a nivel de coag gulación se le dio un u valor numérico para desccribirlo. Estos sson los resulta ados.
perrsona 1
diferencia en el nivel de coagulación, d 2
2
4
3
10 0
4
12 2
5
16 6
6
15 5
7
4
8
27 7
9
9
10
-1
11
15 5
Prueba de hipótesis con medias de una muestra: Muestras pequeñas 211
Se encuentra que m = 10.3 y spop = 8.0. Empleando α = .01, muéstrese † que el efecto de fumar es estadísticamente significativo. 11-29 a) Para probar qué marca de gasolina proporciona más millas por galón, la compañía de taxis Acmé probó la gasolina Axon en 10 taxis y la gasolina Flug en otros 10 taxis parecidos. Los taxis que usaron Axon promediaron 16.3 millas por galón con s1 = 4.2 millas por galón. Los taxis que usaron Flug tuvieron un promedio de 19.9 millas por galón con s2 = 4.0 millas por galón. Pruébese con un nivel de significancia de .01 si hay alguna diferencia entre las dos marcas. b) Si se empleara Axon en 10 taxis durante una semana y luego Flug en los mismos 10 taxis, tendríamos una prueba de diferencias pareadas. Si m = -.6 con s pop = 3.9, pruébese α = .01. 11-30 a) Supóngase que X representa el número de hijos de 7 hombres primogénitos, elegidos al azar, y que Y representa el número de hijos de 7 mujeres primogénitas seleccionadas al azar.
X
3
2
4
1
2
0
5
Y
4
0
6
1
0
3
?
Pruébese si µ x > µ Y a α = .05. b) Supóngase ahora que X representa el número de hijos del varón y Y representa el número de hijos de la mujer en una muestra aleatoria de hermanos (hombre y mujer). Pruébese µ x > µ Y . Otra vez a α = .05. 11-31 Se recopiló información de 10 adultos que se inscribieron en el programa de reducción Pierda una libra. Los pesos de los participantes fueron anotados antes y después de su participación en el programa. Para los 10 pares de diferencias m fue 5.8 libras menos con s = 5. Empleando α = .05, dígase si esto es evidencia de que el programa funciona. 11-32 El Dr. Quack ha inventado un nuevo método para enseñar a leer. 40 niños de 6o año fueron pareados de acuerdo con sus aptitudes de lectura y divididos en forma aleatoria en 2 secciones. 20 de ellos fueron instruidos por el Dr. Quack, y los otros 20 en la forma tradicional. Al finalizar el curso fueron medidas las diferencias en los niveles de lectura para los pares de estudiantes, donde d representó la calificación de Quack menos la calificación común. La diferencia promedio fue de -3.6 con spop = 4.0. ¿Es el método de Quack diferente de una manera significativa? Empléese a = .05. 11 -33 Un análisis de tenis, incluyó un estudio del comisionado P. Recka sobre ciertos errores de juego. El estudio analizó el juego de 10 profesionales, anotando el número de veces que erraban en un tiro de revés y el número de veces que erraban en un golpe de derecha, para ver si encontraba una diferencia significativa. Utilizando d como la diferencia entre el número de errores de revés menos el número de errores de derecha, obtuvo para estos 10 jugadores (en el curso de 100 errores) una media de d = 10 con s = 6. En general, ¿esto indicaría con α = .05, que en general se cometen más errores en los tiros de revés? †
Problema basado en una presentación en Glantz, Primer of Biostatistics, McGrawHill Company, New York, 1981.
Introducción a la estadística 212
11-34 En un grupo de 200 marineros se midió la diferencia entre el largo de su brazo izquierdo y el largo de su brazo derecho (d es igual al largo del brazo izquierdo menos el largo del brazo derecho). Si m = -.05 in con spop = .015 in, hágase una prueba para ver si los marinos tienen brazos derechos más largos que izquierdos. Empléese α = .05. 11-35 10 estudiantes hicieron una prueba de estadística y después asistieron al curso Quickie en Estadísticas Imperativas del Dr. Fleece. Después de terminar el curso, tuvieron un examen equivalente al primero. Estas son las calificaciones. estudiante
antes del curso
después del curso
Re
15
18
Jeanne Barbe Tommy Jo Anne Mary Francés John Paul Tim
10 13 19 20 14 3 18 16 16
14 15 18 18 16 17 17 14 15
¿Mejoró significativamente el curso las calificaciones? Utilícese a = .05. 11-36 Una muestra de gatos adultos fue alimentada con comida de la marca Fatkat. Los resultados de esta dieta se presentan en la tabla siguiente. gato
peso inicial
Tabby Maurice Samantha Snow White Toby Licorice Félix Krazy Chris Apples Pucini Tiger
peso final
12
7
7
7 7 6 9 9 3 5 9 7 8 8
5 7 8 10 3 4 9 6 8 7
Pruébese con el nivel de significancia de .05 si Fatkat afecta el peso de los gatos.
ENCUESTA DE CLASE Considérese que cierta clase es una muestra aleatoria de una escuela. ¿Son los datos de esa clase bastante fuertes para demostrar que la altura promedio de los hombres en la escuela es mayor que la altura promedio de las mujeres?
Prueba de hipótesis con medias de una muestra: Muestras pequeñas 213 PROYECTOS DE CAMPO Llévese a cabo un proyecto de campo similar a los del capítulo 10, de una muestra o de dos muestras, pero con muestras pequeñas; o un proyecto con diferencias pareadas. EXAMEN DE PRÁCTICA PARA LOS CAPÍTULOS 8, 9, 10 Y 11 1. Una hipótesis estadística es una afirmación sobre un (parámetro, estadística). 2. ¿Qué es un error de tipo I? ¿Qué relación tiene con el "nivel de significancia"? 3. ¿Por qué no se llevan a cabo pruebas de hipótesis utilizando α = 0? 4. Se está llevando a cabo una prueba para ver si dos poblaciones tienen la misma media. Se desea emplear muestras pequeñas para utilizar la prueba t estándar. ¿Cuáles son las dos suposiciones razonables sobre las dos poblaciones? Para los problemas 5 a 9: a) Plantéese una hipótesis nula y una hipótesis alternativa b) Plantéese una regla de decisión. c) Empleando un lenguaje correcto, dése una conclusión mencionando las variables específicas en los problemas. 5. Una cuarta parte de una ruleta en una feria está pintada de rojo. Esto significa que la rueda debería detenerse aproximadamente en la parte roja una cuarta parte de las veces que es girada. Un estudiante se pregunta si la ruleta no ha sido "arreglada". ¿Cuál sería su decisión si la ruleta se detuviera en rojo 12 veces de 60 intentos? α = .05. ¿Es ésta una prueba de un extremo o de dos extremos? 6. Un estudio de una muestra aleatoria de 100 boletas de estacionamiento en un aeropuerto grande indicó que el tiempo promedio de estacionamiento de un automóvil en la zona de "poco tiempo" fue de 2.6 horas, con s = 45 minutos. ¿Nos sugiere esta evidencia con α = .05, que el promedio de tiempo de estacionamiento es más de 2 horas y 15 minutos? Sugerencia: Téngase cuidado con las unidades. Se podrían cambiar todas las unidades a minutos o a horas. 7. Se desea probar dos modelos nuevos de estufas de energía solar. La prueba es para ver cuánto tiempo tarda en hervir un cuarto de galón de agua (que está inicialmente a 10°C). Se llevan a cabo 5 pruebas con cada tipo de estufa. Los resultados son los siguientes: tiempo de ebullición del agua en minutos Sunny Boil Sol-Heato
4.7,5.1,5.5,5.7,4.0 4.2, 4.2, 4.7, 4.5, 4.4
¿Es esta evidencia concluyente para decir que una es superior a la otra? Utilícese α = .05. 8. En un estudio para su tesis doctoral, la Dra. Payne llevó a cabo un experimento con 100 voluntarios. Las 100 personas fueron divididas aleatoriamente en dos grupos de 50. Al grupo 1 le mostraron una película de
Introducció ón a la estadístic ca 214
soldados heroicos h que so oportaron los su ufrimientos y ob btuvieron la victtoria. Al grupo 2 le mostraron una a película similar, pero en esste caso los so oldados perdieron la l batalla. Desp pués se pidió a cada persona a que tolerara un u ruido muy desa agradable dura ante todo el tiempo que pu udiera. ¿Sugierren los resultadoss siguientes qu ue la película tuvo algún efe ecto en el com mportamiento de los sujetos? ¿Se utilizaría un na prueba de u un extremo o de d dos? α = .05.
9. En un n estudio sobre e los efectos de e dos métodos de enseñanza a, tomaron parte 10 1 parejas de g gemelos varones idénticos, de 8 años. A un n gemelo de cada a par se le ense eñaron algunass palabras de vocabulario, v mediante un program ma de tutoría por computado ora, sin la ayuda de un maestro. Al otro geme elo le enseñó u un maestro sin ayuda de com mputadora. Al fiinal, todos realizaron el mismo o examen. Los resultados fue eron los siguie entes: nombres Abe y Babe Bob y Ro ob Clark y Mark M Don y Ro on Ed y Fred d Frank y Hank H Garry y Larry L Harry y Barry B Jake y Ba ake Kenneth y Percival
caliificaciones
calificaciones
con computadora c
con maestro
116 112 100 186 173 198 178 140 173 159
123 170 140 108 163 153 119 140 171 181
i) ¿Por qué tomaron p parte gemelos? ? ii) ¿Qué suposiciones s sse hicieron al principio p del exxperimento so obre la destreza en e vocabulario o de los gemelo os? iii) ¿Qué indica el estud dio a α = .05? ? Hágase el análisis de do os maneras: una u prueba t pa areada y una prueba p t no parea ada. 10. Cua ando la tía Tillyy, que no es mu uy buena en matemáticas, m su upo que su sobrino o estudiaba Esstadística en la a universidad, le escribió pa ara preguntarle ¿qué ¿ es una prueba de hipóte esis? Contéste ese de la mane era más clara posib ble.
Inte erva alos de con c nfian nza INTERVALO OS DE CONFIA ANZA PARA PROPORCIONE ES EN UNA POBLACIÓN N BINOMIAL a de publicidad desea saber el e número de fa amilias que po oseen Una agencia una televisión a color en el condado c de Na assau. Sería mu uy difícil y reque eriría demasiado tiempo t conoce er la respuesta a exacta, ya qu ue para ello ten ndría que identifica arse a todas la as familias del condado. Por lo tanto, la age encia seleccionó una muestra aleatoria de 500 familiass en el cond dado. Supongamoss que encuentran que 340 de las familias tien nen una televissión a color. Esto es e 340/500 o 6 68%. Con esto o ellos concluiirían que cerca a del 68% de las familias f del con ndado tiene una televisión a ccolor. La mejorr esti^ mación para a la respuesta verdadera ess, 68%, y escr iben p = .68. En la mayo or parte de lass aplicaciones estadísticas, e no o es suficiente decir que el valor correcto c de p e es "cerca de" 68%. 6 Después de todo, tal affirmación es realmente vaga. ¿Qué querem mos decir con n "cerca de" 68%? 6 ¿Queremos decir d que creem mos que la res spuesta correctta está entre el 58% y 78%? O ¿q queremos deciir que creemoss que la respue esta adecuada a está entre 67% y 69%? Cuando o damos un re ecorrido de valo ores que pensamos incluye el valo or verdadero d del parámetro de d alguna pobla ación, este reco orrido de valores se s denomina e estimación de el intervalo. G Generalmente se le asigna una probabilidad p a tal intervalo, y entonces d decimos que es e un intervalo de confianza. Cuánto má ás alta sea la probabilidad asignada, más co onfianza tendremos en que el inttervalo incluye realmente el valor v verdaderro. Desarrolle emos más esta a idea con el siguiente ejemp plo.
Introducció ón a la estadístic ca 216
EJEMPLO O 12--1
Utilizando una muestra aleatoria de 50 00 familias, ca alcúlese la estimación del interva alo para el porce entaje de familiias que poseen n una televisión n a color en el condado de Nassau u. Se desea que e este intervalo o tenga la proba abilidad de .95 de e incluir el verdadero porccentaje. Es decir, encuéntrrese el intervalo de d confianza d de 95% para el e porcentaje de familias que e posee una televis sión a color.
SOLUCIÓN N
Imagínese e que seleccion namos aleatoriiamente a 500 familias del co ondado de Nassau u en repetidas ocasiones y qu ue anotamos el número de ellas que posee una a televisión a ccolor. Obtendrríamos una tab bla como la 12-1.
Décimos que q p es igual al a verdadero po orcentaje de fa amilias que possee una televisión a color. Si np > 5, y nq > 5, entonces e se de educe por el te eorema del límite central c que, a la a larga, la distrribución de porrcentajes p seríía apro^ ximadame ente normal co on una media ig gual a p y una a desviación esstándar igual a√pq q/n, donde n = 500 familias y p es el verd dadero porcentaje de familias qu ue posee una ttelevisión a colo or. Nótese que e, como la distrribución ^ es normal (Fig. 12-1), los valores muéstrales p , tende erán a agruparsse cerca del verdad dero valor p.
Interrvalos de confianza 217 En realidad d, el experimen nto se lleva a cabo sólo una a vez. Supóng gase que, cuando identificamos a las 500 familia as, encontramo os que 68% tie enen televisión a co olor. Sobre estta base querem mos calcular un n intervalo de conc fianza para p (que se supon ne cercano a 68%). 6 Hemos ttomado una de e las muchas muesstras aleatoriass posibles que podrían p haber sido s selecciona adas en el condado o. Tenemos do os posibilidade es: seleccionarr una muestra rara ^ con un valor p alejado de e p o una mu uestra más com mún con un valor v ^ p cercano a p. p Los estadístiicos supondrán n siempre que se ha elegido una de las muestrras más comun nes. Por ejemp plo: si estamoss calculando el e intervalo de con nfianza de 95%, supondremos s que hemos tom mado una mue estra ^ con un valor p que ocurre e en el 95% de los casos m más comunes. (Si estamos calculando el interrvalo de confia anza de 99%, supondremos que tenemos uno de los casos más comunes del 99%). Sigamos el razonamiento que lleva al intervalo de conffianza de 95%. Se puede enconttrar cualquier o otro nivel de co onfianza con un n razonamiento o si^ milar. Record demos que nue estra muestra dio d p = .68. Po or lo tanto, sup pon^ dremos que p = .68 está de entro del centro o medio de la distribución d norrmal del 95% basa ada en el verdadero valor de e p (Fig. 12-2)..
^
Si supon nemos que p = .68 está en algún a lugar de e este intervalo, enton^ ces p = .68 está dentro del 1.96 de de esviaciones esttándar del verd dadero valor de p.. Simbólicamente se escribe e p - 1.96σ≤ ≤ .68 ≤ p + 1. 96σ En Álgebra a, esto es equivalente a .68 - 1.96 6σ≤ p ≤ .68 + 1.96σ Por lo tantto, para obtene er nuestro inte ervalo de confia anza de 95% para p p, sólo sumam mos 1.96σ al va alor de nuestra a muestra y resstamos 1.96a de el valor ^ p de ella.. Podemos ressumirlo en una a fórmula: ^
intervalo de d confianza d de 95% para p: p p se encuen ntra entre p - 1.96σ 1 y ^ p + 1.96 6σ
Introducció ón a la estadística 218
Por supue esto, en una aplicación real no n conocemoss el valor exacto de o, porque de epende de p. A Así que utilizamos
Por lo tantto, la fórmula para el intervalo o de confianza d de 95% que realmente empleamo os es ^
^
^
^
intervalo de d confianza de 95% para p: p está entre p - 1.96σ y p + 1.96σ ^
Apliquemo os esta fórmula a nuestros datos. Teníam mos n = 500, p = .68. ^ ^ ^ ^ Por lo tan nto, q = 1 - p = .32. Como np = 340 > 5 y nq = 160 > 5, la ^ distribució ón de p es aprroximadamente normal.
^
Encontram mos que 1.96 σ = 1.96(.02) = .04. Por ello estimamos que e p está entre .68 - .04 y .68 + .0 04, o que p esstá entre .64 y .72. (Algunos autores escriben .64 ≤ p ≤ .72 2.) Conclussión. Basándon nos en los dato os de nuestra m muestra, el inte ervalo de confianza de 95% para e el porcentaje de d familias que poseen televissiones a color es de d 64% a 72% %. Con este problema p hemo os contestado nuestra pregunta inicial, "¿Qué queremos q deccir con 'cerca de el 68%'?". En relación r con este problema, "ce erca del 68%" significa "ent re 64% y 72% %". Comenttarios adicionalles. El intervalo o que calculam mos es un intervalo de confianza de 95% porqu ue el procedim miento de estim mación que utilizamos para obten nerlo tiene una a probabilidad igual a .95 de proporcionar un u intervalo que contenga c el po orcentaje verd dadero. (Véase e la tabla 12-2 2.) En el procedimie ento esbozado o en la tabla 12 2-2, encontram mos que 95% de los intervalos de confianza qu ue calculamos "capturan" " el ve erdadero parám metro.
Inte ervalos de confia anza 219
Las fórmulas para los intervalos de confianza c para p son: intervalo de confianza de 95%:
^
^
^
p se encuentra entre p - 1.96 6σ y p ^ + 1.96 1 σ ^ ^ ^ intervalo o de confianza de 95%: p se encuentra entre p - 2.58 8σ y p ^ + 2.58 2 σ ^ ^ ^ En genera al: p se encuentra e entre p - zcσ y p + ^ z cσ
donde zc corresponde al a intervalo de confianza parrticular que bu uscamos. El va alor de z es el mismo que se ha estado utilizando en las pruep bas de hipótesis de doss extremos. DETERMINA ACIÓN DEL TA AMAÑO DE LA A MUESTRA QUE Q SE NECESITA PARA P UN INTE ERVALO DE CONFIANZA C DESEADO Se está calcculando el porccentaje de estu udiantes zurdoss en la universsidad State. ¿Qué tamaño de mu uestra se neces sita para garanttizar que los lím mites de un interva alo de confian nza de 95% esstán alejados n no más del 3% % del porcentaje co orrecto? Es deccir, la cantidad 1.96σ, que sumamos y resta amos del valor de nuestra n muestrra, no debe serr mayor que 3% %. Algebraicam mente escribimos 1.96σ 1 ≤ .03. Ya a que
Tenemos
Despejando n, obtenemos
No conocemos los valores d de p y q, pero también es cierrto que, sin importar lo que éstos sean, su produ ucto pq no pue ede ser mayor d de .25. (¡Calcúllese! Recuérdese que p más q deben ser igual a 1). De e esta manera a, si sustituimos pq p por .25, obte endremos un valor v de n que cumplirá c con nuesn tros requisito os:
Cualquier mu uestra mayor que esta, es deccir, n ≥ 1068, no os dará la exacctitud requerida. En general, la fórmula que se necesita para obtener la exactitud dese eada para n es
donde a es la exactitud de eseada.
Introducció ón a la estadístic ca 220
EJEMPLO O 12-2 2
Deseamos saber el porce entaje de estud diantes cuyos padres p están diivorciados. Se dessea obtener un n número que esté e dentro del 5% del valor co orrecto en un intervalo de confian nza de 95%. ¿Cuál ¿ es el tam maño de muesttra que se necesita a?
Cualquier muestra aleato oria de 385 o más es suficie ente.
EJERCICIO OS 12-1 Cuando se habla de e un intervalo de d confianza de d 95%, ¿por qué q no es correcto o decir que α = .05? 12-2 Expliq qúese el 2.58 de la fórmula para el intervvalo de confian nza de 99% para p. p 12-3 Encué éntrese una fó órmula para el intervalo i de co onfianza de 90% % para p. 12-4 En un n examen méd dico para identificar una enffermedad, cierrta proporción de los pacientes sserán positivos falsos, es decirr, mostrarán un na reacción a la prueba p pero, cu uando sean ex xaminados má ás detenidamente, se comprobará á que no padecen la enferme edad. Cuando llos doctores prreparan este tipo de e pruebas, neccesitan una esttimación de lo frecuente f que será la aparición de d positivos fa alsos con el em mpleo continuo o de la prueba a. Para encontrar esta e estimación n es necesario o llevar a cabo un estudio pilo oto. En un estudio piloto de este tipo, 10 de ca ada 100 resulta ados positivos fueron positivos fa alsos. Encuéntrrese un intervalo de confianza a de 95% para la tasa de positivo os falsos de essta prueba. 12-5 Una encuesta e llevada a cabo por un periódico m mostró que el 53% 5 de los estudia antes universita arios informaro on haber usado drogas ilega ales. El tamaño de e la muestra empleada en esta e investigaciión fue n = 10 00. Encuéntrese el intervalo de e confianza del 99% para este porcentaje. 12-6 Un periódico p inforrma que de lo os 1 064 sold dados en la Brigada B Air-borne 173d, 16% dijjeron haber fu umado marigu uana "casi tod dos los días" o "co on más frecuenccia". Encuéntre ese el intervalo de confianza de d 95% para esta estimación. e 12-7 El soldado Walter P Parte, uno de los soldados del Gral. Custerr, tomó una muesttra aleatoria de e 50 hombres en su regimie ento. Treinta de ellos creían ser más numerossos que el ene emigo. Encuén ntrese el intervvalo de confianza de d 95% para la proporción de d soldados qu ue pensaban de d esta manera. 12-8 Una muestra m aleatoria de 90 prisio oneros en una ccárcel estatal grande, g reveló que e el 20% de ellos eran unive ersitarios titula ados. Encuéntrese el intervalo de confianza de e 99% en la población p muestreada, para el porcentaje de e presos que so on universitarios titulados.
Intervalos de confianza 221 12-9 Los exámenes del profesor Kwizee han incluido, hasta ahora, 100 preguntas "verdadero-falso", 80 de las cuales fueron verdaderas. Suponiendo que siga haciendo lo mismo, encuéntrese el intervalo de confianza de 90% para la proporción de "verdaderos" en el próximo examen. 12-10 Si las primeras boletas de votación en una noche de elecciones son consideradas una muestra aleatoria de los votantes, y la alcaldesa Fogbottom va ganando con un 52% de la votación de 400 votos contados, ¿debería sentirse confiada de salir victoriosa en un 99%? 12-11 En cierta playa de New Jersey existe una regla local que establece que sólo los residentes del pueblo pueden usar la playa. Un domingo, se interroga al azar a 80 personas en playa, de las cuales 68 resultan ser residentes. a) ¿Cuál es el intervalo de confianza de 95% para el porcentaje de los no residentes en la playa? b) Suponiendo que hubiera 700 personas en la playa y basándose en la respuesta anterior, ¿cuántas personas serían no residentes? 12-12 Sanford R. Brochure, el magnate de la publicidad por correo, quiere verificar el porcentaje de la población de Upperdownunder que tira la publicidad que envía sin siquiera verla. ¿Cuántos residentes deben ser muestreados para que esté seguro en un 95% de que se encuentra dentro de un 2% del valor correcto de p? 12-13 No todos los problemas binomíales son tan sencillos como problemas de "sí y no" o "águila o sol". Un programa de computadora, que incluye 1 800 pasos, simula el empleo de un sonar por un destructor naval y un helicóptero para localizar submarinos enemigos. Al final de cada serie de este programa, el submarino ha sido localizado o ha escapado. a) Cuando el programa fue corrido 100 veces, el submarino fue localizado en 32 ocasiones. Estímese p = P(un submarino es localizado). Encuéntrese el intervalo de confianza de 95% para su estimación. b) Repítase el ejercicio anterior con la siguiente información: n = 500 y el submarino es localizado 139 veces. c) Repítase el ejercicio a), pero utilícese ahora esta información: n = 1 000 y el submarino es localizado 297 veces. d) Sabemos que el tiempo de computadora es costoso, basándose en las respuestas a los ejercicios b) y c), dígase si valdría la pena correr el programa 1 000 veces o si 500 veces serán suficientes. e) Muéstrese que, para n = 38 000(!) podemos estimar p hasta el 1%. 12-14 Milly Meter, gerente de un teatro, desea conocer el porcentaje de niños de primaria que han visto "La Bella Durmiente" en el pueblo de West Islip. a) ¿Qué tamaño de la muestra es necesario para asegurar, en un 95%, que estará dentro de un 2% del valor correcto? b) ¿Qué tamaño de la muestra será necesario para asegurar, en un 95%, que obtendrá un valor dentro del 1% del valor correcto? 12-15 A Coolo Keeno le gusta mucho ver televisión y desea saber qué porcentaje de escenas duran menos de 5 segundos. ¿Cuántas escenas tendría que evaluar para estar seguro en un 99%, de que estará dentro de un 5% del valor correcto?
Introducció ón a la estadístic ca 222
INTERVAL ALOS DE CONF FIANZA PARA A MEDIAS BA ASADAS EN MUESTRA AS GRANDES S Con frecue encia se emplea la media de una u muestra ale eatoria para esttimar la media de una población n. Por ejemplo o, el tiempo pro omedio que ta arda un anestésico o en hacer efeccto podría ser estimado prob bándolo en una a muestra aleatorria de 100 paccientes y encon ntrando la med dia de la muesstra. Si enco ontráramos que e la media de la muestra fue era m = 4.6 minutos, m podríamos s tomar éste co omo el cálculo más cercano de la media de e la población. Por lo tanto esp peraríamos que e si el anestésico se usara en n forma general, el e tiempo medio que tardaría a en hacer efeccto sería de ce erca de 4.6 minuto os. Para darle un significado a la expresión "cerca de", po odemos encontrar el intervalo de e confianza de e 95% para la media. Para log grar esto cuand do el tamaño de e la muestra n sea mayor de 30, 3 emplearemos s el teorema d del límite centra al (Cap. 10). Nuestro N razona amiento es el siguiente: la muesstra de pacientes que estudia amos es una muestra m común, ess decir, se trata a de una mues stra dentro del 95% de las muestras con m cerrcana a la med dia verdadera, y no una del 5% % de las muesstras no comunes. Por lo tanto, p podemos estarr razonablemen nte seguros de e que la verdadera a media no esttá alejada máss de 1.96 desvviaciones están ndar de la media de d nuestra mu uestra. Esto se e ilustra en la figura 12-3.
Siguiendo el razonamiento que empleamos en el ccaso binomial al a principio de estte capítulo, obtendremos fórm mulas similares para los interv valos de confianza a de medias de e población. Las fórrmulas para lo os intervalos de e confianza pa ara µ son: intervalo de confianza a de 95%:
µ está entre m - 1.96sm y m+ 1.96s 1 m
interva alo de confianza de 95%:
µ está m - 2.58sm y m + 2.58ssm
En gen neral: µ está entre m - z c s m y m + z c s m donde zc es el valor crítico z aprop piado.
EJEMPLO 12--3
Supóngas se que la muesstra de 100 pacientes nos da a una m = 4.6 minutos con s = 1.1. ¿Cuál es ell intervalo de confianza de 95 5% para el tiem mpo promedio que tarda el ane estésico en hac cer efecto?
In ntervalos de conffianza 223
SOLUCIÓN
De ahí que encontremos 1.96sm = 1.96 6(.11) = .22. Por lo tanto, nu uestro intervalo de confianza para a ¿testa entre 4.64 .22 y 4.6 + .22, o µ está entre 4.4 y 4.8. Esto quiere decir que esstamos seguros, en un 95%, de que el prom medio para toda la a población de pacientes pote enciales está entre 4.4 y 4.8 minum tos.
EJEMPLO 12-4
Encuéntrese e el intervalo de e confianza de 99% para la ed dad promedio de d los trabajadoress de la fábrica a de cepillos dentales d A-Maize, si una mu uestra aleatoria de sólo 100 traba ajadores tuvo una u media de 35.2 3 con s = 10 0.3.
SOLUCIÓN
Por lo tanto,, encontramos que 2.58sm = 2.58(1.03) = 2 2.7 y de ahí que q el intervalo de confianza parra µ está entre 35.2 - 2.7 y 3 35.2 + 2.7, o µ está entre 32.5 y 37.9. Esto signiffica que estam mos seguros, en n un 99%, de q que el promedio o de edad para to odos los trabaja adores de A-Ma aize está entre 32.5 y 37.9 años.
EJERCICIOS S 12-16 Una regla r que suelen aplicar algu unas personass para encontrrar un intervalo de confianza ráp pidamente, con nsiste en toma ar dos desviaciones estándar de la media. ¿Cu uál es el porcie ento del intervalo de confianza a que obtenemos por p este métod do? 12-17 Encuéntrese el inte ervalo de conffianza de 95% % para la mediia del peso de los venusinos, si una muestra aleatoria a de 36 6 venusinos tuv vo los pesos siguie entes: 16, 22, 31 1, 28, 15, 20, 20 0, 21, 22, 35, 28 8, 27, 25, 24, 20 0, 18, 19, 31, 17, 18, 1 20, 15, 25, 24, 27, 18, 20, 31, 29, 23, 20 0, 20, 19, 31, 30 0, 20. 12-18 Encuéntrese el inte ervalo de conffianza de 99% % para la mediia del número de personas p que vviajan en un vagón v del Metro o entre las 12 de la noche y las 6 de la mañana a, si una muestrra aleatoria de 40 vagones tuv vo los números de personas sigu uientes: 0, 0, 1, 1 3, 7, 13, 15, 20, 20, 20, 23 3, 25, 29, 30, 35, 35, 3 36, 36, 36, 36, 37, 40, 41, 41, 41, 43, 44 4, 47, 50, 56, 59 9, 60, 60, 61, 63, 69, 6 70, 71, 89,, 103.
Introducción a la estadística 224
12-19 Encuéntrese el intervalo de confianza de 95% para la media de los salarios de los maestros en el condado de Constick, si una muestra aleatoria de 100 maestros tuvo un salario medio de 14 000 dólares con s = 1 000 dólares. 12-20 Encuéntrese el intervalo de confianza de 99% para la media del número de horas que los niños ven televisión, si una muestra aleatoria de 49 niños tuvo una media de 4.6 h con s = 2.9 h. 12-21 Encuéntrese el intervalo de confianza de 95% para la media del número de piezas de publicidad por correo que se recibe por semana, si una muestra aleatoria de 1 000 casas tuvo una media de 23.1 piezas con una estimación de la desviación estándar de 4.1 piezas. 12-22 Encuéntrese el intervalo de confianza de 98% para la media del número de minutos de anuncios de televisión por hora, si una muestra aleatoria de 48 horas de programación dio una media de 15.2 minutos por hora y s = 1.5 minutos por hora. 12-23 Encuéntrese el intervalo de confianza de 95% para la media del tiempo de espera para surtir una receta en la farmacia Rex's Rx, si una muestra aleatoria de 64 clientes mostró un promedio de espera de 12.3 minutos, con una desviación estándar de 5 minutos. 12-24 Una muestra de 400 estudiantes entregó un proyecto de estadística. El tamaño promedio de las muestras fue de 110.3 y la desviación estándar fue de 12.2. Encuéntrese el intervalo de confianza de 99% para el tamaño promedio de las muestras de los proyectos. 12-25 El comisionado de la liga infantil de Spearfish, en South Dakota, está organizando el día de campo anual. El sabe, por la experiencia de años pasados, que el número promedio de hot dogs que se consumen por persona es de 6.5, con un intervalo de confianza de 95% que va de 6.1 a 6.9 hot dogs. También espera que los 507 integrantes de la liga infantil asistan a este día de campo. a) Utilizando el promedio de 6.5, ¿cuántos hot dogs debe ordenar? b) Si quiere estar seguro de que no se quedará sin hot dogs como el año pasado (cuando ello ocasionó un motín), ¿cuántos deberá ordenar? c) Si ordena un número, como en b), que representa el número más alto del intervalo y resulta que la media del número de hot dogs consumido está más cerca del número más pequeño del intervalo, ¿cuántos hot dogs le sobrarán? d) Si comete el error descrito en c), y tiene que comerse 2 hot dogs por día hasta que termine los que le sobraron, ¿cuánto tiempo necesitará para terminárselos?
INTERVALOS DE CONFIANZA PARA MEDIAS BASADAS EN MUESTRAS PEQUEÑAS En esta presentación de muestras pequeñas, seguiremos los mismos procedimientos que empleamos anteriormente para encontrar intervalos de confianza, pero en este caso utilizaremos los valores críticos de t en vez de los valores críticos de z. Recuérdese que cuando empleamos los valores de t, nuestros datos originales deben tener una distribución que se aproxime a la normal.
Inte ervalos de conffianza 225
Por lo tanto, nuestra fórm mula para un in ntervalo de con nfianza de una media es: µ está enttre
EJEMPLO 12-5
SOLUCIÓN
m - tcs m y m + tcsm
Para llegar a su trabajo, un n abogado deb be manejar tod dos los días, de esde un suburbio en e el norte de la ciudad, al ce entro de Chica ago. Para poder decidir si debe tomar t el tren en vez de mane ejar, anota la disstancia que rec corre cada día dura ante 15 días. Fin nalmente calcu ula que la media a del recorrido es e de 12.2 millas po or galón, con una u estimación n de la desviaciión estándar de e 2.1 millas por ga alón. Encuéntrese el intervalo de confianza de 95% parra su recorrido en millas, suponiendo que éstte está distribu uido en una fo orma normal. s = 2.1 y n = 15. Por lo ta anto,
Grados de libertad = n - 1 = 14 Los valores críticos de t para p α = .05 (q que correspond den al intervalo de confianza de e 95%) con 14 grados de libe ertad son ±2.14 4. Por lo tanto, encontramos qu ue tcsm = 2.14((.54) = 1.2. Es así que el inte ervalo de confia anza para µ está entre e 12.2 - 1.2 2 y 12.2 + 1.2, o µ está entre e 11.0 y 13.4. Así, él está á seguro, en un 95%, de que e el verdadero recorrido en millas m está entre 11 1 y 13.4 millas por galón. Aho ora puede utilizar esta informa ación para decidir si es más barrato manejar o tomar el tren. EJERCICIOS S En estos ejerrcicios supónga ase que las pob blaciones que se s están muestrreando se aproxiiman a la norm mal. 12-26 Si empleáramos erró óneamente un n valor z en vezz de un valor t para una muestra a pequeña, ¿có ómo sería el intervalo i que obtendríamos: o muy ancho o muyy angosto? 12-27 En un n laboratorio de e computación n que siempre está lleno, loss estudiantes deb ben esperar ge eneralmente pa ara poder usar una terminal. John De Newman anotó el tiemp po que esperó en sus últimass 10 visitas: 15 5, 14, 12, 15, 15, 16, 14, 15, 16, 14 1 minutos. Ca alcúlese el prom medio de tiemp po de espera y enc cuéntrese el inte ervalo de confianza de 99% p para su estimacción. 12-28 Una re evista de conssumidores dese ea calcular el tiempo de vida para los focos Exxtra-Strong. Al probar 25 foco os que fueron comprados al azar, se encuentra que el tiem mpo medio de vida es de 99 98 horas, con n una desviación estándar e de 30 0 h. Encuéntre ese el intervalo de confianzza de 95% para ell tiempo medio o de vida de lo os focos.
Introducció ón a la estadístiica 226
12-29 Un doctor desea calcular la eda ad media de la as mujeres que e tienen abortos en los hospitales municipales de la ciudad de e Nueva York. En una muestra aleatoria a de 19 9 pacientes la media m es de 29 9.7 años con s igual a 3.2 años. Encuéntrese e el intervalo de confianza de 9 99% para la media m de edad de las mujeres que han tenido abortos a en esto os hospitales. 12-30 La compañía de taxis t Gypsy de Brooklyn, Nue eva York, quierre saber cuál es el e tiempo medio de vida de los neumático os en sus tax xis. Una muestra aleatoria a de 28 neumáticos tu uvieron una me edia de vida de e 17 821 millas, con una desviaciión estándar de 1 206 millas. Encuéntrese el intervalo de co onfianza de 95 5% para la vida de los neum máticos. 12-31 Un experto en efficiencia para una u compañía a de borradores de pizarrón, toma una muesttra aleatoria de e la producción por hora de 16 trabajadores. Los L resultados muestran que la media del n número de borrradores producido o por los trabajadores en una a hora es de 12 23.1 con s igua al a 8.0. Encuéntre ese el intervalo o de confianza a de 90% para a la media del número de borrad dores producid dos por un trab bajador en una a hora. 12-32 Peggy Babbcockk, de Frederick ksburg, Virginia a, ganó tres ve eces un concurso para hablar rá ápidamente, repitiendo la frasse "piel roja, piiel amarilla". Su velocidad v al ha ablar fue de 7.3 3, 7.1, y 7.2 síla abas por segun ndo. Encuéntrese e el intervalo de e confianza de 95% para su p promedio de ra apidez al hablar en concursos. (Si puede repetir el e nombre de Peggy rápidame ente tres veces, ga anará el segun ndo lugar.)
INTERVA ALOS DE CONFIANZA PARA A DIFERENCIA AS CON DOS MUESTRA AS De la misma manera qu ue hemos estim mado el valor d de una probabilidad binomial p o una media de e población µ, tomando una m muestra de una a población, pode emos estimar la diferencia entre e dos proba abilidades p1 - p2, o la diferencia a entre dos me edias µ1 - µ2. to omando muestras separadas e independiente es de cada una a de las poblaciones. DIFEREN NCIAS ENTRE DOS PROPOR RCIONES EJEMPLO 12--6
Supongam mos que estamos interesadoss en la diferenccia entre la pro oporción de rubios y de pelirrojos q que usan lentes de contacto e en el Instituto de d Tenis para Hom mbres. Si p1 = P(un rubio en el Instituto o que usa len ntes de contacto) y p2 = P(un peliirrojo que usa le entes de conta acto), se desea estimar el valor de el parámetro p1 - p2. Podríam mos tomar dos muestras alea atorias de estud diantes en el Instituto: una muesttra de rubios y la otra de pelirrrojos. Si 90 de e cada 300 rubios y 24 de cada 200 pelirrojos u utilizan lentes de d contacto, esstimaríamos p, y p2 de esta mane era,
^
^
Entoncess, nuestra esttimación de p 1 - p 2 sería p 1 - p 2 = .30 - .12 = + .18. Porr lo tanto, aproxximadamente 18% más rubioss que pelirrojos s usan
Inte ervalos de confia anza 227
lentes de con ntacto. Para callcular el interva alo de confianza a de 99% para esta ^ ^ ^ ^ estimación, notemos que n 1p1, n 1q1, n2p2 y n 2q2 son igu uales a 90, 210 0, 24 y 176. Como los resultados son todos mayyores que 5, la d distribución de tales estimacioness sería aproxim madamente norrmal y el 99% ccentral estará entre e ^ ^ ^ z = -2.58 y z = 2.58. Si deja amos que dp simbolicen, s p1 – p 2, entonces s,
Nota: La pre egunta es: ¿Cu uan diferentes son p1 y p2? No estamos supos niendo que p1 y p2 son igua ales, y por lo tan nto no unimos llos resultados de d la muestra com mo hicimos en el capítulo 9. Nuestro in ntervalo de confianza está dado por: P 1 - p 2 es stá entre ^
Calculando σ, tenemos
^
Encontramoss que zcσ = 2..58(.35) = .09. De ahí que nuestro intervallo de confianza de e 99% para p 1 - p 2 está en ntre .18 - .09 y .18 + .09, o p 1 -p2 está entre e .09 y .27. La diferenc cia es que entre 9 y 27% máss rubios utilizan n lentes de conttacto en el Instituto. Tenemos evidencia con ncluyente de que q un porcen ntaje mayor de ello os emplea lenttes de contacto o, pero no pode emos precisar la diferencia máss allá de decir q que está entre 9% y 27%. Si se desea tene er un intervalo de confianza máss estrecho con este tamaño d de la muestra, tendríamos que correr más de el 1% de riesgo de error. De la a misma manera, si deseamos esstimar la difere encia más cerccana entre el po orcentaje de ru ubios y el porcenta aje de pelirrojo os y no aumentar el riesgo de error, tendre emos que obtener muestras máss grandes.
DIFERENCIA AS ENTRE DO OS MEDIAS El interva alo de confianzza para µ1 - µ2 está dado por::
dependiendo de si n1 y n2 son o no ma ayores que 30.
EJEMPLO 12-7
Muestras gra randes. Encuén ntrese el intervvalo de confian nza de 95% pa ara la diferencia entre e el tamañ ño promedio de una venta ana, en las casas c construidas hace más de 10 años y el ta amaño promed dio de una ven ntana en las casass de construcción más recien nte, si de dos muestras m aleattorias obtuvimos la a siguiente info ormación:
Introducció ón a la estadística 228
400 venta anas en casas viejas, 2
M 1 = 15.6 6 ft , s 1 = 20.2 2 ft
2
500 venta anas en casas más recientess, 2
m2 = 19.0 0 ft , s2 = 24.8 ft SOLUCIÓN
2
Como n1 = 400 y n2 = 5 500 son más grandes que 30 0, tenemos una a distribución de e diferencias a aproximadamen nte normal y p podemos utiliz zar zc = ±1.96 y
Encontram mos que zcsdm = 1.96(1.50) = 2.9. De ahí qu ue nuestro interrvalo de confianza para µ1- µ2 estté entre -3.4 - 2.9 2 y -3.4 + 2.9 9, o µ1- µ2 está á entre -6.3 y -.5 5. Estamo os seguros en u un 95% de que el tamaño promedio de venta anas en una casa más nueva es, por lo nuevo,, entre .5 y 6.3 ft2 más grande e que el tamaño prromedio de las ventanas de la as casas que tienen más de 10 1 años.
EJEMPLO 12--8
Muestras pequeñas. De la misma man nera que se exp pusieron en el capítulo 11 las pru uebas de hipótesis para muesstras pequeñass, aquí presenttaremos un planteamiento para el e caso en el que q se supone que ambas po oblaciones son normales n y que e σ1 = σ2 son razonables. Esto E nos permittirá emplear la distribución t en nuestro análisis. Con estas supos siciones utilizamoss la versión co ombinada de sdm uposiciones no son rad . Si estas su zonables, se debe consu ultar un texto más m extenso parra ese planteam miento. a) En un estudio piloto sobre el tiemp po que requierre volar de la Tierra T a Saturn no, un muestrra de 10 piloto os humanos promedió p 8.9 velanos v con s = 1.1. Cuarentta pilotos saturninos promed diaron 7.1 velan nos con s = 1.2 2. Estímese la diferencia entre e los tiempos p promedio de esstas dos poblacciones. b) Encuéntrese el intervvalo de confian nza de 95% pa ara la estimació ón.
SOLUCIÓN
a) m 1 - m2 = 8.9 - 7.1 = 1.8. Nuestra mejor estimacción es que el tiempo promedio para los pilotoss de la Tierra ess 1.8 velanos m más que el prom medio de tiempo pa ara los pilotos saturninos.
Intervalos de confia anza 229
Ya que n1 = 10 y es menor que 30, tene emos una distrribución t con n1 + n2 – 2 = 10 +4 40-2 = 48 grad dos de libertad d. Utilizando lo os valores crítticos de t en la tab bla C-5 para el 95% medio de d los resultados, empleamo os 50 grados de libe ertad (el número más cercano a 48) y encontramos tc = ±2 2.01. Encontramos tcsdm = 2.01 (.42) = .84. Por lo tanto, nu uestro intervalo o de confianza µ1- µ2 está entre 1.8 - .84 y 1.8 + .84, o µ1- µ2 e está entre 1 y 2.6. Estamos se eguros en un 95 5% de que los pilotos humano os promedian por p lo menos 1 vela ano más que lo os pilotos satu urninos. GUÍA DE EST TUDIO VOCABULAR RIO 1. 2.
Estimacción del interva alo Intervalo o de confianza a
FÓRMULAS Distribución de d proporcione es de muestra
4. p está en ntre Distribución n de medias d de muestra
6. 7.
µ está entre e µ está entre e
Diferencias entre dos propo orciones
9. p 1 - p 2 está e entre Diferencias entre e dos med dias
(muestras grandes) (muestras peq queñas)
Introducció ón a la estadístic ca 23 0
(mue estras pequeña as) 13. µ1 - µ2 está entre dm m - zc s dmy dm + zc s dm (muesstras grandes) 14. µ1 - µ2 está entre dm m - tcsdm y dm + tcsdm (mue estras pequeña as) EJERCICIOS 12-33 Supóngase que loss datos de dos muestras m son utilizados u para calcular c un interva alo de confianzza de 95% parra la diferencia a entre las med dias de dos poblaciones. Estos mismos datos se utilizan pa ara llevar a cabo una prueba de e hipótesis al niivel de significa ancia .05 análo ogo. Si el intervvalo de confianza va de un valor negativo a un valor positivo, ¿se esperaría, en general, rech hazar o no la h hipótesis nula? ? 12-34 El doctor d Showva an pasó varios s años reuniendo la siguiente e información so obre coeficientes de inteligen ncia. hombres n m s
10 000 0 100.3 3 10.8 8
muje eres 10 000 9 99.9 11.1
Después llevó l a cabo un na prueba sob bre la diferencia a entre el coefficiente de inteligencia de hombre es de Estados Unidos U y el coefficiente de inteligencia de mujere es del mismo país. p Él calculó ó
De donde concluyó que el e coeficiente de d inteligencia p promedio de lo os hombres es má ás alto que el coeficiente c de inteligencia i pro omedio de las mujeres m con α = .0 05. El Dr. afirma que sus resu ultados son "esstadísticamente e significativos". a) Muéstrrese que el inte ervalo de conffianza de 99% para esta diferencia es .0 < dm d < .8. b) Comén ntese sobre la importancia de e una diferenccia de 8/10 de punto, p cuando mucho, m en una prueba de coe eficiente de intteligencia. c) ¿Tiene en "significancia estadística"" e "importante e" la misma connotación? 12-35 Un maestro desea a estimar en su u comunidad la a diferencia en niveles de lectura de niños que viven v con ambo os padres y niñ ños que viven sólo con uno de loss padres. Empleando dos muestras aleatorias de niños de e cuarto año, encue entra que 19 niños que viven con ambos pa adres tuvieron un u nivel de lectura promedio m1 d de 5.1, con una a desviación estándar de s1 = 1.4, y que 13 niñ ños que viven ccon sólo uno de d los padres tu uvieron una me edia de nivel de lectura m2 de 3.8 con una desviación esstándar de s2 = 2.1. Encuéntre ese un intervallo de confianza a de 99% para a la diferencia a en los niveles de e lectura.
Intervalos de confianza
231 12-36 La compañía de taxis Gypsy de Brooklyn, N.Y., continúa revisando neumáticos. Ahora quiere saber si los choferes de menos de 25 años gastan los neumáticos más que los choferes de más edad. De sus 76 taxis, 32 son manejados exclusivamente por los choferes jóvenes y los 44 restantes por los choferes de más edad. Los choferes jóvenes promedian 17 482 millas por conjunto de neumáticos, con una desviación estándar de 1 320 millas. Los choferes más viejos promedian 17 728 millas con una desviación estándar de 981 millas. Encuéntrese el intervalo de confianza de 99% para estimar la diferencia real en millas. 12-37 La revista de consumidores Gotcha está probando la duración de dos tipos de pilas para linternas. Britelite asegura que tiene más duración con uso normal, pero es más cara que las pilas normales. La revista compra, aleatoriamente, 50 pilas Britelite y 50 comunes. Las pilas Britelite tienen una vida promedio de 17.5 meses de uso normal, con una desviación estándar de 1.1 meses. Las pilas comunes tienen un promedio de vida de 14.7 meses con una desviación estándar de 1.3 meses. Encuéntrese un intervalo de confianza de 95% para la diferencia en tiempo de la vida de las pilas. 12-38 Albert Sechsauer, experto en eficiencia, asegura que un periodo de descanso adicional, después del descanso del mediodía en una fábrica, dará como resultado más producción en una línea de ensamblaje. En los 21 días laborales del mes anterior, sin el descanso adicional, la línea produjo una media de 72.3 artículos por día con una desviación estándar de 3.4 artículos. Durante los 22 días hábiles del presente mes, con el descanso adicional, la línea produjo una media de 70.6 artículos con una desviación estándar de 2.1 artículos. a) Encuéntrese un intervalo de confianza de 99% para la estimación de la diferencia real entre los dos promedios de producción. b) Sin el descanso adicional, en 21 días, la línea tuvo una media de ar tículos defectuosos de 3.1 por día, con una desviación estándar de .43 artículos. En los 22 días con descanso adicional, la línea tuvo una media de 2.4 artículos defectuosos con una desviación estándar de .53 artículos. Encuéntrese un intervalo de confianza de 99% para la estimación de la di ferencia entre el número de defectos. 12-39 Encuéntrese un intervalo de confianza de 99% para la diferencia entre el porcentaje de estudiantes judíos que se incorporaron a Hillel, y el porcentaje de estudiantes católicos que se incorporaron a Newman en la Universidad Luther, si una muestra aleatoria de 500 personas mostró que 20 de cada 80 estudiantes judíos pertenecían a Hillel mientras que 24 de cada 120 estudiantes católicos pertenecían a Newman. 12-40 Una muestra de 500 estudiantes de secundaria y 500 adultos en Reading, Pennsylvania, evidenció que 350 estudiantes y 250 adultos poseían credenciales de la biblioteca. Estímese la diferencia entre el porcentaje de cada grupo que tiene una credencial de la biblioteca y encuéntrese un intervalo de confianza de 95% para esta diferencia.
Introducción a la estadística
232 ENCUESTA DE CLASE Encuéntrese un intervalo de confianza para el porcentaje de estudiantes que son zurdos en una escuela. PROYECTOS DE CAMPO Estímese la media de una población, la diferencia entre la media de dos poblaciones, las proporciones de una población binomial o la diferencia entre las dos proporciones Encuéntrese un intervalo de confianza para su estimación. Algunos ejemplos que han sido utilizados por otros estudiantes en sus universidades incluyen estimaciones de: 1. Promedio de edad de la planta docente. 2. Diferencia entre el promedio de edad de la planta docente masculina y la planta docente femenina. 3. Promedio de la cantidad de monedas sueltas que los estudiantes traen consigo. 4. Porcentaje de estudiantes que emplean transporte público para llegar a la universidad.
Pru ueba as de ji-cu j uad drada En el capítu ulo 9 analizamos cómo pode emos comparar dos proporcio ones. Por ejemplo o: en una comu unidad podemo os comparar lass actitudes de hombres y mujeres con respeccto a la constru ucción de una p planta nuclear cerca de su ciudad. Si encontrárramos sólo una a diferencia pe equeña entre el e porcentaje de hombres y el porcentaje de mujeres que están a favor de la construcción n de la planta, diríamos d que la a diferencia no es estadísticam mente significativa. Otra manera a de expresar el e resultado se ería decir que tanto hombres co omo mujeres re esponden de manera m similar a la pregunta, o que el sexo de la persona no o tiene nada que ver con ssu actitud sob bre la construcción n de la planta. En el lenguaje e técnico de esstadística, pode emos decir que ell sexo y las opiniones sobre la construcción n de una plantta nuclear son in ndependientes.. En este capíttulo desarrollaremos esta ide ea de independen ncia estadística a.
EJEMPLO 13-1
Supóngase que tomamos una muestra aleatoria a de 200 personas en n esta comunidad y encontramos que. de 50 hom mbres y 150 mu ujeres en la mue estra, 60 estuvieron a favor de la construcción de la planta nuclear, 100 estuvvieron en contra y 40 4 no opinaron n. Podemos ressumir estos ressultados en la tabla 13-1. llamad da tabla de co ontingencia.
Introducción n a la estadísticca 234 Si el sex xo y las opinio ones sobre la construcción c d de una planta nuclear n son indepe endientes, el m mismo porcenta aje de hombres y mujeres de eberían estar a favvor (es decir, los hombres no o tienen una m mejor opinión que q las mujeres re especto a su co onstrucción). Nótese N que 60 de las 200 pe ersonas entrevistad das, o 30%, esttaban a favor de la construcción de la planta a. Por lo tanto, si el sexo y las opiniones sobre la a construcción de plantas nucleares son indepe endientes, esp peraríamos que aproximadamente el 30% de los hombres y el 30% de lass mujeres estuvvieran a favor. De la misma manera m esperaríam mos que 100/20 00, ó 50%, de los hombres y 50% de las mujeres m estuvieran en contra. Ta ambién espera aríamos que 4 40/200 ó 20% de los hombres y 20% de las m mujeres no hubieran opinado. Por lo tanto, nuestros resultados s esperados ssegún la hipótesis nula de independencia de eberían ser como lo l muestra la ttabla 13-2.
Numéricam mente, ahora ttenemos la tab bla 13-3
Por conven niencia, hemoss numerado tod das las casilla as o cajas de la a tabla de conting gencia de izquiierda a derech ha. Un méto odo más sencillo para obtene er estos resulta ados esperados s, sería multiplicar el total de la co olumna por el total t de la hilera a de cada casillla de la tabla, y divvidirlo por el ta amaño de la muestra. m Por eje emplo: en la casilla c 1 (hombres a favor), tenem mos el total de la columna = 5 50, el total de la hilera = 60 y el ta amaño de la mu uestra = 200, por p lo tanto, el resultado r esperrado es
Prruebas de ji-cua adrada 235
En la casilla a 2 (mujeres a favor) tenemo os
En la casilla a 3 (hombres e en contra) tene emos
En la casilla a 4 (mujeres en contra) tene emos
En la casilla a 5 (hombres que q no opinaro on) tenemos
En la casilla a 6 (mujeres que no opinaron) tenemos
En general para p encontrar el resultado essperado para ccualquier casilla a de la tabla, emple eamos la siguiente fórmula:
En la tabla 13-4 1 tenemos lo os resultados observados o que e se obtuvieron n de la muestra ale eatoria de 200 personas.
Examinem mos ahora la diferencia entre e los resultadoss observados y los resultados esperados e (Tab bla 13-5) Tabla a 13-5 5
casilla
categoría
obserrvado
espe erado
difere encia
O
E
O - E
1
ho ombres a favor
17 7
1 15
2
2 3 4 5 6
mujeres a favor ho ombres en contra a mujeres en contra a ho ombres que no opinaron o mujeres que no op pinaron
43 3 22 2 78 8 11 1 29 9
4 45 2 25 7 75 1 10 3 30
–2 –3 – 3 1
–1
Introducció ón a la estadístic ca 236
Estas d iferencias, 2, -2, -3, 3, 1, y -1 ¿son gran des o pequeñ ñas? Si son grand des, afirmarem mos que las op piniones sobre e la construccción de plantas nucleares están rrelacionadas co on el sexo de la a persona. Si son s pequeñas, no o podremos haccer esta afirma ación. Estamos buscando un número n que indiqu ue si estas differencias son grandes. Adviértase que ha ay dos problemass. El primero ess que la suma de estas difere encias es cero, y esta suma siem mpre será cero o. Por esta razó ón no podemos utilizar la me edia de estas difere encias. Como se s recordará, tu uvimos este pro oblema antes, cuando c se estudió ó la desviación estándar. De la misma man nera que se hizo entonces, ahora trabajarem mos con los cua adrados de las diferencias, co omo se muestra en la tabla 13-6 6. Tabla 13-6
observado
esperado
differencia
casilla
O
difer encia del cuadraado
E
0 - E
1
17
15
2
4
2 3 4 5 6
43 22 78 11 29
45 25 75 10 30
–2 -3 3 1 -1
4 9 9 1 1
(O – E) 2
El segun ndo problema e es éste: la diferrencia al cuadrado de 4, en la a casilla 1, es la misma que la dife erencia al cuad drado en la cassilla 2. Sin emba argo, el resultado esperado e en la a casilla 1 era 15, 1 mientras qu ue en la 2 era 45. 4 Una diferencia al cuadrado de e 4 es más importante cuand do se esperan 15 que cuando se e esperan 45, 4 4/15 es 27% mientras m que 4//45 es sólo 9% %. Para tomar en cuenta c el tama año relativo divvidimos cada diferencia d al cu uadrado entre la su uma del resulta ado esperado para esa casilla. La suma de e estos números es e la estadísticca X2, que es la a estimación e en nuestra mue estra de un paráme etro llamado ji--cuadrada, x2- Como siempre e, empleamos la letra 2 X para nu uestra estadística y la letra griega g ji-cuad drada X2 para nuestro n parámetro o. En símbolos,, la fórmula para esta estadísstica es
2
Ahora calc culemos X pa ara el problema a anterior. Nue estros resultado os están en la tabla a 13-7.
Pru uebas de ji-cuad drada 237 Por lo tanto o, Si los resu ultados espera ados resultan ser s iguales o m muy cercanos a los resultados ob bservados, enttonces la difere encia sería cero o o cercana a cero, c 2 así como el valor v de X sería cercano a ce ero. Este resulttado debe ocurrrir si no hay relac ción entre las variables. v 2 De otra ma anera, si X esstá muy alejada a de cero, existte una probabilidad alta de que la as variables no o sean indepen ndientes, pero h hay alguna rela ación estadística entre e ellas. En estas pruebas p ji-cuad drada de indep pendencia, nue estra hipótesis nula será que las variables son n independien ntes, es decir, H0: las opiiniones sobre lla construcción n de plantas nu ucleares y el sexo s de la persona p son independientes.. Nuestra hipó ótesis alternativva o motivada es que las varriables son dep pendientes, es decir, d Ha : las op piniones sobre la construcción de plantas nucleares n y el sexo s de la persona p no son independien ntes. Estas prue ebas de indepe endencia son siiempre de un e extremo, ya que e de2 seamos ver si nuestra esttadística X ess significativam mente más gra ande que cero. En n este problem ma tenemos que e decidir ahora a si .97, el valo or de X2, es significativamente m más grande que e cero. De la m misma manera a que hicimos en capítulos anterio ores con las diistribuciones t y normal, comp paramos un núme ero basado en la información n de nuestra muestra con un valor crítico. La tabla C-7 enume era los valores críticos de la estadística X2 para diferentes niveles de significancia y grad dos de libertad d, para prueba as de un extremo. La L distribución teórica de la cu ual se han toma ado estos valore es se llama distribución ji-cuadrrada. (De la misma manera qu ue en una situa ación anterior llamamos distribucción binominal a la distribució ón de la estadíística p.) La tabla C-7 C se llama tab bla ji-cuadrada a y problemas ccomo el de la planta nuclear se denominan d pro oblemas ji-cuad drada. Podemo os suponer qu ue es razonable utilizar estos valores críticos si el tamaño de nuestra muestra es lo bastante grande. g Esto su ucederá si cada a valor esperad do es mayor qu ue 5. Ocasionalme ente será nece esario combinar categorías pa ara obtener valores esperados que sean mayo ores que 5. Para una tabla t de 3 x 2 h hay dos gradoss de libertad. (L La manera com mo se determinan los l grados de libertad se pre esentará en la a próxima secc ción.) Llevemos ah hora a cabo una prueba ji-cua adrada al nivel de significancia de .05. En la tab bla C-7 encontra amos que el vallor crítico para 2 grados de libe ertad y α = .05, es e X c2 = 5.99. 2 Como el valor v calculado o, .97, es men nos que X c , la as diferenciass que encontramos s entre los va alores observados y los esp perados no so on lo suficientemente grandes p para rechazar la hipótesis de e independenccia al nivel de sign nificancia de .0 05. Por lo tanto o, no hemos p podido mostrarr una relación esta adística entre las opiniones sobre la consttrucción de pla antas nucleares y el e sexo de la p persona.
Introducció ón a la estadístiica 238 GRADOS S DE LIBERTA AD EN UNA TA ABLA DE CON NTINGENCIA En el ejemplo anterior dijimos que una tabla de 3 x 2 tiene 2 gra ados de libertad. Ilustremos I este concepto. En el problema previo se dijo o que de las 200 personas, 50 erran hombres y 150 mujeres; ttambién se dijo o que 60 estaban a favor de la co onstrucción de e una planta nu uclear, 100 en contra y que las 40 restantes no habían opinad do. Supongamo os ahora que tenemos sólo la ca asilla de los ressultados observvados, en la ta abla 13-4. Por ejemplo, e la casilla 1 indica que 17 hombres están a favor de la construcción n de una planta nu uclear. Con essta información podemos ca alcular el número que correspon nde a la casilla 2 para obtener el resultad do correcto, 60 0 (Tabla 13-8).
Se puede e ver claramentte que el registtro en la casilla a 2 debe ser 60 0 — 17 = 43. Sin em mbargo, las ca asillas 3 y 6 tod davía no se pue eden determin nar. Si el número de d una de esta as casillas fuerra dado, digam mos 22 personas en la casilla 3, entonces todass las casillas re estantes podría an determinarse e (Tabla 13-9).
Encontra amos ahora lass casillas resta antes de la siguiente manera a:
Casilla 2: Casilla 4:: Casilla 5: Casilla 6:
60 - 17 = 43 1 00 - 22 = 78 50 – ( 17 + 22) = 50 – 39 = 11 40 – 11 = 29
De ahí se e podrían haberr obtenido los re esultados que se s muestran en n la tabla 13-10.
Pruebas de ji-cuadrada 239
Decimos que una tabla de 3 x 2 tiene 2 grados de libertad porque se conocen 2 casillas, y todas las demás pueden determinarse si los totales se conocen. Supóngase que tenemos una tabla de 4 x 3 con los totales conocidos, como se muestra en la tabla 13-11. Tabla 13-11
totales de las hileras 1
2
3
200
4
5
6
200
7
8
9
100
10
11
12
200
totales de las columnas 400
500 1000 = tamaño de la muestra
400
¿Cuántas celdas se necesitarían conocer antes de poder determinar todas las restantes? Como se puede ver, si tomamos 6 números dejando la última hilera y la última columna en blanco, podemos determinar los números restantes (Tabla 13-12). Tabla 13-12
totales de las hileras 1 4 7
50
2
70
5
30
8
10
totales de las columnas
60
3
200
50
6
200
30
9
100
11
400
12
200
500 400
1000 = tamaño de la muestra
Por lo tanto tenemos: Casilla 3: Casilla 6: Casilla 9: Casilla 10: Casilla 11: Casilla 12:
200 - (50 +60) = 200 - (70 +50) = 100 - (30 +30) = 400 - (50 + 70 + 30) = 200 - (60 + 50 + 30) = 500 - (250 + 60) =
90 80 40 250 60 190
de tal manera que la tabla completa es como se muestra en la tabla 13-13. Tabla 13-13
totales de las hileras 1 4 7 10
totales de las columnas
50
2
70
5
30
8
250
11
400
60
3
90
200
50
6
80
200
30
9
40
100
60
12
190
500
200
400
tamaño de la 1000 = muestra
Introducción a la estadístic ca 240 Por lo ta anto, una tabla de 4 x 3 tiene 6 grados de lib bertad. En gen eral, si una tabla tiene t R hilerass y C columnass, tendrá (R — 1)(C — 1) gra dos de libertad. P or ejemplo:
Y escribim mos Grados d e libertad = (R ( - 1)(C - 1)
UNA MAN NERA MÁS CO ORTA DE CAL LCULAR X
2
El análisiss anterior sobrre cómo calcular X2 nos llevó ó a la fórmula
Como hem mos visto ante eriormente, los s matemáticoss encuentran con c frecuencia un na fórmula equ uivalente que es más fácil de emplear. Una fórmula más conve eniente para X2 es
2
Podemos ilustrar esta fó órmula repitiend do el cálculo de X del ejempllo 13-1. Nuestra in nformación aparece en la tabla a 13-14. Nótese e que ΣO es el tamaño t de la mue estra n.
Por lo tantto,
Nótese qu ue éste es el mismo valor que calculamos co on la fórmula an nterior.
Pru uebas de ji-cuad drada 241
EJEMPLO 13-2
Una muestra a de una unive ersidad respeccto a los lugare es donde los estudiantes vivían, proporcionó ó los siguientess resultados (T Tabla 13-15).
Para determiinar si existe una relación enttre el área de estudio e y el lugar de residencia, pruébese p la hipótesis nula: el lugar de rresidencia es independiente de el área de estu udio. Utilícese el e nivel de sign nificancia de .0 01. SOLUCIÓN
Ha: la residen ncia y el área de estudio son n dependiente es H0: la residen ncia y el área d de estudio son n independienttes Grados de libertad = (4 - 1)(3 - 1) = 6 Como son 6 grados de libertad, debemo os emplear nu uestra fórmula para calcular cuando menos 6 de e los resultados esperados E, y los demás pueden ser encontrados por medio o de una resta.
NOTA: Si se e utiliza calculadora, es proba able que sea más fácil enconttrar el resto de los valores esperrados emplean ndo la fórmula. Los resulta ados esperado os pueden tabularse ahora com mo se muestra a en la tabla 13-16.
Introducción n a la estadístic ca 242
Podemos encontrar el re esto de la tabla a restando: Casilla 3: 3 Casilla 6: 6 Casilla 9: 9 Casilla 10 0: Casilla 11 1: Casilla 12 2:
E= E= E= E= E= E=
50 – (13 + 15.75 ) = 21.25 30 – (7.8 + 9.45) + 12.75 75 – (19.5 + 23.62 25) = 31.875 52 – (13 + 7.8 + 19.5) 1 = 11.7 63 – (15.75 + 9.4 45 + 23.625) = 14.175 45 – (11.7 + 14.17 7,5). = 19.125 5
Se puede corroborar esta información añadiendo lass casillas en la última columna bajo b el rubro "o otros" para verrificar que se o obtiene el tota al de la columna, 85. 8 Esta colum mna sirve como o punto de com mparación ya que q no se empleó en las operacciones. Véase la tabla 13-17 7.
Nótese que e todos los valo ores esperados s son mayores que 5. Por lo ta anto, la muestra ess lo suficientem mente grande para p utilizar los valores críticos s de la tabla C-7.
Pruebas de ji-cuad drada
243 Como el ta amaño de la m muestra es 200 0, Σ0 = 200. P Por lo tanto,
= 253.75 5 - 200 = 53.7 75 Como tenemo os 6 grados de e libertad y esta amos utilizando o .01 como nive el de significancia, nuestro n valor crrítico XC2 de la ta abla C-7 es 16.8 81, y como nue estro 2 valor de X qu ue obtuvimos en e el experime ento (53.75) ess mayor que 16 6.81, rechazamos la hipótesis nu ula de indepen ndencia y afirm mamos que ex xiste una relación entre e el área de estudio y el lugar de reside encia. Conclusión. Obsérvese O la última columna en la tabla 13--17 y se podrá á ver que dos de su us registros son n bastante grand des y que por lo o tanto contribu uyen más a nuestrro resultado. E El número 69.2 23 en la casilla a 1 indica que una proporción ex xcepcionalmen nte alta de estu udiantes de ad dministración viven v con sus padre es. El número 58.01 en la ca asilla 9 indica que una proporrción excepcionalm mente alta de esstudiantes de Bellas B artes viv ven en "otros" tipos t de situaciones. Podemos ve er que el área de estudio y la a forma de viviir no son independ dientes. Estas dos categoría as nos dan u una idea sobre e la naturaleza de e la dependenccia. TABLAS DE CONTINGENCIA DE 2 x 2 Un análisis ji-cuadrada de 2 x 2 también puede p llevarse a cabo como una prueba de hip pótesis binomial de igualdad d de dos propo orciones para dos muestras (veá áse el Cap. 9). De hecho ex xiste una equivalencia algebra aica 2 exacta entre los l dos tipos de análisis. El valor v de X en la prueba de 2 x 2 es igual al cu uadrado del va alor de z que se obtiene en la prueba dp de d la fórmula.
2
Se puede adv vertir que los vvalores críticos s de X para 1 grado de libe ertad son los cuadra ados de los va alores críticos de d z. Por ejemp plo: en una pru ueba de dos extrem mos con α = .05 5, zc = 1.96, mientras m que Xc2 para una prueba de 2 x 2 con α = .05 es 3..84 y 1.96 2 = 3.84. La prueba jii-cuadrada de 2 x 2 es una de e las más utiliza adas en estadís stica aplicada. Esto o se debe a que e en muchos ex xperimentos la p pregunta básica a se elabora dividie endo las variab bles en sólo 2 categorías c com mo "éxito, fracaso", "masculino, fe emenino", "jove en, viejo". A co ontinuación ten nemos un ejem mplo típico.
EJEMPLO 13-3
Se están com mparando dos m medicinas con respecto a sus s efectos secun ndarios; 60 pacie entes similares se dividen aleatoriamente en n dos grupos, cada c uno de los cu uales toma una medicina. Lo os resultados sse presentan en e la tabla 13-18.
Introducción n a la estadística a 244
En una prueba binom mial de dos mu uestras probaríamos la hipóttesis de que la pro obabilidad de lo os efectos seccundarios con la medicina A es e igual que con la a medicina B. E En una prueba ji-cuadrada j pro obaríamos la hipótesis equivalen nte de que el tipo de mediccina y los efecctos secundarios son independiientes, es decir, la medicina que tome el pa aciente no difie ere respecto a la a posibilidad de e efectos secu undarios. SOLUCIÓN
Ho: El tipo o de drogas y los efectos seccundarios son independiente es. Ha: El tipo o de drogas y los efectos sec cundarios son dependientess. La tabla 13-19 1 presenta a los valores es sperados.
Cálculo de eX
2
Con a = .05 . y un grado o de libertad, Xc2 = 3.84. Regla de decisión. Re echazar la hipótesis nula si X2 > 3.84. 2
Resultado X = 2.22
Prue ebas de ji-cuadrrada 245 Conclusión. No se puede rechazar la hiipótesis nula. No tenemos sufis ciente eviden ncia para demo ostrar que el tipo de medicin na y la posibiliidad de efectos se ecundarios son n dependientess; tal vez sean independiente es. CÁLCULO SIMPLIFICADO S O EN EL CASO O DE 2 x 2 Se puede mo ostrar algebraiccamente que el e valor de X2 e en el caso de 2 x 2 puede calcularse directame ente con los valores v observvados, sin calc cular primero los va alores esperad dos. A continuación se presen nta una muestra a de una tabla 2 x 2 de valores observados y la fórmula sim mplificada.
Esto se pued de ilustrar con la información que q acabamoss de utilizar (Ta abla 13-20).
Éste es el mismo valor que e se obtuvo an nteriormente. FACTOR DE E CORRECCIÓ ÓN Algunos esta adísticos dicen n que se debe utilizar el denominado facto or de corrección de e Yates en un problema ji-cu uadrada de 2 x 2. El empleo o del 2 factor de corrrección hace el valor de X más m pequeño. E El propósito de esto es asegurar que q la probabillidad de un erro or de tipo 1 no sea más de lo que se desea. Si se desea utilizzar el factor de e corrección pa ara estar seguro o, la fórmula simp plificada es:
donde | ad – bc | es el valo or absoluto de ad – bc.
Introducciión a la estadísttica 246 TABLAS S DE CONTING GENCIA CON SÓLO UNA HILERA Hasta ah hora todos los ejemplos han tenido tablas con dos hilera as por lo menos. Se S pueden llevvar a cabo prue ebas j¡-cuadrada con informa ación en tablas de e contingencia de d sólo una hilera (o de sólo una columna).. Los valores esp perados en el e experimento se e obtendrán de e la hipótesis nula, n y la fórmula para p los grado os de libertad será s más senccilla. Nuestrros ejemplos se erán las prueba as más simpless, llamadas pru uebas de bondad del ajuste. Esstas pruebas se e emplean parra determinar si s las observacion nes de una mu uestra se ajusta an debidamentte a las catego orías, de acuerdo con un modelo o ideal. Cuando o se ajustan co omo se esperab ba, decimos que la información n se ajusta al modelo. m La esta adística ji-cuadrrada nos ayuda a decidir si el ajjuste de la info ormación con el modelo es bueno. b
EJEMPL LO 13 3-4
SOLUCIÓ ÓN
Una ruletta de feria está á dividida en 5 áreas iguales pintadas de ro ojo, azul, rojo, blan nco y azul. La ru uleta gira 50 ve eces y los resultados son: 25 rojos, r 18 azules, y 7 blancos. ¿Podría decirrse que la rulleta está "arre eglada", considerando un nivel de significanc cia de .05?
Ho: la ruleta no está "a arreglada" Ha : la rulleta está "arre eglada" Se obttienen siempre e los valores esperados para a la hipótesis nula. n Sin embargo o, el método uttilizado cuando o teníamos má ás de una hilerra y más de una columna c no se puede emplea ar cuando tene emos sólo una hilera o una columna. En este ejemplo, como o la hipótesis nula n dice que la rueda no está "arreglada", esperamos que e el rojo = 2/5 (50) = 20, azzul = 2/5 (50) = 2 0, y blanco = 1/5 (50) = 10 0.
Ahora po odemos comb inar estos resultados en una a tabla más co ompleta 2 (Tabla 13 3-21) y enconttrar X .
Pruebas de ji-cuad drada 247
GRADOS DE E LIBERTAD PARA P UNA TABLA DE CONT TINGENCIA CON UNA HILERA H Si deseamoss encontrar loss 3 números en una tabla de e contingencia de 3 x 1 para que su total sea 50 0, es obvio que e podemos eleg gir arbitrariamen nte 2 de ellos. Po or lo tanto, en n nuestro prob blema de la ru ueda de la forrtuna tenemos 2 grados g de liberrtad. Nota. Para a los problemass más simples donde la inform mación se pres senta en una tabla a de contingen ncia de C x 1, la información n se debe ana alizar utilizando un na prueba ji-cuadrada con C– –1 grados de llibertad. Hemo os incluido deliberadamente sólo o este tipo de problemas en el e texto. Proble emas más complejos, donde cierttos parámetros s tienen que ser estimados a partir p de la informa ación dada anttes de calcularr la estadística ji-cuadrada, tie enen menos grado os de libertad d. Consúltese un texto más avanzado para el análisis de este e tema. Para el problema de la rruleta tenemos s, Grados de l ibertad = 3 – 1 = 2 Con α = .05 5,
X2 = 5.99 Regla de decisión
2
Rechá ácese la hipóte esis nula si X es mayor de 5.99. 5
2
Resultado X = 2.35 Conclusión. No se puede rechazar la hipótesis nula. La ruleta quizzá no esté "arreglada".
INSTRUCCIONES PARA U UNA PRUEBA A JI-CUADRAD DA 1. Cada ob bservación en n nuestra muestra debe corresp ponder a una y sólo una casiilla de la tabla. 2. El tamañ ño de la muesttra debe ser su uficientemente grande para que el valor esp perado de cad da casilla de la a tabla sea ma yor que 5. 2 3. Se calcu ula X . 2 4. El resultado experimen ntal deX , com mo se calculó a anteriormente, debe ser comparado con el valor crítico de d Xc2 en la tab bla C-7. El valo or de Xc2 que se elija depende del nivel de e significancia y los grados de libertad.
Introducción n a la estadística a 248 5. Si el ressultado exper imental de X2 es mayor que e el valor críticco de Xc2, entoncces rechazamo os la hipótesis nula. n GUÍA DE ESTUDIO E VOCABUL LARIO 1. Tabla de d contingenci a 2. Resultado esperado 3. Casilla a 4. Resultado o observado 5. Ji-cuad drada 6. Independencia de varia ables 7. Distribu ución ji-cuadra ada 8 Bondad d del ajuste 9. Relació ón estadística entre e variables SÍMBOLOS
1.0
2. E
3.. x2,X2
4. 4 R
5. C
FÓRMULA AS
4. 5.
Grado os de libertad = (R–1)(C – 1), si R ≠ 1 Grado os de libertad = C – 1, si R = 1
EJERCICIOS 13-1 a) Un na amiga está á planeando un n proyecto de campo de ji-cu uadrada sobre las actitudes a de las personas haccia la construcción de una nu ueva carretera estatal. Ella mue estra esta tabla de contingen ncia que va a utilizar. ¿Qué erro ores ha cometid do? a favor
en contra
indeciiso
totales de e las hileras
menos de e 30 años
150
más de 30 años
150
totales de las columnas 10 00
100
100 0
n - 300
b) Despué és de corregir ssu error (gracia as a la ayuda), sus resultadoss fueron los siguien ntes. a fa avor
en contra
indecisso
menos de 30 años
10 00
40
10
totales de e las hileras 15 50
más de 30 años
50
60
40
15 50
totales de las columnas 150 0
100
50
n = 30 0
Pruebas de ji-cuadrada
249
2
Con esta información ella calculó X = 38.67. Elabórese la hipótesis nula y las conclusiones. Utilícese α = .05. c) Otro amigo llevó a cabo un proyecto similar. Su información fue: a favor
en contra
indeciso
15
13
2
30
9
9
2
20
totales de las columnas 24
22
4
n = 50
menos de 30 años más de 30 años
totales de las hileras
Muéstrese que no todas las E son mayores que 5. ¿Qué puede hacer este amigo para completar el análisis ji-cuadrada? 13-2 Para cada una de las tablas de contingencias siguientes encuéntrense los grados de libertad y el valor crítico apropiado de X2 con los niveles de significancia indicados.
a) 8 x 2, α = .05 b)
7 x 1, α = .01
c) 3 x 4, α = .05 d) 5 x 5, α = .01 13-3 Los estudiantes en los cursos de Composición de la Universidad Uptudate, tienen la opción de utilizar el procesador de palabras para sus tareas, si así lo desean. La tabla de contingencia siguiente muestra sus calificaciones del último semestre. calificaciones
utilizaron ocasionalmente el procesador
no utilizaron nunca el procesador
A o B
38
20
2
C o D
20
18
22
3
21
36
F
a) b) c) d) e) f) g)
Utilizaron siempre el procesador de palabras
Elabórese las hipótesis nula y alternativa. Encuéntrense los grados de libertad Encuéntrese el valor crítico de X2, empleando α = .05. Encuéntrense los resultados esperados 2 Encuéntrese X . Elabórese una conclusión. ¿Es esto una prueba de que el empleo del procesador de palabras mejora las calificaciones? 13-4 La taberna Maid of White Wheat en Agoura, California, está ofreciendo a un precio especial media docena de bebidas de ron. El cantinero quiere ver si existe alguna relación entre la vestimenta de los clientes y la bebida que ordenan. Para esto obtuvo la siguiente información y se la dio a un amigo que es estudiante de estadística para que la analizara. Empleando un nivel de significancia de .05, ¿qué debería concluir su amigo?
Introducción a la estadística 250
bebida ordenada
playera, pantalón corto, de mezclilla, etc.
camisas sport, faldas, pantalón de vestir, etc.
daiquirí de fresa
10
21
pina colada
10
12
fresa colada
9
15
Mai-Tai
14
11
Chi-Chi
7
20
25
6
té helado Long Island
13-5 Eddy Torres ha notado que varios autores prefieren símbolos diferentes para sus pies de página y para sus referencias. Tratando de ver si existe alguna relación entre el tipo de manuscrito y los símbolos utilizados, † obtiene la siguiente información sobre tres de los símbolos más populares que han sido empleados: el asterisco, el símbolo de números y la espada. tipo de manuscrito
*
Símbolo utilizado
#
†
Historia
74
42
51
Educación física
73
29
93
Ciencias sociales
102
68
78
41
111
28
Computación
Llévese a cabo una prueba de hipótesis ji-cuadrada para estos datos, para una probabilidad de 5% de un error de tipo I. 13-6 A una muestra de franciscanos se les preguntó sobre sus hábitos respecto a los cigarrillos. Utilizando la siguiente información dígase si el sexo de la persona y el hábito de fumar son independientes en esta comunidad. Empléese α = .05. sacerdotes y hermanos que fuman sacerdotes y hermanos que no fuman monjas que fuman monjas que no fuman
100 250 50 100
13-7 Debido al gran número de solicitudes de admisión en una universidad privada, el director de admisiones tiene que elaborar nuevos requisitos de admisión. Una sugerencia fue la de rechazar a todos aquellos que obtuvieran menos de 600 puntos en su examen de admisión. Sin embargo, el director cree que no existe ninguna diferencia significativa en las probabilidades de graduación de los alumnos que obtuvieron menos de 600 puntos y los que obtuvieron más de 600 en el pasado. Para determinar quién tenía razón, tomó una muestra aleatoria de los expedientes de estudiantes que ingresaron a la universidad hace 5 años. †
Excluyendo numerales.
___________ ___________ ___________ ____________ _______ Pru uebas de ji-cuad drada 251
on se se retiraron titularo volluntariamente
reprobaron
totales de lass hileras
obtuvieron 600 0 o más
48
7
5
60
obtuvieron menos de 600
76
13 3
11
100
124
20 0
16
totales de las columnas c
¿Esta informa ación proporciona la suficiente e evidencia para establecer que q 600 es un bue en punto de de emarcación parra la admisión a la universida ad? Empléese α = .05. 13-8 En un dis strito del congreso de Los Angeles, una mue estra aleatoria de votantes fue interrogada sobre su votació ón con respectto a los tres ca andidatos. Los resultados fuerron los siguienttes. candidatos
blancos
negros
totales de las hileras
C. Chavez
2
4
Méxxico-estadounid ens ses 19
R. Brown
3
28
4
35
R. Milhaus
25
13
2
40
totales de las
columnas 30
45
25
25
100 =
tamaño de la mue estra
¿La información presentada a proporciona suficiente s evide encia para afirm mar que la manera a de votar depende del orige en étnico del vo otante? Pruébe ese con el .01 de nivel de signifficancia. 13-9 Un profes sor de Matemá áticas, el maesttro Cirkel, querría saber si exisstía alguna relació ón entre las callificaciones de Cálculo I y lass posibilidades de aprobar Cálcu ulo 2. Se tomó una muestra aleatoria a de loss estudiantes que q terminaron Cá álculo 2 y se o obtuvieron los resultados siguientes. calificación en Cálculo I
aprob bó Cálcu ulo 2
reprob bó Cálcullo 2
totales d de las hileras
A
14
1
15
B
18
4
22
C
26
12 2
38
D
5
15 5
20
63
32 2
totales de las columnas c
95 =
tamaño de la muestra
¿Qué se pue ede decir acerrca de la relacción entre las calificaciones de Cálculo 1 y ap probar Cálculo o 2? Empléese e α = .05. 13-10 Un psic cólogo estaba estudiando e loss patrones de e egoísmo en varios grupos familia ares y, como pa arte de su estu udio, estableció ó una prueba diseñada para me edir el egoísmo o a una muestrra aleatoria de e 600 mujeres que q habían dicho que no iban a tener más hijos. Estos son los resultadoss.
Introducción a la estadística 252
Puntuación de las mujeres en el examen sobre Egoísmo número de niños
bajo
medio
alto
0
30
40
50
120
1
40
50
60
150
2
60
50
40
150
3
50
30
20
100
más que 3
40
30
10
80
totales de las hileras
600
totales de las columnas
Si se utiliza α = .05, ¿nos indica esto una relación entre la puntuación en el examen de egoísmo y el número de niños? 13-11 En las carreras de caballos en el hipódromo Upsand Downs, ¿son independientes el orden de los ganadores y su posición respecto al poste al principio de la carrera? Empléese α = .01. Los resultados de 100 carreras fueron los siguientes: posición respecto al poste primero
segundo
tercero
1
30
19
11
2 3 4 5 6 7 8
16 20 8 9 6 6 5
12 18 17 9 12 6 7
16 16 11 16 9 16 5
13-12 El maestro Jacob J. Kubb llevó a 32 jóvenes a una excursión de estudio. De los 32 jóvenes, 16 tenían hermanos mayores y 16 no. El maestro notó que de los primeros 16 que hicieron preguntas, 10 tenían hermanos o hermanas mayores. Empleando un nivel de significancia de .05, ¿debe tomar esto el maestro Kubb como evidencia de que existe una relación entre tener hermanos mayores y hacer preguntas? 13-13 La Srita. Edwards y el Sr. Kelvin son profesores en un jardín de niños. Cada uno tiene 20 estudiantes. Su manera de enseñar a los niños a vestirse por sí mismo a la hora de partida es muy diferente. Han observado que cuando la mitad de los niños están listos para salir, 11 son de la clase de la Srita. Edwards. ¿Indica esta evidencia alguna diferencia entre los dos métodos con α = .05? 13-14 Tom llevó a cabo el siguiente proyecto de campo: caminó directamente hacia cualquier persona que se le cruzara en el campus y anotó el sexo de la persona y la dirección que tomaron cuando lo tuvieron enfrente, a la derecha o a su izquierda. (Ignoró dos choques, una pelea, y el sexo de una persona, ya que no lo pudo determinar inmediatamente). Sus datos fueron los siguientes:
Pru uebas de ji-cuad drada 253
a) Emplea ando α = .05, te ermínese el pro oyecto de Tom m sin utilizar el factor f de correcció ón para las tab blas de contingencia de 2 x 2. b) Tim, que es muy ab úlico para obtener sus prop pios datos, cop pió la información de Tom. Para hacer que su proyecto pareciera diferente e, Tim usó el factorr de corrección n. Termínese el e proyecto de Tim. c) Cuando Chet se dio ccuenta de lo qu ue Tom y Tim estaban hacie endo, él resolvió el problema com mo un problem ma binominal de e dos muestras s. Tomó como su hipótesis nula que el mismo porcentaje de hombres y mujjeres giraría a la izquierda. i Term mínese el proyyecto de Chet.. d) Compárrense los resultados en el pro oblema Tom-T Tim-Chet. 13-15 En el ejercicio 9-21 elaboramos dos d preguntas para los siguie entes datos:
Ahora elaboramos una terccera pregunta: ¿Son indepen ndientes los he echos de tener nietos y el ser vissitado regularm mente? Con aú ún igual α .01 como c en el capítu ulo 9, encontra amos que X2 = .79 y que Xc2 para un grad do de libertad, es igual a 6.635.. Como .79 ess menor que 6 6.635, no pode emos rechazar la hipótesis. ^ ^ a) En el eje ercicio 9-21 a) e encontramos qu ue µ = 0, σ = .107, y dp = .09 952. ^ Muéstrese que q el valor z para dp = .0952 es .89. ^ ^ b) En el eje ercicio 9-21 b)) encontramoss que n = 0, σ = .0935, y dp p= ^ .0833. Encu uéntrese el valor z para dp = .0833. 2 c) Anteriorm mente encontrramos X = .79 9. Encuéntrese e X = √.79. 2 d) Xc = 6.6 35 Encuentre X c . e) Compáre ese sus respue estas en las parrtes c) y d) con z y zc en a) y b). f) ¿Qué se e puede concluiir sobre las tres s preguntas que e elaboramos para p estos datos? ? 13-16 En cie erto tipo de jue ego, una moned da es lanzada 2 veces. Maryy está lanzando la moneda y John n empieza a so ospechar los re esultados. Para a asegurarse, dec cide hacer una a prueba ji-cua adrada de 3 x 1. 1 Emplea erró óneamente los sig guientes valore es esperados pa ara los 120 jueg gos subsecuen ntes.
¿Cuáles son los valores esperados e corrrectos?
Introducción n a la estadística a 254 13-17 El Dr. D Noit Ahí teo orizó que 20% de los estudiantes beben vodka, v 10% bebe ginebra, 40% bebe cerveza y el resto se abstiene a de beb ber alcohol. En una u fiesta recie ente, se obserrvó lo siguiente e. vodka
ginebra
cerveza
20
10
40
se abstu uvieron 10
¿Se debe rechazar r la teo oría del Dr. em mpleando α = .05? 13-18 En n el ejemplo 5-2 2 dijimos que Marty M hizo girarr una ruleta 4 veces. v Marty repitió este juego 8 810 veces y ob bservó los resu ultados siguien ntes: número de ve eces que ganó en 4 giros 4 3 2 1 0
número de e veces que ocurrrió
10
100 0
200
300
200
número de e veces esperado
a) Complé étese la tabla a anterior b) Emplea ando α = .01, ¿Se debe sup poner que la ru uleta está "arre eglada"? 13-19 En familias f con 2 niños, ¿es la distribución de e niños y niña as una distribución n binomial alea atoria con igua al número de niños y niñas? ? Una muestra ale eatoria de 1 00 00 familias mosstró que 100 ten nían 2 niños. 600 6 tenían un niñ ño y una niña y 300 tenían 2 niñas. Emplé éese α = .05. 13-20 Utilizzando α = .01, ¿son legales dos d dados del M Monopolio si en e las últimas 360 0 tiradas se obttuvieron los resultados siguie entes?
número de veces que ocurrió el tottal
4
16
24
46
55 5
70
57
4 43
25
15
5
13-21 Si un na especie de insecto en partticular se distrib buye aleatoriam mente en una área a arbolada, po odemos emplea ar la teoría de la probabilidad d para predecir cu uántos insecto os deben enccontrarse bajo piedras que sean levantadas al azar en el área. Para 100 0 piedras, las predicciones fueron f las siguienttes:
frecuencia a esperada
38
35
17
6
3
1
Un estudian nte de ecología a fue al área me encionada para a contar los inssectos bajo 100 piiedras y encon ntró lo siguientte:
Prue ebas de ji-cuadrrada 255
conteo real
33
3
15
33
15
1
Interprétense estos resultad dos empleando o una prueba ji-cuadrada. 13-22 En 197 75, el Comité del Bicentenario o llevó a cabo una encuesta con miles de emplleados federale es. Sin ser iden ntificados como o tales, se les dio d a leer a estos em mpleados gube ernamentales un fragmento de e la Declaración n de Independencia y después se les hiciero on las siguienttes preguntas: 1) ¿Firmaría uste ed esa declaracción?; 2) ¿Reconoce usted essta cita? Los da atos obtenidos fue eron los siguien ntes. empleado os del Pentág gono
emp pleados del Congreso
otros
firmarían
41
94
30
no firmarían
159 9
106
55
reconoccieron la cita
no rec conocieron la cita a
firmarían
12 21
615
no firmarían
13 30
1 1434
Analícense lo os dos conjunto os de datos con pruebas de ji-cuadrada con n α = .01 e inte erprétense suss resultados. 13-23 Sue tom mó una muestra aleatoria de e estudiantes y ex-alumnos de d la Universidad Lax L y les preguntó si posarían n desnudos parra las páginas cenc trales de una a revista. De 10 00 estudiantess actuales, 30 dijeron que lo harían, mientras s que de 200 e ex-alumnos sólo 40 aceptan posar desnudo os. a) Encuéntrese el intervalo o de confianza de 95% para la diferencia en ntre la proporción de estudiantess que posarían desnudos y la proporción de exalumnos que lo harían. b) Llévese a cabo una pru ueba de hipótessis ji-cuadrada a con esta inforrmación y a = .0 05. c) Llévese a cabo una prueba de hipótes sis ji-cuadrada con esta inform mación y α = .0 05. 13-24 El pequeño Joe creó ó una tabla de números alea atorios tirando dos dados y contando el númerro de veces qu ue cada número salía. Dejó que un resultado de 10 correspo ondiera a 0, y uno del 11 corrrespondiera a 1 y desechó todo os los resultad dos 12. Los res sultados fueron n: 4, 6, 7, 11, 8, 9, 10, 5, 8, 7 7, 7, 4, 6, 9, 4,, 12, 7,... dándole los dígitos d aleatorios 4, 6, 7, 1, 8, 9, 0, 5, 8, 7, 7 7, 4, 6, 9, 4, 7,... Continuó hacciendo esto ha asta que completó 100 resulta ados. Contand do el número de veces v que cada a dígito salió, encontró e lo sig guiente.
Introducción a la estadística 256
número de veces que salió
0
1
2
3
dígito 4 5
10
8
4
7
9
11
6
7
8
9
13
16
12
10
Pruébese la hipótesis de que todos los dígitos tienen la misma probabilidad de aparecer. Úsese α = .05. b) En la parte a) la teoría de la probabilidad aplicada al lanzamiento aleatorio de dados nos conduce a los siguientes valores esperados.
número de veces que salió
0
1
2
3
8.6
5.7
2.6
5.7
dígito
4
8.6
5
6
11.4
14.3
7
8
17.1 14.3
9 11.4
Pruébese esta teoría con .01 de nivel de significancia. 13-25 a) Un artículo periodístico indicó el número total de homicidios cometidos cada mes en la ciudad de Nueva York, en un periodo de 10 años. Utilícense estos datos para probar la hipótesis de que los homicidios son igualmente probables todos los meses. Empléese α = .01. número de homicidios
mes
número de homicidios
enero
834
julio
1024
febrero marzo abril mayo junio
744 789 829 867 823
agosto septiembre octubre noviembre diciembre
985 875 973 869 1042
mes
b) Pruébese la hipótesis de que, en un año, el porcentaje de asesinatos que ocurren en diciembre es mayor que el porcentaje de los que ocurren en julio. c) ¿Cierto o falso? Para este periodo de tiempo, el número promedio de asesinatos por día en febrero es mayor que el número promedio por día en marzo. (Supóngase que hay 3 años bisiestos en este periodo de 10 años). 13-26 Cada una de las personas de un grupo de 50, lanzó al aire un centavo 7 veces. a) Empleando el triángulo de Pascal y suponiendo que la moneda es legal, calcúlese qué porcentaje del grupo debe obtener 0 caras, 1 cara, 2 caras, ... 7 caras. b) ¿Aproximadamente cuántas personas deben estar en cada una de estas categorías? c) Los resultados observados en un grupo se muestran abajo. ¿Es ésta suficiente evidencia, con .05 de nivel de significancia, de que la moneda no es legal? (Puede ser que se tenga que combinar algunas categorías si todos los valores esperados no son más de 5).
Pruebas de ji-cuadrada 257 número de caras
número de personas
0
0
1 2 3 4
0 3 7 12 13 11 4
5 6 7
n = 50
13-27 En el capítulo 11 frecuentemente simplificamos, suponiendo que la población era normal. Este ejercicio muestra cómo podemos emplear una ji-cuadrada para efectuar una prueba de bondad de ajuste para normalidad. Un ingeniero de control de calidad de una empresa de ingeniería que construye motores de cohetes, prueba una muestra de 250 interruptores de relevador, que fue tomada de una línea de producción. Supuestamente, operan con una velocidad media de 50 microsegundos con una desviación estándar de 10 microsegundos. a) Si la población es normal con una media de 50 y una desviación de 10, y n = 260; ¿cuántos valores se esperaría que quedaran en cada una de las siguientes categorías? 1) Menos de 30 (z < -2). 2) E n t r e 3 0 y 4 0 ( - 2 < z < - 1 ) . 3) Entre 40 y 50 (-1 < z < 0). 4) Entre 50 y 60 (0 < z < 1). 5) Entre 60 y 70 (1 < z < 2).
6) Más de 70 (2 < z). b) Los datos para la muestra de las velocidades de los relevadores fue ron los siguientes: velocidad en microsegundos
número de interruptores de relevador
menos de 30
15
30 a 40 40 a 50 50 a 60 60 a 70 más de 70
30 85 80 40 10
Utilícense los datos esperados que se encontraron en la parte a) para llevar a cabo una prueba ji-cuadrada de 6 x 1, con α = .05. ¿Es razonable suponer que estas velocidades son de una población normal? 13-28 En la reunión anual de la Asociación de Taberneros de Bayonne, se le pidió a un grupo de 1 000 camareros que sirvieran un trago de whiskey (1.5 onzas) sin medirlo. Los resultados fueron agrupados de la siguiente manera:
Introducció ón a la estadística 258
a) La disstribución de to odas las estimaciones de los ccamareros que sirvieron un trag go de whiskey se afirma que fue una distribución normal con c µ= 1.6 onzass y σ = .3 onzas. Suponiend do que esta affirmación sea cierta; ¿cuántos de los 1 000 ccamareros se esperaría e tenerr en cada celda a de la tabla de contingencia c qu ue se mostró antes? a b) Llévesse a cabo una prueba ji-cuad drada para la b bondad de ajusste de esta afirm mación. Emplée ese α = .05. 13-29 En un estudio mé édico sobre el dolor crónico,, se dieron dife erentes tipos de pa astillas a 3 gru upos de pacientes. En el grup po 1, las pastilla as eran sólo azúca ar; los paciente es del grupo 2 recibieron aspirina; los pacien ntes del grupo 3 re ecibieron una m medicina experrimental. Ni loss pacientes ni los doctores sabía an qué pacientte había recibid do uno de los ttres tipos de pastillas, hasta que finalizó el expe erimento. Este tipo de experim mento se llama a de los dos ciegoss. Llévese a ca abo una prueba a ji-cuadrada co on α = .05. e in nterprétense los resultados. r tuvo o alivio
no tuvo t alivio
totales de las hileras
azúcar
70
30
100
aspirina
80
20
100
medicina a experime ental
85
15
100
totales de e las columnas s
235
65
13-30 La Sociedad S Duod décima de Esta ados Unidos lle evó a cabo una prueba con una muestra m de 300 0 estadouniden nses sobre suss creencias ace erca de medidas y maneras de contar. El exp perimento se re ealizó de la siiguiente manera: primero se les dio a las persona as una breve exxplicación para aclarar tres ideas. 1. La razó ón para la que medimos muchas cosas en fforma natural en e grupos de doce (pulgada as, docenas, gruesas, g mesess, horas, onzass en la libra tro oy empleada por los farmacé éuticos, etc.) pe ero contamos con c 10 símbolo os (2, 3, 4, 5, 6, 6 7, 8, 9). 2. ¿Cómo o podríamos ca ambiar nuestro o sistema de medidas m a un sistema artificia al basado en 1 0, similar al sistema métrico decimal que se s emplea en n varias partess del mundo? 3. ¿Cómo o podríamos ap prender a conta ar con docenass utilizando docce símbolos (0,1,2,3,4,5,6,7 7,8,9,*,#) y así conservar las medidas naturrales? Después de d la explicación, se les pidió que q escogieran una de las tress respuestas q ue se aproxim mara más a su forma de penssar: A. El sistema de pesas y medidas duod decimal es máss fácil y, por lo tanto, algún día será adoptado o en todo el mu undo.
Pruebas de ji-cuadrada 259
B. El sistema de pesas y medidas duodecimal es más fácil, pero nunca será adoptado por muchas personas. C. El sistema de pesas y medidas duodecimal no es más fácil. Las respuestas fueron organizadas en la tabla de contingencia siguiente. profesión
elección A
elección B elección C
indeciso
incluye el empleo de medidas y aritmética
45
35
10
10
incluye el empleo de aritmética, pero no medidas
35
35
20
10
30
30
30
10
no incluye el empleo de medidas o aritmética
Llévese a cabo una prueba de hipótesis con α = .05. 13-31 Repítanse algunos de los ejercicios del capítulo 9 utilizando los métodos de este capítulo. ENCUESTA DE CLASE 1. Se ha advertido en muchas poblaciones que el sexo de la persona y el hábito de fumar no son independientes. Realícese una prueba para ver si esto es cierto. 2. ¿Son el color de ojos y el color de cabello independientes en la escuela del lector? LLévese a cabo una prueba de hipótesis ji-cuadrada empleando los datos de la propia muestra. PROYECTOS DE CAMPO Prepárese y realícese una prueba ji-cuadrada de propia elección. Algunos proyectos que ciertos estudiantes han llevado a cabo en sus escuelas incluyen la investigación sobre la relación entre: 1. El sexo del estudiante y su área de estudio. 2. El tamaño de la clase y el número de estudiantes que se retiran del curso. 3. Las calificaciones de los estudiantes y la distancia a la que se sienten con respecto al maestro. 4. El nivel del profesorado y el tiempo que dedican a sus estudiantes. 5. La religión y la participación en clubes religiosos. EXAMEN DE PRÁCTICA PARA LOS CAPÍTULOS 12 Y 13. 1. Expliqúese por qué un intervalo de confianza de 100% no es útil. 2. Una muestra aleatoria de 200 personas, tomada de las listas de miembros de la Asociación Estadounidense de Terapeutas incluyó a 30 mujeres. a) ¿Cuál es el intervalo de confianza de 95% para el porcentaje de mujeres en la asociación?
Introducción a la estadística 260 b) ¿En qué condiciones se esperaría que la respuesta en la parte a) estime el porcentaje de mujeres en la profesión? 3. Se desea encontrar un intervalo de confianza en 95% para el porcentaje de personas que trabajan en forma perfecta. ¿Qué tamaño de muestra se debe utilizar si queremos estar seguros de que nuestra estimación no sea diferente del verdadero valor en más de un 3%? 4. Funcionarios de la ciudad de Nueva York llevaron a cabo un control del turno de 8 a.m. a 4 p.m., del departamento de servicios de emergencias médicas, el 16 de junio de 1980. Este departamento recibe las llamadas telefónicas pidiendo el servicio de ambulancias. Se informó que para 88 llamadas, el tiempo de respuesta promedio fue de 28.8 minutos. a) Si deseamos calcular un intervalo de confianza basado en estos datos, ¿a qué población estadística nos estaríamos refiriendo?, es decir, ¿de qué población se cree que la medida de la muestra sea 28.8? Dé algunas condiciones en las cuales esto sea razonable. ¿Por qué no podría ser razonable? b) Si suponemos que s es aproximadamente 15 minutos, ¿cuál es el intervalo de confianza de 95%?. 5. Se desea estimar, para una industria, la diferencia entre el porcentaje de directores de ventas (hombres y mujeres) que ganan más de 25 mil dólares al año. Se toma una muestra de 50 hombres y 50 mujeres directores y se anotan sus salarios. Se encuentra que 36 de los hombres ganan más de 25 mil, y sólo 18 mujeres ganan el mismo salario. Encuéntrese el intervalo de confianza de 95% para la diferencia entre los porcentajes de los que ganan más de 25 mil al año. ¿Cuáles son algunas de las razones que se suelen dar para explicar por qué existe esa diferencia? 6. Las frecuencias observadas que se presentan a continuación están basadas en una muestra aleatoria de parejas de padre e hijo, tomada en una ciudad grande. Interprétense los resultados mediante una prueba jicuadrada. Empléese α = .05. menos de 5 pies 6 pulgadas
hijo
padre de 5 pies 6 pulgadas a 6 pulgadas más de 6 pies
menos de 5 pies 6 pulgadas
50
400
10
5 pies 6 pulgadas a 6 pies
150
2000
200
5
300
60
más de 6 pies
7. Una encuesta llevada a cabo con una muestra aleatoria de estudiantes de la escuela secundaria Wayup, hizo dos preguntas a los estudiantes. 1) ¿Tiene usted más grabaciones de música de rock o más de "disco"? 2) ¿Está usted a favor o en contra de la Proposición 31? ¿Los resultados nos indican que las respuestas a estas dos preguntas son estadísticamente independientes? Empléese α= .05. Proposición 31 a favor en contra más rock
20
60
más "disco"
30
90
Corrrela C ación y prredicció ón COEFICIENTE ES DE CORRE ELACIÓN Frecuentemen nte ocurre que e los estadístico os quieren desscribir sólo con n un número la rela ación que existe e entre dos con njuntos de resulltados. Un núm mero que mide una a relación entrre dos conjunttos de resultad dos se denom mina coeficiente de correlación.. Existen varios s coeficientes de correlación para p medir diferenttes tipos de re elaciones entre e distintos tiposs de medidas. En este texto ilusstraremos el concepto básico de correlación presentando sólo s el coeficiente de correlación n de Pearson, que es uno de e los coeficien ntes de correlación n que más se u utiliza. La estad dística lleva esste nombre porr su inventor, Karl Pearson (1857 7-1936), uno de e los fundadore es de la estadística moderna. Se representa con n r y se utiliza para medir lo que se denom mina relación linea al entre dos conjuntos de me edidas. Para explica ar cómo se utiliza r y lo que significa una re elación lineal, presentaremos s algunos ejemplo os muy simplifficados. Es mu uy improbable que una u verdadera aplicación del coeficiente c de correlación c se lleve a cabo con n tan pocos p resultad dos. Imagínese e que 6 estud diantes susten ntan una serie e de exámenes e con un consejero vocacional, v con n los resultadoss que se presen ntan en e la tabla 14--1. Tabla 14-1
interéss en la lectura
interés s en el tea atro
aptittudes para a las Matem máticas
Pat
51
30 0
52 25
550
Sue Inez Arnie Gene Bob
55 5 58 8 63 3 85 5 95 5
60 0 90 0 50 0 30 0 90 0
515 510 49 95 43 30 40 00
535 535 520 455 420
estudiante
aptitud des para lo os idioma as
Introducció ón a la estadística a 262
El consejero puede esta ar interesado en saber si existten correlacion nes entre estos con njuntos de calificaciones. Po or ejemplo, parrece que las personas p que obtie enen buena ccalificación en Matemáticas también la tie enen en idiomas. Dibujemos una a gráfica llamad da diagrama de d dispersión, para investigar esta e relación. Para P dibujar el diagrama, dib bujamos primerro un eje vertical y un eje horizo ontal; uno para a la calificación n en Matemátiicas y el otro para a la de idiomas. En el diagram ma de la figura 14-4 hemos to omado el eje horizo ontal para la ca alificación de Matemáticas, M a aunque la forma a en que se elija all eje no tiene pa articular importa ancia. Nótese cómo c se ha ma arcado el eje horizo ontal. Las califficaciones en Matemáticas M va ariaron de 400 a 525, y así es como c se ha dividido d al eje horizontal, de e tal manera que los números puedan ser re egistrados. Por lo tanto, el eje se dividió en espacios e iguales, con c unidades de 5 en 5 que van del 400 al 525. 5 Es muy im mportante que las unidades u sean n del mismo ta amaño. De la misma manera a, el eje vertical fue marcado del 420 al 550 para cubrir lo os límites de la as calificaciones en idiomas. Después de que cada eje está divid dido e identifica ado, se utiliza un u punto para cada persona. El p punto se dibuja a de tal manera a que esté direcctamente arriba de e la calificación n en Matemátic cas y directame ente a la derec cha de la calificació ón para idioma as de la person na que se trate. Por ejemplo, el punto para las calificaciones d de Pat está sob bre el 525 del eje e de Matemá áticas y a la derech ha del 550 para a el eje de idiom mas. En la figura a 14-1 hemos escrito e la inicial de e cada persona a, junto a su ma arca para que sse pueda leer la a gráfica, pero generalmente no o se escriben n. Por conven niencia repetim mos las calificaciones de Matem máticas e idiom mas en la tabla a 14-2.
Corrrelación y predicción 263 Tablaa
estudiante
Matemáticas
idiomas
14-2 2 Pat
Sue Inez Arnie Gene Bob
525 515 510 495 430 400
550 535 535 520 455 420
Se debe en advertir tress cosas sobre el diagrama de dispersión. 1. Existe un punto para cada c par de calificaciones, un n total de 6 pun ntos. 2. Los puntos están apro oximadamente en línea recta.. Cuando esto pasa, decimoss que existe una buena correlación linea al entre las do os variables (en ( este caso, entre las aptitudes para lass Matemáticass y los idiomas)). 3. Los núm meros más alto os en la column na de Matemáticas de la tab bla correspond den a los núm meros más altos de la column na de idiomas.. Esto hace que la inclinación n de la línea se ea hacia la derecha. Esto se denomina co orrelación pos sitiva. CALIFICAC CIONES EN MA ATEMÁTICAS CONTRA CAL LIFICACIONES S EN INTERÉS POR P EL TEATR RO Comparemo os ahora las ca alificaciones en n Matemáticas y las de interé és por el teatro. Re epetimos estass calificacioness en la tabla 14 4-3 y las grafic camos en la figura 14-2.
Introducción n a la estadística a 264
Tabla a 14-3 3
estudiante Pat
Sue Inez Arnie Gene Bob
Matemáticas
teatro
525 515 510 495 430 400
30 60 90 50 30 90
Se advertirá á en la figura 14-2 1 que no exxiste una tende encia especial de los puntos para a situarse en línea recta. Dec cimos, por lo ta anto, que hay poca p o no hay correlación entre las puntuacion nes en Matemá áticas y las de in nterés por el teatro o. También po odemos advertiir que no es ne ecesario que ambas a variables sean medidas con la misma a escala ya qu ue el coeficien nte de correlación describe el pattrón de las califficaciones y no o los valores rea ales. PUNTUACIÓN EN MA ATEMÁTICAS INTERÉS EN E LAS VENTA AS
CONTRA
P PUNTUACIÓN
EN
En la tabla 14-4 y en la fig gura 14-3 comp paramos las pu untuaciones en Matemáticas con las obtenida as en interés en las ventas. Tabla a
estudiante
Matemáticass
ventas
525 515 510 495 430 400
51 55 58 63 85 95
14-4 4 Pat Sue Inez Arnie Gene Bob
Correlación y pred dicción 265
En la figura a 14-3 podemo os advertir una tendencia de los puntos a situarse en una líne ea recta que ba aja hacia la derrecha, lo que sse denomina co orrelación negativa. Esto ocu urre porque las s calificacioness más altas en la columna de Matemáticas M co orresponden a las calificacio ones más bajass en la columna de interés en la as ventas.
CÁLCULO O DE r Pearson de efinió r de tal manera m que la fó órmula para r ttiene un valor mínimo m posible de -1 y un valor m máximo posiblle de + 1. Cuando los puntoss de la muestra se e sitúan exactamente en una línea que baja de izquierda a derecha, decim mos que existe una correlació ón negativa perrfecta: r = -1. Cuando C los puntos de la muestra se sitúan exacctamente en un na línea que su ube de izquierda a derecha, deciimos que existe una correlacción positiva pe erfecta: r = + 1. Cuando C los pu untos no tienden a situarse en una línea recta, decimos qu ue no existe una correlación n: r = 0. Si r esstá cerca de +1 ó -1, decimos qu ue existe una correlación c alta a: si r está cerrca de cero, de ecimos que la corrrelación es bajja. Esperaríamos que, parra la figura 14-1, r estuviera cerca c de 1; parra la figura 14-2, r estuviera ce erca de 0 y parra la figura 14-4, r estuviera cerca de -1. Mostraremos que e esto es cierto después d de qu ue veamos la fó órmula para r. La fórmu ula para el coe eficiente de co orrelación r es :
donde
X = símbolo o de una de la as variables Y = símbolo p para la otra va ariable n = número o de pares de puntuaciones
Toda la no otación anteriorr nos es familia ar, excepto ΣX XY, que se enc cuentra multiplicando los valores de X y Y y sum mando despuéss todos los prod ductos.
EJEMPLO OS DE CÁLCUL LOS PARA r Para la corrrelación que sse presenta en la figura 14-1, podemos tabu ular los datos de la a siguiente ma anera:
Introducción n a la estadística a 266
Matemáticas
idiommas
Y
X2
Y2
XY Y
525 515 510 495 430 400
550 0 535 5 535 5 520 0 455 5 420 0
275 6225 265 2225 2601000 245 0225 184 9000 160 0000
302 500 286 225 286 225 270 400 207 025 176 400
288 750 7 275 525 5 272 850 8 257 400 4 195 650 6 168 000 0
ΣX = 28875
ΣY = 3015
ΣX2 = 1,390,8775
ΣY = 1,528,7775
ΣXY = 1,458,1175
X
Despejando o r,
De manera a similar, para la correlación que se muestra en la figura a 14-2, encontram mos que ΣX = 2875, ΣY = 350, ΣX 2 = 1 390 875, ΣY Σ 2 = 24 100 y ΣXY Σ = 166 200 0. Por lo tanto o,
Para la correlación c que e se muestra en e la figura 14--3, obtenemos s ΣX = 2 2 2875, ΣY = 407, ΣX = 1 390 875, ΣY Σ = 29 209 y ΣXY = 190 0 415. Por lo tanto o,
EJERCICIO OS 14-1 Imagín nese que es un director de escuela e y que ha calculado el e coeficiente de correlación c entrre las calificacio ones del año p pasado para la clase
Corre elación y prediccción 267
del Sr. Oldwayys en Español III y las calificacio ones de este añ ño para la clase e de la Srita. Mode ern en Español III. ¿Qué significaría que r estuviera cerca de -1? ¿Cerca de d +1? ¿Cerca a de cero? 14-2 Los estudiantes e que e siguieron el curso c de geolog gía con el profe esor Springsteen compararon suss calificacioness del examen final con las calificaciones de fin nal de curso. Calcularon C que r = .12. ¿Qué significa s este va alor? 14-3 a) Co omplétese la siguiente tabla.
X
Y
1 2 3 4
1 1 2 3
X2
Y2
X XY
totales E Encuéntrese:
14-4 a) Co omplétese la siguiente tabla. Encuéntrese b) a l) del ejerrcicio 14-3. X
Y
10 5 3 8 0
1 9 3 9 0
X2
Y2
X XY
totales 14-5 Síganse las mismas insstrucciones del ejercicio 14-3 empleando esstos datos. X
Y
2 2 0 3 4 1
-1
X2
Y2
XY X
3 -2 4 4 0
totales 14-6 La tabla a siguiente pro oporciona los tamaños t de algunas piezas de madera en pies y pulgadas.
Introducción a la estadística 268 largo en pulgadas
largo en pies
12
1
36 60 48 24 72
3 5 4 2 6
a) Dibújese un diagrama de dispersión para estos datos. b) Calcúlese intuitivamente si r está cerca de 1, -1 o 0.
c) Calcúlese r. 14-7 La tabla siguiente muestra las edades de algunas personas en abril de 1982, y el año en que nacieron. Adivínese primero el valor de r; después, calcúlese r. edad en abril, 1982
año de nacimiento
18
1964
19 20 21 24
1963 1961 1961 1958
14-8 Una muestra aleatoria de hombres que fueron entrevistados en un centro comercial fue interrogada sobre el número de sus zapatos y la cantidad de corbatas que tenían. ¿Se esperaría alguna correlación entre las dos variables? Estos son los datos obtenidos. Calcúlese r. medida de zapato
cantidad de corbatas
71/2
10
9 9 11 81/2 8 13
17 17 4 10 1 6
14-9 Calcúlese r para las calificaciones de 6 estudiantes en las clases de Inglés preparatorio y el primer semestre de Literatura inglesa. Inglés preparatorio
Literatura inglesa
50
45
57 68 75 80 89
57 60 75 84 93
Correlación y predicción 269
14-10 Se llevó a cabo un experimento para ver si existía alguna correlación entre el volumen de agua en una pecera y la longitud promedio que crecen cuatro peces de colores que habían sido criados en la pecera. Estos son los resultados. Calcule r. volumen de la pecera, galones
longitud promedio de los peces, pulgadas
0.5 1 2 4 5
1.8 2.1 2.2 2.9 3.3
14-11 Se llevó a cabo un experimento en el que se dejaba caer un objeto a través de cierto líquido. La distancia recorrida por el objeto fue anotada cada segundo a lo largo de 6 segundos. Estos fueron los resultados. tiempo, segundos
distancia que el objeto recorrió en el líquido, pies
0
0
1 2 3 4 5 6
1 4 9 16 25 36
La experimentadora se dio cuenta de que ésta no era una verdadera relación lineal, aunque pensó que la relación era casi lineal para el periodo de tiempo de 3 a 6 segundos. Corrobórese la intuición de la experimentadora calculando r: a) Para todos los datos. b) Sólo para los datos de 3 a 6 segundos. 14-12 A continuación tenemos una lista de las distancias que necesitan ciertos vehículos para detenerse cuando viajan a diferentes velocidades. Calcúlese r para estos datos. velocidad, millas por hora
distancia, pies
30
90
40 50 60 70
150 240 370 530
14-13 Dibújese un diagrama de dispersión y calcúlese r para las temperaturas siguientes:
Introducción a la estadística 270 día
temperatura alta, °F
temperatura baja, °F
Martes
70
50
Miércoles Jueves Viernes Sábado
72 66 73 67
50 48 51
49
14-14 Una inversionista que estaba estudiando la posible correlación entre dos tipos de valores, notó lo que le pareció un patrón de relación entre sus precios. Dibújese un diagrama de dispersión y calcúlese r para los datos siguientes, para ver si existe una relación lineal entre los precios. precio de venta de valores BTQ, dólares
precio de venta de valores CRV, dólares
Enero 1
47
22
Febrero 1 Marzo 1 Abril 1
40
24
30
26 30
fecha
15
14-15 Descríbanse dos variables, que probablemente tendrían: a) Correlación negativa. b) Correlación cero. c) Correlación positiva. PRUEBA PARA LA SIGNIFICANCIA DE r Supóngase que examinamos una población completa y calculamos el coeficiente de correlación de dos variables. Si este coeficiente fuera igual a cero, diríamos que no hay correlación entre las dos variables en esta población. De ahí que cuando examinamos una muestra aleatoria tomada de una población, un valor r cercano a cero para la muestra es interpretado como que no existe correlación entre las variables en la población. Un valor de r alejado de cero (cerca de 1, o -1) para una muestra, indica que existe alguna correlación en la población. Los estadísticos deben decidir cuando un valor de r está lo suficientemente alejado de cero para ser significativo, es decir, cuando está bastante alejado de cero para mostrar una correlación en la población. Esta prueba de significancia puede llevarse a cabo de distintas maneras, dependiendo de cómo sean las distribuciones de las dos variables en la población. El caso más simple es cuando se puede suponer que las dos variables están distribuidas normalmente. Estrictamente hablando, cuando se trata de probar la significancia de un valor de r para una muestra, estamos elaborando la hipótesis nula de que no existe correlación entre las dos variables que se están considerando. Es decir, H0 : el coeficiente de correlación en la población = 0
Corrrelación y predicción 271 Podremos recchazar la hipóte esis nula cuando o el valor de r de d nuestra mue estra esté más alejjado de cero q que algún valo or crítico. Esto o significa que podemos establecer la hipóte esis alternativa a de que existte algún grado o de correlación lin neal entre las d dos variables en e la población n. Las tablas C-9 y C-10 presenta an listas de vallores críticos de r que corresp ponden al núm mero total de pares s de resultadoss en la muestra a n, el nivel de significancia de la prueba α, y el número de exxtremos en la prueba. p Los valores de r en esstas tablas se da an sin signos.. Se debe de eterminar en nuestra hipóte esis alternativa si los valores crííticos de r son positivos, negativos o ambos.
EJEMPLO 14-1
SOLUCIÓN
En un estudio o sobre el éxito académico, se e tomó una mu uestra aleatoria a de 30 estudiantes s de escuelas públicas p en una a comunidad. L La encuesta an notó para cada niñ ño sus aptitude es verbales (de eterminadas co on una prueba a de empleo común) y el ingreso o anual de la fa amilia del niño. Los 30 pares s de medidas fuerron utilizados para calcularr r. Se encontró que r = .46. . ¿Corrobora essto la hipótesiss de que existe una correlació ón positiva entrre la aptitud verbal de los niños y el ingreso de e la familia en esta comunida ad? Pruébese al nivel n de significcancia de .05. H0 : coeficientte de correlacción en la pobllación = 0 Ha: coeficiente e de correlación n en la población > 0 (prueba a de un extremo o)
Por lo tanto, concluimos c que e el coeficiente e de correlació ón en la poblac ción es mayor que cero. Existe alguna correlación lineal positiva, en esta población, entre el ingreso de lass familias y la aptitud verbal. Nota: La existtencia de una correlación c que e no sea cero n no significa que la correlación se ea alta; sólo quiere decir que no n es cero. Sóllo si la correlacción está bastante e alejada de ce ero tendrá un valor v práctico. Cuidado El he echo de que la a correlación ex xista no prueba nada acerca a de las razones de la correlació ón. Los investig gadores deben n decidir indep pendientemente 1) 1 qué causa la a correlación y 2) si la correla ación y sus causas tienen algún significado s prá áctico. La prueba de d significancia a puede verifica ar la existencia a de la correlacción en la població ón dada, pero e ello no estable ece causa y efe ecto. Por ejemplo: no sería difícill mostrar que e existe una corre elación positiva a entre los prom medios de ingres sos de los ma aestros de prim maria en el con ndado de Sufffolk, Nueva York, y el número de e pizzas que se e vendieron en n ese condado o en los últimos 10 años. ¿Puede pensar que existe una razón por la cual suce ede esto?
EJEMPLO 14-2
Un equipo de investigadoress quería saber si s existía alguna a correlación entre la cantidad de e comida consu umida por una rata alimentad da libremente a los 50 días de eda ad y la edad a q que moría. Para a esto elaboraro on un experime ento en el cual se permitiría a 3 30 ratas comerr todo lo que q quisieran.
Introduccción a la estadísstica 272
SOLUCIÓ ÓN
¿Cuáless fueron sus hipótesis? ¿Qué é valores de r tendrían que encontrar e para esttablecer una ccorrelación entre dieta y lon ngevidad si em mplearon α = .05? ? Ho: no ex xiste correlació ón entre el cons sumo de comid da y el tiempo de vida; coe eficiente de co orrelación en la a población = 0 Ha: existte alguna corre elación entre el consumo de ccomida y el tiempo de vida a; coeficiente de d correlación en la població ón ≠ 0 (prueba de dos extrremos)
rcrítico
=
± -36
Si se enccuentra que el valor v r de la mu uestra es mayo or que + .36 o menor m que - .36, se erá evidencia en favor de una u correlación n entre el consumo de comida y el tiempo de vida. v Un valor positivo significcativo de r indiccaría una asociació ón entre come er mucho y viv vir mucho tiem mpo. Un valor negativo significattivo de r indica aría una asocia ación entre com mer poco y vivvir mucho tiempo.
EJERCIC CIOS En los siiguientes ejercicios supóngas se que ambas poblaciones so on normales s. 14-16 Un na prueba de h hipótesis muestra que existe u una correlación n positiva alta entre e las calificacio ones en la Acad demia de Policcía y el éxito en "la calle" de los officiales de policcía. Sin embarrgo, el sargento o Experiencia nota n que, frecuente emente, un candidato que fue buen alu umno en la Academia, A fracasa en e su ronda. Ta ambién advierte que algunos oficiales que re ealizaban bien su trabajo no fue eron buenos alumnos en la Academia. A En realidad, ¿qué infformación dam mos cuando ha ablamos de una correlación n positiva alta? Eje ercicios 14-17 a 14-22 Ya se ha a calculado r pa ara estos ejerc cicios. Ahora esspecificaremos lo que el investiga ador está proba ando. Despuéss hágase lo siguiente: a) Elabórese la hipótessis nula y la mo otivada. b) Decídase si para esttas hipótesis se e necesita una prueba de un extremo e o una de dos d extremos. c) Encuéntrese el valo or crítico de r de la tabla C-9 o de la tabla C--10. Pruébese con el nivel d de significancia a de .01. d) Decíd dase si existe o no una correllación diferente e de cero. 14-17 (D Datos del ejerccicio 14-8) El investigador i esstá probando para una correlaciión diferente de e cero.
Correlación y predicción 273
14-18
(Datos del ejercicio 14-9) Pruébese para una correlación positiva.
Inglés preparatorio
Literatura inglesa
50
45
57 68 75 80 89
57 60 75 84 93
14-19 (Datos del ejercicio 14-10) El investigador está probando para una correlación diferente de cero. volumen de pecera, galones
longitud promedio de los peces, pulgadas
0.5
1.8
1 2 4 5
2.1 2.2 2.9 3.3
14-20 [Datos del ejercicio 14-11 (a).] Pruébese para una correlación positiva. tiempo en segundos
distancia que el objeto recorrió en el líquido, pies
0
0
1 2 3 4 5 6
1 4 9 16 25 36
14-21 positiva.
[Datos del ejercicio 14-11(b).J Pruébese para una correlación
tiempo, segundos
distancia que el objeto recorrió en líquido, pies
3
9
4 5 6
16 25 36
14-22 (Datos del ejercicio 14-12.) Pruébese para una correlación positiva. velocidad, millas por hora
distancia para detenerse pies
30
90
40 50 60 70
150 240 370 530
Introducción a la estadística 274
14-23 Supóngase que se pensó que existía alguna correlación entre el largo del cabello de los estudiantes varones en una universidad y sus creencias políticas. Suponga también que un profesor de psicología ha preparado una prueba para identificar las creencias políticas. Cuando una persona realiza esta prueba, su calificación puede variar de 0 (extrema derecha) a 200 (extrema izquierda). Se toma una muestra aleatoria de 25 estudiantes y se califica para las dos variables. Estos son los resultados: número de estudiante
largo de pelo, calificación pulgadas en la prueba
número de estudiante
largo de pelo, pulgadas
calificación en la prueba
1
0.5
50
14
2.5
100
2 3 4 5 6 7 8 9 10 11 12 13
2.0 1.0 2.5 3.0 1.5 4.5 3.5 2.5 3.0 1.0 4.0 2.0
140 60 80 115 75 170 120 95 120 85 160 100
15 16 17 18 19 20 21 22 23 24 25
4.5 1.5 3.0 2.5 2.0 3.5 5.0 2.5 4.0 3.0 2.0
165 90 105 105 85 140 180 130 150 100 80
Elabórense las hipótesis. Calcúlese r. Pruébese para una correlación positiva con el .05 de nivel de significancia. 14-24 Un laboratorio de evaluación educacional está desarrollando una nueva prueba para medir las aptitudes en programación de computadoras. Desean elaborar dos modelos diferentes de la misma prueba. Teóricamente, una persona debe obtener la misma calificación sin importar el tipo de prueba que presente. Para determinar si ambos modelos dan los mismos resultados, se administra la prueba a 30 personas. Los resultados fueron los siguientes: número del candidato
modelo A
modelo B
número del candidato
1
99
80
16
67
63
3 4 5 6 7 8 9 10 11 12 13 14 15
97 97 90 89 83 80 80 75 70 69 69 68 68 68
95 87 88 83 90 85 78 40 76 70 71 70 72 68
17 18 19 20 21 22 23 24 25 26 27 28 29 30
67 65 65 65 63 62 61 60 59 50 43 40 20 3
60 64 81 65 60 61 59 50 58 40 51 70 19 0
modelo A
modelo B
Correlación y predicción 275
Calcúlese r. Elabórense las hipótesis. Pruébese para una correlación positiva con .01 de nivel de significancia. 14-25 Los siguientes datos fueron obtenidos de la escuela de la Srita. Betty para Gente Joven. estudiante
Lectura
Ortografía
Matemáticas
Música 10
Sam
20
7
100
Samantha Toni Anthony Salvatore Sally Pat
15 25 35 30 50 40
7 10
70 60 90
8 9
8 10
···
80 80
···
3 9 20 15
5
Encuéntrese el coeficiente de correlación y llévese a cabo una prueba de hipótesis con .05 de nivel de significancia, para cada uno de los siguientes puntos. a) ¿Existe una correlación positiva entre las calificaciones en Lectura y las de Ortografía? b) ¿Existe una correlación negativa entre las calificaciones en Ortografía y las de Matemáticas? c) ¿Existe una correlación diferente de cero entre las calificaciones en Ortografía y las de Música?
PREDICCIONES BASADAS EN LA CORRELACIÓN LINEAL †
Si el estadístico determina que existe una correlación lineal alta entre dos variables, podemos tratar de representar esa correspondencia con una línea ideal, una línea que represente de la mejor manera la correspondencia lineal. Posteriormente podemos escribir la fórmula que determine esta línea y emplear la fórmula para predecir, por ejemplo, qué valor de la variable Y corresponde, idealmente, a un valor dado de la variable X. Por ejemplo: supongamos que las calificaciones en Inglés I e Inglés II en la universidad State tienen una correlación positiva alta. Supóngase también que hemos encontrado una fórmula que pronostica las calificaciones en Inglés II, basándonos en las calificaciones de Inglés I. Para una calificación de 85 en Inglés I, la fórmula pronostica una calificación de 81 para Inglés II. Evidentemente, si 10 estudiantes tuvieran calificaciones de 85 en Inglés I, no esperaríamos que todos ellos obtuvieran 81 en Inglés II. Aún más, probablemente ninguno de ellos obtendría, en realidad, 81. Nuestra fórmula de predicción dice realmente que nuestra mejor estimación para su calificación media será de 81. Por otro lado, si en realidad queremos pronosticar la calificación de un estudiante, el mejor punto de estimación que podemos hacer será esta media, 81. †
Lo que se considera una correlación alta, varía de acuerdo con el área en que esté siendo utilizada.
Introducción n a la estadístic ca 276
En esta sección s mostra aremos cómo obtener o la fórm mula para la reccta que se utiliza para obtener loss mejores puntos de estimacción. Un tema importante, la evvaluación de la exactitud de estas e estimaciones, no será presenp tado en esta sección. Co onsúltese un te exto más avan nzado si se ne ecesita más inform mación sobre este tema.
EJEMPLO O 14-3 3
Una univerrsidad ha tenido o matrícula abierta durante va arios años. Deb bido al reciente inc cremento de la as inscripcioness, el decano de e admisiones piensa p que ahora es necesario rechazar algun nas solicitudess. El quiere recchazar las solicitud des de aquellas personas que fracasarían d de cualquier manera. Una muesttra aleatoria de e los expedienttes de ex-alum mnos se toma de los archivos y se s encuentra q que existe una fuerte f correlacción positiva en ntre las
calificacion nes de los estu udiantes en una prueba de a aptitud y su pro omedio de calificacciones al tiemp po de dejar la universidad u (titulados o retirá ándose voluntariam mente). La figura 14-4 muesttra el diagrama a de dispersión n para los datos.
Al diagrama de dispersión se le ha añadido la línea q que representa a, de la mejor manera, una corre espondencia lin neal entre las dos variabless. Esta línea muesttra que para un n valor dado de X existe un valor correspondie ente y, de acuerdo o con esta línea a ideal. Por ejem mplo: si una pe ersona que obtu uvo 75 en la prueba a de aptitud sollicita ser admitid do, la línea pron nostica que ten ndrá un promedio de d calificacion nes de aproxiimadamente 2 2.9. Esto se puede observar en ncontrando el 7 75 en el eje horizontal X, de a ahí mirar hacia arriba hasta que se s encuentre la línea de prediccción y por últim mo ver directam mente a la izquierda a hasta encon ntrar el eje verrtical Y. Obsérrvese la flecha a en el diagrama de d la figura 14--5. Del mismo modo, si un estudiante obtie ene 62 en la prrueba de aptitu ud, obtenemos una predicción del promedio de calificacion nes de aproxim madamente 2.1.. Un estudiantte con una ca alificación de 5 50 en la prueba de aptitud, tendría una prediccción de prome edio de califica aciones de apro oximadamente 1..4.
Corre elación y predic cción 277
Nota: Adviérta ase que la inte erpretación de la situación no o dice nada so obre las razones de e esta correlación, la naturale eza de las pregu untas de la prueba o la inteligenc cia de los estud diantes. Sólo reconoce r que existe e un patrón, y que mientras la población d de aspirantes y el sistema de d calificacione es y programa de estudios de la a universidad no n cambie, es probable que las predicciones sean razonables. En este pro oblema de pred dicción, despué és de haber de ecidido que exxiste una correlació ón fuerte, el esstadístico tiene e que encontra ar la fórmula para p hacer las pred dicciones. Esta fórmula se den nomina recta d del mejor ajustte o "recta de reg gresión". La fórmula para la recta d del mejor ajusste es:
Yprevista
=
mY +
b(X X – mX)
donde mX y m Y son mediass de la muestrra, y
n es el número de pares de e resultados. Ésta es la fórrmula que se utiliza u para pre edecir los valores de Y. Las variables se deb ben clasificar de d tal manera que se le asig gne y a la varia able que se desea predecir, y no a la variable de e la cual se con nocen sus valores. Esta fórmula puede ser calculada siempre e, no importa como estén orrdenados los pun ntos del diagrama de dispersiión. Pero su exxactitud de predicción declina conforme c r se aproxima a ce ero. Un tema im mportante que e se omite en este texto es una p prueba para la exactitud e de loss valores previsstos † de Y. * Geográficam mente, b puede ser s interpretada como c la pendientte de la recta dell mejor ajuste. † Consúltese W.J. Dixon y F F.J. Massey, Jr. Introductíon to Statistical Analy ysis, 3a. ed., McG Graw-Hill, New York, 1969, parra una presenta ación más amplia de este tema.
Introducció ón a la estadística 278
EJEMPL LO 14-4
Tabla
Apliquemos la fórmula al a conjunto de datos d siguiente es (Tabla 14-5)) y tratemos de predecir p el prom medio de calific caciones corresspondientes a las calificaciones de 60, 70 y 80 en la prueb ba de aptitud.
Datos de la mue estra
14-5 calificación en n la prueba de aptitud X
promed dio de calificaciiones Y
X2
XY
40
0.88
34.20
1600
45 53 54 55 60 62 2 65 66
76 77 77 80 84 86 89 94
1.02 1.56 1.75 1.63 1.90 2.07 3.21 2.12 2.38 2.40 2.52 2.63 2.52 2.79 2.72 2.90 2.95 3.01 3.35 3.10 3.41 3.52 3.75 3.82
45.90 82.68 94.50 89.65 114.00 128.34 208.65 139.92 161.84 163.20 173.88 184.10 181.44 200.88 204.00 217.50 224.20 231.77 257.95 248.00 286.44 302.72 333.75 359.08
20 025 28 809 29 916 30 025 36 600 38 844 42 225 43 356 46 624 46 624 4761 49 900 5184 5184 56 625 56 625 57 776 59 929 59 929 64 400 70 056 73 396 7921 88 836
ΣX = 173 2
ΣY = 6 3.91
ΣX XY = 4669.59
ΣX = 124,1 170
68 6 68 6 69 7 70 7 72 7 72 7 75 75
De la tabla calculamos:
2
Co orrelación y pre edicción
279 Para X = 60, obtenemos
Para X = 70, obtenemos
Para X = 80, obtenemos
Por lo tanto, para las calificcaciones en la prueba de aptitud de 60, 70 y 80 hemos prono osticado los pro omedios de ca alificación de 2.0, 2 2.6 y 3.2, respectivamente e. INTERPRETA ACIÓN DE b En la fórmula a para la recta de mejor ajustte, el valor de b indica cuántto se puede espera rar que cambie e Y, cuando X varía en una u unidad.
EJEMPLO 14-5
A continuació ón se dan los re esultados de una prueba sob bre el peso que e se ejerce sobre un pistón y la a presión que éste é ejerce sobre un fluido.
Podemos calcular X ¯ = 200, Y ¯ = 18, y b = .01 para esttos datos. Cua ando Xes 200, la predicción p del valor de Y es 18. ¿Cuál serrá el valor prev visto de Y si X ess 230? SOLUCIÓN
El cambio en n X es 230 - 2 200 = 30. Por lo l tanto, el cam mbio esperado o en Y es b x 30 = .01(30) = .3.. Por tanto Yprrevista = 18 + .3 3 = 18.3 librass por pulgada cuad drada. INTERPRETA ACIÓN DEL SIIGNIFICADO DEL D VALOR DEL COEFICIENT TE DE CORRE ELACIÓN Durante los últimos años, el Dr. Giusep ppe O'Reilly h ha encontrado una correlación alta, a r = .9, entrre las calificaciones en Hebre eo III y las calificaciones en He ebreo IV de sus estudiantes. Su fórmula de e regresión fue eY= .9(X- 75) + 75.5, 7 donde Y representa la a calificación d de Hebreo IV,, y X representa la a calificación en e Hebreo III de d un estudiante en particula ar. Si X = 90, él ca alcula Y = 89. Por supuesto, esto no sign ifica que un esstu-
Introducció ón a la estadística 280
diante que e obtuvo una ca alificación de 90 0 en Hebreo III, obtendrá sin la a menor duda una calificación de e 89 en Hebreo o IV. Se puede e interpretar que todos los estudia antes que obten ngan 90 en Heb breo III obtendrrán unas califica aciones en Hebreo o IV cuyo prom medio será alre ededor de 89. Las calificacio ones en Hebreo IV V que promedie en 89 tendrán alguna a variació ón, y esta varia ación se puede atriibuir a muchass cosas: aume ento o disminucción del interés en el idioma, respuesta a la presión p de los padres, variacción en los háb bitos de estudio, éxxitos o problem mas en la vida social y al con nocimiento pre evio del material, tal t y como éste e fue evaluado o en Hebreo III. La varia ación en las callificaciones en Hebreo IV pue ede, por supue esto, ser medida po or la desviación n estándar (σ o s) y la varianzza (σ2 o s2). Si las calificaciones están agrupad das alrededor de d 89, entonce es la varianza será s pequeña. Puede demosttrarse matemáticamente que el cuadra ado del coeficiente e de correlación mide la pro oporción de va arianza de las s Y que puede exp plicar la relació ón lineal que la as y tienen con n X. En nuestro o ejem2 plo, r = .9 y r = .81 = 8 81%. Por lo tan nto, podemos decir que 81% % de la varianza de d las calificacciones en Heb breo IV se deb be a la relación lineal entre las calificaciones c e Hebreo III y las calificacio en ones en Hebre eo IV. 2 De manera informal, po odemos decir que q cuanto más cerca esté r de 1, la dependencia de los valo ores de y con lo os valores de X será más fue erte. Es decir, habrrá más posibilid dades de que y esté cerca de e su valor prev visto. En 2 los casos extremos de ccorrelación perffecta (r = 1), y está completamente determinada por X. No hay h otra fuente de variación q que haga a y va ariar de su valor prrevisto. En el o otro extremo, el e de no correla ación (r = 0), po odemos decir que X e Y son esta adísticamente independiente es (suponiendo o, como dijimos anteriormente, que X e Y están n distribuidas n normalmente). Nótese en esta relación que un coe eficiente de co orrelación de .8 8 no es 2 dos veces más fuerte que .4. Si r1 = .8, entonces r1 = .64 = 64%, mientras m 2 que si r2 = .4, entoncess r2 = .16 = 16% y el coeficciente de corre elación r 1 = .8 parrece ser 4 vecces más fuerte e que el coeficciente de corre elación r2 = .4. GUÍA DE ESTUDIO VOCABUL LARIO 1. Coeficie ente de correlación 2. Diagrama de dispersión 3. Recta del mejor ajusste 4. Correla ación, lineal, p positiva, negatiiva, cero, perfe ecta SÍMBOLO OS 1. r
2 b 2.
FÓRMULA AS
3. Y prevista
Corrrelación y prediicción 281
EJERCICIOS S
En cada uno o de los siguien ntes ejercicios,, supóngase qu ue la correlació ón es lo suficiente emente alta pa ara permitir pre edicciones razo onables. 14-26 La grráfica siguiente apareció en n un informe m médico sobre la l hi† pertensión. Las dos variables son el pro omedio de con nsumo de sal al a día (en gramos)) y el porcentaje de personass que sufren hipertensión (pre esión sanguínea alta). a Los 5 puntos representtan 5 comunid dades diferente es.
a) ¿Parece haber una correlación posittiva entre las d dos variables? b) Dense po or lo menos, d dos explicacion nes posibles pa ara el patrón de d resultados. c) Si supon nemos que la relación no va aría para otross lugares, ¿ap proximadamente qué porcentaje de la población sufriría hipertensión si el pro medio de co onsumo de sall fuera de 20 gramos g al día? ? 14-27 Una fórmula f de reg gresión basada a en la alta co orrelación entrre las calificaciones de Matemáticcas 001 (un currso preparatorio o de Matemáticcas) y Matemáticas s 112 (Introduccción a Matemá áticas universita arias), fue Y prevvista = 1.5 X-40. a) Emplean ndo la fórmula para un estud diante con una calificación de e 82 en Matemátiicas 001. encué éntrese la califficación previstta para Matemá áticas 112. b) De los 47 7 estudiantes que q obtuvieron n 82 en Matemáticas 001, nin nguno obtuvo el 83 3 previsto para Matemáticas 112. Coménte ese esta situac ción. †
Hypertensio on Update, vol 1. Health Learnin ng Systems, Blo oomfield, N.J., 19 979.
Introducció ón a la estadístiica 282
14-28 Loss siguientes da atos fueron obttenidos de una a muestra aleatoria de 10 familia as en una comunidad.
a) Calcúlese r. b) Calcúlese b. c) Escríb base la fórmula a para pronostticar el porcenttaje que se utiliza en alimentoss cuando se co onoce el ingresso. d) Pronos stíquese el porcentaje que una u familia con $15 000 de in ngresos gastará en alimentos. 14-29 El profesor p Gonzá ález sustenta la l teoría de que e las calificacio ones en su exame en final están re elacionadas co on el lugar en q que los estudia antes se sientan durante su cursso. Tomando una muestra aleatoria de 15 1 estudiantes, anota a las calificcaciones y la distancia d entre los lugares en n que se sientan y su propio escritorio.
a) Calcúle ese r. b) Calcúle ese b. c) Encuéntrese la fórmu ula para pronossticar las calificcaciones, conociendo el lugar do onde se sienta an. d) Pronos stíquese la calificación de una persona que e se sienta a un na distancia de 11 pies del prrofesor. 14-30 El secretario s de la a fraternidad Gamma Gamma a Gamma ha lle evado a cabo un estudio e sobre la manera en que el professor Neumann califica. Examinando una muestrra aleatoria de e informes de la as clases del profesor p Neumann, obtuvo los da atos siguientess: peso prome edio de los info ormes = 8.3 onzass; calificación media = 76.6; r = .84, b = 5 5.8. Pronostíquese la calificación para un estu udiante que entrega un inform me que pesa 6 onzas. 14-31 Un representante de una indu ustria pesquerra en una com munidad ha obtenid do la siguiente e información sobre s la cantid dad mensual de cierto contamina ante en el agua, y la cantida ad de pesca ob btenida: cantid dad promedio de contaminante = 36 unidadess por muestra d de agua, cantid dad promedio de e pesca = 50 barriles, r = .7 y b = -1. 4. Pronostíqu uese la cantidad de d pesca si la cantidad de co ontaminante e es de 48 unidades por muestra de d agua. 14-32 El decano d de adm misiones de un na universidad d encontró una a correlación alta a entre el prom medio de calificaciones de un estudiante en su último año en la escuela secundaria s y su promedio de e calificacioness en su primer año o de universida ad. Utilizando una escala de e cuatro, encon ntró que el promed dio en la escuela secundaria fue f de 2.7 y el de la universid dad de
Correlación y predicción 283
2.2. Si b = 1.2, pronostíquese el promedio en la universidad para los siguientes promedios de la escuela secundaria: a) 3.7 b) 3.0 c) 2.7 d) 2.1 14-33 Tres investigadores estaban tratando de elaborar un método conveniente para medir la evaporación del agua en suelos y cosechas. Descubrieron una relación entre la evaporación y lo que se llama "radiación termal neta". Estos son los datos que obtuvieron de un campo, durante 8 días dispersos en el año:
día
unidades de evaporación, 2 calorías por cm
1
17
-87
2
17.5 19 21 55 70 83 90
-86 -84 -86 -62 -55 -45 -41
3 4 5 6 7 8
unidades de radiación termal neta, 2 calorías por cm
a) Dibújese un diagrama de dispersión para estos datos. b) Calcúlese r. c) Encuéntrese la recta del mejor ajuste. d) Pronostíquese la evaporación si la radiación termal neta es -60. 14-34 Si el coeficiente de correlación entre las calificaciones de Química y Matemáticas es de .7, ¿qué porcentaje aproximado de la variación en las calificaciones de Química de los estudiantes se debe a la relación entre sus calificaciones en Química y sus calificaciones en Matemáticas? 14-35 Si el coeficiente de correlación entre los coeficientes de inteligencia y el promedio de calificaciones es de .3, ¿qué porcentaje aproximado de la variación en los promedios de los estudiantes se puede atribuir a otros factores, como hábitos de estudio o decisión personal? 14-36 La Srita. Krobar encontró que en su clase de tercer año, el peso de los niños tiene una correlación con sus edades y su estatura. Para el peso y edades encontró rA = .7. Para el peso y la estatura encontró r B = .8. a) ¿Qué porcentaje de la variación en el peso puede ser atribuido a la relación entre peso y edad? b) ¿Qué porcentaje de la variación en el peso puede ser atribuido a la relación entre peso y altura? c) Coméntese sobre la paradoja que implican nuestras respuestas a a) y b). 14-37 El coeficiente de correlación entre la velocidad al escribir a máquina y los errores cometidos fue de .4. La variación en los errores cometidos al escribir a máquina debido a la falta de atención es 4 veces más alta que la variación debida a la rapidez. Encuéntrese el coeficiente de correlación entre los errores al escribir a máquina y la falta de atención.
Introducción a la estadística 284 ENCUESTA DE CLASE ¿Qué correlación se esperaría encontrar entre la estatura de los varones en la clase y sus padres? Calcúlese el coeficiente de correlación. ¿Es cercano a lo que se esperaba? Hágase una prueba para ver si esta correlación es significativa. PROYECTOS DE CAMPO Calcúlese r para dos variables que se elijan. Pruébese la hipótesis de que el coeficiente de correlación es cero. Si no es cero, se puede incluir la fórmula para predicción y llevar a cabo algunos pronósticos pertinentes. Algunos proyectos de este tipo, que han realizado otros estudiantes, incluyen investigar las correlaciones entre: 1. La velocidad con la que manejan y el tiempo que necesitan para llegar a la universidad. 2. El número de días que faltan en un mes y el número de infracciones por mal estacionamiento con que se multan a los automóviles de un área determinada. 3. Tiempo que pasa un cliente en una tienda pequeña de regalos e importe total de su compra.
Pru ueba as q que incluye en varrianzza Muchas hipóttesis estadísticcas importantess están relacion nadas con la variav bilidad. Dos medidas m comu unes de variabilidad que se utilizan u en las pruep bas de hipóte esis son la dessviación estándar y el cuadrad do de la desvia ación estándar, la varianza. La desviación estándar ya se ha utilizado basta ante. Una de sus ventajas v es que e mide la variabilidad sin importar la unidad que se utilice para a medir la variable. Por ejemplo, podemos de ecir que el prom medio de la distanccia del piso a la manija de la a puerta, en un edificio de apara tamentos, es 36.5 pulgadass con una desv viación estánda ar de .25 pulga adas. En contraste,, si utilizamos la a varianza para a medir la varia abilidad, la varia anza no está dada a en las unidad des del problema original y, por lo tanto, no es fácil interpretarla de mane era intuitiva. En el ejemplo que q acabamoss de mencionar, la a varianza es (1/4)2 o 1/16, pero p las unidades son "pulga adas cuadradas", lo cual no tiene sentido en una u forma intuiitiva. Sin emba argo, en este capítulo veremos q que ciertas hip pótesis deben ser probadas utilizando las varríanzas de la m muestra en vez de las desviacciones estánda ar, ya que las estad dísticas basada as en las varian nzas se pueden n comparar, en n forma significattiva, con cierta as tablas de va alores críticos bien establecidas. No existen ta ablas equivalen ntes para estad dísticas basada as en la desvia ación estándar. Advviértase que do onde empleamos la letra 5- para p representa ar las desviacioness estándar calcculadas de lass muestras, uttilizaremos s2 para p representar las varianzas ccalculadas de las muestras. Nuestras fórm mulas esenciales so on:
Introducció ón a la estadístiica 286 En esste capítulo se e presentarán tres t tipos de problemas. p 1. La pru ueba de una afirmación sobrre la varianza d de una població ón. Por ejemp plo: alguien pue ede afirmar que la estatura, e en pulgadas, de e los niños de 6 años en lass escuelas púb blicas de Los A Angeles, tiene una u varianza a de 4. Tendría amos entoncess, H0: varianza = 4. En símbolos, H0: 2 σ - 4. Esto es equivvalente a afirm mar que la desvviación estándar es 2 pulgadas. Este tipo de afirmación se s probará calcculando una esstadística y comparándola c con un valor crítico c de una ttabla ji-cuadrad da (que es una aplicación nu ueva de la tabla a ji-cuadrada). Estas pruebass se de nomin nan pruebas de d varianza de una muestra. 2. Una prueba p para comparar las variianzas de dos p poblaciones. Un U ejemplo pu uede ser proba ar la afirmación n de que en la cría de langosta, una dieta produce un tam maño de langossta más errático que otra. La hipótesis nu ula será H0:σ12 = σ22. Los cálculos incluirán e el cálculo de la as va rianza as de dos muestras, una para a cada población, y utilizarlass luego para calcular c una esstadística que puede p ser comp parada con los valores crítico os en una nuevva tabla, la tab bla F. Estas prruebas se denominan comp paración de varrianzas de doss muestras. 3. Utiliza amos la tabla F y las varianzzas de una mue estra para ana alizar la hipóte esis de que las medias de varrias poblaciones son iguales. Este tipo de e prueba es una extensión de e las pruebas d de las medias de dos muestras que estud diamos en el ca apítulo 11, y se e denomina com mparación de d las medias de varias pobllaciones, o análisis de varia anza.
PRUEBAS S DE VARIAN NZA DE UNA MUESTRA El departa amento Deep D Dark Device de e la compañía de cámaras fo otográficas Kynda a Klever, manu ufactura medido ores de tiempo o para cuartos de d revelado del tipo al que se le e da cuerda. Sa ample Sam, encargado del co ontrol de calidad, siempre prueba cada medidor para ver si el p proceso de ensamblaje está funcionando correcctamente. Lleva a a cabo esta prueba p colocand do cada medidor en e la marca de 30 y midiendo después electtrónicamente el e tiempo que tarda a en sonar. Repite este proce eso 11 veces p para cada med didor. El sabe, porr experiencia, que q si probara a un medidor q que trabaja bie en, miles de veces s, e hiciera un na tabla de frrecuencia y un histograma de sus resultados, obtendría una distribución n aproximadam mente normal con c una media de 30 segundos (Fig. 15-1).
Pruebas que incluyen varrianza 287
La preocu upación de Sam es: comparrativamente, ¿ttiene esta disttribución una varrianza pequeña a? Esto significca que este me edidor en particular funciona bien n y por lo tanto es confiable en el cuarto de revelado. Por ejeme plo, si para dos d medidoress sus pruebas resultaran como indican las s dos gráficas que se muestran e en la figura 15--2, ello indicaríía que el medid dor A es más conffiable que el m medidor B. Sam ha de ecidido rechazzar cualquier medidor m que ten nga una desvia ación 1 estándar de más de /2 seg gundo, o en forma equivalentte, una varianz za de 1 2 1 más de ( /2) , o /4. Por supuesto, Sam no puede permitirrse el lujo de prrobar cada medido or miles de vecces. Recuérdes se que Sam prueba cada medidor sólo 11 vece es y que debe ju uzgar con esta as 11 veces, y no n por lo que podría pasar si lo hiciera miles de e veces. Por lo tanto, él está e en una situació ón de prueba de hipótesis. h Su h hipótesis motivada, la que le e hará rechaza ar un 1 2 1 medidor es, Ha: la varianza a es más de /4, σ > /4. Por lo o tanto, su hipó ótesis nula es, H0: σ2 = 1/4. Se pod drá imaginar, en e forma generral, cómo se lle eva a cabo esta prrueba. El primer paso es ob btener una estimación de σ2 de la 2 variabilidad en e las 11 lecturras de prueba. Esto sería s . E El segundo passo es 2 1 ver si s es significativame s ente más que /4. Si tratamo os de compararr el valor de la muestra de s2 con el valor te eórico 2 2 2 de σ restand do σ de s (co omo se hizo con las medias d de la muestra en e los capítulos 10 y 11), no existe e un conjunto de d valores críticcos que sea co onveniente utiliza ar para nuestra a regla de decissión. Sin emba argo, cuando es e razonable supo oner que la va ariable cuya varianza estamos examinando está 2 distribuida ce erca de la norm mal, se ha dem mostrado que ssi se divide s entre e σ2l(n - 1), po odemos emple ear la tabla de valores crítico os ji-cuadrada para obtener nuesstra regla de d decisión. En esste caso utilizamos los valore es de n - 1 gradoss de libertad. E En resumen, nuestra prueba a estadística ess
Introducció ón a la estadístiica 288
o lo que es e lo mismo,
Como esto o será compara ado con una ta abla ¡¡-cuadrada a con n - 1 grad dos de libertad, podemos p llama ar a esta estad dística X2. Es d decir, calculam mos con grados de e libertad = n - 1 Nota: En los ejemplos ssubsecuentes será mejor no emplear X pa ara de2 signar la variable, v ya qu ue utilizaremos s X para nuesstra estadística a.
EJEMPLO O 15--1
Para el prroblema anterio or sobre los me edidores de tie empo de un cua arto de revelado, nuestras hipó ótesis son:
Ho: la varrianza es igual a 1/4, σ2 = 1//4 Ha: la varrianza es más que 1/4, σ2 > 1/4
(pru ueba de un exttremo a la d derecha)
Los datos s de nuestra mu uestra se pueden ordenar de la siguiente ma anera. número de e prueba
Y = se egundos para que suene s el medidor de tiempo
SOLUCIÓN
1
2
3
4
29.2
29.5
30.0
3 30.0
5
30.0
6
7
8
9
30.3 3
28.6
30.0
29.8
10
11
29.7
30..2
Suponem mos que la disttribución de Y es casi norma al. Tenemos n = 11 y, por lo tan nto, n - 1 = 10 grados de libe ertad. Empleando los valores críticos 2 2 de X para 10 grados de libertad co on α = .05, en ncontramos qu ue Xc = 2 18.31. Po or lo tanto, recchazaremos H0 si X es ma ayor que 18.31 1, como muestra la figura 15-3.
Ahora nu uestros datos sse organizan como en la tabla 15-1.
Pruebas qu ue incluyen variianza 289
Tabla 15-1
núme ero de prueba
Y
Y
2
1
29.2
852.6 64
2 3 4 5 6 7 8 9 10 11
29.5 30.2 30.0 30.0 30.3 28.6 30.0 29.8 29.7 30.2
870.2 25 912.0 04 900.0 00 900.0 00 918.0 09 817.9 96 900.0 00 888.0 04 882.0 09 912.0 04
327.5
9753.15
totales
2
El valor de Sam S de X = 10 0.32 no es más que 18.31: p por lo tanto, Sa am no podría recha azar la hipótessis. El medidorr pasa la inspe ección.
EJEMPLO 15-2
Una compañ ñía empaquetad dora de semilla as tiene un tipo o de semilla de e frijol en la que aparecen las prim meras hojas 15 días después de haber sido plantada, como promedio. p La va arianza para ell número de día as que pasan antes a de que salga an las primeras hojas es 5. Se S supone que e un nuevo mé étodo de selección n de semillas que q se empaccarán reduce e esta varianza. Una muestra alea atoria de 61 sem millas, seleccio onadas con el n nuevo método, tiene 2 s = 3.2. ¿Ess esto suficientte para indicar con α = .05 qu ue el nuevo mé étodo de selección n reduce la varrianza?
SOLUCIÓN
Suposición La L variable "nú úmero de días para que salga an las primeras s hojas" tiene una distribución ccercana a la no ormal. Nuestrass hipótesis serán: 2
H o : la varia nza es 5, o = 5 2
Ha: la varian nza es menor q que 5, σ < 5
(prueba de un extremo a la izquierda)
Introducción n a la estadística a
290 Ya que nue estros grados de d libertad son n = n - 1 = 6 1 - 1 =60, encontrramos en la tabla C-7 C que Xc2 = 4 43.19.+ Esta situación se ilusstra en la figura a 15-4. 2 Si X resulta ser menor qu ue 43.19, nuestra regla de de ecisión será recchazar H0; y tendre emos evidenciia de que la va arianza se ha rreducido.
Como 38.4 es menor que e 43.19, podem mos rechazar la a hipótesis nula. Tenemos evid dencia de que e el nuevo método de empacado reduce la varrianza. Si tenemos una prueba a de dos extremos con una hipótesis alternativa de que la va arianza no es iigual a otra varrianza dada, en ntonces necesitamos 2 encontrar dos d valores crííticos de X . Rechazaremos R s la hipótesis nula n si 2 nuestros va alores de X no o están entre estos e dos valo ores críticos. COMPARA ACIÓN DE VARIANZAS DE DOS MUESTR RAS A veces es s importante para un investig gador saber si dos poblacion nes tienen la mism ma varianza. P Por ejemplo, en n una prueba t que compara las medias de do os muestras, ssuponemos qu ue las varianzas de ambas poblaciones son aproximadamente iguales. Hicimos H esto po orque la prueba a t responde a la pregunta: "¿podrían estas dos muestras pertenecer a la misma población normal?". Cua ando rechazam mos la hipótesis nula estamo os contestando "n no" a esta preg gunta. Existen dos razones por las cuales dos d poblaciones normales n puede en ser desigua ales: que tengan n diferentes me edias o que tengan n varianzas differentes. Si po odemos suponer que las varrianzas son igualess, la prueba t es e entonces só ólo una prueba sobre las med dias de las poblacio ones. Esta es lla manera en que q la hemos empleado e en nu uestras pruebas de e medias de d dos muestras. Ello implica qu ue si se lleva a cabo una prueba a t para mediass de dos muesstras y se recha aza la hipótesis nula, entonces debemos d asegu urarnos de que e nuestros resu ultados no se deben a la diferenccia de varianza as en las pobla aciones.
†
Ésta es la a primera vez que e utilizamos la ta abla ji-cuadrada p para encontrar un valor crítico a la izquierda. Léa ase la tabla con cuidado.
Pruebas que incluyen varrianza 291 Considéren nse algunos ottros casos en los que se deb be averiguar si s las varianzas en dos poblacion nes son desiguales. Supóngase que se dan clases de Elabo oración de nud dos en el instittuto local de C Ciencias Marinas y Matrimoniales. Se preparan n dos métodoss para enseñar el nudo corred dizo, pero surge la a idea de que e el método 1 pue ede producir re esultados más erráe ticos que el método m 2. Por lo tanto, se prueba el método o 1 con un grup po de estudiantes seleccionados s al azar y el mé étodo 2 con otro grupo. Desp pués ambos grupo os se someten a al mismo exam men. Supóngase e que se obtien ne la misma media a en ambas muestras, m lo cua al significa que e los dos méto odos son, en prom medio, igualmente eficaces. Pero, P además, supóngase qu ue la varianza del grupo 1 es significativamente e más grande q que la del grup po 2. Esto indicaría a que, comparrativamente, exxiste una difere encia grande entre e los mejores estudiantes e y lo os peores en ell grupo 1. En re esumen, el método 1 es mejor pa ara los buenos estudiantes, y peor para los e estudiantes ma alos. Se puede de ecidir no utilizar el método 1 si se desea a que la clase sea uniforme. Ve eamos un ejem mplo de este tip po. PRUEBAS DE D UN EXTREM MO En estas prue ebas de un exttremo clasificam mos siempre co on un 1 a la po oblación que esp peramos que te enga la varianz za más alta. D De ahí que nue estra 2 2 hipótesis mottivada sea siem mpre σ1 > σ2 .Nuestra prueb ba estadística será s la relación
donde ponem mos en el nume erador la varian nza de la muesstra que espera amos sea mayor. Por P lo tanto, esp peramos que esta e fracción se ea mayor que 1. 1 La pregunta es ésta: ¿es significativamente mayor que 1? ? Para decidir esto, e encontramoss un valor críticco Fc en las tablas C-11, C-1 12, C-13 o C-14. La letra F se s utiliza en hon nor de Sir Ronald Fisher, que ffue un pionero en e el estudio de grran parte del material m que se e presenta en este e capítulo, en e la década de 1920. 1 La F fue e utilizada porr primera vez por el estadís stico Snedecor, en n la década de e 1930.
EJEMPLO 15-3
Tenemos dos s métodos para a enseñar a ha acer el nudo co orredizo. Quere emos saber si el método A producce calificacione es en el examen con una varia anza mayor que el e método B. Las L calificaciones en la prue eba final del nudo n corredizo parra el método A son 75, 80, 90 0, 100, 110, 120 0, 125. Para el método B son 90, 9 95, 95, 100, 100, 100, 105 5, 105, 110. Su uponemos que ambos métodoss producen callificaciones en los exámeness que son distrribuidas normalm mente.
SOLUCIÓN
Como estam mos probando p para ver si la varianza v de lass calificaciones s del método A es mayor, clasificcamos las califiicaciones del m método A como o población 1. Ca alculando con los datos ante eriores.
Introducción a la estadístic ca 292 Nuestras hipótesis h son
(prue eba de un extre emo) Nuestra prrueba estadísttica es
Ahora, parra encontrar el valor critico de e F con α = .05 5, encontramoss el número de grados g de liberrtad para el nu umerador y el d denominador: Grados de e libertad (num merador)
= n1 - 1 = 7 - 1 = 6
Grados de e libertad (den nominador) = n 2 - 1 = 9 - 1 = 8 Empleando o α = .05, vem mos el número de d la tabla que e corresponde a estos grados de libertad y enco ontramos que Fc = 3.58. Esto se ilustra en la a figura 15-5.
Observa amos que 10, el e valor F de nuestra muestra, está muy por encima e del valor crítico. Esto indica que existe una difere encia significattiva de variabilidad entre los resu ultados en el grrupo 1 y los ressultados en el grupo g 2. El método utilizado para enseñar e a hace er el nudo en el grupo 1 produ uce una división más m amplia enttre los mejores estudiantes y los peores que el método em mpleado en el grupo 2.
EJEMPLO O 15-4 4
En un juzg gado de la ciud dad Big, la sen ntencia promed dio por hurto, de d dos jueces, es aproximadam mente la misma a. Un investigador de un grup po que promueve reformas r en lass prisiones, cree e tener bases p para considerarr que el juez Herth haykum es mu ucho más erráttico en las sentencias que el juez Tharthaygo oe. El investiga ador revisa dos s muestras alea atorias de 50 sentens cias dictad das por cada u uno de estos ju ueces. Las sen ntencias dictad das por el juez Herrthaykum tuvieron m = 18.2 meses m con s = 6.1 meses, y las l dictadas por el e juez Thartha aygoe tuvieron m = 18.5 mese es con s = 3.4 meses. m ¿Es ésta una u diferencia significativa re especto a la va ariabilidad? Utilícese α = .05.
SOLUCIÓN N
Como el in nvestigador sosspecha que la varianza de lass sentencias dictadas por el juezz Herthaykum e es mayor, clas sificamos esta población de sentens cias como o 1.
Pruebas que incluyen varia anza 293 Ho: la varianza es la misma p para ambos jue eces: σ12 = σ22 2
2
Ha: la varianza para p Herthayku um es mayor: σ1 > σ 2 (prueb ba de un extremo) Po or lo tanto,
Pa ara n1 = 50 te enemos grados de libertad = n1 - 1 =49.. Para n2 = 50 0 ten nemos gradoss de libertad = n2 - 1 =49. En ncontramos en n las tablas que e Fc = 1.60 (emple eando la anota ación más cerccana). Esto se e muestra en la a figura 15-6. Com mo Fes mayor q que Fc, tenemo os evidencia su uficiente de que e el juez Herthaykum es más errático que el ju uez Tharthaygoe.
PRUEBAS DE DOS D EXTREM MOS En n los dos ejem mplos anterioress, la hipótesis alternativa a era de un extremo o 2 2 2 co on Ha: σ1 > σ2 .Por lo tanto, sabíamos de antemano a que S1 debería se er 2 mayor que s2 pa ara que aceptárramos Ha. Así que q era evidentte que teníamoss un na prueba de un extremo a la derecha con c s12/s22 com mo nuestra es stadística. Sin em mbargo, en alg gunos problem mas, la alterna ativa es de doss 2 2 2 2 ex xtremos, es de ecir, σ1 ≠ σ2 . No sabemos de d antemano ssi s1 o s2 será á mayor. Por ejem mplo: con .05 de d nivel de sig gnificancia, deb beríamos tene er un na prueba de dos d extremos como aparece en e la figura 15--7, y una F muy y ba aja o una F mu uy alta nos indicaría que deb bemos rechaza ar H0.
Introducció ón a la estadísttica 294 Es conveniente poner siempre la va arianza más grrande en el num merador de la fraccción F, y llevar a cabo todas la as pruebas a la derecha, mantteniendo sólo la mitad m de α (en este caso .02 25). Hemos prroporcionado tablas t F separada as para estas pruebas p de doss extremos.
EJEMPL LO 15-5
¿Tienen las ciudades tu urísticas de Ha arvey-Cedars y Claremont, la a misma variabilida ad en la tempe eratura? En el primer día de cada mes se registra la temperratura más alta a del día en am mbas ciudadess, durante un año. a Los datos obte enidos mostrarron que Harvey-Cedars tuvo una media de temperatura alta a de 70.2°F, ccon s = 10.8, y que Claremont tuvo una media de temperatu ura alta de 74..1 °F, con s = 15.3. Pruébesse la hipótesis de que las tempe eraturas altas en e Harvey-Ced dars y Claremo ont son igualme ente variables. Utilícese U α = .0 05.
SOLUCIÓ ÓN
Como s = 15.3 en Claremont, y s = 10.8 1 en Harveyy-Cedars, eleg gimos la mayor pa ara s1, de tal m manera que las temperatura as altas de Cla aremont son la población 1. e (prueba de dos extremos) Nuestros s grados de lib bertad para n1 = 12 y n 2 = 12 2 serán Grados de d libertad = n 1 - 1 =11 Grados de d libertad = n 2 - 1 =11 Con α = .05 en una p prueba de dos s extremos, obtenemos Fc = 3.48. Nuestro valor v de F es
Como nuestra estadístiica F es menor que el valor crítico F, no po odemos rechazar la hipótesis de igual varianza. La variabilidad d de temperaturras altas en las do os ciudades pu uede ser la missma.
EMPLEO O DE VARIANZ ZAS DE MUEST TRAS PARA HACER H INFEREN NCIAS SOBRE E MEDIAS (Una intro oducción al aná álisis de la variianza) En esta sección mostrraremos cómo o analizar varia anzas de muestra que pueden ayudar a a conte estar preguntass sobre medias de población n. Consideremoss el tipo de pro oblema que us sualmente reso olvemos media ante una prueba t de dos muestrras para compa arar medias. En n este tipo de problema p suponem mos que amba as poblaciones s son aproximadamente norrmales y que tiene en la misma varrianza. Despué és probamos la hipótesis nula que dice que tiene en medias igua ales. Si tienen medias igu uales, entoncess las dos pobla aciones son essencialmente la misma para propósitos p esta adísticos: amba as son normale es y tie-
Pruebas que incluyen varrianza 295
nen la mism ma media y la a misma varia anza. Aquí calcularemos el valor numérico de e esa varianza ccomún, y lo harremos de dos m maneras distinta as. Si la hipótesis nula es cierta (las medias so on iguales), en ntonces, de acu uerdo con la teoría a estadística, esstos cálculos distintos de la va arianza deben estar "cerca" uno del otro como o se determina a con una prue eba del cocien nte F. Veamos un caso obvio pa ara ilustrar estte punto.
Tenemos dos marcas de b brandy, brandy D y brandy E,, y queremos medir m cuántas onzas deben tomar los sujetos en esta prueb ba para que ocurra una reacción n determinada.. Supóngase que q podemos considerar, c razzonablemente que e, para empezzar, los sujetos tienen la mism ma susceptibilid dad a los efectos de los brandys. Tenemos 5 su ujetos para cad da marca. Los datos d siguientes muestran que lo os dos brandyss son muy diferrentes uno del otro.
Con estos datos d calculam mos que mD = 7.6 con sD2 = .30 y mE = 12.5, 2 con sE = .2 25. Claramente e, la marca D es mucho máss fuerte que la marca E. La can ntidad promedio o de £ que se necesita para obtener la reacción deseada es mucho m mayor q que la cantidad d promedio de D. Deseamos mostrar cómo esta diferencia puede ser obse ervada de mane era indirecta sii examinamos lass varianzas. Re ecuérdese que estamos supo oniendo que lass dos poblaciones tienen la mism ma varianza. Trrataremos de ccalcular esta va arianza con dos métodos. m SOLUCIÓN Método 1: Variabilidad Va den ntro de las mue estras Tenemo os dos muestra as del mismo tamaño de poblacio ones con la missma varianza. R Recordemos que q s2 de una mue estra es una b buena estimacción para la va arianza de una a población. Por lo tanto, tene emos dos buen nas estimacion nes de la varia anza, que son sD2 = .30 y sE2 = .25 5. Si se supone que σ12 = σ22, e es razonable em mplear 2 2 el promedio de d sE y sD com mo una buena estimación del valor de la varrianza de la població ón. Por lo tanto o, calculamos el e valor de la va arianza con
Conviene recordar nuestra definición original o de la vvarianza: la varrianza es la media al cuadrado de e un conjunto de d desviacione es, y frecuentem mente se denomina a media al cua adrado. En la mayor m parte de e los libros de texto, la varianza que q acabamoss de calcular se s llama media a cuadrada dentro de grupos, porque cada vvalor de s estuv vo basado en la a variabilidad dentro d 2 de la muestrra particular de la cual fue calculada. c sD mide la variab bilidad s 2 dentro de la a muestra Dy E mide la variabilidad dentro o de la muestrra E.
Introducción a la estadístic ca 296 2
Escribire emos sw para esta e media cua adrada dentro de d grupos, don nde la letra W ind dica "dentro":
En nuestro o caso, s w2 - .2 275. 2
En gene eral, sw es
donde N es el número o de muestras s. 2
Hemos visto v que sw es e una buena estimación de e la varianza de d dos 2 poblacione es. Además, ess cierto que sw es una buena estimación de d esta varianza, tengan t o no te engan, medias iguales las do os poblacioness. Método 2: Variabilidad en ntre las medias de las muestra as Existe otra manera m de calcularr la varianza de e poblaciones que q tengan una a varianza igua al, pero este métod do sólo proporrciona una estiimación correccta si las pobla aciones tienen tam mbién medias iguales. Cuando las poblacciones tienen medias m iguales, en ntonces este método m da aproximadamente e el mismo vallor que 2 sw . Pero cuando c las pob blaciones tiene en medias diferentes, este se egundo 2 método da ará un valor sig gnificativamentte más alto que e sw . Si nuestrras dos poblacciones normales s tienen la misma varianza y la misma media, entonces, parra propósitos estadísticos, son consideradas s como una poblacción grande. Nuestras N dos muestras m pued den ser consideradas dos muesttras de tamaño o 5 de la mism ma población. C Cuando tenemos dos muestras del d mismo tama año de una po oblación, podem mos utilizar lo que q sabemos sob bre la relación e entre la varianz za de una pobla ación y la varia anza de las mediass de muestras tomadas de esa e población. Recuérd dese lo que se e dijo del teore ma del límite central c en el c apítulo 10,
Esto es eq quivalente a
donde n es el tamaño de e cada muestrra. Nota: N ess el número de e muestras; n es el tamaño de cada muesstra. En otrass palabras, podemos encontra ar la varianza de d una població ón multiplicando n por la varianzza de las media as de muestra. Ahora, para obtener o 2 el valor exa acto de σm neccesitaríamos un conjunto infin nito de muestra as de la 2 2 población. Podemos estim mar σm calculan ndo sm para to odas las medias s de las muestras que q tengamos.
Pruebas qu ue incluyen varianza 297 En nuestro o ejemplo hem mos tomado doss muestras, assí que tenemos s dos medias de la as muestras, mD = 7.6 y mE = 12.5. Calcula amos sm2 a parttir de estos dos va alores:
2
Ahora que te enemos sm2, podemos p utilizar la idea ante erior de que σpop = ns m2 y estim mar σ 2pop con nss m 2 , para obte ener 5(12.00) = 60. Esta segu unda estimació ón de σ 2pop se denomina media cuadrada entre e grupos, porq que mide la va ariabilidad entre e las medias de e las muestras s. Escribimos sA 2 = 60, donde lla letra A índicca "entre". Nue estra fórmula es e
2
De ahí que sA es nuestra segunda estim mación de la va arianza de la pobla2 2 ción. Ahora necesitamos n co omparar sA y sw , nuestras dos estimacione es de la varianza de d la población n. Comparación n de las dos estimaciones e C Como puede im maginarse, la mejor m 2 manera de co omparar dos va alores de s es con el cociente e F. Observam mos el cociente
y lo comparamos con un vvalor crítico F.. Dijimos antess que si las me edias 2 2 son iguales, entonces σA = σw ; pero si s las medias n no son igualess, en2 2 tonces oA es mayor que σw . Nuestras hiipótesis son: 2
Ho: la varianz za determinada por sA es igual a la varianzza determinada a por 2 sw ; las medias son iguales. 2
Ho: la varianzza determinada a por sA es ma ayor que la varrianza determin nada por sw2, las medias no o son iguales (esto es siempre una prueb ba de un extre emo de las varrianzas). Para utilizarr la tabla F ne ecesitamos con nocer los grado os de libertad para el numerado or y el denominador. Los gra ados de liberta ad en el numerador son N– 1 = 2 –1 = 1 porqu ue sA2 fue calcu ulada según una lista de doss medias. Los gra ados de libertad en el denominador son 8, p porque unimos dos
Introducció ón a la estadístic ca 298 valores de e s2, cada uno con grados de e libertad = 4. E Empleamos gra ados de libertad = (n1 - 1) + (n2 - 1). Para estoss dos valores de d grados de libertad con α = .0 05 , obtenemo os F c = 5.32. Se pued de observar qu ue F es mucho mayor que el vvalor crítico, qu ue es lo que esperrábamos, ya qu ue las dos mue estras no son ssimilares. Un va alor alto de F indic ca que existe una u gran variab bilidad entre las medias de muestra, m pues las medias m de las muestras m no so on similares en n cuanto a su valor; v es decir, un valor alto de F indica que las muestras provienen, probablemente, de e poblaciones con medias diferentes.
EJEMPLO O 15-7 7
Repitamoss el problema del brandy, pe ero esta vez tom memos valoress de las muestras para mostrar q que las dos marcas son práccticamente iguales en grados alccohólicos. Supongamos otra vez que amba as variables están distribuidas cerca c de la normal con varia anzas iguales.
2
2
Ahora ten nemos mD = 7.6 con sD = .3 30 y mE = 8.2 ccon s £ = .70 y N = 2 ya que tenemos dos muestras con n n 1 = 5 y n 2 = 5.
SOLUCIÓN N
Método 1::
Media cuad drada dentro de d los grupos
Método 2:
Media cua adrada entre lo os grupos
Pruebas que e incluyen varia anza
299
Grados de lib bertad (nume rador)
= N — 1 =2 — 1 = 1
Grados de li bertad (deno minador) = (n n 1 - 1) + (n 2 - 1) = 4 + 4 = 8
F c = 5.32 Comparación n de estimacion nes
Como se puede advertir, F e es ahora más pequeña que Fc. Esto se deb be a 2 que sA , la me edia cuadrada entre grupos, disminuyó d de 60 6 a .80, hacie endo que el valor de el numerador e en la fracción F fuera más pequeño. Por lo ta anto, el numerador de F disminuyye cuando las medias m de las muestras llega an a ser más pare ecidas y aumen nta cuando lle egan a ser más variables. Si se encuentra que las medias de muestra so on lo suficienttemente variab bles para hacer qu ue F sea mayo or que Fc, esto o es un buen indicio de que e las muestras vien nen de poblacio ones con mediias diferentes. Por lo tanto, si s se obtiene una F mayor que Fc, se puede rech hazar una hipóttesis nula que diga d que las media as de població ón son iguales. Estas prueba as F son esenc cialmente de un extremo. Las h hipótesis son, 2
Ho: la varianza a determinada a por sA es igu ual a la varianza determinada a por 2 sw Ha: la varianza a determinada por sA2 es may yor que la varia anza determinada por sw2 2
2
Hemos vistto que sA será á significativam mente mayor qu ue sw cuando o las medias de mu uestra no sean iiguales. Por lo tanto, t las dos h hipótesis anterio ores son equivalen ntes a: Ho: las media as de población son iguales Ha: las media as de población n no son iguale es Así, una prue eba de dos extremos de med dias puede llevarse a cabo co omo 2 2 una prueba F de un extremo o, comparando o sA y sw . Este método de comparació ón de medias, examinando la as varianzas, es e la versión más simple s de un método estadístico llamado aná álisis de varia anza (andeva, en forma f abreviad da). Una venta aja que tiene so obre las pruebas t es que no está limitado a la a comparación n de dos muesstras. Véase el e siguiente ejemp plo para una pru ueba que pregu unta: ¿Son tres medias iguales s?
EJEMPLO 15-8
Supóngase que un fabrican nte profesional de lluvia admin nistra la compa añía Seedy Cloud. Hasta ahora h ha pensado en tres métodos diferentes para a difundir sustanc cias químicas e en las nubes y desea saber ssi existe alguna a diferencia en lo os resultados de estos tres métodos. Utiliizando andeva a se puede probarr la hipótesis nula, n H0: µ1 = µ2 = µ3. Un vallor alto de F, hará h rechazar esta a hipótesis, pue es se tendrá ev videncia de que e no todos los métodos son iguales. (Pero, ¡té éngase cuidado o! Esto no significa que todos son diferentes, sin no que por lo m menos uno de lo os métodos es d diferente del re es-
Introducció ón a la estadísttica 300
to.) Estoss son los resultados que obtuvo después de e probar cada método m 6 veces. La cantidad de e lluvia se midió en milímetro os. método 1
media varianza a
método 2
método 3
12
10
8
12 13 13 12 13
11 10 12 12 10
10 11 12 10 10
12.5
10.83
.30
10.17
.97 7
1.77
Con esta información e encontramos que q m1 = 12.5 con s12 = .30 0, m2 = 2 2 10.83 con s2 = .97 y m3 = 10.17 con c S3 = 1.77 7. Utilizando α = .05, pruébese la hipótesis de e que todos los métodos producen el mismo promedio de pre ecipitación pluvvial. SOLUCIÓN
Suposició ón
Las tres p poblaciones son n normales y con la misma va arianza.
Ha: no tod das las µ son iguales
(sie empre una pru ueba de un exttremo)
Método 1: 1
Media cua adrada dentro de grupos
Método 2: 2
Media cua adrada entre grupos g
Compara ación de estima aciones
Grados de libertad (numerador)
= N - 1 = 3 - 1 = 2
G r a d os d e l i b e r t a d ( d e n o m i n a d o r ) = ( n 1 - 1 ) + ( n 2 - 1 ) + ( n 3 - 1 )
Fc = 3.68 8
=55 + 5 + 5= 15
Pruebas que incluyen varrianza 301
Por lo tanto, podemos rech hazar la hipótessis nula. Los mé étodos para pro oducir lluvia no son todos iguale es. ALGUNOS COMENTARIO OS Esta última sección, en la cual empleamo os varianzas para probar hipó ótesis sobre media as de població ón, es un aspecto de un méto odo muy utiliza ado y que generalm mente se denomina análisis de d varianza. Hemos ilustrado sólo s el caso donde todas las muesstras son del mismo m tamaño y donde suponemos que existe sólo s un factor rresponsable de e las diferencia as que observe emos. Por ejemplo o, en el caso del d brandy sup pusimos que la as diferencias en el tiempo que tardaba t la reacción se debían al tipo de brandy y no a la hora del día en que se realizó la p prueba o a la música m que se estaba tocand do de fondo, etc. El tipo de mé étodo que hemos ilustrado suele ser llamado análisis de varianza v de un n sentido. Pero también se ha an desarrollado o procedimientos para tomar en n cuenta muesttras de diferenttes tamaños y factores de influ uencias múltiples. Estos pro ocedimientos m más avanzado os de andeva son importantes p para los investigadores y se p presentan en textos t más comple etos.† GUÍA DE ES STUDIO VOCABULA ARIO 1. Análisis de d varianza 3. Media cu uadrada dentro o de grupos 5. Andeva
2. Prueba de l cociente F 4. Media cua adrada entre grupos
SÍMBOLOS 1. Fc
2. sw2
4. n
5. N
3 . sA2
FÓRMULAS S
†
Por ejemplo, puede verse W.J. W Dixon y F.J. Massey, Jr., Introduction to Sta atistical Analysis, 3a. 3 ed., McGraw w-Hill Book Comp pany, New Yorkk, 1969.
Introducción n a la estadísticca 302 EJERCICIO OS 15-1 En n el capítulo 11 1 hicimos dos suposiciones s accerca de las po oblaciones cuando o llevamos a cabo c la prueba a t para dos mu uestras. Ahora a podemos utilizzar la prueba a del cocientte F para pro obar una de estas suposicion nes. ¿Cuál es e esa suposición n? 15-2 Utilícese U α = .0 05. a) Pruébe ese la hipótesiss de que los pe esos de seis cajas de cereal Soggy Morning provienen de una distribución n con varianza a de .30.
b) Supóng gase que los pesos están dis stribuidos norm malmente y pruébese la hipótesiis de que la media de peso es e 453.1 gram mos. 15-3 Donn na Shore anotó ó el punto máx ximo de marea a alta, todos lo os días del mes de e julio, en una playa. Ella hizo o esto elevando o un palo en la a arena para marca ar el punto hasta donde llegab ba el agua en la a playa, directa amente enfrente de una bandera a permanente.. Después mid dió la distancia a de la bandera al palo. a) Con α = .05, ¿tiene ella suficient e evidencia d e que la desv viación estándar de d las marcas de la marea alta en la playa es más de 5 pies, si sus resulttados promediiaron m = 150 0 pies con s = 8 pies? b) Suponiendo que las distancias está án distribuidass normalmente e, pruébese la hip pótesis de que la distancia me edia es 125 pie es. Empléese α = .05. 15-4 El E Dr. Lazar Beame, pediatra en un gran hospital de maternidad, le dice a su hijo que anotte el número de e horas que duerme un bebé, durante sus prim meras 24 horass de vida. Esto os son los resu ultados que el hijo de Beame anotó para 10 niños: 18.6, 16.2 2, 22.4, 17.9, 18.9, 1 20.1, 17.0 0, 18.8, 19.0, 21.4 4. Supóngase que los datos están distribu uidos normalm mente y pruébense e las siguiente es hipótesis. Empléese E α = .01. a) La varianza es igual a 4 b) µ = 18 horas 15-5 El co onocido antropólogo Dr. Sanfford Q. Krotche, tomó una se erie de medidas: a) Midió el e tamaño de cierto c hueso de d los brazos de 10 varoness adultos, que acababa a de de esenterrar. ¿E Están de acue erdo las medid das de Sandy con n sus hipótesis de que la dessviación estánd dar del tamaño de estos huesoss es de 10 mm? Pruébese co on α = .05 si loss tamaños de lo os huesos, en mm m, son: 150, 160, 152, 157, 159, 148, 152 2, 153, 156 y 138. b) Sandy encontró desp pués que el ta amaño de un h hueso similar, en un primate de esconocido, fue e de 162 mm. Si S suponemos que los tamañ ños de estos huessos están distrib buidos normalm mente, con una a desviación estándar de 10 mm y una media, m m, obtenida en la parte a), ¿cu uál es la probab bilidad de encontrrar un hueso ta an largo como o 162 mm. (Es decir, de 162 mm o más)? 15-6 V Vuélvase a leer el ejercicio 11-4. Con α = .05 5, pruébese la afirmación de qu ue la desviació ón estándar ess menor que 2 mm. 15-7 V Vuélvase a leerr el ejercicio 11 1-5. ¿Es razona able, con .05 de d nivel de significcancia, supone er que σ es me enor que 10? 15-8 V Vuélvase a leerr el ejercicio 11-6. ¿Es razona able suponer, con c α= .05, que eres mayor que e 15?
Pruebas que incluyen varianza
303 15-9 Vuélvase a leer el ejercicio 15-7. Sí se afirmó que los oficiales de policía son muy similares entre sí en altura, con una desviación estándar de no más de una pulgada, ¿se puede corroborar esta afirmación con los datos que se dieron? Empléese α = .05. 15-10 Vuélvase a leer el ejercicio 11-8. Empleando α= .01, pruébese la hipótesis de que la varianza en la calificación de los psicólogos es la misma que la varianza del público en general. Esta varianza es 64. 15-11 Para los siguientes ejercicios del capítulo 11, compruébese la suposición de que las varianzas de las dos poblaciones muestreadas son iguales. Empléese α = .05. a) 11-15 b) 11-16 c) 11-17 d) 11-18 15-12 Dos mecanógrafos, Martin y Marvin, escriben en promedio 60 palabras por minuto. Ambos fueron examinados 10 veces y sus puntuaciones se muestran a continuación. Empleando α = .05, pruébese la hipótesis de que sus puntuaciones son igualmente variables.
Martin
Marvin
50 55 60 65 62 50 51 60 62 65
52 57 50 64 65 66 56 61 67 66
15-13 Cierta sustancia química fue aplicada a las raíces de 20 plantas de maíz y 20 plantas de avena. 24 horas más tarde se midió la concentración de la sustancia en el tallo de las plantas. Empleando α = .01, pruébese la hipótesis de que la sustancia actúa de una manera más irregular en las plantas de avena que en las plantas de maíz. Se encontró que la concentración media de la sustancia, en las plantas de maíz, fue de 440 unidades con S = 40 unidades, y la concentración media de la sustancia en las plantas de avena fue de 620 unidades con s = 100 unidades. 15-14 Los doctores Robín y Jay Byrde estaban estudiando la producción de néctar en las flores de jazmín trompeta. Descubrieron que la flor produce dos tipos diferentes de néctar, uno que atrae hormigas y otro que atrae colibríes. En el transcurso de su estudio tuvieron que medir las alturas de los peciolos y las corolas de las flores. Robín midió 120 peciolos y Jay midió 200 corolas. ¿Se puede justificar su afirmación de que ambas son igualmente variables en altura, si s = 20 unidades para los peciolos y s = 25 unidades para las corolas? Empléese α = .05. 15-15 Tres científicos estaban investigando la posibilidad de desarrollar una píldora para curar el "retraso de avión". Trabajando con ratas de laboratorio, encontraron que una droga (teofilina), podía ocasionar aproximadamente 18 horas de avance en el ritmo de la rata. Otra droga (fenobarbital), hacía que el ritmo se atrasara en aproximadamente 12 horas. Cada droga se le dio a 10 ratas, después de que las ratas se habían ajustado
Introducción a la estadística 304
a un horario específico. Empleando α = .01, pruébese la hipótesis de que estas píldoras son igualmente variables en sus efectos, si los resultados mostraron que la teofilina tuvo una media de promedio de cambio de + 18.2 horas, con una variabilidad de 1.3 horas y el fenobarbital tuvo una media de promedio de cambio de -12.1 horas, con una variabilidad de 2.4 horas. 15-16 En años recientes ha habido mucho interés médico sobre los efectos del ejercicio continuo en los ciclos menstruales de las mujeres. Un estudio comparó 3 grupos de mujeres con características similares, excepto por la cantidad y la intensidad con que corren regularmente. Los grupos se clasificaron en: corredoras, trotadoras y control (que no hacían nada de ello). Cada mujer contribuyó con datos durante un año, incluyendo el número de periodos menstruales que había tenido. Los resultados fueron los † siguientes. corredoras número promedio m de menst. desviación estándar n
9.1 2.4 26
trotadoras 10.1 2.1 26
control 11.5 1.3 26
¿Es esta evidencia suficiente, con α = .01 para indicar que el ejercicio continuo afecta la frecuencia de la menstruación? 15-17 Una agencia de publicidad preparó tres muestras diferentes para exposición, de un producto. Para comparar su eficacia, se probaron en 15 tiendas similares: 5 tiendas tuvieron la exposición 1, 5 tuvieron la 2 y 5 la 3. Las exposiciones se dejaron en cada tienda durante una semana y se anotó el número de ventas del producto en cada tienda. Empléense los siguientes resultados para probar, con α = .05 si existe una diferencia estadísticamente significativa en la media de las ventas, según la exposición presentada. exposición 1
exposición 2
47
41
46
47 52 50 49
45 47 40 47
46 54 49 46
m = 44
m = 48.2
s = 2.12
s = 3.3
s = 3.5
m = 49
exposición 3
15-18 Se realizó un estudio para ver si las aves migratorias son sensibles a los campos magnéticos. Se construyó una jaula circular grande, alrededor de un radio transmisor y un sistema de antenas. Poco a poco, 51 aves fueron puestas en la jaula cuando el transmisor estaba apagado. Después de 5 minutos en la jaula, se anotó la dirección en que cada ave †
Datos obtenidos de un estudio de Dale et al., "Menstrual Dysfunction in Distance Runners", citado por S. Glantz en Primer of Biostatistics, McGraw-Hill Book Co., New York, 1981.
Pruebas que e incluyen varia anza 305
miraba, con referencia r a un na brújula. Se encontró que la dirección media m fue de 151°, con una desvviación estándar de 65°. Después se puso o en marcha el tra ansmisor, crean ndo un campo magnético no natural. Se vo olvieron a poner las aves en la jaula y se tom maron las medidas otra vez. Esta vez, la direcc ción media fue de 189° con s = 80°. ¿Es essta diferencia en e la dirección me edia significati va con α = .05 5? a) Llévese a cabo esta pru ueba como un na prueba de la as medias de dos muestras. b) Llévese a cabo esta pru ueba empleand do técnicas andeva. 15-19 Algunos científicos estaban estu udiando el pro oceso mediantte el cual un tipo de d huevo de almeja era usualmente fertiliza ado por un solo o esperma, cuand do había much hos espermas. Pusieron una a suspensión igual de huevos de e almeja en 15 5 tubos de ensa ayo que contenían agua de mar. m Después prep pararon dos co oncentraciones de esperma de e almeja, a las que llamaron con ncentración bajja y concentra ación alta. A cada tubo o le añadieron la concentració ón baja de la e esperma de alm meja. Después de 5 segundos, añ ñadieron la conc centración alta a a los tubos 1, 2, 3, 4 y 5, y 5 seg gundos más tarde añadieron la concentración alta a los tu ubos 11, 12, 13, 14 4 y 15. Anotarron, para cada a tubo, el núme ero de huevos que habían sido fe ertilizados por más m de un espe erma. Los resulttados se presentan en la siguientte tabla. Empléense las técniccas de este cap pítulo para mos strar que existe menos m de 1% de probabilida ad de que lass diferencias entre e estos tres gru upos se deban solamente a la casualidad. ¿Se ¿ puede sug gerir una explicación para lo que e está pasando? Concentració ón alta añadida a en los primeros 5 segundos 800 820 798 808 790
Concentrración alta aña adida en lo os siguienttes 5 segund dos 700 0
Concentración alta añadida a en n los últim mos 5 segu undos 4 40
704 4 685 5 680 0 720 0
32 3 3 31 3 39 4 46
15-20 El biólogo persa Dr. Isara Kaz pen nsó que cierto tipo de ratones de laboratorio tie ene preferencia as por el alcoho ol genéticamente determinada as. A continuación se presentan sus s resultados para cuatro tip pos de ratones.
¿Existe una diferencia d significativa en la cantidad c media a de alcohol co onsumido, con .05 5 de nivel de significancia? El E experimento se lleva a cabo o colocando dos recipientes, u uno para agua y uno para alcohol en la jau ula y midiendo desspués la cantidad que toman diariamente de e cada uno los diferentes tipos de d ratones. To odos los valore es de m y s se anotan en ml por
Introducció ón a la estadística 306
gramo. Po or ejemplo, cua ando decimos m1 = .13 ml por gramo, esto o quiere decir que para los ratone es de tipo 1, ell promedio de cconsumo es .13 ml de alcohol po or día, por cada gramo de su u peso. 15-21 En un experimento llevado a ca abo por la com mpañía vitiviníccola Julius Caesa ar Inc., tres varriedades de uvva, diferentes p pero similares, se utilizaron parra hacer cierto tipo de vino. Al final se mid dió la acidez del vino. Empleand do α = .05 pruébese la hipóttesis de que n no hay una differencia significativva en la acidezz. Los resultado os para cada ttipo de uva son n los siguientes.
ENCUESTA DE CLASE E Llévese a cabo una prueba para ver si s la varianza d de las estaturas de los hombres en e una escuela a es igual a la varianza de lass estaturas de las mujeres. PROYEC CTO DE CAMPO Obténgan nse dos muesttras, con datos s similares, de dos poblaciones y llévese a ca abo una prueba a para ver si las s varianzas en estas poblacio ones son las misma as. Obténg ganse tres mue estras y llévese a cabo una pru ueba con ande eva para medias de d población iguales.
Pru ueba as n no parramé étric cas En la mayor parte p de este llibro hemos he echo hincapié en que, para llevar a cabo prueb bas de hipótessis, necesitamo os elaborar ciertas suposiciones específicas so obre el tipo de d distribuciones de d las cuales to omábamos nuestras muestras. Po or ejemplo, para llevar a cabo pruebass t necesitába amos suponer que las poblacioness eran aproximadamente norm males. En la prueba t de dos mue estras necesitábamos supone er, más especííficamente, que e las varianzas de las dos poblacciones eran igu uales. Una parrte importante de la estadística tie ene que ver ccon pruebas para p las cuale es no necesita amos elaborar supo osiciones espe ecíficas. Estas pruebas se de enominan no parap métricas o pruebas indepe endientes de la distribución. Generalme ente, estas pru uebas se utiliz zarían si una p prueba paramé étrica no fuera apro opiada. Esto p podría pasar, por p ejemplo, si se estuviera trabat jando con un na distribución no normal, o con una distribu ución cuya form ma no fuera todavía a evidente. Tam mbién podría su uceder que se estuviera e trabajjando con algún tip po especial de e datos para lo os cuales no exxistiera una prrueba paramétrica apropiada. Un tipo de e datos, los llam mados datos orrdinales, es el empleo de núm meros para colocarr algo en orden n de rango. Muchas M encuesstas de consum mo piden a las personas que ord denen una cosa u otra. Por e ejemplo, se le podría p dar a varias personas una a muestra de tres t marcas de e goma de ma ascar, pidiéndoles que q las ordena aran del más preferido al menos preferido o. Los datos serían, entonces, una colección de e números 1,2 y 3. Estos núm meros no deben co onsiderarse me edidas ordinaria as, ya que no podemos interpretar estas catego orías tan exactamente com mo las medida as. Por ejemp plo, sí la marca A está e clasificada a como número 1 (preferida)) y la marca B como
Introducción a la estadística 308
número 2 (próxima a la preferida), no podemos determinar si alguien pensó que la marca A era un poco mejor que B o mucho mejor que B. Hemos indicado en los párrafos anteriores que existen ocasiones en que los métodos paramétricos comunes no son correctos, o los mejores. Hay muchas pruebas no paramétricas especiales, que han sido desarrolladas para estas situaciones. En este capítulo vamos a mencionar sólo tres casos sencillos; si se está interesado en más, consúltese un texto sobre estadísticas no paramétricas. Una aclaración es pertinente. En general, si se tienen datos para los cuales existe una prueba paramétrica apropiada, entonces esa es la prueba que se debe utilizar. Será una prueba más fuerte porque toma en cuenta ciertas características sobre la distribución de los datos (que es la de forma normal, por ejemplo), que ignoraría una prueba no paramétrica. Algunos estudiantes preguntan: "¿qué pasa cuando empleo una prueba paramétrica, aunque mis datos no reúnan los requisitos apropiados?" Actualmente se están llevando a cabo muchos estudios sobre la eficacia del funcionamiento de varias pruebas estadísticas cuando las poblaciones no reúnen los requisitos teóricos. Por ejemplo, en nuestra introducción al análisis de varianza en el capítulo 15 supusimos que nuestras poblaciones eran aproximadamente normales. Por lo tanto, andeva es una prueba paramétrica. Pero algunas investigaciones han mostrado que, muchas veces, sus resultados son confiables aunque las poblaciones no sean muy cercanas a la normal. La idea de medir la eficacia del funcionamiento de una prueba estadística, cuando violamos alguna de las suposiciones teóricas, está asociada con el concepto de robustez. Una prueba es robusta si funciona bien aunque las suposiciones teóricas sean violadas. Existen muchas pruebas no paramétricas que se utilizan comúnmente; hemos seleccionado sólo tres para utilizarlas como ejemplo. Esperamos que con esto se tenga una idea de cómo funcionan. Estas pruebas se han derivado de la teoría de probabilidad elemental, analizando todos los patrones posibles de resultados experimentales. Ilustraremos las siguientes pruebas. 1. Una prueba del signo para dos muestras de datos pareados. 2. Una prueba de la corrida, útil para probar si ciertos patrones de resulta dos experimentales son aleatorios. 3. La prueba U de Mann-Whitney para comparar dos muestras.
LA PRUEBA DEL SIGNO PARA DATOS PAREADOS
EJEMPLO 16-1
Patricia McZirk, la decana de una escuela de teología, está pensando establecer un curso diseñado para aumentar la velocidad de lectura y la comprensión. Selecciona 13 estudiantes al azar para probar este curso. Los estudiantes terminaron el curso y fueron examinados el día que finalizó. Después sustentaron otro examen un mes más tarde, para ver si habían mantenido el nivel alcanzado. La decana esperaba que sus calificaciones disminuyeran. Los resultados se muestran en la tabla 16-1.
Pruebas no paramétricas 309 Supóngase ahora que tenemos razones para creer que las dos distribuciones de calificaciones de lectura no son normales. Entonces, no podemos llevar a cabo una prueba t de las diferencias pareadas de las medias. Sin embargo, sin que importe cuál sea la forma de las distribuciones, podemos razonar de la siguiente manera: la hipótesis nula supone que las dos muestras están tomadas de la misma población; por lo tanto, si ignoramos cualquier par de datos en los cuales las calificaciones de las dos pruebas son las mismas, es tan probable que X sea mayor que F como lo es que X sea menor que Y. Si sustituimos cada par de valores en los cuales X es mayor que Y, con un signo positivo y cada par de valores en los cuales X es menor que Y, con un signo negativo, la hipótesis nula nos induce a esperar, aproximadamente, el mismo número de cada tipo de signo.
Tabla 16-1
X
Y
estudiante
calificación al finalizar el curso
calificación después de un mes
Abraham
50
52
Balaam Caín David Esther Félix Gideon Hosea Israel Job Keturah Laban Moses
48 46 50 62 80 23 30 45 53 49 51 46
51 46 49 50 70 21 33 46 53 48 48 48
Por lo tanto, hemos cambiado el problema a una prueba de hipótesis binomial sobre signos, donde p = P(un signo positivo) = .05. Nuestros datos se pueden presentar ahora como en la tabla 16-2. Tabla 16-2
estudiante
signo
estudiante
signo
Abraham
–
Hosea
_
Balaam Caín David Esther Félix Gideon
_ 0
Israel Job Keturah Laban Moses
– 0
+ + + +
+ + -
Adviértase que si X = y, escribimos 0 para el signo. Ignorando los pares de calificaciones que corresponden a Job y Caín, ya que tienen un cero, tenemos una prueba de hipótesis binomial con p = . 5 y n = 11. Ahora procedemos de la manera siguiente.
Introducc ción a la estadís stica 310 SOLUCIÓ ÓN
Dejemoss que p = P(un n signo positivo o). Ho: el núm mero de signoss positivos es igual al número o de signos neg gativos, p = .5. Ha: habrá á más signos p positivos que negativos, p > .5 5 trem mo)
(prueba de e un ex-
Como np p = nq = 5.5 > 5, tenemos una u distribución normal de éxitos, é y para α = .01 el valor c rítico es zc = + 2.33. Por lo tanto,
S c = µ + zσ = 5.5 + 2 .33(1.66) = 8.4 8 Nuestra regla r de decisió ón será rechaza ar H0, si obtenemos más de 8.4 4 signos positivos. Como nuesttro resultado es e 6 signos positivos, p no podemos p rechazar H0. No hemoss podido demo ostrar que las habilidades en n lectura han dism minuido despué és de 1 mes.
EJEMPL LO 16 6-2
Tabla 16-3
Una classe sustentó un examen bajo una supervisió ón estricta. A pesar p de que no se e hizo ninguna advertencia esspecífica sobre copiar, era cas si seguro que nadie e haya podido copiar c o haya copiado. c Al día siguiente se le e dijo a la clase qu ue, como algu unos de ellos habían copiado, se les ha aría otro examen con c varios mae estros en el salón. La tabla 16 6-3 muestra las s calificaciones pa ara ambos exá ámenes.
estudiante
X 1er. día X,
Y, 2o. 2 día
estudiante
X, 1err. día
Y, 2o. díía
Ellington E
70
6 66
Mancin ni
84
84
Lombardo L Prima P Dorsey D Basie B James Kostelanetz K Bach B
43 91 89 73 64 51 83
39 8 85 92 72 63 40 8 88
Alpert Severinsen Welk Floren Cugat Duchin n
78 92 83 75 73 89
70 69 84 74 72 83
¿La adve ertencia provo ocó que bajara an las calificacciones en el exxamen? Utilícese e α = .05. SOLUCIÓ ÓN
Dejemo s que p = P(X X > Y). H o: la ad dvertencia no afectó las caliificaciones p = .5. Ha: la advertencia a pro ovocó que las calificaciones c b bajaran, p > .5 (pru ueba de un exttremo) Nuestross datos se pue eden presentar como lo mue estra la tabla 16-4.
Pruebas no paramétricas 311
Tabla
estudiante
Signo
Ellington Lombardo Prima Dorsey Basie James Kostelanetz Bach
+ + + -
estudiante
signo
16-4
+ + +
Mancini Alpert Severinsen Welk Floren Cugat Duchin
-
0
+ + -
+ + +
Ignorando el par de calificaciones para Mancini, que fueron las mismas, tenemos n = 14, np = nq = 7 > 5, µ 7, σ = √7(5) = 1.87. Por lo tanto, Sc = 7 + 1.65(1.87) = 10.1. Nuestra regla de decisión será rechazar la hipótesis nula si nuestro resultado es más de 10.1 signos positivos. Nuestro resultado es 11 y podemos rechazar la hipótesis nula. La evidencia nos indica que la advertencia hizo que las calificaciones del examen bajaran. EJERCICIOS 16-1 Si nos dan datos de dos muestras, algunas veces es conveniente llevar a cabo 1) una prueba del signo para dos muestras 2) una prueba de comparación de medias para dos muestras 3) una prueba t para pares pareados. ¿Por qué prepararon los estadísticos estas tres pruebas diferentes? ¿Cómo se puede decidir cuál debe utilizar? 16-2 Se llevó a cabo una prueba para comparar la eficacia del fertilizante^ con la del fertilizante B. En una temporada, doce árboles de peras fueron tratados con la marca A en un invernadero de temperatura controlada. Durante la temporada siguiente se les trató con la marca B. El número de canastas de peras, para cada árbol, fue: número del árbol
primera temporada
segunda temporada
1
1.5
2.0
2 3 4 5 6 7 8 9 10 11 12
2.0 1.5 3.0 2.5 2.0 2.0 2.5 3.0 1.5 1.0 2.0
2.5 1.5 2.5 2.0 1.5
2.5 2.0 (muerto) 1.0 1.5 1.5
Llévese a cabo una prueba del signo de dos muestras para datos pareados con esta información. Empléese α = .05.
Introducción a la estadística 312 16-3 Todos los estudiantes de primer año se pesan al inicio de clases en septiembre. El profesor Haman Deggs tiene a su cargo una clase de nutrición. Al finalizar el semestre, le pide a sus alumnos que se pesen otra vez. Haciendo una prueba con .05 de nivel de significancia, dígase si la variación en estos pesos es al azar. número peso en de estudiante septiembre
peso en diciembre
número peso en peso en de estudiante septiembre diciembre
1
140
137
11
75
81
2
112 176 98 180
110 210 98 165
140
210 193 145 144 139
193
145 150 185
12 13 14 15 16 17
212 189 140 142 139 164 159
128
129
102
101
3 4 5
6 7 8 9 10
154
18 19 20
180 165 98
97 136
141
a) Llévese a cabo una prueba del signo para dos muestras. b) Supóngase que los pesos están distribuidos normalmente y llévese a cabo una prueba t para pares pareados. 16-4 ¿Obtienen mejores calificaciones en Física que en Matemáticas los estudiantes de Medicina de la escuela Leach? Las calificaciones del examen final, para una muestra aleatoria de estos estudiantes, se dan a continuación. Empléese α = .05. estudiante
Matemáticas
Física
estudiante
Matemáticas
Física
Korn, A.
90
95
Lash, I.
78
78
Tropey, N. Shorr, C. Frost, D. Lope, E. Kupp, T. Nee, G. Bohr, R.
78 80 81 94 30 63 70
76 83 82 90 31 60 78
Ective, F. Sera, K. Bow, L. Knott, Y. Cleaf, O. Kann, P. Kneeaform,
90 87 78 72 99 70 Q.
60 94 83 48 98
80 78
a) Hágase una prueba empleando la prueba del signo para dos muestras. b) Supóngase que las calificaciones están distribuidas normalmente y empléese la prueba t para pares pareados. 16-5 De los estudiantes de Geometría del Sr. Abel Reimann, 70 habían tomado sus clases de Álgebra el año pasado. Para comparar sus calificaciones en estas dos materias, cambió sus calificaciones a valores z y calculó las diferencias de sus calificaciones de Álgebra menos las calificaciones de Geometría. Así obtuvo 40 signos positivos, 25 signos negativos y 5 ceros. Pruébese con el .05 de nivel de significancia. 16-6 Dado que 13 plutonianos tienen más brazos que piernas y 3 tienen el mismo número de brazos que piernas, pruébese con α = .01 si la
Pruebas no paramétricas 313 población plutoniana se divide igualmente entre aquellos que tienen más brazos y los que tienen más piernas. 16-7 Como la mitad de los valores quedan por encima de la mediana y la otra mitad por debajo, podemos utilizar un razonamiento similar al utilizado en una prueba del signo para dos muestras, con el objeto de probar la hipótesis de que la mediana de una población es un número dado. Un signo positivo corresponde a un valor por encima de la mediana y un signo negativo corresponde a un valor por debajo de la mediana. Empléese este método para resolver el siguiente problema. Eve Wormwood empaca manzanas con una mediana de 8.5 manzanas por caja. Wormwood toma unas muestras de algunos paquetes de su competidor, Adam Upright, y encuentra los siguientes números de manzanas por caja: 10, 12, 8, 7, 15, 9, 8, 7, 12, 8, 8, 9, 9, 9, 9, 10, 12, 7, 8, 15, 14, 18, 12, 6, 8, 9, 9 y 8. ¿Deben convencer estos datos a Wormwood de que la mediana de Upright es mayor que la suya? Empléese α = .05. 16-8 ¿Es la mediana de las edades de los maestros en la Universidad Gray, igual a 62 años? Pruébese con a - .05 si una muestra de los maestros tuvo las siguientes edades: 25, 47, 53, 53, 58, 59, 61, 62, 62, 65, 66, 66, 66, 73, 81, 85 y 94. 16-9 Lloyd es el encargado de un puente levadizo, de 10 p.m. a 6 a.m. Su trabajo no es muy interesante. Él nota que cuando levanta el puente, muy rara vez interfiere con el tránsito, aun cuando levante el puente varias veces por noche. Él empieza a preguntarse si la mediana del número de veces que la circulación es interrumpida en una semana es menor que 1. Notó que durante las últimas 60 semanas la circulación no fue interrumpida en 30 de ellas, en 20 de esas semanas el tránsito fue interrumpido una vez y en las 10 restantes fue interrumpido más de una vez. Pruébese con el .01 de nivel de significancia. 16-10 Supóngase que tiene una prueba del signo de datos pareados, con 20 pares que no son ceros. En una prueba de un extremo a la derecha, ¿cuál es el número más pequeño de signos positivos que hará que rechacemos H o si α = .05? LA PRUEBA DE LA CORRIDA PARA ALEATORIEDAD Ida Noh, una experta en seguridad, ha estado controlando su radar detrás de un cartel comercial. Cada vez que pasa un coche a la velocidad permitida o a menor velocidad, escribe una S para indicar que va despacio. Cada vez que pasa un coche a más de la velocidad permitida, escribe una F para indicar que va rápido. Los resultados para 40 automóviles fueron:
SSFFFFSSSSSSSSSFSSFF FFSSSSSSSFFFFSSSSFSS Ida quiere saber si la presencia de coches que van a más velocidad de la permitida y de aquellos que van a la velocidad permitida, es al azar. Es decir, ¿aquéllos que exceden el límite de velocidad tienden a venir en grupos? Para comprobar esto, ella separa las series de resultados en corridas de S y corridas de F, de la manera siguiente:
SS F F F F SSSSSSS
SSSSSSSSS F SS F F F F F F F F SSSS F SS
Introducción n a la estadístic ca 314 Así obtiene e 11 corridas. S Si dejamos que e n1 sea igual al a número de co orridas S, n2 igual al número de e corridas F, y R igual al número n de co orridas, entonces n 1 = 26, n 2 = 1 14 y R = 11. Ésta es sólo s una de lass posibles maneras en que su us corridas de 26 S y 14 F podían n haber sido orrdenadas. Algú ún otro orden podría haber oc currido, dando tal vez v por resulttado un núme ero diferente d de corridas. As sí que podemos ha ablar de R, el número n de corriidas, como una a variable aleato oria. Si obtuviéramo os combinaciones aleatorias de 26 S y 14 4 F, repetidas veces, terminaríam mos con una d distribución de R. La mediia del número de corridas, cu uando se orden nan aleatoriam mente n1 artícu ulos de un tipo o y n2 artículos de otro tipo, e es
En este cas so
La desv viación estánda ar del número de corridas ess
En este ca aso
Además, la distribución n de R es aprox ximadamente n normal si amba as, n1 y n2 son may yores que 10. Por lo tanto, la Srita. Noh tiene
Ho: autos s que van aprissa y autos que e van despacio o llegan al aza ar Ha: autos que q van aprisa a y autos que van v despacio, no llegan al azar. Ésta es una a prueba de do os extremos ya a que podría ha aber demasiad das corridas, o mu uy pocas, si no o son al azar. Probando P con .0 05 de nivel de significancia, ten nemos
Rc = µR + zc σR = 19.2 ± 1.96(2.83) = 13.6 1
y
24.8
La regla de e decisión será rechazar la hip pótesis nula si el e resultado es menor que 13.6 o mayor que 24.8 corridas. Si S obtiene men nos de 13.6 co orridas, concluirá que q los automó óviles que van aprisa y los que q van despa acio no llegan al azar, a pero parrecen venir en n grupos. Si o obtiene más de 24.8 corridas, co oncluirá que lo os automóviles que van apris sa y los que va an despacio no lle egan al azar, p pero tienden a alternarse. Su u resultado es R = 11 corridas, as sí que la Srita. Noh puede rec chazar la hipóte esis nula. Los autoa
Prueba as no paramétriicas 315
móviles que va an aprisa y los que van despa acio llegan en grrupos y no llega an al azar.
EJEMPLO 16-3
Sal, Jean y Pa at salen del tra abajo juntos tod dos los días y caminan hasta a la parada del auttobús. Sal toma a el autobús Q4 43 para llegar a casa, Pat toma a el Q36 y Jean puede p tomar cu ualquiera de lo os dos. Si el autobús Q36 lle ega primero, Pat y Jean lo toma an y Sal se va a casa solo. S Si el autobús Q43 Q llega primero, Sal y Jean lo to oman y Pat se va v a casa solo. Si dejamos que eP indique que Pa at se fue a casa a solo y S que Sal se fue a ca asa solo, tenem mos los siguientes s datos para lo os últimos 25 días:
PPSSPPP PPSSPSPP PPSSSSPS SSSSSS Llevando a ca abo una prueba a con α = .05, dígase d si los au utobuses llegan n al azar. SOLUCIÓN
Ho: los autobu uses llegan al azar. Ha: los autobu uses no llegan n al azar
(p prueba de doss extremos)
Tomando n1 = al número d de P y n2 = al número n de S, tenemos t n1 = 11 > 10 y n 2 = 15 1 > 10. Por lo o tanto, zc = ±1.96. Encontrramos que
Nuestra regla de decisión se erá rechazar la a hipótesis nula a si nuestro res sultado es meno or que 8.9 corridas. Nuestro resultado r es R = 10, así que no podemos rech hazar la hipótessis nula. Puede e ser que los autobuses a llegu uen al azar. EJERCICIOS 16-11 Para probar si una m moneda no es legal podríam mos llevar a ca abo 1 una prueba de e hipótesis bino omial para una a muestra, y ver si P(caras) = /2. Si los datos de e nuestra muesstra fueran 10 caras c seguidas de 10 cruces, no afirmaríamos que la moneda estuviera de escentrada. Sin n embargo, esttos mismos datos, empleados en n una prueba de d corridas, noss harían rechaz zar la hipótesis nula. n Coméntese sobre este e punto. ¿Cuál es la diferencia entre las hipóttesis nulas de las dos prueba as? 16-12 Enc cuéntrese n1, n2, R, µK y σR pa ara las siguienttes corridas. a) b) c) d) e)
MMMFFMFMMFM TTTTFF FFTTTFFT T SFFSS SFFFFSSS SSSFFFFF FF XXYXX XYXXYYXX XYX
NONON NOONNONN NNNOONON N
Introducción a la estadística
316 16-13 G. Ringo, un turista, está apostando en un club de Acapulco. En los últimos 25 juegos, ganó (W) y perdió (L) en el siguiente orden: WWWLW LWWLL LLWWL LWLLL WWWWL ¿Están estas ganancias y pérdidas distribuidas al azar con α = .05. 16-14 Se le pide a una persona que proporcione una serie de A y R al azar, y menciona: A B A A B B A B B A B B B A A A B A A B B A . ¿Es esta serie dada al azar si α = .05? 16-15 Xerxes ha estado observando a las personas que pasan frente a su ventana, porque se rompió una pierna y se aburre hasta el cansancio en su cama. Ha tomado el tiempo que una persona permanece dentro de su límite de visión y encontró que la mediana del tiempo fue de 6.3 minutos, y se pregunta si las personas que pasan despacio (S) y las que pasan aprisa (F) lo hacen al azar, así que anotó la lista de datos siguiente, para 25 personas: S F F F S S F S S S S S S S F F F F F S S F F S S . Llévese a cabo una prueba con α = .05? 16-16 Carol Louis inspecciona wabes para la compañía Brilling Brothers Inc. La mediana de las wabes es 15.3 toves. Cada media hora, ella toma una wabe de la línea de ensamble y determina sus toves. Sus resultados son: 14.7, 14.9, 15.1, 15.5, 15.6, 15.6, 15.2, 15.7, 15.6, 14.9, 14.7, 14.8, 15.2, 15.4,15.2,14.8,15.0,16.0,15.8,15.5, 15.9, 15.4, 15.4. ¿Son las variaciones de la mediana al azar? Considérese con .05 de nivel de significancia. 16-17 En una serie de cinco preguntas de verdadero-falso, una respuesta es verdadera y cuatro son falsas. Existen 5 posibilidades de ordenamiento de una respuesta verdadera y cuatro respuestas falsas, a) Enumérense los cinco ordenamientos y el número de corridas en cada uno de ellos. b) Justifíquese la fórmula para la media del número de corridas, encontrando la media con la fórmula µR y comparando su respuesta con la parte a). c) Justifíquese la fórmula para la desviación estándar del número de corridas, calculándola con ambos métodos.
LA PRUEBA U DE MANN-WHITNEY PARA LA COMPARACIÓN DE DOS GRUPOS PRUEBA DE UN EXTREMO Esta prueba se emplea para ayudar a decidir si los números en las dos poblaciones tienden a ser los mismos. Es una prueba independiente de la distribución, porque podemos utilizarla para casi cualquier par de poblaciones. Específicamente no necesitamos suponer que ambas poblaciones son normales. Se utiliza cuando los valores en la población son separados en categorías en vez de ser medidos. Examinemos una aplicación usual donde un tratamiento nuevo cualquiera es comparado con un tratamiento estándar o de "control".
Prueb bas no paramétrricas 317
EJEMPLO 16-4
CatOrC0 rata as de laboratorrio que son clon nes de una missma rata, son dividid das al azar en e dos grupos d de 7. Sus dieta as y condicione es de vida son idénticas, excep pto por la adicción de una vitamina al grupo 1. La hipótesis motivada es que la vitamina a hará que las ratas r en el grup po 1 sean más inteligentes. El grupo g 1 es conssiderado el gru upo de tratamie ento y el grupo o 2 es el grupo de control. c Durante e el experimen nto escapan dos ratas del grupo 1. Basándose en exámene es de inteligenccia para las rattas, después de d un mes, son cla asificadas de la a más inteligente (nivel = 1) a la más estú úpida (nivel = 12). Estos son loss resultados.
Como se puede p observarr, las ratas máss inteligentes tienden a estar en el grupo de trattamiento. Esto o se puede ver porque hay m más niveles que e son numéricame ente menores e en el grupo de tratamiento. Nota: En estte texto siemp pre asignamos el nivel 1 al "m mejor" resultad do, y la tabla C-15 5 está prepara ada desde este e punto de vistta. SOLUCIÓN
La idea de esta e prueba esttadística es ressumir esta rela ación con una estae dística única a. Un método p para hacer estto es el siguien nte: como esta amos tratando de expresar el he echo de que la as ratas del gru upo de tratamiento tienden a ten ner niveles má ás bajos que lo os del grupo de e control, pode emos contar el núm mero de veces que una rata del d grupo de trratamiento es mejor m (es decir, ob btiene un nivell más bajo) qu ue una rata en el otro grupo. A la vez co ompararemos cada rata en el e grupo de trattamiento con todas las ratas del grupo de conttrol. Una rata en e el grupo de ttratamiento obtiene una calificación de + 1 por cada rata del otro o grupo que tenga un nivell menor que ella. El número tota al que obtenga amos para toda as las ratas dell grupo de tratam miento será nue estra estadístic ca. Veamos có ómo se calcula a empleando los datos anteriores. Cálculo a) La primera rata en el grupo de tratam miento tuvo un nivel de 1, lo cual c fue mejorr que las 7 rata as del otro grup po; así que esta a rata obtiene una calificación de 7. b) La segun nda rata en el grupo de trata amiento tuvo u un nivel de 2. Esto también fue f mejor que las 7 ratas del otro grupo. Esta rata obtiene e una calificación de 7. c) La tercerra rata en el grrupo de tratamiento obtuvo u un nivel de 4. Esto E es mejor (más bajo) que e 6 de las ratas s en el otro grupo. Esta rata obtiene una calificación c de 6. d) Del mism mo modo, la cu uarta rata obtie ene una calificcación de 6.
Introducción a la estadística 318
e) Finalmente, la última rata en el grupo de tratamiento tuvo un nivel de 8, mejor que el de 4 ratas en el otro grupo. Esta rata obtiene 4. Entonces, la calificación total para el grupo de tratamiento es 7 + 7 + 6 + 6 + 4 = 30. Esta estadística es una manera de resumir la cantidad por la cual tuvo mejores niveles el grupo de tratamiento que el grupo de control. Este total es representado con frecuencia con una U y se denomina estadística Mann-Whitney. Si la estadística es mayor que el valor crítico de una tabla, concluimos que la población representada por el grupo de tratamiento es más inteligente que la población representada por el grupo de control. En pocas palabras, concluimos que la dieta es eficaz. Para nuestro ejemplo particular, tenemos Ho: No existe diferencia entre la inteligencia de las ratas que reciben la vitamina y las ratas que no la reciben. (Técnicamente estamos probando que no hay diferencia en la media de los niveles de las ratas
en las dos poblaciones.) Ha: Las ratas que reciben la vitamina son más inteligentes que las ratas que no la reciben (prueba de un extremo.) Vemos la tabla C-15 para pruebas de un extremo, y encontramos que para muestras de tamaño 5 y 7 y α = .05, el valor crítico de U es 29. Como el valor de nuestra muestra es 30, tenemos evidencia de que la dieta es buena. RESUMEN DE LA PRUEBA U DE MANN-WHITNEY 1. Organícense los niveles en ambas muestras, del más pequeño al más alto. 2. Calcúlese la suma U para el grupo que por la hipótesis motivada se es pera tenga los niveles más bajos. 3. Compárese U con los valores críticos de la tabla C-15. Si U es mayor que el valor crítico, se puede rechazar la hipótesis nula.
EJEMPLO 16-5
En algunas ocasiones, los datos experimentales no son categorías pero el investigador está dispuesto a tratarlos como tales porque sospecha que la población de la cual se obtuvieron no es normal. Este es uno de esos casos. Los enfermos que padecen cierta enfermedad están siendo tratados con dos medicinas diferentes. Los doctores evalúan a los pacientes en relación con el "tiempo de recuperación" en días. La hipótesis motivada es que la nueva medicina llevará a una recuperación más rápida. Llevaremos a cabo una prueba con la prueba U de Mann-Whitney con α = .05. Supóngase que estos son los resultados. rapidez de recuperación, medicina anterior medicina nueva
13 10 8 17
12 9
14 11
16 18 15
días 20
Prueba as no paramétricas 319
SOLUCIÓN
a) Organícense los resultad dos de cada grupo en orden n ascendente. rapid dez de recupera ación días medicina an nterior medicina nu ueva
10 8
12 13 14 9 11 15
16 6 18 17 7
20
b) Calcúlese U como se hizo o en el ejemplo o 16-4. Obtenemos un valor para p cada paciente e con la mediccina nueva, co ontando el núm mero de pacien ntes que con la me edicina anterior tuvieron una recuperación m más lenta. Advviértase que esta amos tratando o los tiempos de d recuperació ón, como nive eles, porque sólo co onsideramos ssí el tiempo es más corto que e otro y no qué tan corto es. El va alor de U para a el grupo con la medicina nu ueva es, 7 + 7 + 6 + 3 + 2 = 25. c) Las dos hipótesis son: Ho: el tiem mpo de recupe eración es el mismo m con amb bas medicinas (no hay diferencia d en la a media de los niveles, para llos dos gruposs, en términos de tiempo o de recuperac ción) Ha: la nue eva medicina d disminuye el tiiempo de recu uperación (prueba de un n extremo; recuérdese que estamos e busca ando siempre Uc) d) El valor crrítico que se e encuentra en la a tabla C-15 e es Uc = 29. e) Como el valor v de nuesttra muestra no o es mayor qu e el valor crítico, nuestra concllusión es que n no hemos esta ablecido claram mente la superioridad de la me edicina nueva. PRUEBA DE DOS EXTREM MOS En el caso de e una prueba d de dos extremo os, tenemos qu ue calcular U para p ambos grupos. Si cualquierra de los dos ess mayor que el valor crítico aproa piado en la ta abla C-16, pod demos rechaza ar la hipótesis de igualdad.
EJEMPLO 16-6
SOLUCIÓN
Un joven esttudiante de cie encias ocultas ha preparado o dos pocioness de amor. Para co ompararlas, se elecciona 18 sujjetos al azar y lles da a la mita ad de ellos la poción n 1 a la otra mitad la poción 2. 2 Después los observa, y clas sifica a las persona as del más afecctado (1) al men nos afectado (1 18). Analícense e los resultados y llévese a cab bo una prueba de igualdad p para las pociones. Empléese α = .05.
Introducció ón a la estadística 320 Adviértase e que la suma U1 + U2 siemp pre es igual a n1n2 Calculam mos U1, contando
U 1 = 9 + 9 + 9 + 9 + 9 + 9 + 6 + 6 + 6 = 72 Calculamoos U2 como U2 = n 1n 2 - U1 = 9(99) - 72 = 81 - 72 = 9 Las hipóte esis son: H0: los efe ectos de las do os pociones son los mismos ((la media de lo os niveles para la a poción 1 es igual a la mediia de los nivele es para la poción 2) Ha:
los efectos e de las dos pociones son diferentess
Como ésta a es una prueb ba de dos extre emos, consulta amos la tabla C-16 C El valor críticco para α = .05 con n1 = n2 = 9 es Uc = 64 4 Por lo tanto, si U1 0 U2 exced de 64, rechaza amos H0. Ya que 72 > 64 recha azamos H 0. Tenemos eviden ncia de que la poción 1 es más eficaz que la poción p 2 PRUEBAS S PARA MUES STRAS GRAND DES (CUANDO O n1 Y n2 SON MAYORES S QUE 10) Cuando el tamaño de am mbas muestras es mayor que 10, se puede mostrar m que la disttribución de loss valores de la muestra de U es aproximada amente normal Es sto significa que podemos ca alcular los valores críticos de e U empleando lo os valores críticcos de los valorres normales z No se tienen que q utilizar tablass especiales La med dia y la desvia ación estándar de la curva no ormal que desccribe la distribu ución de U, cu uando la hipóte esis nula es ve erdadera, son
EJEMPLO O 16--7
El directorr de un labora atorio puede co omprar equipo o de dos prove eedores Durante ciierto tiempo ha a catalogado los envíos de accuerdo con su calidad, c como se muestra m en la ssiguiente tabla El nivel 1 es ig gual a la mejor calidad
Prueb bas no paraméttricas
321 Llévese a ca abo una prueba a para ver si exxiste una difere encia significattiva en la calidad. Empléese E α = .05. Esta es un na prueba de d dos extremos. SOLUCIÓN
Las hipótesiss son: Ho: el equipo o de ambos pro oveedores es de d la misma ca alidad (las medias de los niveles son igualess) Ha: el equipo de los dos proveedores no ess de la misma calidad c dos extrremos)
(prue eba de
Como amb bas muestras sson grandes (m más de 10), emp pleamos la aprroximación de la a normal.
Los valores críticos c de U son s
Necesitaríam mos un valor obsservado de U menor m que 34.2 2 o mayor que 97.8 9 para rechaza ar la hipótesis de igualdad.
U A = 11 + 1 1 +8 + 7 + 6 + 6 + 4 + 4 + 3 + 3 + 2 = 65 U B = n 1 n 2 - U A = 12(11)) - 65 = 132 - 65 = 67 Como el va alor de U de ninguna de las muestras m está lo suficienteme ente cercano a un n extremo para permitirnos rechazar la hipóttesis de igualdad, no hemos establecido que exisste una diferenc cia significativa a de la calidad,"" entre los dos laborratorios. EL CASO DE E EMPATES (M MUESTRAS PEQUEÑAS) Con mucha frrecuencia, las observaciones clasificadas dan como resultado o un empate. Cuan ndo esto pasa, deben hacerse e ciertos ajustess en los cálculo os.
EJEMPLO 16-8
Supóngase que q nuestros d datos sobre la rapidez r de recu uperación del ejeme plo 16-5 hub bieran sido com mo estos:
SOLUCIÓN
Estamos intteresados en Unueva, así que e obtenemos un valor para cada persona en el grupo de la medicina nuevva. Como hay empates, pued de resultar que alguien a del gru upo de la medicina anterior h haya empatado o con alguien en el e grupo de la m medicina nueva a. Cuando esto o pasa, la perssona
Introducció ón a la estadística 322
en el grup po de la nueva a medicina obtiiene una calificcación de 1/2. (E Este es un término o medio entre o obtener 1 por ser s el mejor y o obtener cero po or ser el peor.) La prime era persona en n el grupo de la medicina nuevva fue mejor qu ue todas las otras 7 personas con n la medicina an nterior, y obtien ne 7. Naturalmente, la segunda persona p tambié én obtiene 7. La L siguiente pe ersona, con un n tiempo de 11 díass, fue mejor que e 6 de los otross, así que obtie ene una califica ación de 6. El tiemp po de la siguien nte persona, 13 3 días, es mejorr que 5 persona as en el otro grupo o y empató con una de ellas, así a que obtiene e una calificació ón de 5 1 + /2 = 5.5 5. El tiemp po de la última persona es me ejor que el de una u persona en n el otro 1 1 grupo y em mpató con una a de ellas, así que q obtiene 1 + /2 + /2 = 2. Esto E da un valor U total para el grupo de la medicina m nueva a de: 7 + 7 + 6 + 5.5 + 2 = 27.5 Las hipóte esis son Ho: no exis ste una diferen ncia en la media de los límitess del tiempo de e recuperacción de los doss grupos de pa acientes. Ha: la me edicina nueva d disminuye el tie empo de recuperación un exxtremo)
(pru ueba de
Consulttando la tabla C C-15 para α = .0 05, con n1 = 7 y n2 = 5, encon ntramos U c = 29. Como el valor v de nuestra a muestra no es e mayor que e el valor crítico, no n tenemos evide encia concluye ente de que la medicina nue eva es superiorr. Nota: En un sentido esttricto, cuando ocurren empa ates en los nive eles, no deberíam mos emplear essta tabla porqu ue los valores críticos tabula ados se calcularon n suponiendo q que no existían n empates. Perro, para la mayyor parte de los ca asos, si no hayy muchos emp pates, los resu ultados tabulad dos son aproximad damente corre ectos.
MUESTRA A GRANDE CO ON EMPATES S Ésta es la a situación que e resulta cuand do en las encu uestas se le pid de a las personas que clasifique en algo, ponié éndolo en una de varias cattegorías (como bueno, regular, o malo). Ilustra aremos esto m más adelante. Cuando hay empa ates, la fórmula para la desvia ación estándar de la distribución de U debe ser ajustado. Esto se debe a que e la presencia de empates re educe el número de d los valores q que U puede tener t y así reduce la variabillidad de U. Todavíía tenemos una distribución normal. n La me edia está dada todavía por
Pero mod dificamos la fó órmula para la desviación estándar.
Prue ebas no paramé étricas 323
La fórmula para la desvviación estánda ar para muestra as grandes con empates es
donde C es el factor de e corrección po or los empates. C se calcula con
donde T representa el número de ca alificaciones em mpatadas en cada c nivel. Ilustramo os esto con un n ejemplo usua al.
EJEMPLO 16-9
En un estudiio sobre la amb bición de los eje ecutivos, un grupo de 80 de ello os de nivel medio,, de una corpo oración grande e, fueron dividid dos aleatoriam mente en un grupo o de control de 40, a los cu uales les diero on la plática co omún llena de ene ergía y los mism mos incentivos s. Un grupo exxperimental form mado con los otros s 40 ejecutivos tuvo un tratam miento psicodiná ámico moderno o que incluía hipno osis y una dieta a especial. Al fiinal del estudio o, cada ejecutiv vo fue evaluado co omo: superior, b bueno, regular o malo. Aquí están e los resulta ados. su uperior
bueno
regular
m malo
12 9
16 15
7 9
5 7
tratamiento especial grupo de control
n1 = 40 4 n 2 = 40
N = 80 ¿Nos indica an estos datoss que el tratam miento especia al está produciiendo ejecutivos más m ambiciosos s? Empléese α = .05. Esta ess una prueba de d un extremo.
SOLUCIÓN
Como tenem mos muestras g grandes, podem mos utilizar una a aproximación n normal para encontrar los valo ores críticos de e U. Hubo 12 personas en el grupo g de tratamiento especial que fueron clas sificadas "supe erior". Cada un na de ellas empató ó con 9 person nas en el grupo o de control y fu ue mejor que 15 + 9 + 7 = 31 personas en el g grupo de contro ol. De ahí que la calificación para cada una de e las 12 perso onas sea 90/0 + 15 + 9 + 7 = 35 .5 Como 12 pe ersonas tienen n esa calificació ón, obtenemoss 12(35.5) = 426 4 Del mismo modo, m las 16 personas p en el grupo de tratamiento especia al que fueron clasificadas "buen nas", obtienen una calificació ón de
16[15(1/2) + 9 + 7] = 3766 Las 7 perso onas que fuero on clasificadas s "regular", tien nen 7[9(1/2) + 7] 7 = 80.5.
Introducció ón a la estadísttica 324 Las 5 perrsonas clasific adas "malas" tienen 5[7( 1/2)] ) = 17.5. La suma de d estos números 426 + 376 + 80.5 + 17.5, es 900. Por lo tanto, para el grrupo de tratam miento especia al, U = 900. Las hip pótesis son Ho : las me edias de las c alificaciones para p ambos tra atamientos so on las mismas Ha: la med dia para las ca alificaciones en n el grupo de tratamiento t especial es me ejor Como esta amos empleando la aproxima ación normal, ah hora podemos calcular la media y la desviación n estándar. Re ecuérdense lass fórmulas:
donde
y T es el número n de emp pates en cada nivel. Calculam mos C con ayud da de la tabla siguiente.
Prue ebas no paramé étricas 325 De esta man nera, el valor crítico c de U es:: Uc = µ + zcσU
(prueba a de un extrem mo)
= 800 + 1.65(99.27) = 800 + 163.8 = 963.8 Como el va alor de nuestra a muestra de U = 900 no es mayor m que el valor v crítico, Uc = 963.8, no tene emos suficientte evidencia pa ara afirmar qu ue el tratamiento especial e es mejjor que el usua al para producir ejecutivos am mbiciosos. GUÍA DE ESTUDIO VOCABULAR RIO 1. 3. 5. 7.
Estadística no paramétrica Orden dell recorrido Corrida Datos ordinales
2. Prueba indepe endiente de la distribución 4. Robusta 6. Estadística U d de Mann-Whitn ney
SÍMBOLOS 1. R
2. µ R
3. σ R
4. U
5. C
FÓRMULAS
EJERCICIOS 16-18 a)
b)
Calcúlese UA parra los siguiente es datos. muestra de m población
muestra a de poblaciión
1 2 3 7 8
6 6 0 5 10
muestra de m población
muestra a de poblaciión
2 3 4 5
2 2 5 6 6
6. T
Introducción a la estadística 326
16-19 Los datos siguientes son las calificaciones obtenidas en el examen anual de los Fabricantes Nacionales de Corbatas. calificación
*Debra Draw
50
Stan Stalemate *Stu Standoff Dan Deadlock *Norma Knott Ben Bind Cari Cravat
48 52 48 50 48
46
Los que están marcados con un asterisco recibieron asesoría antes del examen por parte del Dr. Noah Vail. Llévese a cabo una prueba para ver si obtuvieron niveles más altos que los otros. Empléese α = .05. 16-20 John Smith come en dos lugares de servicio rápido. Para saber si uno es más rápido que el otro, toma el tiempo que tardan en servirle una bebida, una hamburguesa y papas fritas. Los resultados de sus últimas 13 visitas fueron los siguientes: McBurgers
2
5
13 8
King Donalds
9
3
11 1
7 12 4
6
10
Pruébese con α = .05, utilizando la prueba U de Mann-Whitney. 16-21 Wanda, la bruja, compra paquetes de alas de murciélago para sus pociones. Recientemente ha cambiado de proveedor porque estaba recibiendo demasiadas alas de mala calidad de su último proveedor. Para ser justa, decide comparar a los dos proveedores. Sus datos son los siguientes: número de alas de mala calidad por paquete de 13 alas proveedor proveedor anterior actual 3
0
2 1 3 0 0 3 1 2
0 0 2 2 1
0 3
Utilícese la prueba U de Mann-Whitney con α = .05 y decídase si existe una diferencia en calidad entre los dos proveedores. 16-22 Un camarero del albergue para luna de miel Mount Cupid tomó nota, durante una semana, del número de comidas que no consumían las parejas de recién casados. De las parejas que él atendió durante la primera semana de junio, notó que el número de comidas que no consumieron
Pruebas no paramétricas 327
durante la primera semana de su luna de miel fue 7, 5, 11, 8, 7, 11 y 17, mientras que el número de comidas que las parejas no consumieron durante la segunda semana de su luna de miel fue 0, 13, 3, 8, 10, 6, 10 y 6. Clasifíquense los números del 1 al 15. Empleando la prueba de la suma de niveles, pruébese la hipótesis de que no existe diferencia entre el número de comidas que no consumían las parejas durante su primera y segunda semana de luna de miel. Utilícese α = .05. 16-23 A dos grupos de personas casadas se les pidió que dijeran lo "enamorado" que estaban de sus parejas ahora, en comparación con el día de su boda. Los resultados fueron los siguientes: casados menos de 7 años
casados por lo menos 7 años
mucho menos
30
10
un poco menos igual un poco más mucho más
20 10 20 30
20 30 20 10
Calcúlese µU, el factor de corrección para empates y la desviación estándar. 16-24 En nombre de la ciencia, se les pidió a ciertos estudiantes que tuvieron dos profesores diferentes que clasificaran los chistes de ellos. Los datos fueron los siguientes: chistosos
promedio
nivel
20 40
80 80
100 80
Prof. Laurel Prof. Hardy
200 200
Utilícese α = .05. Hágase esto como una prueba U de dos extremos. 16-25 Los agentes de espionaje de dos países son entrenados para resistir el dolor. En la cuarta Competencia Anual de Agentes de Espionaje Internacional que Resisten el Dolor, participaron 11 agentes de cada país. Estos son los resultados. nombre del agente
país
voltios que resistieron
001
A
100
002 003 004 005 006 007 008 009 010 011 001 002 003
A A A A A A A A A A B B B
143 128 118 89 118 132 107 141 93 101 130 135 142
Introducción a la estadística 328 nombre del agente
país
004 005 006 007
B
voltios que resistieron 120 60 140 95 120 60 97 102
B B
B B B B B
008 009 010 011
¿Nos indica esto, con .05 de nivel de significancia, que cualquiera de los dos países tiene un agente superior? 16-26 El vicepresidente de Air Languid quiere medir los resultados de un cambio en los horarios de vuelo preparado para reducir el número de asientos vacíos por vuelo. Se debe comparar el número de asientos vacíos en los últimos 14 vuelos del horario anterior, con los de los primeros 14 vuelos del nuevo horario. Los datos son los siguientes: 9
17
7
21 19
25 21 9 27 23 23 27
horario antiguo
15
17
nuevo horario
14
14 16 20 24 10 18 12 20 6
16
8
16 14
Empleando α = .05, decídase si el nuevo horario reduce el número de asientos vacíos. 16-27 Una refinería ha desarrollado un nuevo tipo de gasohol. Para ver si es mejor que su gasohol antiguo, 50 choferes usaron el nuevo tipo en sus coches durante mil millas; después emplearon el tipo antiguo durante mil millas. Los choferes informaron sobre el número de millas promedio por galón que obtuvieron. Los datos se organizaron de la manera siguiente.
antiguo nuevo
10-15 millas por galón
15-20 millas por galón
20-25 millas por galón
25-30 millas por galón
10 0
20 10
15 15
5 25
50 50
Pruébese con α = .05. ENCUESTA DE CLASE Compárense las estaturas de las mujeres de una clase con las estaturas de sus madres. 1. Utilícese la prueba del signo para pares pareados. Esto prueba si las hijas tienden a ser más altas que las madres, o si no lo son. 2. Empléese la prueba U de Mann-whitney. Esto prueba si una generación tiende a ser más alta que la otra, o si no sucede así. PROYECTO DE CAMPO Utilizando una de las tablas del apéndice C, compruébese si los segundos dígitos son pares o nones al azar; o lleve a cabo algún otro proyecto no paramétrico que se elija.
Pruebas no paramé étricas 329 EXAMEN DE PRÁCTICA PARA LOS CAPÍTULOS C 14 4, 15 y 16 1 ¿Se espe eraría que las siguientes relaciones estuvieran correlacionadas positiva,, o negativame ente? Expliqúe ese. a) La altura y el peso en un na población de e estudiantes va arones, en el primer año de unive ersidad. b) Las millas s por galón y e el peso de los automóviles a en n una población de coches hech hos en Estadoss Unidos. c) El númerro de cigarros ffumados por día y los días de trabajo perdidos a causa de una u enfermedad d, en una pobla ación de mujere es que trabajan n en fábricas. d) El número o de caballitos de polo que se e poseen y la ccantidad de din nero que se gasta a en la elimina ación del estiérrcol. e) El precio del oro y el va alor del dólar estadounidens e se. 2. ¿Qué diría si se afirmase que alguie en ha calculado o r entre el tam maño y el peso de e los recién na cidos, y que es e 2.38? 3. Para loss datos siguien ntes, encuéntre ese: a) r, b)) b, c) la fórrmula para la recta a del mejor aju uste.
ciudad Bakersfield,, CA Dallas-Ft. Worth, W TX Denver, CO O Los Angeles s, CA San Francissco, CA Seattle, WA A
X elevación
Y me edia de tempera aturas altas en enero de 1978
475
62.7
551 5283 97 8 400
42.3 4 37.5 65.3 58.3 4 48.7
d) Dibújese un diagrama d e dispersión co on la recta de mejor ajuste s uperpuesta. 4. Se supo one que una lín nea de produccción en una fáb brica debe llena ar recipientes con n, por lo meno os, 10 libras de e detergente en n polvo. Se su upone que la desvia ación estándar es menor que una décima de e libra. Estos so on los pesos de 10 0 paquetes tom mados al azar de un lote: 1 0.09, 10.02, 1 0.02, 10.03,10.08, 9.95, 10.01, 10 0.07, 10.03, 10 0.00 libras. ¿E Existe evidencia a con α = .05 de q ue la línea ess tá trabajando en forma irre gular? 5. Se está n probando do s plásticos dife erentes que van n a ser utilizado os en la válvula de un corazón arttificial. Diez mu uestras de cad a una son prob badas en animales de laboratorio. Entre las preg guntas que se t ienen que conttestar está: "¿Son los dos mate eriales igualme ente variabless en su duracción?" Contéstese esta e pregunta ccon α = .05, uti lizando los dattos siguientes:
Introducción a la estadística
330 6. Una refinería produce 4 tipos de gasolina. Las gasolinas son probadas en un motor de prueba para medir ciertos contaminantes que se eliminan con el humo. ¿Existe evidencia con α = .05 de que los diferentes tipos de gasolina difieren en la cantidad promedio de contaminantes que eliminan? unidades de contaminante tipo A
100
110
120
113
tipo B tipo C tipo D
105 130 135
115 140 140
125 145
100 140 150
160
7. En Disasterville, N.J., se llamó por teléfono a los residentes y se les pregunto si veían regularmente el noticiario de las 6 de la tarde. Si respondían que sí, se les preguntaba si los veían en el canal 0 o en el canal 1. Los resultados para 118 llamadas fueron los siguientes: 37 vieron el canal 0 28 vieron el canal 1 53 no ven el noticiario de las 6 regularmente Analícense estos datos mediante la prueba del signo con α = .05. ¿Indican los resultados de esta prueba que, con respecto a los televidentes habituales, el canal 0 es más popular entre la población? Utilícese el .05 de nivel de significancia.
Apéndices
Reepasso sobre
arittmé ética a Ap pénd dice e
Es conven niente que el le ector conozca qué tipo de ha abilidades aritm méticas se necesittan para comp prender el mate erial del libro. Los siguientess ejercicios son una u muestra de e los tipos de problemas que e se le pedirá que resuelva. Si se tiene alguna dificultad con n ellos, entonce es consúltese un libro de aritmética o véase al p profesor para que dé sugerenccias. Las respu uestas a este repas so se encuentrran al final del libro. EJERCICIOS A-1 Repa aso de númerros decimales. Evalúense las siguientes expresiones.
A-2 Ta amaño de los números n decim males. a) ¿Qué é número es más m grande –2.58 o –2.33? Ordénense e los siguiente es números de menor a mayo or. b) 4.7, 0.41, 0 0.081, 0..6 y 4.51
c)
0.41,-0.273, y 0.2773
Apénd dice A 333
A-3 Símb bolos. Conttéstese falso o verdadero (F o V) a) 5 < 8 c) 5≤8 b) 8 > 9 d) 6 ≤ 6 Si A" es cualquier número e entero entre 0 y 6, inclusive, lís stense los valo ores, de X que sattisfacen las sig guientes condiiciones. e) X > 4 g) X ≥ 4 f) X < 5 h) X ≤ 5 j) 2 < X < 5 i) 2≤ X ≤ 5 A-4 a) b) c) d) e) f) g) h) i) j)
Repa aso de porcentajes. Exprése ese 0.05 como o un porcentaje e Exprése ese 0.003 com mo un porcenta aje Exprése ese 37% como o un número decimal d Exprése ese 3.2% com mo un número decimal d Exprése ese 3/8 como un número decimal y como porcentaje Exprése ese 5/19 como o un número decimal y como o porcentaje Encuénttrese el 23% d de 50 Encuénttrese el 4% de e 200 ¿Qué porcentaje de 50 es 15? ¿Qué porcentaje p de 108 es 27?
A-5 Repa aso de númeross con signo. expresiones. a) 4 + (-7)) + (13) + (- 25) b) -3.07(-5 5) c) -1.65(10 0) d) -16/8 e) 10/(-2)
Evalúense las siguientes
A-6 Fórm mulas. Evalúese lo siguientte. Dados x = 7.3, 7 y = 1.02, σ = .1, µ = 11.4, y z = -2.33 3, encuéntres se:
d) Dados µ = 3, σ = 2, y z = ±1.96, encuéntrese µ + zσ. z e) ¿Falso o verdadero? v A-7
Expo onentes.
Eva alúense las sig guientes expre esiones.
A-8 Raíce es cuadradas Calcúlense las siguientes expresiones. a) Dados n = 10, p = .4, y q = .6, encu uéntrese
Pro obabilid dad Ap pénd dice e Este apénd dice supone qu ue el lector ha leído l ya el capítulo 4. Aquí se e considera la pro obabilidad con n un poco máss de detalle. En E el capítulo 4, 4 para calcular la probabilidad d de un evento, se listó el núm mero total de posibles p resultadoss de un experim mento y se en ncontró la prop porción de resultados que fuesen n favorables a ese evento en particular. En este apéndice se empleará el método m del capítulo 4 y entonces se mostrarrá otra manera a de obtener los mismos m resulta ados. EVENTOS S INDEPENDIE ENTES Y DEPE ENDIENTES Se dice qu ue dos eventoss son indepen ndientes si la ocurrencia o no n ocurrencia de alguno de ésttos no afecta a la ocurrencia a o no ocurren ncia del otro. ense dos máqu uinas que operan de manera a independientte entre EJEMPL LO Considére sí. Esto significa que si una u máquina se e descompone e este hecho no o tendrá B B-1 ningún efe ecto sobre si la a otra máquina continúa o no trabajando. Su upóngase que ca ada máquina se e descompone a la mitad de la semana de trabajo, de tal man nera que P(A) = P(máquina A se descomp ponga) = 1/2, y P(B) = P(máquina B se descom mponga) = 1/2. Encuéntrese la probabilidad de que ambas má áquinas se descompongan el e mismo día. SOLUCIÓN N 1
Mediante e el empleo del método deline eado en el capítulo 4 y, dado que las máquinass operan de ma anera independ diente, si la má áquina A funcio ona, en-
Apéndice B 335
tonces la máquina B puede estar funcionando o descompuesta; de manera similar, si la máquina A se descompone, la máquina B puede funcionar o no. Dado que existen dos posibles resultados para la máquina A y dos posibles resultados para la máquina B, existen 2 x 2 = 4 resultados posibles. Éstos se muestran en la siguiente tabla: resultado 1 2 3 4
máquina A
máquina B
trabajo trabajo se descompone se descompone
trabajo se descompone trabajo se descompone
Dado que cada uno de los posibles resultados es igualmente probable, se observa que la probabilidad de que ambas máquinas se descompongan 1 el mismo día es de /4; es decir: P(máquinas A y B fallen) = P(A y B) = 1/4 SOLUCIÓN 2
El resultado anterior también puede obtenerse al multiplicar la probabilidad de que la máquina A se descomponga por la correspondiente a la de la máquina B; es decir, P(A y B) = P(A)P(B) = 1/2 · 1/2 = 1/4 Cuando dos eventos son independientes, siempre es posible multiplicar sus correspondientes probabilidades para encontrar la probabilidad de que ocurran de manera simultánea. De hecho, muchos autores emplean el resultado anterior como una definición de independencia. Dicen que dos eventos son independientes si la probabilidad de que los dos ocurran simultáneamente es igual al producto de las probabilidades de que cada uno ocurra de manera separada. Mediante el empleo de símbolos puede escribirse lo siguiente: dos eventos A y B son independientes sí y sólo si
P(A y B) = P(A)P(B) La regla anterior no puede emplearse cuando los eventos son dependientes. Considérese el siguiente ejemplo.
EJEMPLO B-2
Supóngase que alguien decide jugar a la ruleta rusa con un revólver de seis tiros, en donde las cámaras se encuentran numeradas del uno al seis. A continuación, coloca una bala en una de las cámaras, le da vueltas al cilindro y entonces acciona el gatillo dos veces. Encuéntrese la probabilidad de que esta persona viva.
SOLUCIÓN 1
Mediante el empleo del método dado en el capítulo 4, si el cilindro se encuentra en la cámara tres, ésta será la primera en dispararse y después seguirá la cámara cuatro. De manera similar, si la cámara seis es la primera en dispararse, entonces la siguiente será la cámara uno. Así se tienen seis posibles resultados.
Introducció ón a la estadística 336
primer en nsayo
segundo ensayo
cámara 1
cámara 2
cámara 2 cámara 3 cámara 4 cámara 5 cámara 6
cámara 3 cámara 4 cámara 5 cámara 6 cámara 1
Nótese qu ue cada cámarra se encuentra a listada dos veces. La bala sólo se encuentra a en una de lass cámaras; po or lo tanto existen cuatro resultados entre los seis s para los que ambas cám maras se encue entran vacías. Sea E1 el evento de d que la prime era cámara esttá vacía y E2 el e evento en que la segunda cám mara está vacía; se tiene A P (amb bas cámaras se s encuentran n vacías) = P( E 1 y E 2 ) = 4/6 6 = 2/3 SOLUCIÓN N 2
Se emplea ará a E1 y E2 ccomo se definie eron anteriormente y se calcu ulará la probabilida ad de que la p persona viva mediante m el cálculo de cada una de las probab bilidades asociadas cada vezz que se accione el gatillo en n forma separada. La probabilida ad de que la primera p cámara a se encuentre e vacía es igual a 5/6 ya que só ólo existe una bala. b Puede esscribirse enton nces: P (la prim mera cámara d disparada se encuentra e vac ía) = P(E 1) = 5/6 5 La probabiilidad de que la a segunda cám mara se encuen ntre vacía depe ende de lo que hayya ocurrido cua ando se disparró el revólver por p primera vez. Si la bala se dis sparó en el primer ensayo, entonces e se tie ene toda la seg guridad de que la siguiente s cáma ara se encuenttra vacía, pero o esta situación n ya no merece nin nguna atención n. Por otro lado,, si la primera ccámara se enco ontraba vacía, ento onces de las ccinco restantess cuatro se en ncuentran vacíías. De acuerdo co on lo anterior, puede escribirse: P la segun nda cámara se e encuentra vacía dado que lla primera tam mbién lo estaba = P(E P 2 dado E 1 ) = 4/5 De esta manera, puede decirse d que el evento E2 dep pende del evento E1, dado que la ocurrencia o no ocurrencia a de este afecta ará la ocurrenccia o no ocurrencia de E2. Para encontrar la prob babilidad de que ambas cám maras se encu uentren vacías, se multiplica la p probabilidad de e E1 por la prob babilidad de E2 dado que ocurrió E1:
Nótese que e el resultado anterior es el missmo que se obttuvo en la solucción 1. Debe me encionarse que e el problema también puede e resolverse al considerar la se egunda cámara a. La probabilidad de que la segunda cám mara se encuentre vacía es igual a 5/6, dado que e sólo existe un na bala. Por lo tanto: P (la segu unda cámara sse encuentra vacía) v = P(E 2) = 5/6
Apéndice B 337
Dado que la segunda cámara está vacía, de las 5 restantes sólo 1 tiene una bala, así pues la probabilidad de que nuestra primera cámara esté vacía es de 4/5. Por tanto: P(la primera cámara se encuentra vacía dado que la segunda también lo está) = P(E ] dado E 2) = 4/5 De acuerdo con lo anterior,
P(E 1 y E 2 ) = P(E 2 )P(E 1 dado E 2 ) = 5/6 • 4/5 = 4/6 = 2/3 Del resultado anterior puede observarse que es ahora E1 quien depende del resultado de E2. En general, si A y B son dos eventos dependientes, la probabilidad de que ocurran de manera simultánea está dada por
o
P(A yB) = P(A)P(B dado A) P(A y B) = P(B)P(A dado B)
REEMPLAZO Y NO REEMPLAZO Considérese otro tipo de problema. Supóngase que se tiene una urna que contiene tres pelotas blancas y dos rojas, ¿Cuál es la probabilidad de que en un intento se seleccionen, en forma aleatoria, dos pelotas rojas? La respuesta a esta pregunta depende de si se reemplaza o no la primera pelota antes de extraer la segunda.
EJEMPLO B-3
Reemplazo Supóngase que después de que se selecciona la primera pelota, ésta se regresa a la urna y entonces se extrae la siguiente. Dado que el resultado de la primera selección no tiene ningún efecto sobre el resultado de la segunda selección, los eventos son independientes. De esta forma, entonces puede emplearse la fórmula para eventos independientes. Dado que sólo dos de las cinco pelotas son rojas, la probabilidad de extraer una pelota roja es P(roja) = 2/5. De esta forma, la probabilidad de seleccionar dos rojas es P (roja 1 y roja 2 ) = P (roja) P (roja) = 2/5 • 2/5 = 4/25
EJEMPLO B-4
No reemplazo Considérese de nuevo el problema anterior, pero esta vez no se regresará a la urna la primera pelota que se extraiga, antes de seleccionar aleatoriamente a la segunda. La probabilidad de obtener una pelota roja en la primera selección sigue siendo 2/5, pero la probabilidad de sacar una roja en la segunda oportunidad depende de lo que haya ocurrido en la primera selección
SOLUCIÓN
Si se selecciona por primera vez una pelota roja, entonces quedan cuatro pelotas en la urna de las cuales sólo una es roja. De esta forma, la probabi-
Introducción a la estadística 338 lidad de sacar una roja, dado que en la primera selección se obtuvo una roja, es de una oportunidad entre cuatro; es decir P(roja2 dado roja1) = 1/4. De esta forma, de acuerdo con la regla para eventos dependientes, la probabilidad de seleccionar dos pelotas rojas es P(roja1 y roja2) = P(roja1)P(roja2 dado roja1) = 2/5 · 1/4 = 2/20 = 1/10 Al comparar las respuestas a los ejemplos B-3 y B-4 se tiene que la probabilidad de seleccionar dos pelotas rojas es de 4/25 = 16/100 = .16, cuando se reemplaza la primera pelota, y la probabilidad de sacar dos rojas cuando no se reemplaza la primera pelota es de 1/10 = 0.1. Puede observarse que existe una diferencia de 0.06 = 6/100 entre los dos métodos. Conforme aumenta el número de pelotas en la urna, la diferencia es menos notable. De hecho, para un número muy grande de pelotas en la urna la diferencia es despreciable, como se muestra en el ejemplo B-5:
EJEMPLO B-5
Supóngase que la urna del ejemplo anterior contiene 5 000 pelotas, de las cuales 3 000 son blancas y 2 000 rojas. Encuéntrese la probabilidad de seleccionar, de manera aleatoria, dos pelotas rojas.
SOLUCIÓN 1
Reemplazo. Dado que P(roja) = 2 000/5 000 = 2/5 y cada selección es independiente, se tiene P(roja y roja) = 2/5 · 2/5 = 4/25 = .16
SOLUCIÓN 2
Sin reemplazo. Para la primera selección P(roja) = 2 000/5 000 = 2/5, y la probabilidad de obtener una pelota roja en la segunda oportunidad, dado que la primera fue roja, es P(roja dado roja) = 1 999/4 999, ya que existe una pelota roja menos en la urna. De esta forma, se tiene P(roja y roja) = P(roja)P(roja dado roja) = 2/5 • 1999/4999 = 3998/24 995 = .15995 Puede observarse que la diferencia entre las dos respuestas es de 0.00005 o 1/20 000. El hecho de que las dos respuestas difieran muy poco entre sí se convierte en algo importante cuando se obtienen muestras aleatorias de poblaciones cuyo tamaño es muy grande, ya que en teoría puede suponerse que el muestreo se lleva a cabo con reemplazo (independencia) pero en la práctica, la mayor parte de las veces, se emplea el muestreo sin reemplazo. Por ejemplo, si se pregunta a una persona por quién votará, es poco usual que se le vuelva a formular la misma pregunta otra vez, así que esta persona no vuelve a colocarse, para los fines del muestreo, de nuevo en la población.
Apéndice B
339
EVENTOS MUTUAMENTE EXCLUYENTES Considérese una baraja de 52 cartas. Dado que existen cuatro reinas y cuatro reyes, puede escribirse P(seleccionar en forma aleatoria un rey) = P(K) = 4/52 = 1/13 y P(seleccionar en forma aleatoria una reina) = P(Q) = 4/52 = 1/3. Si se desea saber cuál es la probabilidad de seleccionar una reina o rey, entonces deben contarse 8 resultados posibles, de tal manera que P(seleccionar en forma aleatoria un rey o una reina) = P(K o Q) = 8/52 = 2/13. (En este problema se pide la probabilidad de obtener un rey o una reina en una sola oportunidad, y la respuesta es 2/3. La probabilidad de sacar un rey y una reina en un ensayo es cero. El lector no debe confundir la palabra "y" con la palabra "o".) Nótese que el resultado anterior también puede obtenerse al sumar las correspondientes probabilidades de seleccionar un rey y una reina de manera individual. De acuerdo con lo anterior,
P(Ko Q) = P(K) + P(Q) = 1/13 + 1/13 = 2/13 Debe tenerse cuidado con este procedimiento, ya que no siempre proporciona la respuesta correcta. Supóngase que se desea conocer la probabilidad de seleccionar un corazón o una sota. De las 52 cartas que tiene la baraja cuatro son sotas, una por cada palo y 13 corazones uno de los cuales es una sota. De esta forma se tienen 16 resultados favorables. Por lo tanto, puede escribirse que P(seleccionar al azar un corazón o una sota) = P(H o J) = 16/52 = 4/13. Si se consideran los corazones y las sotas en forma separada entonces P(seleccionar al azar un corazón) = P(H) = 13/52 ya que se tienen 13 corazones y P(seleccionar al azar una sota) = P(J) = 4/52, dado que se tienen cuatro sotas. Nótese que si se suman las probabilidades anteriores no se llegará a la respuesta correcta que es 16/52, ya que
P(H) + P(J) = 13/52 + 4/52 = 17/52. El obtener una respuesta incorrecta se debe a que la sota de corazones se ha contado dos veces; una vez como corazón y otra como sota. Para contar la sota de corazones debe restarse sólo una vez la probabilidad de extraer ésta, que es igual a 1/52. Entonces P(seleccionar la sota de corazones) = P(seleccionar al azar un corazón y una sota) = P(H y J) = 1/52. Con esto, la fórmula dada líneas arriba se convierte en
P(H o J) = P(H) + P(J) - P(H y J) = 13/52 + 4/52 - 1/52 = 16/52 Al comparar las dos situaciones se nota que en el primer problema no existe una carta que sea un rey y una reina al mismo tiempo. En este caso se dice que la selección de reyes y reinas son eventos mutuamente excluyentes. Formalmente, se dice que dos eventos son mutuamente excluyentes si la probabilidad de que ocurran simultáneamente es cero; en este caso puede escribirse P(seleccionar un rey y una reina al mismo tiempo) = P(K y Q) = 0. Dado que para eventos mutuamente excluyentes la probabilidad de que ocurran en forma simultánea es cero, muchos autores emplean es-
Introducción a la estadística
340
te hecho como una definición, los eventos K y Q son mutuamente excluyentes sí y sólo si P(K y Q) = 0. En el segundo problema existe una carta que es un corazón, pero al mismo tiempo también es una sota, de tal manera que los eventos seleccionar un corazón y seleccionar una sota no son mutuamente excluyentes. Dado que P(sota de corazones) = P(J y H) = 1/52 ≠ 0. Se dice que los eventos J y H no son mutuamente excluyentes. Lo anterior puede resumirse si se consideran dos eventos A y B. Se vio que
P(A o B) = P(A) + P(B) - P(A y B) Si A y B son mutuamente excluyentes, entonces
P(A y B) = 0 y la fórmula se reduce a
P(A 0 B) = P(A) + P(B) AYUDAS PARA ESTUDIO VOCABULARIO 1. 2. 3. 4. 5.
Evento independiente Evento dependiente Reemplazo Sin reemplazo Eventos mutuamente excluyentes
SÍMBOLOS
1. P(A y B) 2. P(A dado B) 3. P(A o B) FÓRMULAS 1. P(A y B) = P(A)P(B), cuando A y B son independientes 2. P(A y B) = P(A)P(B dado A ) o P(A y B) = P(B)P(A dado B) 3. P(A o B) = P(A) + P(B) - P(A y B) 4. P(A o B) = P(A) + P(B), cuando A y B son mutuamente excluyentes EJERCICIOS B-1 De manera intuitiva, decídase si los siguientes pares de eventos son independientes o dependientes entre sí. a) Lanzar dos monedas al mismo tiempo. b) Lanzar un trompo dos veces. c) Extraer dos hongos venenosos de una bolsa que contiene tres hongos comestibles y dos venenosos (sin reemplazo). d) Repetir la parte c) reemplazando los hongos.
Apéndice B
341 B-2 De manera intuitiva, decídase si los siguientes pares de eventos son independientes o dependientes entre sí. a) Jugar a la ruleta rusa dos veces, dándole vueltas al cilindro cada vez. b) Jugar a la ruleta rusa dos veces, pero sólo dándole vueltas al cilindro la primera vez. c) Sacar dos cartas de una baraja ordinaria. d) Tirar dos dados. e) Tirar un dado dos veces. B-3 P(A) = 1/2 y P(B) = 1/3, mientras que P(A y B) no es igual a 1/6. Expliqúese de qué manera es posible que ocurra lo anterior. B-4 Para los siguientes eventos ¿los resultados dados son mutuamente excluyentes? a) Al extraer una carta de una baraja: 1) Obtener una sota y una espada. 2) Obtener una sota y una reina. b) Al predecir el sexo de los primeros dos hijos del lector. 1) Dos del mismo sexo y por lo menos uno es hombre. 2) Dos mujeres y por lo menos un hombre. B-5 ¿Los siguientes resultados son mutuamente excluyentes? a) Ser cirujano y a la vez mujer. b) Ser hombre y a la vez madre. c) Dado que el lector es propietario de una mascota, entonces es propietario de un perro y un gato. d) Dado que el lector es propietario de más de una mascota, entonces es propietario de una boa constrictor y de un lobo.
B-6
Si P(A o B) = 5/7, P(A) = 3/7, y P(B) = 2/7
a) Encuéntrese P(A y B). b) Los eventos A y B, ¿son mutuamente excluyentes? B-7 Si P(A o B) = .62 y P(A) = .41 y P(B) = .41: a) Encuéntrese P(A y B). b) ¿Son A y B mutuamente excluyentes? B-8 Mauro prefiere invitar a cenar a Elena, pero si ella se niega invitará a Jill. La probabilidad de que Elena acepte es igual a 0.4. Si la probabilidad de que tanto Elena como Jill no acepten la invitación es igual a 0.2; encuéntrese la probabilidad de que Jill no acepte la invitación ya que Elena tampoco la aceptó. B-9 Los dos motores de un avión funcionan de manera independiente. El avión puede continuar en vuelo si uno, cualquiera, de los motores funciona. Si el motor 1 se descompone una vez cada 100 vuelos y el motor 2 una vez cada 10 000 vuelos, encuéntrese la probabilidad de que ambos motores se descompongan en el mismo vuelo. B-10 En una caja con 30 chocolates es imposible decir cuál es de frutas y cuál es de nuez. En la caja existen 20 que son de frutas y 10 que son de nuez. Se extraen dos chocolates al azar. Caso 1. Con reemplazo: a) Encuéntrese la probabilidad de que los dos sean de nuez. b) Encuéntrese la probabilidad de que el primero sea de frutas y el segundo de nuez. c) Encuéntrese la probabilidad de extraer uno de cada tipo sin importar el orden.
Introducción a la estadística 342 Caso 2. Sin reemplazo: d) Repítase la parte a). e) Repítase la parte b). f) Repítase la parte c). B-11 De una baraja se extraen dos cartas en forma aleatoria. Caso 1 Con reemplazo (la primera carta se coloca de nuevo en la baraja): a) Encuéntrese la probabilidad de extraer dos corazones. b) Encuéntrese la probabilidad de extraer primero un as y después un siete. c) Encuéntrese la probabilidad de extraer un as y un siete sin importar el orden. d) Encuéntrese la probabilidad de extraer dos figuras. Caso 2 Sin reemplazo: e) Repítase la parte a). f) Repítase la parte b). g) Repítase la parte c). h) Repítase la parte d). B-12 Dos máquinas funcionan de acuerdo con las siguientes reglas: la probabilidad de que la máquina A se descomponga es de 1/3. La probabilidad de que la máquina B se descomponga, dado que la máquina A se descompuso, es igual a 1/8. a) Encuéntrese la probabilidad de que las dos máquinas A y B se descompongan al mismo tiempo. b) Si la probabilidad de que la máquina B se descomponga es de 1 /4, entonces mediante el empleo de los resultados obtenidos en la parte a) encuéntrese la probabilidad de que la máquina A se descomponga dado que la máquina B se descompuso. B-13 Un juego que consiste en lanzar una moneda tiene las siguientes reglas. Para ganar el juego es necesario obtener dos caras de manera consecutiva. Si en el primer lanzamiento se obtiene una cara, entonces la moneda se lanza otras dos veces. Sin embargo, si en el primer lanzamiento no se obtiene una cara la moneda se lanzará otras tres veces. a) ¿Cuál es la probabilidad de ganar, dado que en el primer lanzamiento se obtuvo una cara? b) ¿Cuál es la probabilidad de ganar, dado que en el primer lanzamiento no se obtuvo una cara? B-14 ¿Cuál es la probabilidad de que al sacar tres cartas de una baraja la primera sea un as, la segunda un rey y la tercera una reina y todas pertenezcan al mismo palo? B-15 ¿Cuál es la probabilidad de que al sacar dos cartas de una baraja sin reemplazo éstas sean un rey y un as del mismo palo, sin importar el orden en el que se extraigan? B-16 Se extrae una carta de una baraja. a) Encuéntrese P(as o espada). b) Dado que la carta es una figura, encuéntrese P(10 o sota). B-17 Si el lector sufre un accidente automovilístico, encuéntrese la probabilidad de que salga lesionado y que no cobre seguro contra accidentes si P(estar lesionado) = 0.4 y P(no cobre seguro dado que está lesionado) = 0.2.
Tab blas s Apé énd dice C-1
Triáng gulo de Pasca l,
C-2
Probabilidades binom miales
C-3
Áreas bajo la curva normal a la izzquierda de z: forma corta
C-4
Áreas bajo la curva normal a la izzquierda de z: forma larga
C-5
Valore es críticos de t para pruebas s de dos extremos
C-6
Valore es críticos de t para pruebas s de un extrem mo
C-7
Valore es críticos de X para prueba as de un extre emo
C-8
Valore es críticos de X para prueba as de dos extrremos
C-9
Valore es críticos de r para pruebas s de dos extrem mos
2 2
C-10 Valore es críticos de r para pruebass de un extrem mo C-11 Valore es críticos de F para a = .05 5 (pruebas de un extremo) C-12 Valore es críticos de F para a = .025 5 (pruebas de dos d extremos con α = . 05) C-13 Valore es críticos de F para α = .01 (para pruebass de un extrem mo) C-14 Valore es críticos de F para α = .005 (para pruebas de dos extremo os con α = .01) C-15 Valore es críticos de U para prueba as de un extrem mo C-16 Valore es críticos de U para prueba as de dos extre emos
344
Apénd dice C 345
Ta abla C-2
Prob babilidades bino omiales
Introducció ón a la estadístic ca 346 Tabla C-2
(continuación)
Apéndic ce C 347 Ta abla C-2
(conttinuación)
Introducció ón a la estadístiica 348 Tabla C-2
(continuación))
Apéndiice C 349 Ta abla C-2
(con ntinuación)
Introducción a la estadístic ca 350 Tabla C-2
(continuación)
Apéndiice C 351
REFERENCIIA RÁPIDA PA ARA ALGUNOS S VALORES IM MPORTANTES S DE z Los valores de d z se proporccionan sin sign no. El lector deberá determinar, a partir de la hipótesis h altern nativa, si los va alores críticos son positivos,, negativos o tien nen los dos sig gnos.
Introducción a la estadístic ca 352
Tabla C-4
Áreas bajo la curva c normal a la izquierda de z: forma larga
Apénd dice C 353
Tabla C-4
(continuación)
Introducció ón a la estadístic ca 354 Tabla C-4
(continuación))
Apénd dice C 355 Tabla C-4
(co ontinuación)
Introducción a la estadísttica 356 Tabla C-4
(continuación n)
Apénd dice C 357 Tabla C-5 Valores críticos s de t para pruebas de doss extremos. (Los valores de e tc en esta tabla a se proporciona an sin signo. Todos los valorres son tanto positivos como o negativos, es decir, t c = ± 12 2.71)
Tabla C-6 Valores crítico os de t para pruebas de un n extremo (En esta tabla los valores de tc se proporcio onan sin signo. El E lector deberá d determinar a partir de la hip pótesis alternativva, si tc es positivo o o negativo.)
Introducció ón a la estadístiica 358 2
Tabla C-7 Valores V críticos de d X para prueb bas de un extrem mo
en donde d es e el número de grados g de libertad y zc es igual a ±1.65 o ±2.33.
Apéndiice C 359 T Tabla C-8
2
Valores crític cos de X para pruebas de dos extremos
en n donde d es el nú úmero de grados de libertad y zc ess igual a ± 1.96 o ±2.58
Introducción a la estadísttica 360 Tabla C-9 Valores críticos de r para pruebas de dos exttremos. (Los valores de e r se proporcion nan sin signo. To odos los valoress son tanto posittivos como nega ativos, es decir, r c = ± 1.00 0.)
Cuando n es e mayor que 30 lo os valores de rc se calcculan a partir de
en donde tc es e el correspondiente valor crítico de t, en la tabla C C-5 para (n — 2) grados de liberta ad.
Tabla C-10 0 Valores ccríticos de r para a pruebas d de un extremo. (Los valo ores de r se proporcio onan sin signo. El E lector deberá de eterminar a parttir de la hipótesis alternativa si rc es positivo o negativo.)
Cuando n es mayor que 30 empléese la siguien nte fórmula para calcular c los valores de e rc
en donde tc es el correspond diente valor críticco de t, en la tabla a C-6, para (n — 2) grados de libe ertad.
Apénd dice C 365 Tabla C-15 Valores críticos de U para prruebas de un extremo
Introducción n a la estadística a 366 Tabla C-16 Valores críticcos de U para prruebas de dos exxtremos
Res spue esta as a los ejercic cios s † sele ecciiona ados s La mayor parrte de las respu uestas que se proporcionan en e esta sección n son para los ejerccicios con nume eración impar, pero en alguna as ocasiones se dan las respuestas a algunas de e las preguntass correspondientes a los ejerccicios con numeración par como 14 4a, 14c, 14e. Para P los exámen nes se proporcionan todas las resp puestas tanto p para las pregun ntas impares co omo las pares. CAPÍTULO 1 1-1 Sí 1-13 a) 16 6.4; c); 40 540; e) 40.000 1-14 a) 1.8 pulgadas; c) 30°; e) 5000 personas 1-15 $180 0.000 1-17 a) 2.2 2 pulgadas 1-19 a) .4 4; b) .3; c) Los resultados son n aproximadam mente iguales. Sólo difieren en un no en el último o dígito. CAPÍTULO 2 2-3
a) 35; b) 203; c) 1225; d) 5; e) 5; f)) 21; g) 0; h) 30 0; /) 4 2/3; j) 4 2/3; 2 k) (ΣY)) 2-5 a) 12; b) 2; c) 2; d) 0; e) 144; f) 46 6; g) 4.4
†
En algunos s casos las re espuestas pueden variar en relación a lass que obtenga el lector por caussa del grado de d precisión y el número de cifras decimales utilizadas. u No hay de qué preocuparse si las diferencias son mínimas en ntre los resulta ados proporcion nados aquí y llos obtenidos por el lector.
Introducción n a la estadístic ca 368
2-7
a) 14.96
2-9 7, 0, 0, o 2, 2, - 1, etc. 2-11 $20 $ 000; $18 5 500; no existe la moda; la me ediana 2-15 síí, sí 2-17 b) más altos 2-19 a 31; b) 105; c) a) c 375; d) 3 2-21 5 599 2-23 a la mediana; b) mediante una encuesta para a) p saber la opinión o de los susc criptores 2-25 a Por la definiición: a) Mediante la fórmula:
En este ca aso es más fáccil por medio de d la definición n b) Por la definiciión:
Mediante lla fórmula:
En este ca aso (y para la mayor m parte de la veces) la fó órmula computa acional proporcion na un camino m más sencillo. 2-27 Se esspera que la media m de una muestra m aleatorria se encuenttre probablementte cercana a la a media de la población de la cual se obttuvo la muestra, pero p la desviacción estándar de d la muestra será probable emente más peque eña que la de la a población (es s por esta razó ón que se divide e entre n – 1 en lu ugar de hacerlo entre n).
Respue estas a los ejerc cicios seleccion nados 369
2-35 a)) 13; b) 13/17 ; = 76%; c) 16 6; d) 16/17 = 9 94% 2-37 A pesar p de que lo os promedios son s idénticos, el e Cl de los niño os psicóticos varíía más que el d de los niños normales. De enttre ambos grup pos los puntajes má ás bajos y máss altos correspo onden al grupo o de niños psicó óticos. 2-39 Pittágoras. 2-41 En el primer p experimento, la desvia ación estándar de 22 días con nvierte en significattiva la diferencia de 400 días entre las mediias. Sin embarg go, en el segundo experimento la a desviación es stándar es aprroximadamente e igual a 300 díass. Los tiemposs de vida de estos e corazone es son mucho o más variables. Por lo tanto, no es posible conccluir que una diferencia de 400 días entre las me edias constituyya una evidenc cia significativa a.
b) 5.4%, 29 9.5%, 38.8%, 15.0%, 3.4%, 7.9% c) La incide encia de saram mpión disminuyó entre los añ ños 1980 y 19 981. 2-45 me edia, mediana,, moda, 25avo o. percentil: disstribución de temperaturas en el Polo Sur. Va alor de z: cualq quiera menor que q la media. Los L demás no pue eden ser negativos.
Introducción n a la estadístic ca 370
2-55 Es s muy alto en relación r con el grupo de control. Su peso ess menor que el promedio relativo o del grupo de control. Su pre esión arterial se s encuentra de entro del promedio relativo del d grupo de co ontrol. 2-57 a) 25%; c) 75% ; e) 10% 2-58 a) 125,000 familias; c) 375,000 0 familias; e) 50,000 5 familiass 2-59 a) De la tabla no o (pero n = 500); b) Sí, para a z = 0 se tiene e que X = 100; c) S í. P50 = 116; d) 2%; 99 – 16 = 83%; e ) 16; f) 100 + (1.5)16 = 124; g) 100 + (–1.2))16 = 80.8 2-61
S Si
2-65
2-63
No es un prom medio, es una tasa. t
2-67 1
2
a)
año 1978
b)
año 1983
c)
el mes de julio de 19 981
d)
año uno u
2-69
población de Estados Unidos personas mayores m de 65 años en Estados Unidos número de e parejas, en Estados Unidos, U que están casa adas número de e manzanas en el jardín del Edén
3 número de na acimientos número de de efunciones número de divorcios
número de manzanas m consumido
La población en e el año de 1976 no era la misma que en n 1975.
2-71 a favor
en contra c
jamón
.63
.59
espinacas papas col gelatina panecillos pan leche café agua pastel vainilla chocolate fruta
.61 .62 .64 .70 .57 .67 .50 .61 .54 .68 .80 .51 .67
.63 .61 .60 .58 .66 .58 .62 .62 .65 .54 .14 .75 .61
Respue estas a los ejerc cicios seleccion nados 371
CAPÍTULO 3
c) 44.0%, 32 2.7%; d) aproxximadamente $6500 $ 3-13 a) 50%; c) 16%; e) 98%; g) 48 8%; i) 68% 3-14 a) 40%; c) 20%; e) 90%; g) 20 0%; i) 30% 3-15 a) 40%; b) 40%
CAPÍTULO O4 4-5 4-7
Loss dos son falso os a) 8/15; c) 4/15;; e) 2/15
4-9
a) 1/2; c) 1/20; e) 1/10
Introducción a la estadística 372 4-11
a) CCC C CCW C CWC W WCC C CWW W WCW
wwc 4-13 4-15
WWW a) 5/36; b) 1/6 a))
b b1) 1/8; b2) 1/2 2; b3) 1/8
Respuesstas a los ejerciccios selecciona ados 373
b) 1/27; c) 1//9; d) 7/27; e) alrededor de 14 1 4-19 a) ..80; b) .64; c)) .75; d)1.00 4-21 No;; se esperan 10 0 aciertos apro oximadamente. 4-23 a) 1/16; c) 1/16; e) 1/2 4-25 a) .16; b) .68; c)) .50
Introducción a la estadística 374 EXAMEN DE LOS CAPÍTULOS 1 AL 4
1) α es correcta 2) 3) 4) 5)
aleatorio mediana, media, media, moda puntaje z, rango percentil, puntaje original una estadística
6) 1/8, 1/8 7) 43%, 57% 8) 62%, 38%
9) aproximadamente 35 10) a) 2.1,2, tanto 1 como 2; b) 6, 2.77, 1.66; c) z6 = 2.35 y z0 = -1.27; d)3 11) a) Un posible arreglo es intervalo
frecuencia
30-39 40-49 50-59 60-69 70-79
límites 29.5-39.5 39.5-49.5 49.5-59.5 59.5-69.5 69.5-79.5
1 0 2 7 4
b) PR 6 1 = 39 12) Por la siguiente razón: no se incluyen las familias que tienen sólo un hijo en edad preescolar. CAPÍTULO 5 5-1 5-3 5-4 5-5 5-9
La probabilidad de aprobar varía de curso a curso. a) 31,824; c) 7; e) 1; g) n a) 4; c) 16 1,21,210,1330 3 1 1/8 a) 2 1 0
3 3 1
3/8 3/8 1/8
c) 1/8; d) 3/8 e) 7/8; f) 1/8; g) 1/2; h) 7/8 5-11 a) .17; b) .001 5-13 a) .009; b) .49; c) .51 5-15 a) 1/16; b) 1/216 5-17 a) aproximadamente uno; b) .61 c.) P(0 o 1) = .61 > .39 5-19 a) .21; b) .11; c) .00001; d) .97 5-21 a) .24; b) .68; c) .08 5-23 .63 5-25 .51 5-27 .25 CAPÍTULO 6 6-3 a) 99.01%; c) 49.38%; e) 5.48%; g) 1.66% 6-5 a) 2.50%; b) 2.28%; c) 31.74%; d) .0013; e) .4404; f) .0668; g) .0215; h) .0215 6-7 a) -2.05; b) 1.65; c) 0; d) ±1.04; (e) las mismas 6-9 a) -2.05; c) -1.28; e) 1.65
Respuestas a los ejercicios seleccionados 375
6-11
X
4
z
-3
7 10
13
16
19
22
0
1
2
3
-2 -1
6-13 244 6-15 a) .9857; b) .9850; aproximadamente las mismas 6-17 a) 73% b) 3%; c) 1%; d) 50%; e) 3%; 0 10%; g) 90%; h) 30 6-19 a) .18; 6) .03; c) .71; d) 7 libras, 10 onzas; e) 7 libras, 10 onzas; f) 5 libras; 15 onzas 6-21 a) $35 920; b) sí, c) $27 850; d) $31 240 y $35 320 6-25 La forma de distribución no es conocida. 6-27 a) P 71 ; b) acerca del mismo. 6-29 a) .43; P70; b) P67 CAPÍTULO 7
7-3 7-5
a) .6; b) .4; c) 8.4 > 5; 5.6 > 5; d) 8.4; e) 1.83; f) .31 2,2
C) .0001; d) .16; e) .52
2, 1 2,0 1,2
1, 1 1,0 0,2
0, 1 0,0
7-7
a) .03; b) .003
7-9
7-13 a) 0; b) 0 7-15 7-17 a) .09; b) 13; c) .07, 12 7-19 7-21
.004
7-11
sí; no
.61
a) .9; b) .01; c) 7 a) .44; b) 1/900; c) 1/3600
EXAMEN DE LOS CAPÍTULOS 5, 6 Y 7 1) a) 7%; b) 9.6 libras c) 4.3 libras d) .16 2) sí, si la distribución no es normal 3) Los cuatro resultados en que se obtiene un éxito y 3 fracasos (E F F F, F E F F, F F E F, F F F E) y los cuatro resultados cuando se obtienen 3 éxitos y un fracaso 4) a) 120; b) 2 o 3; c) 1; d) 1; e) 117; f) 231 5) a) .5193; b) .5193; c) .5222 6) a) .00217; b) .0022 (empleando p = .40); c) .0039 7) a) .0003; b) sí; c) no; d) sí CAPÍTULO 8 8-1 8-3
a) P ≠ .40; b) P < .40; c) P > .40 H0: El 10% de los propietarios de mascotas posee un pez dorado. Ha: El porcentaje de propietarios de mascotas que posee un pez dorado no es el 10%.
Introducción n a la estadísticca 376 8-5
H 0 : El E 12% de los estudiantes tie enen un área de concentracción en mate emáticas Ha: El porcentaje de estudiantess con un área de concentrac ción en mate emáticas no ess el 12% 8-7 Se requiere una e estimación, no o hay ninguna h hipótesis que probar p 8-9 Ma art está en lo ccorrecto, Mary no 8-11 Tipo II 8-13 b) Po odrían ocurrir m mas falsas posittivas, es decir, más errores de el tipo I 8-15 Mientras mayor se a la inversión,, menor debe ser alfa
8-17
el disco es legal legal arreglado arreglado
el numero de seises puede estar cercano c a 10 20 10 20
conclusión legal-correcto arreg glado-error de tipo I lega al-error de tipo II arreg glado-correcto
8-21 a) p = P(un genitz e es pibled) H0: 3% de todos lo os genitz que son pibled p = .03; Ha: Menoss del 3% de to odos los genitzz son pibled. p < 03, (un exxtremo) b) 30 – 2 33(5 3 39) = 17 4 4, 17 o menos 8-23 a) p = P (un asiste ente es hombre e) Ha: Menos del d 75% de los asistentes son hombres p < 75, un extremo o b) H0: 75% d de los asistente es son hombrres, p. 75; 8-25 H0: El E sexo nada tiene que verr con la filiaciión política, p = 42 Ha: Mas de el 42% de los republicanos son mujeres, p> .42, un exttremo, Regla de decisión: d Recchazar H0 si S> >53
Respu uestas a los eje ercicios seleccio onados 377
b) no puede e establecerse e a menos que e se conozca p; p c) 2 8-51 a) ¿Cuánto ¿ costarrá la nueva técnica? ¿Se tend drá que entrena ar, emplear o desp pedir a algunos empleados? Ettc.; c) ¿Qué tan n cara es la med dicina? ¿Qué tan se eria es la reacción alérgica? ¿Qué otras med dicinas existen? ? Etc. 8-55 a) p = P(una serrpiente tiene lo os colmillos frracturados) Ho: El E porcentaje d de serpientes con c los colmillo os fracturados es de 3%, p = .0 03 Ha: El porcentaje es menor que e el 3%, p < .03 (prueba de un extremo) b) p = P(un n maestro lleg a tarde) Ho: El po orcentaje de m maestros que llegan tarde ess el 18%, p = .18 . Ha: El po orcentaje es ma ayor que el 18% %, p > .18 (prueba de un extrem mo) c) Ho: Afilia arse a la Unión n no afectará el e sueldo neto promedio Ha: Afiliarse a la Unión cambiará el sueldo neto pro omedio (prueba a de dos extremos) d) Ho: Los exámenes e inessperados no afe ectan las calificcaciones de loss estudia antes Ha: Los exámenes e inessperados aume entan las calificcaciones de los s estudia antes (prueba de un extremo o) e) H0: Usar aletas no afeccta el número promedio p de pu untos anotados por los jugadores Ha: Usarr aletas aumen nta el número promedio p de pu untos anotadoss por partido (prueba de e un extremo) 8-57 a) población: tod dos los estudia antes de la universidad, p = P (un estudiante es zurdo), H a : más del 10% % son zurdos, p > .10
Introducción a la estadística 378 b) H 0 : 10% son zurdos, p = .10 c) un extremo d)Sc = 10 + 1.65(3) = 14.95.se rechazará a H0 si mis resultados exceden a 14.95; e) Ya que 16 > 14.95, puede rechazarse la hipótesis de que p es el 10%; al nivel de significancia de .05, se tiene la prueba de que más del 10% son zurdos. 8-59 a) Población: todos los automóviles que salen de la línea de armado; p = P(un carro es inadecuado para la venta); Ha: Menos del 20% son defectuosos con la nueva técnica, p < .20; b) Ho: 20% aún son defectuosos con la nueva técnica, p = .20; c) un extremo; d) Sc = 16 - 1.65 (3.58) = 10.1; se rechazará H0 si los resultados son menores que 10.1; e) Ya que 3 < 10.1, se rechazará a Ho con un nivel de significancia de .05 Se tiene evidencia de que la nueva técnica disminuye el porcentaje de carros defectuosos. 8-61 a) Población: Todos los estudiantes del primer año de licenciatura del Colegio Wealth; p = P(un alumno de primer año deserta); Ha: Menos del 50% desertará con las nuevas políticas, p < .50; b) Ho: el 50% desertará todavía, p = .50; c) un extremo; d) Sc = 300 – 1.65(12.2) = 279.8. Se rechazará a H0 si los resultados son menores que 279.8; e) Puesto que 260 < 279.8, se rechaza a Ho. Se posee evidencia, al nivel de significancia de .05, de que las políticas recientes han disminuido la deserción. 8-63 a) Población: todos los electores del distrito del político; p = P(un elector apoya el pago de servicios de salud), Ha: más del 40% apoya el pago p > .40; b) Ho : 40% apoya el pago, p = .40; c) un extremo; d) Sc: = 12 + 2.33(2.68) = 18.3. Se rechazará a Ho si los resultados son mayores que 18.3; e) No. Puesto que 14 no es mayor que 18.3 no se ha probado que la opinión en este distrito es diferente a la del resto de la nación. Se fracasa en rechazar a H0; puede ser cierto que p = .40. 8-65 a) Población: todo el tiempo de programación de la WW-TV los sábados en la mañana; p = P(un tiempo específico que se dedica a los comerciales); Ha: la afirmación de que Ralph está equivocada, p ≠ .25; b) H0: Ralph está en lo correcto, p = .25; c) dos extremos; d) Sc = 12.5 ± 1.96(3.06) = 6.5 y 18.5. Se rechazará H0 si los resultados son menores que 6.5 o mayores que 18.5; e) Puesto que 9 está entre 6.5 y 18.5, se fracasa en rechazar a Ho. Ralph podría tener razón. 8-67 a) Población: todos los estudiantes del primer año de licenciatura de este colegio; p = P(un estudiante de primer año que está más interesado en ser popular que en obtener buenas calificaciones), Ha: Las afirmaciones del periódico son muy altas, p < .60; b) Ho : El periódico está en lo correcto, p = .60, c) un extremo, d) Sc = 60 – 1.65(4.90) = 51.9; se rechazará a H0 si los resultados son menores que 51.9; e) puesto que 10 es menor que 51.9, se probó que el 60% es demasiado alto en ese colegio. Si el artículo del periódico se refiere a ese colegio, se tiene evidencia de que está en un error. Si el artículo se refiere a toda la nación, se tendrá evidencia de que los alumnos de primero de ese colegio son diferentes.
Respuesttas a los ejercic cios seleccionad dos
379 8-69 a) Población: todos los renacuajoss, bajo ciertas condiciones; p = P(un renacua ajo sobrevive y se convierte en e rana); Ha: Más del 10% sobrevive, p > .10; b) H0: el 10% ssobrevivirá, p = .10; c) un exttremo; d) Sc: 9.8 + 1.65(2.97) = 14.7. 1 Se rechazzará H0 si los resultados r son mayores que 14.7 1 ranas; é) si el e resultado ess 12, se fracasa en rechaza ar a H0; no se e ha probado que las vitaminas ttengan algún efecto e para sob brevivir. Si el re esultado es 27, se e rechazaría a H0. Se tiene ev videncia, al nivvel de significan ncia de .05, de qu ue más del 10% % de los renaccuajos sobrevivvirán al proporrcionarles la vitam mina. 8-71 a) Pob blación: todas llas tiradas pos sibles de dadoss; p = P(una tirada que produ uce un doble);;
CAPÍTULO
9
9-1 Sólo si s conoce el tam maño de la mu uestra utilizado o. 9-3 a) dpc = 0 ± 2.58(. 0484) = ± .12 2; b) 130/200 0 – 120/200 = .05. Se fracasa al a rechazar a H0. Podría no existir diferen ncia; los dos vuelos v podrían transsportar el mism mo porcentaje de personas dedicadas d a lo os negocios. ^ 9-5 dpc = 0 – 2.33(.152) = – .35; dp = 6//19 – 18/25 = – .40. Se fraca asa al rechazar a H0. No se ha probado que la aspirina reduzzca la formación de coágulos san nguíneos. ^ 9-7 dpc = 0 ± 1.96(.0897) = ± .18; dp = 42/60 4 – 29/60 = .22. Se rech haza a H0. Se opone en más los cató ólicos al control natal que los judíos ortodoxo os.
^
9-11 dp c = 0 - 1.65(.0 0753) = - .12 ; dp = 6/50 - 15/60 = - .1 3; se rechaza a H0; es mayor el porcentaje de fumadores co on cáncer pulm monar. ^ 9-13 dpc = 0 ± 1.96(.0 083) = + .16; dp d = 20/60 – 1 15/60 = .083; se s rechaza a H0; no n se ha proba ado que su PE ES es diferente e. 9-15 .50(1457) = 728 8.5; .23(2797) = 643.31 dpc = 0 – 2.33(.0151) = ^ – .035; dp = .23 — .50 = — —.27; se recha aza a H0; más gente joven informa sufrir alguna enfermedad. ^ 9-17 .30(500 0) = 150; .3(50 00) = 180; dp c = 0 — 2.33(.0 0297) = —.07;; dp = .30 — .36 = .06. Se fracassa al rechazar a H0. Los dos grupos podría an ser iguales al res sponder ese tipo de preguntas; la respuesta correcta es dos cuartos. 9-19 .40(17 700) = 680; .45 5(2100) = 945 5; dp c = 0 - 2.3 3(.O161) = -.0 04; d p = .4 0 - .4 5 = - . 05 ; s í ^ 9-21 a) dp pc = 0 + 2.33(.1 107) = .25; dp = 20/30 - 40//70 = .09; no; b) b dp c ^ = 0 + 2.33(.0 0935) = .22; dp d = 20/60 - 10/40 = .08; no 9-23 a) 50 0%; b) 25%; cc) .50 - .25 = .25; d) 20(.5) = 10, 20(.5) = 10, 50(.25) = 12 2.5, y 50(75) = 37.5 son mayores m que 5; e) D = .25 5 1.65(.11) = .0 07
Introducciión a la estadísttica
380 LO 10 CAPITUL en ser aproximadamente igua ales, pero el recorrido s medias debe 10-1 Las p ser me enores que el recorrido de la classe y su desviacción estándar podrían dar. de la esccuela y su desviación estánd 29.31; e) los médiicos en algunos grupos, (b, c)) $49.36; d) $2 10-3 a) Todos T 4.14. normal; f) f $49.36; g) $4
mbres en cada e escuela?, ¿y ell número 10-13 ¿Es igual el número de hom m que 3 30? de mujerres? Si es así, ¿ambos son mayores 1.96(1.23) = 2.41; 2 dm = 82 - 77 = 5; se rechaza r dmc = 0 ± 1 10-15 H0; el priimer método es el mejor. 5 — 83.1 = — .60; se dmc = 0 — 1.65(.40) =—..66; dm = 82.5 10-17 fracasa al a rechazar H0; podría no existir diferencia.. = ± 4.65; dm = 120 - 30 = 90 0; se dm c = 0 ± 2.58(1.80) 2 10-19 an menos hábitos ahora. rechaza H0; se compra dm c = 0 ± 1.96(.274) = ± .54; dm = 2.8 — 3.2 = - 4; se 10-21 e diferenciia. fracasa al a rechazar a H0; podría no existir 1.96(1.84) = ± 3.6;dm =. 83 — 78 = 6; se rechaza dmc = 0 ± 1 10-23 po obtienen me ejores calificacciones. H0; los que tienen el exxamen a tiemp LO 11 CAPÍTUL a β. Aumentaría a y disminuiría 11-1 73(.27) = 3.5; 3.8 3 > 3.5; se rechaza r H 0; el tiempo mc = 3 + 1.7 11-3 o para las mujeres es mayorr que 3. promedio = 25 55; 250 < 255;; se rechaza Ho; el mc = 260 — 1.90(2.83) 1 11-5 or que 260. o de los coeficcientes intelecttuales es meno promedio 06(.6) = 69.8 y 72.2; 70 está á entre 69.8 y 72.2; 7 se mc = 71 ± 2.0 11-7 p ser de 7 71 pulgadas. fracasa al a rechazar H0; el promedio podría 2.95(125) = 26 631 y 3369; 3472 > 3369; se rechaza mc = 3000 ± 2 11-9 mayor que 3000 0 palabras. es m a H0; el promedio p 11-11
a rechazar a H0; la media po odría ser 103 está entre 52 y 148; se fracasa al
100.
oblema binomiial relacionado con valores t.. H0: p = 11-13 Este es un pro % de los valoress t serán menores que 1.86); Ha: p ≠ .95; Sc = 475 ± .95 (95% 5; S = 468 se frracasa al proba ar que el maesstro está 7) = 465 y 485 1.96(4.87 ado. equivoca
Respu uestas a los ejerrcicios seleccionados 381
Puesto que e los valores aproximados son n casi iguales, sse puede argum mentar a favor o en e contra para a rechazar a H0. Si es necessario obtener un resultado má ás definitivo, el experimento debe repetirse e con númeross más exactos y con c muestras m mayores.
3.34; dmc = 0 ± 1.68(3.3 4) = ± 5.6, dm m = 83.3 - 80.7 7 = 2.6; se frac casa al rechazar a H0; no se ha p probado que exxentar mejora la as calificacione es.
2.30; dmc = 0 ± 2.01(2.30 0) = ± 4.6; dm = 29.2 — 24.8 8 = 4.4; se fracasa al rechazar a H0; se fracasa al mostrar una a diferencia enttre los promedios de edad.
chaza a H0; los sapos de e agosto son más m pesados.
11-27 trabajar.
Parear los esstudiantes nos proporciona m más informació ón para
1.93; dmc = 0 ± 2.88(1.9 3) = ± 5.6; dm m = 16.3 – 1.69 9 = 4.6; se fraccasa al rechazar a Ho; podría n no existir difere encia entre la as millas recorrridas, b) m c = 0 ± 3.25(1.23) = ± 4.0; m = - .6; se recha aza H 0 ; con Flug F se recorren más m millas. 11-31 m c = 0 + 1.83(1.5 58) = 2.9; m = 5.8; se rechazza a H 0 ; la me dia de la pérdida de peso es mayor que cero.
Introducción a la estadística a 382 11-33 mc = 0 + 1.83(1.90) = 3.5; m = 10; se rech haza a Ho; los profe p sionales eje ecutan más tiros de revés.
EXAMEN DE D PRÁCTICA A PARA LOS CAPÍTULOS C 8,9 9,10 y 11 (1) Parám metro (2) Rech hazar una hipóttesis nula verdadera; el nivel de significanccia es la probabiliidad de cometter un error de tipo I. (3) Porqu ue al examina ar una estadísstica, nunca po odemos estar 100% seguros de e un parámetro o. (4) Las poblaciones p so on normales y su varianza e es aproximada amente igual. (5) a) p = P(rojo); Ho: la ruleta está arreglada, p 1/4; Ha: la ruleta es legal, p ≠ 1/4 1 (dos extre mos); b) S c = 15 ± 1 .96(3.35) = 8.4 y 21.6; se re echazará H 0 si s el resultado o es menor qu ue 8.4 o mayo or que 21.6; c) P uesto que S = 12, se frac casa al recha azar a H 0 ; la ruleta podría ser legal. l (6) a) Ho: El tiempo prromedio de estacionamiento es de 2 horas y 15 minutos; Ha: el promedio o es mayor qu ue 2 horas y 15 1 minutos; b)) mc = 2.25 + 1.65 5(.075) = 2.4; se e rechazará H0 si el resultado o excede a 2.4 horas; c) Puesto que 2.6 > 2.4 4, se rechaza a H o ; el prom medio es mayo or que 2.25. (7) a) Ho: los tiempos p promedios son iguales; Ha: loss tiempos prom medios no son igua ales;
dmc = 0 ± 2.31 2 (.32) = ± .73; se rechaza ará Ho si el ressultado no está á entre –.73 y + .7 73; c) dm = 25 5/5 – 22/5 = .6; se fracasa al rechazar H0; los tiempos pro omedio podría an ser los mism mos. 8) a) H 0 : lo os tiempos pro medio son los mismos; H a : l a media del grrupo 1 es mayor prueba p de un extremo + 1.65(2) = 3.3, Se rechaza ará H0 si la dife erencia es may yor que 3.3 minutos; c) dm = 4.4 – 3.6 = 0.8; se fracasa al rechazar a H0; la película p podría no afec ctar la tolerancia al a ruido. (9) (i) para a hacer los gru upos equivale entes y obtene er pares; (ii) porque los gemelo os tienen un vo ocabulario aproximadamente e igual; (iii) So olución con prueba a t pareada: a) H0: no existe diiferencia entre los resultados de los dos método os; µpop = 0; Ha: los resultados s serán diferenttes; µpop ≠ 0;
Respues stas a los ejerccicios selecciona ados 383
Se rechazarrá H0 si el resultado es men nor que –30.1 o mayor que 30.1; c) Puesto que m = 11.1, se fra acasa al recha azar a H0; podríía no haber dife erencias en el aprend dizaje con esto os dos método os; Solución porr diferencia en ntre dos media as: a) H0: no hay diferencia entre e los dos métodos;
se rechazará á H0 si la difere encia es menorr que —28.1 o mayor que 28.1; c) dm = 1535//10 — 1468/10 = 6.7; se fracasa f al recchazar H0; los dos métodos pod drían dar los m mismos resultados. CAPÍTULO 12
Introducció ón a la estadístic ca 384
C APÍTULO O 13
13-1 a) No se pueden determinar d los totales de filass ni los totaless de columnas; b) b La actitud ha acia la nueva carretera c y la edad e son indep pendientes. Puestto que 38.67 ess mayor que 11 1.07 se rechaza H0; más gentte joven apoya el proyecto, p más gente madura se muestra indecisa, c) En la a última celda
S Su amigo pod dría 1) aumen ntar el tamaño o de la
muestra, n, 2) combina ar las dos últim mas columnass en otra que tuviera como títullo "no están a favor", 3) omitir a los pocoss que están ind decisos. 13-3 a) H0: la utilizzación del proccesador de pala abras y las calificaciones son independientess; Ha: la utiliza ación del proce esador de palabras y las calific aciones son d dependientes; b) 2 x 2 = 4; c) c X2C = 9.49.
Respu uestas a los eje ercicios seleccio onados 385
2
e) X = 59.57 7; f) Puesto que 59.57 excede a 9.46, se rechazza H0; el aumen nto del uso del proccesador de pa alabras está re elacionado con el aumento de d las calificacione es altas.
2
2
Puesto que X = 116.39 exxcede a Xc = 12 2.59 se rechaza a Ho; los símbo olos y el tipo de manuscrito son dependientes.
2
2
No, puesto que X = .40 < Xc = 5.99, se e fracasa al re echazar a H o.
2
2
Puesto que X = 22.61 exccede a Xc = 7.8 82 se rechaza H0; existe una a relación.
Puesto que X2 = 26.3 no e excede a Xc2 = 29.14 se fraccasa al rechaza ar H0; se falla al prrobar que la po osición con res specto a la ban ndera afecta la posición final.
Introducció ón a la estadístic ca 386
Sin factor de corrección,
ctor de con fac
corrección,
puesto que Xc
2
=
3.84 se fra acasa en mosstrar que hay alguna a diferenccia entre los dos d métodos. 13-15 a) z = .89; b) z = .89; c) X - .8 89; d) X c = 2.5 58; e) son igu uales; f) son matem máticamente e equivalentes. 2 2 13-17 Pue esto que X = 11.7 excede e a Xc = 7.82 se re echaza la teoría a; hay más beb bedores y men nos abstemios que los que se teo orizó. 13-19 observado: o: previsto 2 2 Puesto qu ue X = 120 exccede a Xc = 5.99 se rechaza H0; en esta po oblación no se tien ne una distribución binomial con p = .50 13-21 Al combinar c las trres últimas celdas de manerra que E > 5 y usando 2 2 α = .01, se tiene que e X = 182.3 es mayor que Xc = 11.34; por consiguien nte se rechaza la teoría de qu ue los insectoss se distribuyen n aleatoriamente; tienden a agru uparse.
= .10 está á entre —.101 y .101 se fraccasa al rechaza ar a H0, p1, podría ser igual a p2\ nótese, sin em mbargo, que .10 y .101 están demasiado ce ercanos; si es muy importante el resultado es necesario repettir el experimen nto (con muestras más grandes, si es posible);
2
es menor que q Xc = 3.84 ; de esa manera se fracasa al re echazar a H0. 13-25 a E = 10 654 /12 = 887.8; puesto a) p que X2 = 114.4 excede a Xc2 = 24.72, se s rechaza H0; u un homicidio es más probable e en diciembre y julio, y ^ menos prrobable en febrero y marzo; b) p = (10 042 + 1024)/(1 10654 + ^ ^ 10654) = .10; dp c = 0 ± 2.33√.10(.90 0) (1/10654 + 1/10654) = ± .0096; dp = 1042/1 0654 - 1024//10654 = .002 2;se fracasa al rechazar a H0; no existe una a diferencia si gnificativa; c) m1 = 744/[10( 28) + 3] = 2.6 excede; m2 = 789//(10(31)] = 2.5 5; cierto.
.
Respu uestas a los eje ercicios seleccio onados 387 2
2
b) No, puesto que X = 2 20.31 excede a Xc = 11.07 2 2 13-29 E = 235/3 = 7 78.3; X = 1.6 no n excede a X c = 5.99, se frracasa al tratar de e mostrar algun na diferencia entre e las tres p pastillas. EXAMEN DE D PRÁCTICA A PARA LOS CAPÍTULOS C 12 2 y 13 1) Porqu ue se extende ería desde - ∞ hasta + ∞. 2) a) p está e entre 30/2 200 ± 1.96√.15(.85)/200, entrre .10 y .20; b) si la asociación fuera represen ntativa de la prrofesión y no estuviera e prejuiciada por el sexo o. 3 ) n ≥ (1.9 96/.03)2(.25) = 1.067.1; i.e., n ≥ 1068. 4) a) El tiempo t de resp puesta de todas las llamadass de emergenciia recibidas por el departamento o entre las 8 A.M. y las 4 P.M. por p el servicio médico m de emerge encia de la cciudad de Nu ueva York; ¿sse trata de un u día promedio o bien 88 llama adas es un núm mero muy alto o muy bajo? ¿se ¿ reportaron todas las llamadas? etcc.; b) µ es tá entre 28.8 8 ± 1.96(15/√8 88) entre 25.7 y 31.9 minutoss. 5) (p1 — p 2) está entre (36/50 — 18/50) ± 1.96√.72(.2 28)/50 + .36(.6 64)/50, entre 18% y 54%; se esgado en con ntra de las mujeress; el hecho de que las mujere es hayan ocupa ado puestos margina m les reciente emente y que por p lo tanto ten ngan menos an ntigüedad en sus trabajos, etc.
2
2
Puesto que e X = 77.99 excede a Xc = 9.4 49 se rechaza H0 hay más pa ares de padres de baja b estatura -h hijos de baja esttatura y padress altos- hijos alto os que los previsto os en una distrribución aleato oria; las alturass de padre e hijo son variables dependientes.
CAPÍTULO O 14 14.1 El heccho de que r esté cercano a — 1 indica que aquéllos con n calificaciones alltas en Españo ol I obtuvieron calificaciones c b bajas en Español II; si r está cercano a + 1 eso indica que loss que tienen ca alificaciones alltas en Español I obtuvieron o califficaciones altas en Español II; si resta cerccano a cero eso in ndica que existte muy poca co onexión entre las calificaciones obtenidas en Español I y Español II.
Introducción n a la estadística a 388
14-17 a) H0: la població ón tiene una correlación c cero; Ha: la pob blación tiene una correlación c dife erente de cero; b) dos; c) rc = + +.87; d) se fraccasa al rechazar a H0 ya que r = — —.24 está entrre —.87 y + .87 7; no existe sufficiente evidencia para p apoyar una correlación n diferente de cero al nivel .01 . de significancia. 14-19 a) Ho: la població ón tiene una correlación c cero; Ha: la pob blación tiene una correlación c differente de cerro; b) dos; c) rc = ±.96; d) Puesto P que r = .99 9 excede a .96 se rechaza a Ho; existe evid dencia de una correlación diferrente de cero ((positiva). 14-21 a) H0: la població ón tiene una correlación c cero; Ha: la pob blación tiene una correlación c possitiva; b) uno; c) rc = .98; d)) puesto que r = .99 excede a .9 98 se rechaza a H0; existe evidencia de una a correlación po ositiva. 14-23 r = .90 excede a r c = .34; se rec chaza a H0 ; exxiste una corre elación positiva.
se falla al mostrar m una co orrelación positiva;
Respues stas a los ejerciccios seleccionados 389
CAPÍTULO 15 1 15-1
¿Son las dos va arianzas iguales?
15-3
a Ha: σ2 > 52 a)
excedde a Xc2= 43.777; se rechaza a H0; evideentemente la dessviación estánd dar es mayor que q 5; b) Ha: µ ≠ 125; mc = 12 25 ± 1.96(8)/√31 = 122.2 y 127 7.8; m = 150; se s rechaza H0; evidentementte la distancia me edia es mayor que 125 pies.
3.685; Xc2 = 2.70 y 19.02; es posible que σ = 10; no sse tiene evidencia suficientemente fuerte para a rechazar la hipótesis; h b) ND DL (µ = 152.5, σ = 10);
15-7 H 0 : σ = 10; H a : α < 10; α = .05; g rados de liberrtad = 7; X c 2 = 2.17; 2 2 2 X = (n – 1) S /σ = 7(64)//100 = 4.48. El E valor S de la a muestra no es lo suficienteme ente bajo para establecer que σ es menor que 10. 2 15-9 H o : σ = 1; H a : α > 1; α = .05; grados de lib bertad = 24; X c = 2 2 2 36.42; X = (24)9/1 = 216. Puesto que X > X c se tien e evidencia de e que σ es mayor que q 1.
Introducció ón a la estadístiica
390 a) Gradoss de libertad (n umerador) = 34 4, grados de li bertad (denom inador) 2 2 2 2 = 19; F c = 2 .39 ; F = s 1 ls 2 = .2 /1 5 = .04/.0225 5 = 1.78 . Se falla f al rechazar H 0 . No es irra cional suponerr que las varia nzas son igua les. b) Gradoss de libertad (n umerador) = 14 4, grados de li bertad (denom inador) = 14; F c = 2.95; F = .81 1/.49 = 1.65. Se S fracasa al re echazar a H 0 . No es 2 2 irraciona l considerar qu ue σ 1 = σ 2 . c) Gradoss de libertad (n umerador) = 1 9, grados de li bertad (denom inador) 2 2 = 19; F c = 2.51; F = 11 .10 /9.48 = 1..37. Se fracas a al rechazar a H o . No es irra acional decir qu ue σ 1 = σ 2 . d) Gradoss de libertad (n numerador) = 9, 9 grados de lib bertad (denomi nador) 2 2 = 9; F c = 4.03; F = 3.2 /3.0 = 1.14. Se fracasa al rechazar a H 0 .No es 2 2 irraciona l afirmar que σ 1 = σ 2 . 15-13 Dados α = .01, s1 = 40, n1 = 20, s2 = 100, n2 = 20. H0: 2 2 2 2 2 2 σ 1 =σ 2 ; H a : σ 2 > σ 1 ; F = 100 /40 = 6.25; 6 F c = 3.00 . Puesto que F > F c se rechaza a H 0 . La acció n de la sustan cia en las plan ntas de avena es más irregular. 2 2 15 - 1 5 D a d o s α = . 0 1 , s 1 = 1 . 3 , n 1 = 1 0 , s 2 = 2 . 4 , n 2 = 1 0 . H 0 . σ 1 = σ 2 ; 2 2 2 2 H a : σ 1 ≠σ σ 2 ; F c = 6.54; F = 2.4 /1.3 = 3.41. 3 Se fracassa al rechazar a H 0 . No es irracio onal suponer q ue las píldora s tienen una vvariabilidad ap proximadamente igual en sus e efectos.
2
s A = 5(7 .21) = 36.1, d..o.f. = 3—1 = 2; 2 F = 36.1/9.2 21 = 3.92 no ex xcede a F c = 3.98 8; se rechaza a H 0 ; las tres medias m podrían n ser iguales.
CAPÍTUL LO 16 16-1 La prueba p 2 nece esita distribucio ones normaless y el conocimiiento de las varian nzas. Las prue eba 3 requiere de pares pare eados. La prue eba 2 es más pode erosa que la 1 1, y la 3 más poderosa p que la 2. En una situación s dada se debe usar la p prueba más po oderosa que se e pueda.
Respuestas a los ejerrcicios seleccion nados 391 16-3 a)Sc = 18(.5) ± 1.96 √18(.5)(.5) √ = 4.8 y 13.2; S = 13 signos posiitivos. Se falla al mostrar m que la as variaciones de los pesos no son aleato orias. Podrían ser aleatorias.
= ± 4.64; m = 24/20 = 1.2. Se fracasa al mostrar m que las variaciones de d los pesos no so on aleatorias. P Podrían ser ale eatorias.
esto es sufic cientemente fu uerte para indicar que H0 no es correcta; se s podrían realiza ar pruebas adiccionales para ver v si los patron nes se conserv van.
se fracasa al mostrar qu ue la mediana de Adam es mayor m que 8.5. 16-9
Ha: p > .5 (más de la mitad de el tiempo, la cirrculación no se e inte-
rrumpió); indica que la a mediana del n número de vece es que la circulación se interru umpió es menor qu ue 1.
Puesto que R = 12 se fraccasa al rechaza ar a H0; las pérrdidas y ganancias podrían esta ar distribuidas al azar. 16-15 Ha: las person nas que pasan despacio o rápido no aparec cen al azar; n1 = 14, 1 n2 = 11;
R = 10; se fracasa f al mos strar que las personas p no ap parecen al aza ar.
Introduccióón a la estadísticca 392
16-19 U = 4 + 4 + 4 = 12 (prueba de d un extremo)); Uc = 12; se fracasa f al rechazar a H0, se falla al a probar que la l teoría es útiil. 16-21 Prueba de dos extrem mos; U 1 = 3(77 + 1 / 2 ) + 2(5 + 2 / 2 ) + 2(4 + 1 / 2 ) + 2(4 / 2 ) = 47. 5; U 2 = 9(8) - 47.5 = 24.5; U c = 70; se fracasa f al rechazar a H0 la calidadd podría ser iggual.
Respues stas a los ejercic cios selecciona ados 393
el nue evo tipo de gassohol es mejor.
EXAMEN DE PRÁCTICA PA ARA LOS CAPÍ ÍTULOS 14, 15 1 Y 16 1) 2)
a), c) y d) positivame ente; b) y e) ne egativamente r no pu uede exceder a 1.
Introducción a la estadística 394 Sc = 32.5 + 1.65(4.03) = 39.2; S = 37 no es mayor que 39.2; se fracasa al rechazar a H0; no se ha probado que Channel 0 es más popular. RESPUESTAS A LOS EJERCICIOS DEL APÉNDICE A 1 a) 23.73; b) 4.97; c) .046; d) 1.202; e) 9.628; f) .0012; g) 21.25; h) .5; i) 02; j) 0 2 a) —2.33; b) .081, .41, .6, 4.51, 4.7; c) —.273, .273, .41 3 a) verdadero; b) verdadero; c) falso; d) verdadero; e) 5, 6; f) 4, 5, 6; g) 0, 1, 2, 3, 4; h) 0, 1, 2, 3, 4, 5; i) 3, 4; j) 2, 3, 4, 5 4 a) 5%; b) .3%; c) .37; d) .032; e) .375, 37.5%; f) .263, 26.3%; g) 11.5; h) 8, i) 30; j) 25 5 a) — 15; b) + 15.35; c) — 16.5; d) — 2; e) — 5 6 a) 7.446; b) — 41; c) 11.167; d) 6.92 y —.92; e) verdadero 7 a) + 16; b) 343; c) 1/16; d) .3087 8 a) 1.550; b) 2.315; c) 4.45 RESPUESTAS A LOS EJERCICIOS DEL APÉNDICE B 1
a) independiente; b) independiente; c) dependiente; d) independiente.
3 5 7
A y B son eventos dependientes a) no; b) si; c) sí; d) no a) .20; b) no
9
1/1 000 000
11 a) 1/16; b) 1/169; c) 2/169; d) 9/169; e) 1/17; f) 4/663; g) 8/663; h) 11/221 13 a) 1/2; b) 3/8 15 2/663 17.08
ÍNDICE Aleatoriedad, prueba para, 313 Análisis de varianza, 286, 294, 299 Bondad del ajuste, 245 Calculadoras, 4-5 Cociente F, 291 Coeficiente(s): binomial, 78 de correlación, 261 Correlación, 261 lineal, 263 Curva: normal, 94, 96 tabla, 351 uso de la, 97 t, 198 Datos, 3 agrupados, 19 pareados, 209, 308 Desviación(es): estándar, 19, 182 de la media, 20 Diagrama de árbol, 71
índice 396
Diferencias: entre las medias, 188, 190, 227 pareadas, 205 entre proporciones, 226 Dispersión, 19 Distribución, 3 binomial, 76 aproximación por medio de la normal, 112 ji-cuadrada, 237 normal, 93-110 tabla, véase Curva normal, tabla t de Student, 197 Encuesta, 10-11 Error(es): estadísticos, 132 de tipo I, 133 de tipo II, 133 Estadísticas, 14 descriptivas, 2 vitales, 36-37 Estimación, 163, 215 Estimador agrupado, 167-168 Evento(s), 63 dependientes, 336 independientes, 334 mutuamente excluyentes, 339 Factor de corrección (tabla de contingencia de 2 x 2), 245 Falso positivo, 87, 220-221 Fronteras, histograma, 44 Grados de libertad, 198, 237, 245 Gráficas, 42, 50 de barras, 43 de dispersión, 262 Hipótesis: alternativa, 128 estadísticas, 127 motivadas, 129 nula 128, Histograma, 43, 66-67 Independencia, 233 Inferencia estadística, 2 Intervalo(s): de confianza, 215 estimado, 215 histograma, 45-46
índice 397 Media(s), 13 comparación entre las, 188 muéstrales, 179 distribución teórica de las, 179 Mediana, 13 Medida de tendencia central, 13 de variabilidad, 19 Moda, 13 Muestra, 4-5 aleatoria, 4-5 grande, 180, 221-222 pequeña, 197, 224, 228-229 Nivel de significancia, 137 Número(s): aproximado, 4- 5, 6
exactos, 6
Orden: aleatorio, 63 de rango, 307 Parámetro, 14 Población, 4-5 Potencia, 147-148 Predicción, 276 Probabilidad, 62, 334 Promedio, 13 Prueba(s): del cociente F, 294 de la corrida, 313 de dos extremos, 129 con dos muestras, 163, 202 de eliminación, 87, 220-221 de un extremo, 129 de hipótesis, 127, 150 independientes de la distribución, 307 ji-cuadrada, 233 de la mediana, 313, no paramétrica, 307 robusta, 308 del signo, 308
t, 199-200 U de Mann-Whitney, 316-317 Recorrido, 19 percentil, 30, 50 Recta:
índice 398 de mejor ajuste, 277 de regresión, 277 Redondeo, 4-5 Reemplazo, 337 Reglas: de decisión, 132 de multiplicación, 79 Relación lineal, 261 Repaso de aritmética, 332 Resultados: esperados, 234 igualmente probables, 63 observados, 235 Tabla(s): de contingencia, 233, 243, 245 F, 361, 364 de frecuencia, 42 ji-cuadrada, 358 de probabilidades binomiales, 89-90, 345
t, 357 U, 365, 366 Tamaño de la muestra, 218 Tasas, 36-37 Teorema del límite central, 180 Triángulo de Pascal, 82, 83, 344
Valor(es): estimado, 163 originales 3, 28, 99-100 t, 198 z, 27, 28, 50 Variabilidad, 19 Variable(s), 76 binomial, 77 independientes, 236 Varianza(s), 21, 285 comparación de las, 286, 291
Símbo olos usados con n mayor frecuen ncia ____ __ probabilidad de un error de tipo I probabilidad de un error e de tipo II media d de una población desviacción estándarr de una población orden d de sumar hipótessis alternativa a hipótessis nula datos o originales con n un rango de el percentil 32 3 rango d del percentil del d dato original 117 valor z del dato orig ginal 83 valor t d del dato original 64 estadística emplead da en una pru ueba ji-cuadra ada tamaño o de una mue estra estimacción de la des sviación está ándar de una pobla ación media d de una muesttra o estimacción de la media a de una pob blación probabilidad de un evento e número o de casos favvorables diferenccia entre las medias de una muestra diferenccia entre las proporcioness de una mue estra coeficie ente de correlación porcenttaje del área bajo una currva normal, a la izquie erda de distribu ución normal con media = 20 y desviacción estánda ar = 4 número o de corridas estadística U de Mann-W Whitney
399
Fórmu ulas usadas con n mayor frecuen ncia
400
(Continúa)
Fó órmulas usadas con mayorr frecuencia (C Continuación)
Capítulo 11
Capítulo 12 2
Distribución n de medias de d una muesttra
(mu uestras grandes) (mu uestras peque eñas) Diferencias entre dos pro oporciones
(mue estras grande es) (mue estras pequeñas) 401
Capítulo 13 1
Capítulo 14 1
Capítulo 15 1
Capítulo 16 1
402