29
ESTADÍSTICA EST ADÍSTICA NO PARAMÉTRICA La estadística no paramétrica es una rama de la estadística estadística que que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos paramétricos.. Su distribución no puede ser definida a priori, priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida medida empleado empleado no sea, como mínimo, de intervalo. Las principales pruebas pruebas no no paramétricas son las siguientes
1)
Pre!a "# de Pearson
La pre!a "# de Pearson es considerada como una prueba no paramétrica que paramétrica que mide la discrepancia entre una distribución observada y otra teórica !bondad de ajuste", indicando en qué medida las diferencias e#istentes entre ambas, de haberlas, se deben al azar en el contraste de hipótesis. hipótesis . $ambién se utiliza para probar la independencia de dos variables entre sí, mediante la presentación de los datos en tablas de contingencia. contingencia . La fórmula que da el estadístico es la siguiente
%uanto mayor sea el valor de & ', menos verosímil es que la hipótesis sea correcta. (e la misma forma, cuanto m)s se apro#ima a cero el valor de chi*cuadrado, m)s ajustadas est)n ambas distribuciones. Los grados de libertad $% vienen dados por gl + !r *"! *"!k *". *". (onde r es es el n-mero de filas y k el el de columnas.
%riterio de decisión
Se acepta H cu cuando . /n caso contrario se rechaza. (onde t representa representa el valor proporcionado por las tablas, seg-n el nivel de significaci significación ón estadística elegido.
&)
Correcci'n de (ates
La corrección de (ates se aplica a la prueba ji*cuadrado cuando ji*cuadrado cuando al menos el valor de una frecuencia esperada es menor que 0. %hi*cuadrado corregida
/n general, se aplica la corrección de 1ates o también corrección por continuidad cuando apro#imamos una variable discreta a una distribución continua. La corrección consiste en a2adir y substraer ,0 a la variable en cuestión. 3or ejemplo, obtener 4 caras al lanzar una moneda es una medida discreta !nominal" que se ajusta a la distribución binomial. binomial . 5ientras que si la apro#im)ramos a la distribució distribuciónn normal normal,, su valor oscilar) entre ',0 y 4,0.
29
)
Pre!a "#
/n estadística estadística y y estadística aplicada se aplicada se denomina pre!a "# !pronunciado como 6ji*cuadrado6 y a veces como 6chi*cuadrado6" a cualquier prueba prueba en en la que el estadístico utilizado sigue una distribución &7 si &7 si la hipótesis nula es nula es cierta. 8lgunos ejemplos de pruebas &7 son La prueba &7 de 3earson, 3earson , la cual tiene numerosas aplicaciones La prueba &7 de frecuencias La prueba &7 de independencia La prueba &7 de bondad de ajuste La prueba &7 de 3earson con corrección por continuidad o corrección de Yates La prueba de 9artlett de homogeneidad de varianzas.
*)
Distri!ci'n "# "#
/n estadística estadística,, la distri!ci'n "# !de Pearson" es una distribución de probabilidad continua con un par)metro k que que representa los grados de libertad de libertad de la variable aleatoria (onde Z i i son son variables aleatorias normales independientes independientes de de media media cero cero y varianza varianza uno. uno. /l que la variable aleatoria X te tenga esta distribución se representa habitualmente así . /s conveniente tener en cuenta que la letra griega & se transcribe al latín latín como como chi y y se pronuncia en castellano como ji . Contenido 3ro 3ropie piedad dades es . :unción de densi densidad dad .' :unción de distribución acumulada ' ;elación con otras distribuciones 4 8pl 8plica icacio ciones nes
o o
1) Pr Pro opi pied edad ades es 1+1) ,nci'n de densidad Su función de densidad es densidad es
donde < es la función gamma. gamma. 1+&) ,nci'n de distri!ci'n acm%ada Su función de distribución es distribución es
donde es la función gamma incompleta. incompleta . /l valor esperado y la varianza de una variable aleatoria = aleatoria = con distribución &7 son, respectivamente, k y 'k . &) Re% Re%aci aci'n 'n con con otras otras distri distri!c !cion iones es La distribución &7 es un caso especial de la distribución gamma. gamma . (e hecho,
29
)
Pre!a "#
/n estadística estadística y y estadística aplicada se aplicada se denomina pre!a "# !pronunciado como 6ji*cuadrado6 y a veces como 6chi*cuadrado6" a cualquier prueba prueba en en la que el estadístico utilizado sigue una distribución &7 si &7 si la hipótesis nula es nula es cierta. 8lgunos ejemplos de pruebas &7 son La prueba &7 de 3earson, 3earson , la cual tiene numerosas aplicaciones La prueba &7 de frecuencias La prueba &7 de independencia La prueba &7 de bondad de ajuste La prueba &7 de 3earson con corrección por continuidad o corrección de Yates La prueba de 9artlett de homogeneidad de varianzas.
*)
Distri!ci'n "# "#
/n estadística estadística,, la distri!ci'n "# !de Pearson" es una distribución de probabilidad continua con un par)metro k que que representa los grados de libertad de libertad de la variable aleatoria (onde Z i i son son variables aleatorias normales independientes independientes de de media media cero cero y varianza varianza uno. uno. /l que la variable aleatoria X te tenga esta distribución se representa habitualmente así . /s conveniente tener en cuenta que la letra griega & se transcribe al latín latín como como chi y y se pronuncia en castellano como ji . Contenido 3ro 3ropie piedad dades es . :unción de densi densidad dad .' :unción de distribución acumulada ' ;elación con otras distribuciones 4 8pl 8plica icacio ciones nes
o o
1) Pr Pro opi pied edad ades es 1+1) ,nci'n de densidad Su función de densidad es densidad es
donde < es la función gamma. gamma. 1+&) ,nci'n de distri!ci'n acm%ada Su función de distribución es distribución es
donde es la función gamma incompleta. incompleta . /l valor esperado y la varianza de una variable aleatoria = aleatoria = con distribución &7 son, respectivamente, k y 'k . &) Re% Re%aci aci'n 'n con con otras otras distri distri!c !cion iones es La distribución &7 es un caso especial de la distribución gamma. gamma . (e hecho,
29
%omo consecuencia, cuando k + + ', la distribución &7 es una distribución e#ponencial de media k + + '. %uando k es es suficientemente grande, como consecuencia del teorema central del límite, límite , puede apro#imarse por una distribución normal normal
) Ap Ap%i %ica caci cion ones es La distribución &7 tiene muchas aplicaciones en inferencia estadística. estadística . La m)s conocida es la de la denominada prueba &7 utilizada &7 utilizada como prueba de independencia y como prueba de bondad de ajuste y en la estimación de varianzas. 3ero también est) involucrada en el problema de estimar la media de una población normalmente distribuida y en el problema de estimar la pendiente de una recta de regresión lineal, lineal , a través de su papel en la distribución t de Student. Student .
8parece también también en en todos los los problemas problemas de an)lisis de varianza por varianza por su relación con la distribució distribuciónn : de Snedecor, que es la distribución del cociente de dos variables aleatorias independientes con distribución distribución &7.
-)
Ta!%a a!%ass esta estadí díst stic icas as.D .Dis istr tri! i!c ci' i'n n c/i0 c/i0c cad adra rado do
La Distri!ci'n c/i0cadrado, tiene por nci'n de densidad
(onde el par)metro 2 de , se denomina grados de libertad de la distribución. La (istribución chi*cuadrado no tiene sentido para valores negativos de 3, como se puede ver en la figura. $éngase en cuenta que para 2 + y 2 + ' la función de densidad para 3 + , se hace infinito
3ara el resto de los valores de 2, para 3 + , la función vale .
29
La Distri!ci'n de pro!a!i%idad de esta función para valores menores de un # dado, que representamos por donde
/sta integral no tiene una solución conocida, y solo se conocen métodos numéricos para calcular sus valores, hay distintos tipos de tablas y algoritmos para ordenador con los que se pueden calcular sus soluciones, veamos una ta!%a distri!ci'n c/i0cadrado y su modo de utilización.
Contenido La $abl $ablaa ' 3ara otros valores valor es de # '. 3ara la variable mayor mayo r que # '.. '. . /je /jempl mploo '.' 3ara la variable mayor mayo r que # y menor que # ' '.'. '.' . /je /jempl mploo '.4 >nter >nterpolac polación ión line lineal. al. '.4. '.4 . /je /jempl mploo 4 $abla $abla inversa de distribución distr ibución chi*cuadrado chi*cuadr ado 4. %alculo de la probabilidad con la tabla inversa. 4.. 4. . /je /jempl mploo ? 3ara valores de @ grand grandes es
o
o
o
o
4a Ta!%a /sta tabla presenta la distribución de probabilidad de chi*cuadrado para distintos valores de 2!de a " y de 3!de a ' de ,' de incremento", present)ndolo con seis cifras decimales, separadas de tres en tres por un espacio en blanco para facilitar la lectura, en la fila superior est)n los valores de 2, y en la columna de la izquierda los de 3, donde se cruzan la columna de la 2 buscada y la fila de la 3, se encuentra el valor de la probabilidad acumulada desde a la 3 buscada.
29
$abla distribución chi*cuadrado # A@
'
4
?
0
B
C
D
E
,'
,4?0 'CE ,E0 B4 ,'' ? ,? BCE , DDB , 00 , '0 , ? , ,
,?
,?C' E ,D 'BE ,0E C0D ,C 0'4 ,? BC , ?D , 'B4 , 0C , ' , '
,B
,0B ?'' ,'0E D' ,4 0BD ,4B E4B , EEC ,4 0EE , D , 'BB , BB , B
,D
,B'D EC ,4'E BD ,0 044 ,B 00' ,'' EBC ,C E'B ,' 00B , CCB , ''4 , B
,
,BD' BDE ,4E4 ?BE ,ED C?D ,E '? ,4C ?4? ,? 4DD ,0 C , C0' , 0B' , C'
,'
,C'B BCD ,?0 DD ,'?B EEB ,' E ,00 '4 ,'4 0 ,E C4 ,4 40D , CE , 4E?
,?
,CB4 'CB ,04 ?0 ,'E? ?B0 ,00 D0 ,C0 BDC ,4? ?' ,? ?'E ,0 C04 ,' CC , CDB
,B
,CE? EC ,00 BC ,4? B ,E 'D ,ED C0 ,?C ?'4 ,' 40B ,E D ,4 BB0 , ?
,D
,D' 'DC ,0E4 ?4 ,4D0 B0 ,''C 0D ,'4 E4' ,B' D0C ,'E E'? ,4 ?0E ,0 C0 ,' 4??
',
,D?' C ,B4' ' ,?'C 0E4 ,'B? '? ,0 D00 ,D 4 ,? B ,D EDD ,D 04' ,4 BB
','
,DB EDE ,BBC 'E ,?BD 0' ,4 EC ,CE B? ,EE 0D? ,0' 04 ,'0 C?' ,' ? ,0 ?40
',?
,DCD BB0 ,BED DB ,0B 4B0 ,44C 4C4 ,'D 0'B ,' 04 ,B0 0B4 ,44 CBE ,B 0?C ,C C?B
',B
,DE4 4B ,C'C ?BD ,0?' 0 ,4C4 CC ,'4D B40 ,?' DDD ,D BE ,?4 E0 ,' E'D , BB4
',D
,E0 C4B ,C04 ?4 ,0CB 0 ,?D BC ,'BE '? ,BB 0' ,EC 44 ,04 C'0 ,'D 4 ,? '04
4,
,EB C40 ,CCB DC ,BD 4C0 ,??' C0 ,4 ? ,E 04 ,? EED ,B0 B?' ,40 C0 ,D 0CB
4,'
,E'B 4B' ,CED 4 ,B4D E0 ,?C0 BE ,44 DC ,'B B?' ,4? E0 ,CD D4 ,?? B0 ,'4 BD'
4,?
,E4? D? ,DC 4B ,BBB 40 ,0B C0? ,4B ?4 ,'?' CCC ,0? 'EE ,E4 DE ,04 BE' ,'E B0
4,B
,E?' '' ,D4? C ,BE ECD ,04C B4 ,4E BDC ,'BE 4CE ,C0 ?CC ,D CD ,B? 'D? ,4B ?C
4,D
,E?D C?C ,D0 ?4 ,CB ? ,0BB '0 ,?' ??0 ,'EB 'D ,EC ?EB ,'0 'ED ,C0 E'? ,?? D
?,
,E0? 0 ,DB? BB0 ,C4D 04B ,0E4 EE? ,?0 0D? ,4'4 4'? ,'' ''4 ,?' DCC ,DD 0DC ,0' B04
?,'
,E0E 0CB ,DCC 0?? ,C0E 44D ,B' 4D0 ,?CE 0 ,40 4BE ,'?4 0'0 ,B 40C ,' '4C ,B' 'B
?,?
,EB? B ,DDE EC ,CCD B0 ,B?0 ?4 ,0B B'B ,4CC 'DB ,'BC 'CC ,D B?D ,B D'E ,C' ?EB
?,B
,EBD 'D ,DEE C? ,CEB ?0D ,BBE ?B ,044 4D? ,?4 EB ,'E 400 ,' B04 ,4' 4D ,D4 C0
?,D
,EC 0? ,EE 'D' ,D' E0D ,BE 00E ,00E ''C ,?4 'E ,40 B?0 ,'' 'CC ,?D BC ,E0 DBE
0,
,EC? B04 ,EC E0 ,D'D '4 ,C' C4 ,0D? ' ,?0B DC ,4? 4C ,'?' ?'? ,B0 BE' ,D D''
0,'
,ECC ?4 ,E'0 C'B ,D?' 'CB ,C4' B0 ,BD 4C ,?D 0C ,4B? ?'E ,'B4 EED ,D4 ?B4 ,'' 0CC
0,?
,ECE DB4 ,E4' CE? ,D00 '0B ,C0 4? ,B4 EB? ,0B 4C0 ,4DD C'D ,'D0 ED ,' DB ,4C E'
0,B
,ED' ? ,E4E E ,DBC ''' ,CBD E'' ,B0' DE0 ,04 0?B ,?' D?E ,4D B4 ,'' D' ,0' 4'?
0,D
,ED4 EC? ,E?? ECC ,DCD '?4 ,CD0 ?E ,BC4 D4 ,00? 4C ,?4B C4 ,44 4CC ,'? '?? ,BD ''4
B,
,ED0 BE? ,E0 '4 ,DDD 4E ,D D0' ,BE4 CD ,0CB D ,?B '0 ,40' CBD ,'B D' ,D? C4C
B,'
,EDC ''0 ,E0? E0 ,DEC C'0 ,D0 'ED ,C' C0D ,0ED D4C ,?D4 ? ,4C0 B ,'D '04 ,' D
B,?
,EDD 0DD ,E0E '4D ,EB 4E ,D'D CEE ,C4 CD ,B' EB ,0B 0 ,4EC ?D ,4 BDC ,'E 4DC
29
B,B
,EDE D' ,EB4 C ,E? EE ,D? ?' ,C?C DC' ,B? 0C? ,0'D 4' ,?E BB' ,4' 4? ,'4C ?
B,D
,EE DD? ,EBB B'C ,E' ??C ,D04 0D ,CB? 00 ,BB 'B ,00 4 ,?? B?4 ,4?' BC ,'00 DD
C,
,EE D?E ,EBE D4 ,E'D ' ,DB? ' ,CCE 4B ,BCE 04 ,0C ' ,?B4 4BC ,4B' DD ,'C? 000
C,'
,EE' C ,EC' BCB ,E4? ' ,DC? 4 ,CE4 D? ,BEC '04 ,0E B?4 ,?D? CD? ,4D4 BE0 ,'E4 0B'
C,?
,EE4 ?CD ,EC0 'CB ,E4E DB ,DD4 CEE ,DC ?0 ,C? 0BC ,B 0?D ,00 D?C ,?? ?0 ,4' CD
C,B
,EE? B4 ,ECC B'E ,E?? E0B ,DE' B' ,D' 'ED ,C4 4 ,B4 DD ,0'B 00 ,?'0 EC ,44' 0B
C,D
,EE? CC0 ,ECE C0D ,E?E BBE ,E D0 ,D4' 4E' ,C?B DC0 ,B?E ?? ,0?B C04 ,??0 0D ,40 B40
D,
,EE0 4'' ,ED BD? ,E04 EDD ,ED ?'' ,D?4 CB? ,CB DEC ,BBC ?B ,0BB 04 ,?B0 D0? ,4C B4
D,'
,EE0 D ,ED4 ?'C ,E0C E?B ,E0 ?CE ,D0? ??D ,CCB DB ,BD? C ,0D0 DD ,?D0 DCB ,4E BE'
D,?
,EEB '?D ,ED0 ? ,EB 0C ,E'' '4 ,DB? ?C0 ,CDE CB' ,C 40? ,B? 0EC ,00 BD ,? C4
D,B
,EEB B4D ,EDB ?4 ,EB? DE ,E'D DC ,DC4 DCD ,D' B?0 ,CC 44B ,B'' D?B ,0'0 ? ,?'E 0B'
D,D
,EEB EDD ,EDC C'4 ,EBC E'D ,E44 C' ,DD' BDD ,D? D0D ,C4' BB? ,B? 00' ,0?? B4 ,??D DB
E,
,EEC 4 ,EDD DE ,EC CE ,E4D E ,DE E4B ,D'B ?'' ,C?C 4?? ,B0C C? ,0B' C'B ,?BC DEB
E,'
,EEC 0D ,EDE E?D ,EC4 '04 ,E?4 C ,DED B0' ,D4C 4B ,CB 4DB ,BC? 'E? ,0D ECE ,?DB CBB
E,?
,EEC D4 ,EE E0 ,EC0 0D ,E?D 0C ,E0 DBB ,D?C C ,CC? D ,BE 4B ,0ED D ,00 4E
E,B
,EED 0? ,EE CC ,ECC CE ,E0' 'BC ,E' B? ,D0C ?B ,CDC B4 ,C0 CC ,BB C4 ,0'4 C?
E,D
,EED '00 ,EE' 004 ,ECE B00 ,E0B B0 ,ED DE0 ,DBB BBE ,CEE DC ,C' B00 ,B44 D' ,0? CDD
,
,EED ?40 ,EE4 'B' ,ED ?4? ,E0E 0C' ,E'? CB0 ,DC0 4?D ,D ?'C ,C4? EC? ,B?E 00 ,00E 0C
,'
,EED 0EB ,EE4 E4 ,ED4 B ,EB' D ,E4 '4C ,DD4 0'' ,D'' ?D ,C?D C4' ,BB0 ?B' ,0CB DC0
,?
,EED C? ,EE? ?D4 ,ED? 0?0 ,EB0 CEC ,E40 44C ,DE '4 ,D4' ED? ,CB E40 ,BD EB ,0E4 DC'
,B
,EED DBE ,EE0 D ,ED0 E' ,EBD 004 ,E? DB ,DED ??B ,D?' E0C ,CC? 0E ,BE0 DC? ,B ?D'
,D
,EED ED0 ,EE0 ?D4 ,EDC ?' ,EC E? ,E?? 0C ,E0 '?' ,D0' ?B ,CDB CE ,C 444 ,B'B BDE
,
,EEE DE ,EE0 E4 ,EDD 'C? ,EC4 ?4B ,E?D B' ,E B'? ,DB 4D ,CED 4 ,C'? 'E ,B?' ?D'
,'
,EEE D' ,EEB 4' ,EDE 4D ,EC0 0E? ,E0' ??? ,EC B' ,DBE DC ,DE 4CD ,C4C C0 ,B0C D0
,?
,EEE 'BB ,EEB B0? ,EE '0' ,ECC 0D' ,E00 EEE ,E'4 ''C ,DCC E' ,DE E0' ,C0 CB ,BC' CD0
,B
,EEE 4? ,EEB EC' ,EE 4 ,ECE ?4 ,E0E 4 ,E'D ?DE ,DD0 ?EB ,D4 4C ,CB4 E ,BDC 'D'
,D
,EEE ?D ,EEC 'B ,EE DEE ,ED ED ,EB' 4BC ,E44 ?D ,DE' BBE ,D4E B?C ,CC0 CE ,C 440
',
,EEE ?BD ,EEC 0' ,EE' BC ,ED' B?E ,EB0 '' ,E4D 4 ,DEE ?? ,D?D CEB ,CDB BE ,C? E?4
','
,EEE 0'' ,EEC C0C ,EE4 'C ,ED? CB ,EBC D0' ,E?' 4?C ,E0 D'E ,D0C ?EE ,CEC C4' ,C'D B
',?
,EEE 0C ,EEC EC ,EE4 DBE ,ED0 4DD ,EC 4 ,E?B 4D' ,E D0' ,DB0 CC ,DD 44 ,C? D'4
',B
,EEE B? ,EED B? ,EE? ?4 ,EDB 0E0 ,EC' 0C ,E0 0? ,EC 0'0 ,DC4 B'B ,DD ??4 ,C04 EB
',D
,EEE B04 ,EED 44D ,EE? E ,EDC C? ,EC? BC4 ,E04 BCB ,E'' DBB ,DD D ,D'D 44 ,CB? E4
4,
,EEE BDE ,EED ?EC ,EE0 4B4 ,EDD C'? ,ECB B' ,E0B EB? ,E'C DE' ,DDD 0 ,D4C 4E? ,CCB 4'D
4,'
,EEE C' ,EED B? ,EE0 CCC ,EDE BB ,ECD ?'0 ,EB 4' ,E4' BC ,DE? D?E ,D?B '4C ,CDC 'EB
29
4,?
,EEE C?D ,EED CBE ,EEB 04 ,EE 0'' ,ED E0 ,EB' DE? ,E4C 0D ,E E' ,D0? BC? ,CEC D?
4,B
,EEE CC? ,EED DDB ,EEB ?EC ,EE 44 ,ED B? ,EB0 0B' ,E? ''E ,EC E? ,DB' CD ,DC EBE
4,D
,EEE CEC ,EED EE' ,EEB D ,EE' 4D ,ED4 BE ,EBD ?D ,E?0 ?0 ,E' DC ,DC 4D ,DC BDE
?,
,EEE DC ,EEE DD ,EEC E0 ,EE' C0 ,ED? 4E ,EC 4B? ,E?D DE ,ED '40 ,DCC BC0 ,D'C D
?,'
,EEE D4B ,EEE C0 ,EEC 400 ,EE4 4C ,ED0 B' ,EC' 0' ,E0' 'B? ,E'4 4 ,DD? B4 ,D40 E4C
?,?
,EEE D0' ,EEE '04 ,EEC 0E' ,EE4 DCD ,EDB C? ,EC? 0'B ,E00 ?E4 ,E'D D4 ,DE 'E ,D?? ?D?
?,B
,EEE DBC ,EEE 4'? ,EEC DD ,EE? 4E4 ,EDC CD0 ,ECB 4E4 ,E0D 0C ,E4' 0E? ,DEC ?C? ,D0' BB
?,D
,EEE DD ,EEE 4DE ,EED ? ,EE? DB0 ,EDD C?D ,ECD 'E ,EB 40 ,E4B D?C ,E4 ?'' ,DB ?C0
0,
,EEE DE' ,EEE ??C ,EED D4 ,EE0 'EE ,EDE B4D ,ECE C?4 ,EB? ,E? D00 ,EE B? ,DBC E4D
0,'
,EEE E4 ,EEE 0 ,EED 4?C ,EE0 BEB ,EE ?0E ,ED '?4 ,EBB ?D ,E?? B'E ,E? ?4 ,DC0 B
0,?
,EEE E4 ,EEE 0?C ,EED ?E0 ,EEB B ,EE 'C ,ED' B4B ,EBD D ,E?D D ,EE ?D ,DD D00
0,B
,EEE E'' ,EEE 0E ,EED B4 ,EEB 4E? ,EE EB ,ED4 E4 ,EC EBC ,E0 0'4 ,E'? 'D ,DDD 44
0,D
,EEE E4 ,EEE B'E ,EED C0? ,EEB C ,EE' 0B ,ED0 4 ,EC' EE' ,E0? BBB ,E'D D'4 ,DE? ?EC
B,
,EEE E4C ,EEE BB0 ,EED DBB ,EEB ED ,EE4 0B ,EDB '?B ,EC? DD? ,E0C B' ,E44 D ,E 4BD
B,'
,EEE E?4 ,EEE BEB ,EED EBD ,EEC '4D ,EE4 C? ,EDC 'D ,ECB B?E ,EB 4E0 ,E4C CE ,E0 E0
B,?
,EEE E?E ,EEE C'0 ,EEE B ,EEC ?C4 ,EE? ' ,EDD '4E ,ECD 'EC ,EB4 ,E? B ,E 'B
B,B
,EEE E0? ,EEE C0 ,EEE ?B ,EEC BDE ,EE? BCB ,EDE 'E ,ECE D4? ,EB0 ??B ,E?? B4E ,EB 44
B,D
,EEE E0D ,EEE CC0 ,EEE ''4 ,EEC DDB ,EE0 0 ,EDE E04 ,ED 'BD ,EBC C? ,E?D 0D ,E' E'
C,
,EEE EB4 ,EEE CEC ,EEE 'E4 ,EED BC ,EE0 0 ,EE CC ,ED' B? ,EBE DE ,E0 'D? ,E'0 B4B
C,'
,EEE EBB ,EEE DB ,EEE 40C ,EED '44 ,EE0 DB? ,EE ?'? ,ED4 D?E ,EC EC ,E0? 4'0 ,E'E E?B
C,?
,EEE EC ,EEE D44 ,EEE ?0 ,EED 4D? ,EEB ' ,EE' D ,ED0 E ,EC4 CEC ,E0C E' ,E4? 4'
C,B
,EEE EC4 ,EEE D?E ,EEE ?BD ,EED 0'4 ,EEB 0D ,EE' BDB ,EDB DE ,EC0 0BB ,E0E DE' ,E4C E'
C,D
,EEE EC0 ,EEE DB? ,EEE 0B ,EED B0 ,EEB CE' ,EE4 '?D ,EDC E? ,ECC ''4 ,EB' ?4? ,E? 0BC
D,
,EEE ECD ,EEE DCC ,EEE 0B ,EED CBB ,EEC 0? ,EE4 CBD ,EDD 4 ,ECD CC? ,EB? D'B ,E?0 4B
D,'
,EEE ED ,EEE DDD ,EEE B ,EED DC' ,EEC 'E? ,EE? '?E ,EDD E ,ED ''? ,EBC CC ,E?D 4D
D,?
,EEE ED' ,EEE DEE ,EEE B4B ,EED EBE ,EEC 00 ,EE? BE4 ,EDE C ,ED 0D ,EBE E? ,E0 ?'
D,B
,EEE ED? ,EEE EE ,EEE BBE ,EEE 0D ,EEC CE ,EE0 0 ,EE ?B4 ,ED' D?D ,EC D4 ,E0? 404
D,D
,EEE ED0 ,EEE EC ,EEE BEE ,EEE ? ,EEC EB ,EE0 ?D0 ,EE B4 ,ED? 44 ,EC4 0' ,E0C ''
E,
,EEE EDC ,EEE E'0 ,EEE C'C ,EEE '? ,EED CD ,EE0 D4B ,EE D4 ,ED0 ? ,EC? DC ,E0E C4C
E,'
,EEE EDD ,EEE E4' ,EEE C0 ,EEE 'D' ,EED '4B ,EEB B ,EE' ?C ,EDB C? ,ECB ?00 ,EB' '0
E,?
,EEE EDE ,EEE E4E ,EEE CC? ,EEE 4?? ,EED 4D ,EEB ?B ,EE' ECD ,EDC 4E ,ECD ,EB? 044
E,B
,EEE EE ,EEE E?0 ,EEE CE0 ,EEE ? ,EED 00 ,EEB C4D ,EE4 ?ED ,EDD ? ,ECE ?0' ,EBB C'E
E,D
,EEE EE ,EEE E0 ,EEE D4 ,EEE ?04 ,EED B4D ,EEB EE? ,EE4 ED' ,EDD DD ,ED D' ,EBD CED
',
,EEE EE' ,EEE E00 ,EEE D4 ,EEE 0 ,EED C0 ,EEC '4 ,EE? ?4 ,EDE BB? ,ED' DD ,EC C?C
29
/jemplo F%u)l es la (istribución de probabilidad de chi*cuadrado de ? grados de libertad de que #G ,'H 9uscando en la tabla la columna del ? y la fila de ,', tenemos Para otros 5a%ores de 3
/n la tabla podemos encontrar directamente la probabilidad otros casos, veamos algunos. Para %a 5aria!%e ma6or 7e 3 3ara calcular
, pero se pueden presentar
, partimos de la e#presión
La probabilidad de que la variable estadística sea menor que # m)s la probabilidad de que sea mayor que # es la certeza, de probabilidad . Iperando
Ejemplo
%alcular la distribución de probabilidad de una variable estadística chi*cuadrado, de B grados de libertad sea mayor de 4,?. Seg-n lo anterior 9uscando en la tabla tenemos %on lo que tenemos Iperando tenemos Jue es la respuesta a la pregunta.
29
Para %a 5aria!%e ma6or 7e 31 6 menor 7e 3&
3ara calcular la probabilidad de que Siendo $enemos que
Ejemplo
F%u)l es la probabilidad de que una variable chi*cuadrado de D grados de libertad este comprendida entre 4,? y 0,BH /sto es Seg-n la tabla tenemos
Seg-n lo anterior, tenemos que Sustituyendo los valores Iperando %on lo que tenemos la respuesta. Interpo%aci'n %inea%+ La función chi*cuadrado es continua para 3 mayor que cero, pero en la tabla solo se recogen algunos de sus valores, si bien la tabla podría hacerse m)s e#tensa el numero de valores recogidos siempre seria finito, para calcular los valores no recogidos en la tabla podemos emplear la nterpolación lineal .
29
La interpolación lineal, parte de unos puntos conocidos de la función, y los valores intermedios los determina por la recta que une estos dos puntos, este método siempre a2ade un cierto error, al sustituir la función y= f(x) por la recta que une dos puntos y= r(x), que siempre ser) menor que tomar el valor conocido m)s pró#imo de la función, ver la figura, es importante que los puntos tomados estén lo m)s pró#imos entre sí, para que este error sea el mínimo posible. La e#presión
(etermina el valor y de la función para un # dado, partiendo de dos puntos conocidos ! x ,y " y ! x ',y '", siendo x G x G x '. Ejemplo
%ual es la probabilidad de una distribución chi*cuadrado de 0 grados de libertad, de que 3 sea menor que ,C0. /sto es el valor ,C0 no esta en la tabla, pero si tenemos que
Sustituyendo en la e#presión
$enemos que
Iperando tenemos
/sto es Jue resulta
29
Jue es el resultado buscado
Ta!%a in5ersa de distri!ci'n c/i0cadrado Itra forma de tabla de distribución chi*cuadrado, en la cual los valores de b-squeda son los grados de libertad y la probabilidad acumulada, dada la e#presión
/n este tipo de tablas se parte de los valoras conocidos 2 y p, y se obtiene 3, de forma inversa a lo visto anteriormente, lo que resulta interesante pera responder a la pregunta 3ara una distribución chi*cuadrado de 2 grados de libertad, cual es el valor de 3 que deja a su izquierda una probabilidad p. /ste tipo de problema en la pr)ctica, suele ser m)s usual, la tabla es m)s compacta y también nos permite calcular la probabilidad con la tabla directa. /n la tabla tenemos en la fila superior las probabilidades P, en la columna de la izquierda los grados de libertad 2, donde se cruzan la fila y la columna correspondientes el valor de 3 que en una función chi*cuadrado de 2 grados de libertad, deja a su izquierda una probabilidad P.
$abla distribución chi*cuadrado, inversa. @ A 3 ,
,0
,
,'
,'0
,4
,?
,0
,B
,C
,C0
,D
,E
,E0
,EE
, ,? ,B ,B? ,' ,?D ,'C0 ,?00 ,CD ,C? ,4'4 ,B?' ',CB 4,D? B,B40
'
,' ,4 ,'
4
,0
?
,'EC ,C
0
,00? ,?0 ,B ',4?4 ',BC0 4, 4,B0B ?,40 0,4' B,B? B,B'B C,'DE E,'4B ,C
B
,DC' ,B40 ','? 4,C 4,?00 4,D'D ?,0C 0,4?D B,'
C
,'4E ',BC ',D44 4,D'' ?,'00 ?,BC 0,?E4 B,4?B C,'D4 D,4D4 E,4C E,D4 ',' ?,C D,?D
D
,B?C ',C44 4,?E ?,0E? 0,C 0,0'C B,?'4 C,4?? D,40 E,0'? ,'' ,4
E
',DD 4,4'0 ?,BD 0,4D 0,DEE B,4E4 C,40C D,4?4 E,?? ,BB ,4E
',00D 4,E? ?,DB0 B,CE B,C4C C,'BC D,'E0 E,4?' ,?C ,CD
,??B ,0C0 ,C4 ,'' ,4DB ,D44 ',?D ',CC4 4,'E ?,B0 0,EE E,'
,40' ,0D? ,0 ,'4 ,?'? ,DBE ',4BB ',E?B 4,BB0 ?,D ?,B?' B,'0 C,D0 ,4? ,B? ,B?E ,E'4 ',E0 ',C04 4,40C ?,?0 ?,DCD 0,4D0 0,EDE C,CCE E,?DD 4,'D 0,E
C,'4 C,D? D,00D ,B? ',0E B,D
4,4B 0,0 ',E
','? ?,BD B,E' ',BC
',00 4,?? 0,EE D,4 '4,'
29
4,04 ?,0C0 0,0CD B,EDE C,0D? D,?D E,'4C ,4? ,04
'
4,0C 0,''B B,4? C,DC D,?4D E,4? ,D ,4?
4
?,C 0,DE' C,? D,B4? E,'EE E,E'B ,4
?
?,BB B,0C C,CE E,?BC ,C ,D' ',D 4,4? ?,BE B,'' C,' D,0 ',B '4,BD 'E,?
0
0,''E C,'B D,0?C ,4 ,?
,C'
B
0,D' C,EB' E,4' ,0
',B' 4,ED 0,4? B,CD D,?' E,4C ',?C '4,0? 'B,4 4',
C
B,?D D,BC' ,E ', ',CE 4,04 ?,E? B,4? C,D' E,0 ',?E ',B '?,CC 'C,0E 44,?
D
C,0 E,4E ,DB ',DB 4,BD ?,?? 0,DE C,4? D,DC ',B ',B '',CB '0,EE 'D,DC 4?,D
E
C,B44 ,' ,B0
'
D,'B ,D0 ',?? ?,0D 0,?0 B,'C C,D E,4? ',E0 '',CC '4,D4 '0,? 'D,? 4,? 4C,0C
'
D,DEC ,0E
''
E,0?' ',4? ?,? B,4 C,'? D, E,C4 ',4? '4,4 '?,E? 'B,? 'C,4 4,D 44,E' ?,'E
'4
,' 4,E ?,D0 C,E D,? E,' ',BE '',4? '?,C 'B,' 'C,? 'D,?4 4', 40,C ?,B?
'?
,DB 4,D0 0,BB D,B E,? E,E? ',B0 '4,4? '0,
'0
,0'
'B
',' 0,4D C,'E E,D' ',D? ',CE '4,0D '0,4? 'C,D 'E,'0 4,?4 4,CE 40,0B 4D,DE ?0,B?
'C
',DD B,0 D,
'D
4,0B B,E4 D,E? ',0E '',BB '4,B0 '0,0 'C,4? 'E,'0 4,4E 4',B' 4?,4 4C,E' ?,4? ?D,'D
'E
?,'B C,C E,CC '',?D '4,0C '?,0D 'B,?D 'D,4? 4,'D 4',?B 44,C 40,? 4E,E ?',0B ?E,0E
4
?,E0 D,?E ',B '4,4B '?,?D '0,0 'C,?? 'E,4? 4,4' 44,04 4?,D 4B,'0 ?,'B ?4,CC 0,DE
4
0,BB E,'D ',?4 '?,'B '0,4E 'B,?? 'D,? 4,4? 4',40 4?,B 40,DE 4C,4B ?,?' ??,EE 0',E
4'
B,4B ',C '','C '0,0 'B,4 'C,4C 'E,4D 4,4? 44,4D 40,BB 4B,EC 4D,?C ?',0D ?B,E 04,?E
44
C,C ',DC '4,
4?
C,CE ',BB '4,E0 'B,E? 'D,? 'E,'? 4,4 44,4? 40,?? 4C,D 4E,? ?,BD ??,E ?D,B 0B,B
40
D,0 '',?C '?,D 'C,D? 'E,0 4,D 4','D 4?,4? 4B,?C 4D,DB ?,'' ?,CD ?B,B ?E,D 0C,4?
4B
E,'4 '4,'C '0,B? 'D,C4 'E,EC 4,' 44,'0 40,4? 4C,0 4E,E' ?,4 ?',DD ?C,' 0, 0D,B'
4C
E,EB '?,C 'B,?E 'E,B? 4,DE 4',0 4?,'' 4B,4? 4D,04 ?,ED ?',4D ?4,ED ?D,4B 0',E 0E,DE
4D
',BE '?,DD 'C,4? 4,0? 4,D 4',EE 40,E 4C,4? 4E,0B ?',0 ?4,?B ?0,D ?E,0 04,4D B,B
4E
',?4 '0,C 'D,' 4,?? 4',C? 44,E4 4B,B 4D,4? ?,0E ?4,
?
'',B 'B,0 'E,0 4',4? 44,BB 4?,DC 4C,4 4E,4? ?,B' ??,B ?0,B' ?C,'C 0,D 00,CB B4,BE
?
'',E 'C,44 'E,E 44,'0 4?,0D 40,D 4D,
?'
'4,B0 'D,? 4,CC 4?,B 40,0 4B,C0 4E,D ?,4? ?4,BD ?B,'D ?C,CC ?E,?B 0?,E 0D,' BB,'
?4
'?,? 'D,EB 4,B4 40,C 4B,?? 4C,C ?,0 ?',4? ??,C ?C,4? ?D,D? 0,00 00,'4 0E,4 BC,?B
??
'0,0 'E,CE 4',?E 40,EC 4C,4B 4D,B? ?,' ?4,4? ?0,C4 ?D,? ?E,E 0,B? 0B,4C B,?D BD,C
,E
',E 4,C ?,B4 C,'D E,BD '?,C4
',0D ?, ?,D0 0,D D,00 ',4 'B,''
',4? 4,B? 0,' 0,ED B,ED E,D '',4B 'C,BE
4,4 ?,4? 0,C4 C,4' D,'0 E,4 '',4 '0, 4,0D
4,C' ?,0B 0,40 B,D0 D,4? E,E ',BE '',C' '4,E 'C,' 4,? 4B,E
4,'? 0,?? B,4? C,D D,CC ',4? ',EE '4,DB '?,E4 'B,C 'E,B' 4',BC 4D,E4
'C, 'D,'? 'E,00 44,' 4B,?' ?',ED
?,B B,?C D,E? E,E? ',DC '',B' '?,4? 'B,? 'D,C 'E,4? 4,BD 4?,4D 4C,B0 ??,4
',C ',C0 '',C' '?,0? 'B,4? 'D,' 4,4' 4,04 4',E 4B,C? ?,
?B,EB
'B,? 'C,'' 'D,4 4,4? 4',4? 4?,? 4B,C4 4D,B 4E,0C ?4,C0 ?C,? 0?,CD
??,0? ?B,C 0,BB 0?,0C B',?4
?,4? ?',B0 ?0,'' ?B,BE ?D,4B 0',E0 0B,E? B?,E0
29
?0
'0,E 4,B 44,40 4B,DD 4D,'E 4E,0D ?', ??,4? ?B,CB ?E,?0 0,ED 0',C4 0C,0 B,BB BE,EB
?B
'B,BB 4,?? 4?,'' 4C,D 4E,'' ?,04 ?',EC ?0,4? ?C,CE 0,0 0',B 04,D' 0D,B? B',D4 C,'
?C
'C,?' 4','C 40,D 4D,C ?,0 ?,?C ?4,E? ?B,4? ?D,D 0,0B 04,4 0?,E 0E,CC B?, C',??
?D
'D,D 44, 40,E0 4E,B' ?,D ?',?' ??,E' ?C,4? ?E,D? 0',B' 0?,' 00,EE B,E B0,C C4,BD
?E
'D,E? 44,E4 4B,D' ?,04 ?', ?4,4C ?0,DE ?D,44 0,DC 04,BC 00,'C 0C,D B',? BB,4? C?,E'
0
'E,C 4?,CB 4C,BE ?,?0 ?',E? ??,4 ?B,DB ?E,44 0,DE 0?,C' 0B,44 0D,B B4,C BC,0 CB,0
0
4,?D 40,B 4D,0B ?',4B ?4,DC ?0,'B ?C,D? 0,44 0',E' 00,CD 0C,? 0E,'0 B?,4 BD,BC CC,4E
0'
4,'0 4B,?? 4E,?4 ?4,'D ??,D ?B,' ?D,D 0,44 04,E? 0B,D4 0D,?C B,44 B0,?' BE,D4 CD,B'
04
4',' 4C,'D ?,4 ??,' ?0,C? ?C,B ?E,CE 0',44 0?,EC 0C,DD 0E,04 B,? BB,00 C,EE CE,D?
0?
4',CE 4D,' ?,D ?0,' ?B,BD ?D,
00
44,0C 4D,EB ?',B ?B,? ?C,B ?E,B 0,C? 0?,44 0C,' 0E,ED B,BC B4,0D BD,D C4,4 D','E
0B
4?,40 4E,D ?',E? ?B,EB ?D,00 0, 0',C 00,44 0D,? B,4 B',C4 B?,BB BE,E' C?,?C D4,0
0C
40,4 ?,B0 ?4,D' ?C,DD ?E,?D 0,EB 04,BE 0B,44 0E,B B',D B4,CE B0,C? C,? C0,B' D?,C4
0D
40,E ?,?E ??,C ?D,D 0,?' 0,E 0?,BC 0C,44 B,E B4,4 B?,DB BB,D' C',B CB,CD D0,E0
0E
4B,C ?',4? ?0,0D ?E,C' 0,4B 0',DB 00,B? 0D,44 B,
B
4C,?D ?4,E ?B,?B 0,B? 0','E 04,D 0B,B' 0E,44 B',4 B0,'4 BB,ED BD,EC C?,? CE,D DD,4D
C
?0,?? 0,C? 00,44 0E,E B,C B4,40 BB,? BE,44 C',4B C0,BE CC,0D CE,C D0,04 E,04 ,?
D
04,0? B,4E B?,'D BE,' C,? C',E' CB,E CE,44 D',0C DB,' DD,4 E,? EB,0D ,E ',4
E
B,C0 BE,4 C4,'E CD,0B D,B' D',0 D0,EE DE,44 E',CB EB,0' ED,B0 , C,B 4,
0,CB 04,44 00,EE 0D,E4 B,B B',0 BC,BC C',0 D,C
B?,D B0,E' BC,DE C4,'D CC,E4 DC,C
C,B CC,E4 D',4B DC,E0 E,4 E',4 E0,D EE,44 ',E B,E E, ,C CD,?B DB,CE E,?C EC,4B EE,BC ,D 0,B E,4 4, ' DB,E' E0,C ,B B,D E,' ,? 4 E0,?0 ?,C E,D B,4 ? ?, 4,C 0 ',C
E,
D,D
0,0
E,4
C,4
E,B
D,0
'?,
'?,4 40,D
'',' 'E,? 40,0 ?C,?
'4,4 'C,B 4, 4',D ?,' ?B,B 0E,
', '0,4 'E,4 44,? 4C,E ?,0 ?4,4 0, 0C,B C,?
'0,D 'D,? 4,D 40, 4E,4 ?4,B ?D,4 0,E 04,E B,D BD,B D,D
'',C 'D,4 40,4 4D, ?,0 ?0, ?E,4 04,D 0D,B B,4 B?,4 C',B CE,B E4,'
B ',4 4,D 4C,0 ??,D ?C,B 0,' 0?,E 0E,4 B4,E BD,E C,C C?,D D4,4 E,0 '?,0 C 4, ?,D ?B,D 0?,4 0C,' 0E,E B?,C BE,4 C?, CE,' D', D0,4 E?, ',? '0,D D 4D,D 0, 0B,' B4,E BB,E BE,B C?,B CE,4 D?,' DE,? E',? E0,C '?,C '',4 ''C, E ?C,B 0E, B0,0 C4,? CB,0 CE,4 D?,? DE,4 E?,4 EE,C '',D 'B,' '0,? ''4,' '4D,4 ' 0B,? BD,4 C?,D D4, DB,' DE, E?,4 EE,4 '?,? ', '4, 'B,B ''B, '4?, '?E,?
/jemplo F%u)l es el valor de #, de una distribución chi*cuadrado de B grados de libertad, que deja a su izquierda una probabilidad del DKH %onsultando la tabla tenemos que
29
Ca%c%o de %a pro!a!i%idad con %a ta!%a in5ersa+ /mpleando esta tabla podemos realizar c)lculos directos como en la anterior, normalmente ser) necesaria recurrir a la interpolación lineal para obtener los resultados Ejemplo
F%u)l es la distribución de probabilidad de chi*cuadrado de ? grados de libertad de que # G ,' H /ste es el mismo ejemplo que en la tabla directa, veamos cómo se haría en este caso La pregunta es /ste valor no figura en la tabla pero si tenemos en la fila de @+ ?, que
3or la e#presión de interpolación lineal
Sustituyendo los valores de este caso Iperando /sto es Jue da como resultado /sto es como se puede ver hay una diferencia del orden de la tercera cifra decimal, respecto a la b-squeda directa en la tabla, esta diferencia se produce por la interpolación lineal, al sustituir la función por la recta que une dos puntos conocidos, y a la relativamente gran diferencia entre 31 y 3&, que es el BK al valor de 31. Para 5a%ores de 2 $randes
%uando el valor de @ es suficientemente grande se tiene en cuenta que %on lo que podemos apro#imar la distribución %hi*cuadrado por la distri!ci'n norma% , de media @ y desviación típica raíz de '@, empleando la tabla distribución normal tipificada para su c)lculo.
29
8)
Pre!a t de Stdent
/n estadística, una pre!a t de Stdent, pre!a t0Stdent, o Test0T es cualquier prueba en la que el estadístico utilizado tiene una distribución t de Student si la hipótesis nula es cierta. Se aplica cuando la población se asume ser normal pero el tama2o muestral es demasiado peque2o como para que el estadístico en el que est) basada la inferencia esté normalmente distribuido, utiliz)ndose una estimación de la desviación típica en lugar del valor real.
9)
Pre!a de Anderson0Dar%in$
/n estadística, la pre!a de Anderson0Dar%in$ es una prueba no paramétrica sobre si los datos de una muestra provienen de una distribución específica. La fórmula para el estadístico 8 determina si los datos !observar que los datos se deben ordenar" vienen de una distribución con función acumulativa F A' + N (onde
/l estadístico de la prueba se puede entonces comparar contra las distribuciones del estadístico de prueba !dependiendo que F se utiliza" para determinar el 3*valor.
:)
Pre!a de ,riedman
/n estadística la pre!a de ,riedman es una prueba no paramétrica desarrollado por el economista 5ilton :riedman. /quivalente a la prueba 8MIN8 para dos factores en la versión no paramétrica, el método consiste en ordenar los datos por filas o bloques, reemplaz)ndolos por su respectivo orden. 8l ordenarlos, debemos considerar la e#istencia de datos idénticos. Método
. Sea una tabla de datos, donde ! son las filas ! "lo#ues " y n las columnas !trata!ientos ". Ona vez calculado el orden de cada dato en su bloque, reemplazamos la tabla original con otra
donde el valor r ij es el orden de x ij en cada bloque i .
'. %)lculo de las varianzas intra e inter grupo ,
o
o
o
o
4. /l estadístico viene dado por .
29
?. /l criterio de decisión es 0.
.
;)
Pre!a de
/n estadística, la prueba de
3ara dos colas el estadístico viene dado por
(onde F ! x " es la distribución presentada como hipótesis.
1=)
Pre!a de a%%is
/n estadística, la pre!a de a%%is !de Rilliam Prus@al y R. 8llen Rallis" es un método no paramétrico para probar si un grupo de datos proviene de la misma población. >ntuitivamente, es idéntico al 8MIN8 con los datos reemplazados por categorías. /s una e#tensión de la prueba de la O de 5ann*Rhitney para 4 o m)s grupos. 1a que es una prueba no paramétrica, la prueba de Prus@al*Rallis no asume normalidad en los datos, en oposición al tradicional 8MIN8. Sí asume, bajo la hipótesis nula, que los datos vienen de la misma distribución. Ona forma com-n en que se viola este supuesto es con datos heteroced)sticos . Método . /l estadístico est) dado por
o o o
, donde ni es el n-mero de observaciones en el grupo i r ij es el rango !entre todas las observaciones" de la observación j en el grupo i N es el n-mero total de observaciones entre todos los grupos
, es el promedio de r ij . Mote que el denominador de la e#presión para $ es e#actamente o
o
.
29
Luego
'. Se puede realizar una corrección para los valores repetidos dividiendo $ por , donde % es el n-mero de grupos de diferentes rangos repetidos, y t i es el n-mero de observaciones repetidas dentro del grupo i que tiene observaciones repetidas para un determinado valor. /sta corrección hace cambiar a $ muy poco al menos que e#istan un gran n-mero de observaciones repetidas. 4. :inalmente, el p&'alue es apro#imado por distribución de $ puede ser distinta de la chi*cuadrado.
11)
. Si alg-n ni es peque2o !G 0" la
Pre!a ? de Mann0>/itne6
/n estadística la pre!a ? de Mann0>/itne6 !también llamada de Mann0>/itne60>i%co3on, pre!a de sma de ran$os >i%co3on, o pre!a de >i%co3on0Mann0>/itne6" es una prueba no paramétrica aplicada a dos muestras independientes. /s, de hecho, la versión no paramétrica de la habitual prueba t de Student. :ue propuesto inicialmente en E?0 por :ran@ Rilco#on para muestras de igual tama2os y e#tendido a muestras de tama2o arbitrario como en otros sentidos por enry 9. 5ann y (. ;. Rhitney en E?C. P%anteamiento de %a pre!a La prueba de 5ann*Rhitney se usa para comprobar la heterogeneidad de dos muestras ordinales. /l planteamiento de partida es . Las observaciones de ambos grupos son independientes '. Las observaciones son variables ordinales o continuas. 4. 9ajo la hipótesis nula, las distribuciones de partida de ambas distribuciones es la misma ?. 9ajo la hipótesis alternativa, los valores de una de las muestras tienden a exceder a los de la otra 3! X T Y " U .0 3! X + Y " T .0. C@%c%o de% estadístico
3ara calcular el estadístico se asigna a cada uno de los valores de las dos muestras su rango para construir
(onde n y n' son los tama2os respectivos de cada muestraQ y ' es la suma de los rangos de las observaciones de las muestras y ' respectivamente. /l estadístico se define como el mínimo de y '. Los c)lculos tienen que tener en cuenta la presencia de observaciones idénticas a la hora de ordenarlas. Mo obstante, si su n-mero es peque2o, se puede ignorar esa circunstancia. Distri!ci'n de% estadístico
La prueba calcula el llamado estadístico , cuya distribución para muestras con m)s de ' observaciones se apro#ima bastante bien a la distribución normal.
29
La apro#imación a la normal, * , cuando tenemos muestras lo suficientemente grandes viene dada por la e#presión * + ! ! " V W (onde mO y WO son la media y la desviación est)ndar de si la hipótesis nula es cierta, y vienen dadas por las siguientes fórmulas ! + nn' V '.
1&)
Pre!a de %a mediana
La pre!a de %a mediana es una prueba no paramétrica que podemos considerar un caso especial de la prueba de chi*cuadrado, pues se basa en esta -ltima. Su objetivo es comparar las medianas de dos muestras y determinar si pertenecen a la misma población o no. 3ara ello, se calcula la mediana de todos los datos conjuntamente. (espués, se divide cada muestra en dos subgrupos uno para aquellos datos que se sit-en por encima de la mediana y otro para los que se sit-en por debajo. La prueba de chi*cuadrado determinar) si las frecuencias observadas en cada grupo difieren de las esperadas con respecto a una distribución de frecuencias que combine ambas muestras. /sta prueba est) especialmente indicada cuando los datos sean e#tremos o estén sesgados.
1)
Coeiciente de corre%aci'n de Spearman
/n estadística, el coeiciente de corre%aci'n de Spearman, X !ro" es una medida de la correlación !la asociación o interdependencia" entre dos variables aleatorias continuas. 3ara calcular X, los datos son ordenados y reemplazados por su respectivo orden. /l estadístico X viene dado por la e#presión
donde + es la diferencia entre los correspondientes estadísticos de orden de x * y . N es el n-mero de parejas. Se tiene que considerar la e#istencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia 3ara muestras mayores de ' observaciones, podemos utilizar la siguiente apro#imación a la distribución t de Student
La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de 3earson. Iscila entre * y U, indic)ndonos asociaciones negativas o positivas respectivamente, cero, significa no correlación pero no independencia. La tau de Pendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.
29
Contenido /jemplo ' (eterminando la significación estadística 4 Néase también ? /nlaces e#ternos 0 :uente
Eemp%o Los datos brutos usados en este ejemplo se ven debajo.
%>
oras de $N a la semana
B C DB
'D 0 EE
'D
4 'D EC
'
4 ' 4 C C /l primer paso es ordenar los datos de la primera columna. (espués, se crean dos columnas m)s. 8mbas son para ordenar !establecer un lugar en la lista" de las dos primeras columnas. (espués se crea una columna 6d6 que muestra las diferencias entre las dos columnas de orden. :inalmente, se crea otra columna 6d '6. /sta -ltima es sólo la columna 6d6 al cuadrado. (espués de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente
oras de $N a la semana %> !i" !t"
orden !i"
orden !t"
d
d'
DB
EC
'
'
B
?
B
EE
'D
4
D
0
'0
0
?.0
0 .
4. '0
29
0
'D
?.0
D
4 . 0
4
'D
B
D
'
? '. '0
'. '0
B
C
C
'.0
? . 0
C
D
0
4
E
4
C
E.0
'.0
C
?E
?
0 . 0
4. '0
4
'
E.0
Mótese como el n-mero de orden de los valores que son idénticos es la media de los n-meros de orden que les corresponderían si no lo fueran. Los valores de la columna d ' pueden ser sumados para averiguar 8sí que esos valores pueden ser sustituidos en la fórmula.
. /l valor de n es .
(e lo que resulta X + .DCDCDCDCDCE. Determinando %a si$niicaci'n estadística La apro#imación moderna al problema de averiguar si un valor observado de X es significativamente diferente de cero !siempre tendremos * Y X Y " es calcular la probabilidad de que sea mayor o igual que el X esperado, dada la hipótesis nula, utilizando un permutation test. /sta apro#imación es casi siempre superior a los métodos tradicionales, a no ser que el data set sea tan grande que la potencia inform)tica no sea suficiente para generar permutaciones !poco probable con la inform)tica moderna", o a no ser que sea difícil crear un algoritmo para crear permutaciones que sean lógicas bajo la hipótesis nula en el caso particular de que se trate !aunque normalmente estos algoritmos no ofrecen dificultad". 8unque el test de permutación es a menudo trivial para cualquiera con recursos inform)ticos y e#periencia en programación, todavía se usan ampliamente los métodos tradicionales para obtener significación. La apro#imación m)s b)sica es comparar el X observado con tablas publicadas para varios niveles de significación. /s una solución simple si la significación sólo necesita saberse dentro de cierto rango, o ser menor de un determinado valor, mientras haya tablas disponibles que especifiquen los rangos adecuados. 5)s abajo hay una referencia a una tabla semejante. Sin embargo, generar estas tablas es computacionalmente intensivo y a lo largo de los a2os se han usado complicados trucos matem)ticos para generar tablas para tama2os de muestra cada vez mayores, de modo que no es pr)ctico para la mayoría e#tender las tablas e#istentes. Ona apro#imación alternativa para tama2os de muestra suficientemente grandes es una apro#imación a la distribución t de Student. 3ara tama2os de muestra m)s grandes que unos ' individuos, la variable
29
$iene una distribución t de Student en el caso nulo !correlación cero". /n el caso no nulo !/j para averiguar si un X observado es significativamente diferente a un valor teórico o si dos Xs observados difieren significativamente, los tests son mucho menos potentes, pero puede utilizarse de nuevo la distribución t . Ona generalización del coeficiente de Spearman es -til en la situación en la cual hay tres o m)s condiciones, varios individuos son observados en cada una de ellas, y predecimos que las observaciones tendr)n un orden en particular. 3or ejemplo, un conjunto de individuos pueden tener tres oportunidades para intentar cierta tarea, y predecimos que su habilidad mejorar) de intento en intento. On test de la significación de la tendencia entre las condiciones en esta situación fue desarrollado por /. 9. 3age y normalmente suele conocerse como 3ageZs trend test para alternativas ordenadas. Determinando %a si$niicaci'n estadística La apro#imación moderna al problema de averiguar si un valor observado de X es significativamente diferente de cero !siempre tendremos * Y X Y " es calcular la probabilidad de que sea mayor o igual que el X esperado, dada la hipótesis nula, utilizando un permutation test. /sta apro#imación es casi siempre superior a los métodos tradicionales, a no ser que el data set sea tan grande que la potencia inform)tica no sea suficiente para generar permutaciones !poco probable con la inform)tica moderna", o a no ser que sea difícil crear un algoritmo para crear permutaciones que sean lógicas bajo la hipótesis nula en el caso particular de que se trate !aunque normalmente estos algoritmos no ofrecen dificultad". 8unque el test de permutación es a menudo trivial para cualquiera con recursos inform)ticos y e#periencia en programación, todavía se usan ampliamente los métodos tradicionales para obtener significación. La apro#imación m)s b)sica es comparar el X observado con tablas publicadas para varios niveles de significación. /s una solución simple si la significación sólo necesita saberse dentro de cierto rango, o ser menor de un determinado valor, mientras haya tablas disponibles que especifiquen los rangos adecuados. 5)s abajo hay una referencia a una tabla semejante. Sin embargo, generar estas tablas es computacionalmente intensivo y a lo largo de los a2os se han usado complicados trucos matem)ticos para generar tablas para tama2os de muestra cada vez mayores, de modo que no es pr)ctico para la mayoría e#tender las tablas e#istentes. Ona apro#imación alternativa para tama2os de muestra suficientemente grandes es una apro#imación a la distribución t de Student. 3ara tama2os de muestra m)s grandes que unos ' individuos, la variable
$iene una distribución t de Student en el caso nulo !correlación cero". /n el caso no nulo !ej para averiguar si un X observado es significativamente diferente a un valor teórico o si dos Xs observados difieren significativamente, los tests son mucho menos potentes, pero puede utilizarse de nuevo la distribución t . Ona generalización del coeficiente de Spearman es -til en la situación en la cual hay tres o m)s condiciones, varios individuos son observados en cada una de ellas, y predecimos que las observaciones tendr)n un orden en particular. 3or ejemplo, un conjunto de individuos pueden tener tres oportunidades para intentar cierta tarea, y predecimos que su habilidad mejorar) de intento en intento. On test de la significación de la tendencia entre las condiciones en esta situación fue desarrollado por /. 9. 3age y normalmente suele conocerse como 3ageZs trend test para alternativas ordenadas.
1*)
Re$resi'n %inea%
29
/jemplo una variable dependiente y una variable independiente. /n estadística la re$resi'n %inea% o aste %inea% es un método matem)tico que modeliza la relación entre una variable dependiente Y , las variables independientes X i y un término aleatorio [. /ste modelo puede ser e#presado como (onde \ es la intersección o término 6constante6, las son los par)metros respectivos a cada variable independiente, y p es el n-mero de par)metros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal. Contenido istoria . /timología ' /l modelo de regresión lineal 4 Supuestos del modelo de regresión lineal ? $ipos de modelos de regresión lineal ?. ;egresión lineal simple ?.. /jemplo ?.' ;egresión lineal m-ltiple ?.'. /jemplo 0 ;ectas de regresión B 8plicaciones de la regresión lineal B. Líneas de tendencia B.' 5edicina
o
o
o
o o
Bistoria La primera forma de regresiones lineales documentada fue el método de los mínimos cuadrados , el cual fue publicado por Legendre en D0, y en dónde se incluía una versión del teorema de ]auss* 5)r@ov. Etimo%o$ía /l término re,resión se utilizó por primera vez en el estudio de variables antropométricas al comparar la estatura de padres e hijos, resultó que los hijos cuyos padres tenían una estatura muy superior al
29
valor medio tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura mediaQ es decir, 6regresaban6 al promedio. La constatación empírica de esta propiedad se vio reforzada m)s tarde con la justificación teórica de ese fenómeno. /l término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean modelos basados en cualquier clase de función matem)tica. Los modelos lineales son una e#plicación simplificada de la realidad, mucho m)s )gil y con un soporte teórico por parte de la matem)tica y la estadística mucho m)s e#tenso. 3ero bien, como se ha dicho, podemos usar el término lineal para distinguir modelos basados en cualquier clase de aplicación. E% mode%o de re$resi'n %inea% /l modelo lineal relaciona la variable dependiente Y con $ variables e#plicativas X k (k = -.///$) , o cualquier transformación de éstas, que generan un hiperplano de par)metros \k desconocidos
!'" (onde es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar , y es la que confiere al modelo su car)cter estoc)stico. /n el caso m)s sencillo, con una sola variable e#plicativa, el hiperplano es una recta !4" /l problema de la regresión consiste en elegir unos valores determinados para los par)metros desconocidos \ k , de modo que la ecuación quede completamente especificada. 3ara ello se necesita un conjunto de observaciones. /n una observación cualquiera i*ésima (i= -./// 0) se registra el comportamiento simult)neo de la variable dependiente y las variables e#plicativas !las perturbaciones aleatorias se suponen no observables". !?" Los valores escogidos como estimadores de los par)metros, , son los coeficientes de regresión, sin que se pueda garantizar que coinciden con par)metros reales del proceso generador. 3or tanto, en Los valores
!0" son por su parte estimaciones de la perturbación aleatoria o errores.
Spestos de% mode%o de re$resi'n %inea% 3ara poder crear un modelo de regresión lineal, es necesario que se cumpla con los siguientes supuestos 4 . La relación entre las variables es lineal. '. Los errores en la medición de las variables e#plicativas son independientes entre sí. 4. Los errores tienen varianza constante. ?. Los errores tienen una esperanza matem)tica igual a cero !los errores de una misma magnitud y distinto signo son equiprobables". 0. /l error total es la suma de todos los errores. Tipos de mode%os de re$resi'n %inea% /#isten diferentes tipos de regresión lineal que se clasifican de acuerdo a sus par)metros Re$resi'n %inea% simp%e Sólo se maneja una variable independiente, por lo que sólo cuenta con dos par)metros. Si sabemos que e#iste una relación entre una variable denominada dependiente y otras denominadas independientes !como por ejemplo las e#istentes entre la e#periencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la producción agraria y la cantidad de fertilizantes utilizados, etc.", puede darse el problema de que la dependiente asuma m-ltiples valores para una combinación de valores de las independientes.
29
61 es una función de =6 1 + f!=" %omo 1 depende de =, 1 es la variable dependiente, y = es la variable independiente. /n el 5odelo de ;egresión es muy importante identificar cu)l es la variable dependiente y cu)l es la variable independiente. /n el 5odelo de ;egresión Simple se establece que 1 es una función de sólo una variable independiente, razón por la cual se le denomina también ;egresión (ivariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así 1 + f !=" 61 est) regresando por =6 La variable dependiente es la variable que se desea e#plicar, predecir. $ambién se le llama 6Zregresando6Z ó 6Zvariable de respuesta6Z. La variable >ndependiente = se le denomina 6Zvariable e#plicativa6Z ó 6Zregresor6Z y se le utiliza para e#plicar 1. Se calcula la ecuación de la recta que pasa por dos puntos dados. Sin embargo, en la regresion lineal por lo general se tiene m)s que dos puntos de datos, y raras veces est)n todos en una sola recta. /l problema es hallar la recta que ajusta los datos tan estrechamente posible. La /cuación ]eneral es de la forma (onde
Eemp%o
6
36
3&
'
D.?
BD
?
''
E.0
'E
?D?
'?
.D
'D4. '
0CB
'B
.?
'C. ?
BCB
'D
4.4
4C'.
CD?
3
29
? 4
?.D
???
E
^ 0
^ BD.'
^ C?C
^ 4D'
/ntonces la ecuación quedaría como
Re$resi'n %inea% m%tip%e La regresion lineal nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o m)s variables y nos permitir) relacionar mediante ecuaciones, una variable en relación a otras variables llam)ndose ;egresión m-ltiple. %onstantemente en la pr)ctica de la investigación estadística, se encuentran variables que de alguna manera est)n relacionados entre sí, por lo que es posible que una de las variables pueda relacionarse matem)ticamente en función de otra u otras variables. 5aneja varias variables independientes.. %uenta con varios par)metros. Se e#presan de la forma independientes !4 4"" Ejemplo
3
6
3&
36
6&
3&6
3
3*
4
4
E
4
.'
4. ?
?.D
.??
.0B
?.DEB
.C'D
'.C4B
.0
0
C.0
'.'0
'0
.'0
4.4C0
0.B'0
'
'
?
?
?
D
D
B
4
?.
'.4
E
B.D
4B.E
'C
D
4.C
0
D.0
4.BE
'0
BD.?0
0.B04
DC.?B
?
C
'D
B
?E
'
B?
'0B
?.0
B.
'E.'0
'.'0
?'.'0
4.B'0
E.'0
?.B'0
29
0 ^ '.E ^ 4B
^ B.B4
^ BC.B4
^ D'.B'
^ 4CB.'
^ '?B.DD
^ E0D.B?C
Osando una 5atriz para calcular valores de los coeficientes
+
Osando el método de /liminación de ]auss*_ordan
La ecuación final que modela el sistema es Rectas de re$resi'n Las rectas de regresión son las rectas rectas que que mejor se ajustan a la nube de puntos !o también llamado diagrama de dispersión" dispersión " generada por una distribución binomial. binomial . 5atem)ticamente, son posibles dos rectas de m)#imo ajuste La recta de regresión de Y sobre sobre X
!? !?"" La recta de regresión de X sobre sobre Y !0 !0""
La correlación correlación ! !1r1 " de las rectas determinar) la calidad del ajuste. Si r es es cercano o igual a , el ajuste ser) bueno y las predicciones realizadas a partir del modelo obtenido ser)n muy fiables !el modelo obtenido resulta verdaderamente representativo"Q si r es es cercano o igual a , se tratar) de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no ser)n fiables !el modelo obtenido no resulta representativo de la realidad". 8mbas rectas de regresión se intersecan en un punto llamado centro de gravedad de la distribución distribución.. Ap%icaciones de %a re$resi'n %inea% 4íneas de tendencia 23ase ta!"i3n4 5endencia Ona l6nea de tendencia representa una tendencia tendencia en en una serie de datos obtenidos a través de un
largo período. /ste tipo de líneas puede decirnos si un conjunto de datos en particular !como por
29
ejemplo, el 39> 39>,, el precio del petróleo o petróleo o el valor de las acciones acciones"" han aumentado o decrementado en un determinado período. Se puede dibujar una línea de tendencia a simple vista f)cilmente a partir de un grupo de puntos, pero su posición y pendiente se calcula de manera m)s precisa utilizando técnicas estadísticas como las regresiones lineales. Las líneas de tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la línea. Medicina /n medicina medicina,, las primeras evidencias relacionando la mortalidad con el fumar fumar ta taba baco co C vinieron de estudios que utilizaban la regresión lineal. Los investigadores incluyen una gran cantidad de variables en su an)lisis de regresión en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias.. /n el caso del tabaquismo espurias tabaquismo,, los investigadores incluyeron el estado socio*económico para asegurarse que los efectos de mortalidad mortalidad por por tabaquismo tabaquismo no no sean un efecto de su educación o posición económica. Mo obstante, es imposible incluir todas las variables posibles en un estudio de regresión. /n el ejemplo del tabaquismo tabaquismo,, un hipotético gen gen podría podría aumentar la mortalidad y aumentar la propensión a adquirir enfermedades relacionadas con el consumo de tabaco tabaco.. 3or esta razón, en la actualidad las pruebas controladas aleatorias son consideradas mucho m)s confiables que los an)lisis de regresión.
1-)
Bomocedasticidad
La /omocedasticidad es una propiedad fundamental del modelo de regresión lineal general lineal general y est) dentro de sus supuestos cl)sicos b)sicos. Se dice que e#iste homocedasticidad cuando la varianza varianza de de los errores estoc)sticos de la regresión i n es la misma para cada observación !de !de a observaciones", es decir (onde es un escalar constante para todo i . Lo que significaría que habría una distribución de probabilidad de idéntica amplitud para cada variable aleatoria. aleatoria . /sta cualidad es necesaria, seg-n el $eorema de ]auss*5)r@ov, ]auss*5)r@ov , para que en un modelo los coeficientes estimados sean los mejores o eficientes, lineales e insesgados.
29
(istribución omoced)stica.
(istribución eteroced)stica. %uando no se cumple esta situación, decimos que e#iste heterocedasticidad, que es cuando la varianza de cada término de perturbación ! ui " no es un n-mero constante . /ste fenómeno suele ser muy com-n en datos de %orte $ransversal y también se presenta, menos frecuentemente, en series de tiempo. Si se regresiona un modelo a través de 5ínimos %uadrados Irdinarios con presencia de heterocedasticidad, los coeficientes siguen siendo lineales e insesgados pero ya no poseen mínima varianza !eficiencia". Contenido %ausas frecuentes de ausencia de homocedasticidad . Nariables independientes que posean un gran recorrido con respecto a su propia media .' Imisión de variables importantes dentro del modelo a estimar .4 %ambio de estructura .? Otilizar variables no relativizadas .0 %)lculo incorrecto de las varianza y par)metros ineficientes .B >nvalidación de los contrastes de significancia
o
o o o o o
Casas recentes de asencia de /omocedasticidad aria!%es independientes 7e posean n $ran recorrido con respecto a s propia media /sto generalmente ocurre cuando se ha dispuesto arbitrariamente el orden de las observaciones, generando, casualmente que e#istan observaciones con grandes valores en una determinada variable e#plicativa y lo mismo con valores peque2os de esta misma variable. Omisi'n de 5aria!%es importantes dentro de% mode%o a estimar Ibviamente, si se omite una variable de relevancia en la especificación, tal variable quedar) parcialmente recogida dentro de las perturbaciones aleatorias, introduciendo en estas su propia variación, que no ser) necesariamente fija. Cam!io de estrctra /l hecho de que se produzca un cambio en la estructura determina un mal ajuste de los par)metros al conjunto de los datos muestrales. 1 este no tiene por qué influir del mismo modo en todo el recorrido
29
de la muestra, pudiendo producir cuantías de desajuste del modelo diferentes y, por lo tanto, varianza no constante. ?ti%iar 5aria!%es no re%ati5iadas %uando e#isten observaciones dentro de una variable en concreto, y que poseen un valor mayor a las otras variables e#plicativas, puede originar valores del error diferentes. /sta situación es similar a la e#plicada al principio pero con la salvedad que en este caso se compara con las otras variables !inclusive con la dependiente" y no con respecto a su media. /stimar en presencia de heterocedasticidad ++ C@%c%o incorrecto de %as 5ariana 6 par@metros ineicientes La mayor varianza por empleo de 5%I en presencia de heterocedasticidad puede producir un incremento de m)s de veces en la varianza estimada del par)metro constante. In5a%idaci'n de %os contrastes de si$niicancia 1a que se aceptaría la hipótesis nula de los contrastes de significancia m)s veces de las reales. ]eneralmente resulta que ciertas variables podrían resultar no ser significativas cuando lo son realmente.
18)
Re$resi'n %o$ística
/n estadística, la re$resi'n %o$ística es un modelo de regresión para variables dependientes o de respuesta binomialmente distribuidas. /s -til para modelar la probabilidad de un evento ocurriendo como función de otros factores. /s un modelo lineal generalizado que usa como función de enlace la función logit. La regresión logística es usada e#tensamente en las ciencias médicas y sociales. Itros nombres para regresión logística usados en varias )reas de aplicación incluyen mode%o %o$ístico , mode%o %o$it, y c%asiicador de m@3ima entropía. Contenido ;esumen ' /#tensiones 4 /jemplo
Resmen La regresión logística analiza datos distribuidos binomialmente de la forma
(onde los n-meros de ensayos 9ernoulli ni son conocidos y las probabilidades de é#ito pi son desconocidas. On ejemplo de esta distribución es el porcentaje de semillas ! pi " que germinan después de que ni son plantadas. /l modelo es entonces obtenido a base de lo que cada ensayo !valor de i " y el conjunto de variables e#plicativasVindependientes puedan informar acerca de la probabilidad final. /stas variables e#plicativas pueden pensarse como un vector X i k *dimensional y el modelo toma entonces la forma
Los logits de las probabilidades binomiales desconocidas ! i/e/, los logaritmos de los odds" son modeladas como una función lineal de los X i.
Mote que un elemento particular de X i puede ser ajustado a para todo i obteniéndose un intercepto en el modelo. Los par)metros desconocidos 7 j son usualmente estimados a través de m)#ima verosimilitud.
29
La interpretación de los estimados del par)metro 7 j es como los efectos aditivos en el log odds ratio para una unidad de cambio en la j ésima variable e#plicativa. /n el caso de una variable e#plicativa dicotómica, por ejemplo género, e\ es la estimación del odds ratio de tener el resultado para, por decir algo, hombres comparados con mujeres. /l modelo tiene una formulación equivalente dada por
/sta forma funcional es com-nmente identificada como un 6perceptrón6 de una capa simple or red neuronal artificial de una sola capa. Ona red neuronal de una sola capa calcula una salida continua en lugar de una función por pedazos. La derivada de pi con respecto a X = x -///x k es calculada de la forma general (onde f ! X " es una función analítica en X . %on esta escogencia, la red de capa simple es idéntica al modelo de regresión logística. /sta función tiene una derivada continua, la cual permite ser usada en propagación hacia atr)s. /sta función también es preferida pues su derivada es f)cilmente calculable
E3tensiones 8lgunas e#tensiones del modelo e#isten para tratar variables dependientes multicategóricas yVo ordinales, tales como la regresión politómica. La clasificación en varias clases por regresión logística es conocida como logit multinomial. Ona e#tensión del modelo logístico para ajustar conjuntos de variables independientes es el campo aleatorio condicional. Eemp%o Sea p! x " la probabilidad de é#ito cuando el valor de la variable predictora es x . /ntonces sea
(espués de alg-n )lgebra se prueba que
(onde son los odds en favor de é#ito. Si tomamos un valor de ejemplo, digamos p!0" + 'V4, entonces
%uando x + 0, un é#ito es dos veces tan probable como una falla. /s decir, se puede decir simplemente que los odds son '` a .
19)
Red nerona% artiicia%
29
;ed neuronal artificial perceptrón simple con n neuronas de entrada, ! neuronas en su capa oculta y una neurona de salida. Las redes de neronas artiicia%es !denominadas habitualmente como RNA o en inglés como 68MM6 " son un paradigma de aprendizaje y procesamiento autom)tico inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de intercone#ión de neuronas en una red que colabora para producir un estímulo de salida. /n inteligencia artificial es frecuente referirse a ellas como redes de neronas o redes nerona%es. Contenido
:uncionamiento . (ise2o y programación de una ;M8 !red neuronal artificial" o .' /structura o ' Nentajas 4 $ipología de las ;M8 4. 5odelos o 4.' $opología o 4.4 8prendizaje o 4.? $ipo de entrada o ? 8plicaciones ?. /jemplos o ?.. Jua@e >> Meuralbot ?..' %lasificador Mo Sesgado de 3roteínas
,ncionamiento Las redes neuronales consisten en una simulación de las propiedades observadas en los sistemas neuronales biológicos a través de modelos matem)ticos recreados mediante mecanismos artificiales !como un circuito integrado, un ordenador o un conjunto de v)lvulas". /l objetivo es conseguir que las m)quinas den respuestas similares a las que es capaz de dar el cerebro que se caracterizan por su generalización y su robustez.
3erceptrón con ' entradas. Ona red neuronal se compone de unidades llamadas neuronas. %ada neurona recibe una serie de entradas a través de intercone#iones y emite una salida. /sta salida viene dada por tres funciones . Ona función de propagación !también conocida como función de e#citación", que por lo general consiste en el sumatorio de cada entrada multiplicada por el peso de su intercone#ión !valor neto". Si el peso es positivo, la cone#ión se denomina excitatoriaQ si es negativo, se denomina inhi"itoria.
29
'. Ona función de activación, que modifica a la anterior. 3uede no e#istir, siendo en este caso la salida la misma función de propagación. 4. Ona función de transferencia, que se aplica al valor devuelto por la función de activación. Se utiliza para acotar la salida de la neurona y generalmente viene dada por la interpretación que queramos darle a dichas salidas. 8lgunas de las m)s utilizadas son la función sigmoidea !para obtener valores en el intervalo ," y la tangente hiperbólica !para obtener valores en el intervalo *,". DiseFo 6 pro$ramaci'n de na RNA Gred nerona% artiicia%) %on un paradigma convencional de programación en ingeniería del softare, el objetivo del programador es modelar matem)ticamente !con distintos grados de formalismo" el problema en cuestión y posteriormente formular una solución !programa" mediante un algoritmo codificado que ten,a una serie de propiedades que permitan resolver dicho problema. /n contraposición, la apro#imación basada en las ;M8 parte de un conjunto de datos de entrada suficientemente significativo y el objetivo es conseguir que la red aprenda autom)ticamente las propiedades deseadas. /n este sentido, el dise2o de la red tiene menos que ver con cuestiones como los flujos de datos y la detección de condiciones, y m)s que ver con cuestiones tales como la selección del modelo de red, la de las variables a incorporar y el preprocesamiento de la información que formar) el conjunto de entrena!iento . 8simismo, el proceso por el que los par)metros de la red se adecuan a la resolución de cada problema no se denomina genéricamente programación sino que se suele denominar entrena!iento neuronal . 3or ejemplo en una red que se va a aplicar al diagnóstico de im)genes médicasQ durante la fase de entrenamiento el sistema recibe im)genes de tejidos que se sabe son cancerígenos y tejidos que se sabe son sanos, así como las respectivas clasificaciones de dichas im)genes. Si el entrenamiento es el adecuado, una vez concluido, el sistema podr) recibir im)genes de tejidos no clasificados y obtener su clasificación sanoVno sano con un buen grado de seguridad. Las variables de entrada pueden ser desde los puntos individuales de cada imagen hasta un vector de características de las mismas que se puedan incorporar al sistema !por ejemplo, procedencia anatómica del tejido de la imagen o la edad del paciente al que se le e#trajo la muestra". Estrctra La mayoría de los científicos coinciden en que una ;M8 es muy diferente en términos de estructura de un cerebro animal. 8l igual que el cerebro, una ;M8 se compone de un conjunto masivamente paralelo de unidades de proceso muy simples y es en las cone#iones entre estas unidades donde reside la inteligencia de la red. Sin embargo, en términos de escala, un cerebro es muchísimo mayor que cualquier ;M8 creada hasta la actualidad, y las neuronas artificiales también son m)s simples que su contrapartida animal. 9iológicamente, un cerebro aprende mediante la reorganización de las cone#iones sin)pticas entre las neuronas que lo componen. (e la misma manera, las ;M8 tienen un gran n-mero de procesadores virtuales interconectados que de forma simplificada simulan la funcionalidad de las neuronas biológicas. /n esta simulación, la reorganización de las cone#iones sin)pticas biológicas se modela mediante un mecanismo de pesos, que son ajustados durante la fase de aprendizaje. /n una ;M8 entrenada, el conjunto de los pesos determina el conoci!iento de esa ;M8 y tiene la propiedad de resolver el problema para el que la ;M8 ha sido entrenada. 3or otra parte, en una ;M8, adem)s de los pesos y las cone#iones, cada neurona tiene asociada una función matem)tica denominada función de transferencia. (icha función genera la se2al de salida de la neurona a partir de las se2ales de entrada. La entrada de la función es la suma de todas las se2ales de entrada por el peso asociado a la cone#ión de entrada de la se2al. 8lgunos ejemplos de entradas son la función escalón de eaviside, la lineal o mi#ta, la sigmoide y la función gaussiana, recordando que la función de transferencia es la relación entre la se2al de salida y la entrada.
29
entaas Las redes neuronales artificiales !;M8" tienen muchas ventajas debido a que est)n basadas en la estructura del sistema nervioso, principalmente el cerebro. Aprendiae Las ;M8 tienen la habilidad de aprender mediante una etapa que se llama etapa de aprendi*aje . /sta consiste en proporcionar a la ;M8 datos como entrada a su vez que se le indica cu)l es la salida !respuesta" esperada. Ato or$aniaci'n Ona ;M8 crea su propia representación de la información en su interior, descargando al usuario de esto. To%erancia a a%%os (ebido a que una ;M8 almacena la información de forma redundante, ésta puede seguir respondiendo de manera aceptable aun si se da2a parcialmente. ,%e3i!i%idad Ona ;M8 puede manejar cambios no importantes en la información de entrada, como se2ales con ruido u otros cambios en la entrada !por ejemplo si la información de entrada es la imagen de un objeto, la respuesta correspondiente no sufre cambios si la imagen cambia un poco su brillo o el objeto cambia ligeramente". Tiempo rea% La estructura de una ;M8 es paralela, por lo cual si esto es implementado con computadoras o en dispositivos electrónicos especiales, se pueden obtener respuestas en tiempo real.
Tipo%o$ía de %as RNA Mode%os /#iste una serie de modelos que aparecen en la mayoría de estudios académicos y la bibliografía especializada. 3erceptrón 8daline 3erceptrón multicapa 5emorias asociativas 5)quina de 9oltzmann 5)quina de %auchy 3ropagación hacia atr)s !bac@propagation" ;edes de /lman ;edes de opfield ;ed de contrapropagación ;edes de neuronas de base radial ;edes de neuronas de aprendizaje competitivo 5apas 8utoorganizados !;M8" !;edes de Pohonen" %recimiento din)mico de células ]as Meuronal %reciente ;edes 8;$ ! Adaptati'e esonance 5heory "
Topo%o$ía Ona primera clasificación de las redes de neuronas artificiales que se suele hacer es en función del patrón de cone#iones que presenta. 8sí se definen tres tipos b)sicos de redes (os tipos de redes de propa$aci'n /acia de%ante o acíclicas en las que todas las se2ales van desde la capa de entrada hacia la salida sin e#istir ciclos, ni cone#iones entre neuronas de la misma capa. Monocapa. /jemplos perceptrón, 8daline. M%ticapa. /jemplos perceptrón multicapa. Las redes recrrentes que presentan al menos un ciclo cerrado de activación neuronal. /jemplos /lman, opfield, m)quina de 9oltzmann.
o o
29
Aprendiae Ona segunda clasificación que se suele hacer es en función del tipo de aprendizaje de que es capaz !si necesita o no un conjunto de entrenamiento supervisado". 3ara cada tipo de aprendizaje encontramos varios modelos propuestos por diferentes autores Aprendiae sper5isadoH necesitan un conjunto de datos de entrada previamente clasificado o cuya respuesta objetivo se conoce. /jemplos de este tipo de redes son el perceptrón simple, la red 8daline, el perceptrón multicapa, red bac@propagation, y la memoria asociativa bidireccional. Aprendiae no sper5isado o atoor$aniadoH no necesitan de tal conjunto previo. /jemplos de este tipo de redes son las memorias asociativas, las redes de opfield, la m)quina de 9oltzmann y la m)quina de %auchy, las redes de aprendizaje competitivo , las redes de Pohonen o mapas autoorganizados y las redes de resonancia adaptativa !8;$" . Redes /í!ridasH son un enfoque mi#to en el que se utiliza una función de mejora para facilitar la convergencia. On ejemplo de este -ltimo tipo son las redes de base radial. Aprendiae reoradoH se sit-a a medio camino entre el supervisado y el autoorganizado.
Tipo de entrada :inalmente también se pueden clasificar las ;M8s seg-n sean capaces de procesar información de distinto tipo en Redes ana%'$icasH procesan datos de entrada con valores continuos y, habitualmente, acotados. /jemplos de este tipo de redes son opfield, Pohonen y las redes de aprendizaje competitivo. Redes discretasH procesan datos de entrada de naturaleza discretaQ habitualmente valores lógicos booleanos. /jemplos de este segundo tipo de redes son las m)quinas de 9oltzmann y %auchy, y la red discreta de opfield.
Ap%icaciones Las características de las ;M8 las hacen bastante apropiadas para aplicaciones en las que no se dispone a priori de un modelo identificable que pueda ser programado, pero se dispone de un conjunto b)sico de ejemplos de entrada !previamente clasificados o no". 8simismo, son altamente robustas tanto al ruido como a la disfunción de elementos concretos y son f)cilmente paralelizables. /sto incluye problemas de clasificación y reconocimiento de patrones de voz , im)genes, se2ales, etc. 8simismo se han utilizado para encontrar patrones de fraude económico, hacer predicciones en el mercado financiero, hacer predicciones de tiempo atmosférico, etc. $ambién se pueden utilizar cuando no e#isten modelos matem)ticos precisos o algoritmos con complejidad razonableQ por ejemplo la red de Pohonen ha sido aplicada con un é#ito m)s que razonable al cl)sico problema del viajante !un problema para el que no se conoce solución algorítmica de complejidad polinómica". Itro tipo especial de redes neuronales artificiales se ha aplicado en conjunción con los algoritmos genéticos !8]" para crear controladores para robots. La disciplina que trata la evolución de redes neuronales mediante algoritmos genéticos se denomina ;obótica /volutiva. /n este tipo de aplicación el genoma del 8] lo constituyen los par)metros de la red !topología, algoritmo de aprendizaje, funciones de activación, etc." y la adecuación de la red viene dada por la adecuación del comportamiento e#hibido por el robot controlado !normalmente una simulación de dicho comportamiento". Eemp%os Quake II Neuralbot
On bot es un programa que simula a un jugador humano. /l Meuralbot es un bot para el juego Jua@e >> que utiliza una red neuronal artificial para decidir su comportamiento y un algoritmo genético para el aprendizaje. /s muy f)cil probarlo para ver su evolución. 5)s información aquí
29
Clasificador No Sesgado de Proteínas
/s un programa que combina diversas técnicas computacionales con el objetivo de clasificar familias de proteínas. On posible método consiste en utilizar métricas adaptativas como por ejemplo mapas autoorganizados y algoritmos genéticos. /l problema de clasificación no sesgada basada en la e#presión de las proteínas en 8mino)cidos puede reducirse, conceptualmente, a lo siguiente La identificación de grupos de proteínas que compartan características comunes. La determinación de las razones estructurales por las cuales las proteínas en cuestión se agrupan de la manera indicada. /vitar la idea de establecer criterios de clasificación !sesgados" fundamentados en ideas preconcebidas para lograr su clasificación. /n este sentido, hay dos asuntos que considerar %ómo lograr la caracterización de las proteínas de manera no sesgada %ómo lograr lo anterior sin apelar a medidas de agrupamiento que, a su vez, impliquen alg-n tipo de sesgo sobre dicho agrupamiento. Las ;M8 han sido aplicadas a un n-mero en aumento de problemas en la vida real y de considerable complejidad, donde su mayor ventaja es en la solución de problemas que son bastante complejos para la tecnología actual, trat)ndose de problemas que no tienen una solución algorítmica o cuya solución algorítmica es demasiado compleja para ser encontrada. /n general, debido a que son parecidas al las del cerebro humano, las ;M8 son bien nombradas ya que son buenas para resolver problemas que el humano puede resolver pero las computadoras no. /stos problemas incluyen el reconocimiento de patrones y la predicción del tiempo. (e cualquier forma, el humano tiene capacidad para el reconocimiento de patrones, pero la capacidad de las redes neuronales no se ve afectada por la fatiga, condiciones de trabajo, estado emocional, y compensaciones. Se conocen cinco aplicaciones tecnológicas aplicadas . ;econocimiento de te#tos manuscritos '. ;econocimiento del habla 4. Simulación de centrales de producción de energía ?. (etección de e#plosivos 0. >dentificación de blancos de radares
o o
1:)
Perceptr'n
/ste artículo o sección tiene n esti%o diíci% de entender para %os %ectores interesados en e% tema. Si tienes capacidad, por favor edíta%o, contribuye a hacerlo m)s accesible para el p-blico general, sin eliminar los detalles técnicos que interesan a los especialistas.
3erceptrón con ' entradas /l Perceptr'n es un tipo de red neuronal artificial desarrollado por :ran@ ;osenblatt, también puede entenderse como perceptrón la neurona artificial y unidad b)sica de inferencia en forma de discriminador lineal, que constituye este modelo de red neuronal artificial, esto debido a que el perceptrón puede usarse como neurona dentro de un perceptrón m)s grande u otro tipo de red neuronal artificial.
29
Contenido (efinición ' 8prendizaje 4 /jemplo ? Néase también
Deinici'n /l perceptrón usa una matriz para representar las redes neuronales y es un discriminador terciario que traza su entrada x !un vector binario" a un -nico valor de salida f ! x " !un solo valor binario" a través de dicha matriz.
(onde 8 es un vector de pesos reales y es el producto punto !que computa una suma ponderada". u es el ZumbralZ, el cual representa el grado de inhibición de la neurona, es un término constante que no depende del valor que tome la entrada. /l valor de f ! x " ! o " se usa para clasificar x como un caso positivo o un caso negativo, en el caso de un problema de clasificación binario. /l umbral puede pensarse de como compensar la función de activación, o dando un nivel bajo de actividad a la neurona del rendimiento. La suma ponderada de las entradas debe producir un valor mayor que u para cambiar la neurona de estado a . Aprendiae /l algoritmo de aprendizaje es el mismo para todas las neuronas, todo lo que sigue se aplica a una sola neurona en el aislamiento. Se definen algunas variables primero el x ! j " denota el elemento en la posición j en el vector de la entrada el 8 ! j " el elemento en la posición j en el vector de peso el y denota la salida de la neurona el denota la salida esperada el es una constante tal que G G
Los pesos son actualizados después de cada entrada seg-n la regla de actualización siguiente 3or lo cual, el aprendizaje es modelado como la actualización del vector de peso después de cada iteración, lo cual sólo tendr) lugar si la salida y difiere de la salida deseada . 3ara considerar una neurona al interactuar en m-ltiples iteraciones debemos definir algunas variables m)s x i denota el vector de entrada para la iteración i 8 i denota el vector de peso para la iteración i y i denota la salida para la iteración i denota un periodo de aprendizaje de ! iteraciones /n cada iteración el vector de peso es actualizado como sigue 3ara cada pareja ordenada ! x ,y " en 3asar ! x i, y i ,8 i" a la regla de actualización 8 ! j "Z + 8 ! j " U ! y " x ! j " /l periodo de aprendizaje +! se dice que es separable linealmente si e#iste un valor positivo y un vector de peso 8 tal que para todos los i . Movi@off !EB'" probo que el algoritmo de aprendizaje converge después de un n-mero finito de
iteraciones si los datos son separables linealmente y el n-mero de errores esta limitado a
.
29
Sin embargo si los datos no son separables linealmente, la línea de algoritmo anterior no se garantiza que converja. Eemp%o %onsidere las funciones 8M( y I;, estas funciones son linealmente separables y por lo tanto pueden ser aprendidas por un perceptrón.
La función =I; no puede ser aprendida por un -nico perceptrón puesto que requiere al menos de dos líneas para separar las clases ! y ". (ebe utilizarse al menos una capa adicional de perceptrones para permitir su aprendizaje.
1;)
Perceptr'n m%ticapa
/l perceptr'n m%ticapa es una red neuronal artificial !;M8" formada por m-ltiples capas, esto le permite resolver problemas que no son linealmente separables, lo cual es la principal limitación del perceptrón !también llamado perceptrón simple". /l perceptrón multicapa puede ser totalmente o localmente conectado. /n el primer caso cada salida de una neurona de la capa 6i6 es entrada de todas las neuronas de la capa 6iU6, mientras que en el segundo cada neurona de la capa 6i6 es entrada de una serie de neuronas !región" de la capa 6iU6.
Las capas pueden clasificarse en tres tipos Capa de entradaH %onstituida por aquellas neuronas que introducen los patrones de entrada en la red. /n estas neuronas no se produce procesamiento.
29
Capas oc%tasH :ormada por aquellas neuronas cuyas entradas provienen de capas anteriores y cuyas salidas pasan a neuronas de capas posteriores. Capa de sa%idaH Meuronas cuyos valores de salida se corresponden con las salidas de toda la red. La propagación hacia atr)s !también conocido como retropropagación del error o regla delta generalizada", es un algoritmo utilizado en el entrenamiento de estas redes, por ello, el perceptrón multicapa también es conocido como red de retropropa$aci'n !no confundir con la red de contrapropagación ".
Contenido %aracterísticas ' Limitaciones 4 8plicaciones 4. %ompresión de datos
o
Características Las funciones de transferencia de los elementos de procesado !neuronas" han de ser derivables.
4imitaciones E% Perceptr'n M%ticapa no e3trapo%a !ien , es decir, si la red se entrena mal o de manera insuficiente, las salidas pueden ser imprecisas. 4a e3istencia de mínimos %oca%es en %a nci'n de error dificulta considerablemente el entrenamiento, pues una vez alcanzado un mínimo el entrenamiento se detiene aunque no se haya alcanzado la tasa de convergencia fijada. %uando caemos en un mínimo local sin satisfacer el porcentaje de error permitido se puede considerar cambiar la topología de la red !n-mero de capas y n-mero de neuronas", comenzar el entrenamiento con unos pesos iniciales diferentes, modificar los par)metros de aprendizaje, modificar el conjunto de entrenamiento o presentar los patrones en otro orden.
Ap%icaciones /l perceptrón multicapa !de aquí en adelante 5L3, 5ultiLayer 3erceptron" se utiliza para resolver problemas de asociación de patrones, segmentación de im)genes, compresión de datos, etc. Compresi'n de datos %onsiderese un 5L3 de 4 capas, una de entrada, una oculta y la de salida. La capa de entrada est) formada por M neuronas, la capa oculta por 5 !5 G M" neuronas y la capa de salida posee M neuronas al igual que la capa de entrada. Se entrena dicho 5L3 para que cuando se le dé como entrada un vector de datos !# , #',..., #M" devuelva ese mismo vector con 5 datos como salida, con ello estamos ense2ando al 5L3 a transformar un vector de M componentes en uno de 5 componentes !recordemos que 5 G M" y a recuperar el vector original a partir del vector 6comprimido6. Ona vez que el 5L3 esté entrenado se procede de la siguiente forma Compresi'n 3ara comprimir los datos utilizamos un 5L3 de dos capas, la de entrada con M neuronas y la de salida con 5, los pesos de estas dos capas son los de la capa de entrada y oculta respectivamente, del 5L3 que entrenamos anteriormente. Descompresi'n 3ara descomprimir los datos utilizamos un 5L3 de dos capas, la de entrada con 5 neuronas y la de salida con M, los pesos de estas dos capas son los de la capa oculta y la de salida respectivamente, del 5L3 que entrenamos anteriormente. /l 5L3 no conseguir) !al menos normalmente" un error nulo durante el entrenamiento, por lo que se trata de un sistema de compresión con pérdidas. Ibviamente cuanto mayor queramos que sea el factor de compresión, m)s error se cometer).
29
&=)
Ada%ine
/l ada%ine !de ADAptative 4Inear Element" es un tipo de red neuronal artificial desarrollada por 9ernie Ridro en la Oniversidad de Stanford. 8unque originalmente el nombre correspondía a A+Aptati'e 90near N:uron, al caer las redes neuronales en decadencia el autor decidió pasar a la primera definición dada. La diferencia entre el 8daline y el perceptrón est)ndar !5c%ulloch*3itts" es que el perceptrón solo tiene capacidad para clasificar, ya que utiliza una función umbral sobre la suma ponderada de las entradas, a diferencia del adaline, que es capaz de estimar una salida real. Contenido (efinición ' 8prendizaje 4 Nentajas ? 8plicaciones 0 ;eferencias
Deinici'n ]eneralmente se compone de una sola capa de n neuronas ! por tanto n valores de salida " con ! entradas con las siguientes características Las ! entradas representan un vector x de entrada que pertenece al espacio !. 3or cada neurona, e#iste un vector 8 de pesos sin)pticos que indican la fuerza de cone#ión entre los valores de entrada y la neurona. /n la pr)ctica representan la ponderación de cada entrada sobre la neurona. Ona constante . La salida y de la neurona se representa por la función de activación, que se define como
Aprendiae 8 diferencia del perceptrón, a la hora de modificar los pesos durante el entrenamiento el 8daline tiene en cuenta el grado de corrección de la salida estimada respecto a la deseada. /sto se consigue mediante la aplicación de la re,la +elta, y que se define, para un patrón de entrada x p con una salida estimada y p y una salida deseada d p, como d p y p . (ado que el objetivo del 8daline es poder estimar de la manera m)s e#acta la salida !conseguir una salida e#acta es pr)cticamente imposible en la mayoría de los casos", se busca minimizar la desviación de la red para todos los patrones de entrada, eligiendo una medida del error global. Mormalmente se utiliza el error cuadr)tico medio.
La manera de reducir este error global es ir modificando los valores de los pasos al procesar cada entrada, de forma iterativa, mediante la regla del descenso del gradiente. Suponiendo que tenemos una constante de aprendizaje
Si operamos con la derivada, queda Jue ser) la e#presión que utilizaremos por cada entrada para modificar los pesos.
29
entaas %on respecto al perceptrón el 8daline posee la ventaja de que su gr)fica de error es un hiperparaboloide que posee o bien un -nico mínimo global, o bien una recta de infinitos mínimos, todos ellos globales. /sto evita la gran cantidad de problemas que da el perceptrón a la hora del entrenamiento debido a que su función de error !también llamada de coste" posee numerosos mínimos locales. asas Ap%icaciones Asociaci'n de patrones se puede aplicar a este tipo de problemas siempre que los patrones sean linealmente separables. /n el campo del procesamiento de se2ales ,i%tros de rido Limpiar ruido de se2ales transmisoras de información. ,i%tros adaptati5os On adaline es capaz de predecir el valor de una se2al en el instante tU si se conoce el valor de la misma en los p instantes anteriores !p es T y su valor depende del problema". /l error de la predicción ser) mayor o menor seg-n qué se2al queramos predecir. Si la se2al se corresponde a una serie temporal el 8daline, pasado un tiempo, ser) capaz de dar predicciones e#actas. Se pueden combinar m-ltiples 8dalines formando lo que se denomina el 5adaline.
&1)
Memoria asociati5a GRNA)
Se entiende por memoria asociati5a el almacenamiento y recuperación de información por asociación con otras informaciones. On dispositivo de almacenamiento de información se llama memoria asociativa si permite recuperar información a partir de conocimiento parcial de su contenido, sin saber su localización de almacenamiento. 8 veces también se le llama memoria de direccionamiento por contenido Los computadores tradicionales no usan este direccionamientoQ se basan en el conocimiento e#acto de la dirección de memoria en la que se encuentra la información. Sin embargo, se cree que el cerebro humano no act-a así. Si queremos recordar el nombre de una persona, no nos sirve saber que fue el nombre n-mero 4'C? que aprendimos. /s m)s -til saber que su nombre empieza y termina por ZMZ y que es un famoso científico inglés. %on esta información, es casi seguro que recordaremos e#itosamente a 6Meton6. Las memorias asociativas son una de las redes neuronales artificiales m)s importantes con un amplio rango de aplicaciones en )reas tales como 5emorias de acceso por contenido, identificación de patrones y control inteligente. Ona memoria asociativa puede almacenar información y recuperarla cuando sea necesario, es decir, una red retroalimentada, cuya salida se utiliza repetidamente como una nueva entrada hasta que el proceso converge. 3uede recuperar dicha información bas)ndose en el conocimiento de parte de ésta !clave". /l patrón clave puede ser una versión con ruido de un patrón memorizado, es decir, que difiere de él en pocas componentes. La memoria humana recuerda a una persona aunque vaya vestida de forma diferente o lleve gafas. Tipos de Memorias Asociati5as Memorias /eteroasociati5asH establecen una correspondencia de # !vector de entrada" en y !vector de salida", de distinta dimensión. (ichos patrones se llaman memorias principales o de referencia. Memorias atoasociati5asH establece la misma correspondencia que la memoria heteroasociativa pero siendo los patrones de entrada y de salida los mismos.
&&)
M@7ina de o%tmann
29
Ona m@7ina de o%tmann es un tipo de red neuronal recurrente estoc)stica . /l nombre le fue dado por los investigadores ]eoffrey inton y $erry Sejnos@i. Las m)quinas de 9oltzmann pueden considerarse como la contrapartida estoc)stica y generativa de las redes de opfield. :ueron de los primeros tipos de redes neuronales capaces de aprender mediante representaciones internas, son capaces de representar y !con tiempo suficiente" resolver complicados problemas combinatorios. Sin embargo, debido a una serie de cuestiones que se abordan m)s adelante, las m)quinas de 9oltzmann sin restricciones de conectividad no han demostrado ser -tiles para resolver los problemas que se dan en la pr)ctica en el aprendizaje o inferencia de las m)quinas. 8-n así resultan interesantes en la teoría debido a la localización y a la naturaleza hebbiana de su algoritmo de entrenamiento, así como por su paralelismo y por la semejanza de su din)mica a fenómenos físicos sencillos. Si se limita la conectividad, el aprendizaje puede ser lo bastante eficaz como para ser -til en la resolución de problemas pr)cticos. /n mec)nica estadística se denominan distribuciones de 9oltzmann y son utilizadas en funciones de muestreo. Contenido /structura ' 3robabilidad de estado de una unidad 4 /stado de equilibrio ? /ntrenamiento 0 3roblemas en la aplicación pr)ctica
Estrctra Las m)quinas de 9oltzmann, al igual que las redes de opfield, 3oseen unidades con una 6energía6 definida para la red. $ambién dispone de unidades binarias, pero a diferencia de las redes de opfield, las unidades de una m)quina de 9oltzmann son estoc)sticas. La energía global, : , en una m)quina de 9oltzmann es idéntica en forma a la de una red de opfield
(onde
8 ij es la fuerza de cone#ión entre la unidad j y la unidad i .
, de la unidad i . i es el umbral de la unidad i . Las cone#iones de una m)quina de 9oltzmann tienen dos limitaciones Minguna unidad se conecta a sí misma. . !$odas las cone#iones son simétricas."
si es el estado,
Pro!a!i%idad de estado de na nidad /l incremento de energía global que resulta de una sola unidad i siendo !off" frente a !on", e#presada como k : i , viene dada por la e#presión
/sto se puede e#presar como la diferencia de energía entre dos estados k: i + : i+off : i+on 8 continuación sustituimos la energía para cada /stado con su probabilidad relativa de acuerdo con el factor de 9oltzmann !la propiedad de la distribución de 9oltzmann en la cual la energía de un estado es proporcional al menos logaritmo de probabilidad de dicho estado"
29
(onde k ; es la constante de 9oltzmann y se engloba dentro de la noción artificial de temperatura 5 . 8 continuación se reordenan los términos considerando que la probabilidad de que una unidad esté en on y en off es uno
:inalmente podemos resolver para pi+on, la probabilidad de que la unidad i esté en on.
(onde el escalar 5 se refiere a cómo est) la temperatura en el sistema. /sta relación es la fuente de la función logística que se encuentra en las e#presiones de probabilidad de las distintas variantes de la m)quina de 9oltzmann. Estado de e7i%i!rio La red se ejecuta repetidamente escogiendo una unidad y estableciendo su estado de acuerdo con la fórmula anterior. (espués de ejecutarse durante suficiente tiempo a una cierta temperatura, la probabilidad del estado global de la red va a depender sólo del estado global de energía, de acuerdo a una distribución de 9oltzmann. /sto significa que los logaritmos de las probabilidades de los estados globales se volver)n lineales en sus energías. /sta relación se cumple cuando la m)quina est) 6en equilibrio termodin)mico6, lo que significa que la distribución de probabilidad de los estados globales ha convergido. Si empezamos a hacer funcionar la red a alta temperatura, y desciende gradualmente hasta llegar a un equilibrio termodin)mico a una baje temperatura, estaremos garantizando la convergencia a una distribución donde el nivel de energía fluct-e alrededor del mínimo global. /ste proceso se llama Simulated annealing !S8" o templado simulado . 3ara entrenar a la red de modo que la posibilidad de que converja en un estado global se ajuste a una distribución e#terna, habr) que establecer los pesos para que los estados globales con mayor probabilidad tengan la energía m)s baja. 3ara esto se usa el siguiente método de entrenamiento. Entrenamiento Las unidades de la m)quina de 9oltzmann se dividen en unidades 6visibles6, N, y unidades 6ocultas6, . Las primeras son las que recibir)n información del 6entorno6, por ejemplo la serie de entrenamiento podría ser un conjunto de vectores binarios aplicado sobre las unidades N. La distribución en el conjunto de entrenamiento se denota < U !2 ". /n las m)quinas de 9oltzmann, como ya se ha dicho, la distribución de los estados globales converge hasta un equilibrio termodin)mico. (espués de que marginalizar por encima de las unidades visibles 2 , la convergencia de la distribución se puede denotar como < !2 ". Muestro objetivo es apro#imar la distribución 6real6 < U !2 " a la e#presión < !2 ", la cual es producida eventualmente por la m)quina. 3ara medir la similitud entre las dos distribuciones se usa la divergencia de Pullbac@*Leibler , %
29
(onde el sumatorio es superior a todos los posibles estados de 2 . % varía en función de los pesos, ya que estos determinan la energía de un estado, y la energía a su vez determina < !' ", seg-n la distribución de 9oltzmann. 3or lo tanto, podemos utilizar un algoritmo de descenso de gradiente sobre % para un peso determinado, 8 ij , que se cambiar) restando la derivada parcial de % con respecto al peso. /l entrenamiento de una m)quina de 9oltzmann consta de dos fases, que se van cambiando iterativamente entre ellas. Ona es la fase 6positiva6 en que los estados de las unidades visibles se sujetan a un vector de estado binario particular, muestra del conjunto de entrenamiento !de acuerdo a < U". La otra es la fase 6negativa6, en la que a la red se le permite ejecutarse libremente, es decir, los estados de las unidades no est)n determinados por datos e#ternos. Sorprendentemente, el gradiente con respecto a un peso determinado, 8 ij , est) dado por una ecuación muy sencilla !demostrada por 8c@ley et al."
(onde es la probabilidad de que tanto las unidades i como j estén activadas cuando la m)quina esté en equilibrio durante la fase positiva. es la probabilidad de que tanto las unidades i como j estén activadas cuando la m)quina esté en equilibrio durante la fase negativa. denota la tasa de aprendizaje. /ste resultado se deduce del hecho de que en el equilibrio termodin)mico la probabilidad < !s" de cualquier estado global s cuando la red est) funcionando libremente viene dada por la distribución de 9oltzmann !de ahí el nombre de 6m)quina de 9oltzmann6". Sorprendentemente, esta regla de aprendizaje es bastante plausible desde el punto de vista biológico por el hecho de que la -nica información necesaria para cambiar los pesos es proporcionada de forma 6local6. /s decir, la cone#ión !o sinapsis usando terminología biológica" no necesita m)s información que la que suministran las dos neuronas que conecta. /sto es mucho m)s realista biológicamente hablando que lo que sucede con la información que necesitan muchos otros algoritmos de entrenamiento de redes neuronales, como por ejemplo el de retropropagación . /n el entrenamiendo de una m)quina de 9oltzmann no se utiliza el algoritmo /5, muy utilizado en 8prendizaje autom)tico. 5inimizar la divergencia PL, es equivalente a ma#imizar el logaritmo de la verosimilitud de los datos. 3or lo tanto, el procedimiento de entrenamiento lleva a cabo un gradiente de ascenso sobre el logaritmo de verosimilitud de los datos observados. /sto contrasta con el algoritmo /5, donde la distribución posterior de los nodos ocultos debe ser calculada antes de la ma#imización de la verosimilitud llevada a cabo en el paso 5. /n entrenamiento de sesgos es similar, pero usa sólo la actividad de un solo nodo
Pro!%emas en %a ap%icaci'n pr@ctica Las m)quinas de 9oltzmann presentan un grave problema pr)ctico, y es que el aprendizaje parece dejar de producirse correctamente cuando la m)quina se amplía a algo m)s grande que una m)quina trivial. /sto se debe a una serie de efectos, los m)s importantes de los cuales son /l tiempo que la m)quina necesita para recopilar las estadísticas de equilibrio crece e#ponencialmente con el tama2o de la m)quina, y con la magnitud de la fuerza de las cone#iones.
29
La fuerzas de las cone#iones son m)s fle#ibles cuando las unidades conectadas tienen probabilidades de activación intermedias entre cero y uno, llevando a la llamada trampa de varianza. /l efecto neto es que el ruido hace que las fuerzas de las cone#iones se vuelvan aleatorias hasta que las actividades se saturan.
M@7ina de o%tmann restrin$ida 8unque el aprendizaje es por lo general poco pr)ctico en las m)quinas de 9oltzmann, puede llegar a ser muy eficiente en una arquitectura llamada >#uina de ;olt*!ann restrin,ida o ; !; en inglés estricted ;olt*!ann achine ". /sta arquitectura no permite las cone#iones entre las unidades de las capas ocultas. (espués de entrenar a una ; las actividades de sus unidades ocultas pueden ser tratadas como datos para el entrenamiento de una ; de nivel superior. /ste método de apilamiento ; hace que sea posible entrenar muchas capas de unidades ocultas de manera eficiente y que cada nueva capa sea a2adida para mejorar el modelo generativo principal. Bistoria La m)quina de 9oltzmann es una versión del método de 5ontecarlo de las redes de opfield. Se cree que la idea de utilizar modelos de >sing para la inferencia fue descrita por primera vez por ]eoffrey /. inton y $errence _. Sejnos@i La misma idea de aplicar el modelo de >sing con el muestreo de ]ibbs templado también est) presente en el proyecto de (ouglas ofstadter %opycat. >deas similares !cambiando el signo de la función de energía" también se pueden encontrar en la 6$eoría de la 8rmonía6 de 3aul Smolens@y. La analogía e#plícita e#traída de la mec)nica estadística en la formulación de la m)quina de 9oltzmann ha llevado a la utilización de una terminología tomada de la física !por ejemplo, 6energía6 en lugar de 6armonía6", que se ha convertido en est)ndar en el campo. La adopción generalizada de esta terminología puede haber sido alentada por el hecho de que su uso ha llevado a importar una variedad de conceptos y métodos tomados de la mec)nica estadística. Sin embargo, no hay ninguna razón para pensar que las diversas propuestas para el uso de templado simulado para la inferencia descrita anteriormente no sean independientes. ! elmholtz, hizo una analogía similar en los albores de la psicofísica." Los modelos de >sing se consideran en la actualidad como un caso especial de los campos aleatorios de 5ar@ov, que encuentran una amplia aplicación en diversos campos, como los de la lingística, robótica, visión artificial e inteligencia artificial. i!%io$raía :ort, _. %.Q ]erschenfeld, 8. !EDD". /l nacimiento de un ordenador neuronal La m)quina de 9oltzmann. undo ?ient6fico : p. B?.
&)
Propa$aci'n /acia atr@s
4a propa$aci'n /acia atr@s de errores o retropropa$aci'n !del inglés "ackpropa,ation " es un algoritmo de aprendizaje supervisado que se usa para entrenar redes neuronales artificiales. /l algoritmo consiste en minimizar un error !com-nmente cuadr)tico" por medio de descenso de gradiente, por lo que la parte esencial del algoritmo es c)lculo de las derivadas parciales de dicho error con respecto a los par)metros de la red neuronal.
29
Contenido 5inimización del /rror ' ;ed Meuronal con una %apa Iculta 4 (escripción del 8lgoritmo ? %)lculo de las (erivadas 3arciales 0 8juste de los 3esos B /ntrenamiento In*Line y Iff*Line C /nlaces e#ternos D ;eferencias
Minimiaci'n de% Error Los algoritmos en 8prendizaje 8utom)tico pueden ser clasificados en dos categorías supervisados y no supervisados. Los algoritmos en aprendizaje supervisado son usados para construir 6modelos6 que generalmente predicen ciertos valores deseados. 3ara ello, los algoritmos supervisados requieren que se especifiquen los valores de salida ! output " u objetivo ! tar,et " que se asocian a ciertos valores de entrada ! input ". /jemplos de objetivos pueden ser valores que indican é#itoVfallo, ventaVno*venta, pérdidaVganancia, o bien ciertos atributos multi*clase como cierta gama de colores o las letras del alfabeto. /l conocer los valores de salida deseados permite determinar la calidad de la apro#imación del modelo obtenido por el algoritmo.
La especificación de los valores entradaVsalida se realiza con un conjunto consistente en pares de vectores con entradas reales de la forma , conocido como conjunto de entrenamiento o conjunto de ejemplos. Los algoritmos de aprendizaje generalmente calculan los par)metros de una función entrenamiento.
que permiten apro#imar los valores de salida en el conjunto de
Si , , son los elementos del conjunto de entrenamiento, la calidad de la apro#imación en el ejemplo # se puede medir a través del error cuadr)tico , (onde es la norma euclidiana. /l error total es la suma de los errores de los ejemplos
. On método general para minimizar el error es el actualizar los par)meros de manera iterativa. /l valor nuevo de los par)metros se calcula al sumar un incremento al valor actual /l algoritmo se detiene cuando
converge o bien cuado el error alcanza un mínimo valor deseado.
Si la función usada para apro#imar los valores de salida es diferenciable respecto a los par)metros , podemos usar como algoritmo de aprendijaze el método de gradiende descendiente. /n este caso, el incremento de los par)metros se e#presa como
(onde G G es un par)metro conocido como factor de aprendizaje.
29
8ntes de continuar introduciremos un poco de notación. (efinimos
como el
vector e#tendido del vector . /l par representar) a un elemento del conjunto de entrenamiento y una relación de entrada*salida, a menos que se indique otra cosa. Red Nerona% con na Capa Oc%ta La función la usaremos para apro#imar los valores de salida de una red neuronal artificial con una capa oculta. La red est) constituida por una capa de entrada ! input layer ", una capa oculta ! hidden layer " y una capa de salida ! output layer ", tal como se ilustra con la siguiente figura
Los elementos que constituyen la red neuronal son los siguientes s es una función de valores reales, conocida como la función de transferencia.
es la capa de entrada, considerado como el vector e#tendido del ejemplo .
es la capa oculta, el vector e#tendido de
es la capa de salida, considerado como el vector que apro#ima al
valor deseado
.
es una matriz de tama2o cone#ión entre las unidades
.
cuyos valores y
.
es una matriz de tama2o cone#ión entre las unidades
cuyos valores y
son los pesos de la
son los pesos de la
.
(e estos elementos, -nicamente las matrices son consideradas como los par)metros de la red, ya que los valores son el resultado de c)lculos que dependen de las matrices de pesos, del valor de entrada y de la función de transferencia s. La función de transferencia s que consideraremos en nuestro algoritmo es conocida como función sigmoidal, y esta definida como
/sta función adem)s de ser diferenciable, tiene la particularidad de que su derivada se puede e#presar en términos de sí misma
29
/sto nos servir) para simplificar los c)lculos en el algoritmo de aprendizaje aquí descrito. Descripci'n de% A%$oritmo 8 grandes rasgos
. %alcular la salida de la red a partir de uno de los conjuntos de valores de prueba x . '. %omparar con la salida correcta t y calcular el error seg-n la fórmula
4. %alcular las derivadas parciales del error con respecto a los pesos que unen la capa oculta con la de salida. ?. %alcular las derivadas parciales del error con respecto a los pesos que unen la capa de entrada con la oculta. 0. 8justar los pesos de cada neurona para reducir el error. B. ;epetir el proceso varias veces por cada par de entradas*salidas de prueba. I + =j:!netj"
&*)
Bopie%d GRNA)
Ona red de Bopie%d es una forma de red neuronal artificial recurrente inventada por _ohn opfield. Las redes de opfield se usan como sistemas de 5emoria asociativa con unidades binarias. /st)n dise2adas para converger a un mínimo local, pero la convergencia a uno de los patrones almacenados no est) garantizada. Estrctra Contenido /structura ' /jecución 4 /ntrenamiento
;ed opfield con cuatro nodos. Las unidades de las redes opfield son binarias, es decir, sólo tienen dos valores posibles para sus estados y el valor se determina si las unidades superan o no un determinado umbral. Los valores posibles pueden ser ó *, o bien ó . 8sí, las dos definiciones posibles para la unidad i de activación, ai , son las siguientes !"
29
!'" (onde
8 ij es la fuerza del peso de la cone#ión de la unidad j a la unidad i !peso de cone#ión". s j es el estado de la unidad j.
i es el umbral de la unidad i. Las cone#iones en una red de opfield suelen tener las siguientes restricciones !ninguna unidad tiene relación con ella misma" !cone#iones simétricas"
;epresentación gr)fica de la función de activación de una red opfield. Mormalmente se requiere que los pesos sean simétricos para que la función de energía disminuya de forma monótona mientras sigue las reglas de activación, ya que si se utilizan pesos no simétricos la red podría mostrar un comportamiento periódico o caótico. Sin embargo, opfield consideró que este comportamiento caótico se limita a zonas relativamente peque2as del espacio de fases, no influyendo en la capacidad de la red para actuar como contenido direccionable en el sistema de memoria asociativa. Las redes opfield poseen un valor escalar asociado a cada estado de la red, conocido como ener,6a !: " de la red, donde
/ste valor se denomina ener,6a , porque la definición asegura que si las unidades son elegidas al azar para actualizar sus valores de activación la red converger) a estados que son mínimos locales de la función de energía !que se considera una función de Lyapunov". 8sí, si un estado es un mínimo local en la función de energía ser) un estado estable de la red. ay que tener en cuenta que esta función de energía pertenece a una clase general de modelos en física, denominados 5odelos de >sing, los cuales a su vez son un caso particulas de las redes de 5ar@ov, donde la medida de probabilidad asociada, llamada medida de ]ibbs, tiene la propiedad de 5)r@ov. Eecci'n /n cada paso se escoge un nodo al azar. /l comportamiento del nodo es entonces determinista se mueve a un estado para minimizar la energía de él mismo y de los nodos circundantes. !a diferencia de la m)quina de 9oltzmann cuya regla de actualización es estoc)stica." Entrenamiento /l entrenamiento de una red de opfield consiste en reducir la energía de los estados que la red debe 6recordar6. /sto convierte a la red en un sistema de memoria direccionable, es decir, la red
29
6recordar)6 un estado si se le da sólo parte de dicho estado. /sto la hace -til para recuperar una entrada distorcionada usando un estado de la red obtenido durante el entrenamiento y que es m)s similar al estado obtenido con la entrada actual. /sto se llama memoria asociativa, ya que recupera la memoria en base a la similitud. 3or ejemplo, si entrenamos una red opfield con cinco unidades para que el estado !, , , , " sea un mínimo de energía, y le damos a la red el estado !, , , , " esta convergir) a !, , , , ". 8sí, la red estar) adecuadamente capacitada cuando la energía de los estados que la red debe recordar son mínimos locales.
&-)
Proceso estoc@stico
/l índice de la bolsa es un ejemplo de proceso estoc)stico de tipo no estacionario !por eso no se puede predecir". /n estadística, y específicamente en la teoría de la probabilidad, un proceso estoc@stico es un concepto matem)tico que sirve para caracterizarQ es una sucesión de variables aleatorias !estoc)sticas" que evolucionan en función de otra variable, generalmente el tiempo. %ada una de las variables aleatorias del proceso tiene su propia función de distribución de probabilidad y, entre ellas, pueden estar correlacionadas o no. %ada variable o conjunto de variables sometidas a influencias o impactos aleatorios constituye un proceso estoc)stico. Contenido /jemplos ' (efinición matem)tica '. %asos especiales 4 ;eferencias
o
Eemp%os Los siguientes son ejemplos dentro del amplio grupo de las series temporales Se2ales de telecomunicación Se2ales biomédicas !electrocardiograma, encefalograma, etc." Se2ales sísmicas /l n-mero de manchas solares a2o tras a2o /l índice de la bolsa segundo a segundo La evolución de la población de un municipio a2o tras a2o /l tiempo de espera en cola de cada uno de los usuarios que van llegando a una ventanilla
o o o o o o o
29
o
o
/l clima es un gigantesco c-mulo de procesos estoc)sticos interrelacionados !velocidad del viento, humedad del aire, etc" que evolucionan en el espacio y en el tiempo. Los procesos estoc)sticos de orden mayor a uno, como el caso de una serie de tiempo de orden ' y una correlación de cero con las dem)s observaciones.
/n los procesos estocasticos se pueden usar las matrices para definir el n-mero de eventos, ya que no necesitan la historia para 6predecir6, sino de los hechos que estan presentes se 6predice6 un comportamiento cadenas de mar@ov. Deinici'n matem@tica On proceso estoc)stico se puede definir equivalentemente de dos formas diferentes %omo un conjunto de realizaciones temporales y un índice aleatorio que selecciona una de ellas. %omo un conjunto de variables aleatorias inde#adas por un índice , dado que , con . 3uede ser continuo si es un intervalo !el n-mero de sus valores es ilimitado" o discreto si es numerable !solamente puede asumir determinados valores". Las variables aleatorias toman valores en un conjunto que se denomina espacio probabilístico. Sea un espacio probabilístico. /n una muestra de tama2o n se observa un suceso compuesto : formado por sucesos elementales , de manera que . /l suceso compuesto es un subconjunto contenido en el espacio muestral y es un )lgebra de 9oole ;. 8 cada suceso le corresponde un valor de una variable aleatoria 2 , de manera que 2 es función de
/l dominio de esta función o sea el campo de variabilidad del suceso elemental, es el espacio muestral, y su recorrido, o sea el de la variable aleatoria, es el campo de los n-meros reales. Se llama proceso aleatorio al valor en de un elemento todo es una variable aleatoria del valor en Si se observa el suceso en un momento t de tiempo 2 define así un proceso estoc)stico.
, donde para . .
Si
es una filtración, se llama proceso aleatorio adaptado, al valor en , de un elemento , donde es una variable aleatoria *medible del valor en . La función se llama la trayectoria asociada al suceso . Casos especia%es 3roceso estacionario On proceso es estacionario en sentido estricto si la función de distribución conjunta de cualquier subconjunto de variables es constante respecto a un desplazamiento en el tiempo. Se dice que un proceso es estacionario en sentido amplio !o débilmente estacionario" cuando se verifica que . La media teórica es independiente del tiempoQ y '. Las autocovarianzas de orden s sólo vienen afectadas por el lapso de tiempo transcurrido entre los dos periodos y no dependen del tiempo. 3roceso homogéneo variables aleatorias independientes e idénticamente distribuidas 3roceso de 5)r@ov 8quellos procesos discretos en que la evolución sólo depende del estado actual y no de los anteriores.
29
3roceso de ]auss 3roceso continuo en el que toda combinación lineal de variables es una variable de distribución normal. 3roceso de 3oisson 3roceso de ]auss*5)r@ov Son procesos, al mismo tiempo, de ]auss y de 5)r@ov 3roceso de 9ernoulli Son procesos discretos con una distribución binomial.
&8) Mode%os de re$resi'n m%tip%e post%ados 6 no post%ados /n estadística un mode%o de re$resi'n m%tip%e no post%ado es uno de los métodos de regresión lineal. Contenido 5odelo ' 5odelo postulado 4 /l problema de la selección de las variables e#plicativas ? 5odelo no postulado 0 (escomposición armónica
Mode%o On modelo relaciona una o varias variables que hay que e#plicar 1 a unas variables e#plicativas =, por una relación funcional 1 + : !=" On modelo físico es un modelo e#plicativo sostenido por una teoría. On modelo estadístico, al contrario, es un modelo empírico nacido de datos disponibles, sin conocimientos a priori sobre los mecanismos en juego. 3odemos sin embargo integrar en eso ecuaciones físicas !en el momento del pretratamiento de datos". (isponemos de n de observaciones ! i + ,, n" de p variables. La ecuación de regresión se escribe
(onde
[ i es el error del modeloQ a, a, ,a p son los coeficientes del modelo que hay que estimar. /l c)lculo de los coeficientes a@j y del error del modelo, a partir de las observaciones, es un problema bien dominado !ver ;egresión lineal". 5)s delicado es la elección de las variables que entran en este modelo. 3uede ser postulado o no postulado.
Mode%o post%ado Sólo los coeficientes del modelo precedente de regresión son diri,idos por los datos , la estructura polinómica del modelo es impuesta por el utilizador !seg-n su peritaje del problema", que postula a priori /l tipo de modelo lineal o polinómico, y el grado del polinomio, las variables que entrar)n en el modelo. /jemplo de modelo polinómico con dos variables e#plicativas
E% pro!%ema de %a se%ecci'n de %as 5aria!%es e3p%icati5as %uando el n-mero de variables e#plicativas es grande, puede hacerse que ciertas variables sean correladas. /n este caso hay que eliminar los doblones. /l softare utiliza para hacerlo métodos de selección paso a paso !ascendientes, descendentes o mi#tos". Sin embargo la calidad del modelo final repone en gran parte en la elección de las variables, y del grado del polinomio.
29
Mode%o no post%ado /l modelo no postulado es al contrario totalmente diri,ido por los datos , tanto su estructura matem)tica como sus coeficientes. La selección de las variables e#plicativas no pide conocimiento a priori sobre el modelo se efect-a entre un conjunto muy grande de variables, comprendiendo aria!%es e3p%icati5as simp%es 8, 9, %, !propuestas por los e#pertos del campo considerado y cuyo n-mero p puede ser superior a n Interacciones o acop%amiento de estas variables, por ejemplo 89 !producido cruzado sobre variables centradas reducidas", pero también interacciones lógicas tal 8 y 9 , 8 o 9 , 8 y 9 medios , 8 si 9 es fuerte , 8 si 9 es medio , 8 si 9 es débil , etc.Q ,nciones de estas 5aria!%esJ por ejemplo cos !8" o cualquier función sinusoidal amortiguada o ampliada, función periódica no sinusoidal, efecto de umbral, etc.
La selección se produce antes del c)lculo de los coeficientes de la regresión seg-n el principio siguiente 9uscamos el factor o la interacción o la función mejor correlada a la respuesta. abiéndolo encontrado, buscamos el factor o la interacción mejor correlada al residuo no e#plicado por la correlación precedenteQ etc. /ste método pretende no contar dos veces la misma influencia, cuando los factores son correlados, y a ordenarlos por importancia decreciente. La lista por orden de i!portancia decreciente encontrada y clasificada, no puede contar m)s términos que desconocidas ! n". Si se guarda sólo un término en el modelo, deber) ser la primera de la lista. Si se guarda dos, ser)n ambos primeros, etc. /n efecto ya que cada uno de los términos de la lista explica el residuo no e#plicado por los precedentes, los -ltimos e#plican posiblemente sólo el ruido. F%u)l criterio de parada escogerH /l n-mero de términos conservados en el modelo puede ser, por ejemplo, el que minimiza el error est)ndar de predicción S/3 !Standard error of 3rediction", o el que ma#imiza el : de :isher. /ste n-mero de término puede también ser escogido por el utilizador a partir de consideraciones físicas. Eemp%o suponemos que el conjunto de las variables e#plicativas candidatas es 8, 9, %, (, /, :, ], y que el modelo obtenido es 1 + constante U a. 8 U b. ! / et ] " U c.! ( y : medios " Ibservamos que Las variables 9 y %, no pertinentes, no figuran en el modelo La variable 8 apareció como término simple Las variables / y ] de una parte, y ( y :, por otra parte, aparecen sólo como interacciones lógicas .
/ste modelo parsi!onioso , es decir conteniendo pocos términos !aquí tres", contrata 0 variables, y estar) pegado mejor a la realidad física que un modelo polinómico. /n efecto la conjunción / y ] que significa / y ] fuertes simult)neamente es encontrado m)s a menudo en la realidad física !ejemplo la cat)lisis en química" que un término polinómico de tipo /.]. Descomposici'n arm'nica On modelo no postulado ser) también eficaz en la descomposición armónica de las series. /n efecto, el principio se aplica también bien en caso de muestreo irregular !donde los métodos de tipo media móvil, 8;>58 o 9o# y _en@ins son hechos caer en falta" que en los casos no estacionarios !donde 8n)lisis armónico no se aplica". 3ermite descubrir y desenredar las interferencias de ciclos diversos y estacionalidad con roturas de tendencias en escalón , en 2 , roturas lo,6sticas , motivos periódicos, y acontecimientos accidentales tales como picos aislados o peda*os de ondas .
&9)
Re$resi'n se$mentada
29
Re$resi'n se$mentada o re,resión por peda*os es un método en el an)lisis de regresión en que el variable independiente es particionada en intervalos ajustando en cada intervalo una línea o curva a los datos. La regresión segmentada se puede aplicar también a la regresión con m-ltiples variables independientes particionando todas estas.
;egresión segmentada lineal, tipo 4 La regresión segmentada es -til cuando el variable dependiente muestra una reacción abruptamente diferente a la variable independiente en los varios segmentos. /n este caso el límite entre los segmentos se llama punto de #uie"ra. ;egresión segmentada lineal es la regresión segmentada en que la relación entre el variable dependiente e independiente dentro de los segmentos se obtiene por regresión lineal. Re$resi'n se$mentada %inea%K & se$mentos er miembro horizontal
er miembro inclinado hacia arriba
29
er miembro inclinado hacia abajo
;egresión segmentada lineal en dos segmentos separados por un punto de quiebra puede ser -til para cuantificar un cambio abrupto en la función de reacción de un factor de interés a la variación de otro factor influencial. /l punto de quiebra se interpreta como un valor se,uro , cr6tico o u!"ral cuando efectos !no" deseados suceden a uno de los dos lados. /l punto de quiebra puede ser un factor importante para la toma de decisiones de manejo. /l an)lisis de la regresión segmentada se basa en la presencia de un juego de datos ! 6 K 3 " , donde 6 es la variable dependiente y 3 el variable independiente, es decir que el valor de 3 influye el valor de 6. Contenido ;egresión segmentada lineal, ' segmentos ' /jemplo 4 3rocedimiento de pruebas
/l método de los mínimos cuadrados aplicado separadamente a cada segmento, por lo cual las dos lineas de regresión se ajustan a los datos tan cerca como posible minimizando la su!a de los
29
cuadrados de las diferencias !S%(" entre el valor observado ! 6" y valor calculado por regresión ! Yr "
de la variable dependiente, resulta en las ecuaciones siguientes Yr + A-. 3 U $ - para 3 G 3J !punto de quiebra" Yr + A . 3 U $ para 3 T 3J !punto de quiebra" (onde Yr es el valor esperado !pronosticado" de 6 para un cierto valor de 3 A- y A son los coeficientes de re,resión indicando la inclinación de las líneas en los segmentos respectivos $ - and $ son los constantes de re,resión en los segmentos respectivos indicando los valores de Yr cuando 3 + Los datos pueden mostrar diferentes tipos de tendencia. Néase las figuras. /l método también rinde dos coeficientes de correlación ( - )' + suma ! 6 Yr "' V suma ! 6 Ya-"' para 3 G 3J !punto de quiebra" ( ) ' + suma ! 6 Yr "' V suma ! 6 Ya "' para 3 T 3J !punto de quiebra" (onde Suma !6 Yr "' es la suma de cuadrados de las diferencias !S%(" minimizado por segmento Ya- e Ya son los valores promedios de 6 en los segmentos respectivos %uando no se detecta un punto de quiebra, hay que volver a una regresión sin punto de quiebra.
Eemp%o 3ara la figura azul arriba, que da la relación entre la cosecha de mostaza ! colza" en tVha y la salinidad del suelo !3 + s" e#presada en conductividad eléctrica !/% en d SVm" de la solución del suelo, 4 se desprende que ndicando que una salinidad del suelo G ?.E4 dSVm es segura y una salinidad del suelo T ?.E4 reduce la cosecha .'E toneladaVha por unidad de aumento de salinidad de suelo. La figura también muestra intervalos de confianza e inseguridad.
Procedimiento de pre!as
/jemplo de una serie temporal de descargas de un río, tipo 0
29
Las siguientes prue"as estad6sticas se emplean para determinar el tipo de tendencia . Significatividad estadística del punto de quiebra !3J" e#presando 3J como una función de los coeficientes de regresión A- y A , los promedios Y - e Y de los datos 6, y los promedios X - y X de los datos 3 !al lado izquierdo y derecho de 3J respectivamente", utilizando la leyes de propagación de errores en adiciones y multiplicaciones para la computación del error est)ndar !/S" de 3J, seguido por la prueba t de Student '. Significatividad estadística de A- y A aplicando la prueba t de Student y el error est)ndar /S de A- y A 4. Significatividad estadística de la diferencia de A- y A aplicando la prueba t de Student y el error est)ndar /S de la diferencia ?. Significatividad estadística de de la diferencia de Y - e Y aplicando la prueba t de Student y el error est)ndar /S de la diferencia 8dicionalmente se emplea de coeficiente de correlación de todos los datos ! a", el coeficiente de deter!inación !o coeficiente de explicación ", intervalos de confianza de las funciones !líneas" de regresión, y un an)lisis de la varianza !8MIN8".? /l coeficiente de deter!inación de todos los datos ! ?d ", lo cual se debe ma#imizar bajo las condiciones especificados arriba en prue"as estad6sticas , se defina como ?d + suma ! 6 Yr "' V suma ! 6 Ya"' donde Yr es el valor esperado !pronosticado" de 6 de acuerdo a las ecuaciones de regresión previas, y Ya es el promedio de todo los valores 6. /l coeficiente ?d puede variar entre !ninguna e#plicación de la regresión segmentada" y !perfecta e#plicación". /n una regresión lineal pura, sin segmentación, los valores de ?d y a' son iguales. /n la regresión segmentada, ?d debe ser significativamente mayor que a' para justificar la segmentación. La optimización del punto de quiebra 3J se alcanza probando una serie de puntos tentativos y seleccionando el punto que tiene el coeficiente ?d m)#imo.
&:)
Econometría
La Econometría !derivado de econo, economía y !etr6a, medición, o sea, medición de la economía" es la rama de la economía que utiliza métodos y modelos matem)ticos. /l c)lculo, la probabilidad, la estadística, la programación lineal y la teoría de juegos, así cómo otras )reas de las matem)ticas, se utilizan para analizar, interpretar y predecir diversos sistemas y variables económicas, como el precio, las reacciones del mercado, el coste de producción, la tendencia de los negocios y la política económica . Contenido >ntroducción ' (efiniciones de /conometría 4 (escripción somera de la /conometría ? %oncepto de modelo econométrico 0 /l método de mínimos cuadrados !/stimación 5%I" B 3roblemas del 5étodo de los 5ínimos %uadrados
Introdcci'n La economía, pertenenciente a las ciencias sociales, trata de e#plicar el funcionamiento del sistema económico en sus distintos aspectos como producción, consumo, dinero, distribución del ingreso y todo lo relacionado con los recursos escasos entre distintos fines posibles. La herramienta b)sica usada por los economistas para ello es la construcción de modelos teóricos y matem)ticos que describan el comportamiento de los agentes económicos. Sin embargo, esos modelos deben contrastarse con los datos disponibles para saber si estos tienen capacidad e#plicativa y predictiva, y poder en definitiva elegir unos sobre otros. 3ara ello es la econometría. Los econometristas!economistas cuantitativos" han tratado de emular a las ciencias matem)ticas y a las de la naturaleza !física, química" con mejor o peor resultado a través del tiempo. ay que
29
considerar que tratan con uno de los fenómenos m)s complejos que conocemos, el comportamiento de las personas. 8ctualmente la econometría no necesariamente requiere o presupone una teoría económica subyacente al an)lisis econométrico. 5)s a-n, la econometría moderna se precia de prescindir voluntariamente de la teoría económica por considerarla un obst)culo si se quiere realizar un an)lisis riguroso !ésta es por ejemplo la filosofía del método de Nector 8utoregresivos * N8;". /n la elaboración de la econometría se unen las matem)ticas, y la estadística junto con la investigación social y la teoría económica. /l mayor problema con el que se enfrentan los económetras en su investigación es la escasez de datos, los sesgos que pueden causar los mismos y la ausencia o insuficiencia de una teoría económica adecuada. 8un así, la econometría es la -nica apro#imación científica al entendimiento de los fenómenos económicos. la econometria se fundamenta en combinar las ciencias sociales con la estabilidad económica del país o lugar. Deiniciones de Econometría /ntre las deiniciones de econometría que los economistas relevantes han formulado a lo largo de la historia, podemos destacar las siguientes ;agnar :risch !E4" ZLa e#periencia ha mostrado que cada uno de estos tres puntos de vista, el de la estadística, la teoría económica y las matem)ticas, es necesario, pero por sí mismo no suficiente para una comprensión real de las relaciones cuantitativas de la vida económica moderna. /s la unión de los tres aspectos lo que constituye una herramienta de an)lisis potente. /s la unión lo que constituye la econometría6. Samuelson, Poopmans y Stone !E0?" Z... el an)lisis cuantitativo de fenómenos económicos actuales, basado en el desarrollo congruente de teoría y observaciones, y relacionado por métodos apropiados de inferencia.Z Nalavanis !E0E" Z/l objetivo de la econometría es e#presar las teorías económicas bajo una forma matem)tica a fin de verificarlas por métodos estadísticos y medir el impacto de una variable sobre otra, así como predecir acontecimientos futuros y dar consejos de política económica ante resultados deseables.Z 8.]. 9arbancho !EB'" ZLa econometría es la rama m)s operativa de la %iencia económica, trata de representar numéricamente las relaciones económicas mediante una adecuada combinación de la $eoría económica matem)tica y la /stadística. (e forma que las matem)ticas, como lenguaje y forma de e#presión simbólica e instrumento eficaz en el proceso deductivo, representan el medio unificadorQ y teoría económica, economía matem)tica o estadística económica serían consideraciones parciales de su contenido.Z Plein !EB'" Z/l principal objetivo de la econometría es dar contenido empírico al razonamiento a priori de la economía.Z 5alinvaud !EBB" Z... aplicación de las matem)ticas y método estadístico al estudio de fenómenos económicos.Z %hrist !EBB" Z3roducción de declaraciones de economía cuantitativa que e#plican el comportamiento de variables ya observadas, o predicen la conducta de variables a-n no observadas.Z >ntriligator !ECD" Z;ama de la economía que se ocupa de la estimación empírica de relaciones económicas.Z %ho !ED4" Z8rte y ciencia de usar métodos para la medida de relaciones económicas.Z
3ero la definición de economía es tan amplia que todas son aceptables. Descripci'n somera de %a Econometría La econometría se ocupa de obtener, a partir de los valores reales de variables económicas y a través del an)lisis estadístico y matem)tico !mas no de la teoría económica, como si se usa en las ciencias naturales, ejem. la física", los 'alores que tendrían los par>!etros de los modelos en los que esas variables económicas aparecieran, así como de co!pro"ar el ,rado de 'alide* de esos modelos, y ver en qué medida estos modelos pueden usarse para e3p%icar %a economía de un agente
29
económico !como una empresa o un consumidor", o la de un agregado de agentes económicos, como podría ser un sector del mercado, o una zona de un país, o todo un país, o cualquier otra zona económicaQ su e5o%ci'n en e% tiempo !por ejemplo, decir si ha habido o no cambio estructural", poder predecir 5a%ores tros de la variables, y s$erir medidas de po%ítica econ'mica conforme a objetivos deseados !por ejemplo, para poder aplicar técnicas de optimización matem)tica para racionalizar el uso de recursos dentro de una empresa, o bien para decidir qué valores debería adoptar la política fiscal de un gobierno para conseguir ciertos niveles de recaudación impositiva". Osualmente se usan técnicas estadísticas diversas para estudiar la economía, pero uno de los métodos m)s usados es el que se mostrar) aquí. Concepto de mode%o econométrico La econometría, igual que la economía, tiene como objetivo e#plicar una variable en función de otras. /sto implica que el punto de partida para el an)lisis econométrico es el modelo económico y este se transformar) en modelo econométrico cuando se han a2adido las especificaciones necesarias para su aplicación empírica. /s decir, cuando se han definido las variables !endógenas, e#ógenas" que e#plican y determinan el modelo, los par)metros estructurales que acompa2an a las variables, las ecuaciones y su formulación en forma matem)tica, la perturbación aleatoria que e#plica la parte no sistem)tica del modelo, y los datos estadísticos. 8 partir del modelo econométrico especificado, en una segunda etapa se procede a la estimación, fase estadística que asigna valores numéricos a los par)metros de las ecuaciones del modelo. 3ara ello se utilizan métodos estadísticos como pueden ser 5ínimos cuadrados ordinarios, 5)#ima verosimilitud, 5ínimos cuadrados biet)picos, etc. 8l recibir los par)metros el valor numérico definen el concepto de estructura que ha de tener valor estable en el tiempo especificado. La tercera etapa en la elaboración del modelo es la verificación y contrastación, donde se someten los par)metros y la variable aleatoria a unos contrastes estadísticos para cuantificar en términos probabilísticos la validez del modelo estimado. La cuarta etapa consiste en la aplicación del modelo conforme al objetivo del mismo. /n general los modelos econométricos son -tiles para . 8n)lisis estructural y entender como funciona la economía. '. 3redicción de los valores futuros de las variables económicas. 4. Simular con fines de planificación distintas posibilidades de las variables e#ógenas. ?. Simular con fines de control valores óptimos de variables instrumentales de política económica y de empresa. E% método de mínimos cadrados GEstimaci'n MCO) $ambién se conoce como $eoría de la regresión lineal , y estar) m)s desarrollado en la parte estadística de la enciclopedia, no obstante, aquí daremos una vista general de en qué consiste la aplicación del método de mínimos cuadrados . Se parte de representar las relaciones entre una variable económica endógena y una o m)s variables e#ógenas de forma lineal, de la siguiente manera . 616 es la variable endógena, cuyo valor es determinado por las e#ógenas, X hasta X n. %uales son las variables elegidas depende de la teoría económica que se tenga en mente, y también de an)lisis estadísticos y económicos previos. /l objetivo buscado sería obtener los valores de los par)metros desde a hasta \n. 8 menudo este modelo se suele completar a2adiendo un término m)s a la suma, llamado término independiente, que es un par)metro m)s a buscar. 8sí . /n el que \ es una constante, que también hay que averiguar. 8 veces resulta -til, por motivos estadísticos, suponer que siempre hay una constante en el modelo, y contrastar la hipótesis de si es distinta, o no, de cero para reescribirlo de acuerdo con ello. 8dem)s, se supone que esta relación no es del todo determinista, esto es, e#istir) siempre un cierto grado de error aleatorio !en realidad, se entiendo que encubre a todas aquellas variables y factores
29
que no se hayan podido incluir en el modelo" que se suele representar a2adiendo a la suma una letra representa una variable aleatoria. 8sí Se suele suponer que w es una variable aleatoria normal, con media cero y varianza constante en todas las muestras !aunque sea desconocida". Se toma una muestra estadística, que corresponda a observaciones de los valores que hayan tomado esas variables en distintos momentos del tiempo !o, dependiendo del tipo de modelo, los valores que hayan tomado en distintas )reas, zonas o agentes económicos a considerar". 3or ejemplo, en un determinado modelo podemos estar interesados en averiguar como la renta ha dependido de los niveles de precios, de empleo y de tipos de interés a lo lar,o de los aCos en cierto pa6s, mientras que en otro podemos estar interesados en ver como, a lo lar,o de un !is!o aCo , ha dependido la renta de distintos pa6ses de esas mismas variables. 3or lo que tendríamos que observar, en el primer caso, la renta, niveles de empleo, precios y tipos de interés del a2o , lo mismo, pero del a2o ', etcétera, para obtener la muestra a lo largo de varios a2os, mientras que en el segundo caso tendríamos que tener en cuenta los valores de cada uno de los países para obtener la muestra. %ada una de esas observaciones para cada a2o, o país, se llamaría observación muestral. Mótese que a-n se podría hacer un an)lisis m)s ambicioso teniendo en cuenta pa6s y aCo. Ona vez tomada la muestra, se aplica un método, que tiene su justificación matem)tica y estadística, llamado método de mínimos cuadrados . /ste consiste en, b)sicamente, minimizar la suma de los errores !elevados al cuadrado" que se tendrían, suponiendo distintos valores posibles para los par)metros, al estimar los valores de la variable endógena a partir de los de las variables e#ógenas en cada una de las observaciones muestrales, usando el modelo propuesto, y comparar esos valores con los que realmente tomó la variable endógena. Los par)metros que lograran ese mínimo, el de las suma de los errores cuadr)ticos, se acepta que son los que estamos buscando, de acuerdo con criterios estadísticos. $ambién, este método nos proporcionar) información !en forma de ciertos valores estadísticos adicionales, que se obtienen adem)s de los de los par)metros" para ver en qué medida los valores de los par)metros que hemos obtenido resultan fiables, por ejemplo, para hacer contrastes de /ip'tesis, esto es, ver si ciertas sposiciones 7e se /a!ían /ec/o acerca de% mode%o res%tanK o noK ciertas. Se puede usar también esta información adicional para comprobar si se pueden prescindir de algunas de esas variables, para ver si es posible que los valores de los par)metros hayan cambiado con el tiempo !o si los valores de los par)metros son diferentes en una zona económica de los de otra, por ejemplo", o para ver en qué grado son v)lidas predicciones acerca del futuro valor de la variable endógena si se supone que las variables e#ógenas adoptar)n nuevos valores. Pro!%emas de% Método de %os Mínimos Cadrados /l método de 5ínimos %uadrados tiene toda una serie de problemas, cuya solución, en muchas ocasiones apro#imada, ha estado ocupando el trabajo de los investigadores en el campo de la econometría. (e entrada, el método presupone que la relación entre las variables es lineal y est) bien especificada. 3ara los casos de no linealidad se recurre, bien a métodos para obtener una relación lineal que sea equivalente, bien a apro#imaciones lineales, o bien a métodos de optimización que absorban la relación no lineal para obtener también unos valores de los par)metros que minimicen el error cuadr)tico. Itro supuesto del modelo es el de normalidad de los errores del modelo, que es importante de cara a los contrastes de hipótesis con muestras peque2as. Mo obstante, en muestras grandes el $eorema del límite central justifica el suponer una distribución normal para el estimador de mínimos cuadrados. Mo obstante, el problema se complica considerablemente, sobre todo a la hora de hacer contrastes de hipótesis, si se cree que la varianza de los errores del modelo cambia con el tiempo. /s el fenómeno conocido como heterocedasticidad !el fenómeno contrario es la homocedasticidad". /ste fenómeno se puede detectar con ciertas técnicas estadísticas. 3ara resolverlo hay que usar métodos que intenten estimar el cambiante valor de la varianza y usar lo obtenido para corregir los valores de
29
la muestra. /sto nos llevaría al método conocido como Mínimos Cadrados Lenera%iados . Ona versión m)s complicada de este problema es cuando se supone que, adem)s, no solo cambia la varianza del error sino que también los errores de distintos periodos est)n correlacionados, lo que se llama 68utocorrelación6. $ambién hay métodos para detectar este problema y para corregirlo en cierta medida modificando los valores de la muestra, que también son parte del método 5ínimos %uadrados ]eneralizados. Itro problema que se da es el de la ulticolinealidad , que generalmente sucede cuando alguna de las variables e#ógenas en realidad depende, también de forma estadística, de otra variable e#ógena del mismo modelo considerado, lo que introduce un sesgo en la información aportada a la variable endógena y puede hacer que el método de mínimos cuadrados no se pueda aplicar correctamente. ]eneralmente la solución suele ser averiguar qué variable est) causando la multicolinealidad y reescribir el modelo de acuerdo con ello. $ambién hay que tener en cuenta que en ciertos modelos puede haber relaciones din)micas, esto es, que una variable e#ógena dependa, adem)s, de los valores que ella misma yVu otras variables tomaron en tiempos anteriores. 3ara resolver estos problemas se estudian lo que se llama modelos de Series tempora%es.
&;)
Mínimos cadrados
/l resultado del ajuste de un conjunto de datos a una función cuadr)tica. Mínimos cadrados es una técnica de an)lisis numérico encuadrada dentro de la optimización matem)tica, en la que, dados un conjunto de pares !o ternas, etc", se intenta encontrar la función que mejor se apro#ime a los datos !un 6mejor ajuste6", de acuerdo con el criterio de mínimo error cuadr)tico. /n su forma m)s simple, intenta minimizar la suma de cuadrados de las diferencias ordenadas !llamadas residuos " entre los puntos generados por la función y los correspondientes en los datos. /specíficamente, se llama !6ni!os cuadrados pro!edio !L5S" cuando el n-mero de datos medidos es y se usa el método de descenso por gradiente para minimizar el residuo cuadrado. Se puede demostrar que L5S minimiza el residuo cuadrado esperado, con el mínimo de operaciones !por iteración", pero requiere un gran n-mero de iteraciones para converger. (esde un punto de vista estadístico, un requisito implícito para que funcione el método de mínimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria. /l teorema de ]auss*5)r@ov prueba que los estimadores mínimos cuadr)ticos carecen de sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a una distribución normal. $ambién es importante que los datos recogidos estén bien escogidos, para que permitan visibilidad en las variables que han de ser resueltas !para dar m)s peso a un dato en particular, véase mínimos cuadrados ponderados ".
29
La técnica de mínimos cuadrados se usa com-nmente en el ajuste de curvas. 5uchos otros problemas de optimización pueden e#presarse también en forma de mínimos cuadrados, minimizando la energía o ma#imizando la entropía. Contenido istoria ' :ormulación formal del problema bidimensional 4 Solución del problema de los mínimos cuadrados 4. (educción analítica de la apro#imación discreta mínimo cuadr)tica lineal 4.. %orolario 4.' (educción geométrica del problema discreto ? 5ínimos cuadrados y an)lisis de regresión
o
o
Bistoria %arl :riedrich ]auss. /l día de 82o Muevo de D, el astrónomo italiano ]iuseppe 3iazzi descubrió el planeta enano %eres. :ue capaz de seguir su órbita durante ? días. (urante el curso de ese a2o, muchos científicos intentaron estimar su trayectoria con base en las observaciones de 3iazzi !resolver las ecuaciones no lineales de Pepler de movimiento es muy difícil". La mayoría de evaluaciones fueron in-tilesQ el -nico c)lculo suficientemente preciso para permitir a xach, astrónomo alem)n, reencontrar a %eres al final del a2o fue el de un %arl :riedrich ]auss de '? a2os !los fundamentos de su enfoque ya los había planteado en CE0, cuando a-n tenía D a2os". 3ero su método de mínimos cuadrados no se publicó hasta DE, apareciendo en el segundo volumen de su trabajo sobre mec)nica celeste, 5heoria otus ?orporu! ?oelestiu! in sctioni"us conicis sole! a!"ientiu! . /l francés 8drien*5arie Legendre desarrolló el mismo método de forma independiente en D0. /n D'E ]auss fue capaz de establecer la razón del é#ito maravilloso de este procedimiento simplemente, el método de mínimos cuadrados es óptimo en muchos aspectos. /l argumento concreto se conoce como teorema de ]auss*5)r@ov. ,orm%aci'n orma% de% pro!%ema !idimensiona% Supóngase el conjunto de puntos ! x k ,y k ", siendo . Sea f j ! x ", con una base de m funciones linealmente independientes. Jueremos encontrar una función
combinación lineal de las funciones base tal que
, esto es
Se trata de hallar los m coeficientes c j que hagan que la función apro#imante f!#" sea la mejor apro#imación a los puntos ! x k, y k" . /l criterio de mejor apro#imación puede variar, pero en general se basa en aquél que dé un menor error en la apro#imación. /l error en un punto ! x k ,y k " se podría definir como /n este caso se trata de medir y minimizar el error en el conjunto de la apro#imación. /n matem)ticas, e#isten diversas formas de definir el error, sobre todo cuando éste se aplica a un conjunto de puntos !y no sólo a uno", a una función, etc. (icho error podr) ser /rror 5)#imo /rror 5edio /rror %uadr)tico 5edio
29
La apro#imación mínimo cuadrada se basa en la minimización del error cuadr)tico medio, o, equivalentemente, en la minimización del radicando de dicho error, el llamado error cuadr)tico, definido como
3ara alcanzar este objetivo, suponemos que la función f es de una forma particular que contenga algunos par)metros que necesitamos determinar. 3or ejemplo, supongamos que es cuadr)tica, lo que quiere decir que , donde no conocemos a-n , y . 8hora buscamos los valores de , y que minimicen la suma de los cuadrados de los residuos ! "
/sto e#plica el nombre de !6ni!os cuadrados . 8 las funciones que multiplican a los coeficientes buscados, esto es, a x ', x y , se les conoce con el nombre de funciones base de la apro#imación. (ichas funciones base pueden ser cualesquiera funciones, y para ese caso se deduce a continuación la fórmula general en el caso de que la apro#imación sea discreta y lineal. La apro#imación de mínimos cuadrados es la mejor apro#imación al conjunto de puntos ! x k, y k ", seg-n el criterio del error cuadr)tico medio. /s posible generar otro tipo de apro#imaciones si se toman los errores m)#imos o medio, pero la dificultad que entra2a operar con ellos debido al valor absoluto de su e#presión hace que apenas se usen. So%ci'n de% pro!%ema de %os mínimos cadrados La apro#imación mínimo cuadrado tiene solución general para el caso de un problema de apro#imación lineal en sus coeficientes c j cualesquiera sean las funciones base f j ! x " antes e#puestas. 3or lineal se entiende f!#" es una combinación lineal de dichas funciones base. 3ara hallar la e#presión de la fórmula general, es posible o bien minimizar el error cuadr)tico arriba e#puesto, para lo cual se haría uso del c)lculo multivariable !se trataría de un problema de optimización en c j ", o alternativamente hacer uso del )lgebra lineal en la llamada deducción geométrica. 3ara los 5odelos est)ticos uniecuacionales, el método de mínimos cuadrados no ha sido superado, a pesar de diversos intentos para ello, desde principios del Siglo =>=. Se puede demostrar que, en su género, es el que proporciona la mejor apro#imación. Dedcci'n ana%ítica de %a apro3imaci'n discreta mínimo cadr@tica %inea%
Sean n pares
con abscisas distintas, y sean m funciones cualesquiera linealmente
independientes , que se llamar)n funciones base. Se desea encontrar una función f ! x " combinación lineal de dichas funciones base, tomando por ello la forma . /llo equivale por tanto a hallar los m coeficientes la mejor apro#imación a los n pares
. /n concreto, se desea que tal función f ! x " sea
empleando el criterio de mínimo error cuadr)tico
medio de la función f ! x " con respecto a los puntos /l error cuadr)tico medio ser) para tal caso
.
29
5inimizar el error cuadr)tico medio es equivalente a minimizar el error cuadr)tico, definido como el radicando del error cuadr)tico medio, esto es
8sí, los c j que minimizan : c! también minimizan : c, y podr)n ser calculados derivando e igualando a cero este -ltimo Siendo i+,', . . .,m. Se obtiene un sistema de m ecuaciones con m incógnitas, que recibe el nombre de 1:cuaciones Nor!ales de %auss1 . Iperando con ellas
Si se desarrolla el sumatorio, se visualiza la ecuación 6i6 del sistema de ecuaciones normales
. /n forma matricial, se obtiene que
Siendo !a,""d el producto escalar discreto, definido para dos funciones dadas h!#" y g!#" como , y para una función h!#" y vector cualquiera u, como
La resolución de dicho sistema permite obtener,para el saber de ellos para cualquier base de funciones derivables localmente, la mejor apro#imación mínimo cuadr)tica f!#" al conjunto de puntos antes mencionado. La solución es óptima esto es, proporciona la mejor apro#imación siguiendo el criterio de mínimo error cuadr)tico, puesto que se obtiene al optimizar el problema. Corolario
Si se tratara de hallar el conjunto c j tal que f ! x " pasara e#actamente por todos los pares que
, esto es, tales que f ! x " interpolara a
/n forma matricial, ello se e#presaría
, entonces tendría que cumplirse
29
/sto establece un sistema de n ecuaciones y m incógnitas, y como en general nTm, quedaría sobredeterminado no tendría solución general. 3or tanto, la apro#imación tratar) en realidad de hallar el vector c que mejor apro#ime . Se puede demostrar que la matriz de coeficientes de las ecuaciones normales de ]auss coincide con , siendo 8 la matriz de coeficientes e#actasQ y e le término independiente de las ecuaciones normales de ]auss coincide con el vector , de manera que puede escribirse que los c j que mejor apro#iman f!#" pueden calcularse como la solución al sistema , que son las ecuaciones normales de ]auss. Dedcci'n $eométrica de% pro!%ema discreto La mejor apro#imación deber) tender a interpolar la función de la que proviene el conjunto de pares ! x k, y k ", esto es, deber) tender a pasar e#actamente por todos los puntos. /so supone que se debería cumplir que
Sustituyendo f!#" por su e#presión
/sto es, se tendría que verificar e#actamente un sistema de n ecuaciones y m incógnitas, pero como en general nTm, dicho sistema est) sobredeterminado, no tiene solución general. (e ahí surge la necesidad de apro#imarlo. (icho sistema podría e#presarse en forma matricial como
/sto es La apro#imación trata de hallar el vector c apro#imante que mejor apro#ime el sistema Ac + ". %on dicho vector c apro#imante, es posible definir el vector residuo como (e manera que el mínimo error cuadr)tico supone minimizar el residuo, definiendo su tama2o en base a la norma euclídea o usual del residuo, que equivale al error cuadr)tico
Siendo !r ,r "' el producto interior o escalar del vector residuo sobre sí mismo. Si atendemos al sistema Ac + ", entonces se ve claramente que al multiplicar 8 y c, lo que se realiza es una combinación lineal de las columnas de 8
29
/l problema de apro#imación ser) hallar aquella combinación lineal de columnas de 8 lo m)s cercana posible al vector b. Se comprueba que el conjunto de las columnas de 8 engendran un Span lineal span! A ,A',..., A!", al que el vector b no tiene porqué pertenecer !si lo hiciera, el sistema 8c+b tendría solución". /ntonces, de los infinitos vectores del span ! A ,A',..., A!" que son combinación lineal de los vectores de la base, se tratar) de hallar el m)s cercano al vector b. (e entre todos ellos, el que cumple esto con respecto a la norma euclídea es la proyección ortogonal del b sobre span! A ,A',..., A!", y que por tanto hace que el tama2o del vector r, que ser) el vector que una los e#tremos de los vectores b y proyección ortogonal de b sobre el span, sea mínimo, esto es, que minimiza su norma euclídea. /s inmediato ver que si el residuo une b con su proyección ortogonal, entonces es a su vez ortogonal al span! A ,A',..., A!", y a cada uno de los vectores de la base, esto es, ortogonal a cada columna de 8. La condición de minimización del residuo ser) /sto solo es cierto si 8 su vez, cada una de las m condiciones de perpendicularidad se puede agrupar en una sola Sustituyendo el residuo por su e#presión 3or tanto, la mejor apro#imación mínimo cuadrada lineal para un conjunto de puntos discretos, sean cuales sean las funciones base, se obtiene al resolver el sistema cuadrado . 8 esta ecuación se le llama ecuación normal de ]auss, y es v)lida para cualquier conjunto de funciones base. Si estas son la unidad y la función #, entonces la apro#imación se llama regresión lineal. Mínimos cadrados 6 an@%isis de re$resi'n /n el an)lisis de regresión, se sustituye la relación
3or Siendo el término de perturbación [ una variable aleatoria con media cero. Ibervese que estamos asumiendo que los valores x son e#actos, y que todos los errores est)n en los valores y . (e nuevo, distinguimos entre regresión lineal, en cuyo caso la función f es lineal para los par)metros a ser determinados !ej., f ! x " + ax ' U "x U c ", y regresión no lineal. %omo antes, la regresión lineal es mucho m)s sencilla que la no lineal. !/s tentador pensar que la razón del nombre re,resión lineal es que la gr)fica de la función f ! x " + ax U " es una línea. 8justar una curva f ! x " + ax ' U "x U c , estimando a, " y c por mínimos cuadrados es un ejemplo de regresión lineal porque el vector de estimadores mínimos cuadr)ticos de a, " y c es una transformación lineal del vector cuyos componentes son f ! x i" U [i ". Los par)metros ! a, " y c en el ejemplo anterior" se estiman con frecuencia mediante mínimos cuadrados se toman aquellos valores que minimicen la suma . /l teorema de ]auss*5)r@ov establece que los estimadores mínimos cuadr)ticos son óptimos en el sentido de que son los estimadores lineales insesgados de menor varianza, y por tanto de menor error cuadr)tico medio, si tomamos f ! x " + ax U " estando a y " por determinar y con los términos de perturbación [
29
independientes y distribuidos idénticamente !véase el artículo si desea una e#plicación m)s detallada y con condiciones menos restrictivas sobre los términos de perturbación". La estimación de mínimos cuadrados para modelos lineales es notoria por su falta de robustez frente a valores atípicos ! outliers ". Si la distribución de los atípicos es asimétrica, los estimadores pueden estar sesgados. /n presencia de cualquier valor atípico, los estimadores mínimos cuadr)ticos son ineficientes y pueden serlo en e#tremo. Si aparecen valores atípicos en los datos, son m)s apropiados los métodos de regresión robusta.
=)
Re$%ariaci'n de Tíono5
La Re$%ariaci'n de Tíono5 es el método de regularización usado m)s com-nmente. /n algunos campos, también se conoce como re$resi'n de arista. /n su forma m)s simple, un sistema de ecuaciones lineales mal determinado , (onde A es una matriz de dimensiones , x es un vector vertical con n celdas y " es otro vector vertical con ! celdas, es reemplazado por el problema de encontrar un x que minimice (ado un factor de 56jono' T elegido apropiadamente. La e#presión representa la norma euclídea. Su uso mejora el condicionamiento del problema, posibilitando su solución por métodos numéricos. Ona solución e#plícita, denotada por , es la siguiente (onde 0 es la matriz identidad siempre que !8$ 8"* e#ista.
. 3ara + , esto se reduce al método de mínimos cuadrados ,
Interpretaci'n !a6esiana 8unque en principio la solución propuesta pueda parecer artificial, y de hecho el par)metro tiene un car)cter algo arbitrario, el proceso se puede justificar desde un punto de vista bayesiano. Mótese que para resolver cualquier problema indeterminado se deben introducir ciertas restricciones adicionales para establecer una solución estable. /statísticamente se puede asumir que a priori sabemos que x es una variable aleatoria con una distribución normal multidimensional. Sin pérdida de generalidad, tomemos la media como y asumamos que cada componente es independiente, con una desviación est)ndar W x . Los datos de " pueden tener ruido, que asumimos también independiente con media y desviación est)ndar W ". 9ajo estas condiciones, la regularización de $íjonov es la solución m)s probable dados los datos conocidos y la distribución a priori de x , de acuerdo con el teorema de
9ayes. /ntonces, el par)metro de $íjonov viene dado por
...
Re$%ariaci'n de Tíono5 $enera%iada 3ara distribuciones normales multivariadas de x y su error, se puede aplicar una transformación a las variables que reduce el problema al caso anterior. /quivalentemente, se puede minimizar
(onde es la norma con peso x 5
1)
Carteto de Anscom!e
29
/l carteto de Anscom!e comprende cuatro conjuntos de datos que tienen las mismas propiedades estadísticas, pero que evidentemente son distintas al inspeccionar sus gr)ficos respectivos. %ada conjunto consiste de once pares de puntos ! x , y " y fueron contruídos por el estadístico :. _. 8nscombe. /l cuarteto es una demostración de la importancia de mirar gr)ficamente un conjunto de datos antes de analizarlos.
3ara las cuatro conjuntos de datos Propiedad
a%or
5edia de cada una de las variables x
E.
Narianza de cada una de las variables x %uarteto de 8nscombe 5edia de cada una de las variables y I II III I Narianza de cada una de las variables y # y # y # y # y %orrelación entre cada una de las variables x e D. B.0 y D. E. C.? . ? . ? . B D ;ecta de regersión B.E D. D. D. B.C D. 0.C D. 0 ? C B C.0 4. D
4 .
D. C?
4 .
'. C?
D.
C.C
E.
D.D
E.
D. CC
E.
C.
D.
D.D ?
.
D.4 4
.
E. 'B
.
C.D
D.
D.? C
?. E.E B
? .
D.
? .
D.D ?
D.
C. ?
C.' ?
B.
B. 4
B.
B. D
D.
0.' 0
?.
?.' B
?.
4.
?.
0.4 E
E .
'. 0
'.
. D?
' .
E. 4
' .
D. 0
D.
0.0 B
C.
?.D '
C.
C. 'B
C.
B.? '
D.
C.E
0.
0.B D
0.
?. C?
0.
0.C 4
D.
B.D E
B.
. C.0 ?.' .DB y + 4 U .0 x
8l ser presentadas en forma gr)fica, se verifica que los cuatro conjuntos de datos son diferentes, como se muestra a continuación 8rchivo 8nscombes Juartet .gif 8rchivo 8nscombes Juartet '.gif 8rchivo 8nscombes Juartet 4.gif 8rchivo 8nscombes Juartet ?.gif /dard $ufte usa el cuarteto en la primera p)gina del primer capítulo de su libro 5he 2isual +isplay of Buantitati'e 0nfor!ation , para enfatizar la importancia de !irar los datos antes de analizarlos.
&) Capita% Asset Pricin$ Mode% /l Capita% Asset Pricin$ Mode%, o CAPM !trad. lit.
odelo de Fijación de precios de acti'os de capital "
es un modelo frecuentemente utilizado en la economía financiera. /l modelo es utilizado para determinar la tasa de retorno teoréticamente requerida para un cierto activo, si éste es agregado a una %artera de inversiones adecuadamente diversificada. /l modelo toma en cuenta la
29
sensibilidad del activo al riesgo no*diversificable !conocido también como riesgo del mercado o riesgo sistémico", representado por el símbolo de beta !\", así como también el retorno esperado del mercado y el retorno esperado de un activo teoréticamente libre de riesgo. /l modelo fue introducido por _ac@ L. $reynor, Rilliam Sharpe, _ohn Litner y _an 5os sin independientemente, basado en trabajos anteriores de arry 5ar@oitz sobre la diversificación y la $eoría 5oderna de 3ortafolio. Sharpe recibió el 3remio Mobel de /conomía !en conjunto con 5ar@oitz y 5erton 5iller " por su contribución al campo de la economía financiera. Contenido :órmula ' 3recio de un activo 4 ;etorno requerido para un activo específico ? ;iesgo y diversificación 0 Suposiciones de %835 B >nconvenientes de %835 C ;eferencias
,'rm%a %835 es un modelo para calcular el precio de un activo o una cartera de inversiones. 3ara activos individuales, se hace uso de la recta security !arket line (9) !la cual simboliza el retorno esperado de todos los activos de un mercado como función del riesgo no diversificable" y su relación con el retorno esperado y el riesgo sistémico !beta", para mostrar cómo el mercado debe estimar el precio de un activo individual en relación a la clase a la que pertenece. La línea S5L permite calcular la proporción de recompensa*a*riesgo para cualquier activo en relación con el mercado general. La relación de equilibrio que describe el %835 es
(onde
: !r i" es la tasa de rendimiento esperada de capital sobre el activo i . \i! es el "eta !cantidad de riesgo con respecto al 3ortafolio de 5ercado", o también
,y es el e#ceso de rentabilidad del portafolio de mercado. !r !" ;endimiento del mercado. !r f " ;endimiento de un activo libre de riesgo. /s importante tener presente que se trata de un 9eta no apalancado, es decir que se supone que una empresa no tiene deuda en su estructura de capital, por lo tanto no se incorpora el riesgo financiero, y en caso de querer incorporarlo, debemos determinar un 9eta apalancadoQ por lo tanto el rendimiento esperado sera m)s alto.* locovs
Precio de n acti5o Ona vez que el retorno esperado, : ! i" , es calculado utilizando %835, los futuros flujos de caja que producir) ese activo pueden ser descontados a su valor actual neto utilizando esta tasa, para poder así determinar el precio adecuado del activo o título valor. /n teoría, un activo es apreciado correctamente cuando su precio observado es igual al valor calculado utilizando %835. Si el precio es mayor que la valuación obtenida, el activo est) sobrevaluado, y vice versa. Retorno re7erido para n acti5o especíico %835 calcula la tasa de retorno apropiada y requerida para descontar los flujos de efectivo futuros que producir) un activo, dada la apreciación de riesgo que tiene ese activo. 9etas mayores a
29
simbolizan que el activo tiene un riesgo mayor al promedio de todo el mercadoQ betas debajo de indican un riesgo menor. 3or lo tanto, un activo con un beta alto debe ser descontado a una mayor tasa, como medio para recompensar al inversionista por asumir el riesgo que el activo acarrea. /sto se basa en el principio que dice que los inversionistas, entre m)s riesgosa sea la inversión, requieren mayores retornos. 3uesto que el beta refleja la sensibilidad específica al riesgo no diversificable del mercado, el mercado, como un todo, tiene un beta de . 3uesto que es imposible calcular el retorno esperado de todo el mercado, usualmente se utilizan índices, tales como el S3 0 o el (o _ones. Ries$o 6 di5ersiicaci'n /l riesgo dentro de un portafolio incluye el riesgo sistémico, conocido también como riesgo no diversificable. /ste riesgo se refiere al riesgo al que est)n e#puestos todos los activos en un mercado. 3or el contrario, el riesgo diversificable es aquel intrínsico a cada activo individual. /l riesgo diversificable se puede disminuir agregando activos al portafolio que se mitiguen unos a otros, o sea diversificando el portafolio. Sin embargo, el riesgo sistémico no puede ser disminuido. 3or lo tanto, un inversionista racional no debería tomar ning-n riesgo que sea diversificable, pues solamente el riesgo no diversificable es recompensado en el alcance de este modelo. 3or lo tanto, la tasa de retorno requerida para un determinado activo, debe estar vinculada con la contribución que hace ese activo al riesgo general de un determinado portafolio. /s importante tomar en cuenta el riesgo país, el cual no se incluye en la formula de %835
Sposiciones de CAPM /l modelo asume varios aspectos sobre los inversionistas y los mercados . Los individuos son adversos al riesgo, y ma#imizan la utilidad de su riqueza en el pró#imo período. /s un modelo de dos períodos. '. Los individuos no pueden afectar los precios, y tienen e#pectativas homogéneas respecto a las varianzas*covarianzas y a los retornos esperados de los activos. 4. /l retorno de los activos, se distribuye de manera normal. /#plicando el retorno con la esperanza, y el riesgo con la desviación est)ndar. ?. /#iste un activo libre de riesgo, al cual los individuos pueden prestar yVo endeudarse en cantidades ilimitadas. /l mercado de activos es perfecto. La información es gratis y est) disponible en forma instant)nea para todos los individuos. 0. La oferta de activos est) fija. Incon5enientes de CAPM /l modelo no e#plica adecuadamente la variación en los retornos de los títulos valores. /studios empíricos muestran que activos con bajos betas pueden ofrecer retornos m)s altos de los que el modelo sugiere. /l modelo asume que, dada una cierta tasa de retorno esperado, los inversionistas prefieren el menor riesgo, y dado un cierto nivel de riesgo, preferir)n los mayores retornos asociados a ese riesgo. Mo contempla que hay algunos inversionistas que est)n dispuestos a aceptar menores retornos por mayores riesgos, es decir, inversionistas que pagan por asumir riesgo. /l modelo asume que todos los inversionistas tienen acceso a la misma información, y se ponen de acuerdo sobre el riesgo y el retorno esperado para todos los activos. /l portafolio del mercado consiste de todos los activos en todos los mercados, donde cada activo es ponderado por su capitalización de mercado. /sto asume que los inversionistas no tienen preferencias entre mercados y activos, y que escogen activos solamente en función de su perfil de riesgo*retorno.
)
Ta!%a de contin$encia
29
/n estadística las ta!%as de contin$encia se emplean para registrar y analizar la relación entre dos o m)s variables, habitualmente de naturaleza cualitativa !nominales u ordinales". Supóngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de !! individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos variables, del siguiente modo"
Diestro rdo TOTA4 Bom!re ?4 E 0' Mer ?? ? ?D TOTA4 DC 4 Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de recencias mar$ina%es y la cifra situada en la esquina inferior derecha es el $ran tota%. La tabla nos permite ver de un vistazo que la proporción de hombres diestros es apro#imadamente igual a la proporción de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la significación estadística de la diferencia entre ellas puede ser evaluada con la prueba &7 de 3earson, supuesto que las cifras de la tabla son una muestra aleatoria de una población. Si la proporción de individuos en cada columna varía entre las diversas filas y viceversa, se dice que e#iste asociación entre las dos variables. Si no e#iste asociación se dice que ambas variables son independientes . /l grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes el m)s simple es el coeficiente phi que se define por { + |!&' V N " (onde &' se deriva del test de 3earson, y N es el total de observaciones *el gran total*. } puede oscilar entre !que indica que no e#iste asociación entre las variables" e infinito. 8 diferencia de otras medidas de asociación, el coeficiente } de %ramer no est) acotado. Estdio de dierencia de proporciones ay situaciones en las que tenemos probabilidades de é#ito cercanas al cero o del uno en donde las proporciones pueden ser poco ilustrativas sobre el comportamiento dentro de los grupos. 3or ejemplo Si ~ + . ~' + . d+ ~ * ~' + .E Si ~ + .? ~' + .? d+ ~ * ~' + .E Namos a definir el ries$o re%ati5o como r1.& 3ara los ejemplos anteriores r+.V. + r+.?V.? + .' /n el primer caso el é#ito dentro de los grupos es veces mayor que en el otro. Si = e 1 independientes *T ~ + ~' con lo que su riesgo relativo es r+~V~' + 8hora bien, Fc'mo estimar r H rJ p1.p& /n el ejemplo de m)s arriba rZ + !?4V0'" V !??V?D" + .E' **T la proporción de é#ito !diestro" dentro de las mujeres es alrededor de un K mayor que dentro del grupo de los hombres.fgfryrc
*)
Pre!a de %os si$nos de >i%co3on
La pre!a de %os si$nos de >i%co3on es una prueba no paramétrica para comparar la mediana de dos muestras relacionadas y determinar si e#isten diferencias entre ellas. Se utiliza como alternativa a la prueba t de Student cuando no se puede suponer la normalidad de dichas muestras. (ebe su nombre a :ran@ Rilco#on, que la publicó en E?0. Se utiliza cuando la variable subyacente es continua pero presupone ning-n tipo de distribución particular.
29
Contenido 3lanteamiento ' Suposiciones 4 5étodo
P%anteamiento Supóngase que se dispone de n pares de observaciones, denominadas ! x i, y i" . /l objetivo del test es comprobar si puede dictaminarse que los valores x i e y i son o no iguales. Sposiciones . Si * i + y i x i, entonces los valores * i son independientes. '. Los valores * i tienen una misma distribución continua y simétrica respecto a una mediana com-n . Método La hipótesis nula es H + . ;etrotrayendo dicha hipótesis a los valores x i, y i originales, ésta vendría a decir que son en cierto sentido del mismo tama2o. 3ara verificar la hipótesis, en primer lugar, se ordenan los valores absolutos y se les U asigna su rango i. /ntonces, el estadístico de la prueba de los signos de Rilco#on, D , es
/s decir, la suma de los rangos i correspondientes a los valores positivos de * i . La distribución del estadístico D U puede consultarse en tablas para determinar si se acepta o no la hipótesis nula. /n ocasones, esta prueba se usa para comparar las diferencias entre dos muestras de datos tomados antes y después del tratamiento, cuyo valor central se espera que sea cero. Las diferencias iguales a cero son eliminadas y el valor absoluto de las desviaciones con respecto al valor central son ordenadas de menor a mayor. 8 los datos idénticos se les asigna el lugar medio en la serie. la suma de los rangos se hace por separado para los signos positivos y los negativos. representa la menor de esas dos sumas. %omparamos con el valor proporcionado por las tablas estadísticas al efecto para determinar si rechazamos o no la hipótesis nula, seg-n el nivel de significación elegido. La mayoría de estos test estadísticos est)n programados en los paquetes estadísticos m)s frecuentes, quedando para el investigador, simplemente, la tarea de decidir por cu)l de todos ellos guiarse o qué hacer en caso de que dos test nos den resultados opuestos. ay que decir que, para poder aplicar cada uno e#isten diversas hipótesis nulas que deben cumplir nuestros datos para que los resultados de aplicar el test sean fiables. /sto es, no se puede aplicar todos los test y quedarse con el que mejor convenga para la investigación sin verificar si se cumplen las hipótesis necesarias. La violación de las hipótesis necesarias para un test invalidan cualquier resultado posterior y son una de las causas m)s frecuentes de que un estudio sea estadísticamente incorrecto. /sto ocurre sobre todo cuando el investigador desconoce la naturaleza interna de los test y se limita a aplicarlos sistem)ticamente.
ESTADÍSTICA PARAMÉTRICA La estadística paramétrica es una rama de la estadística que comprende los procedimientos estadísticos y de decisión est)n basados en las distribuciones de los datos reales. /stas son determinadas usando un n-mero finito de par)metros. /sto es, por ejemplo, si conocemos que la altura de las personas sigue una distribución normal, pero desconocemos cu)l es la media y la desviación de dicha normal. La media y la desviación típica de la desviación normal son los dos par)metros que queremos estimar. %uando desconocemos totalmente que distribución siguen
29
nuestros datos entonces deberemos aplicar primero un test no paramétrico, que nos ayude a conocer primero la distribución. La mayoría de procedimientos paramétricos requiere conocer la forma de distribución para las mediciones resultantes de la población estudiada. 3ara la inferencia paramétrica es requerida como mínimo una escala de intervalo, esto quiere decir que nuestros datos deben tener un orden y una numeración del intervalo. /s decir nuestros datos pueden estar categorizados en menores de ' a2os, de ' a ? a2os, de ? a B, de B a D, etc, ya que hay n-meros con los cuales realizar c)lculos estadísticos. Sin embargo, datos categorizados en ni2os, jóvenes, adultos y ancianos no pueden ser interpretados mediante la estadística paramétrica ya que no se puede hallar un par)metro numérico !como por ejemplo la media de edad" cuando los datos no son numéricos. >s infor!ación so"re escalas4 :scala de !edida
/s la que requiere que los elementos que integran las muestras contengan elementos par)metros o medibles. 3uede resolver tres tipos de problemas /stimación puntual /n la que pretendemos darle un valor al par)metro a estimar. /stimación por intervalos !buscamos un intervalo de confianza". %ontraste de hipótesis, donde buscamos contrastar información acerca del par)metro.
1) Par@metro estadístico
La media aritmética como resumen de la vejez de un país /n estadística se llama valor representativo de la población par@metro estadístico, medida estadística o par@metro po!%aciona% a un valor representativo de una población, como la media aritmética, la proporción de individuos que presentan determinada característica, o la desviación típica. On par)metro es un n-mero que resume la ingente cantidad de datos que pueden derivarse del estudio de una variable estadística. /l c)lculo de este n-mero est) bien definido, usualmente mediante una fórmula aritmética obtenida a partir de datos de la población. Los par)metros estadísticos son una consecuencia inevitable del propósito esencial de la estadística modelizar la realidad. /l estudio de una gran cantidad de datos individuales de una población puede ser farragoso e inoperativo, por lo que se hace necesario realizar un resumen que permita tener una idea global de la
29
población, compararla con otras, comprobar su ajuste a un modelo ideal, realizar estimaciones sobre datos desconocidos de la misma y, en definitiva, tomar decisiones. 8 estas tareas contribuyen de modo esencial los par)metros estadísticos. 3or ejemplo, suele ofrecerse como resumen de la 6 juventud6 de una población la media aritmética de las edades de sus miembros, esto es, la suma de todas ellas, dividida por el total de individuos que componen tal población. Eno7e descripti5o
]r)ficas de distribuciones normales para distintos valores de sus dos par)metros On par)metro estadístico es, como se ha dicho, un n-mero que resume una cantidad de datos. /ste enfoque es el tradicional de la /stadística descriptiva. /n este sentido, su acepción se acerca a la de medida o valor que se compara con otros, tomando una unidad de una determinada magnitud como referencia. 3or su parte, la facción m)s formal de la /stadística, la /stadística matem)tica y también la >nferencia estadística utilizan el concepto de par)metro en su acepción matem)tica m)s pura, esto es, como variable que define una familia de objetos matem)ticos en determinados modelos. 8sí se habla, por ejemplo, de una distribución Mormal de par)metros E y como de una determinada familia de distribuciones con una distribución de probabilidad de e#presión conocida, en la que tales par)metros definen aspectos concretos como la esperanza, la varianza, la curtosis, etc. Itro ejemplo com-n en este sentido es el de la distribución de 3oisson, determinada por un par)metro, GQ o la (istribución binomial, determinada por dos par)metros, n y p. 3ara los ojos de la /stadística matem)tica el hecho de que estas distribuciones describan situaciones reales y los citados par)metros signifiquen un resumen de determinado conjunto de datos es indiferente. Contro5ersia %omo se ha dicho, los par)metros estadísticos, en el enfoque descriptivo que aquí se adopta, substituyen grandes cantidades de datos por unos pocos valores e#traídos de aquellos a través de operaciones simples. (urante este proceso se pierde parte de la información ofrecida originalmente por todos los datos. /s por esta pérdida de datos por lo que la estadística ha sido tildada en ocasiones de una falacia. 3or ejemplo, si en un grupo de tres personas una de ellas ingiere tres helados, el par)metro que con m)s frecuencia se utiliza para resumir datos estadísticos, la media
aritmética !del n-mero de helados ingeridos por el grupo", sería igual a ! ", valor que no parece resumir fielmente la información. Minguna de las personas se sentiría identificada con la frase resumen 6he ingerido un helado de media6. On ejemplo menos conocido, pero igual de ilustrativo acerca de la claridad de un par)metro es la distribución e#ponencial, que suele regir los tiempos medios entre determinados tipos de sucesos. 3or ejemplo, si la vida media de una bombilla es de D. horas, m)s del 0K de las veces no llegar)
29
a esa media. >gualmente, si un autob-s pasa cada minutos de media, hay una probabilidad mayor del 0K de que pase menos de minutos entre un autob-s y el siguiente. Itro ejemplo que suele ofrecerse con frecuencia para argumentar en contra de la estadística y sus par)metros es que, estadísticamente hablando, la temperatura media de una persona con los pies en un horno y la cabeza en una nevera es ideal. 9enjamín (israeli, un descreído de las estadísticas. Juiz)s por situaciones como estas, que en general muestran un profundo desconocimiento de lo que los par)metros representan en realidad y de su uso conjunto con otras medidas de centralización o dispersión, el primer ministro brit)nico 9enjamín (israeli sentenció primero y 5ar@ $ain popularizó m)s tarde la siguiente afirmación ay mentiras, grandes mentiras y estadísticas. 9enjamín (israeli ay otros personajes que también han advertido sobre la simplificación que supone la estadística, como el profesor 8aron Levenstein, quien afirmaba Las estadísticas son como los bi@inis, lo que muestran es sugerente, pero lo que esconden es vital. 8aron Levenstein 3or su parte, el escritor y comediante inglés 9ernard Sha sentenció La estadística es una ciencia que demuestra que si mi vecino tiene dos coches y yo ninguno, los dos tenemos uno. ]eorge 9ernard ShaQ o el personaje ficticio omer Simpson de la popular serie de televisión 9os i!pson en una entrevista acerca de las proporciones en uno de sus capítulos •Ih€, la gente sale con estadísticas para probar cualquier cosa, el ?K del mundo lo sabe. ]uionistas de la serie 9os i!pson Propiedades desea!%es en n par@metro Seg-n 1ule un par)metro estadístico es deseable que tenga las siguientes propiedades e define de !anera o"jeti'a , es decir, es posible calcularlo sin ambigedades, generalmente mediante una fórmula matem)tica. 3or ejemplo, la media aritmética se define como la suma de todos los datos, dividida por el n-mero de datos. Mo hay ambigedad si se realiza ese c)lculo, se obtiene la mediaQ si se realiza otro c)lculo, se obtiene otra cosa. Sin embargo, la definición de moda como el 6valor m)s frecuente6, puede dar lugar a confusión cuando la mayor frecuencia la presentan varios valores distintos. No desperdicia. a priori. nin,una de las o"ser'aciones . %on car)cter general, un par)metro ser) m)s representativo de una determinada población, cu)ntos m)s valores de la variable estén implicados en su c)lculo. 3or ejemplo, para medir la dispersión puede calcularse el recorrido, que sólo usa dos valores de la variable objeto de estudio, los e#tremosQ o la desviación típica, en cuyo c)lculo intervienen todos los datos del eventual estudio. :s interpreta"le , significa algo. La mediana, por ejemplo, deja por debajo de su valor a la mitad de los datos, est) justo en medio de todos ellos cuando est)n ordenados. /sta es una interpretación clara de su significado. :s sencillo de calcular y se presta con facilidad a !anipulaciones al,e"raicas . Se ver) m)s abajo que una medida de la dispersión es la desviación media. Sin embargo, al estar definida mediante un valor absoluto, función definida a trozos y no derivable, no es -til para gran parte de los c)lculos en los que estuviera implicada, aunque su interpretación sea muy clara. :s poco sensi"le a las fluctuaciones !uestrales . Si peque2as variaciones en una muestra de datos estadísticos influyen en gran medida en un determinado par)metro, es porque tal par)metro no representa con fiabilidad a la población. 8sí pues es deseable que el valor de un par)metro con esta propiedad se mantenga estable ante las peque2as oscilaciones que con frecuencia pueden presentar las distintas muestras estadísticas. /sta propiedad es m)s interesante en el caso de la estimación de par)metros. 3or otra parte, los par)metros que no
29
varían con los cambios de origen y escala o cuya variación est) controlada algebraicamente, son apropiados en determinadas circunstancias como la tipificación. Principa%es par@metros abitualmente se agrupan los par)metros en las siguientes categorías 5edidas de posición. Se trata de valores de la variable estadística que se caracterizan por la posición que ocupan dentro del rango de valores posibles de esta. /ntre ellos se distinguen Las medidas de tendencia central medias, moda y mediana. Las medidas de posición no central cuantiles !cuartiles, deciles y percentiles". 5edidas de dispersión. ;esumen la heterogeneidad de los datos, lo separados que estos est)n entre sí. ay dos tipos, b)sicamente 5edidas de dispersión absolutas, que vienen dadas en las mismas unidades en las que se mide la variable recorridos, desviaciones medias, varianza, desviación típica y meda. 5edidas de dispersión relativa, que informan de la dispersión en términos relativos, como un porcentaje. Se incluyen entre estas el coeficiente de variación, el coeficiente de apertura, los recorridos relativos y el índice de desviación respecto de la mediana. 5edidas de forma. Su valor informa sobre el aspecto que tiene la gr)fica de la distribución. /ntre ellas est)n los coeficientes de asimetría y los de curtosis. Itros par)metros. 8dem)s, y con propósitos m)s específicos, e#isten otros par)metros de uso en situaciones muy concretas, como son las proporciones, los n-meros índice, las tasas y el coeficiente de ]ini.
Medidas de posici'n Las medidas de posición son las m)s utilizadas para resumir los datos de una distribución estadística. Se trata de valores de la propia variable que, en cierto modo, sustituyen la información provista por los datos. Medidas de tendencia central o centralización Art6culo principal4 edidas de tendencia central
Son valores que suelen situarse hacia el centro de la distribución de datos. Los m)s destacados son las medias o promedios !incluyendo la media aritmética, la media geométrica y la media armónica", la mediana y la moda. Media aritmtica o promedio
La estatura media como resumen de una población homogénea !abajo" o heterogénea !arriba".
29
Art6culo principal4 edia arit!3tica
La media aritmética es, probablemente, uno de los par)metros estadísticos m)s e#tendidos. (ado un conjunto numérico de datos, x , x ', ..., x n, se define su media aritmética como /sta definición varía, aunque no sustancialmente, cuando se trata de variables continuas. Sus propiedades son Su c)lculo es muy sencillo y en él intervienen todos los datos. Se interpreta como 6punto de equilibrio6 o 6centro de masas6 del conjunto de datos, ya que tiene la propiedad de equilibrar las desviaciones de los datos respecto de su propio valor
5inimiza las desviaciones cuadr)ticas de los datos respecto de cualquier valor prefijado, esto
es, el valor de es mínimo cuando . /ste resultado se conoce como $eorema de Pnig. /sta propiedad permite interpretar uno de los par)metros de dispersión m)s importantes la varianza. Se ve afectada por transformaciones afines !cambios de origen y escala", esto es, si x iZ + ax i U " entonces , donde es la media aritmética de los x i Z, para i + , ..., n y a y " n-meros reales. /ste par)metro, a-n teniendo m-ltiples propiedades que aconsejan su uso en situaciones muy diversas, tiene también algunos inconvenientes, como son 3ara datos agrupados en intervalos !variables continuas" su valor oscila en función de la cantidad y amplitud de los intervalos que se consideren. /s una medida a cuyo significado afecta sobremanera la dispersión, de modo que cuanto menos homogéneos son los datos, menos información proporciona. (icho de otro modo, poblaciones muy distintas en su composición pueden tener la misma media.3or ejemplo, un equipo de baloncesto con cinco jugadores de igual estatura, ,E0, pongamos por caso, tendría una estatura media de ,E0, evidentemente, valor que representa fielmente a esta homogénea población. Sin embargo, un equipo de estaturas m)s heterogéneas, ',', ',0, ,E0, ,C0 y ,C, por ejemplo, tendría también, como puede comprobarse, una estatura media de ,E0, valor que no representa a casi ninguno de sus componentes. /s muy sensible a los valores e#tremos de la variable. 3or ejemplo, en el c)lculo del salario medio de un empresa, el salario de un alto directivo que gane .. de ‚ tiene tanto peso como el de mil empleados 6normales6 que ganen . ‚, siendo la media de apro#imadamente '. ‚.
2) Moda Art6culo principal4 oda (estad6stica)
La moda es el dato m)s repetido, el valor de la variable con mayor frecuencia absoluta. /n cierto sentido se corresponde su definición matem)tica con la locución 6 estar de moda6, esto es, ser lo que m)s se lleva. Su c)lculo es e#tremadamente sencillo, pues sólo necesita de un recuento. /n variables continuas, e#presadas en intervalos, e#iste el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación. Sus principales propiedades son %)lculo sencillo. >nterpretación muy clara.
29
8l depender sólo de las frecuencias, puede calcularse para variables cualitativas. /s por ello el par)metro m)s utilizado cuando al resumir una población no es posible realizar otros c)lculos, por ejemplo, cuando se enumeran en medios periodísticos las características m)s frecuentes de determinado sector social. /sto se conoce informalmente como 6retrato robot6. >nconvenientes. Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a variaciones muestrales. 3or otra parte, en variables agrupadas en intervalos, su valor depende e#cesivamente del n-mero de intervalos y de su amplitud. Osa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la moda, no afectan en modo alguno a su valor. Mo siempre se sit-a hacia el centro de la distribución. 3uede haber m)s de una moda en el caso en que dos o m)s valores de la variable presenten la misma frecuencia !distribuciones bimodales o multimodales".
3) Mediana Art6culo principal4 ediana (estad6stica)
La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que estos est)n ordenados de menor a mayor. 3or ejemplo, la mediana del n-mero de hijos de un conjunto de trece familias, cuyos respectivos hijos son 4, ?, ', 4, ', , , ', , , ', y , es ', puesto que, una vez ordenados los datos , , , , , , ', ', ', ', 4, 4, ?, el que ocupa la posición central es '
/n caso de un n-mero par de datos, la mediana no correspondería a ning-n valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. 3or ejemplo, en el caso de doce datos como los anteriores
Se toma como mediana
29
/n este ejemplo basado en una tabla real de percentiles usada en pediatría, puede comprobarse que una ni2a de '? meses con un peso de 4 @g estaría en el percentil C0ƒ, esto es, su peso es superior al C0K de las ni2as de su edad. La mediana correspondería, apro#imadamente, a ' @g !intersección de la línea curva m)s oscura con la línea horizontal correspondiente al valor ' en el eje vertical, para esa misma edad". /#isten métodos de c)lculo m)s r)pidos para datos m)s numerosos !véase el artículo principal dedicado a este par)metro". (el mismo modo, para valores agrupados en intervalos, se halla el 6intervalo mediano6 y, dentro de este, se obtiene un valor concreto por interpolación. 3ropiedades de la mediana como par)metro estadístico. /s menos sensible que la media a oscilaciones de los valores de la variable. On error de transcripción en la serie del ejemplo anterior en, pongamos por caso, el -ltimo n-mero, deja a la mediana inalterada. %omo se ha comentado, puede calcularse para datos agrupados en intervalos, incluso cuando alguno de ellos no est) acotado. Mo se ve afectada por la dispersión. (e hecho, es m)s representativa que la media aritmética cuando la población es bastante heterogénea. Suele darse esta circunstancia cuando se
29
resume la información sobre los salarios de un país o una empresa. ay unos pocos salarios muy altos que elevan la media aritmética haciendo que pierda representatividad respecto al grueso de la población. Sin embargo, alguien con el salario 6mediano6 sabría que hay tanta gente que gana m)s dinero que él, como que gana menos. Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor varía en función de la amplitud de estos. 3or otra parte, no se presta a c)lculos algebraicos tan bien como la media aritmética.
4) Medidas de posición no central Art6culo principal4 edidas de posición no central
(irectamente relacionados con la anterior, se encuentran las medidas de posici'n no centra% , también conocidas como cuantiles. Se trata de valores de la variable estadística que dejan por debajo de sí determinada cantidad de los datos. Son, en definitiva, una generalización del concepto de la mediana. 5ientras que ésta deja por debajo de sí al 0K de la distribución, los cuantiles pueden hacerlo con cualquier otro porcentaje. Se denominan medidas de posición porque informan, precisamente, de la posición que ocupa un valor dentro de la distribución de datos. $radicionalmente se distingue entre carti%es, si se divide la cantidad de datos en cuatro partes antes de proceder al c)lculo de los valores que ocupan cada posiciónQ deci%es, si se divide los datos en diez partesQ o percenti%es, que dividen la población en cien partes. /jemplos si se dice que una persona, tras un test de inteligencia, ocupa el percentil C0, ello supone que el C0K de la población tiene un cociente intelectual con un valor inferior al de esa persona. /ste criterio se usa por las asociaciones de superdotados, que limitan su conjunto de miembros a aquellas que alcanzan determinado percentil !igual o superior a ED en la mayoría de los casos". /l ejemplo que se muestra en la imagen de la derecha es el correspondiente al c)lculo inverso, esto es, cuando se desea conocer el percentil correspondiente a un valor de la variable, en lugar del valor que corresponde a un determinado percentil. Itras medidas de posición central son la media geométrica y la media armónica que, aunque tienen determinadas propiedades algebraicas que podrían hacerlas -tiles en determinadas circunstancias, su interpretación no es tan intuitiva como la de los par)metros anteriores.
5) Comentarios sobre las medidas de posición
/ste tipo de par)metros no tienen por qué coincidir con un valor e#acto de la variable y, por tanto, tampoco pueden usarse con car)cter general para hacer pronósticos. 3or ejemplo, si se dice que la media aritmética de los hijos de las familias de un país es de ,', no es posible encontrar familias con ese valor en concreto. On segundo ejemplo a ninguna f)brica de zapatos se le ocurriría fabricar los suyos con tallas -nicamente correspondientes al valor promedio, ni siquiera tienen por qué ser estas tallas las m)s fabricadas, pues en tal caso sería m)s apropiado atender a la moda de la distribución de tallas de los eventuales clientes. La elección de uno u otro par)metro depender) de cada caso particular, de los valores de la variable y de los propósitos del estudio. Su uso indiscriminado puede ser deliberadamente tendencioso o involuntariamente sesgado, convirtiéndose, de hecho, en un abuso. 3uede pensarse, por ejemplo, en la siguiente situación un empresario publica que el salario medio en su empresa es de .B ‚. 8 este dato, que en determinadas circunstancias podría considerarse muy bueno, podría llegarse si la empresa tuviese cuatro empleados con salarios de . ‚ mensuales y el salario del jefe, incluido en la media, fuese de ?. ‚ al mes
%on car)cter general y a modo de resumen podría decirse que la media aritmética es un par)metro representativo cuando la población sigue una distribución normal o es bastante homogéneaQ en otras situaciones de fuerte dispersión, habría que decantarse por la mediana. La moda es el -ltimo recurso !y el -nico" cuando de describir variables cualitativas se trata.
29
6) Medidas de dispersión Art6culo principal4 +ispersión (!ate!>tica)
(iagrama de caja que muestra la dispersión gr)ficamente, usando los cuartiles como referencia. /ntre J y J4 !rango intercuartílico" se encuentran el 0K de las observaciones. Las medidas de posición resumen la distribución de datos, pero resultan insuficientes y simplifican e#cesivamente la información. /stas medidas adquieren verdadero significado cuando van acompa2adas de otras que informen sobre la heterogeneidad de los datos. Los par@metros de dispersi'n miden eso precisamente, generalmente, calculando en qué medida los datos se agrupan entorno a un valor central. >ndican, de un modo bien definido, lo homogéneos que estos datos son. ay medidas de dispersi'n a!so%tas, entre las cuales se encuentran la varianza, la desviación típica o la desviación media, aunque también e#isten otras menos utilizadas como los recorridos o la medaQ y medidas de dispersi'n re%ati5as, como el coeficiente de variación, el coeficiente de apertura o los recorridos relativos. /n muchas ocasiones las medidas de dispersión se ofrecen acompa2ando a un par)metro de posición central para indicar en qué medida los datos se agrupan en torno de él.
7) Medidas de dispersión absolutas 8) Recorridos /l recorrido o ran$o de una variable estadística es la diferencia entre el mayor y el menor valor que toma la misma. /s la medida de dispersión m)s sencilla de calcular, aunque es algo burda porque sólo toma en consideración un par de observaciones. 9asta con que uno de estos dos datos varíe para que el par)metro también lo haga, aunque el resto de la distribución siga siendo, esencialmente, la misma. /#isten otros par)metros dentro de esta categoría, como los recorridos o rangos intercuantílicos, que tienen en cuenta m)s datos y, por tanto, permiten afinar en la dispersión. /ntre los m)s usados est) el ran$o intercartí%ico, que se define como la diferencia entre el cuartil tercero y el cuartil primero. /n ese rango est)n, por la propia definición de los cuartiles, el 0K de las observaciones. /ste tipo de medidas también se usa para determinar valores atípicos. /n el diagrama de caja que aparece a la derecha se marcan como valores atípicos todos aquellos que caen fuera del intervalo 9i , 9s + B * ,0„ s, B4 U ,0„ s, donde B y B4 son los cuartiles ƒ y 4ƒ, respectivamente, y s representa la mitad del recorrido o rango intercuartílico, también conocido como recorrido semiintercartí%ico.4
9) Desviaciones medias
29
Art6culo principal4 +es'iación !edia (ada una variable estadística X y un par)metro de tendencia central, c , se llama desviación de un valor de la variable, x i , respecto de c , al n-mero x i * c . /ste n-mero mide lo lejos que est) cada dato del valor central c , por lo que una media de esas medidas podría resumir el conjunto de desviaciones
de todos los datos. 8sí pues, se denomina des5iaci'n media de la variable X respecto de c a la media aritmética de las desviaciones de los valores de la variable respecto de c , esto es, si
entonces (e este modo se definen la des5iaci'n media respecto de %a media !c + " o la des5iaci'n media respecto de %a mediana !c + ", cuya interpretación es sencilla en virtud del significado de la media aritmética. Sin embargo, el uso de valores absolutos impide determinados c)lculos algebraicos que obligan a desechar estos par)metros, a pesar de su clara interpretación, en favor de los siguientes.
!)
"arian#a $ desviación t%pica
Art6culos principales4 2arian*a y des'iación t6pica
%onjunto de datos estadísticos de media aritmética 0 !línea azul" y desviación típica ' !líneas rojas". %omo se vio m)s arriba, la suma de todas las desviaciones respecto al par)metro m)s utilizado, la media aritmética, es cero. 3or tanto si se desea una medida de la dispersión sin los inconvenientes para el c)lculo que tienen las desviaciones medias, una solución es elevar al cuadrado tales desviaciones antes de calcular el promedio. 8sí, se define la 5ariana como
, o sea, la media de las desviaciones respecto de la media, al cuadrado. La des5iaci'n típica, W, se define como la raíz cuadrada de la varianza, esto es, 3ara variables agrupadas en intervalos, se usan las marcas de clase !un valor apropiado del interior de cada intervalo" en estos c)lculos.
29
3ropiedades 8mbos par)metros no se alteran con los cambios de origen. Si todos los valores de la variable se multiplican por una constante, ", la varianza queda multiplicada por "'.
/n el intervalo se encuentran, al menos, el de las observaciones ! '3ase (esigualdad de $chebyschev ". /sta -ltima propiedad muestra la potencia del uso conjunto de la media y la desviación típica como par)metros estadísticos, ya que para valores de k iguales a y ', respectivamente, se obtiene que /n el intervalo est)n, al menos, el C0K de los datos. /n el intervalo est)n, al menos, el DEK de los datos. Se cumple la siguiente relación entre los par)metros de dispersión
donde , y W son, respectivamente, la desviación media respecto de la mediana, la desviación media respecto de la media y la desviación típica ! '3ase (esviación media".
la media. /s una medida de dispersión que tiene, por su propia definición, las mismas propiedades que la mediana. 3or ejemplo, no se ve afectada por valores e#tremos o atípicos. 4? Mo se utiliza demasiado en estadística.
)Medidas de dispersión relativa Son par)metros que miden la dispersión en términos relativos, un porcentaje o una proporción, por ejemplo, de modo que permiten una sencilla comparación entre la dispersión de distintas distribuciones.
2)
Coe&iciente de variación de 'earson
Art6culo principal4 ?oeficiente de 'ariación
Se define como , donde W es la desviación típica y es la media aritmética. Se interpreta como el n-mero de veces que la media est) contenida en la desviación típica. Suele darse su valor en tanto por ciento, multiplicando el resultado anterior por . (e este modo se obtiene un porcentaje de la variabilidad. Su principal inconveniente es que en el caso de distribuciones cuya media se acerca a cero, su valor tiende a infinito e incluso resulta imposible de calcular cuando la media es cero. 3or ello no puede usarse para variables tipificadas.
3)
Coe&iciente de apertura
Se define como el cociente entre los valores e#tremos de la distribución de datos, esto es, dada una distribución de datos estadísticos x , x ', ..., x n, su coeficiente de apertura, ? 8 es
Se usa para comparar salarios de empresas.
4)
Recorridos relativos
29
(ado e, el recorrido de una distribución de datos estadísticos, el recorrido re%ati5o, es , donde es la media aritmética de la distribución. (ada una distribución de datos estadísticos con cuartiles B, B' y B4, el recorrido intercartí%ico re%ati5o, 0B se define como
3or otra parte, se define el recorrido semiintercartí%ico re%ati5o , 0 , como
5)
(ndice de desviación respecto a la mediana
Se define como , donde +e es la desviación media respecto de la mediana y e es la mediana de una distribución de datos estadísticos dada.
6)
Medidas de &orma
La campana de ]auss, curva que sirve de modelo para el estudio de la forma de una distribución. Las medidas de forma caracterizan la forma de la gr)fica de una distribución de datos estadísticos. La mayoría de estos par)metros tiene un valor que suele compararse con la campana de ]auss, esto es, la gr)fica de la distribución normal, una de las que con m)s frecuencia se ajusta a fenómenos reales.
7)
Medidas de asimetr%a
Art6culo principal4 Asi!etr6a estad6stica
Se dice que una distribución de datos estadísticos es simétrica cuando la línea vertical que pasa por su media, divide a su representación gr)fica en dos partes simétricas. /llo equivale a decir que los valores equidistantes de la media, a uno u otro lado, presentan la misma frecuencia. /n las distribuciones simétricas los par)metros media, mediana y moda coinciden, mientras que si una distribución presenta cierta asimetría, de un tipo o de otro, los par)metros se sit-an como muestra el siguiente gr)fico
29
/llo puede demostrarse f)cilmente si se tiene en cuenta la atracción que la media aritmética siente por los valores e#tremos, que ya se ha comentado m)s arriba y las definiciones de mediana !justo en el centro de la distribución, tomando el eje de abscisas como referencia" y moda !valor que presenta una ordenada m)s alta". 3or consiguiente, la posición relativa de los par)metros de centralización pueden servir como una primera medida de la simetría de una distribución. Itras medidas m)s precisas son el coeficiente de asimetría de :isher , el coeficiente de asimetría de 9oley y el coeficiente de asimetría de 3earson .
8)
Medidas de apuntamiento o curtosis
$res distribuciones con distintos grados de apuntamiento. Art6culo principal4 ?urtosis
%on estos par)metros se pretende medir cómo se reparten las frecuencias relativas de los datos entre el centro y los e#tremos, tomando como comparación la campana de ]auss. /l par)metro usado con m)s frecuencia para esta medida es el coeiciente de crtosis de ,is/er , definido como , 8unque hay otros como el coeiciente de crtosis de
29
La comparación con la distribución normal permite hablar de distribuciones p%aticrticas o m)s aplastadas que la normalQ distribuciones mesocrticas, con igual apuntamiento que la normalQ y distribuciones %eptocrticas, esto es, m)s apuntadas que la normal. 4C 3or -ltimo, e#isten otras medidas para decidir sobre la forma de una distribución con ajuste a modelos menos usuales como los que se muestran en las siguientes gr)ficas
9)
tros par*metros
Se presentan en este apartado otros par)metros que tienen aplicación en situaciones muy concretas, por lo que no se incluyen entre los grupos anteriores, aunque tienen cabida en este artículo por su frecuente uso en medios de comunicación y su facultad de resumir grandes cantidades de datos, como ocurre con las medidas tratadas hasta ahora.
2!)
'roporción
Art6culo principal4
La proporci'n de un dato estadístico es el n-mero de veces que se presenta ese dato respecto al total de datos. Se conoce también como recencia re%ati5a y es uno de los par)metros de c)lculo m)s sencillo. $iene la ventaja de que puede calcularse para variables cualitativas. 3or ejemplo, si se estudia el color de ojos de un grupo de ' personas, donde C de ellas los tienen azules, la proporción de individuos con ojos azules es del 40K !+ CV'". /l dato con mayor proporción se conoce como moda !'3ase, m)s arriba". /n inferencia estadística e#isten intervalos de confianza para la estimación de este par)metro.
2)
+,mero %ndice
Art6culo principal4 N!ero 6ndice
On nmero índice es una medida estadística que permite estudiar las fluctuaciones o variaciones de una magnitud o de m)s de una en relación al tiempo o al espacio. Los índices m)s habituales son los que realizan las comparaciones en el tiempo. 8lgunos ejemplos de uso cotidiano de este par)metro son el índice de precios o el >3%
22)
-asa
Art6culo principal4 5asa (6ndice)
29
%oeficiente de ]ini en el mundo !'C*'D" La tasa es un coeficiente que e#presa la relación entre la cantidad y la frecuencia de un fenómeno o un grupo de fenómenos. Se utiliza para indicar la presencia de una situación que no puede ser medida en forma directa. /sta razón se utiliza en )mbitos variados, como la demografía o la economía, donde se hace referencia a la tasa de interés. 8lgunos de los m)s usados son tasa de natalidad, tasa de mortalidad, tasa de crecimiento demogr)fico, tasa de fertilidad o tasa de desempleo.
23)
Coe&iciente de .ini
Art6culo principal4 ?oeficiente de %ini
/l índice o coeiciente de Lini es un par)metro de dispersión usado para medir desigualdades entre los datos de una variable o la mayor o menor concentración de los mismos. /ste coeficiente mide de qué forma est) distribuida la suma total de los valores de la variable. Se suele usar para describir salarios. Los casos e#tremos de concentración serían aquel en los que una sola persona acapara el total del dinero disponible para salarios y aquel en el que este total est) igualmente repartido entre todos los asalariados.
24)
Momentos
Art6culos principales4 o!ento est>ndar y o!ento centrado
Los momentos son una forma de generalizar toda la teoría relativa a los par)metros estadísticos y guardan relación con una buena parte de ellos. (ada una distribución de datos estadísticos x , x ', ..., x n, se define el momento centra% o momento centrado de orden k como
3ara variables continuas la definición cambia sumas discretas por integrales !suma continua", aunque la definición es, esencialmente, la misma. (e esta definición y las propiedades de los par)metros implicados que se han visto m)s arriba, se deduce inmediatamente que y que
29
Se llama momento no centrado de orden k a la siguiente e#presión
(e la definición se deduce que Osando el 9inomio de Meton puede obtenerse la siguiente relación entre los momentos centrados y no centrados
Los momentos de una distribución estadística la caracterizan unívocamente.
25)
'ar*metros bidimensionales
Art6culo principal4 :stad6stica "idi!ensional
/n estadística se estudian en ocasiones varias características de una población para compararlas, estudiar su dependencia o correlación o realizar cualquier otro estudio conjunto. /l caso m)s com-n de dos variables se conoce como estadística bidimensional. On ejemplo típico es el de un estudio que recoja la estatura !denotémosla por X " y el peso !sea Y " de los n individuos de una determinada población. /n tal caso, fruto de la recogida de datos, se obtendría una serie de parejas de datos ! x i , y i" , con i + , ..., n, cada una de las cuales estaría compuesta por la estatura y el peso del individuo i , respectivamente. /n los estudios bidimensionales, cada una de las dos variables que entran en juego, estudiadas individualmente, pueden resumirse mediante los par)metros que se han visto hasta ahora. 8sí, tendría sentido hablar de la media de las estaturas ! " o la desviación típica de los pesos !W Y ". >ncluso para un determinado valor de la primera variable, x k, cabe hacer estudios condicionados. 3or ejemplo, la mediana condicionada a la estatura x k sería la mediana de los pesos de todos los individuos que tienen esa estatura. Se denota eIx=x k. Sin embargo e#isten otros par)metros que resumen características de ambas distribuciones en su conjunto. Los m)s destacados son el centro de gravedad, la covarianza y el coeficiente de correlación lineal.
26)
Centro de /ravedad
(adas dos variables estadísticas X e Y , se define el centro de $ra5edad como la pareja ! , ", donde y son, respectivamente, las medias aritméticas de las variables X e Y . /l nombre de este par)metro proviene de que en una representación de las parejas del estudio en una nube de puntos, en la que cada punto tuviese un peso proporcional a su frecuencia absoluta, las coordenadas ! , " corresponderían, precisamente, al centro de gravedad como concepto físico.
27)
Covarian#a
Art6culo principal4 ?o'arian*a
La co5ariana o 5ariana connta de una distribución bidimensional se define como
29
La interpretación de este par)metro tiene que ver con la eventual correlación lineal de las dos variables. Ona covarianza positiva implica una correlación directa y una negativa, una correlación inversa. 3or otra parte, es un par)metro imprescindible para el c)lculo del coeficiente de correlación lineal o los coeficientes de regresión, como se ver) m)s abajo. /n su contra tiene que se ve e#cesivamente influenciada, al igual que ocurría con la media aritmética, por los valores e#tremos de las distribuciones y los cambios de escala.
28)
Coe&iciente de correlación lineal
Art6culo principal4 ?oeficiente de correlación
Nariación del coeficiente de correlación lineal en función de la nube de puntos asociada. Se trata de un coeficiente que permite determinar la bondad del ajuste de la nube de puntos por una recta. Se define como , donde W xy es la covarianza y W x y Wy , las desviaciones típicas respectivas de las distribuciones implicadas. /l coeficiente de correlación lineal toma valores entre * y . /n esa escala, mide la correlación del siguiente modo La correlación lineal es m)s fuerte cuanto m)s cerca esté de * o . La correlación lineal es m)s débil cuanto m)s pró#imo a cero sea r . /l diagrama de la derecha ilustra cómo puede variar r en función de la nube de puntos asociada Itros par)metros bidimensionales son, el coeficiente de correlación de Spearman , los coeficientes de correlación no paramétricos, el coeficiente de determinación o los coeficientes de regresión lineal . 8l igual que con distribuciones unidimensionales, e#iste una forma equivalente de desarrollar la teoría relativa a los par)metros estadísticos bidimensionales usando los momentos.
29)
0os par*metros en la in&erencia estad%stica
Art6culos principales4 :sti!ación estad6stica y :stad6stico !uestral
/n ocasiones los par)metros de una determinada población no pueden conocerse con certeza. ]eneralmente esto ocurre porque es imposible el estudio de la población completa por cuestiones como que el proceso sea destructivo !p. e., vida media de una bombilla" o muy caro !p.e., audiencias de televisión". /n tales situaciones se recurre a las técnicas de la inferencia estadística para realizar estimaciones de tales par)metros a partir de los valores obtenidos de una muestra de la población.