Bioestadística
Guía para el Alumno Stata 8.0
Bioestadística
SEMANA I - ASPECTOS GENERALES acumula comandos anteriores, los cuales pueden ser reenviados a la ventana de Stata command clickeando command clickeando sobre ellos
Review
presenta las variables de base de datos en uso.
Stata Result ,
muestra los corridas de aplicar comandos en Stata
Variables,
Stata se maneja con comandos, los cuales se tipean en la ventana Stata command
I. Intro Introdu ducc cció ión n y manejo manejo bás básic icoo de Stata Stata A. Elementos Elementos básicos básicos (obtener ayuda, salir) Stata 8 presenta formato de menús menús como de ventanas, estas cuatro ventanas llamadas llamadas Review, Variables, Stata Results y Stata command . Si maneja Stata 8 con comandos, estos se tipean en la ventana Stata command , y los resultados aparecen en la ventana Stata Results. Results. La ventana Review ventana Review registra comandos utilizados previamente, los cuales pueden ser reenviados a la ventana de Stata command clickeando command clickeando sobre ellos. Para obtener ayuda, clickee en el menú
Bioestadística
la opcion Help y siga las instrucciones instrucciones en pantalla. Para terminar la sesión, cierre el programa clickeando clickeando en el botón superior derecho (como cualquier otro programa Windows).
El programa Stata 8 nos presenta una variedad de iconos, que pueden agilizar el manejo y análisis de una base de datos. Para abrir un archivo, use. Para guardar archivo que se encuentra en memoria, save Para poder imprimir un archivo, print Para crear un archivo que guarde bitácoras del Stata Results, Results, log Para crear un archivo que guarde programas de ventana Review ventana Review,, do Para abrir ventana de edición de base de datos, edit Para visualizar base de datos en uso, browse
COMANDO
help log use edit codebook describe save list ... if ... drop keep label variable label define label values
DESCRIPCION Ayuda de programa stata, para comandos. Uso de archivos de bitácora Abrir una base de datos en stata (extensión .dta) Ingreso de datos por medio de ventana de Stata Editor Muestra variables con estadísticos descriptivos Describe contenido de datos en memoria o sobre el disco Copiar y pegar datos de MS Excel Guarda los datos en disco con extensión *.dta Lista de valores de variable Selecciona observaciones cumpliendo cierta condicion para la ejecucion del comando Borrar variable o dato en memoria Borra variables o datos no seleccionados Comando de etiqueta de variables Primer paso para etiquetar valores de una variable Segundo paso para etiquetar valores de una variable
Demostración y explicación de los comandos de Stata En Stata la sintaxis de los comandos es la siguiente:
Bioestadística
comando lista de variables [if expression] [in expression], [opciones] help. Para obtener ayuda de parte del programa stata 8 Para opciones generales del comando . help
Para ayuda sobre contenido general del uso en stata . help contents
Para ayuda sobre el comando list
. help list log. El siguiente comando nos permite guardar las bitácoras realizadas en el analisis de datos, en un archivo con la extensión mas adecuada para el usuario.
. log using "C:\DATA\clase1.txt", text --------------------------------------------------------------------------------------log: C:\DATA\clase1.txt log type: text opened on: 2 Jun 2003, 13:22:48 use
Para el uso de la base de datos cancer.dat, escribiremos el comando use, usando ademas la opciòn clear, que nos permite cargar la base de datos en memoria aun teniando en uso otra base de datos y guardando los cambio cargados en memoria realizados en esta ultima
use "C:\Stata\cancer.dta", clear (Patient Survival in Drug Trial)
edit
Para ingresar los datos por medio de una ventana tipo hoja de calculo utilizamos el comando edit, el cual apertura una ventana de ingreso de datos
edit Al terminar de ingresar datos haga click en el icono preserve para no perder el ingreso de datos realizado
Bioestadística
codebook Este comando muestra una lista de las variables señalando el tipo de variable, su rango, frecuencias en caso de una variable cualitativa (codificada) ó media, desviación estandar y percentiles en caso fuera una variable continua.
Use “C:\Stata8\auto.dta”, clear codebook use "C:\Stata8\auto.dta", clear
mpg Mileage (mpg) --------------------------------------------------------------------------------------type: numeric (int) range: [12,41] units: 1 unique values: 21 missing .: 0/74 mean: 21.2973 std. dev: 5.7855 percentiles: 10% 25% 50% 75% 90% 14 18 20 25 29 rep78 Repair Record 1978 --------------------------------------------------------------------------------------type: numeric (int) range: [1,5] units: 1 unique values: 5 missing .: 5/74 tabulation: Freq. Value 2 1 8 2 30 3 18 4 11 5
describe Este comando muestra una lista de las variables de la base de datos en uso. . describe Contains data from miarchi.dta obs: 3 vars: 3
5 Nov 2002 12:35
Bioestadística
size: 102 (99.9% of memory free) ------------------------------------------------------------------------------storage display value variable name type format label variable label ------------------------------------------------------------------------------name str20 %20s age float %9.0g sex str6 %9s ------------------------------------------------------------------------------Sorted by:
Copiar de una hoja excel datos a Stata 8 El programa Stata 8 tiene la facilidad de copiar los datos de una hoja de excell con simples opciones de copiar y pegar que se utilizan en windows, antes teniendo la ventana de edit activada en Stata 8. 1. Edit, stata8
2. Cambio de ventana a excell 3. Seleccionar datos a ser copiados y hacer clic en icono de copiar, ctrl. + C 4. cambiar de ventana edit de Stata 8 5. Hacer clic en icono de pegar, ctrl + V
save Para guardar datos que se han ingresado
save miarchi
Bioestadística
Si no se muestra el directorio donde estara el archivo, por defecto se guarda el archivo en el directorio C:\Data. Si el archivo ya habia sido creado anteriormente y se han ingresado datos nuevamente se utiliza la opcion replace save miarchi, replace
list. Presenta los valores de las variables. Si no presenta variables con el comando list, se presentaran los valores de todas las variables use "C:\Stata\auto.dta", clear list drug age
1. 2. 3. 4. 5. 6. 7.
drug 1 1 1 1 ... ... ...
age 39 66 70 44 ... ... ...
if al final de un orden significa usar sólo los datos especificados. if es permitido con la mayoría de los comandos de Stata. list drug age if age > 45 drug 2. 1 3. 1 9. 1 11. 1 14. 1
age 66 70 48 63 64
drop. Borra variables ò valores seleccionados. drop variable De inmediato desaparece de ventana de variables en memoria
keep. Borra variables o valores no seleccionados. keep variable label, sirve para etiquetar datos, variables y valores.
Bioestadística
label variable age "edad del paciente" describe age storage display value variable name type format label variable label ------------------------------------------------------------------------------age int %8.0g edad del paciente
label define. Es utilizado como un primer paso para el etiquetar valores de variables seleccionada label define drogas 1 “Megacilina” 2 “Tetracicilna” 3 “Oxacilina” 4 “Penicilina”
label values. Es utilizado como segundo paso para el etiquetar valores de variables seleccionada label values drug drogas
Bioestadística
Exploración y presentación de datos. generate replace merge collapse summarize tabulate table graph scatter boxplots bar lines stacked bar mean
Genera variable Reemplaza valores de variable bajo alguna condición Ingresa variables o casos de una base patrón a otra Calculo de estadísticos descriptivos para variables cuantitativas Análisis para variable cuantitativa, media, mediana, etc Tabla de frecuencias para variables cualitativas Tabla de frecuencias simples para variables cualitativas Crea un grafico de cualquier variable Genera grafico de dispersión entre 2 variables Grafico de cajas Grafico de barras Grafico de lineas Grafico de barras apiladas Grabar y editar review. Uso del editor de programas (archivo .do)
Variables:
Variables Cuantitativas o Variable Discretas o Variable continuas
Variables Cualitativas o Variable nominal o Variable ordinal
Demostraciòn y explicaciòn Definición de tipos de datos, presentación de datos en tablas de contingencia y resumen, presentaciones gráficas diversas. Estadística descriptiva simple: medidas de tendencia central y dispersión. Uso de archivos de bitácora (log), 1. Para el analisis de las variables numericas tenemos el comando estadisticos de tendencia central, asi como de distribucion.
summarize, el cual calcula
Entonces trabajando con el archivo de c:\stata\cancer.dta, tenemos
generate. Genera una variable que va a ser recodificada, por ejemplo si tenemos en uso el archivo cancer (c:\stata\cancer.dta) y queremos recodificar la variable age en una nueva variable age1 que contenga los intervalos de edad 45-50 51-55 56-60 61a+. Entonces seguimos los
pasos correspondientes para el ejemplo
Bioestadística
Para abrir el archivo cancer use “c:\stata\cancer.dta”, clear Generando la variable age1 con valores iguales a age
generate age1 = age Para reemplazar valores en la nueva variable age1, utilizamos el comando operadores logicos y de relacion
replace, if y
replace age1 = 0 if age <=50 replace age1 = 1 if age > 50 & age <= 55 replace age1 = 2 if age > 55 & age <= 60 replace age1 = 3 if age > 60 . replace age1 = 0 if age <=50 (12 real changes made) . replace age1 = 1 if age > 50 & age <= 55 (11 real changes made) . replace age1 = 2 if age > 55 & age <= 60 (14 real changes made) . replace age1 = 3 if age > 60 (11 real changes made) summarize. El presente comando es una opción para obtener estadísticos
descriptivos para variables cuantitativas.
. summarize age Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------age | 48 55.875 5.659205 47 67 . summarize studytime age Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------studytime | 48 15.5 10.25629 1 39 age | 48 55.875 5.659205 47 67 . summarize age, detail Patient's age at start of exp. ------------------------------------------------------------Percentiles Smallest 1% 47 47 5% 48 48
Bioestadística
10% 25%
49 50.5
50%
56
75% 90% 95% 99%
60 65 67 67
48 49
Largest 65 67 67 67
Obs Sum of Wgt.
48 48
Mean Std. Dev.
55.875 5.659205
Variance Skewness Kurtosis
32.0266 .3161066 2.125197
Para generar estadísticos para una determinada variable cuantitativa, necesitamos colocar los estadisticos sobre un parentecis
merge. El comando nos ayuda a unir información entre bases de datos relacionadas. Ejemplo: uno a uno merge . use ds1 . merge using ds2
collapse. Reporta estadísticas sobre tendencia central. El siguiente ejercicio muestra como se podría solicitar las estadísticas descriptivas.
collapse (mean) age (median) systolic, by (drug) tabulate. Para trabajar variables cualitativas como factores, sexo, grupos de edad, etc . tabulate
drug
Drug type | (1=placebo) | Freq. Percent Cum. ------------+----------------------------------1 | 20 41.67 41.67 2 | 14 29.17 70.83 3 | 14 29.17 100.00 ------------+----------------------------------Total | 48 100.00
Freq, representa al numero pacientes por tipo de droga que se recetó, percent, el porcentaje de pacientes que fue tratado por algún tipo de droga. Cum., el porcentaje acumulado. tabulate
died, summarize( age)
1 if | patient |
Summary of Patient's age at start of exp.
Bioestadística
died | Mean Std. Dev. Freq. ------------+-----------------------------------0 | 54.176471 5.4340971 17 1 | 56.806452 5.6475325 31 ------------+-----------------------------------Total | 55.875 5.6592045 48
Table. Este comando calcula frecuencias simple, además puede calcular otros estadístico señalados por el usuario, utilizando la opción contents
. table
drug, contents (mean age)
---------------------Drug Used | mean(age) ----------+----------1 | 46.6 2 | 45.6667 3 | 46.6667 4 | 42.1875 ----------------------
Para poder realizar gráficos tenemos el comando graph, y sus diferentes variedades según el tipo de gráfico que se quiere realizar. Histograma Ejemplo:
histogram age .3125
n o i t c a r F
0 47
67 Patient's age at start of exp.
Automáticamente el programa Stata8 divide el grafico en 5 barras, depende del usuario el numero de intervalos que se desean obtener, esto utilizando la opción bi {graph age, bi(7) }. Grafico de dispersión
scatter studytime age
Bioestadística
39
. p x e f o d n e r o h t a e d o t s h t n o M
1 47
67 Patient's age at start of exp.
Grafico de cajas
graph box age, over(drug) Patient's age at start of exp. 67
47 1
2
3
Bioestadística
Grafico de Linea
line birthrt year 45.1002
n e m o w 0 0 0 1 r e p s h t r i b e v i l
6.60003 1940194319461949195219551958196 119641967197 01973197 61979198 2198 51988199 1 year
do. Archivo donde se archivan los programas ejecutados en sesión de Stata, para ello debemos hacer clic en la parte superior derecha de la ventana de Review y hacer clic en la opción Save Review Contents.
Bioestadística
SEMANA II – DESCRIPCIÓN DE DATOS Bases de Datos Inteligencia.dta
Base de datos referida a investigación sobre la relación entre la desnutrición crónica (talla para la edad) y rendimiento intelectual del menor Para observar que tipo de variables se trabajan en esta base de datos utilizaremos el comando coodebok use "C:\inteligencia.dta", clear . codebook sex Sex 0=F 1=M -----------------------------------------------------------------------------type: numeric (byte) range: [0,1] units: 1 unique values: 2 missing .: 0/143 -----------------------------------------------------------------------------tester Psych Tester -----------------------------------------------------------------------------range: [1,6] units: 1 unique values: 6 missing .: 0/143 -----------------------------------------------------------------------------wtotal WISC Total -----------------------------------------------------------------------------range: [55,128] units: 1 unique values: 49 missing .: 0/143 -----------------------------------------------------------------------------grade_n GRADE LEVEL NUMERIC -----------------------------------------------------------------------------range: [2,5] units: 1 unique values: 4 missing .: 3/143 -----------------------------------------------------------------------------haz1999 Height-for-age Z-score 1999 -----------------------------------------------------------------------------range: [-3.48,1.17] units: .01 unique values: 114 missing .: 0/143 -----------------------------------------------------------------------------edutype SCHOOL TYPE 1=PUBLIC 2=PRIVATE 3=ATTENDED BOTH -----------------------------------------------------------------------------range: [1,3] units: 1 unique values: 3 missing .: 2/143 -----------------------------------------------------------------------------eduback EVER BEEN HELD BACK IN SCHOOL 1=YES 2=NO -----------------------------------------------------------------------------range: [1,2] units: 1 unique values: 2 missing .: 2/143
Bioestadística
-----------------------------------------------------------------------------momedu MATERNAL EDUCATION 1=NONE 2=PI 3=PC 4=SI 5=SC 6=SUPERIOR 7=TECHNICAL -----------------------------------------------------------------------------range: [1,7] units: 1 unique values: 7 missing .: 2/143 -----------------------------------------------------------------------------dadedu PATERNAL EDUCATION 0=UNKNOWN 2=PI 3=PC 4=SI 5=SC 6=SUPERIOR 7=TECHNICAL -----------------------------------------------------------------------------range: [0,7] units: 1 unique values: 7 missing .: 2/143
Malaria.dta Base de datos con el objetivo de determinar cuales con los factores de riesgo que condicionan la no adherencia a tratamiento antimalarico
. use "C:\Marco C\stata_group\curso de stata\bses\malaria.dta", clear . codebook -----------------------------------------------------------------------------edad Edad del paciente -----------------------------------------------------------------------------range: [9,80] units: 1 unique values: 49 missing .: 0/125 -----------------------------------------------------------------------------personal Personal de salud que atendio al paciente -----------------------------------------------------------------------------range: [1,5] units: 1 unique values: 4 missing .: 1/125 tabulation: Freq. Numeric Label 1 1 practicante 62 3 técnico de enfermeria 43 4 enfermera 18 5 médico 1 . -----------------------------------------------------------------------------malapf Ha tenido anteriormente malaria por Plasmodium falciparum? -----------------------------------------------------------------------------range: [1,3] units: 1 unique values: 3 missing .: 0/125 tabulation: Freq. Numeric Label 46 1 Si 65 2 No 14 3 no tuvo malaria -----------------------------------------------------------------------------dos_qkg Dosis de quinina segun kg -----------------------------------------------------------------------------range: [0,2] units: 1 unique values: 3 missing .: 1/125 tabulation: Freq. Numeric Label 3 0 Subdosis 106 1 Correcto 15 2 Sobredosis 1 .
Bioestadística
-----------------------------------------------------------------------------dos_tkg Dosis de Tetraciclina segun kg -----------------------------------------------------------------------------range: [0,2] units: 1 unique values: 3 missing .: 1/125 tabulation: Freq. Numeric Label 4 0 Subdosis 115 1 Correcto 5 2 Sobredosis 1 . -----------------------------------------------------------------------------cumfinal Cumplimiento de toma de pastillas en todo el periodo de tratamiento -----------------------------------------------------------------------------range: [1,2] units: 1 unique values: 2 missing .: 0/125 tabulation: Freq. Numeric Label 90 1 Cumplio 35 2 No cumplio -----------------------------------------------------------------------------eess (unlabeled) -----------------------------------------------------------------------------range: [1,4] units: 1 unique values: 4 missing .: 0/125
Neumonía.dta . use "C:\Neumonia.dta", clear . codebook -----------------------------------------------------------------------------tipo caso -----------------------------------------------------------------------------range: [0,1] units: 1 unique values: 2 missing .: 0/193 tabulation: Freq. Numeric Label 128 0 control 65 1 caso -----------------------------------------------------------------------------edad2 edad -----------------------------------------------------------------------------range: [0,2] units: 1 unique values: 3 missing .: 0/193 tabulation: Freq. Numeric Label 73 0 mayor 1 año 94 1 2 a 11 meses 26 2 menor 2 meses -----------------------------------------------------------------------------desnutri desnutrici -----------------------------------------------------------------------------range: [0,1] units: 1 unique values: 2 missing .: 2/193
Bioestadística
tabulation:
Freq. Numeric Label 177 0 no 14 1 si 2 . -----------------------------------------------------------------------------antibio1 recibio tto antibiótico -----------------------------------------------------------------------------range: [0,1] units: 1 unique values: 2 missing .: 0/193 tabulation: Freq. Numeric Label 139 0 si 54 1 no -----------------------------------------------------------------------------hospital (unlabeled) -----------------------------------------------------------------------------range: [0,1] units: 1 unique values: 2 missing .: 0/193 tabulation: Freq. Numeric Label 91 0 si 102 1 no -----------------------------------------------------------------------------estable1 fue llevado a establecimiento salud -----------------------------------------------------------------------------range: [0,1] units: 1 unique values: 2 missing .: 0/193 tabulation: Freq. Numeric Label 146 0 si 47 1 no -----------------------------------------------------------------------------completo (unlabeled) -----------------------------------------------------------------------------range: [0,1] units: 1 unique values: 2 missing .: 11/193 tabulation: Freq. Numeric Label 124 0 si 58 1 no 11 . -----------------------------------------------------------------------------fajaba (unlabeled) -----------------------------------------------------------------------------range: [0,1] units: 1 unique values: 2 missing .: 1/193 tabulation: Freq. Numeric Label 40 0 no 152 1 si 1 . -----------------------------------------------------------------------------pesonuev (unlabeled) -----------------------------------------------------------------------------range: [0,1] units: 1 unique values: 2 missing .: 0/193 tabulation: Freq. Numeric Label 173 0 no bajo peso al nacer 20 1 bajo peso al nacer
Bioestadística
Tabaco.dta . use "C:\tabaco.dta", clear . codebook -----------------------------------------------------------------------------id_reg regiónes -----------------------------------------------------------------------------range: [1,4] units: 1 unique values: 4 missing .: 0/2458 tabulation: Freq. Numeric Label 584 1 lima metropolitana 693 2 resto costa 624 3 sierra 557 4 selva -----------------------------------------------------------------------------inf_sexo inf_sexo -----------------------------------------------------------------------------range: [1,2] units: 1 unique values: 2 missing .: 0/2458 tabulation: Freq. Value 1061 1 1397 2 -----------------------------------------------------------------------------inf_edad inf_edad -----------------------------------------------------------------------------range: [12,64] units: 1 unique values: 53 missing .: 0/2458 -----------------------------------------------------------------------------p35 ¿cuál es el nivel de educación alcanzado por ud.? -----------------------------------------------------------------------------range: [1,10] units: 1
unique values: examples:
10 missing .: 0/2458 5 secundaria incompleta 5 secundaria incompleta 6 secundaria completa 8 superior no universitario completa -----------------------------------------------------------------------------p47_a ¿siente ud. qué puede contar con su familia cuando tiene dificultades o preocupa -----------------------------------------------------------------------------range: [1,88] units: 1 unique values: 5 missing .: 0/2458 tabulation: Freq. Numeric Label 177 1 no 487 2 a veces 440 3 casi siempre 1348 4 siempre 6 88 no sabe
Bioestadística
-----------------------------------------------------------------------------p47_b ¿se reúne con su familia para conversar sobre logros personales y familiares? -----------------------------------------------------------------------------range: [1,88] units: 1 unique values: 5 missing .: 0/2458 tabulation: Freq. Numeric Label 251 1 no 652 2 a veces 488 3 casi siempre 1058 4 siempre 9 88 no sabe -----------------------------------------------------------------------------p47_c ¿se reúne con su familia para conversar sobre dificultades personales y familiar -----------------------------------------------------------------------------range: [1,88] units: 1 unique values: 5 missing .: 0/2458 tabulation: Freq. Numeric Label 295 1 no 697 2 a veces 488 3 casi siempre 966 4 siempre 12 88 no sabe -----------------------------------------------------------------------------p47_d ¿su familia discute violentamente, es decir, con agresiones verbales? -----------------------------------------------------------------------------range: [1,88] units: 1 unique values: 5 missing .: 0/2458 tabulation: Freq. Numeric Label 1581 1 no 725 2 a veces 69 3 casi siempre 77 4 siempre 6 88 no sabe -----------------------------------------------------------------------------p47_e ¿las decisiones importantes se toman en conjunto aquí en casa? -----------------------------------------------------------------------------range: [1,88] units: 1 unique values: 5 missing .: 0/2458 tabulation: Freq. Numeric Label 288 1 no 406 2 a veces 550 3 casi siempre 1201 4 siempre 13 88 no sabe -----------------------------------------------------------------------------p47_f ¿al momento de tomar decisiones importantes, su familia toma en cuenta sus opini -----------------------------------------------------------------------------range: [1,88] units: 1 unique values: 5 missing .: 0/2458 tabulation: Freq. Numeric Label 225 1 no 487 2 a veces
Bioestadística
477 3 casi siempre 1263 4 siempre 6 88 no sabe -----------------------------------------------------------------------------p47_g ¿su familia muestra interés por sus sentimientos y afectos? -----------------------------------------------------------------------------range: [1,88] units: 1 unique values: 5 missing .: 0/2458 tabulation: Freq. Numeric Label 179 1 no 297 2 a veces 421 3 casi siempre 1541 4 siempre 20 88 no sabe -----------------------------------------------------------------------------p47_h ¿siente que su familia lo/la quiere? -----------------------------------------------------------------------------range: [1,88] units: 1 unique values: 5 missing .: 0/2458 tabulation: Freq. Numeric Label 119 1 no 131 2 a veces 242 3 casi siempre 1950 4 siempre 16 88 no sabe -----------------------------------------------------------------------------p47_i ¿se reúnen en familia para compartir momentos juntos por lo menos una vez por se -----------------------------------------------------------------------------range: [1,88] units: 1 unique values: 5 missing .: 0/2458 tabulation: Freq. Numeric Label 240 1 no 610 2 a veces 485 3 casi siempre 1114 4 siempre 9 88 no sabe -----------------------------------------------------------------------------p58 ¿cuándo fue la primera vez que ud. Fumó cigarrillos? -----------------------------------------------------------------------------range: [1,4] units: 1 unique values: 4 missing .: 0/2458 tabulation: Freq. Numeric Label 19 1 durante los últimos 30 días 61 2 hace más de un mes pero menos de un año 1576 3 hace más de un año 802 4 nunca ha fumado -----------------------------------------------------------------------------p59 ¿qué edad tenía ud. cuando fumó cigarrillos por primera vez? -----------------------------------------------------------------------------range: [6,88] units: 1 unique values: 43 missing .: 802/2458 examples: 16 18 25 .
Bioestadística
-----------------------------------------------------------------------------p85 en su grupo de amigos más cercanos, ¿con qué frecuencia toman bebidas alcohólica -----------------------------------------------------------------------------range: [1,9] units: 1 unique values: 9 missing .: 1/2458 tabulation: Freq. Numeric Label 18 1 todos los días 501 2 los fines de semana 112 3 algunos días de la semana 79 4 los fines de semana 198 5 algunas veces al mes 1124 6 solo en ocaciones especiales 4 7 otro 392 8 no toman bebidas alcohólicas 29 9 no tiene amigos 1 . -----------------------------------------------------------------------------p86 de acuerdo a lo que ud. conoce en su barrio, ¿cómo es el consumo de bebidas alco -----------------------------------------------------------------------------range: [1,88] units: 1 unique values: 5 missing .: 0/2458 tabulation: Freq. Numeric Label 642 1 intenso 1135 2 moderado 548 3 leve 35 4 no consumen 98 88 no sabe -----------------------------------------------------------------------------p87 ¿cuándo fue la primera vez que ud. Tomó bebidas alcohólicas? -----------------------------------------------------------------------------range: [1,4] units: 1 unique values: 4 missing .: 0/2458 tabulation: Freq. Numeric Label 27 1 durante los últimos 30 días 78 2 hace más de un mes pero menos de un año 2207 3 hace más de un año 146 4 nunca ha consumido bebidas alcohólicas -----------------------------------------------------------------------------p88 la primera vez que ud. tomó bebidas alcohólicas ¿qué tipo de bebida tomó? -----------------------------------------------------------------------------range: [1,88] units: 1 unique values: 11 missing .: 146/2458 examples: 1 cerveza malta 1 cerveza malta 4 vino / sangría 7 otro
Bioestadística
-----------------------------------------------------------------------------p89 ¿qué edad tenía ud., cuando tomó por primera vez (bebida alcohólica circulada e -----------------------------------------------------------------------------range: [1,88] units: 1 unique values: 47 missing .: 146/2458 examples: 14 16 18 21 -----------------------------------------------------------------------------p90 ¿con quién estaba ud. la primera vez que tomó (bebida alcoholica circulada en -----------------------------------------------------------------------------range: [1,88] units: 1 unique values: 12 missing .: 146/2458 examples: 3 con compañeros de trabajo 4 con otro grupo de amigos 7 con sus padres y hermanos 8 con otros familiares -----------------------------------------------------------------------------p91 ¿qué lo motivo a tomar (bebida alcoholica circulada en p-88)... por prime -----------------------------------------------------------------------------range: [1,88] units: 1 unique values: 15 missing .: 146/2458 examples: 3 para pasarla bien / estar en onda 5 curiosidad 5 curiosidad 11 por querer esperimentar nuevas sensaciones -----------------------------------------------------------------------------p92 y, ¿cuándo fue la última vez que tomó alguna bebida alcohólica? -----------------------------------------------------------------------------range: [1,3] units: 1 unique values: 3 missing .: 146/2458 tabulation: Freq. Numeric Label 953 1 durante los últimos 30 días 852 2 hace más de un mes pero menos de un año 507 3 hace más de un año 146 . -----------------------------------------------------------------------------fac_1_po factor de expansión -----------------------------------------------------------------------------range: [28.806734,23127.695] units: 1.000e-06 unique values: 539 missing .: 0/2458
Bioestadística
Estadística descriptiva intermedia.
generate * replace * tabulate * table * tab1 tab2 tabsum summarize * means centile ci cii stem qqplot graph (*) plot compare inspect
Genera variable Reemplaza valores de variable bajo alguna condición Tabla de frecuencias para variables cualitativas Tabla de frecuencias simples para variables cualitativas Produce una tabla de frecuencia para cada variable en varlist Produce todas los posibles cruces de variable de los varlist Produce tablas de estadísticas descriptivas en una ò dos vías Análisis para variable cuantitativa, media, mediana, etc Reporta la media aritmética, geométrica y armónica Calcula los centiles de varlist especificados por la list en centile( ) Calcula el error estándar e intervalos de confianza de los varlist Es la forma inmediata de ci Grafico de tallos y hojas Plano de quintiles de variable1 en contraste con los quintiles de variable2 Crea un grafico de cualquier variable Produce un grafico de dispersión entre dos variables Realiza un conteo de las diferencia y similitudes entre la var1 y var2 Proporciona un resumen rápido de una variable numérica
(*) Comando que se uso en anterior clase
tab1 Ejemplo: Se desea generar una tabla de frecuencias para las variables sex eduback dadedu use "C:\inteligencia.dta", clear tab1 sex eduback dadedu -> tabulation of sex Sex 0=F 1=M | Freq. Percent Cum. ------------+----------------------------------0 | 67 46.85 46.85 1 | 76 53.15 100.00 ------------+----------------------------------Total | 143 100.00
-> tabulation of eduback EVER BEEN | HELD BACK |
Bioestadística
IN SCHOOL | 1=YES 2=NO | Freq. Percent Cum. ------------+----------------------------------1 | 34 24.11 24.11 2 | 107 75.89 100.00 ------------+----------------------------------Total | 141 100.00 -> tabulation of dadedu PATERNAL | EDUCATION | 0=UNKNOWN | 2=PI 3=PC | 4=SI 5=SC | 6=SUPERIOR | 7=TECHNICAL | Freq. Percent Cum. ------------+----------------------------------0 | 6 4.26 4.26 2 | 8 5.67 9.93 3 | 18 12.77 22.70 4 | 18 12.77 35.46 5 | 72 51.06 86.52 6 | 8 5.67 92.20 7 | 11 7.80 100.00 ------------+----------------------------------Total | 141 100.00
tab2 Ejemplo: Se desea obtener todos los posibles cruces entre las variables sex eduback dadedu . tab2 sex eduback dadedu
-> tabulation of sex by eduback | EVER BEEN HELD BACK Sex 0=F | IN SCHOOL 1=YES 2=NO 1=M | 1 2 | Total -----------+----------------------+---------0 | 16 50 | 66 1 | 18 57 | 75 -----------+----------------------+---------Total | 34 107 | 141
-> tabulation of sex by dadedu | Sex 0=F |
PATERNAL EDUCATION 0=UNKNOWN 2=PI 3=PC 4=SI 5=SC 6=SUPERIOR 7=TECHNICAL
Bioestadística
1=M | 0 2 3 4 5 | Total -----------+-------------------------------------------------------+---------0 | 2 4 12 6 33 | 66 1 | 4 4 6 12 39 | 75 -----------+-------------------------------------------------------+---------Total | 6 8 18 18 72 | 141 | PATERNAL EDUCATION | 0=UNKNOWN 2=PI 3=PC | 4=SI 5=SC 6=SUPERIOR Sex 0=F | 7=TECHNICAL 1=M | 6 7 | Total -----------+----------------------+---------0 | 3 6 | 66 1 | 5 5 | 75 -----------+----------------------+---------Total | 8 11 | 141 -> tabulation of eduback by dadedu EVER BEEN | HELD BACK | PATERNAL EDUCATION 0=UNKNOWN 2=PI 3=PC 4=SI 5=SC IN SCHOOL | 6=SUPERIOR 7=TECHNICAL 1=YES 2=NO | 0 2 3 4 5 | Total -----------+-------------------------------------------------------+---------1 | 0 2 4 8 16 | 34 2 | 6 6 14 10 56 | 107 -----------+-------------------------------------------------------+---------Total | 6 8 18 18 72 | 141 | PATERNAL EDUCATION EVER BEEN | 0=UNKNOWN 2=PI 3=PC HELD BACK | 4=SI 5=SC 6=SUPERIOR IN SCHOOL | 7=TECHNICAL 1=YES 2=NO | 6 7 | Total -----------+----------------------+---------1 | 0 4 | 34 2 | 8 7 | 107 -----------+----------------------+---------Total | 8 11 | 141
tabsum Ejemplo: Se desea conocer las estadísticas descriptivas de la variable haz1999 por genero
Bioestadística
use "C:\inteligencia.dta", clear tabulate sex, summarize(haz1999) | Summary of Height-for-age Z-score | 1999 Sex 0=F 1=M | Mean Std. Dev. Freq. ------------+-----------------------------------0 | -1.318209 .76393306 67 1 | -1.0518421 .91865512 76 ------------+-----------------------------------Total | -1.1766434 .85719075 143 Ejemplo: Se desea conocer las estadísticas descriptivas de la variable haz1999 por genero y tipo de escuela . tabulate sex eduback, summarize(haz1999) Means, Standard Deviations and Frequencies of Height-for-age Z-score 1999 | EVER BEEN HELD BACK | IN SCHOOL 1=YES Sex 0=F | 2=NO 1=M | 1 2 | Total -----------+----------------------+---------0 | -1.320625 -1.2946 |-1.3009091 | .90374383 .7133457 | .75644661 | 16 50 | 66 -----------+----------------------+---------1 |-1.0472222 -1.0389474 |-1.0409333 | .93760524 .9226373 | .91987245 | 18 57 | 75 -----------+----------------------+---------Total |-1.1758824 -1.1584112 |-1.1626241 | .91831901 .83748067 | .85432818 | 34 107 | 141
means Ejemplo: Se desea obtener las medias aritmetica, geometrica y armonica de la variable haz1999 . use "C:\inteligencia.dta", clear . means haz1999 sex Variable | Type Obs Mean [95% Conf. Interval] -------------+---------------------------------------------------------haz1999 | Arithmetic 143 -1.176643 -1.318345 -1.034942 | Geometric 11 .3026761 .1656504 .5530494 | Harmonic 11 .2014677 .116911 .7279985 -------------+----------------------------------------------------------
centile Ejemplo: Se desea conocer los centiles para los percentiles 5, 50 y 95
Bioestadística
use "C:\inteligencia.dta", clear centile haz1999, centile(5 50 95) -- Binom. Interp. -Variable | Obs Percentile Centile [95% Conf. Interval] -------------+------------------------------------------------------------haz1999 | 143 5 -2.578 -3.123029 -2.386474 | 50 -1.1 -1.29 -.9526722 | 95 .312 -.0852884 .5685576
ci Ejemplo: Se desea obtener los intervalos de confianza al 95% de confianza de las variables haz1999 wtotal use "C:\inteligencia.dta", clear . ci haz1999 wtotal Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+--------------------------------------------------------------haz1999 | 143 -1.176643 .0716819 -1.318345 -1.034942 wtotal | 143 88.93007 1.047604 86.85916 91.00098
cii Ejemplo: Se desea estimar un intervalo de confianza de la proporción de muerte por accidentes si de 10 accidentes registrados 2 causaron fallecimientos. . cii 10 2 -- Binomial Exact -Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+--------------------------------------------------------------| 10 .2 .1264911 .0252107 .5560955
Ejemplo: Se desea calcular un intervalo de confianza en 166 observaciones, con una media de 19509 y una desviación estándar de 4379. . cii 166 19509 4379 Variable | Obs Mean Std. Err. [95% Conf. Interval] -------------+--------------------------------------------------------------| 166 19509 339.8763 18837.93 20180.07
stem
Bioestadística
Ejemplo: Se desea obtener una grafico de tallos y hojas para observar si la variable haz1999 para determinar su distribución. use "C:\inteligencia.dta", clear . stem
haz1999
Stem-and-leaf plot for haz1999 (Height-for-age Z-score 1999) haz1999 rounded to nearest multiple of .01 plot in units of .01 -3** -3** -3** -2** -2** -2** -2** -2** -1** -1** -1** -1** -1** -0** -0** -0** -0** -0** 0** 0** 0** 0** 0** 1**
| | | | | | | | | | | | | | | | | | | | | | | |
48 34 13 84 68,65 58,57,56,46,42,41 39,37,37,36,32,32,26 18,17,16,14,13,04,00,00 99,88,87,87,83,81 78,76,75,75,66,66,61,60 57,56,56,53,51,51,50,47,46,45,42,41,41 38,38,37,37,34,29,29,27,26,25,22,20 19,18,18,17,15,10,09,08,07,05,02,00 96,96,96,96,96,95,93,91,90,88,88,88,87,86,86,85,84,83,82,80,80 76,74,74,71,68,66,66,66,66,63,60 56,54,51,49,49,49,43,41,41,41 37,36,29,24,23,22,21 18,12,11,08,05 06,07 21,24,33,34,39 51,57 62 17
plot Ejemplo: Se desea evaluar gráficamente la existencia de alguna posible asociación entre las variables haz1999 y wtotal use "C:\inteligencia.dta", clear . plot haz1999 wtotal 1.17 H e i g h t f o r a g e
+ | * | | | * * * | * * * * * | * * | * * * * * * * * | ** * * ** **** | * * *** ** * * | * * * ****** *** * * * ** ** | * * * * * * * * * * * | **** * ** **** * * * * | * * * ** * *** * | * * * * * * * | * * * * * * Z | * * * * ** * * | * * * * s | * c | * -3.48 + * * +----------------------------------------------------------------+
55
compare
WISC Total
128
Bioestadística
Ejemplo: Se desean comparar las variables haz y wtotal use "C:\inteligencia.dta", clear . compare
haz1999 wtotal
---------- difference ---------count minimum average maximum -----------------------------------------------------------------------haz1999
inspect Ejemplo: Se desea describir el comportamiento de los v alores de la variable haz1999 use "C:\inteligencia.dta", clear . inspect haz1999 haz1999: Height-for-age Z-score 1999 ------------------------------------| # | # | # | # # | # # # | . # # # . +----------------------3.48 1.17 (More than 99 unique values)
Tercera Semana
Negative Zero Positive Total Missing
Number of Observations NonTotal Integers Integers 132 3 129 11 11 ------------143 3 140 ----143
Bioestadística
Revisión de los conceptos y métodos de prueba de hipótesis. Asociación
cs cc csi cci tabodds mhodds
Para estudios cohorte transversal ó cohorte con incidencia acumulada, se calcula una estimación puntual del RR asi como su intervalo de confianza. Realiza una prueba de hipótesis donde Ho: RR = 1 Para estudios caso-control, se calcula una estimación puntual del OR asi como su intervalo de confianza. Realiza una prueba de hipótesis donde Ho: OR = 1 Realiza el calculo de riesgos relativos colocando valores observados de una tabla 2x2 Realiza el calculo de odds ratios colocando valores observados de una tabla 2x2 Usado para determinar la homogenidad de los OR en los diferentes niveles de la variable exposición. Determina si existe tendencia con respecto a los OR. Realiza Se utiliza para calcular odds ratios cuando la variable exposición tiene mas de dos niveles. Ademas calcula estadístico de Mantel _ Haenzel
cs Este comando es usado para estudio de cohorte transversal ó cohorte, donde tenemos un grupo expuesto y grupo no expuesto, además podemos incorporar variables de ajuste bajo la opcion by, para calcular RR en cada uno de los grupos. Una nota importante en este calculo es que la variable exposición tiene que estar codificado como 0 y 1. Trabajaremos con la base de datos del estudio de adherencia del tratamiento a la enfermedad de malaria, donde el objetivo de la investigación es determinar los RR para la incidencia ò proporción de no adherencia a tratamiento antimalarico para la variable exposición (Dosis) . Donde nuestra hipótesis nula es: La exposición de dosis mal administrada presenta un RR = 1 respecto de la no adherencia al tratamiento Entonces para abrir la base de datos de la investigación de no adherencia a tratamiento de Malaria usamos el comando “use” use "C:\malaria.dta", clear
Ya que la variable dosis por presenta se construye de dos variables entonces tenemos que generar la variable dosis con el comando generate dosis = ( dos_qkg>1 | dos_tkg>1)
Además generaremos antes la variable presencia de la enfermedad en esta base de datos presencia de no adherencia, donde 1 “presencia de adherencia” y 2 “presencia de no adherencia. generate cumple = (cumfinal == 2) cs cumple malpf
Bioestadística
Variable exposición Variable presencia de no cumplimiento
Risk = La incidencia o proporción de no adherencia al tratamiento de en el grupo expuesto (dosis incorrecta) y el no expuesto (dosis correcta) Risk difference = 0.7058824 – 0.0.212963 = 0.4929194 Risk ratio = 0.7058824 – 0.212963 = 3.314578 Al observar la tabla podemos rechazar la hipótesis nula de que el RR = 1 ya que el p-valor < 0.05. El valor de riesgo relativo es igual a 3.3, esto quiere decir que un mal dosaje generar a 3.3 veces mas no adherencia al tratamiento antimalarico que un buen dosaje..
cc Este comando es usado para estudio de casos y controles, donde tenemos un grupo casos y un grupo control, además podemos incorporar alguna variable con el comando by, para calcular Odss ratio en cada uno de los grupos. Una nota importante en este calculo es que la variable exposición tiene que estar codificada como 0 y 1. Realizaremos el siguiente ejemplo usando la base de datos de neumonía, teniendo como objetivo el determinar el odds ratio de la prevalencia de disminución de peso de mis casos con respecto de la baja de peso en mis controles. Además el que se busca rechazar la hipótesis nula Ho: OR = 1 Por lo que abrimos la base de datos en el programa Stata usando el comando “use” use "C:\ Neumonia.dta", clear cc tipo pesonuev
Variable exposición Variable presencia de la enfermedad (casos y controles)
Bioestadística
Proportion Exposed: Proporción de exposición, para casos y controles Odds ratio: El valor calculado de la razón de productos cruzados. El cuadro nos dice que rechazamos la hipótesis nula que nos dice que Ho: OR = 1 Además podemos decir que la baja de peso en grupo casos es 2.6 veces mas que la baja de peso en el grupo control
csi El uso del comando csi, esta restringido para estudios de cohorte donde tenemos los valores para una tabla 2 x 2, este realiza el calculo de los riesgos relativos así como de su intervalo de confianza.
csi #a #b #c #d Sea que tenemos los valores para el calculo de los RR, similares al ejemplo de cs
cci
Bioestadística
El uso del comando csi, esta restringido para estudios de casos y controles donde tenemos los valores para una tabla 2 x 2, este realiza el calculo del odds ratio así como de su intervalo de confianza. Este además puede calcular el estadístico exacto de Fisher. cci #a #b #c #d
tabodds Se utiliza en estudio de caso control para calcular odds ratios cuando la variable exposición tiene mas de dos niveles. Utiliza test de homogeneidad para determinar que los OR calculados son iguales entre los diferentes niveles de exposición Utiliza el test de tendencia asumiendo que la variable exposición tiene un orden , teniendo como hipotesis nula que no hay un incremento del OR cuando el nivel de exposición se eleva Realiza el test de Mantel-Haenszel para ajuste de OR con respecto a una tercera variable que podría ser confusora. Usaremos la base de datos de malaria como ejemplo teniendo en cuenta que esta base de datos proviene de un estudio de Cohorte. El ejemplo no es exactamente el mas apropiado. Usamos el comando “use” para abrir las base de datos de malaria use "C:\malaria.dta", clear
El objetivo de utilizar este comando es el de determinar odds ratio para las tres categorías en la variable antecedentes de malaria (si tuvo malaria Pf, tuvo otra malaria, no tuvo nunca malaria)
Bioestadística
Lo que genero es una tabla con los odds o proporciones a la no adherencia al tratamiento en cada categoría de exposición, además cuando realiza el test de homogenidad rechaza la hipótesis nula que la distribución es homogénea es decir Ho: OR 0 = OR 1 = OR 2 dado que calcula un p-valor < 0.05, cuando presenta el test de tendencia de los OR de adherencia al tratamiento, no es significativo este incremento del OR en los niveles por que se obtiene un p-valor = 0.066. Por lo que decimos que tenemos evidencia para decir que los OR no se distribuyen homogéneamente, mas no tenemos evidencia suficiente para una tendencia de tendencia de los odds.ratios Calculando los odds ratio
Los odds ratio se calculan teniendo en cuenta como base cuando pf = 0 (que tuvo anteriormente malaria por pf), entonces se observa un odds ratio igual a 4 para el grupo que tuvo malaria no falciparum, es decir en el grupo de pacientes que tuvo malaria no falciparum es 4 veces mas la no adherencia respecto del grupo que alguna ves tuvo malaria por Plasmodium falcirum. Otro resultado a comentar es que no podemos rechazar la hipótesis nula en el grupo que nunca tuvo malaria con respecto al grupo que si tuvo malaria por Plasmodium falciparum. Ahora ajustaremos el análisis de acuerdo a las ed ades de los pacientes y obtenemos
Bioestadística
mhodds Se utiliza para calcular odds ratios ajustado por alguna variable posible confusora de los OR cuando la variable exposición tiene mas de dos ò mas niveles niveles. Este realiza la prueba para tendencia de los odds ratios. Por ello se usara la base de datos de malaria, teniendo como variable exposición el antecedente de malaria por Plasmodium falciparum.
El Odds ratio es la estimación de un OR calculado a partir de (antecedente de Plasmodium flaciparum) El valor de Chi2 se refiere al test de tendencia de los Odds ratios, igual resultado obtuvimos cuando utilizamos el comando tabodds.
Ahora ajustando por los odds ratios por la variable edad, tenemos