PAQUETES ESTADÍSTICOS GUIA DE MANEJO DE STATA _____________________________________________________________________ El presente documento resume los principales comandos utilizados para el análisis de bases de datos en STATA
1. ADMINISTRACIÓN GENERAL DE BASES DE DATOS •
COMANDOS PARA ABRIR BASE DE DATOS: COMANDO
USO
using unidad :/nombre de la base .dta use a:/ nombre de la base .dta
• • • • • • •
Click a file – Archivo Open – Abrir Seleccionar el archivo a ejecutar Abrir Icono de carpeta Seleccionar el archivo a ejecutar Abrir
•
Estos com comandos se ut utilizan par para abr abrir una una base de datos. Es importante mencionar que STATA TATA sol solo puede uede ejec jecuta utar base ases con extensión dta. Para transformar las bases se utiliza un paquete anexo denominado STATA TRANSFER. TRANSFER. Esta Esta opción opción hace hace uso del menú menú propue propuesto sto por el programa
COMANDOS PARA GUARDAR INFORMACIÓN – ARCHIVO LOG COMANDO
USO
Click al icono (pergamino) Elegir localización para guardar el archivo Asignar nombre al archivo con extensión log Abrir Para cerrar click en el icono y en close log file Log using a:/nombre del archivo .log Click al icono (pergamino) Elegir localización del archivo Elegir el archivo Click a la opción de append to existing file Para cerrar click en el icono y en close log file • •
•
Para Para abrir abrir archiv archivo o log que permit permite e grabar grabar auto automá máti tica came ment nte e toda toda la info inform rmac ació ión n de coma comand ndos os y resu result ltad ados os gene genera rado dos s en el análisis de la base de datos. Puede ser leído en el procesador de texto word.
• •
•
Para ab abrir un un ar archivo lo log ya ya ex existente en en el el cual se quieren anexar nuevos resultados.
• • •
•
•
COMANDO PARA DESCRIPCIÓN DE LA BASE DE DATOS
COMANDO (DIFERENTES OPCIONES) Verinst
USO Verificar la instalación de los archivos de STATA.
1
describe de desc d • codebook • • •
list if Ej. list if edad==. List if edad <. Input
End Recast Compress Insheet (ASCII)
Infile (Formato Libre):
Infix (Formato Fijo)
Outsheet:
sort: sort file gsort:
Se utiliza para describir las generalidades de la base de datos (numero de observaciones, numero de variables y tamaño de la base) Se utiliza para ubicar valores perdidos o faltantes y observar generalidades de las variables Se utiliza para listar cualquier observación contenida en la base de datos. En este caso se ejemplifica la búsqueda de valores faltantes de la variable edad Máscara de captura Para capturar tu base de datos. Se utiliza para introducir una base de datos (variables y observaciones) Si la variable que se va a ingresar es un nombre, se escribe str (strin): Para terminar tu captura Para comprimir y salvar espacio, La convierte de flota a byte, porque ésta ahorra más espacio, sólo admite 3 dígitos. Para comprimir bases de datos mayores automáticamente. Archivos de texto (ASCII) creados en hojas de trabajo o programas de base de datos (extensión .txt, csv) datos separados por comas o tab, una observación puede estar en una línea, la primera línea del archivo puede tener los nombres de las variables. insheet using nombre del archive: insheet using “C: nombre” Datos separados por espacios, comas, tabs (.txt, .csv., .prn) las variables string pueden estar dentro de comillas o separadas, una observación puede estar en una línea, pueden haber múltiples observaciones en una línea. (son un relajito ) infile listvar using nombre del archivo (se debe colocar las variables y el tipo para lograr importarla) : infile str nombre edad peso talla using “C:nombre” Los datos pueden estar en columnas, una observación abarca más de una línea. (terminación .raw) infix specification using nombre del archivo: infix 2lines1 str marca 1-13, mpg 1-2 peso using “C: nombre” Convierte las bases .dta a formato ASCII, separado por tab o comas: outsheet listvar using nombre del archivo [if exp] [in range] [, nonames nolabel noquote comma replace wide] ordena de acuerdo a una variable, ordena en forma ascendente
ordena en forma ascendente (gsort peso) ó descendente (gsort –peso)
2
Para que ordene, colocando primero los missing: gsort –peso, mfirst •
COMANDOS PARA EDICIÓN DE LA BASE DE DATOS COMANDO
Browse Icono data browser Edit List label var variable Ej. label var edad “edad en años” label define Ej. label define edad 1”0/20” 2”21/40” 3”41/max” label value Ej. label value edad edad generate gen gene gener Ej. gen edad2=edad recode rec reco recod Ej. recode edad2 min/45=1 45/max=2 replace rep repl Ej. replace edad=1 if edad<=20 Keep • • • •
• • •
USO Se utiliza para ver la hoja con los datos (tabla) Para edición de la base de datos Para listar observaciones y las variables de cada individuo Para etiquetar variables Para cambiar la codificación de la variable Para asignar los valor etiquetados a las variables Para genera una nueva variable idéntica a partir de una existente en la base de datos. En este caso se ejemplifica la generación de una variable idéntica a la edad Para recodificar los valores o categorías de una variable. En este caso se ejemplifica la recategorización de variable edad2 generada.
•
• • •
drop Ej. drop all (borra todas las variables) drop edad (borra la variable edad) Sort Ej. sort folio (ordena numéricamente por folio la base de datos) order Ej. order edad talla genero Move Ej move peso save as save, replace Clear Xtile
xtile talla3=talla, nq(4) •
Para reemplazar valores o categorías de una variable. En este caso se ejemplifica el reemplazo de las edades menores o iguales a 20 por el valor 1 en la variable edad. Para guardar variables, principalmente con el fin de construir una nueva base de datos a partir de una existente Para borrar variables Para ordenar las variables de la base de datos Para cambiar orden de las variables dentro de la base de datos Para mover o ubicar una variable en la hoja de datos al comienzo Para guardar los cambios de la base de datos Para guardar los cambios de la base de datos Para cerrar base de datos o limpiar comandos anteriores Te genera nueva variable y te categoriza según el número de categorías que le pidas =)
COMANDOS PARA PEGAR BASES DE DATOS
3
PASO 1 2 3 4 5 6 7
COMANDO using a:/nombre de la base principal. dta
USO Para abrir una base genérica localizada en A
sort folio
Organizar esta base de datos de acuerdo con el número de folio Keep folio var1 var2.... varp Selección de las variables que se desean conservar save as a:/nombre de la base Guardar archivo de las variable seleccionadas en de datos hija .dta el punto anterior using a:/nombre de la Para abrir la base a la cual deseamos pegar las variables seleccionadas archivo: nombre de la base.dta base de datos hija .dta Sort folio Organizar esta base de datos con base en la variable folio. La variable folio debe ser igual en todos los archivos merge folio using a:/ nombre Para unir las variables al archivo en uso. La unión se evidencia por la creación automática de de la base de datos hija .dta la variable _merge
merge using "C:\Documents and Settings\UserBase1”
•
8
tab_merge
9
save, replace
10
describe
11
drop _merge
Para verificar la unión. Debe observarse una sola categoría (3) con el total de las observaciones Para guardar los cambios hechos en la base de datos nombre de la base principal.dta Para revisar que la nuevas variables fueron incluidas Para borrar la variable creada _merge, dejando la posibilidad de nueva uniones
CREACIÓN DE UN ARCHIVO DO
Es un archivo que construye incluye la relación de todos los comandos necesarios para abrir, ejecutar y analizar una base de datos. Es una rutina de comandos.
2. ANALISIS DE BASES DE DATOS •
COMANDOS DESCRIPCIÓN UNIVARIADA COMANDO
summarize summ sum Ej. summ edad peso talla summarize summ sum adicionando var, detail Ej. summ edad,de • • •
• • •
USO Para estimar de una o más variables continuas numero de observaciones, media, desviación estándar y rango. En el ejemplo se describirán las variables edad, peso y talla Para estimar de una o mas variables continuas numero de observaciones, medidas de tendencia central, valores mínimos y máximos, medidas de dispersión, Percentiles, curtosis y sesgo (mayor detalle).
4
tabulate tab Ej. tab raza tabulate1 tab1 Ej. tab1 raza nivelsoc genero • •
• •
Lv
graph (la que pidas) var graph box variable graph var, norm qnorm var Sktest var
Para estimar en una variable categórica número de observaciones, porcentaje y frecuencia acumulada Para estimar simultáneamente en mas de una variable categórica número de observaciones, porcentaje y frecuencia acumulada Para observar dispersión de los datos y valores aberrantes Inner y outer fence: te dicen los outliers internos->probables aberrantes y externos-> seguro son aberrantes Para ver la distribución de una variable continua Para ver la distribución en caja de una variable continua Para ver la distribución de una variable continua comparada con el patrón de distribución normal Para realizar la prueba estadística de normalidad de una variable continua (Ho: distribución normal). Ofrece los datos de curtosis y sesgo (la distribución normal
tiene una curtosis de 3 y un sesgo de cero)
swilk var
Prueba de Shapiro Wilk para probar normalidad de una variable continua (Ho: la variable tiene distribución normal)
La p debe ser mayor a 0.05 y W tiende a 1
Sfrancia
Para probar Normalidad
La p debe ser mayor a 0.05 y W tiende a 1
ladder var
Para comprobar objetivamente la normalidad de una variable continua y evaluar sus posibles trasformaciones en búsqueda de normalidad en su distribución. Ho: la variable continua transformada tiene distribución normal Para que una prueba sirva para la transformación debe tener una p mayor a la
0.05.
•
COMADOS PARA ANÁLISIS BIVARIADO COMANDO USO RELACIÓN VARIABLE CONTINUA VS. DICOTÓMICA
sdtest var, by(var) Ej. sdtest edad, by(genero)
Se utiliza para comparar las varianzas una variable continua con una dicotómica. Ho: las varianzas son iguales
5
ttest var, by(var)
Si las varianzas son iguales. Compara las medias una variable continua con una dicotómica. Ho: las medias de las categóricas son iguales. (p>0.05)
ttest var, by(var) unequal
Si las varianzas no son iguales. Compara las medias una variable continua con una dicotómica. Ho: las medias de las categóricas son iguales. Muestra una tabla de contingencia que relaciona una variable dicotómica con una continua Regresión lineal con un sólo regresor
“esa var indep sí explica y”
tab var, summ (var) Ej. tab genero, summ (edad) Regress reg reg vardep varindep • •
RELACIÓN VARIABLE DICOTÓMICA VS. DICOTÓMICA tab var var,chi2 tab var var, row cell exact, all ó:
tab sexo dx_llega, chi2 exact tabi a b c d cc var var cci a b c d cs var var csi a b c d logit vardep varindep Logistic vardep varindep
Relaciona dos variables dicotómicas mediante una prueba de chi2 Relaciona dos variables categóricas, calcula porcentaje dentro de las filas y las columnas, además de la prueba exacta de Fisher
cuando se tiene una celda con menos de 5 observaciones (p<0.05) “x lo menos 1 variable explica y”
Realiza una tabla de contingencia con los valores exactos de las celdas, además de la prueba de chi2 Permite obtener la razón de momios relacionando dos variables dicotómicas Relaciona una tabla de contingencia con los valores exactos de las celdas, además de la prueba de chi2. Ofrece el OR Permite obtener RR relacionando dos variables dicotómicas Para realizar una tabla de contingencia con los valores de agrupados de la tabla. Calcula el RR Permite realizar una regresión logística con un sólo regresor
RELACIÓN VARIABLE CONTINUA VS. CATEGÓRICA DE MAS DE DOS CATEGORIAS tab var, summ (var) anova Ej. tab genero, summ (edad)
Realiza una tabla de contingencia que relaciona una variable categórica con una continua. Ofrece diferencia de medias y varianza entre las categorías
6
oneway var var, means bonferroni Bonferroni : prueba no paramétrica equivalente a la ANOVA para demostrar que no hay diferencia entre las medias de los grupos (por pares) Kruskall-Wallis : prueba no paramétrica equivalente a la ANOVA para demostrar que no hay diferencia entre las medias de los grupos (por 3 o más grupos)
Permite comparar medias y varianzas entre los grupos. Para medias: Ho: Las medias son diferentes H1: Al menos una media es diferente. Prueba Barttlet (varianzas): Ho: Las varianzas son iguales H1: Al menos una varianza es diferente.
(p>0.05)
RELACIÓN VARIABLE CONTINUA VS. CONTINUA • •
pwcorr var var, sig corr var var, sig
Correlación de Pearsón. Esta correlación ajusta por el numero de regresores. El cálculo toma en cuenta el numero de observaciones completas.
Muestra Multicolinealidad, correlación de cada una de las variables. Si es =0 No hay Correlación (va de -1 a 1, correlación negativa o positiva) pcorr var var
Correlación parcial. El calculo se realiza sin ponderar por otras variables
Correlación de la var. Dependiente con todas las demás. Si es =0 No hay Correlación (va de -1 a 1, correlación negativa o positiva) Te da significancia también p<0.05
plot var1 var2 ksm var1 var2, lox
Permite graficar en diagrama de dispersión dos variables continuas Permite graficar en diagrama de dispersión dos variables continuas con técnica de suavizamiento
CONTRUCCIÓN DE VARIABLES DUMMY PARA VARIABLES DE MAS DE DOS CATEGORIAS •
COMANDO tab var,gen (var)
•
USO Para generar variables indicadoras de una variable de más de dos categorías
ANÁLISIS MULTIVARIADO COMANDO
pwcorr vardep varindep1 varindep2….. varindepp, sig pcorr vardep varindep1 varindep2….. varindepp Opciones: regress/reg reg vardep varindep1 varindep2 varindep3..........varindepp
USO Correlación de Pearsón. Esta correlación ajusta por el numero de regresores. Solo se usa para variables continuas Correlación parcial. Sin ponderación por otras variables. Solo se usa para variables continuas Comando para regresión lineal múltiple para análisis multivariado con una variable dependiente continua y n variables independientes de cualquier tipo
7
logit vardep varindep1 varindep2…. varindepp
Logistic vardep varindep1 varindep2…. Varindepp
glm vardep varindep1 varindep2.... varindepp, family (poisson) link (log) lnoff(exposure) nolog Poisson vardep varindep1 varindep2..... varindepp, exp(exposure) nolog
Poisson vardep varindep1 varindep2..... varindepp, exp(exposure) nolog irr
sw Ej. sw logit vardep varindep1 varindep2.... varindepp, pr(0.2) Forward = pe Backward = pr
Comando para regresión logística múltiple con una variable dependiente dicotómica y n variables independientes de cualquier tipo. Los resultados estimados están en escala logarítmica, lo que permite estimar probabilidades y proporciones ajustadas en estudios de cohorte y transversales respectivamente Comando para regresión logística múltiple con una variable dependiente dicotómica y n variables independientes de cualquier tipo. Los resultados estimados están en escala real (razones de momios en estudios de casos y controles y razones de momios de prevalencia en estudios transversales). Comando para usar el modelo lineal generalizado para una variable con distribución poisson medida como conteo (regresión poisson) y n variables independientes de cualquier tipo Comando para regresión poisson múltiple para análisis multivariado con una variable dependiente de conteo y n variables independientes de cualquier tipo. Los resultados están en escala logarítmica Comando para regresión poisson múltiple para análisis multivariado con una variable dependiente de conteo y n variables independientes de cualquier tipo. Los resultados están en escala real (riesgos relativos) Nota: la variable exposure se utiliza para ajustar, cuando los denominadores no son iguales El uso de nolog es opcional, omite las iteraciones de realiza el paquete estadístico. El stepwise es un comando que le solicita al paquete estadístico la búsqueda de un modelo perfecto estadísticamente. Se ajusta con los valores de p esperados en las relaciones. Usado para cualquier tipo de regresión
3. DIAGNOSTICO DE MODELOS MULTIVARIADOS REGRESIÓN LINEAL MULTIPLE
COMANDO USO VERIFICACIÓN DE SUPUESTOS / ANÁLISIS DE RESIDUOS predict nombre de la variable de residuos, rstudent rvpplot varind1
Una
vez corrido
el
modelo
propuesto,
generar residuos estudentizados
Permite graficar los residuos estudentizados con cada variable independiente
Para probar Linealidad
8
qnorm nombre de la variable de residuos swilk nombre de la variable de residuos sfrancia
rvfplot, yline(0)
Permite comprobar la normalidad de los residuos generados Permite comprobar el supuesto de que la media de los residuos es cero y la varianza es constante
Para comprobar homoscedasticidad Esta prueba es la de heterocedasticidad
Hettest
(Cook-Weisberg), se usa para comprobar el supuesto de que los residuos tienen varianza constante. Ho: los residuos no tienen varianza constante
DETERMINACIÓN DE PUNTOS INFLUYENTES predict nombre de la variable , hat
Para predecir los valores de la matriz sombrero count nombre de la variable >2*p/n Para contra los valores mayores a 2p/n List if nombre de la variable >2*p/n Para listar los folios de los puntos mayores de 2p/n PUNTOS INFLUYENTES EN EL VECTOR BETA (distancia de Cook) predict nombre del archivo , cooksd Habiendo corrido el modelo propuesto se predicen los valores entre cada observación y la nube de puntos Count nombre de la variable >1 Para contar los puntos fuera con una distancia mayor de 1
PUNTOS INFLUYENTES EN CADA BETA
Dfbeta sum dfvarind1 dfvarind2..... dfvarindp
Permite calcular los beta de cada regresor Permite observar el rango y la media de los dbeta de cada regresor for var dfvarind1 dfvarind2....... Permite identificar los puntos influyentes de dfvarindp:count if abs(X)>2/sqrt(n) cada regresor Nota: Cuando hay una incongruencia de detectar puntos influyentes en cada beta, pero no en el vector se calculan los puntos influyentes en los valores predichos Dfit predict nombre de la variable , dfits Permite predecir los valores predichos sum nombre de la variable Permite la observación de los rangos y la media de los valores predichos count if abs(dfit)>2*sqrt(p/n) Permite contar los valores predichos mayores de 2sqrt(p/n) list vardep varind1 varind2….varindp if Permite listar los valores predichos mayores abs(dfit)>2**sqrt(p/n) de 2sqrt(p/n) Nota: luego de omitir los puntos influyentes debe correrse nuevamente el modelo.
ANÁLISIS DE MULTICOLINEALIDAD Vif
Una vez corrido el modelo propuesto se calcula el factor de inflación de la varianza. Valores mayores de 10 indican multicolinealidad
REGRESIÓN POISSON
COMANDO USO PRUEBAS DE BONDAD DE AJUSTE Poisgof
Una vez corrido el modelo propuesto y posteriormente el modelo nulo se realiza esta
9
prueba de bondad de ajuste que compara estos modelos. Ho: el modelo propuesto ajusta los datos (los regresores incluidos explican a Y). Una vez corrido el modelo propuesto se escribe el comando “lrtest, s(0)”, luego se corre el modelo nulo y el comando “lrtest”. Esta prueba de bondad de ajuste compara los dos modelos, bajo la Ho: los dos modelos explican igualmente el comportamiento de Y
Lrtest, s(0)
ANÁLISIS DE RESIDUOS glmpred nombre de la variable de los residuos, dev sum nombre de la variable de los residuos qnorm nombre de la variable de los residuos
swilk var
Permite generar los residuos de devianza Permite la observación de las características de los residuos de devianza Permite determinar la distribución de los residuos de devianza Prueba de Shapiro Wilk para probar normalidad de los residuos de devianza (Ho: los residuos de devianza tiene distribución normal)
REGRESIÓN LOGISTICA
COMANDO USO PRUEBAS DE BONDAD DE AJUSTE lfit
Una vez corrido el modelo propuesto se utiliza esta prueba para verificar si el modelo ajusta los datos. Ho: el modelo ajusta los datos Modificación propuesta por Hosmer y Lemeshow. Ua vez corrido el modelo propuesto se utiliza esta prueba para verificar si el modelo ajusta los datos. Ho: el modelo ajusta los datos Permite evaluar sensibilidad y especificidad del modelo, además de los falsos positivos y negativos.
lfit, group(10)
Lstat
GRAFICAS DIAGNOSTICAS Lroc
Permite evaluar el valor predicitvo del modelo. Un modelo sin valor predictivo tiene área 0.5 y un modelo perfecto tendría área 1 A través de una grafica, relaciona sensibilidad y especificidad del modelo.
Lsens
ANÁLISIS DE RESIDUOS lpredict nombre de la variable de los
Permite generar residuos estandarizados
residuos
graph res nombre de la variable de los
Permite graficar los residuos
residuos
graph res nombre de la variable de los residuos, yline(0) sum nombre de la variable de los residuos
Permite la observación del rango y la media de los residuos estandarizados
10
lpredict dbetas, dbeta sum dbeta
Permite generar dbetas, en búsqueda de puntos influyentes de cada regresor (beta) Permite observar el rango y la media de los dbetas
graph res nombre de la variable de los residuos, twoway oneway box border yline(0)
4. ANALISIS DE SUPERVIVENCIA la estimación de supervivencia se hace con métodos no paramétricos, usaremos Kaplan Meier. Análisis utilizado para estudios longitudinales. Tiene las siguientes características: Presencia fundamental de censura Presencia de fallas (evento) La variable dependiente o respuesta es el tiempo El evento esta medido categóricamente • • • •
COMANDO stset tiemdd censura1 tab censura1 . sum tiemdd, detail . sts list
USO Prepara a STATA para el análisis de supervivencia. Se le indica la variable tiempo y censura Permite la observación de la variable censura Permite la observación de los valores máximos y mínimos de la variable tiempo. Incluye fallas y censuras La descripción se hace mediante la construcción de tablas de vida. Los principales parámetros son: Time: tiempo de supervivencia Begtotal= individuos vivos justo antes de este tiempo. fail=Numero de fallas fail/beg total= probabilidad estimada de supervivencia en el tiempo S estimada= producto de el No. de sujetos vivos antes del tiempo - No. de fallas / No. de individuos que están vivos antes del tiempo. S estimada es la función de supervivencia. Este analisis esta ajustado por el tiempo de las censuras. Permite la construcción de una tabla de vida estratificando por una variable. En este ejemplo vemos la supervivencia de las mujeres con antecedente de pap Nota: No se pueden hacer análisis de inferencias en bivariados. Los anteriores comandos grafican. las rayas horizontales muestran las censuras y las • •
• •
•
•
•
. sts list, by(pap)
. sts graph . sts graph, by(etapa)
11
. sts test etapa,logrank
verticales las fallas. Logrank se usa para ver diferencias en las curvas de supervivencia observadas en Kapplan M. Ho= no hay diferencia entre las líneas
NOTA: El análisis bivariado y multivariado se hace mediante el modelo de riesgos proporcionales de cox.
12
Comandos y su descripción:
Append. Este comando permite unir a las observaciones de dos bases de datos y no a través de variables completas. Browse. Favorece la visualización de datos de la base en la hoja de captura sin la posible opción de modificación. by var: sum var, detail Como variante del sum condiciona por cualquier variable la descripción en detalle de cualquier otra centile Permite observar los percentiles que se deseen de X variable con característica de continua para que de esta forma pueda ser poder dividirla en categorías.
Clear
Este comando oculta la base de datos sin que se salve y sin que sea necesario salir del programa
Codebook
A través de este comando se explora una variable X ayudando a recordar sus valores.
corr var var
A través de este comando se establece la correlación entre dos o más variables
count if abs (cook)>1
Se despliega el valor entre los residuos y beta
count if abs(dfits)>2*sqrt(p/n)
Cuenta los puntos influyentes de los valores predichos mismos que no deben sobrepasar de 2*sqrt(p/n).
count if abs(DFvar1)>2/sqrt(n)
Cuenta los puntos influyentes en cada una de las variables independientes (X) del modelo, mostrando el número de ellos, que no debe sobrepasar de 2/sqrt(n)
count if abs(resid)>1.96
Presente el conteo de residuales mayores a 1.96
describe
Es la descripción de una base de datos en general y de una variable (X) en particular
dfbeta
Se generan las distancias de diferentes variables independientes incluidas en el modelo (X), es decir las distancias entre residuos y el beta-j
display
Este comando sirve para realizar cualquier operación matemática.
drop
Borra variables a indicación del investigador.
drop var-var
Borra desde una variable inicial hasta una variable final.
edit
Este comando permite la visualización de los datos de la base en la hoja de captura con opción de algún tipo de modificación.
exit, clear
Este comando se emplea para salir del programa preservando el log pero sin salvar la base.
fpredict dfits, dfits
A través de este comando se generan las distancias existentes entre los valores observados o predichos y los esperados.
gen
13
Se genera una nueva variable que puede ser independiente o bien ser origen de otra.
graph DFvar1 DFvar2, box yline
Permite realizar un gráfico de caja condicionado con la finalidad de visualizar puntos influyentes.
graph res pred
Se grafican los residuos estandarizados
graph res pred, yline twoway onaway box border Se grafican los residuos estandarizados, con una línea paralela al eje de las x´s perpendicular al eje de las (y), incluyendo además, a un box plot paralelo a ambos ejes, mostrando valores aberrantes.
graph res pred, yline(0)
Esta grafica permite ver los residuos estandarizados, con una línea paralela al eje de las X perpendicular al eje de las Y.
graph var
Permite realizar de forma sencilla, un histograma de una variable(X, Y).
graph var var
Permite realizar un gráfico de correlación entre dos variables visualizando la tendencia
graph var var, connect(l)
Se realiza un gráfico de correlación entre dos variables con una línea que permite unir todas las observaciones.
graph var, box
Diagrama o gráfico de caja.
graph var, box by
Diagrama o gráfico de caja condicionado por valores de cualquier otra variable
graph var, box by(var) yline
Presenta una línea paralela al eje de las (X) y compatible en valores con eje de las (Y) en diagrama de caja que compara dos variables.
graph var, his
Se realiza un histograma sencillo de la variable solicitada.
graph var, his norm
Permite realizar un histograma con línea de distribución visible.
graph var, his norm noaxis
Permite realizar un diagrama de frecuencias con línea de distribución visible.
graph var, his ylabel xlabel
Etiqueta un diagrama de frecuencias(histograma) en sus ejes de manera automática.
Keep
Retiene en la base de datos, solo las variables que se deseen, eliminando automáticamente todas aquellas variables que no se escribieron posterior al comando.
keep if
Retiene los valores de una variable (X) de forma condicionada.
ksm var var
Permite realiza una diagrama de correlación entre dos variables continuas, presentando una línea suavizada que se emplea para hacer un promedio de los valores de ambas variables, pudiendo observarse una tendencia.
label data
Etiqueta la base de datos completa con el nombre que el investigador asigne.
label define
Este comando permite etiquetar categorías de exposición o grupos previamente recodificados.
label values
A través de este comando es posible observar como fueron nombradas las categorías de exposición y sus valores después de haberse etiquetado.
label var
Etiqueta variables.
ladder
14
Permite visualizar los diferentes tipos de transformaciones de una variable para así, poder elegir la mejor transformación.
lfit
A través de este comando se permite evaluar la prueba de Hosmer Lemeshow y ver si los datos se ajustan al modelo.
lincom var-var
Realiza un prueba de asociación (OR, p, IC) entre las diferentes categorías de una variable evaluando su igualdad y de esta forma se agrupen con la condición de haber corrido previamente un modelo de regresión.
List
Permite explorar a la variable.
list folio if abs (DFvar1)>2/sqrt(n) Enlista los folios con puntos influyentes de una variable DF en particular.
list folio if cook>1
Indica folios de valores influyentes.
list folio if dfits>2*sqrt(p/n)
Muestra a los folios con valores influyentes.
list folio if resid>1.96
Muestra folios que contienen los residuos condicionados a >1.96.
list if
Condiciona la observación a un valor específico.
list if abs(dfits)>2*sqrt(p/n
Lista puntos influyentes en los valores predichos.
list if abs(DFvar1)>2/sqrt(n)
Lista puntos influyentes de la primera variable DF mostrando los datos de todas las variables de la base, incluyendo las nuevas variables que recién fueron generadas.
list if abs(resid)>1.96
Lista los residuos mayores a 1.96.
list var-var if
Lista las variables desde una inicial hasta una final (condicional).
log off
Deshabilitar el log.
log on
Habilita el log.
logistic var var Realiza un modelo de regresión logística bivariado así como multivariado.
lpredict dbet, dbeta
Sirve para generar residuos generando las distancias de diferentes variables independientes incluidas en el modelo.
lpredict res, rstandard
Muestra los residuos estandarizados.
lpredict stand
Genera los residuos estandarizados.
lroc
Diagnóstico del modelo através de la interpretación del área bajo la curva condicionado por puntos de corte en su sensibilidad así como de su especificidad.
lstat
Hace diagnóstico del modelo a través de una prueba de tamiz.
lv var
Gráfico de letras, mostrando valores aberrantes.
merge
Permite reunir dos bases de datos que tienen al menos una variable en común.
predict cook, cooksd
Puntos influyentes en beta por la distancia de cook .
predict r_stu, rstu
15
Genera los residuos estudentizados posterior a correr un modelo de regresión múltiple.
pwcorr var var
Correlación entre dos o más variables.
pwcorr var var if
A través de este comando se puede establecer una correlación condicionada entre dos o más variables por valor(es) de una de ellas con o sin significancia estadística.
pwcorr var var, sig
Permite establecer correlación entre dos o más variables, con valor de significancia estadística.
qnorm resid
Gráfica de los residuos ajustándolos a una línea de distribución normal.
qnorm var
Gráficos que muestran el ajuste en una curva de distribución normal a los datos por observacion.
recode
Recodifica los valores de una variable (grupos o categorías de exposición) de acuerdo a determinados puntos de corte biológicamente plausibles o por estadística.
regress
Realiza una regresión lineal simple o múltiple.
regress var var if
Realiza una regresión lineal simple o múltiple de manera condicionada.
rename
Cambia el nombre a una variable.
replace
Reemplaza/modifica categorías de una variable.
replace var if
Reemplaza/modifica categorías de una variable(condicionada) por la misma o por otra variable.
save, replace
Salva la base de datos por las últimas modificaciones.
sort
Ordena los datos de una variable que pueden evaluarse con la indicación " by "
stem var
Diagramas de tallo y hoja.
sum cook
Resumen de datos que permiten observar el tamaño de la distancia a la beta siendo deseable que esta distancia de cook <1.
sum dfit
Visualiza las distancias entre valores predichos y esperados.
sum DFvar1 DFvar2 DFvar3
Visualiza los puntos influyentes en beta-j.
sum var if
Descripción de la variable acotada a valor(es) considerados por el investigador.
sumarize
A través de este comando se pueden describir una-mas variables resumiendo medidas de tendencia central y la distribución.
sumarize var, detail
Describe una-mas variables resumiendo sus medidas de tendencia central y su distribución.
tab var if
Permite a través de este comando observar datos de una variable acotados a cierto valor(es).
tab var var
Explora dos variables.
tab var, gen (var)
16
A través de este comando se producen a las variables indicadoras o dummies para cada una de las categorías de la variable.
tab var, sum var
Cruza datos descriptivos (medidas de tendencia central de la segunda variable) por categorías de la primera variable permitiendo hacer un análisis de las variables por grupos.
tab_merge
Visualiza la variable generada del comando merge.
tabulate
Explora variable(s).
tabulate var, nolabel Borra la etiqueta de las categorías que tenga la variable.
ttes var if
Prueba de t de student condicionada por un valor(es).
ttest
Prueba de t de student de comparación de dos medias muestrales.
ttest var, by(var)
Prueba de t de student condicionada a la variable dependiente
vif
Inflación de la varianza (multicolinealidad). Para descartar multicolinealidad el vif debe ser <10.
17