PAQUETES ESTADISTICOS GUIA DE MANEJO DE STATA _____________________________________________________________________ Maestría en Ciencias de la Salud con Área de Concentración en Epidemiología El presente documento resume los principales comandos utilizados para el análisis de bases de datos en STATA 1. ADMINISTRACIÓN GENERAL DE BASES DE DATOS •
COMANDOS PARA ABRIR BASE DE DATOS:
COMANDO using unidad:/nombre de la base.dta use a:/ nombre de la base.dta
• • • • • • •
Click a file - Archivo Open – Abrir Seleccionar el archivo a ejecutar Abrir Icono de carpeta Seleccionar el archivo a ejecutar Abrir •
COMANDOS PARA GUARDAR INFORMACIÓN – ARCHIVO LOG
COMANDO • Click al icono (pergamino) • Elegir localización para guardar el archivo • Asignar nombre al archivo con extensión log • Abrir • Para cerrar click en el icono y en close log file Log using a:/nombre del archivo.log • Click al icono (pergamino) • Elegir localización del archivo • Elegir el archivo • Click a la opción de append to existing file • Para cerrar click en el icono y en close log file •
USO Estos comando se utilizan para abrir una base de datos. Es importante mencionar que STATA solo puede ejecutar bases con extensión dta. Para transformar las bases se utiliza un paquete anexo denominado STATA TRANSFER. Esta opción hace uso del menu propuesto por el programa
USO Para abrir archivo log que permite grabar automáticamente toda la información de comandos y resultados generados en el análisis de la base de datos. Puede ser leído en el procesador de texto word.
Para abrir un archivo log ya existente en el cual se quieren anexar nuevos resultados.
COMANDO PARA DESCRIPCIÓN DE LA BASE DE DATOS
COMANDO (DIFERENTES OPCIONES) USO Se utiliza para describir las generalidades de • describe la base de datos (numero de observaciones, • de
1
• desc • d codebook
numero de variables y tamaño de la base)
Se utiliza para ubicar valores perdidos o faltantes y observar generalidades de las variables list if Se utiliza para listar cualquier observación Ej. list if edad==. contenida en la base de datos. En este caso List if edad <. se ejemplifica la búsqueda de valores faltantes de la variable edad • COMANDOS PARA EDICIÓN DE LA BASE DE DATOS COMANDO browse Icono data browser edit list label var variable Ej. label var edad “edad en años” label define Ej. label define edad 1”0/20” 2”21/40” 3”41/max” label value Ej. label value edad edad • generate • gen • gene • gener Ej. gen edad2=edad • recode • rec • reco • recod Ej. recode edad2 min/45=1 45/max=2 • replace • rep • repl Ej. replace edad=1 if edad<=20 Keep drop Ej. drop all (borra todas las variables) drop edad (borra la variable edad) Sort Ej. sort folio (ordena numéricamente por folio la base de datos) order Ej. order edad talla genero Move Ej move peso save as save, replace
USO Se utiliza para ver la hoja con los datos (tabla) Para edición de la base de datos Para listar observaciones y las variables de cada individuo Para etiquetar variables Para cambiar la codificación de la variable Para asignar los valor etiquetados a las variables Para genera una nueva variable idéntica a partir de una existente en la base de datos. En este caso se ejemplifica la generación de una variable idéntica a la edad Para recodificar los valores o categorías de una variable. En este caso se ejemplifica la recategorización de variable edad2 generada.
Para reemplazar valores o categorías de una variable. En este caso se ejemplifica el reemplazo de las edades menores o iguales a 20 por el valor 1 en la variable edad. Para guardar variables, principalmente con el fin de construir una nueva base de datos a partir de una existente Para borrar variables Para ordenar las variables de la base de datos Para cambiar orden de las variables dentro de la base de datos Para mover o ubicar una variable en la hoja de datos al comienzo Para guardar los cambios de la base de datos Para guardar los cambios de la base de datos
2
clear
Para cerrar base de datos o limpiar comandos anteriores •
PASO 1 2
COMANDO using a:/nombre de la base principal.dta sort folio
3
Keep folio var1 var2.... varp
4
save as a:/nombre de la base de datos hija.dta using a:/nombre de la base.dta
5
•
COMANDOS PARA PEGAR BASES DE DATOS
6
Sort folio
7 8
merge folio using a:/ nombre de la base de datos hija.dta tab_merge
9
save, replace
10 11
describe drop _merge
USO Para abrir una base genérica localizada en A Organizar esta base de datos de acuerdo con el número de folio Selección de las variables que se desean conservar Guardar archivo de las variable seleccionadas en el punto anterior Para abrir la base a la cual deseamos pegar las variables seleccionadas archivo: nombre de la base de datos hija.dta Organizar esta base de datos con base en la variable folio. La variable folio debe ser igual en todos los archivos Para unir las variables al archivo en uso. La unión se evidencia por la creación automática de la variable _merge Para verificar la unión. Debe observarse una sola categoría (3) con el total de las observaciones Para guardar los cambios hechos en la base de datos nombre de la base principal.dta Para revisar que la nuevas variables fueron incluidas Para borrar la variable creada _merge, dejando la posibilidad de nueva uniones
CREACIÓN DE UN ARCHIVO DO
Es un archivo que construye incluye la relación de todos los comandos necesarios para abrir, ejecutar y analizar una base de datos. Es una rutina de comandos. 2. ANALISIS DE BASES DE DATOS •
COMANDOS DESCRIPCIÓN UNIVARIADA
COMANDO • summarize • summ • sum Ej. summ edad peso talla • summarize • summ • sum adicionando var, detail Ej. summ edad,de
USO Para estimar de una o más variables continuas numero de observaciones, media, desviación estándar y rango. En el ejemplo se describirán las variables edad, peso y talla Para estimar de una o mas variables continuas numero de observaciones, medidas de tendencia central, valores mínimos y máximos, medidas de dispersión, Percentiles, curtosis y sesgo (mayor detalle).
3
• • Ej. • • Ej.
tabulate tab tab raza tabulate1 tab1 tab1 raza nivelsoc genero
lv graph var Graph var, box graph var, norm qnorm var Sktest var
swilk var ladder var
•
Para estimar en una variable categórica número de observaciones, porcentaje y frecuencia acumulada Para estimar simultáneamente en mas de una variable categórica número de observaciones, porcentaje y frecuencia acumulada Para observar dispersión de los datos y valores aberrantes Para ver la distribución de una variable continua Para ver la distribución en caja de una variable continua Para ver la distribución de una variable continua comparada con el patrón de distribución normal Para realizar la prueba estadística de normalidad de una variable continua (Ho: distribución normal). Ofrece los datos de curtosis y sesgo (la distribución normal tiene una curtosis de 3 y un sesgo de cero) Prueba de Shapiro Wilk para probar normalidad de una variable continua (Ho: la variable tiene distribución normal) Para comprobar objetivamente la normalidad de una variable continua y evaluar sus posibles trasformaciones en búsqueda de normalidad en su distribución. Ho: la variable continua transformada tiene distribución normal
COMADOS PARA ANÁLISIS BIVARIADO
COMANDO USO RELACIÓN VARIABLE CONTINUA VS. DICOTÓMICA sdtest var, by(var) Se utiliza para comparar las varianzas una Ej. sdtest edad, by(genero) variable continua con una dicotómica. Ho: las varianzas son iguales ttest var, by(var) Si las varianzas son iguales. Compara las medias una variable continua con una dicotómica. Ho: las medias de las categóricas son iguales. ttest var, by(var) unequal Si las varianzas no son iguales. Compara las medias una variable continua con una dicotómica. Ho: las medias de las categóricas son iguales. tab var, summ (var) Muestra una tabla de contingencia que Ej. tab genero, summ (edad) relaciona una variable dicotómica con una continua Regresión lineal con un sólo regresor • regress • reg reg vardep varindep RELACIÓN VARIABLE DICOTÓMICA VS. DICOTÓMICA
4
tab var var,chi2
Relaciona dos variables dicotómicas mediante una prueba de chi2 tab var var, row cell exact, all Relaciona dos variables categóricas, calcula porcentaje dentro de las filas y las columnas, además de la prueba exacta de Fisher cuando se tiene una celda con menos de 5 observaciones. tabi a b c d Realiza una tabla de contingencia con los valores exactos de las celdas, además de la prueba de chi2 cc var var Permite obtener la razón de momios relacionando dos variables dicotómicas cci a b c d Relaciona una tabla de contingencia con los valores exactos de las celdas, además de la prueba de chi2. Ofrece el OR cs var var Permite obtener RR relacionando dos variables dicotómicas csi a b c d Para realizar una tabla de contingencia con los valores de agrupados de la tabla. Calcula el RR logit vardep varindep Permite realizar una regresión logística con un sólo regresor Logistic vardep varindep RELACIÓN VARIABLE CONTINUA VS. CATEGÓRICA DE MAS DE DOS CATEGORIAS tab var, summ (var) anova Realiza una tabla de contingencia que Ej. tab genero, summ (edad) relaciona una variable categórica con una continua. Ofrece diferencia de medias y varianza entre las categorías oneway var var, means bonferroni Permite comparar medias y varianzas entre los grupos. Para medias: Ho: Las medias son diferentes H1: Al menos una media es diferente. Prueba Barttlet (varianzas): Ho: Las varianzas son iguales H1: Al menos una varianza es diferente. RELACIÓN VARIABLE CONTINUA VS. CONTINUA Correlación de Pearsón. Esta correlación pwcorr var var, sig ajusta por el numero de regresores. El corr var var, sig calculo toma en cuenta el numero de observaciones completas. pcorr var var Correlación parcial. El calculo se realiza sin ponderar por otras variables plot var1 var2 Permite graficar en diagrama de dispersión dos variables continuas ksm var1 var2, lox Permite graficar en diagrama de dispersión dos variables continuas con técnica de suavizamiento • •
• CONTRUCCIÓN DE VARIABLES DUMMY PARA VARIABLES DE MAS DE DOS CATEGORIAS
5
COMANDO tab var,gen (var)
•
USO Para generar variables indicadoras de una variable de más de dos categorías
ANÁLISIS MULTIVARIADO
COMANDO pwcorr vardep varindep1 varindep2….. varindepp, sig pcorr vardep varindep1 varindep2….. varindepp Opciones: regress/reg reg vardep varindep1 varindep2 varindep3..........varindepp logit vardep varindep1 varindep2…. varindepp
Logistic vardep varindep1 varindep2…. Varindepp
glm vardep varindep1 varindep2.... varindepp, family (poisson) link (log) lnoff(exposure) nolog Poisson vardep varindep1 varindep2..... varindepp, exp(exposure) nolog
Poisson vardep varindep1 varindep2..... varindepp, exp(exposure) nolog irr
USO Correlación de Pearsón. Esta correlación ajusta por el numero de regresores. Solo se usa para variables continuas Correlación parcial. Sin ponderación por otras variables. Solo se usa para variables continuas Comando para regresión lineal múltiple para análisis multivariado con una variable dependiente continua y n variables independientes de cualquier tipo Comando para regresión logística múltiple con una variable dependiente dicotómica y n variables independientes de cualquier tipo. Los resultados estimados están en escala logarítmica, lo que permite estimar probabilidades y proporciones ajustadas en estudios de cohorte y transversales respectivamente Comando para regresión logística múltiple con una variable dependiente dicotómica y n variables independientes de cualquier tipo. Los resultados estimados están en escala real (razones de momios en estudios de casos y controles y razones de momios de prevalencia en estudios transversales). Comando para usar el modelo lineal generalizado para una variable con distribución poisson medida como conteo (regresión poisson) y n variables independientes de cualquier tipo Comando para regresión poisson múltiple para análisis multivariado con una variable dependiente de conteo y n variables independientes de cualquier tipo. Los resultados están en escala logarítmica Comando para regresión poisson múltiple para análisis multivariado con una variable dependiente de conteo y n variables independientes de cualquier tipo. Los resultados están en escala real (riesgos relativos) Nota: la variable exposure se utiliza para ajustar, cuando los denominadores no son iguales El uso de nolog es opcional, omite las iteraciones de realiza el paquete estadístico.
6
sw Ej. sw logit vardep varindep1 varindep2.... varindepp, pr(0.2) Forward = pe Backward = pr
El stepwise es un comando que le solicita al paquete estadístico la búsqueda de un modelo perfecto estadísticamente. Se ajusta con los valores de p esperados en las relaciones. Usado para cualquier tipo de regresión
3. DIAGNOSTICO DE MODELOS MULTIVARIADOS REGRESIÓN LINEAL MULTIPLE COMANDO USO VERIFICACIÓN DE SUPUESTOS / ANÁLISIS DE RESIDUOS predict nombre de la variable de Una vez corrido el modelo propuesto, residuos, rstudent generar residuos estudentizados rvpplot varind1 Permite graficar los residuos estudentizados con cada variable independiente qnorm nombre de la variable de residuos Permite comprobar la normalidad de los residuos generados swilk nombre de la variable de residuos rvfplot, yline(0) Permite comprobar el supuesto de que la media de los residuos es cero y la varianza es constante Hettest Esta prueba es la de heterocedasticidad (Cook-Weisberg), se usa para comprobar el supuesto de que los residuos tienen varianza constante. Ho: los residuos no tienen varianza constante DETERMINACIÓN DE PUNTOS INFLUYENTES predict nombre de la variable, hat Para predecir los valores de la matriz sombrero count nombre de la variable >2*p/n Para contra los valores mayores a 2p/n List if nombre de la variable >2*p/n Para listar los folios de los puntos mayores de 2p/n PUNTOS INFLUYENTES EN EL VECTOR BETA (distancia de Cook) predict nombre del archivo, cooksd Habiendo corrido el modelo propuesto se predicen los valores entre cada observación y la nube de puntos Count nombre de la variable >1 Para contar los puntos fuera con una distancia mayor de 1 PUNTOS INFLUYENTES EN CADA BETA dfbeta Permite calcular los dbeta de cada regresor sum dfvarind1 dfvarind2..... dfvarindp Permite observar el rango y la media de los dbeta de cada regresor for var dfvarind1 dfvarind2....... Permite identificar los puntos influyentes de dfvarindp:count if abs(X)>2/sqrt(n) cada regresor Nota: Cuando hay una incongruencia de detectar puntos influyentes en cada beta, pero no en el vector se calculan los puntos influyentes en los valores predichos Dfit predict nombre de la variable, dfits Permite predecir los valores predichos sum nombre de la variable Permite la observación de los rangos y la media de los valores predichos count if abs(dfit)>2*sqrt(p/n) Permite contar los valores predichos mayores de 2sqrt(p/n) list vardep varind1 varind2….varindp if Permite listar los valores predichos mayores
7
abs(dfit)>2**sqrt(p/n)
vif
de 2sqrt(p/n) Nota: luego de omitir los puntos influyentes debe correrse nuevamente el modelo. ANÁLISIS DE MULTICOLINEALIDAD Una vez corrido el modelo propuesto se calcula el factor de inflación de la varianza. Valores mayores de 10 indican multicolinealidad
REGRESIÓN POISSON COMANDO USO PRUEBAS DE BONDAD DE AJUSTE poisgof Una vez corrido el modelo propuesto y posteriormente el modelo nulo se realiza esta prueba de bondad de ajuste que compara estos modelos. Ho: el modelo propuesto ajusta los datos (los regresores incluidos explican a Y). Lrtest, s(0) Una vez corrido el modelo propuesto se escribe el comando “lrtest, s(0)”, luego se corre el modelo nulo y el comando “lrtest”. Esta prueba de bondad de ajuste compara los dos modelos, bajo la Ho: los dos modelos explican igualmente el comportamiento de Y ANÁLISIS DE RESIDUOS glmpred nombre de la variable de los Permite generar los residuos de devianza residuos, dev sum nombre de la variable de los Permite la observación de las características residuos de los residuos de devianza qnorm nombre de la variable de los Permite determinar la distribución de los residuos residuos de devianza swilk var Prueba de Shapiro Wilk para probar normalidad de los residuos de devianza (Ho: los residuos de devianza tiene distribución normal) REGRESIÓN LOGISTICA COMANDO USO PRUEBAS DE BONDAD DE AJUSTE lfit Una vez corrido el modelo propuesto se utiliza esta prueba para verificar si el modelo ajusta los datos. Ho: el modelo ajusta los datos lfit, group(10) Modificación propuesta por Hosmer y Lemeshow. Ua vez corrido el modelo propuesto se utiliza esta prueba para verificar si el modelo ajusta los datos. Ho: el modelo ajusta los datos lstat Permite evaluar sensibilidad y especificidad del modelo, además de los falsos positivos y negativos.
8
GRAFICAS DIAGNOSTICAS Permite evaluar el valor predicitvo del modelo. Un modelo sin valor predictivo tiene área 0.5 y un modelo perfecto tendría área 1 lsens A través de una grafica, relaciona sensibilidad y especificidad del modelo. ANÁLISIS DE RESIDUOS lpredict nombre de la variable de los Permite generar residuos estandarizados residuos graph res nombre de la variable de los Permite graficar los residuos residuos graph res nombre de la variable de los residuos, yline(0) sum nombre de la variable de los Permite la observación del rango y la media residuos de los residuos estandarizados lpredict dbetas, dbeta Permite generar dbetas, en búsqueda de puntos influyentes de cada regresor (beta) sum dbeta Permite observar el rango y la media de los dbetas graph res nombre de la variable de los residuos, twoway oneway box border yline(0) lroc
4. ANALISIS DE SUPERVIVENCIA la estimación de supervivencia se hace con métodos no paramétricos, usaremos Kaplan Meier. Análisis utilizado para estudios longitudinales. Tiene las siguientes características: • Presencia fundamental de censura • Presencia de fallas (evento) • La variable dependiente o respuesta es el tiempo • El evento esta medido categóricamente COMANDO stset tiemdd censura1 tab censura1 . sum tiemdd, detail . sts list
USO Prepara a STATA para el análisis de supervivencia. Se le indica la variable tiempo y censura Permite la observación de la variable censura Permite la observación de los valores máximos y mínimos de la variable tiempo. Incluye fallas y censuras La descripción se hace mediante la construcción de tablas de vida. Los principales parámetros son: • Time: tiempo de supervivencia • Begtotal= individuos vivos justo antes de este tiempo. • fail=Numero de fallas • fail/beg total= probabilidad estimada de supervivencia en el tiempo • S estimada= producto de el No. de sujetos vivos antes del tiempo - No. de
9
. sts list, by(pap)
. sts graph . sts graph, by(etapa) . sts test etapa,logrank
• fallas / No. de individuos que están vivos antes del tiempo. • S estimada es la función de supervivencia. Este analisis esta ajustado por el tiempo de las censuras. Permite la construcción de una tabla de vida estratificando por una variable. En este ejemplo vemos la supervivencia de las mujeres con antecedente de pap Nota: No se pueden hacer análisis de inferencias en bivariados. Los anteriores comandos grafican. las rayas horizontales muestran las censuras y las verticales las fallas. Logrank se usa para ver diferencias en las curvas de supervivencia observadas en Kapplan M. Ho= no hay diferencia entre las líneas
NOTA: El análisis bivariado y multivariado se hace mediante el modelo de riesgos proporcionales de cox.
10
Comandos y su descripción:
Ma. Esperanza Lucas Resendiz Append. Este comando permite unir a las observaciones de dos bases de datos y no a través de variables completas. Browse. Favorece la visualización de datos de la base en la hoja de captura sin la posible opción de modificación. by var: sum var, detail Como variante del sum condiciona por cualquier variable la descripción en detalle de cualquier otra centile Permite observar los percentiles que se deseen de X variable con característica de continua para que de esta forma pueda ser poder dividirla en categorías. Clear Este comando oculta la base de datos sin que se salve y sin que sea necesario salir del programa Codebook A través de este comando se explora una variable X ayudando a recordar sus valores. corr var var A través de este comando se establece la correlación entre dos o más variables count if abs (cook)>1 Se despliega el valor entre los residuos y beta count if abs(dfits)>2*sqrt(p/n) Cuenta los puntos influyentes de los valores predichos mismos que no deben sobrepasar de 2*sqrt(p/n). count if abs(DFvar1)>2/sqrt(n) Cuenta los puntos influyentes en cada una de las variables independientes (X) del modelo, mostrando el número de ellos, que no debe sobrepasar de 2/sqrt(n) count if abs(resid)>1.96 Presente el conteo de residuales mayores a 1.96 describe Es la descripción de una base de datos en general y de una variable (X) en particular dfbeta Se generan las distancias de diferentes variables independientes incluidas en el modelo (X), es decir las distancias entre residuos y el beta-j display Este comando sirve para realizar cualquier operación matemática. drop Borra variables a indicación del investigador. drop var-var Borra desde una variable inicial hasta una variable final. edit Este comando permite la visualización de los datos de la base en la hoja de captura con opción de algún tipo de modificación. exit, clear Este comando se emplea para salir del programa preservando el log pero sin salvar la base. fpredict dfits, dfits A través de este comando se generan las distancias existentes entre los valores observados o predichos y los esperados. gen
11
Se genera una nueva variable que puede ser independiente o bien ser origen de otra. graph DFvar1 DFvar2, box yline Permite realizar un gráfico de caja condicionado con la finalidad de visualizar puntos influyentes. graph res pred Se grafican los residuos estandarizados graph res pred, yline twoway onaway box border Se grafican los residuos estandarizados, con una línea paralela al eje de las x´s perpendicular al eje de las (y), incluyendo además, a un box plot paralelo a ambos ejes, mostrando valores aberrantes. graph res pred, yline(0) Esta grafica permite ver los residuos estandarizados, con una línea paralela al eje de las X perpendicular al eje de las Y. graph var Permite realizar de forma sencilla, un histograma de una variable(X, Y). graph var var Permite realizar un gráfico de correlación entre dos variables visualizando la tendencia graph var var, connect(l) Se realiza un gráfico de correlación entre dos variables con una línea que permite unir todas las observaciones. graph var, box Diagrama o gráfico de caja. graph var, box by Diagrama o gráfico de caja condicionado por valores de cualquier otra variable graph var, box by(var) yline Presenta una línea paralela al eje de las (X) y compatible en valores con eje de las (Y) en diagrama de caja que compara dos variables. graph var, his Se realiza un histograma sencillo de la variable solicitada. graph var, his norm Permite realizar un histograma con línea de distribución visible. graph var, his norm noaxis Permite realizar un diagrama de frecuencias con línea de distribución visible. graph var, his ylabel xlabel Etiqueta un diagrama de frecuencias(histograma) en sus ejes de manera automática. Keep Retiene en la base de datos, solo las variables que se deseen, eliminando automáticamente todas aquellas variables que no se escribieron posterior al comando. keep if Retiene los valores de una variable (X) de forma condicionada. ksm var var Permite realiza una diagrama de correlación entre dos variables continuas, presentando una línea suavizada que se emplea para hacer un promedio de los valores de ambas variables, pudiendo observarse una tendencia. label data Etiqueta la base de datos completa con el nombre que el investigador asigne. label define Este comando permite etiquetar categorías de exposición o grupos previamente recodificados. label values A través de este comando es posible observar como fueron nombradas las categorías de exposición y sus valores después de haberse etiquetado. label var Etiqueta variables. ladder
12
Permite visualizar los diferentes tipos de transformaciones de una variable para así, poder elegir la mejor transformación. lfit A través de este comando se permite evaluar la prueba de Hosmer Lemeshow y ver si los datos se ajustan al modelo. lincom var-var Realiza un prueba de asociación (OR, p, IC) entre las diferentes categorías de una variable evaluando su igualdad y de esta forma se agrupen con la condición de haber corrido previamente un modelo de regresión. List Permite explorar a la variable. list folio if abs (DFvar1)>2/sqrt(n) Enlista los folios con puntos influyentes de una variable DF en particular. list folio if cook>1 Indica folios de valores influyentes. list folio if dfits>2*sqrt(p/n) Muestra a los folios con valores influyentes. list folio if resid>1.96 Muestra folios que contienen los residuos condicionados a >1.96. list if Condiciona la observación a un valor específico. list if abs(dfits)>2*sqrt(p/n Lista puntos influyentes en los valores predichos. list if abs(DFvar1)>2/sqrt(n) Lista puntos influyentes de la primera variable DF mostrando los datos de todas las variables de la base, incluyendo las nuevas variables que recién fueron generadas. list if abs(resid)>1.96 Lista los residuos mayores a 1.96. list var-var if Lista las variables desde una inicial hasta una final (condicional). log off Deshabilitar el log. log on Habilita el log. logistic var var Realiza un modelo de regresión logística bivariado así como multivariado. lpredict dbet, dbeta Sirve para generar residuos generando las distancias de diferentes variables independientes incluidas en el modelo. lpredict res, rstandard Muestra los residuos estandarizados. lpredict stand Genera los residuos estandarizados. lroc Diagnóstico del modelo através de la interpretación del área bajo la curva condicionado por puntos de corte en su sensibilidad así como de su especificidad. lstat Hace diagnóstico del modelo a través de una prueba de tamiz. lv var Gráfico de letras, mostrando valores aberrantes. merge Permite reunir dos bases de datos que tienen al menos una variable en común. predict cook, cooksd Puntos influyentes en beta por la distancia de cook. predict r_stu, rstu
13
Genera los residuos estudentizados posterior a correr un modelo de regresión múltiple. pwcorr var var Correlación entre dos o más variables. pwcorr var var if A través de este comando se puede establecer una correlación condicionada entre dos o más variables por valor(es) de una de ellas con o sin significancia estadística. pwcorr var var, sig Permite establecer correlación entre dos o más variables, con valor de significancia estadística. qnorm resid Gráfica de los residuos ajustándolos a una línea de distribución normal. qnorm var Gráficos que muestran el ajuste en una curva de distribución normal a los datos por observacion. recode Recodifica los valores de una variable (grupos o categorías de exposición) de acuerdo a determinados puntos de corte biológicamente plausibles o por estadística. regress Realiza una regresión lineal simple o múltiple. regress var var if Realiza una regresión lineal simple o múltiple de manera condicionada. rename Cambia el nombre a una variable. replace Reemplaza/modifica categorías de una variable. replace var if Reemplaza/modifica categorías de una variable(condicionada) por la misma o por otra variable. save, replace Salva la base de datos por las últimas modificaciones. sort Ordena los datos de una variable que pueden evaluarse con la indicación "by" stem var Diagramas de tallo y hoja. sum cook Resumen de datos que permiten observar el tamaño de la distancia a la beta siendo deseable que esta distancia de cook <1. sum dfit Visualiza las distancias entre valores predichos y esperados. sum DFvar1 DFvar2 DFvar3 Visualiza los puntos influyentes en beta-j. sum var if Descripción de la variable acotada a valor(es) considerados por el investigador. sumarize A través de este comando se pueden describir una-mas variables resumiendo medidas de tendencia central y la distribución. sumarize var, detail Describe una-mas variables resumiendo sus medidas de tendencia central y su distribución. tab var if Permite a través de este comando observar datos de una variable acotados a cierto valor(es). tab var var Explora dos variables. tab var, gen (var)
14
A través de este comando se producen a las variables indicadoras o dummies para cada una de las categorías de la variable. tab var, sum var Cruza datos descriptivos (medidas de tendencia central de la segunda variable) por categorías de la primera variable permitiendo hacer un análisis de las variables por grupos. tab_merge Visualiza la variable generada del comando merge. tabulate Explora variable(s). tabulate var, nolabel Borra la etiqueta de las categorías que tenga la variable. ttes var if Prueba de t de student condicionada por un valor(es). ttest Prueba de t de student de comparación de dos medias muestrales. ttest var, by(var) Prueba de t de student condicionada a la variable dependiente vif Inflación de la varianza (multicolinealidad). Para descartar multicolinealidad el vif debe ser <10.
15