Cómo Hacer un TFG con Datos Secundarios Paso a Paso: del INE al Capítulo de Resultados 2026
Muchos estudiantes de Enfermería, Educación Social, Trabajo Social, Economía o Sociología se enfrentan a una realidad incómoda cuando llegan al TFG: recoger datos primarios es inviable. El acceso a pacientes requiere aprobación del comité de ética, las encuestas propias tardan meses y la muestra nunca es suficientemente grande. La solución que ya usan los investigadores profesionales —y que cada vez más tutores aceptan y valoran en los TFGs— es trabajar con datos secundarios. El INE, Eurostat, la OECD y el Ministerio de Educación publican cada año decenas de bases de datos de alta calidad, de libre descarga, con muestras de miles o decenas de miles de personas.
Esta guía te muestra el pipeline completo y reproducible: desde localizar la base de datos correcta en el INE hasta tener las tablas y gráficos listos para pegar en el capítulo de Resultados. No necesitas experiencia previa en programación; los pasos con R incluyen el código exacto que debes copiar, y Jamovi ofrece una interfaz gráfica para los análisis estadísticos sin escribir una sola línea.
Cuándo y por qué usar datos secundarios en el TFG
El análisis de datos secundarios no es un atajo de segundo nivel: es la metodología estándar en epidemiología, demografía, economía laboral y ciencias de la educación. Los datos que publica el INE (Instituto Nacional de Estadística) se recogen con muestras probabilísticas de miles de hogares o instituciones, lo que ningún TFG individual podría replicar.
Usar datos secundarios es especialmente adecuado cuando:
- Tu grado requiere aprobación ética para acceder a participantes (Enfermería, Psicología, Trabajo Social).
- Necesitas datos longitudinales o de años anteriores a la matrícula de tu TFG.
- Tu pregunta implica toda la población española o europea, no una muestra de conveniencia.
- No tienes tiempo ni recursos para recoger datos primarios con garantías metodológicas.
- Tu tutor prefiere que te centres en el análisis e interpretación, no en la logística de recogida de datos.
Las 6 fuentes de datos secundarios más usadas en TFGs españoles
| Fuente | Tipo de datos | Formato descarga | Mejor para |
|---|---|---|---|
| INE (ine.es) | Población, empleo, salud, educación, TIC | CSV, Excel, SDMX | TFGs sobre España |
| Eurostat (ec.europa.eu/eurostat) | Comparativa UE: empleo, educación, PIB | CSV, Excel, API JSON | Análisis comparativo europeo |
| OECD Data (data.oecd.org) | Educación (PISA, EAG), salud, empleo | CSV, SDMX, API | Educación comparada y ADE |
| MEFP (educacion.gob.es) | Estadísticas educación no universitaria y universitaria | Excel, PDF | Pedagogía, Educación Social |
| SEPE (sepe.es) | Paro registrado, demandantes, contratos | Excel, CSV | Economía, RRLL, Sociología |
| Microdatos INE (ine.es/prodyser/microdatos) | Ficheros de microdatos individuales anonimizados | TXT, SPSS, Stata | Análisis multivariante avanzado |
Qué necesitas antes de empezar
- R + RStudio (gratuitos): posit.co/download/rstudio-desktop/
- Jamovi (gratuito): jamovi.org/download.html
- Paquetes de R:
tidyverse,readxl,visdat,labelled(se instalan coninstall.packages()) - Cuenta en INE / Eurostat (no requerida para descarga básica)
- Zotero para citar las fuentes de datos (opcional pero recomendado)
Tiempo estimado para dominar el pipeline completo: 6-8 horas la primera vez. La segunda, 2 horas.
Paso 1 — Formular la pregunta de investigación y elegir la fuente
El error más frecuente es descargar primero un dataset y luego buscar qué analizar. El proceso correcto es el inverso: parte de la pregunta, luego busca la fuente.
Usa el esquema PICO (Problema, Intervención, Comparación, Outcome) si tu grado es sanitario, o el esquema PEC (Población, Exposición, Comparación) si es social. Ejemplos concretos para grados españoles:
| Grado | Pregunta de investigación | Fuente recomendada |
|---|---|---|
| Enfermería | ¿Difiere la prevalencia de diabetes tipo 2 por nivel educativo en España? | Encuesta Nacional de Salud (ENSE) — INE |
| Educación Social | ¿Qué factores socioeconómicos predicen el abandono escolar temprano en España 2016-2024? | Encuesta de Población Activa (EPA) + MEFP |
| ADE / Economía | ¿Correlaciona el salario mínimo con la tasa de paro juvenil en la UE-27? | Eurostat — Labour Market Statistics |
| Sociología | ¿Han convergido los niveles educativos por género en España 2004-2024? | INE — Encuesta de Condiciones de Vida |
Una vez tienes la pregunta, busca en las fuentes de la sección anterior el nombre exacto de la operación estadística. En el INE, cada operación tiene un código (por ejemplo, la EPA es la operación 10270). Anotarlo es importante para citarla correctamente en la metodología.
Paso 2 — Descargar y documentar los datos
En el INE
- Ve a ine.es y navega hasta la operación estadística que te interesa (por ejemplo, Encuesta de Población Activa en Mercado Laboral).
- Selecciona las variables, el período temporal y la desagregación geográfica que necesitas.
- Haz clic en “Exportar datos” y elige CSV separado por punto y coma (evita el formato Excel con el INE porque puede incluir encabezados dobles).
- Copia la URL permanente del recurso (icono de cadena junto al título de la tabla). Esta URL va en tu bibliografía.
- Anota: año de referencia, última actualización, notas metodológicas (en la pestaña “Información”).
En Eurostat
- Ve al Eurostat Data Browser.
- Busca por código de dataset (por ejemplo,
edat_lfse_14para abandono escolar temprano) o por palabras clave. - Filtra por años y países. Para España, selecciona ES.
- Descarga en CSV (table format). El fichero incluye una columna de metadatos que debes conservar.
- El DOI del dataset Eurostat es el identificador que usarás en la bibliografía APA 7.
datos-originales/ en tu proyecto y guarda allí los ficheros descargados sin modificarlos. Nunca sobreescribas los datos originales. Esto garantiza la reproducibilidad y lo podrás mencionar explícitamente en la metodología del TFG.
Paso 3 — Limpiar el dataset en R paso a paso
Si nunca has usado R, no te preocupes: el código siguiente funciona copiando y pegando en RStudio. Abre un nuevo Script (Ctrl+Shift+N) y escribe o pega el código por bloques.
3.1 — Instalar y cargar paquetes
# Solo la primera vez:
install.packages(c("tidyverse", "readxl", "visdat", "labelled", "janitor"))
# Cada vez que abras el proyecto:
library(tidyverse)
library(readxl)
library(visdat)
library(janitor)
3.2 — Importar el fichero
# Para CSV del INE (separado por punto y coma, codificación Latin-1):
datos_raw <- read_delim(
"datos-originales/epa_2024_t4.csv",
delim = ";",
locale = locale(encoding = "latin1", decimal_mark = ","),
skip = 2 # salta los 2 encabezados del INE
)
# Para Excel del MEFP o SEPE:
datos_raw <- read_excel("datos-originales/estadistica_abandono_2024.xlsx",
sheet = 1, skip = 4)
3.3 — Explorar y detectar problemas
glimpse(datos_raw) # tipos de variable y primeras filas vis_miss(datos_raw) # mapa visual de valores perdidos (genera un gráfico) summary(datos_raw) # estadísticos básicos por columna
La función vis_miss() genera un gráfico que puedes exportar y pegar en el apéndice del TFG como justificación de las decisiones de limpieza. Muestra qué porcentaje de datos falta en cada variable.
3.4 — Limpiar nombres, filtrar y recodificar
datos_limpios <- datos_raw |>
clean_names() |> # nombres de columna en snake_case
filter(!is.na(comunidad_autonoma)) |> # elimina filas de totales nacionales
filter(year >= 2014) |> # acota el período de análisis
mutate(
sexo = recode(sexo,
"1" = "Hombre",
"6" = "Mujer"),
nivel_educativo = factor(nivel_educativo,
levels = c("1","2","3","4"),
labels = c("Primaria","Secundaria","FP","Universidad"))
) |>
select(year, comunidad_autonoma, sexo, nivel_educativo, tasa_actividad)
# Guardar versión limpia (no sobreescribe el original):
write_csv(datos_limpios, "datos-procesados/epa_2014_2024_limpio.csv")
3.5 — Exportar para Jamovi
Jamovi lee directamente archivos .csv, .sav (SPSS) y .omv. El fichero datos-procesados/epa_2014_2024_limpio.csv que acabas de crear está listo para abrir en Jamovi sin más preparación.
Paso 4 — Analizar con Jamovi (sin código)
Jamovi es una alternativa gratuita y de código abierto a SPSS, con una interfaz gráfica intuitiva y exportación de tablas en formato APA 7 automática.
4.1 — Abrir el dataset
- Abre Jamovi → Archivo → Abrir → selecciona tu
.csvprocesado. - En la pestaña Variables, verifica que el tipo de cada variable es correcto (Ordinal, Nominal, Continua). Si una variable categórica aparece como numérica, haz clic en su nombre y cambia el tipo.
4.2 — Estadísticos descriptivos
Análisis → Estadísticos descriptivos. Selecciona las variables relevantes. Activa: Media, Mediana, Desviación Típica, Mínimo, Máximo, Histograma. Jamovi genera la tabla automáticamente en formato APA.
4.3 — Pruebas de asociación o diferencias
| Pregunta de investigación | Test en Jamovi | Ruta en menú |
|---|---|---|
| ¿Difieren dos grupos en una variable continua? | t de Student / Mann-Whitney | Análisis → t-Tests → Independent Samples |
| ¿Difieren 3+ grupos? | ANOVA de un factor | Análisis → ANOVA → One-Way ANOVA |
| ¿Correlacionan dos variables continuas? | r de Pearson / rho Spearman | Análisis → Regression → Correlation Matrix |
| ¿Predice X a Y (continua)? | Regresión lineal múltiple | Análisis → Regression → Linear Regression |
| ¿Hay asociación entre dos categóricas? | Chi-cuadrado | Análisis → Frequencies → Contingency Tables |
4.4 — Exportar tablas y gráficos
En Jamovi, haz clic derecho sobre cualquier tabla de resultados → Copiar (copia en formato HTML) o usa el botón de los tres puntos → Guardar imagen para los gráficos. Las tablas en HTML se pueden pegar directamente en Word manteniendo el formato APA 7.
Paso 5 — Redactar el capítulo de Resultados
El capítulo de Resultados sigue una estructura fija en todos los TFGs con datos secundarios. La estructura por párrafos es:
- Párrafo de recuerdo del objetivo: “El primer objetivo de este estudio era determinar si la tasa de abandono escolar temprano difería según el nivel socioeconómico de la comunidad autónoma de residencia.”
- Descripción del análisis: “Para responder a este objetivo se realizó un análisis de varianza de un factor (ANOVA), tomando como variable dependiente…”
- Presentación de la tabla o figura: “La Tabla 1 muestra los estadísticos descriptivos por comunidad autónoma. Como se puede observar…”
- Interpretación del estadístico: “El ANOVA resultó significativo, F(16, 183) = 8.34, p < .001, η² = .42, indicando que…”
- Frase de cierre: “Estos datos confirman la hipótesis 1 del estudio.”
Plantilla de párrafo para reportar una correlación de Pearson
Se analizó la relación entre [VARIABLE X] y [VARIABLE Y] mediante la correlación de Pearson. Los resultados indicaron que existe una correlación [positiva/negativa] [débil/moderada/fuerte] y estadísticamente significativa entre ambas variables, r([GRADOS DE LIBERTAD]) = [VALOR r], p = [VALOR p], IC 95% [LÍMITE INFERIOR, LÍMITE SUPERIOR]. Esto indica que a medida que aumenta [VARIABLE X], [VARIABLE Y] tiende a [aumentar/disminuir] en [DESCRIPCIÓN].
Cómo referenciar una fuente de datos secundarios en APA 7
Para citar una base de datos del INE en el texto: (Instituto Nacional de Estadística [INE], 2024). En la lista de referencias:
Instituto Nacional de Estadística. (2024). Encuesta de Población Activa (EPA). Cuarto trimestre de 2024. [Conjunto de datos]. https://www.ine.es/jaxiT3/Tabla.htm?t=4247
Bonus: Notebook Jupyter como anexo reproducible
Si quieres demostrar rigor metodológico adicional —y diferenciarte del 95% de los TFGs de tu promoción— incluye un Jupyter Notebook como Anexo digital. Un Jupyter Notebook combina el código R o Python con el texto explicativo y los gráficos en un único documento .ipynb que cualquier persona puede ejecutar y obtener los mismos resultados.
Pasos para crear el anexo reproducible:
- Instala Jupyter a través de Anaconda (incluye Python y Jupyter).
- Instala el kernel de R para Jupyter con el paquete
IRkernel: en R, ejecutaIRkernel::installspec(). - Crea un notebook nuevo, elige el kernel R y pega el código de limpieza y análisis que desarrollaste en RStudio.
- Añade celdas de texto (Markdown) antes de cada bloque de código explicando qué hace cada paso y por qué.
- Guarda el notebook en la misma carpeta que el .csv. Comprímelo todo en un .zip y súbelo al repositorio institucional como Anexo 1 junto con el PDF del TFG.
Al mencionar el notebook en la metodología del TFG, puedes escribir: “El proceso de limpieza y análisis de datos es completamente reproducible. El código está disponible en el Anexo 1 (Jupyter Notebook) junto con los datos procesados.” Esto es exactamente el tipo de rigor que los tribunales de TFG valoran cada vez más en 2026.
Cómo justificar el uso de datos secundarios ante el tribunal
Dedica un párrafo específico en la sección de Metodología para justificar la elección de datos secundarios. Un ejemplo bien construido:
“Para responder a los objetivos de este estudio se utilizaron datos secundarios procedentes de la Encuesta Nacional de Salud de España (ENSE) 2020, publicada por el Instituto Nacional de Estadística. La decisión de emplear datos secundarios en lugar de recogida primaria se fundamenta en tres razones: (1) la ENSE cuenta con una muestra probabilística estratificada de 22.072 personas, representativa de la población española mayor de 15 años, lo que garantiza una potencia estadística muy superior a cualquier recogida primaria factible en el marco de un TFG; (2) el acceso directo a participantes de salud habría requerido aprobación del Comité de Ética de Investigación, incompatible con los plazos del trabajo; y (3) los datos de la ENSE son públicos, gratuitos y citables, lo que garantiza la reproducibilidad del estudio.”
Esta justificación responde de forma anticipada a las posibles objeciones del tribunal sobre la ausencia de recogida primaria. Para profundizar en cómo estructurar el capítulo de metodología completo, consulta nuestra guía de metodología del TFG paso a paso.
Preguntas frecuentes
¿Puede mi tribunal rechazar un TFG por usar datos secundarios?
No, siempre que el uso esté justificado en la metodología. Los datos secundarios son la base de la epidemiología, la economía y las ciencias sociales cuantitativas. Ninguna normativa universitaria española prohíbe su uso. Lo que el tribunal evalúa es la adecuación de la fuente a la pregunta de investigación y el rigor del análisis.
¿Cómo cito un dataset de Eurostat en APA 7?
El formato APA 7 para datasets es: Autor/Organización. (Año). Título del dataset [Conjunto de datos]. DOI o URL permanente. Ejemplo: Eurostat. (2024). Early leavers from education and training by sex and labour status [Conjunto de datos]. https://ec.europa.eu/eurostat/databrowser/product/view/EDAT_LFSE_14
¿Necesito pedir permiso al INE para usar sus datos en el TFG?
No. Los datos estadísticos del INE son de libre uso para fines científicos, académicos y de investigación, conforme a la Ley 12/1989 de la Función Estadística Pública y las condiciones de reutilización de la información del sector público. Solo necesitas citar correctamente la fuente.
¿Puedo usar datos del INE si son de hace 5 años?
Sí, con matices. Si tu pregunta es sobre tendencias temporales, usar datos de varios años es metodológicamente correcto. Si tu pregunta es sobre la situación actual, usa los datos más recientes disponibles. En la metodología del TFG explica el período de análisis y por qué es adecuado para tu pregunta de investigación.
¿Jamovi o SPSS para el TFG?
Jamovi es gratuito, de código abierto, y genera tablas APA 7 automáticamente igual que SPSS. Para la mayoría de TFGs, Jamovi ofrece todos los análisis necesarios (descriptivos, t-tests, ANOVA, correlaciones, regresión lineal y logística). SPSS tiene ventaja solo en análisis más avanzados como ecuaciones estructurales o análisis de supervivencia, que raramente son necesarios en un TFG de grado.
¿Qué hago si los datos del INE tienen muchos valores perdidos?
Los valores perdidos deben reportarse en la metodología. Si superan el 5% en una variable crítica, valora tres opciones: (1) excluir esa variable del análisis, (2) usar imputación múltiple (disponible en Jamovi con el módulo Missing Values), o (3) reducir el alcance de la pregunta de investigación. En cualquier caso, documenta en el TFG qué porcentaje de datos falta y qué decidiste hacer con ellos.

Leave a Reply