,

Cómo Hacer un TFG con Datos Secundarios Paso a Paso: del INE al Capítulo de Resultados 2026

Cómo Hacer un TFG con Datos Secundarios Paso a Paso: del INE al Capítulo de Resultados 2026

Muchos estudiantes de Enfermería, Educación Social, Trabajo Social, Economía o Sociología se enfrentan a una realidad incómoda cuando llegan al TFG: recoger datos primarios es inviable. El acceso a pacientes requiere aprobación del comité de ética, las encuestas propias tardan meses y la muestra nunca es suficientemente grande. La solución que ya usan los investigadores profesionales —y que cada vez más tutores aceptan y valoran en los TFGs— es trabajar con datos secundarios. El INE, Eurostat, la OECD y el Ministerio de Educación publican cada año decenas de bases de datos de alta calidad, de libre descarga, con muestras de miles o decenas de miles de personas.

Esta guía te muestra el pipeline completo y reproducible: desde localizar la base de datos correcta en el INE hasta tener las tablas y gráficos listos para pegar en el capítulo de Resultados. No necesitas experiencia previa en programación; los pasos con R incluyen el código exacto que debes copiar, y Jamovi ofrece una interfaz gráfica para los análisis estadísticos sin escribir una sola línea.

Respuesta rápida: Para hacer un TFG con datos secundarios, (1) elige una pregunta de investigación y localiza la base de datos oficial (INE, Eurostat, OECD), (2) descarga el fichero con su URL permanente y documenta los metadatos, (3) limpia y filtra el dataset en R (5-10 líneas de código), (4) analiza con Jamovi exportando tablas APA 7, y (5) redacta el capítulo de Resultados siguiendo la estructura objetivo → tabla → interpretación. El tribunal valora la transparencia y la reproducibilidad por encima de la originalidad de la fuente.

Cuándo y por qué usar datos secundarios en el TFG

El análisis de datos secundarios no es un atajo de segundo nivel: es la metodología estándar en epidemiología, demografía, economía laboral y ciencias de la educación. Los datos que publica el INE (Instituto Nacional de Estadística) se recogen con muestras probabilísticas de miles de hogares o instituciones, lo que ningún TFG individual podría replicar.

Usar datos secundarios es especialmente adecuado cuando:

  • Tu grado requiere aprobación ética para acceder a participantes (Enfermería, Psicología, Trabajo Social).
  • Necesitas datos longitudinales o de años anteriores a la matrícula de tu TFG.
  • Tu pregunta implica toda la población española o europea, no una muestra de conveniencia.
  • No tienes tiempo ni recursos para recoger datos primarios con garantías metodológicas.
  • Tu tutor prefiere que te centres en el análisis e interpretación, no en la logística de recogida de datos.
Mito a desmontar: Algunos estudiantes temen que el tribunal vea negativamente el uso de datos secundarios. La realidad es la contraria: un análisis riguroso de datos secundarios de alta calidad obtiene mejores notas que una encuesta primaria con muestra de 40 amigos y sin validación. Lo que evalúa el tribunal es la calidad del análisis, no el origen de los datos.

Las 6 fuentes de datos secundarios más usadas en TFGs españoles

Fuente Tipo de datos Formato descarga Mejor para
INE (ine.es) Población, empleo, salud, educación, TIC CSV, Excel, SDMX TFGs sobre España
Eurostat (ec.europa.eu/eurostat) Comparativa UE: empleo, educación, PIB CSV, Excel, API JSON Análisis comparativo europeo
OECD Data (data.oecd.org) Educación (PISA, EAG), salud, empleo CSV, SDMX, API Educación comparada y ADE
MEFP (educacion.gob.es) Estadísticas educación no universitaria y universitaria Excel, PDF Pedagogía, Educación Social
SEPE (sepe.es) Paro registrado, demandantes, contratos Excel, CSV Economía, RRLL, Sociología
Microdatos INE (ine.es/prodyser/microdatos) Ficheros de microdatos individuales anonimizados TXT, SPSS, Stata Análisis multivariante avanzado

Qué necesitas antes de empezar

Lo que necesitarás para este pipeline:

  • R + RStudio (gratuitos): posit.co/download/rstudio-desktop/
  • Jamovi (gratuito): jamovi.org/download.html
  • Paquetes de R: tidyverse, readxl, visdat, labelled (se instalan con install.packages())
  • Cuenta en INE / Eurostat (no requerida para descarga básica)
  • Zotero para citar las fuentes de datos (opcional pero recomendado)

Tiempo estimado para dominar el pipeline completo: 6-8 horas la primera vez. La segunda, 2 horas.

Paso 1 — Formular la pregunta de investigación y elegir la fuente

El error más frecuente es descargar primero un dataset y luego buscar qué analizar. El proceso correcto es el inverso: parte de la pregunta, luego busca la fuente.

Usa el esquema PICO (Problema, Intervención, Comparación, Outcome) si tu grado es sanitario, o el esquema PEC (Población, Exposición, Comparación) si es social. Ejemplos concretos para grados españoles:

Grado Pregunta de investigación Fuente recomendada
Enfermería ¿Difiere la prevalencia de diabetes tipo 2 por nivel educativo en España? Encuesta Nacional de Salud (ENSE) — INE
Educación Social ¿Qué factores socioeconómicos predicen el abandono escolar temprano en España 2016-2024? Encuesta de Población Activa (EPA) + MEFP
ADE / Economía ¿Correlaciona el salario mínimo con la tasa de paro juvenil en la UE-27? Eurostat — Labour Market Statistics
Sociología ¿Han convergido los niveles educativos por género en España 2004-2024? INE — Encuesta de Condiciones de Vida

Una vez tienes la pregunta, busca en las fuentes de la sección anterior el nombre exacto de la operación estadística. En el INE, cada operación tiene un código (por ejemplo, la EPA es la operación 10270). Anotarlo es importante para citarla correctamente en la metodología.

Paso 2 — Descargar y documentar los datos

En el INE

  1. Ve a ine.es y navega hasta la operación estadística que te interesa (por ejemplo, Encuesta de Población Activa en Mercado Laboral).
  2. Selecciona las variables, el período temporal y la desagregación geográfica que necesitas.
  3. Haz clic en “Exportar datos” y elige CSV separado por punto y coma (evita el formato Excel con el INE porque puede incluir encabezados dobles).
  4. Copia la URL permanente del recurso (icono de cadena junto al título de la tabla). Esta URL va en tu bibliografía.
  5. Anota: año de referencia, última actualización, notas metodológicas (en la pestaña “Información”).

En Eurostat

  1. Ve al Eurostat Data Browser.
  2. Busca por código de dataset (por ejemplo, edat_lfse_14 para abandono escolar temprano) o por palabras clave.
  3. Filtra por años y países. Para España, selecciona ES.
  4. Descarga en CSV (table format). El fichero incluye una columna de metadatos que debes conservar.
  5. El DOI del dataset Eurostat es el identificador que usarás en la bibliografía APA 7.
Buena práctica: Crea una carpeta datos-originales/ en tu proyecto y guarda allí los ficheros descargados sin modificarlos. Nunca sobreescribas los datos originales. Esto garantiza la reproducibilidad y lo podrás mencionar explícitamente en la metodología del TFG.

Paso 3 — Limpiar el dataset en R paso a paso

Si nunca has usado R, no te preocupes: el código siguiente funciona copiando y pegando en RStudio. Abre un nuevo Script (Ctrl+Shift+N) y escribe o pega el código por bloques.

3.1 — Instalar y cargar paquetes

# Solo la primera vez:
install.packages(c("tidyverse", "readxl", "visdat", "labelled", "janitor"))

# Cada vez que abras el proyecto:
library(tidyverse)
library(readxl)
library(visdat)
library(janitor)
  

3.2 — Importar el fichero

# Para CSV del INE (separado por punto y coma, codificación Latin-1):
datos_raw <- read_delim(
  "datos-originales/epa_2024_t4.csv",
  delim = ";",
  locale = locale(encoding = "latin1", decimal_mark = ","),
  skip = 2  # salta los 2 encabezados del INE
)

# Para Excel del MEFP o SEPE:
datos_raw <- read_excel("datos-originales/estadistica_abandono_2024.xlsx",
                         sheet = 1, skip = 4)
  

3.3 — Explorar y detectar problemas

glimpse(datos_raw)        # tipos de variable y primeras filas
vis_miss(datos_raw)       # mapa visual de valores perdidos (genera un gráfico)
summary(datos_raw)        # estadísticos básicos por columna
  

La función vis_miss() genera un gráfico que puedes exportar y pegar en el apéndice del TFG como justificación de las decisiones de limpieza. Muestra qué porcentaje de datos falta en cada variable.

3.4 — Limpiar nombres, filtrar y recodificar

datos_limpios <- datos_raw |>
  clean_names() |>                         # nombres de columna en snake_case
  filter(!is.na(comunidad_autonoma)) |>    # elimina filas de totales nacionales
  filter(year >= 2014) |>                  # acota el período de análisis
  mutate(
    sexo = recode(sexo,
                  "1" = "Hombre",
                  "6" = "Mujer"),
    nivel_educativo = factor(nivel_educativo,
                             levels = c("1","2","3","4"),
                             labels = c("Primaria","Secundaria","FP","Universidad"))
  ) |>
  select(year, comunidad_autonoma, sexo, nivel_educativo, tasa_actividad)

# Guardar versión limpia (no sobreescribe el original):
write_csv(datos_limpios, "datos-procesados/epa_2014_2024_limpio.csv")
  

3.5 — Exportar para Jamovi

Jamovi lee directamente archivos .csv, .sav (SPSS) y .omv. El fichero datos-procesados/epa_2014_2024_limpio.csv que acabas de crear está listo para abrir en Jamovi sin más preparación.

Paso 4 — Analizar con Jamovi (sin código)

Jamovi es una alternativa gratuita y de código abierto a SPSS, con una interfaz gráfica intuitiva y exportación de tablas en formato APA 7 automática.

4.1 — Abrir el dataset

  1. Abre Jamovi → Archivo → Abrir → selecciona tu .csv procesado.
  2. En la pestaña Variables, verifica que el tipo de cada variable es correcto (Ordinal, Nominal, Continua). Si una variable categórica aparece como numérica, haz clic en su nombre y cambia el tipo.

4.2 — Estadísticos descriptivos

Análisis → Estadísticos descriptivos. Selecciona las variables relevantes. Activa: Media, Mediana, Desviación Típica, Mínimo, Máximo, Histograma. Jamovi genera la tabla automáticamente en formato APA.

4.3 — Pruebas de asociación o diferencias

Pregunta de investigación Test en Jamovi Ruta en menú
¿Difieren dos grupos en una variable continua? t de Student / Mann-Whitney Análisis → t-Tests → Independent Samples
¿Difieren 3+ grupos? ANOVA de un factor Análisis → ANOVA → One-Way ANOVA
¿Correlacionan dos variables continuas? r de Pearson / rho Spearman Análisis → Regression → Correlation Matrix
¿Predice X a Y (continua)? Regresión lineal múltiple Análisis → Regression → Linear Regression
¿Hay asociación entre dos categóricas? Chi-cuadrado Análisis → Frequencies → Contingency Tables

4.4 — Exportar tablas y gráficos

En Jamovi, haz clic derecho sobre cualquier tabla de resultados → Copiar (copia en formato HTML) o usa el botón de los tres puntos → Guardar imagen para los gráficos. Las tablas en HTML se pueden pegar directamente en Word manteniendo el formato APA 7.

Paso 5 — Redactar el capítulo de Resultados

El capítulo de Resultados sigue una estructura fija en todos los TFGs con datos secundarios. La estructura por párrafos es:

  1. Párrafo de recuerdo del objetivo: “El primer objetivo de este estudio era determinar si la tasa de abandono escolar temprano difería según el nivel socioeconómico de la comunidad autónoma de residencia.”
  2. Descripción del análisis: “Para responder a este objetivo se realizó un análisis de varianza de un factor (ANOVA), tomando como variable dependiente…”
  3. Presentación de la tabla o figura: “La Tabla 1 muestra los estadísticos descriptivos por comunidad autónoma. Como se puede observar…”
  4. Interpretación del estadístico: “El ANOVA resultó significativo, F(16, 183) = 8.34, p < .001, η² = .42, indicando que…”
  5. Frase de cierre: “Estos datos confirman la hipótesis 1 del estudio.”
Error frecuente: Muchos TFGs mezclan Resultados con Discusión. En el capítulo de Resultados solo se reportan los estadísticos y se describen los patrones. Las interpretaciones, comparaciones con la literatura y las implicaciones van en la Discusión.

Plantilla de párrafo para reportar una correlación de Pearson

Se analizó la relación entre [VARIABLE X] y [VARIABLE Y] mediante la correlación de Pearson.
Los resultados indicaron que existe una correlación [positiva/negativa] [débil/moderada/fuerte]
y estadísticamente significativa entre ambas variables, r([GRADOS DE LIBERTAD]) = [VALOR r],
p = [VALOR p], IC 95% [LÍMITE INFERIOR, LÍMITE SUPERIOR]. Esto indica que a medida que aumenta
[VARIABLE X], [VARIABLE Y] tiende a [aumentar/disminuir] en [DESCRIPCIÓN].
  

Cómo referenciar una fuente de datos secundarios en APA 7

Para citar una base de datos del INE en el texto: (Instituto Nacional de Estadística [INE], 2024). En la lista de referencias:

Instituto Nacional de Estadística. (2024). Encuesta de Población Activa (EPA).
Cuarto trimestre de 2024. [Conjunto de datos].
https://www.ine.es/jaxiT3/Tabla.htm?t=4247
  

Bonus: Notebook Jupyter como anexo reproducible

Si quieres demostrar rigor metodológico adicional —y diferenciarte del 95% de los TFGs de tu promoción— incluye un Jupyter Notebook como Anexo digital. Un Jupyter Notebook combina el código R o Python con el texto explicativo y los gráficos en un único documento .ipynb que cualquier persona puede ejecutar y obtener los mismos resultados.

Pasos para crear el anexo reproducible:

  1. Instala Jupyter a través de Anaconda (incluye Python y Jupyter).
  2. Instala el kernel de R para Jupyter con el paquete IRkernel: en R, ejecuta IRkernel::installspec().
  3. Crea un notebook nuevo, elige el kernel R y pega el código de limpieza y análisis que desarrollaste en RStudio.
  4. Añade celdas de texto (Markdown) antes de cada bloque de código explicando qué hace cada paso y por qué.
  5. Guarda el notebook en la misma carpeta que el .csv. Comprímelo todo en un .zip y súbelo al repositorio institucional como Anexo 1 junto con el PDF del TFG.

Al mencionar el notebook en la metodología del TFG, puedes escribir: “El proceso de limpieza y análisis de datos es completamente reproducible. El código está disponible en el Anexo 1 (Jupyter Notebook) junto con los datos procesados.” Esto es exactamente el tipo de rigor que los tribunales de TFG valoran cada vez más en 2026.

Cómo justificar el uso de datos secundarios ante el tribunal

Dedica un párrafo específico en la sección de Metodología para justificar la elección de datos secundarios. Un ejemplo bien construido:

“Para responder a los objetivos de este estudio se utilizaron datos secundarios procedentes de la Encuesta Nacional de Salud de España (ENSE) 2020, publicada por el Instituto Nacional de Estadística. La decisión de emplear datos secundarios en lugar de recogida primaria se fundamenta en tres razones: (1) la ENSE cuenta con una muestra probabilística estratificada de 22.072 personas, representativa de la población española mayor de 15 años, lo que garantiza una potencia estadística muy superior a cualquier recogida primaria factible en el marco de un TFG; (2) el acceso directo a participantes de salud habría requerido aprobación del Comité de Ética de Investigación, incompatible con los plazos del trabajo; y (3) los datos de la ENSE son públicos, gratuitos y citables, lo que garantiza la reproducibilidad del estudio.”

Esta justificación responde de forma anticipada a las posibles objeciones del tribunal sobre la ausencia de recogida primaria. Para profundizar en cómo estructurar el capítulo de metodología completo, consulta nuestra guía de metodología del TFG paso a paso.

Preguntas frecuentes

¿Puede mi tribunal rechazar un TFG por usar datos secundarios?

No, siempre que el uso esté justificado en la metodología. Los datos secundarios son la base de la epidemiología, la economía y las ciencias sociales cuantitativas. Ninguna normativa universitaria española prohíbe su uso. Lo que el tribunal evalúa es la adecuación de la fuente a la pregunta de investigación y el rigor del análisis.

¿Cómo cito un dataset de Eurostat en APA 7?

El formato APA 7 para datasets es: Autor/Organización. (Año). Título del dataset [Conjunto de datos]. DOI o URL permanente. Ejemplo: Eurostat. (2024). Early leavers from education and training by sex and labour status [Conjunto de datos]. https://ec.europa.eu/eurostat/databrowser/product/view/EDAT_LFSE_14

¿Necesito pedir permiso al INE para usar sus datos en el TFG?

No. Los datos estadísticos del INE son de libre uso para fines científicos, académicos y de investigación, conforme a la Ley 12/1989 de la Función Estadística Pública y las condiciones de reutilización de la información del sector público. Solo necesitas citar correctamente la fuente.

¿Puedo usar datos del INE si son de hace 5 años?

Sí, con matices. Si tu pregunta es sobre tendencias temporales, usar datos de varios años es metodológicamente correcto. Si tu pregunta es sobre la situación actual, usa los datos más recientes disponibles. En la metodología del TFG explica el período de análisis y por qué es adecuado para tu pregunta de investigación.

¿Jamovi o SPSS para el TFG?

Jamovi es gratuito, de código abierto, y genera tablas APA 7 automáticamente igual que SPSS. Para la mayoría de TFGs, Jamovi ofrece todos los análisis necesarios (descriptivos, t-tests, ANOVA, correlaciones, regresión lineal y logística). SPSS tiene ventaja solo en análisis más avanzados como ecuaciones estructurales o análisis de supervivencia, que raramente son necesarios en un TFG de grado.

¿Qué hago si los datos del INE tienen muchos valores perdidos?

Los valores perdidos deben reportarse en la metodología. Si superan el 5% en una variable crítica, valora tres opciones: (1) excluir esa variable del análisis, (2) usar imputación múltiple (disponible en Jamovi con el módulo Missing Values), o (3) reducir el alcance de la pregunta de investigación. En cualquier caso, documenta en el TFG qué porcentaje de datos falta y qué decidiste hacer con ellos.

Redacta el análisis y los resultados con Tesify

Una vez tengas las tablas de Jamovi, Tesify te ayuda a transformar los números en prosa académica correcta: interpretación de estadísticos, párrafos de resultados en APA 7 y transición fluida hacia la discusión. Prueba el plan gratuito en tesify.es.

Leave a Reply

Your email address will not be published. Required fields are marked *