TFG de Económicas con Modelo Econométrico: Estructura, Supuestos y Validación (2026)
Un TFG de Económicas con un modelo econométrico bien especificado y diagnosticado demuestra al tribunal tres competencias simultáneas: conocimiento teórico sobre el fenómeno económico estudiado, dominio metodológico sobre los fundamentos del análisis de regresión, y criterio analítico para interpretar los resultados con honestidad estadística. La diferencia entre un trabajo que obtiene notable y uno que obtiene matrícula de honor no suele residir en la complejidad del modelo —a menudo sucede lo contrario— sino en la profundidad con que el estudiante comprende y comunica los supuestos bajo los que sus estimaciones son válidas y los tests que realizó para verificarlos.
Este artículo guía la estructuración del capítulo metodológico de un TFG de Economía o ADE que incluya un modelo de regresión por Mínimos Cuadrados Ordinarios (MCO/OLS), desde la especificación del modelo hasta la presentación de resultados conforme a los estándares de la American Economic Review y las guías de formato APA 7.
Especificación del modelo: de la teoría a la ecuación
La especificación es la decisión teórica más importante del análisis econométrico: determina qué variables se incluyen como regresores, cuál es la forma funcional de las relaciones (lineal, log-lineal, doble logarítmica) y cuál es la dirección esperada de los efectos. Una especificación incorrecta da lugar a dos tipos de error que el econometrista clásico distingue claramente: la omisión de variables relevantes —que genera sesgos en todos los coeficientes si las variables omitidas están correlacionadas con las incluidas— y la inclusión de variables irrelevantes —que infla la varianza de los estimadores pero no los sesga.
La especificación debe fundamentarse en la teoría económica y en la literatura empírica previa, no en criterios puramente estadísticos (evitar la «pesca de regresores» o data mining). En el capítulo de metodología del TFG, el investigador debe justificar la inclusión de cada variable con una argumentación teórica y citar los trabajos precedentes que emplean regresores equivalentes. Esta justificación es lo que diferencia un análisis econométrico académico de una correlación exploratoria.
La forma general del modelo de regresión lineal múltiple es:
Yi = β0 + β1X1i + β2X2i + … + βkXki + εi
donde Yi es la variable dependiente para la observación i, los β son los parámetros a estimar, las X son los regresores y εi es el término de error. Las decisiones sobre la forma funcional (si el modelo es en niveles, en logaritmos, o en combinación log-lin) también deben justificarse teóricamente y pueden explorarse mediante el test RESET de Ramsey para detectar errores de especificación.
Fuentes de datos y descripción de variables
La sección de datos debe incluir: (a) la fuente de cada variable (INE, Eurostat, Banco Mundial, OCDE, FRED de la Reserva Federal de St. Louis, Datastream, u otras fuentes sectoriales); (b) el período muestral y la frecuencia de los datos (anual, trimestral, mensual); (c) el ámbito geográfico (un único país, panel de países, regiones); y (d) la definición operacional exacta de cada variable, que puede diferir de su nombre intuitivo.
Una tabla de estadísticos descriptivos —media, desviación típica, mínimo, máximo, número de observaciones— de todas las variables del modelo es un elemento estándar en cualquier paper econométrico y debería incluirse en el TFG. Esta tabla permite al tribunal comprobar que el investigador conoce el rango de variación de sus datos y que no hay valores anómalos no reportados.
Para acceder a datos económicos oficiales para España, las fuentes primarias recomendadas son el Instituto Nacional de Estadística (INE) y Eurostat. Para datos internacionales y comparados, el Banco Mundial Data Portal y la base de datos de la OCDE son las más utilizadas en la literatura académica de referencia.
Los cinco supuestos de Gauss-Markov
El Teorema de Gauss-Markov garantiza que el estimador MCO es el Estimador Lineal Insesgado de Mínima Varianza (ELIO/BLUE) bajo cinco condiciones, cuya verificación es el núcleo metodológico del análisis econométrico:
| Supuesto | Contenido | Violación habitual | Consecuencia |
|---|---|---|---|
| GM1 — Linealidad | El modelo es lineal en los parámetros | Relaciones no lineales no modeladas | Sesgo de especificación; residuos con patrón sistemático |
| GM2 — Muestra aleatoria | Las observaciones son independientes e identicamente distribuidas (i.i.d.) | Datos de series temporales o paneles | Puede requerir correcciones (HAC, efectos fijos) |
| GM3 — No colinealidad perfecta | Ningún regresor es combinación lineal exacta de los demás | Variables muy correlacionadas (multicolinealidad) | Errores estándar inflados; coeficientes inestables |
| GM4 — Media condicional cero (exogeneidad) | E(ε|X) = 0: los regresores no están correlacionados con el error | Variables omitidas; endogeneidad; errores de medición | Sesgo e inconsistencia del estimador MCO |
| GM5 — Homocedasticidad | Var(ε|X) = σ²: la varianza del error es constante | Heterocedasticidad (varianza no constante) | Errores estándar incorrectos; inferencia inválida |
Cuando se cumple además la condición de normalidad de los errores (ε ~ N(0, σ²)), el estimador MCO coincide con el estimador de máxima verosimilitud y los contrastes t y F son exactos en muestras finitas. En muestras grandes, los resultados son asintóticamente válidos incluso sin normalidad. El siguiente vídeo del prof. Juan José Gibaja Martíns (UNED) explica de forma rigurosa y accesible por qué el cumplimiento de estos supuestos convierte al estimador MCO en BLUE:
Tests de diagnóstico y correcciones
Heterocedasticidad
Los tests más habituales para detectar heterocedasticidad son el test de Breusch-Pagan (auxiliar de regresión de los residuos cuadrados sobre los regresores) y el test de White (versión más general que incluye términos cuadráticos e interacciones). Cuando se detecta heterocedasticidad, la corrección estándar en econometría aplicada moderna es el uso de errores estándar robustos a la heterocedasticidad (errores de Huber-White o HC), disponibles en todos los paquetes estadísticos (Stata, R, EViews, GRETL). Esta corrección no afecta a los coeficientes estimados pero sí a sus errores estándar y, por tanto, a los contrastes de significatividad.

Multicolinealidad
La multicolinealidad no viola ninguno de los supuestos de Gauss-Markov y no sesga los coeficientes, pero infla sus errores estándar, reduciendo la potencia de los contrastes de significatividad individual. Se diagnostica mediante el Factor de Inflación de la Varianza (VIF): valores superiores a 10 (según algunos autores, 5) indican multicolinealidad preocupante. Las soluciones posibles son eliminar una de las variables colineales (si tiene justificación teórica), transformar las variables (centrar, combinar en un índice), o, si el objetivo es puramente predictivo, mantenerlas y reportar el VIF con transparencia.
Autocorrelación
En datos de series temporales, la autocorrelación del término de error es un problema frecuente. El test clásico es el estadístico de Durbin-Watson, cuyo valor cercano a 2 indica ausencia de autocorrelación de primer orden. Para autocorrelación de orden superior, el test de Breusch-Godfrey es más potente. La corrección habitual consiste en usar errores estándar robustos a la autocorrelación y heterocedasticidad (errores HAC de Newey-West) o en modelar explícitamente la estructura de correlación mediante modelos ARIMA o GLS.
Endogeneidad
La endogeneidad (violación del supuesto GM4) es la amenaza más grave porque sesga e invalida el estimador MCO de manera que ninguna corrección de errores estándar puede remediar. Su presencia debe argumentarse desde la teoría económica: ¿hay algún regresor que pueda estar correlacionado con el término de error por variables omitidas, simultaneidad o errores de medición? Si es así, la solución canónica es el estimador de Variables Instrumentales (VI) o, en su versión más frecuente, el estimador de Mínimos Cuadrados en Dos Etapas (MC2E/2SLS). La implementación de MC2E en un TFG requiere justificar la relevancia y exogeneidad del instrumento —y la escasez de buenos instrumentos es una limitación honesta que el investigador debe reconocer.
Presentación de resultados: tablas y coeficientes
La presentación de resultados econométricos en un TFG debe incluir como mínimo: (a) los coeficientes estimados con su signo y magnitud; (b) los errores estándar (o las estadísticas t) entre paréntesis bajo cada coeficiente, especificando si son ordinarios, robustos o HAC; (c) los niveles de significatividad estadística mediante asteriscos (*** p<0,01; ** p<0,05; * p<0,1 es el estándar en economía); (d) el R² y el R² ajustado; (e) el estadístico F del contraste de significatividad conjunta y su p-valor; y (f) el número de observaciones.
La nota al pie de la tabla de resultados es tan importante como la tabla misma: debe especificar la fuente de los datos, el período muestral, el tipo de errores estándar utilizados y qué variables de control se incluyeron si la tabla está abreviada. La publicación de referencia para el formato de tablas econométricas es la American Economic Review, cuyas instrucciones de formato son de libre acceso en la web de la AEA y constituyen el estándar más reconocible para los tribunales de grados en Economía y ADE.
La guía sobre cómo redactar la metodología de un TFG cuantitativo y el artículo sobre cuántas horas cuesta el análisis estadístico de un TFG por software y disciplina ofrecen perspectivas prácticas sobre el proceso de trabajo que complementan la metodología descrita aquí. Si tu TFG combina trabajo de campo con análisis cuantitativo, también puede interesarte la guía sobre estructura y metodología del TFG de Biología y Ciencias Ambientales con trabajo de campo, donde se muestra cómo integrar la recogida de datos empíricos con el análisis estadístico posterior.
Extensiones del modelo básico OLS
Muchos TFG de Económicas trabajan con datos que no cumplen el supuesto de muestra aleatoria i.i.d. del modelo básico. Las extensiones más frecuentes son:
- Datos de panel (efectos fijos o aleatorios): cuando se dispone de datos de múltiples unidades (empresas, países, individuos) observadas en varios períodos. El test de Hausman permite elegir entre efectos fijos y aleatorios.
- Modelos de variable dependiente limitada (Probit/Logit): cuando la variable dependiente es binaria o categórica, el modelo lineal de probabilidad tiene limitaciones importantes (predicciones fuera del rango [0,1]) y los modelos Probit o Logit son más apropiados.
- Regresión con datos de corte transversal con corrección de sesgo de selección (Heckman): cuando la muestra no es aleatoria sino que resulta de un proceso de selección observable, el estimador de Heckman en dos etapas corrige el sesgo de selección.
- Modelos de series temporales (ARIMA, VAR): cuando el interés está en la dinámica temporal de una o varias variables macroeconómicas. Requieren verificar estacionariedad (test ADF o KPSS) antes de la estimación para evitar regresiones espurias.
Errores frecuentes en TFG econométricos
- Interpretar correlación como causalidad: un coeficiente estadísticamente significativo demuestra asociación, no causalidad. Las inferencias causales requieren justificación teórica y, en lo posible, un diseño de identificación (variable instrumental, regresión discontinua, diferencias en diferencias).
- Reportar R² como criterio primario de calidad: un R² elevado puede deberse a la especificación incorrecta del modelo (tendencias comunes) o a la inclusión de regresores irrelevantes. El R² ajustado es una medida más honesta.
- No reportar el tipo de errores estándar: es imposible evaluar la validez de los contrastes sin saber si los errores estándar son ordinarios, robustos o HAC. Este detalle debe especificarse siempre en la nota al pie de la tabla.
- Omitir la descripción estadística de los datos: presentar los resultados de la regresión sin una tabla de estadísticos descriptivos previa impide al tribunal evaluar si los datos son plausibles.
- Ignorar la estacionariedad en datos temporales: estimar una regresión OLS con variables no estacionarias sin verificar cointegración produce resultados espurios con R² artificialmente elevados y estadísticos t que no siguen la distribución estándar.
Para la interpretación metodológica en el contexto del diseño completo del TFG, el artículo sobre variables de investigación: independiente, dependiente y de control clarifica la terminología que conecta la econometría con el vocabulario metodológico general de las ciencias sociales. El recurso de introducción a la metodología de la investigación ofrece un marco epistemológico que contextualiza el análisis econométrico dentro de la tradición más amplia de la investigación cuantitativa. Para profundizar en la operacionalización de las variables del modelo, el sitio METODUM (Tesisciencia) explica cómo articular variables, dimensiones e indicadores en una tesis de ciencias sociales.
Preguntas frecuentes
¿Qué software debo usar para un TFG econométrico?
Las opciones más habituales en grados de Economía y ADE en España son GRETL (gratuito, interfaz gráfica, muy adecuado para TFG), EViews (de pago, muy usado en series temporales), R con paquetes como lm(), sandwich y lmtest (gratuito, más potente pero con curva de aprendizaje), y Stata (de pago, estándar en investigación económica avanzada). Para un TFG de grado, GRETL ofrece la mejor relación entre funcionalidad y facilidad de uso, e implementa todos los tests de diagnóstico mencionados en este artículo.
¿Cuántas variables de control son suficientes en un TFG?
No hay un número fijo, pero la regla práctica es incluir todas las variables que la teoría económica indica como determinantes de la variable dependiente y que pueden estar correlacionadas con la variable explicativa principal. En un TFG con entre 50 y 200 observaciones, incluir más de 8-10 regresores puede producir problemas de multicolinealidad y sobreajuste. La parsimonia —modelos lo más simples que sean capaces de capturar los mecanismos teóricos relevantes— es una virtud en econometría aplicada.
¿Qué hago si mis datos no son estacionarios?
Si el test ADF (Augmented Dickey-Fuller) indica que las series no son estacionarias (presencia de raíz unitaria), tienes dos opciones: (a) diferenciar las series (trabajar con la variación en lugar del nivel) para obtener series estacionarias, lo que implica que los coeficientes se interpretarán como efectos sobre el cambio en la variable dependiente; o (b) verificar si las series están cointegradas mediante el test de Engle-Granger o el de Johansen, en cuyo caso la regresión en niveles es válida y la relación estimada es la relación de equilibrio a largo plazo.
¿Cómo reporto la significatividad estadística correctamente?
El estándar en economía y ADE es reportar los p-valores exactos o usar el sistema de asteriscos (* p<0,1; ** p<0,05; *** p<0,01) con una nota al pie explícita. No se recomienda usar únicamente asteriscos sin indicar el umbral que representan. Reportar también el intervalo de confianza al 95% para los coeficientes clave es una práctica cada vez más valorada por los tribunales, ya que proporciona información sobre la magnitud del efecto que la mera significatividad estadística no captura.
¿Puedo hacer un TFG econométrico con datos del INE o Eurostat?
Sí, y es la fuente más frecuente en TFG de Economía en España. El INE proporciona series temporales de PIB, empleo, precios, demografía y sectores productivos a nivel nacional y regional. Eurostat permite comparaciones entre países de la UE con metodología armonizada. Para datos de empresas o mercados financieros, las alternativas abiertas incluyen la Central de Balances del Banco de España y los datos de la CNMV. Todas estas fuentes son citables y reconocidas como válidas por los tribunales académicos.

Deja una respuesta