Análisis Predictivo con IA en TFG: Métodos y Aplicaciones 2026
El análisis predictivo con IA en el TFG ha pasado de ser una opción reservada a doctorandos de ingeniería a convertirse en una metodología accesible y valorada en grados de Economía, Sociología, Educación, Ciencias de la Salud y Humanidades Digitales. En 2026, los estudiantes que integran técnicas de aprendizaje automático en su Trabajo Fin de Grado presentan trabajos más rigurosos, con mayor impacto y mejores calificaciones. Esta guía te muestra exactamente cómo hacerlo, desde la selección del modelo hasta la interpretación ética de los resultados.
La clave no es dominar las matemáticas subyacentes, sino comprender qué problema resuelve cada algoritmo, cómo justificarlo metodológicamente en tu marco teórico y cómo reportar los resultados de acuerdo con los estándares académicos actuales. Un TFG que aplica regresión logística o un árbol de decisión correctamente argumentado tiene más valor científico que uno que utiliza redes neuronales profundas sin justificación epistemológica.
A lo largo de esta guía encontrarás los métodos de análisis predictivo más utilizados en TFGs españoles en 2026, ejemplos aplicados por área de conocimiento, el flujo de trabajo recomendado con Python y scikit-learn, y las consideraciones éticas que el tribunal valorará positivamente.
¿Qué es el análisis predictivo y por qué usarlo en un TFG?
El análisis predictivo es una rama del análisis de datos que utiliza información histórica, técnicas estadísticas y algoritmos de aprendizaje automático para generar predicciones cuantificadas sobre eventos futuros o desconocidos. A diferencia del análisis descriptivo —que explica qué ocurrió— o el diagnóstico —que explica por qué—, el análisis predictivo responde a la pregunta ¿qué es probable que ocurra?
En el contexto de un TFG, incluir análisis predictivo aporta tres ventajas concretas:
- Aportación científica diferencial: va más allá de la estadística descriptiva y demuestra capacidad de modelado.
- Aplicabilidad directa: los modelos predictivos tienen implicaciones prácticas fácilmente comunicables en la sección de conclusiones.
- Alineación con el mercado laboral: demuestra competencias en ciencia de datos valoradas en todos los sectores.
Según el informe ONTSI 2024 sobre digitalización universitaria, el 34 % de los TFGs en ingeniería y el 18 % en ciencias sociales incorporaron algún método de aprendizaje automático, una cifra que sigue creciendo. Para integrar correctamente estas técnicas en tu trabajo, revisa primero cómo redactar la metodología de un TFG y asegúrate de que el diseño de investigación justifica el uso de modelos predictivos.
Tipos de modelos predictivos: cuándo usar cada uno
La elección del modelo es la decisión metodológica central. No existe un modelo universalmente superior; la idoneidad depende del tipo de variable objetivo, el volumen de datos y la interpretabilidad requerida.
Regresión (continua)
Se usa cuando la variable objetivo es numérica y continua: precio de venta, puntuación académica, consumo energético. La regresión lineal múltiple sigue siendo el punto de partida recomendado por su interpretabilidad. La regresión Ridge y Lasso son preferibles cuando existen muchas variables predictoras (Tibshirani, 1996). Para relaciones no lineales complejas, los gradient boosting regressors (XGBoost, LightGBM) ofrecen mayor precisión.
Clasificación (categórica)
Se utiliza cuando la variable objetivo es una categoría: aprueba/suspende, diagnóstico positivo/negativo, género de texto. Los modelos más utilizados en TFGs académicos son:
| Modelo | Fortaleza principal | Área de aplicación típica |
|---|---|---|
| Regresión logística | Interpretabilidad de coeficientes | Ciencias de la salud, sociales |
| Árbol de decisión | Visualización clara de reglas | Educación, marketing |
| Random Forest | Robustez ante ruido | Economía, biología |
| SVM | Eficacia con pocos datos | Ingeniería, lingüística |
| XGBoost | Máxima precisión | Datos tabulares en general |
Series temporales
Para datos con dimensión temporal (ventas mensuales, indicadores epidemiológicos, cotizaciones bursátiles), los modelos ARIMA y SARIMA siguen siendo referencia clásica. Los modelos más modernos como Prophet (Taylor & Letham, 2018) simplifican el proceso y son especialmente adecuados para datos con estacionalidad y tendencias no lineales.
Clustering predictivo
Aunque técnicamente es aprendizaje no supervisado, el clustering (K-Means, DBSCAN) se utiliza en análisis predictivo como paso previo para segmentar la población de estudio y construir modelos predictivos específicos por segmento.
Para profundizar en el análisis de regresión con IA, consulta la guía específica de análisis de regresión con IA en TFG.
Flujo de trabajo completo: de los datos al modelo
El proceso metodológico estándar para un TFG con análisis predictivo sigue el marco CRISP-DM (Cross-Industry Standard Process for Data Mining), ampliamente aceptado en la literatura académica (Chapman et al., 2000):
- Comprensión del negocio/problema: definir la pregunta de investigación en términos de una variable objetivo medible.
- Comprensión de los datos: auditoría inicial, estadísticas descriptivas, visualización exploratoria.
- Preparación de los datos: tratamiento de valores faltantes, normalización/estandarización, codificación de variables categóricas, balanceo de clases (SMOTE si hay desequilibrio).
- Modelado: selección de algoritmos candidatos, ajuste de hiperparámetros mediante validación cruzada (k-fold, habitualmente k=5 o k=10).
- Evaluación: comparación de modelos con métricas apropiadas, interpretación con SHAP o LIME.
- Despliegue/Comunicación: en un TFG, esta fase se traduce en la redacción de resultados, discusión e implicaciones prácticas.
Herramientas y software recomendados en 2026
La elección del software debe estar justificada en la sección metodológica. Estos son los entornos más utilizados y académicamente aceptados:
Python + scikit-learn
scikit-learn es la biblioteca de referencia para machine learning en Python y cuenta con una publicación académica de referencia: Pedregosa et al. (2011). Ofrece una API consistente para decenas de algoritmos, preprocesamiento, evaluación y visualización. La versión 1.6.x (2025) incluye mejoras en calibración de probabilidades y soporte nativo para DataFrames de Pandas. La documentación oficial en scikit-learn.org incluye más de 60 ejemplos reproducibles.
R + tidymodels
El ecosistema tidymodels (Kuhn & Wickham, 2020) en R proporciona un flujo de trabajo unificado equivalente a scikit-learn pero integrado con el universo tidyverse, lo que lo hace especialmente adecuado para ciencias sociales y humanidades digitales que ya trabajan con R para estadística descriptiva.
KNIME y RapidMiner
Para estudiantes sin experiencia en programación, estas plataformas visuales permiten construir pipelines de machine learning mediante bloques gráficos. Son menos valoradas en áreas técnicas pero perfectamente válidas en administración de empresas o pedagogía.
AutoML (Google Vertex AI AutoML, H2O AutoML)
Las plataformas AutoML automatizan la búsqueda de hiperparámetros y la selección de modelos. Son útiles para obtener baselines competitivos, aunque el TFG debe demostrar comprensión conceptual del proceso, no solo reportar los resultados del AutoML.
Ejemplo aplicado: predicción de abandono universitario
Este es el tipo de problema predictivo más frecuente en TFGs de Pedagogía, Psicología Educativa y Sociología. El objetivo es predecir si un estudiante de primer año abandonará sus estudios antes del tercer semestre.
Variables predictoras típicas: nota media de acceso, horas de presencia en plataforma virtual, número de asignaturas suspensas en el primer semestre, situación laboral, distancia al campus, índice socioeconómico familiar.
Variable objetivo: abandono (binaria: Sí/No).
Procedimiento:
- Recopilación de datos del sistema de información universitario (con aprobación del DPO y anonimización).
- Análisis exploratorio: distribución de la variable objetivo (suele estar desequilibrada, ~20 % abandono).
- Preprocesamiento: imputación de valores faltantes con la mediana, normalización MinMax, SMOTE para balancear clases.
- Entrenamiento de tres modelos candidatos: regresión logística, Random Forest, XGBoost.
- Validación cruzada estratificada 10-fold.
- Selección del modelo con mayor AUC-ROC en el conjunto de test.
- Análisis de importancia de variables con SHAP values.
Resultado típico en la literatura: Los modelos Random Forest y XGBoost alcanzan AUC-ROC entre 0.78 y 0.85, con la nota de acceso y las horas en plataforma virtual como variables de mayor peso predictivo (Fernández-García et al., 2023, Computers & Education).
Este diseño metodológico puede adaptarse a problemas análogos: predicción de mortalidad hospitalaria, predicción de morosidad crediticia, predicción de rotación laboral. La estructura metodológica es transferible a cualquier área de conocimiento con datos tabulares.
Para una visión más amplia sobre diseños cuantitativos, revisa investigación cuantitativa: ejemplo completo y metodología paso a paso.
Cómo redactar la sección metodológica con análisis predictivo
La sección metodológica de un TFG con análisis predictivo debe responder a cinco preguntas estructurantes:
- ¿De dónde vienen los datos? Fuente, fecha de recopilación, tamaño de la muestra, criterios de inclusión/exclusión.
- ¿Cómo se preprocesaron? Técnicas de limpieza, transformación y partición train/test.
- ¿Qué modelos se evaluaron y por qué? Justificación teórica de la selección de algoritmos.
- ¿Cómo se compararon los modelos? Protocolo de validación cruzada, métricas utilizadas.
- ¿Qué herramientas se usaron? Software, versiones y referencias bibliográficas de las bibliotecas.
Un párrafo modelo para citar scikit-learn en APA 7 sería: «El análisis se realizó con Python 3.11 y la biblioteca scikit-learn 1.6.1 (Pedregosa et al., 2011). La validación del modelo se llevó a cabo mediante validación cruzada estratificada de 10 pliegues (k = 10).»
Para más detalles sobre citación académica, consulta la guía de normas APA para TFG: guía completa con ejemplos.
Métricas de evaluación y cómo reportarlas en APA 7
La elección de métricas es tan importante como la elección del modelo. Usar accuracy con clases desequilibradas es uno de los errores más frecuentes y penalizables en la defensa del TFG.
| Tarea | Métrica primaria | Métricas complementarias | Cuándo evitarla |
|---|---|---|---|
| Regresión | RMSE | MAE, R² | — |
| Clasificación balanceada | Accuracy | F1-score, Confusion Matrix | Clases desequilibradas |
| Clasificación desbalanceada | AUC-ROC | Precision-Recall AUC | No usar accuracy sola |
| Series temporales | MAPE | RMSE, MAE | — |
En la redacción académica, los resultados se presentan así: «El modelo Random Forest obtuvo un AUC-ROC de .847 (IC 95 % [.821, .873]) en el conjunto de test, superando a la regresión logística (AUC-ROC = .791) y al árbol de decisión (AUC-ROC = .763).»
Ética, sesgos y limitaciones: lo que el tribunal espera
Un TFG riguroso no solo presenta buenos resultados, sino que discute honestamente sus limitaciones y los riesgos éticos del modelo predictivo. Esta sección distingue los trabajos sobresalientes de los notables.
Los aspectos que el tribunal evalúa específicamente son:
- Sesgos en los datos de entrenamiento: ¿Están representados todos los grupos relevantes? ¿Existe sesgo histórico que el modelo puede perpetuar?
- Transparencia del modelo: ¿Es el modelo interpretable? Si es una caja negra (XGBoost, redes neuronales), ¿se han utilizado técnicas de explicabilidad (SHAP, LIME)?
- Privacidad y RGPD: Si los datos son personales, ¿se han anonimizado correctamente? ¿Se cuenta con el consentimiento necesario o el amparo legal correspondiente?
- Generalización: ¿Es el modelo transferible a otras poblaciones o contextos? ¿Cuáles son las condiciones de validez externa?
Para un tratamiento más profundo de estos aspectos, consulta la guía sobre ética en investigación académica con IA.
También puedes consultar la metodologia equivalente em portugués en tesify.pt para un enfoque comparado desde el contexto académico portugués y brasileño.
Preguntas frecuentes
¿Necesito saber programar para hacer análisis predictivo en mi TFG?
No necesariamente. Herramientas como KNIME, RapidMiner o el módulo AutoML de H2O permiten construir modelos predictivos sin escribir código. Sin embargo, en titulaciones técnicas (Ingeniería, Estadística, Ciencia de Datos) se espera el uso de Python o R. En ciencias sociales, SPSS y el análisis de regresión estándar son perfectamente válidos y no requieren programación avanzada.
¿Cuántos datos necesito para un análisis predictivo en un TFG?
No existe un umbral universal. Como referencia orientativa: para modelos simples (regresión logística, árbol de decisión) son suficientes 200-500 observaciones. Para Random Forest o XGBoost se recomienda al menos 1.000 observaciones. Para redes neuronales, 10.000 o más. Con muestras pequeñas, la validación cruzada es especialmente importante para evitar sobreajuste.
¿Cómo cito scikit-learn en APA 7?
La cita en APA 7 es: Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., … Duchesnay, É. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12, 2825–2830. Para la versión del software en sí, cita también: scikit-learn developers. (2025). scikit-learn 1.6.1 [Software]. https://scikit-learn.org/stable/
¿Qué diferencia hay entre análisis predictivo y machine learning?
El análisis predictivo es el objetivo (predecir valores futuros o desconocidos); el machine learning es el conjunto de técnicas que pueden usarse para lograrlo. Existen modelos predictivos clásicos no basados en machine learning (como ARIMA para series temporales) y técnicas de machine learning no predictivas (como el clustering exploratorio). En un TFG, ambos términos pueden convivir cuando se usan algoritmos de aprendizaje automático con un objetivo predictivo.
¿Se puede usar ChatGPT o IA generativa para el análisis predictivo del TFG?
La IA generativa (ChatGPT, Copilot, Gemini) puede ayudar a generar código de análisis, explicar conceptos metodológicos o depurar errores, pero no debe ejecutar el análisis en nombre del estudiante de forma opaca. Los datos, el pipeline de modelado y la interpretación de resultados deben ser controlados y comprendidos por el estudiante. Usar Code Interpreter de ChatGPT para explorar datos es metodológicamente aceptable si se documenta y el estudiante entiende y valida cada paso.
¿Es el análisis predictivo apropiado para cualquier tipo de TFG?
No siempre. El análisis predictivo requiere datos cuantitativos y una pregunta de investigación que implique predicción o clasificación. En TFGs de naturaleza cualitativa (fenomenología, etnografía, análisis del discurso) no tiene cabida. En TFGs mixtos puede complementar la parte cuantitativa. La clave es que la técnica esté alineada con el problema y los objetivos de investigación, no al revés.
¿Cómo se presenta un modelo predictivo en la defensa oral del TFG?
En la defensa oral, lo más efectivo es presentar el flujo de trabajo en una diapositiva (datos → preprocesamiento → modelado → evaluación), mostrar las métricas en una tabla comparativa y finalizar con una visualización de la importancia de variables (SHAP plot o gráfico de importancia de características). El tribunal valorará especialmente que puedas explicar con tus propias palabras qué hace el modelo y cuáles son sus limitaciones principales.
Pedregosa, F., et al. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12, 2825–2830.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT Press.
Chapman, P., et al. (2000). CRISP-DM 1.0: Step-by-step data mining guide. SPSS Inc.
Taylor, S. J., & Letham, B. (2018). Forecasting at scale. The American Statistician, 72(1), 37–45.

Deja una respuesta