IA y Análisis de Trayectorias Académicas en Tesis Doctorales 2026
La comprensión del desarrollo humano en contextos educativos exige metodologías que capturen el cambio a lo largo del tiempo de forma individual y colectiva. El análisis de trayectorias académicas —que abarca los modelos de curva de crecimiento latente (LGM/LGCM), el análisis de clases latentes de crecimiento (LCGA) y los modelos de mezcla de crecimiento (GMM)— responde a preguntas que los análisis de punto de corte no pueden abordar: ¿Cómo evolucionan el rendimiento, la motivación o el bienestar de los estudiantes durante su trayectoria formativa? ¿Existen subgrupos de estudiantes que siguen trayectorias de desarrollo cualitativamente distintas? En 2026, la integración de IA en el análisis de trayectorias académicas en tesis permite a los investigadores doctorales aplicar estos modelos complejos con mayor eficiencia y sin sacrificar el rigor metodológico.
La relevancia de estos análisis ha crecido en paralelo con la disponibilidad de grandes conjuntos de datos longitudinales procedentes de sistemas de gestión del aprendizaje (LMS), evaluaciones nacionales e internacionales (PISA, PIRLS, NAEP) y cohortes de investigación a largo plazo. Stanford HAI (2025) estima que el análisis longitudinal asistido por IA ha reducido entre un 40 % y un 60 % el tiempo requerido para completar modelos de trayectoria de complejidad moderada, haciendo estos análisis viables en el contexto temporal de una tesis doctoral. ANECA ha actualizado en 2025 sus criterios de evaluación para reconocer explícitamente la competencia en análisis longitudinal avanzado como indicador de calidad doctoral en disciplinas como la psicología evolutiva, la pedagogía y la epidemiología del desarrollo.
lavaan, OpenMx) o Mplus para estimar la trayectoria promedio de una cohorte y la variabilidad individual en torno a ella. Los modelos LCGA y GMM extienden este enfoque para identificar subgrupos con trayectorias cualitativamente distintas. La IA asiste en la especificación del modelo, la selección del número de clases, la interpretación de los perfiles de trayectoria y el reporte en formato APA 7.
1. Fundamentos del análisis de trayectorias académicas
El análisis de trayectorias en investigación longitudinal parte de la premisa de que las medidas repetidas en un individuo no son estadísticamente independientes —violan el supuesto de independencia de los modelos de regresión estándar— y que la variación intraindividual (cambio a lo largo del tiempo) es tan informativa como la variación interindividual (diferencias entre personas en un momento dado). Los modelos de trayectoria integran ambas fuentes de varianza en un marco estadístico unificado.
Los tres modelos principales forman una jerarquía conceptual:
- Modelos de curva de crecimiento latente (LGM/LGCM): estiman la forma funcional promedio del cambio (trayectoria media) y la varianza de los parámetros de crecimiento (cuánto varían los individuos en su punto de partida y en su tasa de cambio).
- Análisis de clases latentes de crecimiento (LCGA): extiende el LGM asumiendo que la muestra está compuesta por subgrupos (clases latentes) con trayectorias de crecimiento distintas, sin varianza dentro de cada clase.
- Modelos de mezcla de crecimiento (GMM): combina LGM y LCGA permitiendo varianza dentro de las clases latentes, lo que produce un modelo más flexible pero computacionalmente más exigente.
La conexión con el análisis estadístico inferencial con IA es directa: los modelos de trayectoria son casos especiales de modelos de ecuaciones estructurales longitudinales, y sus supuestos —normalidad multivariada, ausencia de datos faltantes no aleatorios (MNAR), linealidad del cambio— deben verificarse sistemáticamente antes de interpretar los resultados.
2. Modelos de curva de crecimiento latente (LGM)
El modelo de curva de crecimiento latente más simple (modelo de crecimiento lineal) modela el rendimiento observado en cada ocasión t como una función lineal de dos factores latentes: el intercepto (I) y la pendiente (S):
Yti = Ii + λt·Si + εti
donde λt son los pesos temporales (0, 1, 2, 3, … para tiempo equiespaciado), Ii es el nivel inicial individual, Si es la tasa de cambio individual, y εti son los residuos de medición. Los parámetros de interés son: (a) la media del intercepto (μI — nivel inicial promedio de la muestra), (b) la media de la pendiente (μS — tasa de cambio promedio), (c) la varianza del intercepto (σ²I), (d) la varianza de la pendiente (σ²S), y (e) la covarianza intercepto-pendiente (σIS — si quienes empiezan con niveles altos cambian más o menos rápido).
En R con lavaan, este modelo se especifica como:
modelo_lgm <- '
# Intercepto: media del nivel inicial
intercepto =~ 1*t1 + 1*t2 + 1*t3 + 1*t4
# Pendiente lineal
pendiente =~ 0*t1 + 1*t2 + 2*t3 + 3*t4
# Medias de los factores latentes
intercepto ~ 1
pendiente ~ 1
'
ajuste_lgm <- growth(modelo_lgm, data = datos_longitudinales)
summary(ajuste_lgm, fit.measures = TRUE)
La IA puede generar y depurar esta especificación a partir de una descripción del diseño longitudinal, y puede también asistir en la extensión a modelos de crecimiento no lineal (cuadrático, cúbico, libre) cuando la trayectoria observada no es lineal. La integración con el análisis de series temporales es especialmente relevante cuando las ocasiones de medición son muy numerosas (más de 5-6 puntos temporales).
3. LCGA y GMM: trayectorias heterogéneas
La extensión más poderosa del LGM para la investigación sobre trayectorias académicas es el reconocimiento de que la muestra puede no ser homogénea en su patrón de cambio. Los modelos de mezcla finita (LCGA y GMM) abordan esta heterogeneidad no observada:
3.1 LCGA (Latent Class Growth Analysis)
El LCGA (Nagin, 1999) asume que la varianza intraclase es cero: todos los individuos dentro de una clase siguen exactamente la misma trayectoria, con desviaciones explicadas únicamente por el error de medición. Esta restricción simplifica la estimación y facilita la interpretación, pero puede ser demasiado restrictiva cuando existe variabilidad real dentro de los subgrupos. Es el modelo preferido cuando el objetivo es descriptivo: identificar perfiles de trayectoria cualitativamente distintos.
3.2 GMM (Growth Mixture Model)
El GMM (Muthén y Shedden, 1999) relaja la restricción de varianza cero dentro de las clases, permitiendo que los individuos de una misma clase varíen en torno a la trayectoria de clase. Es metodológicamente más flexible pero computacionalmente más exigente y presenta problemas de identificación cuando las clases son pequeñas o las trayectorias son similares. La elección entre LCGA y GMM depende de los objetivos del estudio y del tamaño muestral disponible.
4. Criterios de selección del número óptimo de clases
La determinación del número de clases latentes es la decisión más crítica en LCGA y GMM. No existe un único criterio definitivo; la práctica recomendada en 2026 combina criterios estadísticos e interpretación sustantiva:
| Criterio | Preferir | Limitaciones |
|---|---|---|
| BIC (Bayesian Information Criterion) | Valor más bajo | Puede sobreestimar número de clases |
| saBIC (sample-adjusted BIC) | Valor más bajo | Mejor rendimiento en muestras medianas |
| VLMR-LRT (Vuong-Lo-Mendell-Rubin) | p < 0,05 | Distribución asintótica no estándar |
| BLRT (Bootstrap LRT) | p < 0,05 | Computacionalmente intensivo |
| Entropy | ≥ 0,80 | No criterio de selección, sino de calidad de clasificación |
| Tamaño mínimo de clase | ≥ 5 % de la muestra | Clases muy pequeñas son inestables |
La interpretación sustantiva es tan importante como los criterios estadísticos: las clases identificadas deben tener sentido teórico y ser distinguibles conceptualmente. Un modelo con más clases puede ajustar mejor estadísticamente pero producir clases cuya diferencia es trivial desde una perspectiva disciplinar. La IA puede automatizar la comparación de modelos con diferentes números de clases y presentar un resumen de los criterios, pero la decisión final requiere el juicio del investigador.
5. Predictores de clase y variables de resultado
Una vez identificadas las clases de trayectoria, el siguiente paso analítico es determinar qué características diferencian a los individuos que pertenecen a distintas clases (predictores de pertenencia a clase) y qué consecuencias tienen las distintas trayectorias (outcomes distales). Este análisis de tres etapas debe realizarse con cuidado para evitar el sesgo de clasificación modal:
- Primera etapa: estimar el modelo de mezcla de crecimiento y determinar el número de clases.
- Segunda etapa (predictores): añadir covariables predictoras de pertenencia a clase usando el método de Bolck, Croon y Hagenaars (BCH) o la corrección de Vermunt para evitar el sesgo de atenuación producido por la incertidumbre de clasificación.
- Tercera etapa (outcomes): estimar el efecto de la pertenencia a clase sobre variables de resultado distales usando los mismos métodos de corrección.
En Mplus —el software estadístico de referencia para GMM— estas correcciones están implementadas directamente en el comando AUXILIARY con las opciones BCH o R3STEP. La IA puede generar el código Mplus correspondiente y asistir en la interpretación de los resultados, complementando el análisis con los enfoques multinivel descritos en el artículo sobre Análisis Multinivel HLM con IA 2026.
6. IA en el flujo de trabajo de análisis de trayectorias
La IA transforma el flujo de trabajo del análisis de trayectorias en cuatro fases concretas:
6.1 Preparación de los datos longitudinales
Los modelos de trayectoria requieren datos en formato ancho (wide format: una fila por individuo, múltiples columnas para cada ocasión de medición). La IA puede asistir en la reestructuración de los datos desde formato largo, el manejo de datos faltantes mediante imputación múltiple o Full Information Maximum Likelihood (FIML), y el diagnóstico de valores atípicos longitudinales.
6.2 Especificación y estimación del modelo
Los LLMs pueden generar código R (lavaan, OpenMx, lcmm) o Mplus para modelos de crecimiento lineal, cuadrático, con cambio de base libre, con trozos (piecewise) o con covarianzas entre residuos. Esta asistencia reduce significativamente el tiempo de configuración y minimiza errores de sintaxis en software cuya curva de aprendizaje es pronunciada.
6.3 Selección de modelo y diagnóstico
La comparación sistemática de modelos con 1 a K clases —incluyendo el cálculo de todos los criterios de selección, la visualización de las trayectorias de clase y el análisis de entropía— puede automatizarse con IA, produciendo un informe estructurado que facilita la decisión sobre el número óptimo de clases.
6.4 Visualización y reporte
La producción de gráficos de trayectoria con bandas de confianza, la tabla de estadísticos de ajuste comparativos y la narrativa de resultados en APA 7 pueden ser generados por IA con alta fidelidad, reduciendo el tiempo de preparación del manuscrito. Herramientas como Tesify integran este flujo en una plataforma diseñada específicamente para investigadores doctorales.
7. Aplicaciones en educación, psicología y ciencias de la salud
7.1 Ciencias de la educación
El análisis de trayectorias de rendimiento académico longitudinal en cohortes de educación primaria o secundaria es una de las aplicaciones más fructíferas. Preguntas como: ¿Existen perfiles de estudiantes con trayectorias de mejora continua, estancamiento o declive en competencia lectora? ¿Qué factores del contexto familiar, escolar o individual predicen la pertenencia a cada perfil? son directamente abordables con GMM. Este tipo de análisis conecta con los enfoques exploratorios de IA generativa en investigación académica en España 2026.
7.2 Psicología del desarrollo
Los estudios de cohorte sobre el desarrollo de competencias socioemocionales, la evolución de la autoestima durante la adolescencia o los patrones de ansiedad a lo largo de la transición universitaria son aplicaciones naturales del GMM. La identificación de subgrupos vulnerables con trayectorias de deterioro persistente tiene implicaciones directas para el diseño de intervenciones preventivas.
7.3 Epidemiología del desarrollo y ciencias de la salud
En epidemiología nutricional, los patrones de crecimiento de cohortes pediátricas y la identificación de trayectorias de ganancia de peso excesiva son aplicaciones establecidas del LCGA (Nagin, 1999). En oncología, las trayectorias de calidad de vida durante el tratamiento y la recuperación constituyen un área de investigación activa donde la IA facilita el análisis de conjuntos de datos complejos con muchas ocasiones de medición y altas tasas de datos faltantes.
8. Reporte en formato APA 7
El reporte de un análisis de trayectorias en una tesis doctoral debe incluir:
- Para LGM: media e IC del intercepto y la pendiente, varianzas de los factores de crecimiento (con test de significación), covarianza intercepto-pendiente, índices de ajuste del modelo (CFI, TLI, RMSEA, SRMR) con comparación con el modelo nulo.
- Para LCGA/GMM: tabla comparativa de criterios de selección (BIC, saBIC, VLMR-LRT, BLRT) para modelos de 1 a K clases, entropía, tamaño de clase (n y %), tabla de parámetros de cada trayectoria (media del intercepto y la pendiente por clase), figura de trayectorias con bandas de confianza y descripción narrativa de cada perfil.
- Para análisis de predictores y outcomes: OR o coeficientes de regresión con IC al 95 % para predictores de pertenencia a clase y para el efecto de la clase sobre los outcomes, con el método de corrección utilizado (BCH, R3STEP).
La triangulación metodológica entre los perfiles de trayectoria cuantitativa y narrativas cualitativas sobre las experiencias de estudiantes en cada perfil puede producir una comprensión más rica y metodológicamente robusta de los patrones identificados, especialmente en tesis de enfoque mixto.
9. Consideraciones éticas y normativas
El análisis de trayectorias académicas con IA en tesis doctorales de 2026 plantea consideraciones éticas específicas que el EU AI Act (2024/1689) y la normativa de protección de datos (RGPD) regulan de forma directa. Los datos longitudinales de estudiantes son especialmente sensibles por su naturaleza personal y por el potencial de los modelos de trayectoria para producir clasificaciones que pueden afectar a la percepción y al tratamiento de individuos específicos.
ANECA (2025) exige que las tesis que utilizan datos longitudinales de menores o de poblaciones vulnerables demuestren la obtención del consentimiento informado apropiado, el cumplimiento del RGPD en todas las fases del análisis y la aprobación del comité de ética de la universidad. El artículo sobre Marco Ético del Uso de IA en Tesis 2026 desarrolla estas consideraciones en detalle. La etnografía digital con IA ofrece perspectivas complementarias sobre la protección de datos en entornos digitales de investigación.
Desde una perspectiva epistémica, la identificación de clases latentes de trayectoria no descubre tipos naturales de personas, sino patrones estadísticos en los datos. La reificación de las clases —tratarlas como categorías ontológicas reales— es un riesgo interpretativo que el investigador debe reconocer explícitamente en la sección de limitaciones de la tesis. La UNESCO (2023) alerta específicamente sobre el riesgo de que las clasificaciones producidas por IA en contextos educativos perpetúen o amplíen desigualdades si se emplean sin suficiente supervisión crítica.
Preguntas frecuentes
¿Cuántas ocasiones de medición necesito para un análisis de trayectorias?
El mínimo absoluto para un modelo de crecimiento lineal es 3 ocasiones de medición (para identificar el intercepto, la pendiente y al menos un índice de ajuste). Sin embargo, con solo 3 puntos temporales el modelo está exactamente identificado y no puede evaluarse el ajuste. Se recomiendan al menos 4 ocasiones para modelos lineales y 5 o más para modelos con formas de crecimiento más complejas (cuadrático, por segmentos) o cuando se usan modelos de mezcla (LCGA, GMM).
¿Cómo manejo los datos faltantes en un análisis longitudinal?
El método más recomendado en 2026 es Full Information Maximum Likelihood (FIML), que aprovecha toda la información disponible en el patrón de datos observados sin imputar valores faltantes, asumiendo que los datos son faltantes al azar (MAR). Para datos que podrían ser MNAR (faltantes no al azar, e.g., abandono selectivo), se recomienda un análisis de sensibilidad con modelos de selección o patrones de mezcla. La imputación múltiple con mice en R es una alternativa válida cuando FIML no está disponible en el software utilizado.
¿Cuál es la diferencia entre LCGA y GMM?
La diferencia clave es la varianza dentro de las clases: LCGA asume que todos los individuos de una clase siguen exactamente la misma trayectoria (varianza intraclase = 0, solo hay varianza de error de medición), mientras que GMM permite varianza intraclase (los individuos de una misma clase pueden variar en torno a la trayectoria de clase). LCGA es más parsimonioso y estable para muestras medianas; GMM es más flexible pero requiere muestras más grandes y puede tener problemas de convergencia.
¿Qué tamaño muestral necesito para un GMM con 3 clases?
Como orientación general, se recomienda que cada clase tenga al menos 50-100 individuos para estimaciones estables. Para un GMM con 3 clases y distribución moderadamente desigual (e.g., 50-30-20 %), se necesitan muestras de al menos 500 individuos. Con muestras más pequeñas, el LCGA es preferible al GMM. Se recomienda realizar un análisis de potencia mediante simulación Monte Carlo con el paquete simsem en R o la función MONTECARLO en Mplus.
¿Puede la IA determinar automáticamente el número óptimo de clases en un GMM?
La IA puede automatizar la comparación de modelos con diferente número de clases y presentar los criterios estadísticos (BIC, saBIC, VLMR-LRT, entropía), pero la decisión final debe combinar estos criterios con la interpretabilidad sustantiva de los perfiles. El modelo estadísticamente óptimo puede no ser el más útil teóricamente. ANECA espera que la sección de resultados de una tesis justifique tanto los criterios estadísticos como la coherencia teórica de la solución seleccionada.
¿Qué es la entropía en un modelo de mezcla de crecimiento?
La entropía (rango 0-1) cuantifica la calidad de la clasificación de individuos en las clases latentes: valores cercanos a 1 indican que los individuos se clasifican con alta probabilidad en una única clase (clasificación clara), mientras que valores cercanos a 0 indican solapamiento elevado entre clases (individuos con probabilidades similares de pertenecer a varias clases). La entropía no es un criterio de selección del número de clases, sino un índice de la calidad de la clasificación del modelo elegido. Se recomienda un mínimo de 0,70-0,80 para que la clasificación sea utilizable en análisis posteriores.
¿Puedo usar el análisis de trayectorias con variables dependientes binarias o de conteo?
Sí. Los modelos de trayectoria generalizados permiten especificar distribuciones no normales para la variable dependiente: distribución Bernoulli para variables binarias (e.g., aprobado/suspenso en cada año), distribución de Poisson o binomial negativa para variables de conteo (e.g., número de ausencias). En Mplus, esto se especifica con el comando CATEGORICAL o COUNT. En R, el paquete lcmm (Proust-Lima et al., 2017) implementa modelos de trayectoria para múltiples tipos de outcomes.
Referencias
- American Psychological Association. (2020). Publication manual of the American Psychological Association (7.ª ed.). APA.
- ANECA. (2025). Criterios de evaluación de tesis doctorales: análisis longitudinal y trayectorias con asistencia de IA. Agencia Nacional de Evaluación de la Calidad y Acreditación.
- CRUE Universidades Españolas. (2024). Recomendaciones para el uso responsable de la IA en la investigación universitaria. CRUE.
- European Parliament. (2024). Regulation (EU) 2024/1689 (Artificial Intelligence Act). Official Journal of the European Union.
- Jung, T., y Wickrama, K. A. S. (2008). An introduction to latent class growth analysis and growth mixture modeling. Social and Personality Psychology Compass, 2(1), 302–317. https://doi.org/10.1111/j.1751-9004.2007.00054.x
- McNeish, D., y Matta, T. (2018). Differentiating between mixed-effects and latent-curve approaches to growth modeling. Behavior Research Methods, 50(4), 1398–1414. https://doi.org/10.3758/s13428-017-0976-5
- Muthén, B., y Shedden, K. (1999). Finite mixture modeling with mixture outcomes using the EM algorithm. Biometrics, 55(2), 463–469. https://doi.org/10.1111/j.0006-341X.1999.00463.x
- Nagin, D. S. (1999). Analyzing developmental trajectories: A semiparametric, group-based approach. Psychological Methods, 4(2), 139–157. https://doi.org/10.1037/1082-989X.4.2.139
- Proust-Lima, C., Philipps, V., y Liquet, B. (2017). Estimation of extended mixed models using latent classes and latent processes: The R package lcmm. Journal of Statistical Software, 78(2), 1–56. https://doi.org/10.18637/jss.v078.i02
- Stanford HAI. (2025). AI Index Report 2025. Stanford University Human-Centered Artificial Intelligence.
- UNESCO. (2023). Guidance for generative AI in education and research. United Nations Educational, Scientific and Cultural Organization.
¿Investigas trayectorias de desarrollo en tu tesis doctoral?
Tesify te acompaña en el análisis de trayectorias académicas longitudinales: desde la preparación de datos hasta el reporte de modelos LGM y GMM en formato APA 7. Nuestro asistente IA está diseñado para investigadores doctorales en educación, psicología y ciencias de la salud que trabajan con datos de cohorte.
Deja una respuesta