,

Reproducibilidad Científica e IA Generativa: Implicaciones Metodológicas 2026

Reproducibilidad Científica e IA Generativa: Implicaciones Metodológicas 2026

La reproducibilidad científica y la IA generativa mantienen una relación intrínsecamente tensa que en 2026 se ha convertido en uno de los debates metodológicos más urgentes de la comunidad investigadora. La ciencia se construye sobre el principio de que los resultados pueden ser verificados de forma independiente; la IA generativa, por su naturaleza estocástica y su opacidad algorítmica, introduce variables que pueden comprometer este pilar epistemológico si no se abordan con rigor metodológico explícito.

Este artículo analiza las principales implicaciones que la integración de IA generativa tiene sobre la reproducibilidad en la investigación académica, con especial atención al contexto de las tesis doctorales y los artículos científicos en el espacio universitario español y europeo. Se ofrecen protocolos concretos para mitigar los riesgos y mantener los estándares de trazabilidad que la comunidad científica internacional demanda.

Respuesta rápida: La IA generativa amenaza la reproducibilidad por tres vías: no determinismo (la misma consulta produce resultados distintos), actualizaciones de modelos sin versionado estable, y baja tasa de declaración del uso por parte de los investigadores. El protocolo mínimo para preservar la reproducibilidad incluye: documentar herramienta + versión + fecha, registrar los prompts exactos, y guardar las respuestas generadas como material suplementario.

La crisis de replicabilidad y el contexto de la IA

La “crisis de replicabilidad” lleva más de una década sacudiendo la ciencia empírica. Los estudios seminales de Open Science Collaboration (2015) en psicología, los escándalos de fraude en biología molecular y los metaanálisis que refutan hallazgos considerados robustos han erosionado la confianza en los procesos de producción científica. En este contexto, la irrupción de la IA generativa como herramienta metodológica añade capas de complejidad nuevas.

La paradoja central es que la IA puede tanto mejorar la reproducibilidad —automatizando procesos mecánicos propensos al error humano, garantizando consistencia en la aplicación de criterios— como amenazarla, cuando su uso no se documenta adecuadamente o cuando la opacidad de los modelos hace imposible la auditoría del proceso.

Un dato ilustrativo: SciELO publicó en 2025 un análisis sobre transparencia en el uso de IA en investigación académica que reveló que solo el 12% de las revistas académicas tienen políticas sobre IA y apenas el 7% directrices claras. En España, la situación es similar: solo una minoría de las tesis doctorales defendidas en 2025 declaraba explícitamente el uso de IA en el proceso investigador, a pesar de que su uso es ampliamente reconocido. Consulta el panorama completo en el artículo sobre IA generativa en la investigación académica española: estado del arte 2026.

Fuentes específicas de irreproducibilidad en IA generativa

1. No determinismo intrínseco

Los LLMs son modelos probabilísticos. La temperatura de muestreo (temperatura = 0 produce salidas más deterministas; temperatura = 1, más creativas) y el top-p sampling hacen que la misma consulta genere respuestas distintas en cada ejecución. Aunque fijando temperatura = 0 y semilla aleatoria se puede aumentar la reproducibilidad, la mayoría de las interfaces de usuario no exponen estos parámetros al investigador.

Implicación práctica: si un investigador usó ChatGPT para codificar temáticamente un corpus y otro investigador intenta replicar ese proceso, obtendrá resultados parcialmente distintos incluso con el mismo prompt y el mismo corpus. Esto no invalida el uso de IA, pero exige que los resultados de la IA sean tratados como datos que requieren verificación, no como procedimientos que garantizan reproducibilidad automática.

2. Actualizaciones y obsolescencia de modelos

Los modelos de IA se actualizan de forma continua. OpenAI, Anthropic y Google no mantienen versiones antiguas accesibles de forma indefinida. Un análisis realizado con GPT-4o en enero de 2026 no puede replicarse exactamente en diciembre de 2026 porque el modelo habrá sido actualizado. Esta característica es fundamentalmente diferente de la de cualquier otro software estadístico (R, SPSS, Stata), donde las versiones permanecen estables y accesibles.

3. Opacidad del proceso de entrenamiento

Los datos de entrenamiento, los procedimientos de RLHF (Reinforcement Learning from Human Feedback) y los filtros de seguridad de los modelos comerciales son información propietaria. Esto hace imposible que un investigador justifique plenamente por qué el modelo respondió de una manera determinada, lo que es incompatible con los estándares de transparencia metodológica de muchas disciplinas.

4. Baja cultura de declaración

Según los datos de SciELO (2025) y la paradoja de la transparencia señalada por Ferran-Ferrer et al. (2025), la declaración del uso de IA tiene un “alto coste” percibido —riesgo de rechazo editorial, sospechas sobre la originalidad— que desincentiva la transparencia. Este comportamiento sistémico crea un corpus científico en el que el uso de IA está presente pero invisible, haciendo imposible evaluar su impacto en los resultados.

Protocolo de documentación para reproducibilidad

En ausencia de estándares universalmente adoptados, el protocolo mínimo recomendado —basado en las directrices emergentes de Nature Portfolio, PLOS, la APA y el análisis de mejores prácticas— incluye los siguientes elementos:

Registro obligatorio

Elemento Descripción Ejemplo
Herramienta Nombre comercial del modelo Claude 3.5 Sonnet
Versión Identificador de versión específico claude-3-5-sonnet-20241022
Fecha de acceso Fecha exacta de la consulta 15 de enero de 2026
Prompt(s) Texto exacto de la consulta enviada Apéndice A de la tesis
Parámetros Temperatura, top-p si se accede vía API T=0, top_p=1
Salida guardada Respuesta completa generada Material suplementario / Apéndice B

Declaración metodológica

En la sección de Metodología de la tesis o artículo, incluir un párrafo específico sobre el uso de IA que siga el modelo:

“Para [descripción del uso], se empleó [nombre del modelo, versión] el [fecha]. Los prompts utilizados se reproducen íntegramente en el Apéndice [X]. Las respuestas generadas fueron revisadas críticamente y [descripción del proceso de verificación/modificación]. Los resultados finales presentados en esta investigación son el producto de la interpretación y síntesis del investigador sobre las salidas de la herramienta, no una reproducción directa de las mismas.”

Implicaciones por área disciplinar

Ciencias experimentales

En biología, química o física, la IA se usa principalmente para análisis de imágenes, generación de código de análisis y revisión de literatura. El riesgo de reproducibilidad es principalmente en el código generado: siempre debe versionarse (Git) y compartirse públicamente. Los journals de alto impacto (Nature, Science, Cell) ya exigen que el código de análisis sea depositado en repositorios abiertos.

Ciencias sociales

El riesgo es mayor en los estudios cualitativos y de análisis de texto, donde la IA puede intervenir en la codificación y la interpretación. El análisis detallado de estos riesgos se aborda en el artículo sobre investigación cualitativa con asistencia de IA. Para estudios cuantitativos con análisis estadístico asistido por IA, el código debe ser verificado y los resultados contrastados con implementaciones estándar (SPSS, R, Stata).

Humanidades digitales

El procesamiento de grandes corpus textuales con IA (análisis de sentimientos, topic modelling, reconocimiento de entidades nombradas) es especialmente susceptible a los problemas de reproducibilidad por las actualizaciones de modelos. Se recomienda documentar el modelo exacto y, cuando sea posible, usar modelos open-source con versiones fijas y repositoriados en Hugging Face o GitHub.

Ciencias de la salud

Las guías CONSORT y PRISMA han sido actualizadas para incluir declaraciones sobre IA. La EMA ha publicado directrices específicas para el uso de IA en ensayos clínicos. En este ámbito, los requisitos de reproducibilidad son más estrictos dado el impacto directo sobre la toma de decisiones clínicas.

Indicadores de I+D en América Latina y el Caribe 2024 — inversión en investigación y desarrollo por país, RICYT
Fuente: RICYT — Red Iberoamericana de Indicadores de Ciencia y Tecnología (2024)

Estándares emergentes y directrices institucionales

La comunidad científica internacional está desarrollando marcos para gestionar la reproducibilidad en el contexto de la IA:

  • NISO (National Information Standards Organization): Grupo de trabajo sobre transparencia de IA en publicación académica, con borrador de estándar previsto para 2026.
  • Nature Portfolio: Desde enero de 2024, exige declaración de uso de IA en todos los manuscritos; está desarrollando un formulario estructurado de declaración.
  • PLOS ONE: Política de declaración obligatoria de uso de IA desde julio de 2023, con verificación editorial.
  • EU AI Act (2024/1689), artículos 50-53: Obligaciones de transparencia para modelos GPAI que tienen implicaciones directas para la investigación financiada públicamente.
  • UNESCO (2023): Las directrices para IA en educación e investigación recomiendan sistemas de gestión de proveniencia de datos e IA para garantizar la trazabilidad.

En España, el panorama estadístico sobre IA en universidades 2026 muestra que solo un 38% de las universidades tienen políticas de IA publicadas, lo que crea un vacío normativo que el investigador debe gestionar con sus propios protocolos mientras se desarrolla el marco regulatorio.

Herramientas para gestionar la trazabilidad

Existen herramientas que facilitan la documentación del uso de IA con fines de reproducibilidad:

  • PromptLayer: Registra automáticamente todos los prompts y respuestas con metadatos de versión y timestamp, con exportación a formatos estándar.
  • LangSmith: Trazabilidad de aplicaciones construidas con LLMs, útil para investigadores que usan la API directamente.
  • Git + DVC (Data Version Control): Para versionado de datos y modelos en pipelines de análisis que incluyen IA.
  • Open Science Framework (OSF): Repositorio de prerregistros y materiales suplementarios donde pueden depositarse los prompts y las respuestas generadas.
  • Zenodo: Plataforma de depósito de datos de investigación mantenida por el CERN, cada vez más usada para depositar los materiales generados con IA.
  • Tesify: Mantiene un registro de asistencia en la escritura académica que puede usarse como soporte de la declaración de uso de IA en la metodología de la tesis.

Para el marco ético completo que rodea estas prácticas, consulta el artículo sobre el marco ético del uso de IA en tesis doctorales.

Preguntas frecuentes

¿Puede considerarse reproducible una investigación que usó IA generativa?

Sí, con las salvaguardas adecuadas. La reproducibilidad exacta (mismos resultados en cada ejecución) no es posible con la mayoría de los LLMs. Sin embargo, la reproducibilidad conceptual —que otro investigador pueda seguir el mismo proceso y llegar a conclusiones similares— sí es alcanzable si se documentan exhaustivamente los prompts, la versión del modelo, la fecha de consulta y el proceso de supervisión de los resultados. Es lo que algunos metodólogos llaman “auditabilidad” como estándar alternativo al de reproducibilidad exacta.

¿Qué hago si el modelo de IA que usé ya no está disponible cuando alguien quiere replicar mi investigación?

Documenta exhaustivamente el proceso: prompts, versión, fecha, salidas. Si usaste un modelo comercial que ya no existe, esa documentación es el único recurso para la trazabilidad. Para investigaciones donde la reproducibilidad es crítica, considera usar modelos open-source (LLaMA, Mistral, Falcon) que puedes descargar y versionar, garantizando acceso permanente a la versión exacta que utilizaste.

¿Debo pre-registrar el uso de IA en mi investigación antes de comenzar?

No hay un estándar consolidado para el pre-registro específico del uso de IA, pero es una práctica recomendable en estudios cuantitativos hipotético-deductivos. En el pre-registro (OSF, AsPredicted, ClinicalTrials.gov), describe las herramientas de IA que planeas usar, su propósito y los criterios de supervisión. Esto protege contra la acusación de HARKing (Hypothesizing After Results are Known) cuando la IA sugiere hipótesis post-hoc.

¿Las revisiones sistemáticas con IA son metodológicamente válidas?

Sí, con las restricciones adecuadas. Las guías PRISMA 2020 han sido complementadas con extensiones para revisiones asistidas por IA. El uso de herramientas como Rayyan, Covidence o Elicit para el cribado de títulos y abstracts es metodológicamente aceptado si se documenta y si la decisión final de inclusión/exclusión es humana. Las revisiones “AI-only” sin supervisión humana significativa no cumplen los estándares PRISMA.

¿Cómo afecta el “hallucination problem” de los LLMs a la reproducibilidad?

Las “alucinaciones” —generación de información plausible pero incorrecta— son el riesgo más directo para la reproducibilidad y la validez. Si un investigador incluye en su tesis una referencia bibliográfica inventada por la IA o un dato estadístico que no existe, compromete la validez factual de toda la investigación. La regla de oro: nunca uses como hecho una afirmación que proviene solo de una IA; siempre verifica en la fuente primaria. Ji et al. (2023) ofrecen la revisión más completa de este fenómeno.

¿Exigen los comités de tesis en España que se documenten los prompts de IA?

En 2026, no existe aún un estándar nacional uniforme. La UC3M exige la Declaración de Tecnologías de Asistencia pero no necesariamente los prompts. Sin embargo, la tendencia internacional apunta hacia exigir los prompts como material suplementario cuando la IA ha sido usada de forma sustancial en el análisis. Documentarlos desde el inicio es la práctica más segura y facilita la defensa ante cualquier cuestionamiento sobre el proceso investigador.

Referencias

  • European Parliament & Council. (2024). Regulation (EU) 2024/1689 on Artificial Intelligence. Official Journal of the European Union.
  • Ferran-Ferrer, N., Guallar, J., Abadal, E., & Server, A. (2025). La paradoja de la transparencia en el uso de la IA generativa en la investigación académica. SciELO en Perspectiva. https://blog.scielo.org/es/2025/10/10/la-paradoja-de-la-transparencia-en-el-uso-de-la-ia-generativa-en-la-investigacion-academica/
  • Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto, A., & Fung, P. (2023). Survey of hallucination in natural language generation. ACM Computing Surveys, 55(12), 1-38. https://doi.org/10.1145/3571730
  • Kapoor, S., & Narayanan, A. (2023). Leakage and the reproducibility crisis in machine-learning-based science. Patterns, 4(9), 100804. https://doi.org/10.1016/j.patter.2023.100804
  • Liao, Q. V., & Vaughan, J. W. (2023). AI transparency in the age of LLMs: A human-centered research roadmap. Harvard Data Science Review. https://doi.org/10.1162/99608f92.8036d03b
  • Nature Portfolio. (2024). Artificial intelligence in editorial and peer review. Springer Nature. https://www.nature.com/nature-portfolio/editorial-policies/ai
  • Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716. https://doi.org/10.1126/science.aac4716
  • Page, M. J., et al. (2021). The PRISMA 2020 statement: An updated guideline for reporting systematic reviews. BMJ, 372, n71. https://doi.org/10.1136/bmj.n71
  • SciELO. (2025). Impacto de la inteligencia artificial generativa en la integridad científica: Un análisis bibliométrico. Revista de Bioética y Derecho. https://revistes.ub.edu/index.php/RBD/article/view/48524
  • Stanford HAI. (2025). Artificial Intelligence Index Report 2025. Stanford University Human-Centered AI Institute.
  • UNESCO. (2023). Guidance for Generative AI in Education and Research. https://unesdoc.unesco.org/ark:/48223/pf0000386693

Leave a Reply

Your email address will not be published. Required fields are marked *