Sesgos en Modelos de IA Generativa: Implicaciones Metodológicas para Tesis 2026
Los sesgos en IA generativa y sus implicaciones para tesis representan uno de los desafíos metodológicos más urgentes para investigadores en 2026. Cuando un doctorando utiliza herramientas como ChatGPT, Claude o Gemini para apoyar la revisión de literatura, el análisis temático o la síntesis de resultados, incorpora de forma invisible los sesgos estructurales de esos modelos en su trabajo académico. Comprender la naturaleza, taxonomía y mecanismos de mitigación de estos sesgos no es opcional: es una exigencia de rigor científico reconocida por ANECA, la Comisión Europea y la comunidad investigadora internacional.
Este artículo examina con profundidad los tipos de sesgo presentes en los grandes modelos de lenguaje (LLM), sus efectos sobre la validez interna y externa de las investigaciones, y las estrategias metodológicas recomendadas para documentar, controlar y declarar su impacto en una tesis doctoral o TFG de máster en 2026.
Taxonomía de sesgos en modelos de lenguaje
La literatura especializada distingue al menos seis categorías de sesgo relevantes para la investigación académica (Ferrara et al., 2023; Navigli et al., 2023):
| Tipo de sesgo | Origen | Efecto en la tesis |
|---|---|---|
| Sesgo de representación | Datos de entrenamiento desbalanceados | Omisión de perspectivas minoritarias |
| Sesgo de confirmación | RLHF y feedback humano | Validación acrítica de hipótesis previas |
| Sesgo lingüístico | Predominio del inglés en corpus | Marcos teóricos anglocéntricos |
| Sesgo de recencia | Fecha de corte del entrenamiento | Referencias desactualizadas |
| Sesgo de autoridad | Sobre-citación de fuentes de alto impacto | Invisibilización de literatura gris relevante |
| Sesgo de alineación | Fine-tuning para evitar contenido sensible | Elusión de temas controvertidos legítimos |
Sesgo de datos de entrenamiento y sobrerepresentación
Los modelos de lenguaje de gran escala se entrenan sobre corpus de decenas de billones de tokens procedentes, en su mayoría, de fuentes digitales angloparlantes. Common Crawl, Books3, Wikipedia inglesa y Stack Exchange representan el grueso de los datos de modelos como GPT-4 y Claude 3 (Touvron et al., 2023). Esto tiene consecuencias directas sobre la investigación en ciencias sociales, humanidades y ciencias de la salud en el espacio hispanohablante:
- La producción científica en español publicada en repositorios como Dialnet, Redalyc o Scielo está infrarepresentada.
- Los contextos culturales, legales e institucionales europeos y latinoamericanos reciben menor cobertura que los angloamericanos.
- Los estudios cualitativos y etnográficos con poblaciones locales rara vez aparecen en los datos de entrenamiento con suficiente densidad.
Para el investigador en formación, esto significa que cuando solicita a un LLM que sintetice el estado del arte en, por ejemplo, educación inclusiva en México o derecho laboral en España, el modelo puede generar síntesis plausibles pero estructuralmente incompletas, omitiendo autores relevantes en español y sobrevalorando marcos teóricos norteamericanos o británicos.
Sesgo de confirmación y amplificación algorítmica
El ajuste fino mediante retroalimentación humana (RLHF, Reinforcement Learning from Human Feedback) introduce un sesgo de confirmación sistemático: los evaluadores humanos —generalmente trabajadores de plataformas como Scale AI, mayoritariamente de países en desarrollo y con sesgos culturales propios— refuerzan respuestas que les parecen plausibles o académicamente convencionales (Bender et al., 2021).
En el contexto de una tesis, este sesgo de confirmación se manifiesta cuando el investigador utiliza la IA para revisar sus hipótesis o para generar argumentos. El modelo tiende a proporcionar respuestas que validan las premisas implícitas del prompt, un fenómeno que Harvard Business Review (2026) denominó «amplificación de sesgos del usuario». Si el doctorando formula una pregunta tendenciosa, la IA generativa raramente ofrece resistencia epistemológica.
Sesgo lingüístico y anglocentrismo en investigación hispanohablante
El anglocentrismo estructural de los LLM es quizás el sesgo más relevante para los investigadores hispanohablantes. Según datos del Instituto Cervantes (2023), el español es la segunda lengua más hablada del mundo y la tercera más utilizada en internet; sin embargo, representa menos del 4% de los datos de entrenamiento de los principales modelos de lenguaje (Joshi et al., 2020).
Las implicaciones metodológicas concretas para una tesis doctoral son:
- Marco teórico: los conceptos generados en español por LLM suelen ser traducciones —a menudo imprecisas— de constructos anglosajones, lo que puede deformar el marco conceptual.
- Revisión de literatura: los modelos priorizan artículos de Scopus y Web of Science sobre fuentes especializadas latinoamericanas o ibéricas.
- Metodología: las herramientas y procedimientos sugeridos por la IA suelen corresponder a tradiciones metodológicas norteamericanas, no necesariamente compatibles con los estándares ANECA.
- Perspectivas epistemológicas: los enfoques de investigación decolonial, comunitarios o basados en cosmovisiones locales están severamente subrepresentados.
Impacto sobre la validez interna y externa de la tesis
En metodología de investigación, la validez interna hace referencia a la capacidad de establecer relaciones causales o explicativas dentro del contexto estudiado, mientras que la validez externa alude a la generalización de los hallazgos (Campbell y Stanley, 1966; Shadish et al., 2002). Los sesgos de los LLM afectan ambas dimensiones:
Amenazas a la validez interna
- Contaminación conceptual: si el investigador usa IA para operacionalizar variables, puede incorporar definiciones construidas por el modelo que no corresponden al contexto local.
- Sesgo del instrumentador: las guías de entrevista o cuestionarios generados por IA pueden contener supuestos culturales inadecuados.
- Construcción de categorías analíticas: en análisis cualitativo, las categorías emergentes sugeridas por la IA pueden reproducir esquemas teóricos preexistentes, impidiendo la generación inductiva genuina.
Amenazas a la validez externa
- Muestra sesgada de literatura: una revisión sistemática apoyada en IA que omite sistemáticamente estudios en español, portugués o idiomas no occidentales producirá generalizaciones con alcance geográfico limitado.
- Constructos sin equivalencia transcultural: los marcos teóricos anglocéntricos generados por LLM pueden no ser aplicables a contextos latinoamericanos o europeos meridionales.
Fases de la investigación especialmente vulnerables
No todas las fases del proceso investigador son igualmente vulnerables a los sesgos de los LLM. El siguiente análisis identifica los puntos de mayor riesgo:
Planteamiento del problema y revisión de literatura
Es la fase de máximo riesgo. La IA generativa puede producir resúmenes del estado del arte que parecen completos pero que omiten sistemáticamente líneas de investigación periféricas o en idiomas distintos al inglés. Se recomienda siempre completar la búsqueda con bases de datos especializadas como Dialnet, Redalyc, Scielo, ISOC y el repositorio TESEO para tesis doctorales españolas. Véase también nuestro análisis del estado del arte sobre IA generativa en investigación académica en España.
Diseño metodológico
El riesgo aquí es más sutil: la IA puede sugerir diseños metodológicos inadecuados para el problema específico o presentar como estándar procedimientos que corresponden a tradiciones disciplinares específicas. Para una discusión completa sobre tipos y estructuras metodológicas, consulte nuestra guía de metodología TFG con validación IA.
Análisis de datos
En análisis cualitativos asistidos por IA, el modelo puede imponer categorías analíticas preconstruidas que inhiben el descubrimiento inductivo. En análisis cuantitativos, puede sugerir pruebas estadísticas sin verificar el cumplimiento de sus supuestos. Ver también: análisis temático cualitativo con IA.
Estrategias de mitigación metodológica
La literatura metodológica reciente (Floridi et al., 2023; Weidinger et al., 2022) y las guías institucionales de la UNED, la UCM y la Universidad de Granada proponen las siguientes estrategias:
1. Auditoría del prompting
Registrar y analizar los prompts utilizados durante la investigación como parte del protocolo metodológico. Un prompt tendencioso produce respuestas tendenciosas. Se recomienda formular preguntas abiertas, simétricas y con perspectivas múltiples.
2. Triangulación de fuentes
Nunca utilizar la IA como fuente única para ninguna afirmación factual, teórica o empírica. Toda información generada por IA debe triangularse con al menos dos fuentes primarias independientes.
3. Declaración explícita y reflexividad
El marco ético propuesto por la Comisión Europea y los principios de ética en el uso de IA en tesis doctorales exigen transparencia total sobre el uso de IA, incluyendo una reflexión crítica sobre sus limitaciones y sesgos potenciales.
4. Búsqueda complementaria en repositorios especializados
Sistemáticamente complementar los resultados de la IA con búsquedas manuales o semiautomatizadas en Dialnet, Redalyc, Scielo, ERIC, PsycINFO y las bases de datos de las bibliotecas universitarias españolas.
5. Revisión por pares del proceso de uso de IA
Incluir al director/a de tesis o a pares externos en la revisión de los segmentos producidos con apoyo de IA, especialmente en la revisión de literatura y el análisis de datos.
Cómo declarar el uso de IA y sus limitaciones en APA 7
La séptima edición del Manual de Publicaciones de la APA (American Psychological Association, 2020) y sus actualizaciones de 2023 establecen que el uso de IA generativa debe declararse explícitamente. La guía completa sobre cómo citar IA en formato APA 7 detalla los formatos de citación; aquí nos centramos en la declaración de limitaciones:
Ejemplo de declaración en sección de limitaciones:
«La presente investigación utilizó ChatGPT-4o (OpenAI, 2024) como herramienta auxiliar en la revisión de literatura. Se reconocen las siguientes limitaciones derivadas del uso de este sistema: (a) posible sesgo de representación hacia literatura anglófona, (b) fecha de corte del conocimiento en abril de 2024, (c) potencial sesgo de confirmación en la síntesis de fuentes. Todos los pasajes generados con IA fueron verificados contra fuentes primarias. Para la trazabilidad del proceso, los prompts utilizados se adjuntan como Apéndice C.»
Posición de ANECA y CRUE ante los sesgos de IA
La Agencia Nacional de Evaluación de la Calidad y Acreditación (ANECA) publicó en 2024 sus criterios para la evaluación de tesis doctorales que incorporan herramientas de IA. La posición institucional reconoce el valor de estas herramientas pero exige:
- Declaración explícita del uso de IA en la sección metodológica.
- Análisis crítico de las limitaciones y sesgos potenciales.
- Evidencia de que el investigador ha ejercido supervisión activa y pensamiento crítico sobre los resultados generados.
- Responsabilidad académica indivisible del doctorando sobre los contenidos de la tesis, independientemente de las herramientas utilizadas.
La Conferencia de Rectores de las Universidades Españolas (CRUE) complementa esta posición con su declaración sobre IA y ética académica (CRUE, 2023), que enfatiza la necesidad de formación en pensamiento crítico sobre IA como competencia doctoral. En el contexto del Espacio Europeo de Educación Superior (EHEA), la Declaración de Berlín de 2003 y sus desarrollos posteriores sitúan la integridad académica como eje vertebrador de la investigación doctoral, lo que incluye la gestión crítica de las herramientas computacionales.
Para profundizar en los aspectos éticos y normativos, consulte nuestro artículo sobre la IA académica en 2026: usos permitidos y futuro de la universidad.
Herramientas como Tesify incorporan estas consideraciones en su diseño, proporcionando al investigador orientación sobre los límites del uso de IA y promoviendo la transparencia metodológica.
Preguntas frecuentes sobre sesgos de IA en tesis
¿Todos los modelos de IA generativa tienen los mismos sesgos?
No. Cada modelo tiene un perfil de sesgos diferente en función de sus datos de entrenamiento, procedimientos de alineación (RLHF) y decisiones de diseño. GPT-4 tiende hacia el anglocentrismo y el sesgo de autoridad académica; Claude muestra mayor cautela epistémica pero puede ser excesivamente neutral; los modelos especializados en español como BLOOM-176B o Llama adaptado al español presentan distribuciones de sesgo distintas. Es recomendable declarar específicamente qué modelo se utilizó y en qué versión.
¿El sesgo de IA puede invalidar una tesis doctoral?
Un uso acrítico y no declarado de IA generativa con sesgos que afecten materialmente a los resultados podría ser cuestionado en la defensa doctoral y en el proceso de evaluación de ANECA. Sin embargo, un uso transparente, metodológicamente reflexivo y debidamente declarado no invalida la investigación; al contrario, demuestra madurez metodológica. La clave es la declaración explícita, la triangulación y el pensamiento crítico.
¿Cómo saber si la revisión de literatura generada por IA tiene sesgo de representación?
Examinando el perfil lingüístico y geográfico de las referencias generadas: si más del 90% son en inglés y proceden de Estados Unidos o Reino Unido, existe sesgo de representación. Complemente siempre con búsquedas en Dialnet, Redalyc, Scielo, ISOC y bases de datos regionales. Analice también si los marcos teóricos citados proceden de una sola tradición disciplinar o geográfica.
¿El sesgo de confirmación de la IA afecta el análisis cualitativo?
Sí, especialmente en el análisis temático inductivo. Cuando se utiliza IA para sugerir categorías o temas emergentes a partir de datos cualitativos, el modelo tiende a producir estructuras temáticas que reproducen marcos teóricos convencionales en lugar de categorías genuinamente inductivas. Es esencial realizar el análisis temático inicial de forma independiente antes de contrastar con la IA, y documentar explícitamente el proceso.
¿Qué debo incluir en el apartado de limitaciones de mi tesis sobre el uso de IA?
Debe incluir: (1) identificación del modelo y versión utilizada, (2) descripción de las tareas en las que se usó, (3) análisis explícito de los sesgos potenciales de ese modelo en el contexto específico de su investigación, (4) estrategias de mitigación aplicadas (triangulación, auditoría de prompts), y (5) declaración de responsabilidad académica exclusiva del investigador sobre todos los contenidos.
¿Existen herramientas para detectar o auditar sesgos en outputs de IA?
Sí. Algunas herramientas académicas en desarrollo incluyen FairLearn (Microsoft), AI Fairness 360 (IBM) y diversas propuestas de auditoría basadas en prompts adversariales. Para el contexto académico específico, Stanford HAI (Human-Centered AI Institute) publica directrices anuales de evaluación crítica de modelos. Sin embargo, no existe aún una solución estandarizada y aceptada universalmente; la reflexividad metodológica del investigador sigue siendo la principal salvaguarda.
¿El sesgo lingüístico afecta igualmente a todas las disciplinas?
No uniformemente. Las disciplinas STEM tienen corpora en inglés más completos y estandarizados a nivel internacional, por lo que el sesgo lingüístico es menor. En cambio, las humanidades, ciencias sociales, derecho y educación presentan mayor riesgo, ya que la producción académica relevante en estas áreas está mucho más distribuida geográfica y lingüísticamente, con una proporción significativa de trabajo publicado exclusivamente en español, portugués, francés u otras lenguas.
Referencias bibliográficas
- American Psychological Association. (2020). Publication manual of the American Psychological Association (7.ª ed.). APA. https://doi.org/10.1037/0000165-000
- Bender, E. M., Gebru, T., McMillan-Major, A., y Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? Proceedings of FAccT 2021, 610–623. https://doi.org/10.1145/3442188.3445922
- Comisión Europea. (2024). Reglamento de Inteligencia Artificial (AI Act) 2024/1689. Diario Oficial de la Unión Europea.
- CRUE. (2023). Declaración sobre el uso ético de la inteligencia artificial en las universidades españolas. Conferencia de Rectores de las Universidades Españolas.
- Ferrara, E., Chang, H., Chen, E., Muric, G., y Patel, J. (2023). Fairness and bias in artificial intelligence: A brief survey of sources, impacts, and mitigation strategies. Sci, 6(1), 3. https://doi.org/10.3390/sci6010003
- Floridi, L., Cowls, J., King, T. C., y Taddeo, M. (2023). How to design AI for social good: Seven essential factors. Science and Engineering Ethics, 29(4), 1–17.
- Harvard Business Review. (2026, enero). When AI amplifies the biases of its users. Harvard Business Review. https://hbr.org/2026/01/when-ai-amplifies-the-biases-of-its-users
- Joshi, P., Santy, S., Budhiraja, A., Bali, K., y Choudhury, M. (2020). The state and fate of linguistic diversity and inclusion in the NLP world. Proceedings of ACL 2020, 6282–6293.
- Navigli, R., Conia, S., y Ross, B. (2023). Biases in large language models: Origins, inventory, and discussion. ACM Journal of Data and Information Quality, 15(2), 1–21.
- Touvron, H., Martin, L., Stone, K., y otros. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv, 2307.09288.
- Weidinger, L., Mellor, J., Rauh, M., y otros. (2022). Taxonomy of risks posed by language models. Proceedings of FAccT 2022, 214–229.

Deja una respuesta