,

TFG de Filología: construir y analizar un corpus lingüístico paso a paso (2026)

TFG de Filología: construir y analizar un corpus lingüístico paso a paso (2026)

Muchos estudiantes de Filología llegan al TFG con una idea temática muy clara —el uso del subjuntivo en hablantes de herencia, las metáforas en el discurso político, los anglicismos en la prensa digital— pero sin saber cómo convertir esa intuición en un estudio empírico riguroso. La respuesta, en la mayoría de los casos, pasa por construir y analizar un corpus lingüístico. Un corpus bien diseñado transforma tu TFG de Filología corpus en un trabajo con datos propios, reproducible y defendible ante cualquier tribunal.

La lingüística de corpus lleva décadas instalada como metodología canónica en las facultades de Filología españolas. Facultades como la UCM, la UAM, la UV o la UAB tienen grupos de investigación activos en corpus y ofrecen TFG en esta línea. Esta guía te explica, desde cero y sin dar nada por supuesto, cómo construir tu corpus, qué herramientas usar y cómo presentar los resultados con el nivel de rigor que espera tu tutor.

Respuesta rápida: El TFG de Filología basado en corpus sigue seis fases: definir la pregunta de investigación y la hipótesis, fijar los criterios de diseño del corpus (representatividad, equilibrio, tamaño), recopilar y limpiar los textos, analizar con herramientas como AntConc o Sketch Engine (frecuencias, concordancias, colocaciones), interpretar los resultados y redactar la discusión comparando con la literatura. La sección metodológica es tan importante como los resultados.

¿Qué es un corpus lingüístico y para qué sirve en el TFG?

Un corpus lingüístico es una colección de textos —escritos, orales o multimodales— recopilados de forma sistemática y representativa para estudiar la lengua en uso real. A diferencia de la introspección o los ejemplos de manual, el corpus permite hacer afirmaciones sobre frecuencias, distribuciones y patrones con base empírica verificable.

En el contexto de un TFG, el corpus cumple una doble función: es el objeto de estudio (la variedad lingüística, el género discursivo, el fenómeno gramatical que te interesa) y al mismo tiempo la fuente de los datos con los que contrastarás tu hipótesis. Eso es lo que lo diferencia de una revisión bibliográfica: en lugar de resumir lo que otros han dicho sobre el tema, tú aportas evidencia empírica nueva.

Los temas más habituales en TFG de Filología con metodología de corpus incluyen:

  • Variación léxica o morfosintáctica entre variedades del español (peninsular vs. latinoamericano, formal vs. coloquial)
  • Anglicismos, préstamos y neologismos en prensa, redes sociales o lenguaje especializado
  • Análisis del discurso político, publicitario o periodístico
  • Géneros textuales académicos (abstracts, artículos científicos) en inglés o español
  • Patrones de metáfora o frame semántico en un dominio temático concreto
  • Evolución diacrónica de una construcción gramatical

Tipos de corpus: elige el que encaja con tu pregunta

Antes de recopilar un solo texto, decide qué tipo de corpus necesitas. Esta decisión determina todo lo demás:

Tipo Descripción Idóneo para
Corpus especializado Textos de un dominio temático o género concreto Lenguaje jurídico, médico, periodístico, político
Corpus comparativo Dos o más subcorpora comparados sistemáticamente Variación dialectal, comparación de géneros o épocas
Corpus de aprendiz Textos producidos por hablantes no nativos Adquisición de L2, errores frecuentes, transferencia
Corpus histórico / diacrónico Textos de distintos períodos cronológicos Cambio lingüístico, evolución de construcciones
Corpus oral Transcripciones de habla espontánea o semiespontánea Pragmática, prosodia, marcadores discursivos

Para la mayoría de los TFG de grado, un corpus especializado o comparativo de entre 50.000 y 300.000 palabras es manejable y suficientemente representativo. Los corpus orales exigen más trabajo de transcripción, pero son una opción muy valorada en Filología Hispánica y en estudios de adquisición.

Diseño del corpus: los criterios que definen la validez

El diseño del corpus es la sección de tu metodología que más escrutinio recibirá del tribunal. Tres criterios son fundamentales:

1. Representatividad

¿Tu corpus representa realmente el fenómeno que quieres estudiar? Si analizas el lenguaje político español de 2026, incluir solo artículos de prensa de un periódico no es representativo. Justifica explícitamente qué dimensiones de variación has intentado cubrir (géneros, fuentes, períodos, registros) y cuáles has excluido deliberadamente y por qué.

2. Equilibrio

Si tu corpus es comparativo (ej. español peninsular vs. rioplatense), los subcorpora deben ser equilibrados en tamaño y en criterios de selección para que las diferencias observadas sean atribuibles a la variable que estudias, no a diferencias en la composición del corpus.

3. Criterios de inclusión/exclusión

Define con precisión qué textos entran en el corpus y cuáles quedan fuera: fecha de publicación, medio, extensión mínima, accesibilidad, etc. Estos criterios se describen en la sección de metodología y son lo que permite a otro investigador replicar tu estudio.

Recopilación y preparación de los textos

Una vez decidido el diseño, viene la fase más laboriosa: recopilar los textos y prepararlos para el análisis. Las fuentes más habituales en TFG de Filología son:

  • Hemerotecas digitales: webs de periódicos y revistas (con posibilidad de scraping o descarga manual)
  • Corpus de referencia ya construidos: CREA (Corpus de Referencia del Español Actual, RAE), CORPES XXI, COSER, PRESEEA, BNC, COCA o EHCL para diacronía
  • Repositorios académicos: para estudios de géneros académicos (DOAJ, Redalyc, Dialnet)
  • Datos propios: transcripciones de entrevistas o conversaciones grabadas con consentimiento

Los textos deben llegar al análisis en formato de texto plano (.txt), sin etiquetas HTML ni metadatos embebidos. Si partes de PDFs o webs, necesitarás un paso de limpieza manual o semiautomática para eliminar encabezados, pies de página, numeración, etc. AntConc solo lee .txt; Sketch Engine acepta varios formatos.

Atención a los derechos: Para uso académico sin publicación comercial, la legislación española (art. 32 LPI) permite reproducir fragmentos con fines de investigación. Para textos de dominio público no hay restricciones. Si tienes dudas sobre una fuente concreta, consulta con tu tutor o con el servicio de biblioteca de tu universidad.

Herramientas de análisis: AntConc, Sketch Engine y CREA

Tres herramientas concentran el 90 % del uso en TFG de Filología con corpus:

AntConc (gratuito, ideal para corpus propios)

AntConc, desarrollado por Laurence Anthony en la Universidad de Waseda, es el estándar de facto para análisis de corpus en el aula universitaria. Es gratuito, portable (no requiere instalación) y compatible con Windows, Mac y Linux. Sus funciones más útiles para el TFG:

  • Wordlist: lista de todas las palabras del corpus por frecuencia
  • Concordance (KWIC): muestra cada aparición de una palabra en su contexto inmediato
  • Collocates: palabras que aparecen estadísticamente más asociadas a tu palabra clave (con medidas como MI o t-score)
  • N-grams: secuencias recurrentes de dos o más palabras
  • Keyword: palabras estadísticamente más frecuentes en tu corpus comparado con un corpus de referencia
Vista de concordancias KWIC en AntConc: palabras clave en contexto con ordenación por columnas izquierda y derecha
Ejemplo de vista de concordancias (KWIC) en AntConc, mostrando el contexto izquierdo y derecho de la palabra buscada. Fuente: Programming Historian (CC-BY 4.0)

Sketch Engine (de pago, muy potente)

Sketch Engine ofrece licencias para estudiantes y es la herramienta más usada en proyectos de lexicografía y lingüística computacional profesional. Permite acceder a corpus preexistentes de decenas de idiomas y construir corpus propios con herramientas de crawling web integradas. Es especialmente útil para word sketches (el perfil colocacional completo de una palabra) y para análisis distribucionales avanzados.

CREA y CORPES XXI (RAE)

El Corpus de Referencia del Español Actual (CREA) y su sucesor CORPES XXI son los corpus de referencia de la RAE. Son de acceso libre en línea y permiten consultar la frecuencia y distribución de cualquier forma o construcción en el español de los siglos XX y XXI con filtros por zona geográfica, tipo de texto y fecha. Son imprescindibles como corpus de referencia para estudios de variación o como punto de contraste para tu corpus propio.

Qué analizar: frecuencias, concordancias, colocaciones y más

El análisis de corpus no consiste en lanzar todas las herramientas disponibles y ver qué sale. Cada análisis debe responder a una pregunta de investigación específica. Los análisis más frecuentes en TFG de Filología son:

Análisis Pregunta que responde Herramienta
Frecuencia absoluta y relativa ¿Con qué frecuencia aparece X en el corpus? AntConc Wordlist
Concordancias KWIC ¿En qué contextos aparece X? AntConc Concordance
Colocaciones (MI, t-score) ¿Con qué palabras tiende a combinarse X? AntConc Collocates, SE
Palabras clave (Keywords) ¿Qué lexema caracteriza mi corpus frente al de referencia? AntConc Keywords
Distribución cronológica o por subcorpus ¿Varía la frecuencia según la fecha, el registro o la variedad? CREA, CORPES, SE

Cómo presentar los resultados en el TFG

La presentación de resultados en un TFG de corpus debe combinar tres elementos:

  1. Tablas de frecuencias con los datos cuantitativos principales, numeradas según las normas de tu facultad (APA 7 o Vancouver)
  2. Capturas de pantalla o extractos de concordancias, bien etiquetados, que ilustren los patrones cualitativos más relevantes
  3. Ejemplos textuales representativos —dos o tres líneas del corpus con referencia al texto de origen— que encarnen el patrón que describes

Un error muy frecuente es presentar los resultados como una lista de observaciones aisladas. Los resultados deben organizarse en torno a las preguntas de investigación planteadas en la introducción, respondiendo cada una explícitamente. Usa apartados y subapartados claros.

Para no caer en la trampa de repetir los mismos datos en la sección de discusión, consulta la guía sobre cómo diferenciar resultados, discusión y conclusiones en el TFG, que incluye ejemplos de lenguaje específico para cada sección.

Redactar la sección de metodología

La metodología del TFG de corpus debe responder cinco preguntas:

  1. ¿Qué corpus? — tipo, tamaño en palabras o tokens, período temporal cubierto
  2. ¿De dónde viene? — fuentes concretas, criterios de selección, procedimiento de recopilación
  3. ¿Cómo se procesó? — limpieza, normalización, lematización o etiquetado si lo hay
  4. ¿Con qué se analizó? — nombre, versión y configuración de las herramientas
  5. ¿Qué se midió exactamente? — definición operativa de las variables o fenómenos buscados

Una metodología bien descrita permite a cualquier lector replicar tu estudio. Esa replicabilidad es un criterio de calidad científica que los tribunales valoran especialmente. Si tu TFG combina análisis de corpus con trabajo de datos de campo o experimentación, te será útil comparar con el enfoque de la guía sobre el TFG de Biología y Ciencias Ambientales: trabajo de campo, muestras y resultados, donde la sección de Material y Métodos sigue una lógica de replicabilidad idéntica.

Si complementas el análisis de corpus con entrevistas o encuestas a hablantes, consulta el artículo sobre cómo diseñar y conducir una entrevista semiestructurada sin sesgo para aplicar esa metodología con el mismo rigor.

Para la fundamentación teórica del análisis, el blog académico Docendo Discitur tiene un artículo útil sobre cómo usar citas bibliográficas en trabajos académicos: 5 respuestas sobre citas bibliográficas en el TFG.

Errores frecuentes en TFG de corpus

  • No justificar el tamaño del corpus. Simplemente decir «se compiló un corpus de 80.000 palabras» sin explicar por qué ese número es insuficiente. Argumenta la decisión en términos de representatividad y viabilidad.
  • Confundir frecuencia absoluta con frecuencia normalizada. Si tus subcorpora tienen distinto tamaño, compara siempre frecuencias normalizadas (por 10.000 o 100.000 palabras), no absolutas.
  • Interpretar colocaciones sin umbral estadístico. Cualquier par de palabras que aparezcan juntas no es una colocación. Define y justifica el umbral (ej. MI > 3, t-score > 2) que usas para considerar una combinación estadísticamente significativa.
  • Olvidar describir el proceso de limpieza. Si eliminaste textos duplicados, encabezados o metadatos, descríbelo en la metodología. La omisión hace que el corpus no sea replicable.
  • Mezclar análisis cuantitativo y cualitativo sin integrarlos. Los datos cuantitativos (frecuencias, colocaciones) y los cualitativos (análisis de ejemplos concretos) deben dialogar en la discusión, no presentarse como dos estudios separados.

Para una revisión de los errores más penalizados en cualquier TFG ante el tribunal, lee los 10 errores que hacen suspender un TFG ante el tribunal.

La biblioteca de la Universidad de Salamanca también tiene recursos útiles para estudios en humanidades y lingüística: USALbiomédica — acceso a datos estadísticos para investigación.

Preguntas frecuentes

¿Qué es un corpus lingüístico en el TFG de Filología?

Un corpus lingüístico es una colección sistemática y representativa de textos seleccionados según criterios explícitos para estudiar un fenómeno lingüístico concreto. En el TFG, el corpus es al mismo tiempo el objeto de estudio y la fuente de los datos con los que se testean las hipótesis.

¿Cuántos textos o palabras necesita un corpus para un TFG de Filología?

No existe un mínimo universal, pero en un TFG de grado es habitual trabajar con corpus de entre 50.000 y 500.000 palabras para análisis cuantitativos. Para análisis cualitativos más detallados, puede ser suficiente un corpus de 20.000-50.000 palabras bien seleccionadas. Justifica siempre el tamaño en la sección de metodología.

¿Cuál es la diferencia entre concordancia y colocación en análisis de corpus?

Una concordancia muestra todas las apariciones de una palabra en su contexto inmediato (líneas KWIC). Una colocación es una combinación léxica estadísticamente significativa entre dos palabras que tienden a aparecer juntas con mayor frecuencia de la esperada por azar. AntConc permite calcular ambas.

¿Es necesario pedir permisos para usar textos en un corpus de TFG?

Para fines exclusivamente académicos y sin publicación comercial, suele aplicarse la excepción de investigación del artículo 32 de la Ley de Propiedad Intelectual española. Para textos de dominio público no hay restricciones. Consulta con tu tutor si tienes dudas sobre fuentes específicas.

¿Qué herramienta es mejor para un TFG de Filología: AntConc o Sketch Engine?

AntConc es gratuito, portable y muy adecuado para corpus propios de tamaño medio. Sketch Engine es de pago (aunque ofrece licencias para estudiantes) y es más potente para corpus grandes y análisis estadísticos avanzados. Para la mayoría de los TFG de grado, AntConc es suficiente y más sencillo de aprender.

¿Cómo se presenta el análisis de un corpus en el TFG de Filología?

Los resultados se presentan combinando tablas de frecuencias, capturas de concordancias (numeradas), gráficos de distribución y ejemplos textuales representativos. La discusión interpreta los patrones encontrados a la luz de la hipótesis inicial y los compara con estudios previos sobre fenómenos lingüísticos similares.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *