u00bfQuu00e9 es un corpus lingu00fcu00edstico en el TFG de Filologu00eda?

Un corpus lingu00fcu00edstico es una colecciu00f3n sistemu00e1tica y representativa de textos (orales o escritos) seleccionados segu00fan criterios explu00edcitos para estudiar un fenu00f3meno lingu00fcu00edstico concreto. En el TFG, el corpus es al mismo tiempo el objeto de estudio y la fuente de los datos con los que se testean las hipu00f3tesis.

u00bfCuu00e1l es la diferencia entre concordancia y colocaciu00f3n en anu00e1lisis de corpus?

Una concordancia muestra todas las apariciones de una palabra o expresiu00f3n en su contexto inmediato (lu00edneas KWIC, keyword in context). Una colocaciu00f3n es una combinaciu00f3n lu00e9xica estadu00edsticamente significativa entre dos palabras que tienden a aparecer juntas con mayor frecuencia de la esperada por azar. AntConc permite calcular ambas.

u00bfQuu00e9 herramienta es mejor para un TFG de Filologu00eda: AntConc o Sketch Engine?

AntConc es gratuito, portable y muy adecuado para corpus propios de tamau00f1o medio. Sketch Engine es de pago (aunque ofrece licencias para estudiantes) y es mu00e1s potente para corpus grandes y anu00e1lisis de colocaciones estadu00edsticas avanzadas. Para la mayoru00eda de los TFG de grado, AntConc es suficiente y mu00e1s sencillo de aprender.

Humanidades, TFG por disciplina

TFG de Filología: construir y analizar un corpus lingüístico paso a paso (2026)

thesify.team@gmail.com

·

May 29, 2026

TFG de Filología: construir y analizar un corpus lingüístico paso a paso (2026)

Q: u00bfCuu00e1ntos textos o palabras necesita un corpus para un TFG de Filologu00eda?

No existe un mu00ednimo universal, pero en un TFG de grado es habitual trabajar con corpus de entre 50.000 y 500.000 palabras para anu00e1lisis cuantitativos. Para anu00e1lisis cualitativos mu00e1s detallados (discurso, pragmu00e1tica), puede ser suficiente un corpus de 20.000-50.000 palabras bien seleccionadas. Justifica siempre el tamau00f1o en la secciu00f3n de metodologu00eda.

Q: u00bfEs necesario pedir permisos para usar textos en un corpus de TFG?

Depende del uso y la fuente. Para fines exclusivamente acadu00e9micos y sin publicaciu00f3n comercial, suele aplicarse la excepciu00f3n de investigaciu00f3n del artu00edculo 32 de la Ley de Propiedad Intelectual espau00f1ola. Para textos de dominio pu00fablico (obras con mu00e1s de 70 au00f1os de muerte del autor), no hay restricciones. Consulta con tu tutor si tienes dudas sobre fuentes especu00edficas.

Muchos estudiantes de Filología llegan al TFG con una idea temática muy clara —el uso del subjuntivo en hablantes de herencia, las metáforas en el discurso político, los anglicismos en la prensa digital— pero sin saber cómo convertir esa intuición en un estudio empírico riguroso. La respuesta, en la mayoría de los casos, pasa por construir y analizar un corpus lingüístico. Un corpus bien diseñado transforma tu TFG de Filología corpus en un trabajo con datos propios, reproducible y defendible ante cualquier tribunal.

La lingüística de corpus lleva décadas instalada como metodología canónica en las facultades de Filología españolas. Facultades como la UCM, la UAM, la UV o la UAB tienen grupos de investigación activos en corpus y ofrecen TFG en esta línea. Esta guía te explica, desde cero y sin dar nada por supuesto, cómo construir tu corpus, qué herramientas usar y cómo presentar los resultados con el nivel de rigor que espera tu tutor.

Respuesta rápida: El TFG de Filología basado en corpus sigue seis fases: definir la pregunta de investigación y la hipótesis, fijar los criterios de diseño del corpus (representatividad, equilibrio, tamaño), recopilar y limpiar los textos, analizar con herramientas como AntConc o Sketch Engine (frecuencias, concordancias, colocaciones), interpretar los resultados y redactar la discusión comparando con la literatura. La sección metodológica es tan importante como los resultados.

¿Qué es un corpus lingüístico y para qué sirve en el TFG?

Un corpus lingüístico es una colección de textos —escritos, orales o multimodales— recopilados de forma sistemática y representativa para estudiar la lengua en uso real. A diferencia de la introspección o los ejemplos de manual, el corpus permite hacer afirmaciones sobre frecuencias, distribuciones y patrones con base empírica verificable.

En el contexto de un TFG, el corpus cumple una doble función: es el objeto de estudio (la variedad lingüística, el género discursivo, el fenómeno gramatical que te interesa) y al mismo tiempo la fuente de los datos con los que contrastarás tu hipótesis. Eso es lo que lo diferencia de una revisión bibliográfica: en lugar de resumir lo que otros han dicho sobre el tema, tú aportas evidencia empírica nueva.

Los temas más habituales en TFG de Filología con metodología de corpus incluyen:

Variación léxica o morfosintáctica entre variedades del español (peninsular vs. latinoamericano, formal vs. coloquial)
Anglicismos, préstamos y neologismos en prensa, redes sociales o lenguaje especializado
Análisis del discurso político, publicitario o periodístico
Géneros textuales académicos (abstracts, artículos científicos) en inglés o español
Patrones de metáfora o frame semántico en un dominio temático concreto
Evolución diacrónica de una construcción gramatical

Tipos de corpus: elige el que encaja con tu pregunta

Antes de recopilar un solo texto, decide qué tipo de corpus necesitas. Esta decisión determina todo lo demás:

Tipo	Descripción	Idóneo para
Corpus especializado	Textos de un dominio temático o género concreto	Lenguaje jurídico, médico, periodístico, político
Corpus comparativo	Dos o más subcorpora comparados sistemáticamente	Variación dialectal, comparación de géneros o épocas
Corpus de aprendiz	Textos producidos por hablantes no nativos	Adquisición de L2, errores frecuentes, transferencia
Corpus histórico / diacrónico	Textos de distintos períodos cronológicos	Cambio lingüístico, evolución de construcciones
Corpus oral	Transcripciones de habla espontánea o semiespontánea	Pragmática, prosodia, marcadores discursivos

Para la mayoría de los TFG de grado, un corpus especializado o comparativo de entre 50.000 y 300.000 palabras es manejable y suficientemente representativo. Los corpus orales exigen más trabajo de transcripción, pero son una opción muy valorada en Filología Hispánica y en estudios de adquisición.

Diseño del corpus: los criterios que definen la validez

El diseño del corpus es la sección de tu metodología que más escrutinio recibirá del tribunal. Tres criterios son fundamentales:

1. Representatividad

¿Tu corpus representa realmente el fenómeno que quieres estudiar? Si analizas el lenguaje político español de 2026, incluir solo artículos de prensa de un periódico no es representativo. Justifica explícitamente qué dimensiones de variación has intentado cubrir (géneros, fuentes, períodos, registros) y cuáles has excluido deliberadamente y por qué.

2. Equilibrio

Si tu corpus es comparativo (ej. español peninsular vs. rioplatense), los subcorpora deben ser equilibrados en tamaño y en criterios de selección para que las diferencias observadas sean atribuibles a la variable que estudias, no a diferencias en la composición del corpus.

3. Criterios de inclusión/exclusión

Define con precisión qué textos entran en el corpus y cuáles quedan fuera: fecha de publicación, medio, extensión mínima, accesibilidad, etc. Estos criterios se describen en la sección de metodología y son lo que permite a otro investigador replicar tu estudio.

Recopilación y preparación de los textos

Una vez decidido el diseño, viene la fase más laboriosa: recopilar los textos y prepararlos para el análisis. Las fuentes más habituales en TFG de Filología son:

Hemerotecas digitales: webs de periódicos y revistas (con posibilidad de scraping o descarga manual)
Corpus de referencia ya construidos: CREA (Corpus de Referencia del Español Actual, RAE), CORPES XXI, COSER, PRESEEA, BNC, COCA o EHCL para diacronía
Repositorios académicos: para estudios de géneros académicos (DOAJ, Redalyc, Dialnet)
Datos propios: transcripciones de entrevistas o conversaciones grabadas con consentimiento

Los textos deben llegar al análisis en formato de texto plano (.txt), sin etiquetas HTML ni metadatos embebidos. Si partes de PDFs o webs, necesitarás un paso de limpieza manual o semiautomática para eliminar encabezados, pies de página, numeración, etc. AntConc solo lee .txt; Sketch Engine acepta varios formatos.

Atención a los derechos: Para uso académico sin publicación comercial, la legislación española (art. 32 LPI) permite reproducir fragmentos con fines de investigación. Para textos de dominio público no hay restricciones. Si tienes dudas sobre una fuente concreta, consulta con tu tutor o con el servicio de biblioteca de tu universidad.

Herramientas de análisis: AntConc, Sketch Engine y CREA

Tres herramientas concentran el 90 % del uso en TFG de Filología con corpus:

AntConc (gratuito, ideal para corpus propios)

AntConc, desarrollado por Laurence Anthony en la Universidad de Waseda, es el estándar de facto para análisis de corpus en el aula universitaria. Es gratuito, portable (no requiere instalación) y compatible con Windows, Mac y Linux. Sus funciones más útiles para el TFG:

Wordlist: lista de todas las palabras del corpus por frecuencia
Concordance (KWIC): muestra cada aparición de una palabra en su contexto inmediato
Collocates: palabras que aparecen estadísticamente más asociadas a tu palabra clave (con medidas como MI o t-score)
N-grams: secuencias recurrentes de dos o más palabras
Keyword: palabras estadísticamente más frecuentes en tu corpus comparado con un corpus de referencia

Vista de concordancias KWIC en AntConc: palabras clave en contexto con ordenación por columnas izquierda y derecha — Ejemplo de vista de concordancias (KWIC) en AntConc, mostrando el contexto izquierdo y derecho de la palabra buscada. Fuente: Programming Historian (CC-BY 4.0)

Sketch Engine (de pago, muy potente)

Sketch Engine ofrece licencias para estudiantes y es la herramienta más usada en proyectos de lexicografía y lingüística computacional profesional. Permite acceder a corpus preexistentes de decenas de idiomas y construir corpus propios con herramientas de crawling web integradas. Es especialmente útil para word sketches (el perfil colocacional completo de una palabra) y para análisis distribucionales avanzados.

CREA y CORPES XXI (RAE)

El Corpus de Referencia del Español Actual (CREA) y su sucesor CORPES XXI son los corpus de referencia de la RAE. Son de acceso libre en línea y permiten consultar la frecuencia y distribución de cualquier forma o construcción en el español de los siglos XX y XXI con filtros por zona geográfica, tipo de texto y fecha. Son imprescindibles como corpus de referencia para estudios de variación o como punto de contraste para tu corpus propio.

Qué analizar: frecuencias, concordancias, colocaciones y más

El análisis de corpus no consiste en lanzar todas las herramientas disponibles y ver qué sale. Cada análisis debe responder a una pregunta de investigación específica. Los análisis más frecuentes en TFG de Filología son:

Análisis	Pregunta que responde	Herramienta
Frecuencia absoluta y relativa	¿Con qué frecuencia aparece X en el corpus?	AntConc Wordlist
Concordancias KWIC	¿En qué contextos aparece X?	AntConc Concordance
Colocaciones (MI, t-score)	¿Con qué palabras tiende a combinarse X?	AntConc Collocates, SE
Palabras clave (Keywords)	¿Qué lexema caracteriza mi corpus frente al de referencia?	AntConc Keywords
Distribución cronológica o por subcorpus	¿Varía la frecuencia según la fecha, el registro o la variedad?	CREA, CORPES, SE

Cómo presentar los resultados en el TFG

La presentación de resultados en un TFG de corpus debe combinar tres elementos:

Tablas de frecuencias con los datos cuantitativos principales, numeradas según las normas de tu facultad (APA 7 o Vancouver)
Capturas de pantalla o extractos de concordancias, bien etiquetados, que ilustren los patrones cualitativos más relevantes
Ejemplos textuales representativos —dos o tres líneas del corpus con referencia al texto de origen— que encarnen el patrón que describes

Un error muy frecuente es presentar los resultados como una lista de observaciones aisladas. Los resultados deben organizarse en torno a las preguntas de investigación planteadas en la introducción, respondiendo cada una explícitamente. Usa apartados y subapartados claros.

Para no caer en la trampa de repetir los mismos datos en la sección de discusión, consulta la guía sobre cómo diferenciar resultados, discusión y conclusiones en el TFG, que incluye ejemplos de lenguaje específico para cada sección.

Redactar la sección de metodología

La metodología del TFG de corpus debe responder cinco preguntas:

¿Qué corpus? — tipo, tamaño en palabras o tokens, período temporal cubierto
¿De dónde viene? — fuentes concretas, criterios de selección, procedimiento de recopilación
¿Cómo se procesó? — limpieza, normalización, lematización o etiquetado si lo hay
¿Con qué se analizó? — nombre, versión y configuración de las herramientas
¿Qué se midió exactamente? — definición operativa de las variables o fenómenos buscados

Una metodología bien descrita permite a cualquier lector replicar tu estudio. Esa replicabilidad es un criterio de calidad científica que los tribunales valoran especialmente. Si tu TFG combina análisis de corpus con trabajo de datos de campo o experimentación, te será útil comparar con el enfoque de la guía sobre el TFG de Biología y Ciencias Ambientales: trabajo de campo, muestras y resultados, donde la sección de Material y Métodos sigue una lógica de replicabilidad idéntica.

Si complementas el análisis de corpus con entrevistas o encuestas a hablantes, consulta el artículo sobre cómo diseñar y conducir una entrevista semiestructurada sin sesgo para aplicar esa metodología con el mismo rigor.

Para la fundamentación teórica del análisis, el blog académico Docendo Discitur tiene un artículo útil sobre cómo usar citas bibliográficas en trabajos académicos: 5 respuestas sobre citas bibliográficas en el TFG.

Errores frecuentes en TFG de corpus

No justificar el tamaño del corpus. Simplemente decir «se compiló un corpus de 80.000 palabras» sin explicar por qué ese número es insuficiente. Argumenta la decisión en términos de representatividad y viabilidad.
Confundir frecuencia absoluta con frecuencia normalizada. Si tus subcorpora tienen distinto tamaño, compara siempre frecuencias normalizadas (por 10.000 o 100.000 palabras), no absolutas.
Interpretar colocaciones sin umbral estadístico. Cualquier par de palabras que aparezcan juntas no es una colocación. Define y justifica el umbral (ej. MI > 3, t-score > 2) que usas para considerar una combinación estadísticamente significativa.
Olvidar describir el proceso de limpieza. Si eliminaste textos duplicados, encabezados o metadatos, descríbelo en la metodología. La omisión hace que el corpus no sea replicable.
Mezclar análisis cuantitativo y cualitativo sin integrarlos. Los datos cuantitativos (frecuencias, colocaciones) y los cualitativos (análisis de ejemplos concretos) deben dialogar en la discusión, no presentarse como dos estudios separados.

Para una revisión de los errores más penalizados en cualquier TFG ante el tribunal, lee los 10 errores que hacen suspender un TFG ante el tribunal.

La biblioteca de la Universidad de Salamanca también tiene recursos útiles para estudios en humanidades y lingüística: USALbiomédica — acceso a datos estadísticos para investigación.

Preguntas frecuentes

¿Qué es un corpus lingüístico en el TFG de Filología?

Un corpus lingüístico es una colección sistemática y representativa de textos seleccionados según criterios explícitos para estudiar un fenómeno lingüístico concreto. En el TFG, el corpus es al mismo tiempo el objeto de estudio y la fuente de los datos con los que se testean las hipótesis.

¿Cuántos textos o palabras necesita un corpus para un TFG de Filología?

No existe un mínimo universal, pero en un TFG de grado es habitual trabajar con corpus de entre 50.000 y 500.000 palabras para análisis cuantitativos. Para análisis cualitativos más detallados, puede ser suficiente un corpus de 20.000-50.000 palabras bien seleccionadas. Justifica siempre el tamaño en la sección de metodología.

¿Cuál es la diferencia entre concordancia y colocación en análisis de corpus?

Una concordancia muestra todas las apariciones de una palabra en su contexto inmediato (líneas KWIC). Una colocación es una combinación léxica estadísticamente significativa entre dos palabras que tienden a aparecer juntas con mayor frecuencia de la esperada por azar. AntConc permite calcular ambas.

¿Es necesario pedir permisos para usar textos en un corpus de TFG?

Para fines exclusivamente académicos y sin publicación comercial, suele aplicarse la excepción de investigación del artículo 32 de la Ley de Propiedad Intelectual española. Para textos de dominio público no hay restricciones. Consulta con tu tutor si tienes dudas sobre fuentes específicas.

¿Qué herramienta es mejor para un TFG de Filología: AntConc o Sketch Engine?

AntConc es gratuito, portable y muy adecuado para corpus propios de tamaño medio. Sketch Engine es de pago (aunque ofrece licencias para estudiantes) y es más potente para corpus grandes y análisis estadísticos avanzados. Para la mayoría de los TFG de grado, AntConc es suficiente y más sencillo de aprender.

¿Cómo se presenta el análisis de un corpus en el TFG de Filología?

Los resultados se presentan combinando tablas de frecuencias, capturas de concordancias (numeradas), gráficos de distribución y ejemplos textuales representativos. La discusión interpreta los patrones encontrados a la luz de la hipótesis inicial y los compara con estudios previos sobre fenómenos lingüísticos similares.

Escribe tu TFG o tesis con IA

Pasa de la teoría a tu documento terminado

Tesify estructura, redacta y formatea tu TFG, TFM o tesis en normas APA y Vancouver, con bibliografía automática y verificación antiplagio integrada. Regístrate gratis, sin tarjeta.

Empieza gratis con Tesify →

TFG de Filología: construir y analizar un corpus lingüístico paso a paso (2026)

TFG de Filología: construir y analizar un corpus lingüístico paso a paso (2026)

¿Qué es un corpus lingüístico y para qué sirve en el TFG?

Tipos de corpus: elige el que encaja con tu pregunta

Diseño del corpus: los criterios que definen la validez

1. Representatividad

2. Equilibrio

3. Criterios de inclusión/exclusión

Recopilación y preparación de los textos

Herramientas de análisis: AntConc, Sketch Engine y CREA

AntConc (gratuito, ideal para corpus propios)

Sketch Engine (de pago, muy potente)

CREA y CORPES XXI (RAE)

Qué analizar: frecuencias, concordancias, colocaciones y más

Cómo presentar los resultados en el TFG

Redactar la sección de metodología

Errores frecuentes en TFG de corpus

Preguntas frecuentes

¿Qué es un corpus lingüístico en el TFG de Filología?

¿Cuántos textos o palabras necesita un corpus para un TFG de Filología?

¿Cuál es la diferencia entre concordancia y colocación en análisis de corpus?

¿Es necesario pedir permisos para usar textos en un corpus de TFG?

¿Qué herramienta es mejor para un TFG de Filología: AntConc o Sketch Engine?

¿Cómo se presenta el análisis de un corpus en el TFG de Filología?

Pasa de la teoría a tu documento terminado

Leave a Reply Cancel reply

Escribe tu tesis con IA

Articulos relacionados

Humata vs ChatPDF vs SciSpace: leer papers con IA en 2026

Sinonimo de a pesar de: Sinónimo de a pesar de

Defensa de Tesis Doctoral en España: Tribunal, Procedimiento y Claves para Aprobar con Sobresaliente 2026

DeepSeek vs ChatGPT vs Gemini para tesis en español 2026: ¿cuál elegir?