, ,

Cómo anonimizar datos sensibles antes de subirlos a un repositorio en 2026

Cómo anonimizar datos sensibles antes de subirlos a un repositorio en 2026

Has terminado la recogida de datos para el TFG o la tesis: tienes encuestas con nombres reales, grabaciones de voz, direcciones de correo y quizá datos de salud o información sindical de los participantes. Ahora quieres depositar el dataset en un repositorio para cumplir con la política de datos abiertos de tu universidad o de la convocatoria que financió la investigación. El problema es claro: publicar datos que identifiquen a personas sin su consentimiento explícito para ese fin viola el RGPD y puede acarrear consecuencias disciplinarias tanto para el investigador como para la institución.

Esta guía explica las diferencias entre anonimización y pseudonimización, las técnicas concretas — k-anonimato, supresión, generalización, perturbación — y los pasos que debes seguir antes de subir cualquier dataset con datos personales a un repositorio académico. Al final encontrarás una lista de verificación para confirmar que el proceso es correcto antes de hacer el depósito.

Respuesta rápida: La anonimización elimina cualquier posibilidad de re-identificación (los datos ya no son personales según el RGPD). La pseudonimización sustituye identificadores directos por códigos, pero los datos siguen siendo personales porque la re-identificación es posible con la clave. Para depositar en un repositorio público, los datos deben estar anonimizados, no solo pseudonimizados.

Anonimización vs pseudonimización: la diferencia que importa

El RGPD (Reglamento General de Protección de Datos, aplicable en toda la UE desde 2018) distingue claramente entre estas dos operaciones:

Característica Anonimización Pseudonimización
¿Siguen siendo datos personales? No. El RGPD ya no aplica. Sí. El RGPD sigue aplicando.
Re-identificación posible No, o con esfuerzo desproporcionado Sí, usando la clave de correspondencia
¿Se puede depositar en repositorio público? Sí, sin restricciones adicionales Solo con acceso restringido o con autorización del CEI
Ejemplos Generalizar edad en rangos, eliminar nombre y NIF Sustituir «María García» por «P001»

Un error habitual en TFGs y tesis es subir al repositorio un dataset donde los nombres se han sustituido por códigos («participante 1», «E01», etc.) pensando que está anonimizado. Si el conjunto de datos incluye suficientes variables demográficas — edad, municipio, ocupación — un tercero puede re-identificar a los participantes. Eso no es anonimización: es pseudonimización con riesgo residual.

Qué son datos sensibles según el RGPD

El artículo 9 del RGPD define categorías especiales de datos (coloquialmente llamados «datos sensibles») que tienen una protección reforzada:

  • Origen étnico o racial
  • Opiniones políticas
  • Creencias religiosas o filosóficas
  • Afiliación sindical
  • Datos de salud (los más frecuentes en investigación de ciencias de la salud, educación y ciencias sociales)
  • Datos genéticos o biométricos
  • Orientación sexual
  • Condenas penales

El procesamiento de estas categorías está prohibido salvo excepciones explícitas, entre ellas el consentimiento explícito del interesado y el interés público en investigación científica (art. 9.2.j RGPD), siempre que se respeten las garantías adecuadas de anonimización.

Técnicas de anonimización: k-anonimato, supresión, generalización

Supresión

La técnica más sencilla: eliminar directamente los atributos que identifican a las personas. Eliminas las columnas «nombre», «DNI», «correo electrónico», «dirección», «teléfono» del dataset antes del depósito. Aplica siempre como primer paso.

Generalización

Sustituir un valor preciso por un rango o categoría más amplia. Ejemplos:

  • Edad exacta (23) → rango de edad (20-29)
  • Municipio (Alcobendas, Madrid) → comunidad autónoma (Madrid)
  • Salario exacto (38.500 €) → tramo salarial (30.000-40.000 €)
  • Fecha de nacimiento exacta → año de nacimiento

K-anonimato

El k-anonimato (propuesto por Latanya Sweeney en 2002 y desarrollado ampliamente como técnica estándar) garantiza que cada combinación de atributos cuasi-identificadores aparezca al menos k veces en el dataset. Si k=5, ningún registro es el único con esa combinación de edad/sexo/municipio; siempre hay al menos 4 más iguales, lo que dificulta la re-identificación.

La Agencia Española de Protección de Datos (AEPD) publicó una nota técnica sobre k-anonimidad disponible en aepd.es donde detalla cómo calcular el nivel de k y las extensiones más robustas como l-diversidad y t-proximidad.

Cuándo usar k-anonimato: Es necesario cuando el dataset incluye múltiples variables demográficas que combinadas podrían re-identificar a los participantes. Para datos cualitativos (transcripciones de texto), el k-anonimato no aplica directamente: hay que usar supresión textual y paráfrasis.

Perturbación o ruido estadístico

Consiste en añadir pequeñas variaciones aleatorias a los valores numéricos para que los resultados globales del análisis no cambien significativamente, pero los valores individuales ya no correspondan exactamente a los registros reales. Se usa principalmente en datasets cuantitativos grandes y en investigación estadística oficial. Para TFGs con muestras pequeñas, la perturbación puede distorsionar los resultados; valorar con el director antes de aplicarla.

Interfaz de ARX Data Anonymization Tool mostrando la aplicación de k-anonimato y técnicas de generalización sobre un dataset de ejemplo
Interfaz de ARX, herramienta de código abierto para anonimización de microdatos con soporte de k-anonimato, l-diversidad y t-proximidad. Fuente: arx.deidentifier.org

Proceso paso a paso antes del depósito en el repositorio

  1. Identifica todos los identificadores directos: nombre, DNI, correo, teléfono, número de historia clínica, matrícula universitaria. Elimínalos (supresión).
  2. Identifica los cuasi-identificadores: variables que combinadas pueden re-identificar (edad, sexo, municipio, ocupación). Generaliza cada uno hasta que el dataset cumpla k≥5.
  3. Revisa datos de texto libre: preguntas abiertas, comentarios, transcripciones. Busca nombres de personas, instituciones concretas, referencias a eventos únicos. Aplica supresión o paráfrasis.
  4. Verifica el nivel de k: usa una herramienta como ARX o µ-Argus (ver sección de herramientas) para confirmar que el dataset cumple el nivel de k-anonimato deseado.
  5. Documenta el proceso: anota en el README del dataset qué técnicas aplicaste, qué variables eliminaste o generalizaste y con qué criterio. Esto forma parte del Plan de Gestión de Datos: revisa nuestra guía para redactar el Plan de Gestión de Datos (PGD/DMP) de la tesis para integrar la anonimización en la sección de protección de datos. Si tu investigación incluye conjuntos de datos secundarios, consulta también cómo citar correctamente un dataset o conjunto de datos para cumplir con los estándares de citación de datos abiertos.
  6. Comprueba con la Oficina de Protección de Datos de tu universidad: si el estudio involucra datos de categorías especiales (salud, menores), consulta al Delegado de Protección de Datos (DPO) antes del depósito.
  7. Sube el dataset con la licencia correcta (CC BY o CC BY-NC para investigación académica) e incluye el README documentado como archivo adjunto. Si dudas sobre el repositorio y los riesgos del depósito en abierto, consulta nuestra guía sobre cómo y cuándo publicar el dataset de tu tesis en Zenodo.

Para entender mejor el marco metodológico en el que se inscribe la gestión de datos, la entrada sobre metodología en el blog Metodologías de la Investigación proporciona contexto sobre el papel de los datos dentro del proceso científico. Y para herramientas de gestión de fuentes y bases de datos, la guía de la Biblioteca HFLR sobre herramientas útiles para investigación es un punto de partida clásico.

Herramientas para anonimizar datos

Elegir la herramienta adecuada depende del tamaño del dataset, el tipo de datos (estructurados o texto libre) y tu nivel de experiencia técnica. Las siguientes opciones cubren los casos más frecuentes en investigación universitaria española en 2026.

Tutorial de las Bibliotecas de la UNED sobre cómo anonimizar un dataset de investigación con la herramienta Amnesia de OpenAIRE (2024).

ARX — Data Anonymization Tool

ARX es una herramienta de código abierto, disponible para Windows, Mac y Linux, diseñada específicamente para anonimizar microdatos. Permite aplicar k-anonimato, l-diversidad y t-proximidad de forma visual. Es la más usada en entornos académicos europeos y no requiere conocimientos de programación.

Amnesia (OpenAIRE)

Amnesia es la herramienta recomendada por OpenAIRE para investigadores que necesitan anonimizar datasets antes de depositarlos en repositorios de acceso abierto. Ofrece una interfaz web gratuita y cumple con los requisitos RGPD para datos de investigación financiada con fondos públicos europeos.

µ-Argus

Desarrollado por Statistics Netherlands (CBS), µ-Argus es la herramienta de referencia de muchas agencias estadísticas europeas para la anonimización de microdatos de encuesta. Más complejo que ARX pero más potente para datasets grandes con muchas variables.

R: paquetes sdcMicro y anonymizer

Para investigadores que ya usan R para el análisis estadístico, el paquete sdcMicro permite calcular el riesgo de re-identificación y aplicar técnicas de anonimización directamente sobre el dataframe. El paquete anonymizer es más sencillo y sirve para hashear o suprimir columnas de identificadores.

Python: paquete Faker y presidio-analyzer

Para textos en Python, presidio-analyzer (Microsoft) detecta y anonimiza entidades como nombres, correos y números de teléfono en texto libre, útil para transcripciones de entrevistas o campos de respuesta abierta.

Cómo anonimizar transcripciones de entrevistas

Las transcripciones de entrevistas presentan un reto específico porque el texto libre puede contener información que combine varios identificadores:

  1. Asigna un código al participante antes de transcribir: «E01», «E02», etc. Nunca uses iniciales.
  2. Suprime nombres propios de personas, lugares específicos (no solo la ciudad, sino el barrio o el centro educativo concreto), empresas e instituciones que puedan identificar al entrevistado.
  3. Generaliza referencias temporales muy concretas: «el martes 14 de febrero de 2025» → «a principios de 2025».
  4. Parafrasea citas que revelan identidad sin perder el significado analítico. Por ejemplo: «soy la única mujer en el departamento de Física de mi facultad» puede convertirse en «soy una de las pocas mujeres en mi departamento de ciencias exactas».
  5. Revisa la transcripción con otra persona (un compañero de investigación o el director) para detectar referencias identificables que tú, por proximidad al campo, podrías pasar por alto.

En el contexto de los análisis cualitativos, este proceso de anonimización previa al codificado es fundamental. El artículo sobre análisis temático de Braun y Clarke: las 6 fases paso a paso explica cómo integrar la anonimización en la fase de familiarización con los datos, que es la primera del proceso analítico. Y si quieres saber qué herramientas existen para gestionar y analizar esos datos cualitativos una vez anonimizados, el artículo sobre el estudio de caso según Yin aborda el tratamiento de materiales empíricos cualitativos en el contexto de la tesis.

Una vez anonimizadas las transcripciones, el siguiente paso es registrar el ORCID iD propio y del director en los metadatos del depósito. Si todavía no tienes perfil, consulta la guía sobre cómo crear el perfil ORCID como investigador en 2026 para configurarlo correctamente antes de hacer el depósito en el repositorio.

Lista de verificación antes del depósito

  • ☐ He eliminado todas las columnas con identificadores directos (nombre, DNI, correo, teléfono).
  • ☐ He generalizado los cuasi-identificadores hasta cumplir k≥3 (mínimo) o k≥5 (recomendado).
  • ☐ He revisado los campos de texto libre en busca de menciones identificadoras.
  • ☐ He verificado el nivel de k con ARX u otra herramienta.
  • ☐ He documentado el proceso de anonimización en el README del dataset.
  • ☐ He comprobado con el DPO de mi universidad si el estudio requiere supervisión adicional.
  • ☐ He asignado una licencia (CC BY o CC BY-NC) al dataset.
  • ☐ He incluido el ORCID iD mío y del director de tesis en los metadatos del depósito.
  • ☐ He registrado el dataset en el Plan de Gestión de Datos actualizado.

Preguntas frecuentes sobre anonimización de datos

¿Puedo depositar grabaciones de audio en el repositorio si las he pseudonimizado?

No directamente. La voz es un dato biométrico que puede identificar a una persona aunque se haya cambiado el nombre en los metadatos. Para depositar grabaciones en abierto deberías distorsionar la voz con herramientas de pitch-shifting o, más habitualmente, depositar solo la transcripción anonimizada y no el audio. Si necesitas depositar el audio, hazlo en un repositorio con acceso restringido y bajo solicitud justificada.

¿La anonimización invalida los resultados estadísticos de mi análisis?

Depende de la técnica. La supresión de columnas identificadoras no afecta al análisis porque esas variables no se usan en los modelos. La generalización de variables sí puede reducir la precisión de los resultados: al convertir edad exacta en rangos, pierdes varianza. Por eso el análisis estadístico se realiza siempre sobre el dataset original (en entorno seguro) y el dataset anonimizado es el que se deposita para replicación, no para reanálisis exacto.

¿Qué nivel de k-anonimato recomienda la AEPD para investigación universitaria?

La AEPD no fija un valor único; recomienda evaluar el riesgo contextual. Para investigación universitaria con datos no sensibles, k≥3 suele considerarse el mínimo aceptable. Para datos de salud u otras categorías especiales del art. 9 RGPD, se recomienda k≥5 y aplicar adicionalmente l-diversidad si la variable sensible tiene poca diversidad en el dataset.

¿Tengo que borrar los datos originales después de la anonimización?

Solo cuando así lo exige el consentimiento informado o el protocolo del CEI. En la mayoría de casos, los datos originales se conservan en entorno seguro (servidor institucional cifrado) durante el período indicado en el Plan de Gestión de Datos — habitualmente 5 o 10 años — para posibles auditorías o revisiones del estudio. No los elimines prematuramente.

¿Necesito consentimiento para publicar datos anonimizados?

Si los datos están verdaderamente anonimizados (el RGPD ya no aplica), no es necesario un consentimiento específico para publicarlos. Sin embargo, es una buena práctica informar a los participantes en el consentimiento inicial de que los datos anonimizados podrían publicarse con fines científicos, así evitas conflictos éticos posteriores aunque no sean jurídicamente obligatorios.

¿Necesitas ayuda para la sección de ética y gestión de datos de tu TFG?

Tesify te guía en la redacción de la sección metodológica, incluyendo el tratamiento ético de datos y el cumplimiento del RGPD. Empieza gratis en tesify.es.

Leave a Reply

Your email address will not be published. Required fields are marked *