Otter.ai vs Notta vs Whisper en 2026: cuál transcribe mejor tus entrevistas de TFG en español
Tienes seis entrevistas grabadas, dos hablantes por pista y la presión del plazo de entrega del TFG encima. La pregunta es sencilla pero la respuesta no lo es tanto: ¿qué herramienta de transcripción automática te dará el texto más limpio en español, sin que los datos de tus participantes acaben almacenados en servidores de dudosa jurisdicción? En 2026, Otter.ai, Notta y Whisper son los tres nombres que más aparecen en foros académicos y guías de metodología cualitativa. Esta comparativa los enfrenta en los cuatro criterios que más importan cuando haces investigación en España: precisión en español, identificación de múltiples hablantes (diarización), cumplimiento del RGPD y coste real.
Spoiler: ninguno es perfecto para todos los casos. Otter.ai brilla en reuniones en inglés pero tiene limitaciones claras en español. Notta es la opción más equilibrada para trabajos multilingües con algo de presupuesto. Y Whisper, en su modalidad local, es la única solución que garantiza que el audio de tus entrevistados no sale nunca de tu ordenador, lo que lo convierte en la elección natural cuando el comité de ética o la política de protección de datos de tu universidad exige máxima privacidad.
Tabla comparativa rápida
La tabla siguiente resume los datos clave verificados en junio de 2026. Los porcentajes de precisión corresponden a condiciones de audio limpio (micrófono dedicado, sin ruido de fondo significativo); en entornos ruidosos todos los valores caen entre 5 y 15 puntos.
| Criterio | Otter.ai | Notta | Whisper (local) |
|---|---|---|---|
| Precisión general (audio limpio) | 85-90 % | 95-98 % | 95-98 % |
| Soporte español | Limitado (3 idiomas) | Sí (58 idiomas) | Sí (97+ idiomas, WER 3-6 %) |
| Diarización (quién habla) | Sí (hasta 8 hablantes) | Sí | No nativo (necesita WhisperX o pyannote) |
| Cumplimiento RGPD | Parcial (datos en EE. UU.) | Certificado (ISO 27001) | Total (audio no sale del dispositivo) |
| Precio plan gratuito | 300 min/mes (30 min/sesión) | 120 min/mes (3 min/sesión) | Gratis (autohospedado) / 0,006 $/min API |
| Precio plan Pro | 8,33 $/mes (anual) | 8,17 $/mes (anual) | Gratis (local) o variable (API) |
| Transcripción en tiempo real | Sí | Sí | No (solo archivo de audio) |
| Curva de aprendizaje | Baja | Baja | Media-Alta (requiere terminal) |
Precisión en español y con múltiples hablantes
Otter.ai: inglés primero, español como extra
Otter.ai nació y se optimizó para el inglés. La inclusión del español es relativamente reciente y se limita a tres idiomas en total (inglés, francés y español). En la práctica, los usuarios hispanohablantes reportan una precisión notablemente inferior a la que Otter anuncia, con errores frecuentes en acentos regionales (castellano neutro funciona mejor que el español de Andalucía o del Río de la Plata) y en vocabulario académico especializado. En entrevistas con dos hablantes, la diarización de Otter sigue razonablemente bien hasta ocho participantes, pero la tasa de error de palabras (WER) tiende a subir con cada hablante adicional. En escenarios de muchas voces simultáneas, el error de Otter suele ser perceptiblemente mayor que el de Notta en las mismas condiciones.
Para un TFG en español, esto es un problema real: términos técnicos de ciencias sociales, jurídicos o sanitarios se transcriben incorrectamente con mayor frecuencia que en inglés, y la corrección manual puede consumir más tiempo del que ahorra la transcripción automática.
Notta: la opción más sólida para español académico
Notta soporta 58 idiomas para transcripción y 42 para traducción, con un modelo entrenado específicamente para variantes del español. En condiciones de audio controladas (grabadora dedicada, entrevistado a menos de un metro), la herramienta alcanza una precisión del 95-98 %. Su diarización identifica automáticamente los turnos de habla y asigna etiquetas del tipo «Hablante 1 / Hablante 2», lo que facilita la codificación cualitativa posterior.
Un aspecto que los estudiantes valoran es la velocidad de procesamiento: aproximadamente cinco minutos por cada hora de audio. Esto resulta útil cuando hay que transcribir varias entrevistas de forma consecutiva antes de iniciar el análisis. La ausencia de vocabulario personalizado (custom vocabulary en español) es su talón de Aquiles: términos muy específicos de un campo de investigación se siguen transcribiendo incorrectamente y no hay forma de entrenar el modelo con tu glosario propio. Para evaluar si los hallazgos de tus entrevistas superan los criterios de rigor en investigación cualitativa según Lincoln y Guba, la calidad de la transcripción es el primer eslabón de la cadena.
Whisper: precisión técnica superior, diarización externa
El modelo large-v3 de Whisper —el más potente de los disponibles en abierto— sitúa al español como un idioma de Nivel 1, con tasas de error de palabras de entre el 3 y el 6 % en audio limpio. Esto lo convierte técnicamente en el más preciso de los tres para el idioma español. Sin embargo, el modelo base de Whisper no distingue hablantes: produce un texto continuo sin etiquetar quién dice qué.
Para solucionar esta limitación existen integraciones consolidadas en 2026: WhisperX (basado en pyannote) añade diarización por hablante sin necesidad de subir el audio a ningún servidor. La combinación Whisper + WhisperX da como resultado un sistema de transcripción local, multiidioma y con identificación de hablantes tan robusto como cualquier servicio de pago, pero con una curva de aprendizaje que implica instalación de Python, gestión de entornos virtuales y ejecución por línea de comandos. No es para todos, pero para quien tiene cierto perfil técnico es la opción más potente y la única que garantiza privacidad total.
Investigación cualitativa y transcripción: datos clave
| Tiempo medio de transcripción manual por hora de audio | 3–6 horas (manual) |
| Tiempo con herramientas IA (Notta/Whisper) | 5–15 minutos + revisión |
| WER de Whisper large-v3 en español (audio limpio) | 3–6 % (idioma Nivel 1) |
| Investigaciones cualitativas en TFG españoles que usan entrevistas | ~40–50 % de los TFG empíricos |
Fuentes: OpenAI Whisper paper (Radford et al., 2022); estimaciones de tiempos estándar de transcripción académica; datos ANECA sobre tipos de TFG con componente empírico.
RGPD y privacidad de las entrevistas: lo que tu universidad probablemente ya te exige
Desde mayo de 2018, el Reglamento General de Protección de Datos (RGPD) afecta directamente a cualquier investigación que recopile datos de personas físicas identificables, incluyendo sus voces. Cuando subas una grabación de entrevista a una plataforma en la nube, estás tratando datos personales en el sentido del artículo 4 del RGPD, lo que obliga a tener base legal para el tratamiento y a garantizar que el destinatario (la empresa de transcripción) ofrece salvaguardas equivalentes a las europeas si sus servidores están fuera del Espacio Económico Europeo (EEE).
Antes de elegir herramienta, revisa si tu universidad tiene una política de protección de datos para proyectos de investigación o si el comité de ética exige mención de los subencargados del tratamiento. Muchas universidades españolas ya incorporan esta exigencia en sus protocolos de aprobación de TFG con trabajo de campo. Si tu diseño metodológico incluye también revisión bibliográfica automatizada, herramientas como las que comparamos en SciSpace vs Elicit vs Scholarcy para revisión de literatura presentan consideraciones de privacidad similares que conviene revisar con el mismo criterio.
Otter.ai: RGPD parcial con datos en EE. UU.
Otter.ai almacena todos los datos —incluyendo el audio y las transcripciones— en servidores ubicados en Estados Unidos. Aunque la empresa ofrece un Acuerdo de Procesamiento de Datos (DPA) bajo el artículo 28 del RGPD y se acoge al Marco de Privacidad de Datos UE-EE. UU., este mecanismo fue cuestionado tras el fallo Schrems II y su robustez jurídica sigue siendo objeto de debate académico y legal. En términos prácticos: si un comité de ética de una universidad española te pide que el subencargado del tratamiento de datos de voz tenga servidores en la UE, Otter.ai no cumple ese requisito.
Otro aspecto relevante: la carga de obtener el consentimiento informado de los entrevistados recae completamente en el investigador. El formulario de consentimiento de tu TFG debe mencionar explícitamente que la voz será procesada por un servicio de terceros y especificar cuál. Si no lo hace, el tratamiento puede ser impugnable.
Notta: ISO 27001 y RGPD certificado
Notta ha obtenido la certificación ISO 27001 en gestión de la seguridad de la información y declara cumplimiento con el RGPD. Los datos se cifran en tránsito (TLS 1.2) y en reposo (AES-256), y la infraestructura de almacenamiento se apoya en Amazon Web Services. La empresa publica una política de privacidad detallada y ofrece opciones de eliminación de datos a petición del usuario.
Es importante matizar: aunque Notta declara cumplimiento RGPD, sus servidores de AWS pueden estar ubicados fuera del EEE según la región configurada. Para máxima seguridad, usa la versión de Notta desde una región europea de AWS y verifica este punto en su página de seguridad oficial antes de depositar audios de entrevistados.
Whisper local: privacidad por diseño
Cuando ejecutas Whisper en tu propio ordenador, el audio nunca abandona tu dispositivo. No hay servidores de terceros, no hay política de privacidad que leer, no hay transferencia internacional de datos que justificar. Desde la perspectiva del RGPD, este modelo cumple el principio de privacy by design del artículo 25 de forma estructural. Si tu comité de ética tiene dudas sobre herramientas de transcripción en la nube, la respuesta «uso Whisper localmente» suele ser suficiente para resolver el conflicto.
La única advertencia: si usas la API de OpenAI (la versión de pago a 0,006 $/minuto), el audio sí se envía a servidores de OpenAI en EE. UU. y se aplican las mismas consideraciones que con Otter.ai. La privacidad total solo aplica al modo autohospedado.
Cómo instalar y usar Whisper en modo local: guía mínima
Ejecutar Whisper en tu ordenador requiere Python 3.9 o superior y, opcionalmente, una GPU compatible con CUDA para acelerar el procesamiento. Con una CPU estándar moderna, una entrevista de 60 minutos puede tardar entre 10 y 25 minutos en transcribirse, dependiendo del modelo elegido.
Instalación básica (paso a paso)
- Instala Python y pip si no los tienes: descarga desde python.org.
- Crea un entorno virtual para evitar conflictos de dependencias:
python -m venv env-whisper && source env-whisper/bin/activate - Instala Whisper de OpenAI:
pip install openai-whisper - Transcribe tu archivo de audio:
whisper entrevista.mp3 --language Spanish --model large-v3
El argumento --language Spanish fuerza el modelo a español y evita que Whisper intente detectar el idioma automáticamente (lo que puede ralentizar el proceso o producir errores con acentos fuertes). El modelo large-v3 es el más preciso pero también el más lento y pesado (aprox. 1,5 GB de RAM de GPU); si tu equipo tiene recursos limitados, empieza con medium.
Añadir diarización con WhisperX
Para que el output incluya etiquetas de hablante, instala WhisperX como complemento:
pip install whisperx- Obtén un token de acceso gratuito de pyannote en Hugging Face (requiere aceptar sus términos de uso).
- Ejecuta:
whisperx entrevista.mp3 --language es --model large-v3 --diarize --hf_token TU_TOKEN
El resultado será un archivo .srt o .txt con segmentos etiquetados como «SPEAKER_00», «SPEAKER_01», etc. No es tan inmediato como la interfaz de Notta, pero el nivel de privacidad y control es máximo.
Precios y planes en 2026: lo que pagas realmente
| Plan | Otter.ai | Notta | Whisper |
|---|---|---|---|
| Gratuito | 300 min/mes (30 min/sesión) |
120 min/mes (3 min/sesión) |
Ilimitado (local) 0 €/mes |
| Pro (anual) | 8,33 $/mes 1.200 min/mes |
8,17 $/mes 1.800 min/mes |
0,006 $/min (API) o gratis (local) |
| Business (anual) | 20 $/usuario/mes | 16,67 $/usuario/mes | N/D |
Para un TFG con, digamos, ocho entrevistas de 45 minutos cada una (360 minutos totales), el plan gratuito de Otter.ai es suficiente en cuanto a minutos totales, pero la limitación de 30 minutos por sesión te obligará a dividir cada entrevista en dos archivos. El plan gratuito de Notta, con su tope de tres minutos por sesión, es prácticamente inútil para entrevistas reales. Whisper local es la única opción verdaderamente gratuita sin límites.
Si eliges la API de Whisper (gpt-4o-transcribe, el modelo más reciente), 360 minutos te costarían aproximadamente 2,16 dólares, lo cual es un coste marginal perfectamente asumible. Para los análisis cuantitativos que complementen tu metodología mixta, la comparativa Julius AI vs ChatGPT para análisis de datos del TFG sigue un criterio de evaluación por fases idéntico al de esta guía.
Recomendación por caso de uso
Caso 1: TFG de Ciencias Sociales con 6-10 entrevistas en español, sin restricciones especiales de privacidad
Recomendación: Notta Pro. La diarización automática, la precisión en español y el cumplimiento RGPD certificado hacen que sea la opción más directa. El coste es menor de 10 euros al mes y se puede cancelar tras transcribir todas las entrevistas.
Caso 2: TFG con aprobación de comité de ética y formulario de consentimiento que restringe el procesamiento en nube extraeuropea
Recomendación: Whisper local + WhisperX. Requiere algo de tiempo de configuración, pero la privacidad es absoluta y el argumento legal es sólido. Asegúrate de incluir en tu DMP que usas una herramienta local sin transferencia de datos.
Caso 3: TFG con entrevistas en inglés o investigación internacional con múltiples idiomas
Recomendación: Notta Pro por su soporte de 58 idiomas y su función de traducción integrada. Si el proyecto es totalmente en inglés, Otter.ai puede ser una alternativa válida con su plan gratuito.
Caso 4: TFG mixto (entrevistas + revisión de literatura con IA)
Para la parte cualitativa usa Notta o Whisper; para la fase de revisión bibliográfica consulta nuestra comparativa de SciSpace vs Elicit vs Scholarcy según la fase de tu revisión de literatura. Cuando hayas recopilado todos tus datos, Tesify puede ayudarte a integrar los hallazgos cualitativos en un texto académico coherente.
Cómo encaja Tesify en tu flujo de trabajo de entrevistas
Una vez que tienes las transcripciones —ya sea desde Notta, Whisper u otra herramienta—, el siguiente paso es convertirlas en material académico trazable: citas textuales correctamente formateadas, análisis temático argumentado, secciones de resultados y discusión redactadas con el estilo exigido por tu universidad.
Tesify no transcribe audio: es una herramienta de escritura académica con IA diseñada para ayudarte a estructurar y redactar el TFG o la tesis de forma ética y trazable. Puedes pegar fragmentos de tus transcripciones y trabajar con Tesify para generar el análisis temático, identificar categorías emergentes o redactar el apartado de metodología explicando cómo obtuviste y procesaste los datos cualitativos. Todo ello con plena trazabilidad, sin que la herramienta escriba el trabajo por ti: tú decides, Tesify asiste.
Una vez listo el análisis, recuerda que las entrevistas propias deben citarse correctamente en el apartado de fuentes. Nuestra guía sobre cómo citar una comunicación personal o tu propia entrevista en APA 7 explica exactamente cómo formatear estas referencias según la normativa de tu universidad.
Sube un fragmento de transcripción y pide a Tesify que te ayude a estructurar el análisis temático o a redactar el apartado de resultados con el rigor metodológico que exige tu tutor. Es gratis empezar.
Preguntas frecuentes
¿Puede Otter.ai transcribir entrevistas en español con buena calidad?
Otter.ai ofrece soporte para español, pero está entre sus tres idiomas disponibles y no ha sido su foco principal de desarrollo. En la práctica, la precisión en español es notablemente inferior a la que alcanza en inglés, especialmente con acentos regionales y vocabulario técnico académico. Para entrevistas de TFG en español, Notta o Whisper ofrecen resultados más fiables.
¿Es legal usar estas herramientas para grabar y transcribir entrevistas de investigación bajo el RGPD?
Sí, siempre que se cumplan varias condiciones: debes tener base legal para el tratamiento (habitualmente el consentimiento informado y explícito del participante), el formulario de consentimiento debe mencionar que el audio será procesado por herramientas de transcripción y cuáles son estas, y si el servicio almacena datos fuera del Espacio Económico Europeo, debes asegurarte de que existen salvaguardas adecuadas (DPA, certificaciones). Whisper en modo local es la única opción que evita estas complejidades al no transferir datos a ningún servidor externo.
¿Qué equipo informático necesito para ejecutar Whisper en local?
Para el modelo large-v3 (el más preciso) necesitas al menos 8-10 GB de RAM de GPU CUDA o, alternativamente, paciencia para esperar la ejecución por CPU. Con un ordenador moderno sin GPU dedicada, una entrevista de 60 minutos puede tardar entre 15 y 30 minutos. El modelo medium requiere aprox. 5 GB de VRAM y ofrece una precisión muy razonable para entrevistas en español. Para empezar, el modelo base es suficiente para una prueba inicial.
¿Puedo usar el plan gratuito de Notta para transcribir mis entrevistas?
El plan gratuito de Notta limita cada sesión a 3 minutos, lo que lo hace inviable para entrevistas de investigación normales (que suelen durar entre 30 y 90 minutos). Si tu presupuesto es cero, usa Whisper en local o la API de Whisper, que a 0,006 $/min resulta muy económica para un volumen típico de TFG. Si tienes algo de presupuesto, el plan Pro de Notta (aprox. 8 $/mes anual) es la mejor relación calidad-precio.
¿Cuál de las tres herramientas recomiendas para una investigación cualitativa con grupo focal?
Para grupos focales —que típicamente implican 5-8 personas hablando simultáneamente o solapándose— la diarización robusta es clave. Notta Pro ofrece la experiencia más sencilla con identificación automática de hablantes en español. Si el grupo es de más de cuatro personas con solapamientos frecuentes, considera complementar con WhisperX en local, que puede ser configurado para manejar mayor número de voces con mayor control sobre los parámetros de segmentación.
¿Qué hago con la transcripción una vez obtenida para incorporarla al TFG?
El proceso habitual en metodología cualitativa es: (1) revisar y corregir manualmente la transcripción automática, (2) anonimizar los datos reemplazando nombres reales por códigos (por ejemplo, E1, E2), (3) realizar el análisis temático o de contenido, y (4) redactar los resultados citando fragmentos textuales con la referencia al código de entrevistado y el minuto de la grabación. Herramientas como Tesify pueden ayudarte con la redacción académica del análisis sin escribir el trabajo por ti, manteniendo la trazabilidad que exige tu tutor.
Leave a Reply