El kappa de Cohen: cómo medir la concordancia entre evaluadores (2026)
Dos investigadores codifican de forma independiente cien entrevistas transcritas. Al comparar sus registros descubren que coinciden en el 82 % de los casos. ¿Es ese porcentaje suficiente para concluir que el instrumento es fiable? La respuesta es no, y la razón es estadísticamente relevante: parte de ese acuerdo se habría producido igualmente por puro azar. El kappa de Cohen resuelve exactamente ese problema: mide la concordancia entre evaluadores descontando la coincidencia esperada por casualidad, ofreciendo un índice neto de acuerdo real. Desde su formulación por Jacob Cohen en 1960, se ha convertido en el estándar metodológico para estudios con codificación categórica en ciencias sociales, educación, psicología clínica y comunicación.
Este artículo desglosa la fórmula, desarrolla un ejemplo numérico completo, explica la escala de interpretación de Landis y Koch, distingue el kappa simple del kappa ponderado y del kappa de Fleiss para tres o más evaluadores, y detalla cómo reportar el coeficiente correctamente en formato APA 7.
Por qué el porcentaje de acuerdo no es suficiente
El porcentaje de acuerdo simple —número de coincidencias dividido entre el total de observaciones— tiene un defecto estructural: no distingue entre acuerdo genuino y acuerdo fortuito. Supongamos que dos jueces clasifican ítems en dos categorías (Presente / Ausente) y ambos tienen una tendencia marcada a responder “Presente”. Por la propia distribución marginal de sus respuestas, coincidirán con frecuencia aunque no estén aplicando el mismo criterio. El kappa de Cohen corrige esta inflación ajustando el acuerdo observado por el acuerdo que se esperaría si los evaluadores decidieran de forma completamente aleatoria pero respetando las mismas distribuciones marginales.
Esta corrección es especialmente crítica en investigaciones con pocas categorías: con dos categorías y distribuciones equilibradas, el acuerdo por azar ya alcanza el 50 %. Presentar un 70 % de concordancia sin corrección puede llevar a conclusiones metodológicamente deficientes. Los comités de tesis y los revisores de revistas indexadas lo saben, por eso exigen el kappa —o el coeficiente de correlación intraclase (CCI) en datos ordinales continuos— cuando hay codificación humana de la variable dependiente.

La fórmula del kappa de Cohen
Cohen (1960) definió el coeficiente κ mediante la siguiente expresión:
Los dos componentes fundamentales son:
- p₀ (acuerdo observado): proporción de ítems en los que los dos evaluadores asignan la misma categoría. Se obtiene sumando los elementos de la diagonal principal de la matriz de contingencia y dividiendo entre el total de observaciones (N).
- pₑ (acuerdo esperado por azar): suma, para cada categoría, del producto de las proporciones marginales de cada evaluador. Refleja el acuerdo que se produciría si ambos respondieran de forma estadísticamente independiente pero con las mismas distribuciones de respuesta.
El denominador (1 − pₑ) representa el máximo acuerdo posible por encima del azar. El numerador (p₀ − pₑ) representa el acuerdo real por encima del azar. κ puede oscilar teóricamente entre −1 (desacuerdo total) y +1 (acuerdo perfecto); en la práctica, valores negativos indican que los evaluadores coinciden menos de lo esperado por azar, señal de inconsistencia sistemática.
Ejemplo numérico paso a paso
Dos investigadores revisan 40 unidades de análisis (fragmentos de discurso) y las clasifican como Argumento presente (Sí) o Argumento ausente (No). Sus registros independientes producen la siguiente matriz de contingencia:
| Evaluador B: Sí | Evaluador B: No | Total Fila (A) | |
|---|---|---|---|
| Evaluador A: Sí | 22 | 3 | 25 |
| Evaluador A: No | 2 | 13 | 15 |
| Total Columna (B) | 24 | 16 | N = 40 |
Las celdas sombreadas (22 y 13) son las coincidencias: ambos evaluadores asignaron la misma categoría.
Paso 1 — Calcular p₀:
Paso 2 — Calcular pₑ: Para cada categoría se multiplican las proporciones marginales de ambos evaluadores:
= (0,625 × 0,600) + (0,375 × 0,400)
= 0,375 + 0,150
= 0,525
Paso 3 — Calcular κ:
El porcentaje de acuerdo simple habría reportado un 87,5 %, una cifra engañosamente alta. El kappa corregido es 0,74, que según la escala de Landis y Koch corresponde a una concordancia sustancial: sólida pero con margen de mejora en la guía de codificación.
Cómo interpretar el kappa: la escala de Landis y Koch
La referencia más extendida para interpretar κ es la propuesta por Landis y Koch (1977) en la revista Biometrics. Su escala de seis tramos sigue siendo el estándar citado en metodología de investigación social y ciencias de la salud:
| Valor de κ | Interpretación | Valoración práctica |
|---|---|---|
| < 0,00 | Sin acuerdo | Inaceptable |
| 0,00 – 0,20 | Leve (Slight) | Inaceptable |
| 0,21 – 0,40 | Aceptable (Fair) | Generalmente insuficiente; revisa el protocolo |
| 0,41 – 0,60 | Moderada (Moderate) | Aceptable en estudios exploratorios |
| 0,61 – 0,80 | Sustancial (Substantial) | Buen estándar para publicación |
| 0,81 – 1,00 | Casi perfecta (Almost perfect) | Excelente |
Conviene matizar dos limitaciones de esta escala. Primero, los propios Landis y Koch la formularon como orientación clínica, no como umbral estadístico absoluto. Segundo, κ se ve afectado por la prevalencia: cuando una categoría es muy infrecuente en la muestra, el índice puede subestimar la concordancia real aunque los jueces sean consistentes. En ese caso, la literatura especializada recomienda complementar κ con la sensibilidad y especificidad por categoría, o con el coeficiente de correlación intraclase.
Kappa ponderado y kappa de Fleiss
Kappa ponderado: cuando el error no es igual en todas las categorías
El kappa simple trata todas las discrepancias como igualmente graves. Para categorías ordinales —como una escala de gravedad Leve / Moderado / Grave— confundir “Leve” con “Grave” es cualitativamente peor que confundir “Leve” con “Moderado”. El kappa ponderado, propuesto por el propio Cohen en 1968, incorpora una matriz de pesos que penaliza los desacuerdos en función de la distancia entre categorías. Existen dos esquemas de ponderación habituales:
- Pesos lineales: la penalización es proporcional a la distancia entre categorías. Una discrepancia de dos rangos pesa el doble que una de un rango.
- Pesos cuadráticos: el peso crece con el cuadrado de la distancia. Es el más frecuente en psicometría y equivale matemáticamente al coeficiente de correlación intraclase bajo ciertos supuestos.
El kappa ponderado con pesos lineales es el más recomendado cuando las distancias entre categorías no son uniformes en términos de importancia clínica o teórica.
Kappa de Fleiss: tres o más evaluadores
El kappa de Cohen se define estrictamente para dos evaluadores que codifican el mismo conjunto de ítems. Cuando el diseño de investigación implica tres o más jueces, la extensión adecuada es el kappa de Fleiss (1971). Su principal diferencia conceptual es que admite que distintos ítems sean evaluados por distintos subconjuntos de jueces —condición frecuente en estudios de validación de contenido con muchos evaluadores— siempre que el número de evaluadores por ítem sea constante. La interpretación de su valor sigue la misma escala de Landis y Koch. En R, la función kappam.fleiss() del paquete irr lo calcula directamente. También existe la media de kappas de Cohen por pares (Light’s kappa), pero el kappa de Fleiss es el estadístico canónico cuando se dispone de tres o más jueces con asignación aleatoria.
Para profundizar en otros enfoques de acuerdo entre múltiples observadores en el contexto del diseño metodológico de tu investigación, la guía sobre análisis cualitativo comparado (QCA y fsQCA) explora situaciones en las que la lógica booleana sustituye al acuerdo estadístico convencional.
Cómo reportar el kappa en tu tesis (APA 7)
La séptima edición de las normas APA no establece un formato rígido para el kappa, pero la práctica estándar en revistas metodológicas sigue este modelo:
“La concordancia entre evaluadores se examinó mediante el coeficiente kappa de Cohen. El acuerdo resultó sustancial (κ = .74, p < .001), lo que indica que la codificación del corpus superó de forma significativa el nivel de acuerdo esperado por azar.”
Pautas específicas para el reporte:
- Usar κ en cursiva con dos decimales sin cero inicial (APA 7, sección 6.36 sobre notación estadística).
- Incluir el valor de p si el software lo reporta; en caso contrario, bastará con indicar el intervalo de confianza al 95 % si está disponible.
- Especificar en el método cuántos ítems codificaron los evaluadores, el número de categorías y si se empleó kappa simple, ponderado o de Fleiss.
- Si se entrenó a los evaluadores, describir la sesión de calibración y el número de ítems del piloto.
Para consultar el formato completo de citas, tablas y apéndices estadísticos en APA 7, la guía de Normas APA 7 en español cubre todos los apartados de forma integrada.
Herramientas para calcular el kappa: SPSS y R
SPSS
En SPSS, el kappa de Cohen se obtiene desde Analizar → Estadísticos descriptivos → Tablas de contingencia, activando la opción Kappa dentro del cuadro de estadísticos. El procedimiento requiere que los dos evaluadores estén codificados en columnas separadas, con las mismas categorías numéricas. El output incluye el valor κ, su error típico y la significación asintótica.
R
El paquete irr ofrece las funciones más completas:
kappa2(ratings, weight = "unweighted")— kappa simple entre dos evaluadores; permite especificarweight = "linear"oweight = "squared"para el kappa ponderado.kappam.fleiss(ratings)— kappa de Fleiss para tres o más evaluadores.
El paquete psych incluye asimismo cohen.kappa() con mayor flexibilidad para matrices no cuadradas y para comparar múltiples pares de evaluadores simultáneamente.
El kappa evalúa la fiabilidad entre evaluadores; cuando además necesites comprobar la consistencia interna de una escala de tu cuestionario, la guía sobre cómo calcular el alfa de Cronbach en Jamovi y SPSS cubre el coeficiente complementario más utilizado en la validación de instrumentos.
Si tu tesis combina pruebas de hipótesis convencionales con la evaluación de concordancia entre jueces, el artículo sobre prueba de hipótesis con chi-cuadrado, t de Student y ANOVA ofrece un recorrido complementario por las pruebas más frecuentes en investigación con muestras.
Preguntas frecuentes
¿Cuántos ítems necesito para calcular el kappa de forma fiable?
No existe un consenso absoluto, pero la práctica habitual en metodología de la investigación sitúa el mínimo en 30 ítems codificados. Con menos observaciones, el intervalo de confianza del kappa es muy amplio y el estadístico poco estable. Para estudios de validación de contenido o revisiones sistemáticas con categorías múltiples, lo recomendable son entre 50 y 100 unidades de análisis en la muestra piloto de calibración.
¿Qué valor mínimo de kappa se acepta en una tesis doctoral?
El umbral más citado en metodología cualitativa y análisis de contenido es κ ≥ 0,70 como mínimo aceptable para publicación, y κ ≥ 0,80 para estudios clínicos o de alta exigencia diagnóstica. Sin embargo, algunos comités de tesis aceptan κ ≥ 0,60 en investigaciones exploratorias si el investigador justifica la complejidad del sistema de categorías y describe el entrenamiento previo de los jueces. Lo esencial es transparencia: reportar el valor obtenido, el número de categorías y el n de ítems, permitiendo al lector juzgar la solidez de la codificación.
¿Cuándo debo usar el kappa ponderado en lugar del kappa simple?
Usa el kappa ponderado siempre que tus categorías sean ordinales y la distancia entre niveles tenga relevancia sustantiva. Ejemplos típicos: escala de gravedad de síntomas (Ninguno / Leve / Moderado / Grave), frecuencia de una conducta (Nunca / Raramente / A veces / Siempre) o nivel de dominio competencial. Si las categorías son nominales sin jerarquía —como tipos de argumento retórico— el kappa simple es el estadístico correcto. Usa pesos lineales cuando las distancias entre categorías son equiparables, y pesos cuadráticos cuando errores graves (extremos de la escala) deben penalizarse de forma mucho más severa que errores leves.
¿El kappa de Cohen es lo mismo que el coeficiente de correlación intraclase (CCI)?
No, aunque ambos miden fiabilidad entre evaluadores. El kappa es apropiado para datos categóricos nominales u ordinales (cuando cada juicio asigna a una categoría discreta). El CCI se usa para datos cuantitativos continuos o de intervalo, como puntuaciones en una escala de 0 a 100. Matemáticamente, el kappa ponderado con pesos cuadráticos coincide con el CCI bajo el modelo de efectos mixtos de dos vías con acuerdo absoluto, lo que explica por qué ambos convergen en escalas ordinales con muchos niveles.
¿Puedo calcular el kappa si mis evaluadores no codificaron exactamente los mismos ítems?
El kappa de Cohen exige que ambos evaluadores hayan codificado el mismo conjunto de ítems. Si existe solapamiento parcial —por ejemplo, en diseños de muestreo donde distintos jueces cubren subconjuntos del corpus— la alternativa metodológica adecuada es el kappa de Fleiss, que admite la situación en que diferentes ítems son evaluados por diferentes subconjuntos de jueces, siempre que el número de evaluadores por ítem sea constante.
Aplica el kappa de Cohen con seguridad en tu investigación
Asegurarte de que la concordancia entre evaluadores supera el umbral metodológico antes de presentar resultados es uno de los pasos críticos de cualquier investigación con codificación humana. Si necesitas orientación experta para diseñar el protocolo de interjueces, interpretar los valores obtenidos o redactar la sección de fiabilidad de tu tesis conforme a los estándares APA, Tesify cuenta con asistencia especializada en metodología de la investigación.

Leave a Reply