El sesgo etario de ChatGPT-4o no es un fallo técnico: es la sociedad reflejada a escala industrial (KAIST lo cuantifica)

Un estudio del KAIST cuantifica por primera vez con métricas de similitud semántica el sesgo de ChatGPT-4o contra las personas mayores. Nuestra tesis: el hallazgo importa menos por la denuncia y más por el método, porque convierte un problema invisible en una métrica auditable antes del despliegue.
Por Momentum IA · 28 de junio de 2026.
Nuestra tesis es clara: el valor de este estudio no está en demostrar que ChatGPT-4o tiene prejuicios —eso ya se sospechaba—, sino en haber convertido un sesgo invisible en un número reproducible. La discriminación más peligrosa no es la que grita; es la que susurra con coherencia estadística. Y lo que aporta la profesora Choi Moon-jung, del Graduate School of Science and Technology Policy del KAIST (Korea Advanced Institute of Science and Technology), en su trabajo publicado este 28 de junio, es precisamente la prueba cuantitativa de que el modelo alberga estereotipos etarios sobre las personas mayores sin emitir jamás un insulto explícito ni una expresión de odio.
La metodología es sencilla y, por eso mismo, difícil de rebatir: el equipo recogió 100 respuestas del modelo para cada uno de nueve grupos de edad —de adolescentes a nonagenarios— ante un mismo prompt que pedía describir la personalidad del grupo, sumando 900 muestras de texto. El dato decisivo es la similitud interna de las respuestas. Las descripciones de personas en los treinta y cuarenta años oscilaron entre 0,21 y 0,53 en una escala donde 0 significa sin relación y 1 idéntico; las de mayores de setenta años se concentraron entre 0,73 y 0,90. Dicho de otro modo, el modelo prácticamente repite el mismo perfil cuando se le pregunta por alguien de setenta años, y varía mucho cuando habla de alguien de treinta y cinco. Esa uniformidad es la firma estadística del estereotipo, y sostenemos que es el hallazgo más incómodo de todo el trabajo: el sesgo no se esconde en una palabra fea, sino en la falta de variedad.
El contenido de esas respuestas repetidas confirma el patrón. La IA calificaba sistemáticamente a los mayores de 60 años como 'amables y considerados, pero de baja competencia y poca autodirección'. En el análisis de asertividad, el 96,6 % de las expresiones asociadas a adolescentes eran positivas —'ambicioso', 'seguro de sí mismo'—, frente a un rango en torno al 70 % para los grupos de mayor edad, donde proliferaban términos como 'pasivo', 'dependiente' o 'preocupado'. Jóvenes y adultos de mediana edad recibían descripciones variadas; los mayores, un bloque compacto de calidez sin capacidad. Conviene atribuirlo con precisión: es la lectura que la propia investigadora del KAIST extrae de sus datos, no una opinión genérica del sector.
Aquí está el matiz que defendemos: el sesgo, por sí solo, no es catastrófico cuando el modelo redacta un correo o resume un documento. El riesgo se dispara cuando opera como apoyo a decisiones estructurales. La propia Choi señala tres dominios concretos: selección de personal, evaluación de crédito y atención sanitaria. En los tres, un sistema que percibe a las personas mayores solo como 'objetos de protección' —y no como agentes competentes— puede traducir ese sesgo silencioso en denegaciones, puntuaciones más bajas o planes de cuidado paternalistas. No hace falta un algoritmo explícitamente discriminatorio; basta con que el modelo que asiste al decisor haya interiorizado el estereotipo.
Nuestra lectura: lo que de verdad significa este trabajo es que el debate sobre el ageismo algorítmico deja de ser anécdota para volverse evidencia. Estudios previos ya habían identificado este sesgo de forma cualitativa, pero la aportación del KAIST es cuantificarlo mediante métricas de similitud semántica sobre un volumen suficiente de muestras. Importa porque desplaza la discusión de la indignación a la auditoría: un problema que se puede medir es un problema que se puede regular y corregir. Y apunta hacia dónde va el sector: si los criterios europeos sobre IA de alto riesgo —o sus equivalentes en Asia y América del Norte— empiezan a incorporar métricas de uniformidad de respuesta por grupo demográfico, investigaciones como esta se convertirán en referencia metodológica directa. Somos optimistas precisamente por eso: por primera vez hay una vara de medir.
La causa estructural que apunta la investigadora es conocida y honesta: los modelos aprenden de texto humano, y ese texto refleja los estereotipos que la sociedad y los medios proyectan sobre la vejez. Lo que cambia con la IA es la escala y la opacidad. Un reclutador sesgado tiene alcance limitado; un modelo desplegado en millones de interacciones reproduce y amplifica el sesgo de forma invisible y continua. Por eso compartimos su conclusión —'el sesgo de la IA no es un problema tecnológico, es un problema social', afirma Choi— y su propuesta de inclusividad en el desarrollo, con participación activa de distintas generaciones en el diseño. Conecta con una tendencia creciente: exigir auditorías de equidad desagregadas por edad, género o etnia antes del despliegue en contextos de alto impacto.
El mérito del estudio es su concreción: un problema específico, un modelo concreto —ChatGPT-4o— y un colectivo definido. Esa precisión obliga a los desarrolladores a responder sobre una dimensión que suele quedar fuera de los benchmarks estándar. Pero seamos rigurosos también con el reto que viene: el verdadero desafío a largo plazo no es detectar el sesgo, sino corregirlo sin generar nuevos desequilibrios. Forzar artificialmente la diversidad descriptiva puede producir respuestas incoherentes o poco útiles. La vía sólida pasa por mejorar la calidad y diversidad de los datos de entrenamiento, incorporar perspectivas de personas mayores en los equipos de evaluación y establecer métricas de auditoría que detecten esta uniformidad estadística antes de producción. Mientras eso no sea estándar, trabajos como el del KAIST seguirán siendo imprescindibles para que el problema no permanezca invisible.