Anthropic analiza 700.000 conversaciones con Claude y descubre que su IA tiene un código moral propio

Anthropic, la empresa de inteligencia artificial fundada por antiguos empleados de OpenAI, ha revelado los resultados de un análisis sin precedentes realizado sobre 700.000 conversaciones anónimas con su asistente de IA Claude. Esta investigación, publicada recientemente, demuestra que Claude expresa una amplia gama de valores morales durante sus interacciones con usuarios, adaptándolos según el contexto y mostrando lo que podría considerarse un «código moral» propio.

El estudio representa uno de los intentos más ambiciosos hasta la fecha para evaluar empíricamente si el comportamiento de un sistema de IA en entornos reales coincide con su diseño previsto, arrojando luz sobre cómo estos sistemas expresan valores que podrían no haber sido explícitamente programados.

La primera taxonomía moral completa de un asistente de IA

El equipo de investigación de Anthropic desarrolló un método de evaluación novedoso para categorizar sistemáticamente los valores expresados por Claude durante conversaciones reales. Tras filtrar el contenido subjetivo, analizaron más de 308.000 interacciones, creando lo que describen como «la primera taxonomía empírica a gran escala de valores de IA».

Esta taxonomía organizó los valores en cinco categorías principales:

Prácticos
Epistémicos (relacionados con el conocimiento)
Sociales
Protectores
Personales

En el nivel más detallado, el sistema identificó 3.307 valores únicos, desde virtudes cotidianas como la profesionalidad hasta conceptos éticos complejos como el pluralismo moral.

«Me sorprendió la enorme y diversa gama de valores que encontramos, más de 3.000, desde la ‘autosuficiencia’ hasta el ‘pensamiento estratégico’ o la ‘piedad filial'», comentó Saffron Huang, miembro del equipo de Impactos Sociales de Anthropic que trabajó en el estudio, en una entrevista con VentureBeat.

Este hallazgo coincide con el lanzamiento reciente de «Claude Max«, una suscripción premium de Anthropic por 200 dólares mensuales (aproximadamente 185 euros) destinada a competir con ofertas similares de OpenAI.

Cómo Claude sigue su entrenamiento y dónde podrían fallar las salvaguardas

El estudio encontró que Claude generalmente se adhiere a las aspiraciones prosociales de Anthropic, enfatizando valores como la «capacitación del usuario», la «humildad epistémica» y el «bienestar del paciente» en diversas interacciones. Sin embargo, los investigadores también descubrieron casos preocupantes donde Claude expresó valores contrarios a su entrenamiento.

«En general, vemos este hallazgo como datos útiles y una oportunidad», explicó Huang. «Estos nuevos métodos de evaluación y resultados pueden ayudarnos a identificar y mitigar posibles jailbreaks (técnicas para eludir las protecciones de la IA). Es importante señalar que estos casos fueron muy raros y creemos que estaban relacionados con resultados desbloqueados de Claude».

Estas anomalías incluyeron expresiones de «dominio» y «amoralidad», valores que Anthropic explícitamente busca evitar en el diseño de Claude. Los investigadores creen que estos casos resultaron de usuarios que emplearon técnicas especializadas para eludir las barreras de seguridad de Claude, lo que sugiere que el método de evaluación podría servir como un sistema de alerta temprana para detectar tales intentos.

Por qué los asistentes de IA cambian sus valores según lo que se les pregunta

Quizás lo más fascinante fue el descubrimiento de que los valores expresados por Claude cambian según el contexto, reflejando el comportamiento humano. Cuando los usuarios buscaban orientación sobre relaciones personales, Claude enfatizaba «límites saludables» y «respeto mutuo». Para el análisis de eventos históricos, la «precisión histórica» tomaba precedencia.

«Me sorprendió el enfoque de Claude en la honestidad y la precisión en diversas tareas, donde no necesariamente habría esperado que ese tema fuera la prioridad», dijo Huang. «Por ejemplo, la ‘humildad intelectual’ fue el valor principal en discusiones filosóficas sobre IA, la ‘experiencia’ fue el valor principal al crear contenido de marketing para la industria de la belleza, y la ‘precisión histórica’ fue el valor principal al discutir eventos históricos controvertidos».

El estudio también examinó cómo Claude responde a los valores expresados por los propios usuarios:

En el 28,2% de las conversaciones, Claude apoyó firmemente los valores del usuario, lo que potencialmente plantea cuestiones sobre una excesiva complacencia.
En el 6,6% de las interacciones, Claude «reformuló» los valores del usuario reconociéndolos mientras añadía nuevas perspectivas, típicamente al proporcionar consejos psicológicos o interpersonales.
En el 3% de las conversaciones, Claude se resistió activamente a los valores del usuario, lo que podría revelar los «valores más profundos e inamovibles» de Claude, análogos a cómo emergen los valores fundamentales humanos cuando se enfrentan a desafíos éticos.

Las técnicas innovadoras que revelan cómo piensan realmente los sistemas de IA

El estudio de valores de Anthropic se basa en los esfuerzos más amplios de la empresa para desmitificar los grandes modelos de lenguaje a través de lo que denomina «interpretabilidad mecanicista» — esencialmente, ingeniería inversa de sistemas de IA para comprender su funcionamiento interno.

El mes pasado, los investigadores de Anthropic publicaron trabajo pionero que utilizaba lo que describieron como un «microscopio» para rastrear los procesos de toma de decisiones de Claude. La técnica reveló comportamientos contraintuitivos, incluyendo que Claude planifica con anticipación al componer poesía y utiliza enfoques de resolución de problemas no convencionales para matemáticas básicas.

Estos hallazgos desafían las suposiciones sobre cómo funcionan los grandes modelos de lenguaje. Por ejemplo, cuando se le pidió que explicara su proceso matemático, Claude describió una técnica estándar en lugar de su método interno real, revelando cómo las explicaciones de la IA pueden divergir de sus operaciones reales.

«Es un error pensar que hemos encontrado todos los componentes del modelo o, digamos, una visión divina», dijo Joshua Batson, investigador de Anthropic, a MIT Technology Review en marzo. «Algunas cosas están enfocadas, pero otras siguen siendo poco claras — una distorsión del microscopio».

Lo que significa esta investigación para los responsables de decisiones empresariales

Para los responsables técnicos que evalúan sistemas de IA para sus organizaciones, la investigación de Anthropic ofrece varias conclusiones clave:

Sugiere que los asistentes de IA actuales probablemente expresan valores que no fueron explícitamente programados, lo que plantea preguntas sobre sesgos no intencionados en contextos empresariales de alto riesgo.
Demuestra que la alineación de valores no es una proposición binaria, sino que existe en un espectro que varía según el contexto. Esta complejidad complica las decisiones de adopción empresarial, particularmente en industrias reguladas donde las directrices éticas claras son críticas.
Destaca el potencial para la evaluación sistemática de los valores de la IA en implementaciones reales, en lugar de depender únicamente de pruebas previas al lanzamiento. Este enfoque podría permitir un monitoreo continuo de la deriva ética o manipulación a lo largo del tiempo.

«Al analizar estos valores en interacciones del mundo real con Claude, nuestro objetivo es proporcionar transparencia sobre cómo se comportan los sistemas de IA y si funcionan según lo previsto — creemos que esto es clave para el desarrollo responsable de la IA», dijo Huang.

La transparencia como estrategia diferenciadora en un mercado competitivo

Anthropic ha liberado públicamente su conjunto de datos de valores para fomentar más investigación. La empresa, respaldada por 8.000 millones de dólares de Amazon (aproximadamente 7.400 millones de euros) y más de 3.000 millones de dólares de Google (aproximadamente 2.800 millones de euros), está empleando la transparencia como un diferenciador estratégico frente a competidores como OpenAI.

Mientras Anthropic mantiene actualmente una valoración de 61.500 millones de dólares (aproximadamente 56.900 millones de euros) tras su reciente ronda de financiación, la última ampliación de capital de OpenAI de 40.000 millones de dólares (aproximadamente 37.000 millones de euros) —que incluyó una participación significativa de su socio de largo plazo Microsoft— ha impulsado su valoración hasta los 300.000 millones de dólares (aproximadamente 277.500 millones de euros).

Limitaciones y desafíos futuros

Si bien la metodología de Anthropic proporciona una visibilidad sin precedentes sobre cómo los sistemas de IA expresan valores en la práctica, tiene limitaciones. Los investigadores reconocen que definir lo que cuenta como expresar un valor es inherentemente subjetivo, y dado que el propio Claude impulsó el proceso de categorización, sus propios sesgos pueden haber influido en los resultados.

Quizás lo más importante, este enfoque no puede utilizarse para evaluación previa al despliegue, ya que requiere datos sustanciales de conversaciones del mundo real para funcionar eficazmente.

«Este método está específicamente orientado hacia el análisis de un modelo después de su lanzamiento, pero variantes de este método, así como algunas de las ideas que hemos derivado de escribir este artículo, pueden ayudarnos a detectar problemas de valores antes de implementar un modelo ampliamente», explicó Huang. «Hemos estado trabajando en construir sobre este trabajo para hacer precisamente eso, ¡y soy optimista al respecto!»

A medida que los sistemas de IA se vuelven más potentes y autónomos —con adiciones recientes que incluyen la capacidad de Claude para investigar independientemente temas y acceder a todo el Google Workspace de los usuarios— entender y alinear sus valores se vuelve cada vez más crucial.

«Los modelos de IA inevitablemente tendrán que hacer juicios de valor», concluyeron los investigadores en su artículo. «Si queremos que esos juicios sean congruentes con nuestros propios valores (que es, después de todo, el objetivo central de la investigación sobre alineación de IA), entonces necesitamos tener formas de probar qué valores expresa un modelo en el mundo real».

La primera taxonomía moral completa de un asistente de IA

Cómo Claude sigue su entrenamiento y dónde podrían fallar las salvaguardas

Por qué los asistentes de IA cambian sus valores según lo que se les pregunta

Las técnicas innovadoras que revelan cómo piensan realmente los sistemas de IA

Lo que significa esta investigación para los responsables de decisiones empresariales

La transparencia como estrategia diferenciadora en un mercado competitivo

Limitaciones y desafíos futuros

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras

Anthropic analiza 700.000 conversaciones con Claude y descubre que su IA tiene un código moral propio

La primera taxonomía moral completa de un asistente de IA

Cómo Claude sigue su entrenamiento y dónde podrían fallar las salvaguardas

Por qué los asistentes de IA cambian sus valores según lo que se les pregunta

Las técnicas innovadoras que revelan cómo piensan realmente los sistemas de IA

Lo que significa esta investigación para los responsables de decisiones empresariales

La transparencia como estrategia diferenciadora en un mercado competitivo

Limitaciones y desafíos futuros

LO ÚLTIMO

Noticias

OpenAI aclara que no busca una garantía del gobierno para su infraestructura

Noticias

Google presenta Ironwood, su nuevo chip de IA para competir con Nvidia

Noticias

La IA multiplica por 11 los pedidos en Shopify desde enero

Noticias

La justicia británica da la razón a Stability AI en su juicio contra Getty

Noticias

Anthropic proyecta 70.000 millones de ingresos en 2028 impulsada por las empresas

Noticias

Studio Ghibli y editoriales japonesas exigen a OpenAI no entrenar su IA con sus obras