Una nueva investigación antrópica arroja luz sobre la ‘caja negra’ de la IA



A pesar de que son creados por humanos, los modelos de lenguajes grandes siguen siendo bastante misteriosos. Los algoritmos de alto octanaje que impulsan nuestra actual El auge de la inteligencia artificial tiene una forma de hacer cosas que no son aparentemente explicables para las personas que las observan. Es por eso que la IA se ha extendido en gran medida. estado apodada una “caja negra”, un fenómeno que no se comprende fácilmente desde el exterior.

Por qué todos los huracanes giran en la misma dirección

Una investigación recientemente publicada por Anthropic, una de las principales empresas de la industria de la IA, intenta arrojar algo de luz sobre los aspectos más confusos del comportamiento algorítmico de la IA. El martes, Anthropic publicó un trabajo de investigación diseñado para explicar por qué su chatbot de IA, Claude, elige generar contenido sobre ciertos temas en lugar de otros.

Sistemas de IA estan configurados En una aproximación aproximada del cerebro humano: redes neuronales en capas que toman y procesan información y luego toman “decisiones” o predicciones basadas en esa información. Dichos sistemas están “entrenados” en grandes subconjuntos de datos, lo que les permite hacer conexiones algorítmicas. Cuando los sistemas de IA producen Sin embargo, los observadores humanos no siempre saben cómo llegó el algoritmo a esa salida.

Este misterio ha dado lugar al campo de Interpretación de la IA”, donde los investigadores intentan rastrear el camino de la toma de decisiones de la máquina para poder comprender su resultado. En el campo de la IA interpretación, una “característica” se refiere a un patrón de activación “neuronas” dentro de una red neuronal: efectivamente, un concepto al que el algoritmo puede hacer referencia. Cuantas más “características” dentro de una red neuronal Cuanto más puedan comprender, más podrán comprender cómo ciertas entradas activan la red para afectar ciertas salidas.

En una nota A partir de sus hallazgos, los investigadores de Anthropic explican cómo utilizaron un proceso conocido como “aprendizaje de diccionario” para descifrar qué partes de la red neuronal de Claude asignados a conceptos específicos. Utilizando este método, los investigadores dicen que pudieron “comenzar a comprender el comportamiento del modelo viendo qué características responden a una entrada particular, dándonos así una idea del ‘razonamiento’ del modelo sobre cómo llegó a una respuesta dada”.

En una entrevista con el equipo de investigación de Anthropic realizada por Steven Levy de Wired, el personal explicó cómo era descifrar cómo funciona el “cerebro” de Claude. Una vez que descubrieron cómo descifrar una característica, esto llevó a otros:

Una característica que les llamó la atención estaba asociada con el puente Golden Gate. Mapearon el conjunto de neuronas que, cuando se disparaban, juntos, indicó que Claude estaba “pensando” en la enorme estructura que une San Francisco con el condado de Marin. Es más, cuando conjuntos similares de Las neuronas se dispararon y evocaron sujetos que estaban adyacentes al puente Golden Gate: Alcatraz, el gobernador de California Gavin Newsom y la película de Hitchcock. Vértigo, que se desarrolló en San Francisco. En total, el equipo identificó millones de características, una especie de Rosetta Stone para decodificar la red neuronal de Claude. .

Cabe señalar que Anthropic, al igual que otras empresas con fines de lucro, podría tener ciertas motivaciones relacionadas con los negocios para escribir y publicar sus investigaciones en la forma que lo ha dicho dicho , el equipo el papel es público, lo que significa que puedes leerlo por ti mismo y sacar tus propias conclusiones sobre sus hallazgos y metodologías.

Este contenido ha sido traducido automáticamente del material original. Debido a los matices de la traducción automática, pueden existir ligeras diferencias. Para la versión original, haga clic aquí.


Original Post>

Leave a Reply