2008/05/23

Redes neuronales artificiales en el estudio del desarrollo cognitivo

Juan Felipe Martínez Florez®

E-mail: nadagreen137@hotmail.com

Grupo de investigación Mentis en Filosofía de la Mente y Ciencias Cognitivas, Dpto. de Filosofía Edf.: 386; Of.: 2017.

Programa académico de Psicología, Instituto de Psicología Edf. 387; Of 4007

Universidad del Valle (Cali-Colombia).

Resumen: Las Redes Neuronales Artificiales (RNA) hoy en día ofrecen un aparato conceptual y tecnológico alternativo para el estudio de los procesos implicados en el desarrollo cognitivo. En este trabajo principalmente se presentan los presupuestos históricos y teóricos generales del enfoque de las redes neuronales artificiales en el estudio del desarrollo cognitivo. Se diferenciaran los enfoques de su uso dentro la psicología. Se expondrá el funcionamiento y ventajas de las RNA lo que permita establecer un panorama de discusión en cuanto a la implementación tecnológica en ámbito del desarrollo cognitivo. Se argumentara una apología al diferenciar sus tipos de implementación ya sea como modelo, metodología y teoría y se presentaran ejemplos correspondientes a partir del trabajo investigativo llevado a cabo hoy en día. Finalmente se concluirá la argumentación a favor, presentando una discusión general del panorama presente y futuro de las RNA en el ámbito investigativo exterior y local, sus características, deficiencias y posibilidades

Palabras clave: Desarrollo, aprendizaje, Conexionismo, Redes Neuronales Artificiales

Abstrac: The Artificial Neural Networks (ANN) today offer an alternative conceptual and technological point of view for the study of the processes implied in the cognitive development. In this work shown a historical and theoretical general' pattern's of ANN, in the study of the development. Also show the different lines of the use in psychology. It will be exposed the operation and advantages of the ANN what allows to establish a discussion panorama of the technological implementation in environment of the cognition. So i argued an apology when either differentiating their implementation types like model, methodology and theory and their corresponding examples from the investigative work carried out today. Finally i’ conclude the argument to favor, presenting a general discussion of the present panorama and future of the ANN in the external and local investigative environment, their characteristics, deficiencies and possibilities

Keywords: Development, learning, Connectionism, Artificial Neural Networks

La frase más excitante que se puede oír en ciencia,

La que anuncia nuevos descubrimientos,

No es ¡Eureka! (¡Lo encontré!) sino: es extraño...

Isaac Asimov

La psicología cognitiva, como rama de las ciencias cognitivas utiliza la idea básica del paradigma cognitivo y es la idea de la información. Dentro de esta idea el cerebro es una entidad capaz de recibir, almacenar y procesar de diversos modos la información, y de generar una conducta en consonancia con dichas actividades. En cierto sentido podemos decir que la psicología cognitiva pretende estudiar la mente a través de la observación de los procesos implicados en la conducta. Ya que, dentro de este modelo la mente es referenciada como causa de la conducta, pero a su vez también se accede a la observación objetiva de la conducta para el elicitamiento de los estados mentales internos.

A lo largo del desarrollo de la psicología en general se han formulado diferentes metáforas o modelos explicativos de la mente humana entre ellas esta quizá la más popular de todas, la metáfora del ordenador. Esta idea se liga básicamente al concepto de información y procesamiento. Estas ideas fueron importantes dentro del desarrollo tecnológico en los años 50 y 60 del siglo XX donde se desarrollaron los primeros sistemas artificiales de procesamiento de datos. Las propiedades mostradas por el ordenador se hicieron irresistibles a ser comparadas y asemejadas al funcionamiento mental humano. La psicología cognitiva clásica tomó estas ideas y las trasladó a la psicología: se entendió que la mente era como un programa informático y el cerebro como el hardware del ordenador. Tomando las reglas de procesamiento y las representaciones como parte fundamental del programa de investigación que más adelante seria conocido como conexionista. Entre ellas, la de idea de que la información está localizada y se puede acceder a ella mediante un sistema preciso de dirección, además que la misma se procesa “en serie” a partir de unas reglas de procesamiento. La adopción de esta ideas supuso una división dentro del la hipótesis del ordenador creándose entonces la corriente blanda de la computación y una corriente dura donde los procesos mentales podrían ser explicados en su totalidad con base a una analogía computacional. Mi idea no es descartarme por ninguna de estas dos posturas en particular, si bien me alineo por proponer un estudio fundamentado a partir de los modelos de procesamiento de información y computación, en la línea en la que el funcionamiento de estos modelos es entendido en términos de manipulación de símbolos[1] por un sistema físico. En tal medida:

“Un sistema simbólico físico consiste en un conjunto de entidades, llamadas símbolos que son patrones físicos que pueden aparecer como componentes de otro tipo de entidades llamadas expresiones (o estructuras simbólicas) Así una estructura simbólica esta constituida por un cierto numero de instancias (o <>) de símbolos relacionados de alguna forma física (como por ejemplo que se encuentren uno junto al otro) en cualquier momento, el sistema contendrá un conjunto de estas estructuras simbólicas. Además, el sistema contiene una colección de procesos que actúan sobre las expresiones para producir otras expresiones: procesos de creación, modificación reproducción, y destrucción. Un sistema simbólico físico es pues, un mecanismo que produce a lo largo del tiempo un conjunto en evolución de estructuras simbólicas. Tal sistema se encuentra en un mundo de objetos mas amplio que ellas mismas” (Newell y Simon, 1976)

Es aquí donde el concepto de computación entra a jugar un papel preponderante en el discernimiento de los procesos asociados a la cognición. En tal medida, es de precisar la idea de computación que se pretende manejar en el presente trabajo.

Si bien se retoma el concepto de cómputo, este no necesariamente hace referencia algún tipo de analogía necesaria de la mente con chips, transistores, o silicio, confusión muy común incluso entre los académicos. De manera tal, que tiende a generarse uno de los malentendidos más comunes en la Ciencia Cognitiva, y es presupuesto de llegar a considerar la mente como el Hardware o el software de los ordenadores comunes, presupuesto totalmente alejado de la realidad. Es de precisar que, el concepto de computo desde al ciencia cognitiva vas mucho mas allá de los ordenadores a los que estamos acostumbrados en nuestras casas, de hecho las características que llevan a establecer una analogía a priori entre los sistemas de computo y los ordenadores comunes, en realidad no tienen que ver entre si. ¿Cómo se definiría entonces el concepto de cómputo?

En líneas generales podríamos decir que, un sistema de computo es aquel cuyas funciones de intercambio con le medio se describen óptimamente como funciones de manejo sistemático de información, por las cuales esta es tomada, almacenada transformada y devuelta al entorno (P. Adarraga 1994 pg, 47) En otras palabras las características de un sistema de computo se explican por el manejo de información, o datos, y las operaciones que aplique sobre ellos en la consecución de un producto.

Ahora bien, este presupuesto es de vital importancia para introducir y a la postre entender la manera como se describe el funcionamiento cognitivo a partir de sistemas de computo y manipulación de información dentro de la perspectiva de las redes neuronales artificiales. Este concepto se traslada al interior del conexionismo a partir del uso de las redes neuronales artificiales como modelos de computación informática que permiten una aproximación para comprender y explicar los procesos asociados a la mente y la conducta. Las redes neuronales dentro de este paradigma son conjuntos de unidades interconectadas masivamente capaces de procesar y almacenar información mediante la modificación de sus estados. (E. Caicedo Bravo, J. Alfonso López 2000) Esta afirmación exigiría importantes precisiones, pero en general se puede decir que el psicólogo computaciónalista considera que ha explicado un fenómeno psicológico (el reconocimiento de formas, la producción de lenguaje, la memoria, etc....) cuando el modelo neuronal artificial que construye se comporta, o exhibe las mismas características de procesamiento de información que los seres humanos cuando realizan la misma tarea.

Es claro, que la presente perspectiva retoma elementos fundamentales y comunes a abordaje de las ciencias cognitivas como la metáfora computacional la cual ha sido un eje para la investigación en psicología cognitiva y ciencias cognitivas en general, bajo el presupuesto de que un sistema cognitivo es un sistema de procesamiento de información.

Es de aclarar pues, que en el presente trabajo no se trata de considerar a profundidad el problema de qué sea una ‘representación mental’, un ‘sistema cognitivo’ o ‘la cognición’. Aún cuando empleo estos conceptos en el ámbito del desarrollo cognitivo; tampoco me comprometo con la tesis (muy compatible con la IA dura) acerca de que todo estado mental es un estado funcional que puede ser implementado de modo múltiple en una plataforma computacional, Ni que exista una correspondencia directa entre estados mentales y estados computacionales

II

¿Estados cognitivos o emulación del funcionamiento cerebral?

Las RNA ofrecen desde una mirada general, un marco teórico y metodológico biológicamente orientado al estudio de procesos asociados a la cognición humana ¿Pero que es exactamente lo que se pretende con este aparato conceptual? ¿Acaso se trata de modelar los intricados sistemas o circuiteria cerebral con el fin de obtener un resultado semejante al que ocurre en el cerebro? ¿Es la perspectiva conexionista el único enfoque que dentro de la psicología utiliza las RNA en la formulación de sus presupuestos?

A grandes rasgos podemos plantear dos perspectivas de uso de las RNA dentro de la psicología, una seria la aproximación desde las redes neuronales como tal, es decir una perspectiva eminentemente neurobiológica donde se trata a través de la modelizaciòn RNA establecer modelos de la manera como el cerebro computa información. Dentro de esta perspectiva cada unidad de la red seria asemejada en una correspondencia uno a uno con una unidad cerebral, es decir una neurona. Contrariamente, la perspectiva conexionista, pese a estar también biológicamente orientada trabaja a un nivel mucho más general, donde cada unidad de la red es un nodo o conexión encargado de almacenar información y trasmitir activación según el caso. En tal medida las redes conexionistas se distancian de las redes biológicamente inspiradas en varios puntos[2]:

Redes conexionistas

Redes biológicamente inspiradas

Las unidades de una capa suelen estar conectadas con todas las de la siguiente

Las conexiones son mucho mas locales, las probabilidades de conexión entre una neurona y la siguiente decrecen según su distancia

Una misma unidad puede mantener diferentes tipos de conexión, excitatoria inhibitoria

Las neuronas son excitatorias o inhibitorias

Las estructuras mas simples enfocadas en su funcionalidad

Estructuras mas complejas biológicamente inspiradas

Es decir, la perspectiva conexionista cuenta con un enfoque más funcional orientada no a la emulación de un proceso cerebral sino a la emulación de un estado o función cognitiva. Acorde con esto:

“…en la mayoría de modelos conexionistas las unidades o nodos no intentan modelar las neuronas individuales, y las variables usadas en las simulaciones no intentan responder ni cualitativa ni cuantitativamente con las representadas en el cerebro real” [3] (Treves & Rolls 2004)

¿Pero que perspectiva es entonces la que intenta plantear mi línea de trabajo?

Dentro de mi trabajo[4] con las RNA trato de plantear un camino intermedio entre una perspectiva biológica y cognitiva sin necesariamente caer en el paradigma conexionista. Básicamente se trata de crear modelos o basar el trabajo sobre modelos de sistemas funcionales neuro-cognitivamente plausibles, una vía intermedia entre la correlación 1 a 1 de redes biológicamente plausibles y la conectividad planteada en los modelos conexionistas. Donde quizá la correspondencia funcional de la red no sea 1 a 1, sino en términos de conglomerados de neuronas o regiones, permitiendo a su vez un correlato biológico y cognitivo.

III

Redes neuronales artificiales en el marco de la psicología del desarrollo cognitivo

Hoy en día se ha realizado diferentes tipos de modelamiento a través de redes neuronales artificiales enfocadas a discernir los procesos relacionados con la cognición y el desarrollo cognitivo. Mucho de este boom sucedió a partir de la publicación del libro Introducción al Procesamiento Distribuido en Paralelo (Rumelhart, McClelland 1986) y principalmente tuvo una acogida dentro de la psicología genética en el enfoque conocido como neoconstructivista del desarrollo el cual enfatiza procesos de interacción a varios niveles entre las predisposiciones innatas y la experiencia en la construcción del conocimiento(Véase Karmiloff-Smith 1994 para una revisión y discusión detallada) La discusión entre el innatismo y la experiencia es una discusión bastante larga y polarizada tanto en la psicología del desarrollo como en la filosofía, la cual en cierta medida se ve mediada y parcialmente superada, principalmente por el trabajo de teóricos como Vigotsky y Piaget quienes enfatizan una perspectiva de interacción entre el organismo y el medio en la construcción del sujeto. Mi interés aquí no es ahondar en esta discusión, sino presentar la el enfoque de las redes neuronales artificiales adscritas dentro de esta perspectiva de interacción ofreciendo, un marco teórico y metodológico que permita re-entender y reformular de una manera mas precisa, datos, intuiciones e hipótesis, para generar nuevas ideas empíricamente contrastables.

Un ejemplo del acople de la perspectiva conexionista dentro del estudio del desarrollo lo tenemos la gracias a la propuesta de aprendizaje por redescripción representacional de Karmiloff-Smith. El proceso de redescripción representacional básicamente explica el aprendizaje como la transformación de información concreta de entrada la cual llega a un nivel de maestría lo que la lleva a una nueva categoría más compleja que permite un nuevo tipo de manejo. Pasando así, del conocimiento implícito a una maestría metateoría del mismo conocimiento. Esto podría ser fácilmente explicado si lo comparamos con la lectura de una palabra, en un inicio, lo primordial seria leer cada letra, hasta que se lee de modo que se comprende un grupo de letras con sentido. Mayor experiencia entonces permitiría

encontrar las reglas que se hayan tras la formación de las palabras (pro ejemplo la gramática u ortografía)

Dentro de esta perspectiva el desarrollo no es un proceso global (como pretendía Piaget) sino de domino especifico. Esta visión se basa en la concepción de la mente compuesta por módulos predeterminados de información encapsulada activados según la maduración del individuo (fodor 1984) y computan información para la cual se encuentran genéticamente determinados. Desde esta perspectiva el desarrollo del reconocimiento visual de rostros y del lenguaje no formarian parte del mismo espacio de información entrante ni tampoco comparten métodos similares. De hecho, podrían no tener ningún parecido.

¿Como se relacionaría esto con una red neuronal? Una red neuronal es Básicamente un conglomerado de neuronas o nodos conectados entre sí que pasan activación por entre sus conexiones. Generalmente las redes neuronales están organizadas por capas y pueden tener una o varias capas ocultas, las cuales transmiten la activación en direcciones específicas.

Aquí tenemos un ejemplo[5] de red feedfordward, es decir que trasmite su activación en una dirección. La red cuenta con varias capas, una de entrada, dos “ocultas” o de procesamiento y una de salida de j e i numero neuronas. Cada nodo de la primera capa lanza una conexión a un nodo de la siguiente siendo la dirección de la propagación de la activación siempre la misma. Estas conexiones tendrían unos valores de entrada denominados pesos (X1, X2… Xn) de modo que la activación que un nodo transmite a los posteriores es producto de la conexión que mantienen entre sí y de la activación que tenía el primer nodo. Supongamos que un peso es de 0.5 y que la activación del nodo es de 1. ¿Qué ocurre con la activación que alcanza el nodo de la segunda capa? Es evidente que entre las neuronas que se conectan con el las de la segunda capa, podrían estar varias de ellas activadas teniendo un peso distinto de cero. Bueno, pues aquí aparece la función de activación que integra toda la activación que alcanzan las neuronas, habitualmente siendo

una función no lineal como la sigmoide. El empleo de una función no lineal modifica con bastante el procesamiento de la red (este tipo de función es similar al que se da en las neuronas reales), de modo que activaciones bajas y altas son llevadas al extremo, acercándose más a 0 o 1, mientras que las activaciones medias siguen una progresión básicamente lineal. Ahora, aplicándosele una función de aprendizaje, de las diferentes que existen, hace que las presentaciones de estímulos vayan modificando cuantitativamente los pesos de las conexiones “En otras palabras, las computaciones sencillas de elementos se combinan e interactúan de múltiples formas para producir resultados complejos y cambiantes los que sirven para modelar los procesos cognitivos y de desarrollo” (Gutierrez Martinez, 2005, pg262)

Este tipo de sistema distribuido presenta varias características "generales" de la cognición. Como por ejemplo, es capaz de reaccionar ante la similitud de los estímulos, a no ser que sea la función de aprendizaje de una diferencia significativa. Asimismo puede generalizar a nuevos estímulos de la misma categoría siempre que mantengan ciertas propiedades básicas comunes, detectando invarianzas o "reglas"; y además, presentan un comportamiento dirigido por etapas, basado en un aprendizaje cuantitativo. Igualmente presentan numerosas dependencias al contexto y a los sesgos estadísticos de las entradas. Por ejemplo, si han de aprender a transformar una serie de rasgos fonéticos en letras, la adquisición se verá influida por la proporción de letras y rasgos fonéticos, de la semejanza fonética entre dos letras y demás; estas propiedades se hallan en experimentación diversa.

“…lo importante, es que estos procedimientos proporcionan un nuevo marco computacional, en el que ya no es necesario formular reglas explicitas sobre la información representada y las operaciones del procesamiento implicadas, sino que todo ello puede describirse en referencia a los patones cambiantes de activación y de conexión dentro de una red de procesamiento distribuido en paralelo (…) básicamente el procesamiento se refleja en los cambios del patrón de activación, mientras que los patrones conectivos representan el conocimiento del sistema, que van cambiando como consecuencia de la propia actividad de la red” (Gutierrez Martinez, 2005)

Las redes neuronales artificiales son una herramienta fuerte que permite acercarse a problemas de la cognición y el desarrollo cognitivo permitiendo a su vez incorporar y relacionar datos de otros campos complementarios como la neurociencia. En razón que las RNA son asemejadas al funcionamiento natural del cerebro, dado que comparten algunas características lo que las posiciona como modelos explicativos bastante potentes. Básicamente dentro de esta línea de ideas se considera que una red neuronal Emula el funcionamiento neuro-cognitivo según los siguientes aspectos:

· El conocimiento es obtenido por la red a través de un proceso de aprendizaje.

· Las conexiones entre neuronas conocidas como pesos sinápticos son utilizadas para almacenar dicho conocimiento.

· Poseen Elementos de procesamiento simple (Neuronas)

· Conectividad

· Cuentan con una Función de Activación

· La activación se produce mediante la ley de “todo o nada”

La idea central de los modelos, mas específicamente de las redes neuronales, dentro de la psicología cognitiva, es presentar un marco “biológicamente orientado” no por esto necesariamente organicista ya que continúa dentro de los lindes mecanicistas de la ciencia cognitiva, lo cual a su vez hace que se tome el presupuesto computacional, ya no dirigido específicamente manipulación de representaciones simbólicas, sino a los procesos emergentes de las supuestas unidades o conexiones que forman las estructuras organizadas de sistemas computacionales(Véase Gutierrez Martinez, 2005, pg262)

La aspiración de simular procesos cognitivos por medio de redes neuronales ha dado hoy en día algunos resultados, aunque aun no muy concluyentes y siempre criticables como representaciones fiables. Pero aun así, presentan estudios interesantes que cuentan al menos con un valor de importancia en la representación de distintos procesos enmarcados tanto en la psicología del desarrollo, como por ejemplo, la simulación (aun muy general) de la adquisición de la gramática hecha por Angelo Cangelosi, Domenico Parisi, (2003) La cual en líneas generales permitía representar la adquisición de pautas gramaticales y el procesamiento de verbos tanto a un nivel cognitivo coomo neural durante el desarrollo lingüístico.

IV

Redes neuronales artificiales ¿método, metodología o teoría?

¿Cómo podemos entender exactamente las redes neuronales? ¿Que tipo de uso pueden llegar a dársele a estos sistemas de procesamiento dentro del estudio del desarrollo? ¿Que es exactamente lo que emulan o simulan? Y ¿que tipo de interpretación o valor deben tener estas emulaciones a la hora de entender aspectos del desarrollo cognitivo? Son quizá algunas de las preguntas más frecuentes a la hora de definir el como son y pueden ser usadas las RNA en el estudio de los procesos cognitivos en desarrollo.

En cuanto a su implementación en estudio del desarrollo cognitivo creo que hay que hacer la diferenciación entre tres tipos posibilidades de uso, a saber (I) como modelo del fenómeno estudiado, (II) como metodología, como herramienta que permita el manejo o comparación de datos, (III) teoría, que sirva como marco explicativo del problema.

l Modelo: funcionando como generadores de “panoramas”, o sistemas de emulación o modelizaciòn de un proceso estudiado.

l Metodología: el interés posa sobre los datos y su tratamiento en términos de comparación-descripción.

l Teoría :explicación de los estados, procesos y propiedades encontrados en la observación o a través del modelamiento

Son básicamente tres caminos por lo cuales se han elaborado diferentes arquitecturas que intentan acercarse a la modelizaciòn, comprensión y explicación de diferentes aspectos del desarrollo. Veamos ahora una aproximación de cada cual.

A modo de simplificar un poco la explicación de estos tipos de abordaje lo haré a manera de ejemplo para su aplicación como modelo y teoría principalmente exponiendo las generalidades de su aplicación como metodología. En tal medida consideremos cómo se produce la representación en dos tipos de redes aplicadas a aspectos del desarrollo linguistico.

La primera, es la aproximación que llevo a cabo dentro de mi equipo de trabajo en RNA, la cual en líneas generales busca implementar en una RNA un modelo sobre el desarrollo del proceso de denominación y la influencia del gesto en el mismo. Y la segunda una red que intenta acercarse a la explicación del funcionamiento del niño pequeño en la adquisición del vocabulario.

Dentro e mi equipo de trabajo con las RNA actualmente trabajamos sobre la implementación de modelos teórico previos dentro de las RNA. Es decir, no usamos las RNA como paradigma capaz de dar cuenta de un fenómeno sino que se usan como una herramienta de modelizaciòn y emulación que nos permita establecer un panorama de discusión y plausibilidad de las previas hipótesis. Actualmente trabajamos con la formulación de hipótesis sobre el la organización neuro-cognitiva del conocimiento lingüístico en el proceso de denominación[6]. Dentro de esta línea las RNA las asimilamos como sistemas que nos permitirían integrar y complementar dos tipos de aproximaciones teóricas en una situación particular. A este respecto, se parte de la formulación de hipótesis basadas en teorías actuales respecto a nuestro problema de investigación permitiéndonos plantear un modelo plausible el cual en última instancia seria codificado dentro de una RNA. Para esto trabajamos con redes biológicamente inspiradas, definimos un tipo de arquitectura que nos permita representar el problema y luego trabajamos sobre la codificación matemática que nos permita mediante un proceso algorítmico representar nuestro modelo dentro de la RNA.

En líneas generales podemos resumir la implementación de las RNA como modelo[7] a partir del siguiente esquema[8]:

Asi pues, el uso como modelo parte de una primera aproximación teórica del evento, es decir, se trata de construir en primera instancia un modelo teórico que puede tener o no una aproximación especifica a las RNA y usar las mismas con el fin de aproximarse a la comprensión de una previa descripción cognitiva. En tal medida con la implementación de un modelo no se busca reducir sino operacionalizar en el ámbito tecnológico un modelo cognitivo del evento. Este tipo de aplicación estaría más asociado con la tesis de la IA blanda.

Por otra parte el uso de las RNA como metodología se define fundamentalmente al usar las redes como herramientas para el manejo de datos o herramientas comparativas de los mismos. Es decir en este tipo de aplicación no necesariamente se trata de modelar el funcionamiento cognitivo o cerebral en relación con una hipótesis o sencillamente intentando modelar un problema sino que se intenta usar las RNA como elementos que permitan plantear una discusión respecto a una idea o evento particular.

Con frecuencia esta manera de uso de las redes consiste en entrenar una red para resolver una tarea o problema especifico, por ejemplo se programa una red para resolver la clásica tarea de la balanza (Elman; J. L, Bates, A, Jonson, M., Karmiloff-Smith A., Parisi D. Plunkket K 1996 para un revisión detallada) se analiza y compara su desempeño con el de los infantes, la manera como la red aprende se desempeña y genera las “estrategias” que usa para acomodar su funcionamiento en búsqueda de una salida exitosa, o bien puede usarse para clasificar y agrupar datos por categorías uso que se le ha dado por ejemplo como aliadas en el diagnostico de neuropatología (J. A. Reggia, R. Berndt, L. D’Autrechy 1994) como herramientas que permitan acercarse a la toma de decisiones clínicas.

Finalmente, las RNA como teoría, supone su uso como una plataforma capaz de dar cuenta tanto en términos descriptivos como explicativos del evento en cuestión. Este tipo de uso se alinearía claramente con el enfoque de la IA dura, donde fundamentado en la funcionalidad del sistema un investigador podría acusar que ha dado cuenta de X o Y evento cuando su sistema alcanza un nivel de similaridad en términos conductuales con el fenómeno estudiado. En este sentido como sugiere Elman “Hemos encontrado que el aspecto mas útil del conexionismo son los conceptos que ofrece. Desde nuestro punto de vista, pensar como un conexionista no requiere hacer simulaciones. Lo verdaderamente importante es ser capaza de utilizar su aparato conceptual” (Elman 1996 en Gutierrez Martinez, 2005)

El lenguaje ha sido uno de los campos en donde las redes neuronales artificiales han tenido una de las mayores acogidas y en donde se han realizado diferentes tipos de modelaciones que intentan dar cuenta de los diferentes aspectos implicados en su desarrollo. La adquisición y producción de palabras y sus diferentes formas verbales es uno de los aspectos mas estudiados por los investigadores que emplean las RNN como modelos del evento. El desarrollo de la producción de las palabras cuenta con características bastante intrigantes, no solo por el momento especifico de comienzo el cual puede variar individualmente sino también por las distintas pautas temporales que se observan durante su desarrollo y que sugieren un patrón de evolución no lineal. Alrededor del año de vida el vocabulario comienza a surgir muy lentamente para después, alrededor del mes 17 acelerarse rápidamente. Este tipo de pauta ha sido modelizada (Plunkett, K.,

Sinha C., Moller M. Schafer G 1992-1999) a partir de un sistema de etiquetado que relaciona imágenes con etiquetas mediante uno de los algoritmos de aprendizaje más característicos de las RNA. El llamado algoritmo de corrección de error mediante propagación hacia atrás. De esta manera el sistema es capaz de producir una etiqueta (palabra) en presencia de una imagen aislada o de los inputs específicos, es decir puede producir una denominación de la misma manera que lo hace un niño cuando se pide nombrar un objeto a partir de una inducción.

V

Redes neuronales artificiales aplicadas al estudio del desarrollo cognitivo

Criticas, limitaciones y perspectivas

Evidentemente pese a este breve repaso debe decirse que el enfoque de las redes neuronales por si mismo no basta para resolver todos los problemas del desarrollo. Y de hecho ha recibido fuertes críticas en especial su enfoque conexionista, repasemos unas cuantas.

Una de las críticas es la que define el enfoque de las RNA y más exactamente el conexionistas como una especie de “neo-conductismo” dado su carácter asociacionista y su funcionamiento a partir de “estímulos y respuestas” así como el énfasis que pone en el aprendizaje. A lo cual e puede responder que esto no es del todo cierto, en primer lugar el conductismo tiende a caracterizarse por el procesamiento en “caja negra” lo que esta totalmente alejado de las RNA, ya que aquí cada secuencia del procesamiento es totalmente “clara” y se puede rastrear cada aspecto del mismo. En igual media no siempre la experimentación con RNA no se puede predecir totalmente la respuesta del sistema frente a un estimulo.

Por otra parte, quizá una de las más fuertes críticas radica en definir si el trabajo con las RNA hace parte de la psicología o no. Esta crítica supone que en últimas el trabajo con las RNA podría no tener que ver nada con la cognición y mucho menos con la psicología. A este respecto se plantean dos consideraciones (Véase Gutierrez Martinez, 2005, pg294)

Primero, ha de saberse que platear el uso de modelos computacionales con orientación biológica no implica el hecho de reducir necesariamente los procesos cognitivos a procesos neuronales, esto en ultimas solo hace parte del marco conceptual y operativo del enfoque de las RNA y finalmente se trata es de el análisis de las propiedades emergentes que pueden tener dichos sistemas a partir de ciertos tipos de interacción. En igual medida es de considerarse que por lo general los modelos de RNA trabajan sobre teorías y conceptos psicológicos y tal medida dichos aspectos son los que dirigen su implementación. Segundo también es de precisarse que el mismo origen de los primeros modelos conexionistas están dentro de las teorías psicológicas como “la teoría de la organización esquemática del conocimiento” asimismo muchos de los algoritmos usadazos en al codificación proviene de aproximaciones no solamente computaciones sino también de la psicología como el caso de la regla de aprendizaje propuesta por Donald Hebb.

“… De la interpretación de las unidades de un sistema conexionista surge el pensamiento tal como se manifiesta en la solución de problemas, considerándolo como la capacidad de construir y manipular modelos mentales de los cuales se extrae, se <> la solución. El pensamiento es un tipo de <> en la que uno conversa, habla consigo mismo, controlando el curso de sus pensamientos, la secuencia de sus estados de conciencia.” (García-Madruga en Gutierrez Martinez, 2005 )

Las dificultades que presentan las RNA principalmente radican en la representación de variables dentro de las mismas. Por ejemplo es bien sabido que durante el desarrollo y el aprendizaje no solamente intervienen variables de tipo cognitivo sino también sociales, motivacionales y emocionales. Hasta el día de hoy no existe una respuesta clara de cómo podrían explicarse dentro de las RNA la naturaleza de estas variables, aunque claro existen algunos procesos que intentan acercarse a concretar algunos de estos aspectos, como los sesgos estadísticos que intentan acercarse a la integración de ciertas variables en la adquisición del conocimiento dentro de determinados contextos.

“En resumen aunque los modelos conexionistas no suelan contener ojos, manos, metas, emociones ni aprendan en el seno de las interacciones sociales, no hay, desde un punto de vista lógico, nada que impida la incorporación de estos ingredientes (…) Los modelos conexionistas pueden resultar ventajosos de cara a la introducción de dichos ingredientes” ( P. L. Cobos Cano 2005, pg 244)

Finalmente, es importante recordar que las RNA como tales (Fuera de sus adaptaciones como el enfoque conexionista y neurobiológico) no son en si mismas una teoría, sino mas bien un marco teórico y metodológico construido multidiciplinariamente, en tal medida pienso que el mayor aporte de las RNA consiste en brindar un enfoque que permitiría la convergencia teórica de enfoques como la psicología cognitiva y la neurociencia, además de ofrecer una herramienta metodologíca que permitiría interesantes contrastes y discusiones sobre apreciaciones de distintos funcionamientos e hipótesis alrededor del desarrollo. En este sentido el uso de las RNA no trata de imponer un modelo de conocimiento sobre otro, ni una disciplina por otra sino que se trata precisamente de todo lo contrario, plantear un punto de vista unificado, que permita poner en dialogo distintos modelos respecto a un fenómeno. Principalmente parto de la idea que la ciencia refinada debe ser complementaria, la ciencia, como un todo, no tiene porque contradecirse.

_______________

BIBLIOGRAFÍA

-- Angelo Cangelosi, Domenico Parisi, The Processing of Verbs and Nouns in Neural Networks: Insights from Synthetic Brain Imaging Centre for Neural and Adaptive Systems and School of ComputingUniversity of Plymouth (UK), Institute of Cognitive Sciences and Technologies National Research Council (Italy) (2003)

--E. Caicedo Bravo, J. Alfonso López, Redes neuronales artificiales, introducción Facultad de ingeniería, escuela de ingeniería electrónica, Universidad Del Valle (2000)

-E. Lepore, Z. Pylyshyn, S. Stevenson ¿que es la ciencia cognitiva? Oxford University press, México (2003)

- Elman; J. L, Bates, A, Jonson, M., Karmiloff-Smith A., Parisi D. Plunkket K. Rethinking Innatenes a connectionist perspective on development, Cambridge, Massachusetts: MIT press (1996)

--F. G. Martínez Teorías del desarrollo cognitivo Mc Graw Hill, Madrid (2005)

--John A. Bullinaria Modeling Reading, Spelling, and Past Tense Learning with Artificial Neural Networks Neural Networks Research Group, Department of Psychology, University of Edinburgh, , Edinburgh, United Kingdom (1997)

-J. L. Zaccagnini, P. Adarraga psicología e inteligencia artificial Trotta, Madrid (1994)

-J. A. Reggia, R. Berndt, L. D’Autrechy Connectionist models in Neuropsychology, Departament of computer science an neurology, Institute of computer science, University of Maryland, Grenne street, Baltimore USA, (1994)

- J. F Martínez Florez desarrollo neuro-cognitivo del lenguaje, aproximación al desarrollo de la denominación, Universidad del valle, Grupo de investigación mentis, Cali-Colombia (2008)

-- Karmiloff Smith A. Más allá de la modularidad, Madrid: Alianza, (1994)

-M. Belinchon, A. Riviere, J Igoa Psicología del lenguaje; Ed.: Trotta, Madrid (1992)

-Newell A. Simon H. A. Computer science as empirical inquiry: symbols and search, Communications of the association for computing machinery, 19, (1976)

--P. L. Cobos Cano Conexionismo y cognición Ediciones Pirámide (Grupo Anaya S. A.) Madrid (2005)

- Plunkett, K., Sinha C., Moller M. Schafer G. Symbol grounding on the emergence of symbols? Vocabulary grow in children an connectionist net, Connection science, 4 ,(1999)

-E. T. Rolls, A. Treves Neural networks and brain function Oxford University press (2004)

--Wei Xu, Alex Rudnicky Can Artificial Neural Networks Learn Language Models? School of Compueter Science, Carnegie Mellon University Pittsburgh, Pennsylvania, 15213, USA (1998)



[1] Si bien los modelos del desarrollo basados en el uso de redes neuronales artificiales en su corriente mas dura apelan a modelos de procesamiento sub-simbólico basado en las restricciones impuestas al sistema, en contraposición a los modelos formales abstractos tradicionales basados en la estructura y manipulación simbólica, se han desarrollado posturas intermedias como el modelo de anexo competitivo o el conexionismo hibrido las que tratan de hallar un punto intermedio entre las teorías simbólicas basadas en sistemas formales abstractos y los modelos conexionistas de procesamiento basados en estructuras neurales, como enfoque a la hora de arrojar modelos sobre el procesamiento cognitivo (Para una discusión detallada véase E. Lepore, Z. Pylyshyn, S. Stevenson 2003 pg 403)

[2] Tabla elaborada a partir de : P. L. Cobos Cano Conexionismo y cognición Ediciones Pirámide (Grupo Anaya S. A.) Madrid (2005) pg 77

[3] La traducción es mía

[4] Para una revisión detallada ver (J. F Martínez desarrollo neuro-cognitivo del lenguaje, aproximación al desarrollo de la denominación, Universidad del valle, Grupo de investigación mentis, Cali 2008)

[5] Hay que aclarar que este es solo un ejemplo atizado con fines explicativos, dado que existen diferentes tipos de arquitecturas de red las cuales varían por mucho su funcionamiento y los problemas a los cuales se pueden adaptar, asimismo las diferentes arquitecturas pueden programarse con diferentes algoritmos de aprendizaje

[6] No entrare aquí por cuestiones de espacio en los detalles teóricos específicos de este trabajo acaso presentare las ideas generales de cómo se esta llevando acabo con el fin de alcanzar un panorama explicativo del tipo de trabajo llevado acabo hoy en día en mi ámbito de investigación.

[8] Elaborado a partir de: Wei Xu, Alex Rudnicky Can Artificial Neural Networks Learn Language Models? School of Compueter Science, Carnegie Mellon University Pittsburgh, Pennsylvania, 15213, USA (1998)