Apuntes de Psicologia: Psicología General I tema 9 1pp

LOS INICIOS DEL CONDICIONAMIENTO INSTRUMENTAL U OPERANTE
A finales del siglo XIX (19) un psicólogo americano interesado por la conducta en sí, Edgard Thorndike empezó sus trabajos sobre lo que él denominó “aprendizaje por ensayo y error”. Su línea, influido por las teorías evolucionistas de la tradición funcionalista americana, se centró en saber cómo consigue la mente de un organismo adaptarlo a las exigencias de su ambiente.
Su trabajo estuvo influenciado por el estudio de la psicología animal angloamericana que estudiaba e investigaba las capacidades mentales de las distintas especies. Partió de los trabajos de Romanes, amigo de Darwin, y de sus propios trabajos sobre la inteligencia animal en los que observaba ciertos comportamientos en animales de compañía en distintas situaciones, e intentaba reconstruir los procesos mentales intervinientes, para hacer una evaluación de su capacidad intelectual.
Thorndike decidió estudiar la conducta de los animales en situación de laboratorio para así crear un ambiente controlado al que el animal tuviera que adaptarse. Para la realización de su tesis doctoral diseñó la caja-problema, una especie de jaula de madera con una puerta que el animal podía abrir desde el interior. Diseñó distintos tipos de cajas-problema pero en todas era preciso que el animal maniobrara una cuerda en el interior de la jaula que, a su vez, pasaba por una polea que abría la puerta para poder acceder a un plato de comida situado en el exterior y a la vista del animal.
Esta situación experimental creada por él, es lo que se conoce como la técnica de ensayos discretos, en la que el sujeto sólo puede emitir una respuesta correcta cada vez que se le introduce en la situación. Thorndike inicialmente interpretó su trabajo de una forma asociacionista.
Thorndike consideró el aprendizaje de una forma muy simple puesto que lo que se asociaban no eran ideas, sino simplemente situaciones y respuestas. El aprendizaje se explicaba por la conexión entre estímulos presentes en el ambiente y las respuestas del sujeto, y, posteriormente, el reforzamiento lo que hacía era fortalecer esa asociación entre los estímulos de la caja y dicho movimiento, una vez que el animal había realizado la acción de tirar de la cuerda.
Este planteamiento le llevó a formular la ley del efecto: si una respuesta en presencia de una determinada situación es seguida por un acontecimiento satisfactorio, la asociación entre la respuesta y la situación se fortalece. Si la respuesta es seguida por un acontecimiento insatisfactorio, la asociación se debilita.
Los primeros conductistas (Watson y Guthrie) critican los conceptos mentalistas de esos estados satisfactorios e insatisfactorios empleados por Thorndike y rechazan la ley del efecto, puesto que la conducta podía ser explicada por simple contigüidad.
Treinta años después, Skinner critica el aspecto teórico de la ley del efecto y la reformula como la ley del refuerzo. Skinner demuestra que las consecuencias de nuestra conducta tienen un importante efecto sobre ella y, de esta forma, el sujeto opera en el ambiente.
Skinner necesitaba un ambiente estructurado para estudiar la conducta operante. Para ello, creó una situación denominada de operante libre en la cuál el animal, una vez puesto en la situación experimental, podía emitir tantas respuestas como deseara, lo que permitía estudiar la conducta de forma continua, siendo, en este caso, el sujeto el que determinaba la frecuencia de aparición de la respuesta y no el experimentador, como ocurría con la técnica de ensayos discretos. Diseñó un dispositivo experimental “caja de Skinner” consistente en una caja oscura resistente al sonido, con una palanca de bronce situada en una pared que cuando se apretaba dispensaba una bolita de comida en un pequeño comedero situado debajo de la palanca. La palanca estaba conectada a un sistema de registro que producía un trazo gráfico del número de presiones que se realizaban. Así, cada vez que se presionaba la palanca, se producía una marca vertical en el registro acumulativo. La consecuencia del reforzamiento inmediato era el aumento de la tasa de emisión de la conducta operante lo que, a su vez, era indicativo del incremento de la probabilidad de la respuesta y que constituía una medida de la fuerza de esa respuesta operante.
Un registro acumulativo sirve para el almacenamiento continuo de la conducta y consiste en un tambor rotatorio que facilita papel a una velocidad constante. La distancia horizontal en el registro acumulativo es una medida del tiempo transcurrido en la sesión y la pendiente del trazo representa la tasa de respuestas.
El término de condicionamiento instrumental u operante hace referencia a la situación experimental que se crea para reforzar la conducta. En las situaciones de ensayos discretos se habla de condicionamiento instrumental, ya que la emisión de la respuesta es un instrumento para conseguir el reforzador y sólo se puede conseguir uno en cada sesión. Con la técnica de operante libre, el sujeto opera en el ambiente para conseguir tantos reforzadores como respuestas emita, por lo que se le llama condicionamiento operante. Ambos conceptos hacen referencia a diferentes técnicas.

UN EXPERIMENTO DE CONDICIONAMIENTO OPERANTE
Un corredor recto o runway es un dispositivo experimental diseñado para trabajar con ratas y consiste en un pasillo de unos dos metros de largo y veinte centímetros de ancho, con las paredes y el suelo de color negro. El corredor tiene tres secciones consecutivas: salida, carrera y meta. En cada una de ellas existe un sensor conectado a un cronometro para controlar el tiempo que tarda en recorrer cada una de las zonas. En la sección de meta hay un comedero con un sensor para dispensar automáticamente una bolita de comida o pellet cuando el animal coloque ahí el hocico. Las tres partes se encuentran separadas entre sí por unas trampillas que se utilizan si se quiere que el animal permanezca en uno de los habitáculos.
Conforme se ejecute la respuesta de aproximación que se considere correcta en cada momento, se dispensará una bolita de comida que, por su asociación con el sonido del comedero, hará que nuestra rata tienda a repetir esa conducta. Esta técnica se llama técnica de aproximaciones sucesivas o modelamiento y se pretende con ella reforzar las conductas previas de aproximación a la meta que había emitido anteriormente el sujeto experimental, para facilitar así la ejecución de la conducta final.

PARADIGMA DEL CONDICIONAMIENTO OPERANTE
En todas las situaciones de condicionamiento operante la conducta del sujeto produce algún tipo de consecuencia en el ambiente.
El término condicionamiento se refiere al proceso en el que la frecuencia de una respuesta viene determinada por las consecuencias que de ella se derivan. De esta forma la probabilidad de la respuesta dependerá de sus efectos, es decir, los acontecimientos ambientales que siguieron a dicha respuesta. Así se establece una relación de contingencia entre la respuesta y sus consecuencias.

Modelo: E-R → Reforzador

ELEMENTOS DEL CONDICIONAMIENTO OPERANTE
La respuesta operante
Es la que se desea que el sujeto aprenda.
La respuesta operante puede estar ya en el repertorio de conductas de un individuo y lo que se pretende es que se realice con mayor frecuencia o ante una situación determinada. En este caso el objetivo del condicionamiento es incrementar su probabilidad.
Existen dos técnicas para facilitar la tarea de adquisición de una respuesta:
 El modelado: Consiste en reforzar selectivamente las respuestas próximas a la conducta deseada. A través del refuerzo de las conductas nuevas y el no refuerzo de las ya existentes, lo que se conoce como reforzamiento diferencial, se consigue que se realice la conducta deseada.
 El fraccionamiento de la conducta meta: La conducta solicitada por ser difícil de conseguir, pasa a considerarse el objetivo final y se descompone en una serie de conductas que son más fáciles de lograr por separado. La realización de todas y cada una de esas respuestas sucesivas lleva a la ejecución de la conducta meta.
Thorndike fue el primero en observar las diferencias en la condicionabilidad de diversas respuestas, y propuso el término pertenencia para explicar los fallos en el condicionamiento de determinadas respuestas. Ciertas respuestas están más próximas al repertorio de conductas del sujeto, según la propia historia evolutiva de la especie (filogénesis) o del propio individuo (ontogénesis).
Seligman establece el término preparación para justificar esas diferencias en el aprendizaje de respuestas, que hace depender del grado de preparación evolutiva del animal para aprender la respuesta y las asociaciones requeridas.

El estímulo reforzador
El estímulo reforzador es aquel que se dispensa al sujeto experimental ante la realización de la conducta deseada. Depende de la respuesta y se define por sus efectos. Cualquier estímulo se puede definir como reforzador si aumenta la probabilidad de la respuesta.
Es necesario controlar una serie de variables relacionadas con el reforzador para comprobar que actúe como tal. Una de las variables más importante está en relación con el nivel motivacional del sujeto.
Genéricamente se puede afirmar que la edad, el sexo y la historia previa del sujeto determinarán la eficacia del reforzador.
Existen varias teorías sobre el papel que desempeña el estímulo en el condicionamiento. Las más importantes son:
 La teoría de la probabilidad condicional:
D. Premack mantiene con su teoría de la probabilidad condicional o principio de Premack; que puede actuar como reforzador cualquier actividad cuya probabilidad de ocurrencia sea mayor que la de la conducta exigida y no sólo un estímulo en sí. Las actividades con alta probabilidad refuerzan las actividades de baja probabilidad.
 La hipótesis de la privación de la respuesta:
Timberlake y Allison ampliaron la teoría de Premack al comprobar que también podían actuar como reforzadores de conductas más frecuentes aquellas conductas del repertorio del sujeto que ocurrían con menor frecuencia siempre y cuando a los sujetos se les limitara el acceso a esas conductas. Propusieron la hipótesis de la privación de la respuesta en la que se defiende que los programas de refuerzos son principios que gobiernan la actuación más que el aprendizaje en si, y afectan al reparto que un sujeto hace de sus conductas ya adquiridas. Con ello se quería indicar que la conducta no es algo que se pueda manipular independientemente de la voluntad del sujeto, sino, por el contrario, los seres actúan de forma activa y persiguen su adaptación dentro de los límites que establezca el ambiente.
 La teoría de la distribución conductual:
En posteriores investigaciones estos mismos autores han comprobado que, en condiciones normales, los sujetos emiten el menor número de respuestas contingentes para sacar el máximo provecho a los reforzadores. De esta forma, cualquier actividad se puede convertir en reforzadora de otra, lo que han pasado a denominar teoría de la distribución conductual. Según dicha teoría los organismos hacen una distribución adaptativa de sus actividades y lo que se pretende, durante el condicionamiento, es romper esa distribución para condicionar la realización de una tarea a la ejecución a la que se desea implantar. El sujeto durante el condicionamiento, dentro de la situación que se le impone, pretende llegar a su propia distribución adaptativa.
Este aspecto no era importante para el conductismo, dado que sólo estaba interesado en el análisis de los estímulos y las respuestas.

La situación
La situación en la que se produce el condicionamiento se convierte en un elemento facilitador e instigador al ser una clave contextual de la respuesta operante en sí. Gran parte de la situación se convierte en un estímulo que facilita la discriminación de la situación.
Los estímulos antecedentes indican las consecuencias que tiene una determinada conducta y se denominan estímulos discriminativos, y su efecto es el de alterar la probabilidad de que ocurra la respuesta determinada. El control que ejercen sobre la respuesta dependerá de las consecuencias que siguen a la operante. El reforzador y el estímulo discriminativo están fuertemente vinculados, puesto que su presencia indica si el reforzador está disponible en el caso de emitirse la conducta. Existen dos tipos:
 Los estímulos discriminativos positivos (Ed +) son aquellos eventos que acompañan la respuesta cuando es reforzada.
 Los estímulos discriminativos negativos (Ed -) son aquellos que están presentes cuando la respuesta está siendo sometida a castigo o extinción.
La presencia de un estímulo discriminativo positivo hará más probable la aparición de respuestas que se reforzaron estando ellos presentes; un estímulo discriminativo negativo reducirá la probabilidad o la tasa de respuesta que fueron castigadas en su presencia.
Una situación experimental de reforzamiento es cuando las consecuencias de una conducta hacen que ésta se vuelva a dar ante la misma situación y, por tanto, se consolide. Se han diseñado dos tipos de situaciones experimentales en condicionamiento instrumental ante la respuesta del sujeto:
 De reforzamiento positivo: Se produce cuando la conducta provoca la presencia de un reforzador. Se ha establecido que si el sujeto realiza una determinada respuesta se le dará un reforzador para que esa respuesta se consolide.
 De reforzamiento negativo: Se emplea cuando la emisión de la respuesta tiene como consecuencia que se elimine el reforzador. En este caso el experimento se ha diseñado para que cuando el sujeto emita la respuesta que debe aprender, desaparezca el reforzador.

TIPOS DE REFORZADORES
Se han distinguido fundamentalmente dos tipos de reforzadores:
 Los reforzadores primarios que tienen características innatas de reforzador (comida, caricias, agua). Su valor de incentivo es innato porque reducen algún impulso o necesidad.
 Los reforzadores secundarios, que no tienen características innatas de reforzador, pero que, por condicionamiento clásico, adquieren las características de reforzador por presentarse asociadas a un reforzador primario. Cualquier estímulo neutro puede convertirse en reforzador secundario por presentarse asociado a un primario.
Las variables que determinan la fuerza de un reforzador secundario son:
 La magnitud del reforzador primario al que se ha asociado.
 El número de emparejamientos que se ha producido entre ambos reforzadores. Cuanto mayor número de emparejamientos se hayan establecido, mayor será la fuerza del condicionamiento secundario.
 El tiempo transcurrido entre la presentación de ambos reforzadores. A mayor distanciamiento temporal entre ellos, el reforzador secundario se irá debilitando y perdiendo fuerza.

PROCEDIMIENTOS DEL CONDICIONAMIENTO OPERANTE
Una situación experimental con condicionamiento operante puede clasificarse de acuerdo a dos criterios:
1. Según sea la naturaleza del estímulo reforzador que se dispensa al sujeto por su conducta: el estímulo puede ser de dos tipos:
 Estímulo apetitivo: es un acontecimiento agradable, placentero para el sujeto.
 Estímulo aversivo: es un acontecimiento desagradable e incomodo para el sujeto.
Inicialmente no se puede establecer la naturaleza del estímulo reforzante, sino que dependerá de su efecto sobre la conducta. Una vez establecido el nivel de una conducta, se puede comprobar si aumenta o disminuye tras la presentación de un estímulo determinado, lo que nos indicará si ese estímulo actúa realmente como reforzador.
2. Según la relación que se establezca entre la respuesta del sujeto y el reforzador: la respuesta emitida por el sujeto puede provocar que se dispense el estímulo, que se elimine o que no se presente. Esto tiene que ver con la contingencia o probabilidad de ocurrencia.
Se hablará de una relación de contingencia positiva cuando la respuesta emitida por el sujeto provoca la aparición del reforzador. Por el contrario, estaremos ante una relación de contingencia negativa cuando la respuesta del sujeto provoca la desaparición del reforzador. Una acontigencia se producirá cuando no existe ninguna relación causal entre la respuesta emitida y el reforzador.

El reforzador es:
apetitivo aversivo
La respuesta provoca que el reforzador:
aparezca Recompensa
(contingencia positiva) Castigo
(contingencia positiva)
desaparezca Omisión
(contingencia negativa) Evitación / escape
(contingencia negativa)

En una situación de reforzamiento se pretende incrementar la probabilidad de una respuesta, el castigo se opone a ello, ya que lo que se pretende es eliminar la respuesta. El castigo es lo contrario al refuerzo.
En la evitación la emisión de la respuesta operante hace que no aparezca el estímulo aversivo, mientras que con el escape la respuesta permite al sujeto escapar de una estimulación aversiva presente.

MEDIDAS DE LA RESPUESTA OPERANTE
Hay distintas formas de medir la respuesta operante, entre ellas se puede destacar dos:
• La tasa de respuesta: es el número de operantes que emite el sujeto en la unidad de tiempo que decida el experimentador, es decir, la frecuencia de emisión de la respuesta. El tiempo que se establezca dependerá de la respuesta con la que se trabaje.
Para considerar que un sujeto ha adquirido una respuesta cuando ya ha alcanzado una tasa previamente establecida, es necesario recordar que la tasa final dependerá del nivel basal de esa conducta previamente a la intervención, es lo que se conoce como nivel operante.
• La latencia: la latencia de la respuesta es el tiempo que transcurre desde que se presenta el estímulo hasta que el sujeto empieza a emitir la respuesta. La reducción de la latencia de la respuesta es un buen indicativo de que la conducta se va adquiriendo. Al igual que ocurre con la tasa, la latencia de la respuesta puede tener distintos márgenes de tiempo en función del grado de complejidad de la tarea.

VARIABLES QUE AFECTAN AL CONDICIONAMIENTO
Las variables que determinan el condicionamiento operante tienen que ver, principalmente, con aquellas que afectan al reforzador.

Cantidad del reforzador
La conducta operante aumenta conforme se incrementa la magnitud o cantidad del estímulo reforzante.
Los cambios en la magnitud o en la calidad del reforzador durante la adquisición de una conducta, provocan cambios en la respuesta de tal forma que producen efectos exagerados en ella. Esto es lo que se conoce como efecto de contraste.
El contraste conductual positivo, también llamado efecto de elación, se denomina al hecho por el que si a un sujeto se le ha entrenado con una magnitud de recompensa determinada y luego ésta se incrementa, la tasa de respuesta aumenta y su latencia disminuye.
El efecto de contraste conductual negativo es conocido igualmente por efecto de depresión, y es el efecto contrario. Si a lo largo del experimento se disminuye la magnitud de la recompensa, los sujetos responden menos o peor.
En cuanto a la calidad del reforzador, se puede admitir que la conducta operante aumenta conforme se incrementa la calidad del reforzador.

Demora
Puede decirse que el aprendizaje es mejor cuando el reforzador se aplica inmediatamente a la realización de la respuesta y, que demoras en el acceso al reforzador retardan la ejecución, debido a que no se establece claramente la asociación entre ambos elementos: operante- reforzador.
En un principio se creyó que la demora en la aplicación del reforzador afectaba tanto a la adquisición de la conducta que, a partir de determinado periodo de tiempo, el aprendizaje se hacía imposible. Posteriormente se ha comprobado que no es exactamente así, dado que en la propia situación experimental aparecen estímulos de marcaje o estímulos marca que actúan como reforzadores secundarios para que se emita la respuesta, aunque no esté el reforzador disponible. Estos reforzadores secundarios sí son contingentes con la respuesta operante, con lo que minimizan los efectos de la demora del reforzador.
Se ha comprobado que la demora del reforzador provoca que se reduzca su valor de incentivo lo que ha venido a llamarse descuento de la demora.
Mazur ha demostrado que el valor incentivo de un reforzador que se ofrece demorado aumenta en una proporción creciente por unidad de tiempo conforme disminuye la demora. El margen de tiempo en el que se cambia el criterio de decisión y se pasa a preferir el reforzador más inmediato, se denomina margen de vulnerabilidad, porque durante ese tiempo se tiene reacciones más impulsivas y menos adaptativas.
En general se puede afirmar que el margen de vulnerabilidad depende de la magnitud y la demora del reforzador, por una parte, y del autocontrol y la impulsividad del sujeto, por la otra.

Detección de casualidad
Cuando se produce un emparejamiento accidental de una conducta con un reforzador, aumenta la probabilidad de que se repita esa respuesta. En este caso no se da contingencia puesto que la respuesta en estas circunstancias no es la causante del reforzador, pero el sujeto los liga y tiende a repetirlo, es lo que se ha denominado conducta supersticiosa.

PROGRAMAS DE REFUERZO
Un programa de refuerzo continuo es aquel en el que la conducta emitida es reforzada en todos los ensayos.
Cuando la ejecución de la conducta no siempre es contingente con el reforzador nos encontramos ante lo que se denomina: programas de refuerzo parcial. Estos se subdividen en dos:
• Programas de refuerzo simple: son aquellos en los que el sujeto sólo debe emitir una respuesta determinada. En estos programas se puede manipular el número de respuestas o se puede programar a un periodo de tiempo. Cuando se ha establecido que el sujeto ejecute la respuesta un número determinado de veces antes de recibir el reforzador, nos encontramos ante un programa de refuerzo de razón. En los programas de razón el sujeto emite la respuesta, y la tiene que repetir hasta que la realice las veces que haya determinado el experimentador para que se reciba el reforzador.
Pero si lo que establecemos es una situación experimental en la que sólo daremos el reforzador cuando haya transcurrido un tiempo determinado, nos encontramos ante un programa de refuerzo de intervalo. En esta situación, el sujeto, aunque ejecute repetidamente la respuesta, sólo tendrá disponible el reforzador ante aquella respuesta pasado el tiempo que se haya establecido previamente y, a partir de ahí, empezará a contar nuevamente otro intervalo de tiempo.
Existen dos clases de programas de razón y de intervalo:
 Fijo: el número de respuestas o el intervalo de tiempo siempre es el mismo.
 Variable: cambia la cantidad de respuestas o el intervalo exigido para obtener el reforzador.
• Programas de refuerzo compuesto: si el objetivo es que el sujeto emita dos o más respuestas diferentes, o se le someta a varios programas de refuerzo parcial simples diferentes.
Programa de razón fija (RF)
En estos programas se dispensa el reforzador emitidas un número (n) predeterminado de respuestas.
Estos programas producen una tasa de respuesta consistente con una característica, la respuesta se interrumpe temporalmente nada más recibir el reforzador, lo que se denomina pausa post-reforzamiento, pasada esta pausa la respuesta vuelve a emitirse con vigor.
Programa de razón variable (RV)
En estos programas se administra el refuerzo después de un número promedio de respuestas, aquí el número de respuestas que debe emitir el sujeto para obtener el reforzador varía de un ensayo a otro, pero deben alcanzar un promedio.
En estos programas se produce una tasa de respuesta constante y cuanto más elevado es el número medio de respuestas que debe dar el sujeto para recibir el reforzador, mayor es la tasa de respuestas. En este caso la pausa post-reforzamiento se produce de forma ocasional, por lo que el sujeto emite más respuestas bajo este programa.

Programa de intervalo fijo (IF)
En este programa el reforzador está disponible cuando el sujeto emite la respuesta pasado un periodo de tiempo determinado. Mientras transcurre el intervalo de tiempo el sujeto puede dar la respuesta operante, pero sólo recibirá el reforzador cuando haya pasado el tiempo establecido y emita la respuesta correctamente; a partir de que se emita esa respuesta se empezará a contabilizar el tiempo para administrar el reforzador en el próximo ensayo. A medida que se va adquiriendo una respuesta cuando se trabaja con este programa, el sujeto va aprendiendo la situación, lo que lleva a predecir la aparición del reforzador y provoca que al aproximarse la finalización del plano de tiempo, el sujeto incremente significativamente su tasa de respuestas, lo que se conoce como efecto festoneado, que aumenta con la experiencia, con lo cual conforme se incrementa el intervalo para administrar el reforzador, la pausa de emisión de la respuesta por parte del sujeto también aumenta.

Programa de intervalo variable (IV)
En estos programas se manipula un intervalo de tiempo medio, por lo que varía de un ensayo a otro. La tasa de respuesta en estos programas es estable por lo que no se produce tan claramente el efecto de festoneado. Además la cantidad de respuestas está influida por la duración del intervalo variable: hay menor número de respuestas conforme el intervalo medio sea más largo.

ADQUISICIÓN DE LA RESPUESTA OPERANTE
Procedimientos para instaurar conductas
Se entiende por procedimientos para instaurar conductas a aquellos con los que se pretende aumentar el repertorio de conductas del sujeto y, en este sentido, su conducta será contingente con un reforzador que incremente la probabilidad de ocurrencia de la respuesta.
Condicionamiento de recompensa
En esta situación la respuesta es seguida por una recompensa o premio, lo que llevará al sujeto en los sucesivos ensayos a repetir nuevamente la respuesta, cada vez más rápido o a elevar su tasa, para obtener mayor número de recompensas.
A través del condicionamiento de recompensa no siempre se refuerzan conductas deseables.
Condicionamiento de escape / evitación (refuerzo negativo)
La respuesta del sujeto le permite escapar /evitar el estímulo aversivo. Introducido nuevamente en la situación y a medida que se va adquiriendo la conducta, el sujeto emitirá más rápidamente la respuesta para limitar los efectos de dicho estímulo aversivo. El objetivo de este procedimiento es incrementar una respuesta con el empleo de un estímulo aversivo a través de una contingencia negativa.
La principal diferencia entre una situación de escape y otra de evitación es:
• En una situación de condicionamiento de escape el estímulo aversivo está presente y el sujeto al emitir la respuesta, se le permite terminar con él y dejar de sufrir sus consecuencias.
• En la situación experimental de evitación se hace uso de un estímulo discriminativo que avise de la próxima aparición del estímulo aversivo. Si se emite la respuesta ante el estímulo discriminativo, se huye de la situación y no se llega a producir el reforzador aversivo.
Las principales variables que afectan al condicionamiento de evitación son:
• La intensidad de la estimulación aversiva, de tal forma que a mayor intensidad, mayor adquisición de la respuesta.
• La cantidad de reforzamiento negativo, de manera que si la respuesta del sujeto logra finalizar la estimulación aversiva totalmente, antes se logrará el condicionamiento.
Mowrer propuso la teoría de los dos factores o teoría bifactorial: la conducta de escape se adquiere por una fase de condicionamiento clásico y otra de condicionamiento operante. Inicialmente el sujeto recibe el reforzador aversivo y de esta forma el estímulo discriminativo se condiciona clásicamente a la respuesta de miedo. Así aunque el reforzador no llegue a aparecer posteriormente, el estímulo discriminativo hace las veces de reforzador aversivo por lo que, igualmente, se emitirá la respuesta deseada para escapar del miedo que produce. La respuesta se ve reforzada por la reducción del miedo.
Se ha comprobado que no se puede condicionar cualquier tipo de respuesta de escape, sino que, por el contrario, el organismo muestra reacciones defensivas específicas de la especie, que le llevan a emitirlas ante situaciones de peligro o de amenaza.
Investigaciones posteriores se inclinan a dar una interpretación cognitiva del condicionamiento de escape, incidiendo en las expectativas que crea el sujeto ante la situación. Defienden que la respuesta de evitación sigue dándose aunque el sujeto ya no muestre miedo, puesto que sabe cómo controlar la no aparición del estímulo aversivo. La evitación, por tanto, se produce por las expectativas de actuar que elabora el sujeto ante la situación.

Paradigma de evitación de Sidman
Sidman diseñó una situación experimental de evitación dónde no se presentaba un estímulo discriminativo, sino que el sujeto podía evitar el estímulo, siempre y cuando emitiese la operante en unas condiciones de tiempo determinadas, de tal forma que la respuesta retrasaba dicho estímulo. El control del tiempo permitía evitar el estímulo y, así, el sujeto aprendía a posponer indefinidamente el reforzador aversivo.

Procedimientos para disminuir conductas
Castigo
Por castigo se entiende aquel procedimiento de condicionamiento operante en el que la emisión de la conducta lleva contingente la aplicación de un estímulo aversivo. Si el sujeto emite la respuesta, recibe el estímulo. El objetivo de este entrenamiento es no emitir una respuesta o la desaparición de la conducta ya existente a través de la disminución de la tasa de respuesta. Este procedimiento se ha llamado también castigo positivo porque es una situación experimental de contingencia positiva. El propósito de este tipo de entrenamiento es suprimir una conducta no deseada; si el castigo es eficaz, disminuirá tanto la probabilidad como la intensidad de la conducta en la que se trabaje.
Skinner demostró que el castigo sólo suprimía la conducta temporalmente pero no la eliminaba.
La mayoría de las investigaciones sobre el castigo se han centrado en las variables que llevan a determinar los resultados del castigo:
• Intensidad del estímulo aversivo: la eficacia del castigo depende de su intensidad, inicialmente se debe aplicar en su máxima intensidad para que sea eficaz.
• Duración del estímulo aversivo: Cuanto más prolongado mayor efecto supresor tiene.
• Consistencia del castigo: Para que sea eficaz siempre se debe administrar el castigo ante la conducta inadecuada, es decir, siempre se debe producir la contingencia. Si no se aplica de forma continua el estímulo aversivo, la respuesta tarda más en suprimirse.
• Efecto de la demora: Para que sea eficaz un castigo debe aplicarse de inmediato. Demoras entre la emisión de la respuesta y la aplicación del estímulo aversivo, producen menor supresión de la respuesta.
• Disponibilidad de una respuesta alternativa: La disponibilidad de una fuente alternativa de reforzamiento aumenta enormemente el efecto supresor del castigo. Es decir, si a la vez que castigamos una respuesta premiamos otra diferente, la probabilidad de ocurrencia de la respuesta castigada, disminuye drásticamente.
• Empleo de un estímulo discriminativo: La situación experimental en la que se emplea u n estímulo de este tipo con anterioridad a la aparición del reforzador, se denomina castigo discriminativo. El sujeto aprende a responder sólo en presencia del estímulo discriminativo, de tal forma que sólo se deja de emitir la respuesta para evitar el estímulo aversivo si se presenta el estímulo discriminativo.
Si se manipulan bien estas variables se podrán controlar los efectos del castigo sobre la supresión de la conducta y de esta manera, el castigo será eficaz. Su mal empleo o su utilización constante provoca ansiedad en el que lo padece. Se ha comprobado que cuando se vive en un ambiente dónde se emplea continuamente el castigo para eliminar conductas, uno se hace finalmente más agresivo.
Cuando se expone a un sujeto a estímulos aversivos de los que no se puede escapar se produce un estado que se denomina indefensión aprendida e induce, fundamentalmente, a que no se sepa responder ante otras situaciones. Genéricamente la indefensión aprendida provoca un retraso en futuros aprendizajes si se reciben previamente contingencias incontrolables o acontingencias (tanto sean estas apetitivas o aversivas). Cuando un sujeto muestra indefensión aprendida se considera incapaz de evitar otras situaciones desagradables y, en general, dar solución a cualquier situación con la que se tenga que enfrentar.

Omisión
En el entrenamiento de omisión el reforzador (un estímulo apetitivo) se pierde al emitir una respuesta determinada. La respuesta provoca que no se obtenga el reforzador o que desaparezca. También se denomina castigo negativo porque se castiga al sujeto retirándole el estímulo apetitivo. Su objetivo es el mismo que el del castigo: suprimir una conducta y en algunas ocasiones se considera una modalidad de él.
Existen varios tipos de omisión:
• El tiempo fuera: se refiere a la pérdida de la oportunidad de obtener el reforzador apetitivo. Durante el periodo de tiempo fuera el reforzador no está disponible.
• Para que el entrenamiento de omisión sea más eficaz no debe quedarse en la retirada del reforzador ante la conducta que se quiere que desaparezca, sino que a la vez se reforzará apetitivamente otra conducta que sea más adaptativa y, por ello, más deseable. Este fenómeno se denomina contracondicionamiento dado que se potencia, a través del reforzamiento, una conducta antagónica a la inicial a la que se conoce como conducta alternativa competidora.
• Con el reforzamiento diferencial de otras conductas (RDO) se establece el reforzar cualquier otra conducta que no sea aquella que se pretende eliminar.

EXTINCIÓN DE LA RESPUESTA OPERANTE
Por extinción se entiende la situación en la que la ejecución de la respuesta no va seguida del reforzador. En los sucesivos ensayos de extinción tanto la intensidad como la tasa de la respuesta operante decrece, su probabilidad disminuye, hasta que llega a desaparecer. En la vida diaria la extinción puede ser tan adaptativa como la adquisición.
Al iniciarse una fase de extinción en la que ya no hay contingencia respuesta-reforzador aparecen una serie de fenómenos:
• El sujeto al principio incrementa tanto su tasa de respuestas como la magnitud de éstas. Este efecto se denomina de distintas maneras: ráfaga, explosión de respuestas…, etc.
• A su vez aparece una reacción emocional intensa de frustración por la falta del reforzador que en muchos casos produce agresividad.
• Durante la extinción la respuesta deja de emitirse, pero esto no quiere decir que la respuesta haya desaparecido completamente, prueba de ello es la recuperación espontánea.
La recuperación espontánea es un fenómeno consistente en que el sujeto vuelve a emitir la respuesta al inicio de un periodo de extinción en el que ya no se recibía el reforzador. Conforme se repiten los ensayos de extinción, la recuperación espontánea se va produciendo más débilmente hasta que deja de producirse.
• Aunque se dé por finalizada una fase de extinción, porque se haya alcanzado los criterios de respuesta previamente establecidos, la respuesta no está totalmente extinguida. Si nuevamente se iniciase un procedimiento de adquisición de esa misma respuesta, comprobaríamos que esta respuesta se adquiere con mayor facilidad en un tiempo menor que el que se empleo para su adquisición; esto es lo que se denomina recondicionamiento.
Variables que afectan a la extinción
La forma de medir la extinción es comprobando las veces que se emite la respuesta cuando no se presenta el reforzador. Se entiende por resistencia a la extinción al número de ensayos en los que se sigue emitiendo la respuesta operante aunque el reforzador no esté presente. Las variables que afectan a la extinción se miden por los efectos que producen en dicha resistencia. Entre ellas, podemos destacar:
• El programa de refuerzo empleado en la fase de adquisición es determinante de la resistencia a la extinción que manifiesta la conducta.
Con programas de refuerzo parcial la extinción se produce más lentamente que con reforzamiento continuo. El reforzamiento intermitente crea mayor resistencia a la extinción. Esto se denomina efecto de refuerzo parcial.
• Si el aprendizaje se ha efectuado en distintos ambientes la extinción es difícil.
• El efecto de la magnitud de la recompensa depende de la cantidad de entrenamiento, de tal forma que a igual magnitud un entrenamiento largo provoca mayor resistencia a la extinción, mientras que un entrenamiento breve produce menor resistencia.
• La demora del reforzador durante la adquisición provoca mayor resistencia a la extinción cuando se han empleado demoras diferentes durante la fase de adquisición. Si siempre se ha utilizado la misma demora, entonces no afecta a la extinción.
Teorías sobre la extinción
Las teorías sobre la extinción vienen a considerarla como un proceso activo en el que el sujeto debe aprender a no responder porque el reforzador no es contingente con su respuesta.
• Teoría de la inhibición condicionada: Hull postula que la realización de la respuesta provoca una inhibición reactiva similar a la fatiga que reduce la probabilidad de una nueva emisión.
• Teoría del decremento por generalización: defiende que la extinción se produce porque ha desaparecido un estímulo que estaba presente en la adquisición: el reforzador.
• Teoría de la discriminación: mantiene que la extinción tiene lugar por la discriminación de una situación y otra.
La extinción con el empleo de estímulos aversivos
Para emplear un procedimiento de extinción en el condicionamiento de evitación se emplean diferentes técnicas:
• Se presenta el estímulo aversivo aunque el sujeto haya emitido la conducta de escape, es decir, no se interrumpe el reforzador tras la ejecución de la respuesta. En este caso se emplea un castigo para eliminar la respuesta de escape y el sujeto experimental seguirá respondiendo un tiempo, porque el estímulo aversivo propicia la respuesta.
La fuerza de la respuesta de escape durante la adquisición afecta a su extinción y depende del nivel de entrenamiento, de tal forma que a mayor número de ensayos se provocará una extinción más lenta.
• No se presenta el estímulo aversivo y además se impide al sujeto dar la respuesta bien sea porque se inhabilite el aparato que tiene que usar para dar la respuesta, o porque se sujete al sujeto para que no pueda ejecutarla. Este procedimiento se denomina inundación o inhabilitación de la respuesta. La variable que más afecta a este procedimiento de extinción es la exposición forzada al estímulo discriminativo de tal forma que a mayor exposición, mayor extinción. Con este procedimiento es con el que se consigue que se alcance antes la extinción.

CONTROL DE LOS ESTÍMULOS SOBRE LA CONDUCTA
En un condicionamiento operante intervienen tres elementos que vienen a determinarlo: la respuesta, el estímulo y la situación. De esta forma los estímulos ambientales que están presentes cuando se desencadena la respuesta ejercen un fuerte control sobre la conducta operante.
La situación en la que se produce una conducta juega un importante papel para la adaptación del individuo a su ambiente, por lo que una conducta adecuada en un momento determinado puede no serlo en otro.
Discriminación
Las investigaciones se centran en estudiar qué estímulos de toda la situación ambiental son los que controlan la conducta. Se ha llegado a la conclusión de que si un sujeto responde de una forma ante un estímulo y de otra manera ante otro estímulo se puede afirmar que su respuesta está bajo el control de esos estímulos siempre y cuando se responda de forma diferencial y se presente esa misma situación.
Generalización
La generalización se opone a la discriminación y se entiende que se produce cuando el sujeto no responde de forma diferencial a estímulos distintos o, lo que es lo mismo, el sujeto responde del mismo modo ante estímulos diferentes.
• La generalización del estímulo: para estudiar el nivel de generalización se utiliza un estímulo en una situación experimental que se varía en alguno de sus aspectos y se comprueba si el sujeto responde igualmente ante él.
• El gradiente de generalización: es la representación gráfica de la fuerza de la respuesta producida por distintos estímulos, que varía en cuanto a su grado de semejanza con el estímulo asociado con el entrenamiento. El gradiente de generalización del estímulo nos indica el control de la conducta por el estímulo, ya que facilita información sobre lo sensible que es la respuesta a las variaciones del estímulo.
La adquisición del lenguaje se realiza a través de una combinación de procesos de generalización y discriminación.

TEORÍAS EXPLICATIVAS DEL CONDICIONAMIENTO OPERANTE
El reforzador como un estímulo
Thorndike pensaba que el aprendizaje se produce porque un estímulo agradable es contingente con la emisión de una respuesta por lo que la fortalece y se incrementa su probabilidad de emisión en el futuro.
Placentero es aquello que reduce un estado de pulsión: el sujeto da la respuesta porque ello conlleva el acceso al estímulo reforzante que lo es porque reduce el nivel de pulsión del organismo.
La teoría de la reducción del impulso: Hull mantiene que el aprendizaje se produce porque el sujeto da la respuesta para alcanzar el reforzador, y así equilibrar su nivel de pulsión que se había visto desequilibrado por la deprivación a la que había sido sometido el animal. El impulso se define como un estado del organismo que surge de una necesidad biológica.
Investigaciones posteriores comprueban que la reducción del impulso no es suficiente para explicar el condicionamiento y empiezan a centrarse en el estímulo en sí, y no en sus efectos sobre el organismo. Estas teorías estudian el carácter de incentivo del reforzador y se dedican a estudiar la influencia de diversas variables del reforzador sobre la respuesta (su demora, magnitud, etc.…).
Los estudios de Olds y Milner se centraron en los efectos fisiológicos de los reforzadores y las áreas cerebrales que se activan. Con sus trabajos sobre autoestimulación intracraneala demostraron que existe un sustrato fisiológico común a todos los reforzadores (un ejemplo son los trabajos para trazar mapas de las diversas áreas del cerebro).
El reforzador como una respuesta
Dentro de las teorías del reforzador como respuesta se encuentran aquellas que consideran la respuesta que se emite ante el reforzador.
La teoría de la respuesta consumatoria postula que el reforzamiento no está en el estímulo sino en el hecho de realizar la respuesta consumatoria propia de la especie ante el reforzador.
La teoría de la probabilidad condicional de Premack postula que puede actuar como reforzador cualquier actividad cuya probabilidad de ocurrencia sea mayor que la de la conducta exigida y no sólo un estímulo en sí.
El reforzador como regulador conductual
Las teorías que consideran el reforzador como un regulador conductual se centran en las condiciones que regulan la conducta dejando de lado los aspectos internos. El reforzamiento es una forma de seleccionar respuestas concretas del repertorio del sujeto en un momento y lugar determinado. Skinner decía que sólo hay que estudiar los estímulos y las contingencias que producen.
La hipótesis de la privación de respuestas: Timberlake y Allison. Esta hipótesis defiende que los programas de refuerzo son principios que gobiernan la actuación más que el aprendizaje en sí y afectan al reparto que un sujeto hace de sus conductas ya adquiridas. Esto quiere decir que la conducta no es algo que se pueda manipular independientemente de la voluntad del sujeto, sino que, al revés, los seres actúan de forma activa y persiguen su adaptación dentro de los límites que establece el ambiente.
Los principios que explican la economía se han aplicado al análisis del condicionamiento operante para identificar los factores que influyen en la forma en que un programa de refuerzo reasigna la conducta. Este enfoque denominado enfoque económico de la regulación conductual parte de que los cambios en la conducta se producen para maximizar algo; lo importante es identificar qué es lo que los organismos valoran y se afanan por conservar. La conducta operante no se debe estudiar aisladamente sino, por el contrario, el organismo debe entenderse como un sistema por lo que los cambios en una parte del sistema afectan a las otras partes.

Apuntes de Psicologia

sábado, 20 de junio de 2009

Psicología General I tema 9 1pp

0 comentarios:

Libros

Biografías

Psicología General I

Visitas

Labels

Archivo del blog

Seguidores