You are on page 1of 15

1

Tema 5. Aprendizaje: Condicionamiento Operante.

CONTENIDOS:

1. Definición de conducta operante.


2. Thorndike y la Ley del Efecto.
3. El Conductismo de Skinner.
4. Conceptos básicos.
5. Procedimientos del Condicionamiento Operante.
6. Análisis de la conducta operante. Reforzamiento Positivo.
7. Castigo.

1. Definición de Conducta Operante.

El Condicionamiento Operante (CO) o instrumental es un


proceso simple de aprendizaje, pero que tiene grandes
repercusiones sobre la conducta de los individuos.

D - Las conductas operantes son acciones que los propios


organismos inician de una forma voluntaria.

Por ejemplo, andar, bailar,... La mayoría de los operantes están


controlados por las consecuencias producidas anteriormente.

El CO ocurre siempre que las consecuencias que siguen a una


conducta voluntaria aumentan o disminuyen la probabilidad de
que dicha acción se lleve a cabo en una situación similar.

Si a una conducta determinada siguen una y otra vez


consecuencias satisfactorias para el sujeto, esa acción se
ejecutará con mayor frecuencia en condiciones similares. Por el
contrario, aquellas otras conductas que tienen consecuencias
desagradables, se repetirán con menos frecuencia en
circunstancias semejantes.

2. Thorndike y la Ley del Efecto.

Edward L. Thorndike (1874-1949), psicólogo de la Universidad


de Columbia, fue el principal innovador en el estudio del CO.
Experimentó en laboratorio con gatos y como resultado de sus
2

investigaciones Thorndike (1911) formuló la "ley del efecto":


“Las consecuencias o efectos que siguen a una conducta
determinan la probabilidad de ocurrencia de la misma en el
futuro”.

En general la idea principal es que las conductas seguidas de


consecuencias satisfactorias tenderán a repetirse en situaciones
similares.

3. El Conductismo de Skinner.

B.F. Skinner (1904-1900) de la Universidad de Harvard, fue uno


de los investigadores que más ha contribuido al desarrollo de los
principios y leyes básicas del aprendizaje operante. Ideó una
caja automática con paredes de cristal y dispositivos
automáticos para ratas y palomas con suministrador de comida
y sistemas de registro de los animales, lo que hoy conocemos
como "caja de Skinner".

4. Conceptos Básicos.

• Reforzamiento: Es el hecho de que una conducta operante


tenga una consecuencia satisfactoria para el sujeto que la
emite. Debido a ello la conducta se fortalece en el sentido de
que aumenta su ocurrencia en el futuro.

• Castigo: Es el hecho de que una conducta operante tenga


consecuencias insatisfactorias para el sujeto. En este caso, la
conducta se debilita y disminuirá su ocurrencia futura.

Reforzadores.

D - Un reforzador es toda circunstancia capaz de aumentar la


probabilidad de una respuesta.

Sin embargo, que algo sea reforzante o no depende del sujeto,


del estado motivacional en que se encuentre y de la conducta a
reforzar.

Por ejemplo, la comida puede ser un potente reforzador en el


caso de animales hambrientos, pero no lo será cuando están
saciados.
3

Por ejemplo, las alabanzas pueden reforzar a un niño para que


haga sus tareas escolares, mientras que para otro niño será
más efectivo permitirle ver la televisión.

Los reforzadores pueden clasificarse en dos categorías


fundamentales:

• Reforzadores primarios o no aprendidos. Son aquellos que


satisfacen necesidades básicas del organismo. Por ejemplo,
el alimento, el agua o la actividad sexual. Las actividades
que satisfacen la curiosidad o que proporcionan estimulación
sensorial son, igualmente, reforzadores primarios, así como
también algunos reforzadores sociales, como la sonrisa.
• Reforzadores secundarios. Son aprendidos, es decir,
adquieren su poder reforzante gracias a su asociación con
algún reforzador primario.
El dinero, por ejemplo, se asocia repetidamente a la
adquisición de alimentos, comodidades y multitud de bienes
de consumo. De la misma forma, las personas aprenden a
tener en gran estima los elogios, la aprobación o el éxito
social. Los reforzadores sociales secundarios llegan a
adquirir una poderosa influencia sobre la conducta humana.

5. Procedimientos del C. Operante.

La operación básica que se pone de manifiesto en una caja de


Skinner es el incremento en la emisión de una respuesta, debido
a sus consecuencias. Esta operación se denomina
reforzamiento.

Supongamos, por el contrario, que en otra situación


experimental una conducta del animal tiene como consecuencia
la presentación de un estímulo aversivo (como una descarga
eléctrica). Lo probable, en este caso, es que esa conducta
tienda a no repetirse en el futuro. Esta segunda operación se
denomina castigo

Podemos estudiar cuatro procedimientos básicos del


Condicionamiento Operante.

5.1. Reforzamiento positivo: Condicionamiento de


recompensa.
4

D - Se produce reforzamiento positivo cuando el aumento en la


probabilidad de una conducta se consigue mediante la
presentación de un estímulo positivo o apetitivo.

Por ejemplo, las bolitas de comida que obtiene la rata cuando


oprime la palanca en la caja de Skinner. El estímulo o suceso
que sigue a la conducta se denomina reforzador positivo o
estímulo reforzante positivo.

El reforzamiento positivo se denomina también


condicionamiento de recompensa, porque el sujeto es
"recompensado" con un estímulo positivo cuando ejecuta una
conducta dada.

Por ejemplo, conceder un premio a un muchacho poco estudioso


por dedicar dos horas diarias a sus tareas escolares, constituye
un ejemplo de condicionamiento de recompensa, siempre que
dicho premio aumente la probabilidad de que el muchacho
estudie cada día. Si un paciente hospitalizado recibe atención,
por parte de los profesionales que le atienden, cada vez que se
queja exageradamente, y debido a ello esa conducta se repite
con mayor frecuencia, se está produciendo igualmente
reforzamiento positivo.

5.2. . Reforzamiento negativo: Condicionamiento de


escape-evitación.

D - En el reforzamiento negativo la conducta del sujeto en lugar


de producir un acontecimiento lo disminuye o hace desaparecer.

La conducta, en este caso, resulta fortalecida por la terminación


de un estímulo negativo, o bien porque impide completamente
su aparición. El efecto general del reforzamiento negativo es,
como en el condicionamiento de recompensa, el aumento de la
probabilidad de emisión de una respuesta.

D - Se denomina condicionamiento de escape a aquellas


experiencias en las que una determinada respuesta tiene como
consecuencia la terminación de un estímulo negativo o aversivo.

Por ejemplo, tomamos un analgésico cuando nos duele la


cabeza, porque sabemos por ocasiones anteriores que
probablemente el dolor desaparecerá. De la misma forma,
5

abandonamos una conversación cuando el tema comienza a


resultarnos incómodo.

En el primer caso el reforzador negativo es la reducción del


dolor y en el segundo dejar de sentirnos incómodos.

D - Un condicionamiento de evitación se establece cuando la


consecuencia de una conducta es la prevención de un estímulo
negativo (impedir su aparición).

Cuando se dice "es mejor prevenir que curar", nos estamos


refiriendo al hecho de que es preferible anticiparse a las cosas
desagradables y hacer algo que impida su aparición. Por
ejemplo, dar un rodeo cuando vamos por la calle para no
encontrarnos con alguien que nos desagrada.

Por ejemplo es el de aquellas personas que prefieren no hablar


en público, debido a que cuando lo han hecho en ocasiones
anteriores se han sentido incómodas o avergonzadas. El
reforzador negativo es, en este caso, no sentirse avergonzado.

En un experimento clásico de evitación, Miller (1948) colocó a


unas ratas en uno de los compartimentos de una "caja de
vaivén"(tiene dos compartimentos separados por una puerta o
una barrera, de tal forma que los animales pueden pasar de uno
a otro), pintado de color negro, donde recibían una descarga. En
este caso, las ratas podían escapar de la descarga pasando al
otro compartimento (pintado de color blanco) a través de una
puerta de comunicación. Este procedimiento de escape se
repitió varias veces. A continuación el investigador sometió a las
ratas a una prueba de evitación, situándolas en la parte negra
de la caja de vaivén sin administrar descarga alguna. Miller
comprobó que los animales pasaban rápidamente al
compartimento blanco, a pesar de no sufrir ningún daño.

Según la teoría bifactorial de la evitación, formulada por Mowrer


(1947), existen tanto componentes de condicionamiento clásico
como de aprendizaje operante en la secuencia de una conducta
de evitación. En un primer momento, el miedo se adquiere
según principios pav1ovianos: la asociación entre el EC
(compartimento negro) y el EI (descarga) da lugar a una RC de
temor al compartimento negro. En un segundo momento, se
aprende una respuesta operante de evitación (pasar al
6

compartimento blanco), siendo el refuerzo negativo la reducción


del miedo.

5.3. Castigo positivo: Condicionamiento de castigo.

D- El castigo positivo, o condicionamiento de castigo, tiene lugar


cuando la respuesta del sujeto tiene como consecuencia la
aparición de un estímulo negativo.

En este caso las consecuencias no se denominan reforzadores


sino estímulos punitivos, simplemente, castigos.

Por ejemplo, si una rata recibe un molesto chorro de aire cada


vez que se dirige por el camino equivocado de un laberinto, con
el tiempo dejará de hacerlo.

Es importante señalar que los estímulos punitivos o castigos no


se reducen a hechos dolorosos o nocivos desde el punto de vista
físico. Así, por ejemplo, la desaprobación expresada
verbalmente puede llegar a ser un potente estímulo punitivo.

5.4. Castigo negativo: Condicionamiento de omisión.

D - El castigo negativo se define como una situación en la que


una conducta impide la aparición de un estímulo positivo.

Se denomina también condicionamiento de omisión porque la


respuesta del sujeto tiene como consecuencia la no
presentación u omisión de un acontecimiento positivo. El
resultado de este procedimiento es la disminución de la
probabilidad de ocurrencia de la respuesta.

Por ejemplo una sanción de tráfico que conlleve la retirada del


permiso de conducir.

6. Análisis de la conducta operante: Reforzamiento


positivo.
7

En este apartado se estudiarán los principios fundamentales del


reforzamiento positivo o condicionamiento de recompensa: el
inicio, adquisición y mantenimiento de la conducta, su extinción,
los procesos de generalización y discriminación.

6.1. Inicio de la conducta: Moldeamiento.

Muchas conductas no existen en un sujeto o se producen con


muy poca frecuencia. Cuando se desea condicionar mediante
reforzamiento positivo una de tales conductas, puede utilizarse
un procedimiento denominado moldeamiento o técnica de las
aproximaciones sucesivas.

D - El moldeamiento consiste en la consecución gradual de una


conducta final (o comportamiento meta), que no existe en el
repertorio de respuestas de un organismo o que se emite con
una baja probabilidad.

Ello se logra mediante el reforzamiento diferencial de aquellas


conductas que suponen aproximaciones sucesivas a la conducta
final (Cruz, 1989).

Por ejemplo, para enseñar a una rata a apretar una palanca en


la caja de Skinner se comienza reforzándola (dándole una bolita
de comida) simplemente por estar junto a la pared de la jaula
donde se encuentra la palanca. Una vez establecida esta
conducta, se recompensa al animal por acercase a la palanca,
por olfatearla o quizá por manosearla. Finalmente, el
experimentador esperará a que el animal apriete la palanca
antes de dispensar de nuevo el refuerzo.

El moldeamiento de una conducta humana constaría de, al


menos, cuatro pasos (Fernández Castro, 1993):

a) Especificación del objetivo final que se pretende


conseguir. Es decir, qué se debe hacer, cuándo y cómo.
b) Determinación del nivel inicial del sujeto o punto de
partida. Este nivel inicial consiste en la conducta más parecida a
la del objetivo final que ya sepa realizar el sujeto.
c) Establecimiento de pasos graduales que vayan de la
conducta inicial a la conducta final.
8

d) Reforzamiento de cada uno de los pasos o aproximaciones


sucesivas. Cuando uno de los pasos se ha adquirido, se refuerza
solamente el paso siguiente, pero no el que ya se ha superado.
Generalmente, el elogio verbal constituye en estos casos un
excelente reforzador.

6.2. Adquisición del condicionamiento.

La condición necesaria para que se produzca el reforzamiento


positivo es lo que se ha denominado contingencia entre
reforzador y respuesta.

D - Un reforzador es contingente a una respuesta cuando su


obtención sólo es posible realizando la respuesta.

Por ejemplo. En la caja de Skinner, los animales obtienen


comida tan sólo cuando presionan la palanca o picotean el disco.

Además de la contingencia, otros factores afectan a la


adquisición del condicionamiento de recompensa. Se denominan
parámetros del reforzamiento positivo. Los más importantes son
los siguientes:

a) Magnitud del reforzador. Como ha señalado Kimble (1974), el


concepto de magnitud del reforzador incluye dos propiedades
diferentes de los reforzadores: la cantidad y la cualidad. El
condicionamiento es mejor cuanto mayor es la recompensa.
Este resultado también se ha obtenido con respecto a la
calidad de la recompensa.

b) Demora del reforzamiento. Al hablar de demora nos estamos


refiriendo al tiempo que transcurre entre la ejecución de una
respuesta y la obtención del reforzador.

Se trata de un parámetro equivalente al intervalo EN-EI en el


condicionamiento clásico. En general, cuanta más pequeña
sea la demora del reforzamiento más efectivo es el proceso
de condicionamiento.

6.3. Programas de reforzamiento.


9

En el condicionamiento operante no es necesario que se


refuercen una por una todas las respuestas del sujeto (lo que
técnicamente se denomina reforzamiento continuo). Es posible,
por el contrario, reforzar sólo algunas respuestas. En este caso
se habla de reforzamiento parcial o intermitente.

Por ejemplo, no siempre que un pescador lanza el anzuelo


consigue una pieza, ni el mejor jugador de baloncesto encesta
siempre que tira a canasta.

Estos programas, que fueron descubiertos de una forma más o


menos accidental por Skinner (Ferster y Skinner, 1957), se
pueden clasificar en dos grupos:

Programas de razón, en los que el reforzamiento depende


del número de respuestas que emite el sujeto.
Programas de intervalo, en los que el reforzamiento
depende del tiempo transcurrido desde la administración
del anterior estímulo reforzante.

A su vez, en ambos tipos de programas, el número de


respuestas o el intervalo de tiempo requerido para la
administración del reforzador, puede ser fijo o variable. La
combinación de los dos criterios da lugar a los cuatro procesos
básicos de reforzamiento positivo: razón fija (RF), razón
variable (RV), intervalo fijo (IF) e intervalo variable (IV).

a) Programas de razón fija. En estos programas ocurre el


reforzamiento después de un número fijo de
respuestas.

Por ejemplo, un estudiante que se permite un descanso cada


vez que ha terminado cinco páginas.
Por ejemplo, en el laboratorio, cuando una rata está bajo un
programa de RF-30 en una caja de Skinner, significa que el
animal ha de apretar 30 veces la palanca para obtener una
bolita de comida.

Este tipo de programa da lugar a una elevada tasa de respuesta


(número de respuestas por unidad de tiempo), con pausas
inmediatamente después de la administración del reforzador.
Cuando la razón es alta (es decir, cuando se exige un número
grande de respuestas para que aparezca el reforzador), los
10

sujetos pueden efectuar largas pausas después de cada


reforzamiento.

b) Programas de razón variable. En este caso, el número de


respuestas requerido para obtener el reforzamiento cambia de
una ocasión a otra, oscilando alrededor de un valor medio
especificado.

Por ejemplo, las máquinas tragaperras están programadas para


otorgar el premio conforme a un programa de razón variable.

Los programas de razón variable producen la tasa de respuestas


más elevada, sin presentar pausas apreciables después del
refuerzo (ya que el número de respuestas exigido para cada
reforzamiento no es predecible).
Aparentemente, la incertidumbre de no saber cuándo va a llegar
el siguiente refuerzo mantiene a los sujetos emitiendo
respuestas constantemente.

c) Programas de intervalo fijo. En esta clase de programas el


refuerzo se administra a la primera respuesta que emite el
sujeto, después de transcurrido un período de tiempo fijo desde
el anterior reforzamiento.

Por ejemplo, un padre puede comprobar cada media hora si su


hijo está realizando sus tareas escolares, dándole una palmadita
en la espalda siempre que lo encuentre estudiando.

d) Programas de intervalo variable. En este caso el intervalo de


tiempo entre reforzamientos varía alrededor de un valor
promedio. De esta forma el sujeto no puede prever cuándo
ocurrirá el siguiente reforzamiento, lo que se traduce en una
tasa de respuesta moderada pero constante.

Por ejemplo, reforzar mediante elogios a un paciente diabético


por seguir correctamente su régimen de tratamiento, cada
cierto tiempo variable (aun que con un promedio de una
semana, por ejemplo), podría ser un ejemplo de esta clase de
programa.

6.4. Extinción.

D - Podemos definir la extinción (Tarpy, 1977) como el proceso


que ocurre cuando se suspende el reforzamiento de una
11

respuesta, de forma que el sujeto no puede obtener


recompensa sea cual sea su conducta.

El proceso contrario al reforzamiento es la extinción. Sin


embargo la extinción no se produce de forma instantánea al
retirar el reforzador, sino que es un proceso gradual que
discurre a lo largo de distintas fases.

Esto puede observarse fácilmente en la caja de Skinner,


desconectando el dispensador de comida. Así, en un primer
momento, se observa un aumento paradójico en la tasa de
respuesta. El animal oprime la palanca de forma más rápida y
vigorosa que antes. Esta "explosión" de respuestas da lugar a
otra fase en la que el sujeto deja de responder. Las explosiones
y las pausas se van alternando, aunque las primeras son cada
vez más cortas, mientras que las pausas se van haciendo cada
vez más largas. Finalmente, la respuesta deja de producirse.

Por ejemplo, un niño presenta berrinches excesivos, rompe


objetos y pega con frecuencia otros niños. El procedimiento de
extinción consistiría en suprimir la atención que los adultos
prestan al niño cuando lleva a cabo tales conductas (dado que
con frecuencia se observa que es precisamente esa atención lo
que mantiene la conducta). La principal dificultad estriba en
que, en un primer estadio, la conducta que se pretende suprimir
aumenta su frecuencia en lugar de disminuir. Ello puede impedir
que los adultos persistan en una actitud consistente y
mantenida de no prestar atención a la conducta problemática.
Sin embargo, una vez superada esta fase, los resultados son
sorprendentes y pueden ayudar eficazmente al niño en su
adaptación familiar o escolar.

En el condicionamiento instrumental se produce también la


recuperación espontánea de una respuesta previamente
extinguida. Si el procedimiento de extinción no ha sido lo
bastante largo, la respuesta puede reaparecer tras cierto
tiempo.

6.5. Generalización y Discriminación.

D- Según el principio de la generalización, la probabilidad de


que se emita una respuesta en una situación nueva dependerá
de la semejanza existente entre las condiciones de la nueva
12

situación y las de la situación en que se aprendió la respuesta


en el pasado.

Por ejemplo, si un alumno fue alabado por el profesor al hablar


con propiedad en una clase, y consideró su conducta como un
logro importante, probablemente volverá a expresar sus
opiniones en otras clases.

La discriminación puede considerarse un proceso contrario a la


generalización.

D- Una conducta adquirida en un contexto dado es probable que


no ocurra en un contexto muy distinto, debido a las condiciones
diferenciales de reforzamiento (en una situación la respuesta es
reforzada, pero no así en la otra).

Por ejemplo, estando en el parque un chico utiliza un lenguaje


malsonante y sus amigos lo celebran. Cuando hace lo mismo en
casa, sus padres se molestan notablemente. Por consiguiente, el
muchacho usa dichas expresiones cuando está con sus amigos
pero no cuando está con sus padres.

7. Castigo.

7.1 Factores que determinan la efectividad del castigo.

¿Por qué el castigo es con frecuencia un procedimiento poco


eficaz para suprimir una conducta? Entre los factores que
determinan la efectividad del castigo, destacan los siguientes
(Parke, 1977):

a) Contingencia temporal. Cuanto más pequeño sea el


intervalo de tiempo entre un comportamiento dado y su
castigo, más efectivo será éste.

Por ejemplo, castigar a un niño al empezar a realizar un acto


prohibido es mucho más eficaz que castigarlo cuando ya ha
pasado un cierto tiempo. Sin embargo, en la práctica no
siempre es posible aplicar el castigo en el mismo momento, o
inmediatamente después, de la realización de una conducta.

b) Constancia. Cuanto más constante sea el castigo más


efectivo será.
13

Por ejemplo, el padre que castiga una vez a su hijo por decir
palabrotas, le refuerza con su divertida sonrisa en otra
ocasión y le ignora en una tercera vez, está
involuntariamente contribuyendo al mantenimiento de la
conducta de su hijo.

c) Refuerzo de una respuesta alternativa. Skinner (1953) ha


señalado la importancia de especificar la conducta
alternativa que evitará la aplicación del castigo en una
situación dada. Esta respuesta alternativa puede consistir
en hacer algo diferente o simplemente en no hacer nada.

Por ejemplo, una rata aprenderá rápidamente a seguir una


ruta alternativa en un laberinto si, además de aplicarle una
descarga por tomar la ruta equivocada, es recompensada con
comida al seguir la ruta acertada.

7.2. Problemas en el uso del castigo

Aunque los experimentos con animales demuestran que los


castigos intensos tienen un efecto más poderoso en la supresión
de la conducta que los castigos débiles o moderados, los
estímulos aversivos que se aplican durante un condicionamiento
de castigo tienen efectos secundarios muy nocivos que deben
tenerse en cuenta cuando se aplican a los seres humanos, sobre
todo a los niños (Davidoff, 1986). Veamos algunos de estos
efectos:

1. Los castigos físicos con frecuencia son excesivos y causan


daño a la víctima. Miles de niños son maltratados
brutalmente por sus padres. La mayoría de ellos no pretendía
causar daño a los pequeños, pero en un momento dado
"perdieron la cabeza" al castigarlos. También pueden ser muy
nocivos los castigos sociales, como el ridículo o la burla.

2. Como los castigos son aversivos, los niños por lo general


procuran escapar de ellos o evitarlos. De este modo con
frecuencia aprenden acciones socialmente reprobables por
reforzamiento negativo. Un niño, por ejemplo, puede
aprender a mentir, a fingir una enfermedad o a escapar de su
casa, para evitar un castigo.
14

3. Los castigos físicos pueden provocar un contraataque


agresivo. Aunque los niños suelen inhibirse en presencia del
agente castigador, pueden planear una venganza para el
futuro, o atacar objetivos físicamente más débiles que ellos.

4. Cuando un niño recibe un castigo, aprende por observación


que hacer daño es un modo aceptable (y posiblemente
efectivo) de resolver los problemas con la gente. Esto tal vez
explique en parte que los adultos que fueron golpeados de
niños, con frecuencia golpean también a sus propios hijos.

5. Cuando se usan con demasiada frecuencia castigos físicos,


se pueden condicionar clásicamente sentimientos de odio y
de temor hacía el agente (Padre o maestro) y hacia el lugar
(casa o escuela).

Por todas estas razones los psicólogos se muestran reacios a


recomendar el uso de castigos (sobre todo físicos), dados sus
efectos colaterales potencialmente devastadores. Es mucho más
recomendable el empleo de otras estrategias para instaurar
conductas deseables y eliminar las indeseables. Por ejemplo,
reforzamiento positivo de conductas que sean incompatibles con
la conducta indeseable, extinción, moldeamiento de la conducta
deseable e instrucciones.

Cuando estos métodos fallan después de un intento razonable y


cuando los problemas de conducta son muy frecuentes o
destructivos, se puede pensar entonces en el castigo. Las
siguientes normas para el uso de castigos se basan en
resultados de investigación y se recomiendan con frecuencia:

a) Establecer una relación cariñosa y amistosa con el niño,


cuando ésta no exista. Cualquier procedimiento disciplinario
es mucho más efectivo cuando existe un vínculo fuerte y
positivo entre el pequeño y el adulto.
b) Escoger un castigo suave o moderado ( supresión de un
privilegio) que no dañe física ni psicológicamente al niño.
Prescindiendo de consideraciones éticas, los castigos
suaves o moderados suelen ser más efectivos a la larga
para los niños, por varias razones:

• Tienen mucha menor probabilidad de producir


ansiedad o ira, y no predisponen al niño para
contraatacar.
15

• No exigen del adulto que exhiba una conducta


violenta que puede ser aprendida por observación.

You might also like