Tema 5 Aprendizaje

TEMA 5
PROGRAMAS DE Y TEORAS DE REFORZAMIENTO

1. PROGRAMAS DE REFORZAMIENTO
En los programas de reforzamiento se puede apreciar la relacin funcional existente entre el
estmulo discriminativo, la respuesta operante y el reforzador.
1.1 Programas bsicos de reforzamiento
Es la forma en que se programan los reforzadores contingentemente con la emisin de una
respuesta operante. A un nivel bsico podemos distinguir el reforzamiento parcial y el
reforzamiento continuo, produciendo el primero un aprendizaje ms duradero, que
posteriormente resulta ms difcil de extinguir.
En cuanto a la forma de programar los reforzadores podemos clasificarlos en dos grandes
bloques:
Los programas de razn: donde se estipula que se debe emitir un determinado nmero
de respuestas antes de que la ltima de ellas sea reforzada (por ejemplo, que la rata
pulse 50 veces la palanca). A su vez , los programa de razn se subdividen:
Programas de razn fija: el nmero de respuestas requerido para que se

administre el reforzador siempre es el mismo, de manera que consistentemente
se tiene que dar el mismo nmero de respuestas para conseguir cada reforzador.
Nos referiremos a ellos como RF. (un ejemplo, el mismo de antes, cada 50 veces
que la rata pulse la palanca, obtendr una bolita de comida)
Programas de razn variable: requiere un nmero de respuestas que vara de

una ocasin a la siguiente de manera irregular alrededor de un nmero
promedio de respuestas por cada reforzador. Se abrevia como RV. (por ejemplo,
RV50, significa que de media deber pulsarse la palanca 50 veces para conseguir
la bolita, es decir, en un experimento basado en 3 ensayos deber pulsar la
primera vez en 75 ocasiones la palanca, en el segundo 25 y en el tercero 50,
pero la media entre todos los ensayos ser de 50 veces)
Los programas de intervalo: establecen que debe pasar un determinado tiempo desde
la consecucin del reforzador anterior antes de que la respuesta requerida sea de nuevo
reforzada( por ejemplo, la rata pulsa la palanca y obtiene una bolita, pues hasta que
hayan pasado 20 minutos aunque la rata pulse no saldr ms comida; a partir del
minuto 20, cuando pulse la palanca obtendr una bolita). Lo podemos subdividir
tambin:
Programas de intervalo fijo: se mantiene constante el tiempo requerido para que

se entregue el siguiente reforzador (la rata pulsa, obtiene bolita, hasta que
pasen 20 minutos no obtendr recompensa aunque pulse la palanca, pasado los
Pg. 1
20 minutos si pulsa obtendr la bolita; de nuevo, deber esperar 20 minutos

para que al pulsar la palanca salga comida y as sucesivamente). Lo abreviamos
como IF.
Programas de intervalo variable: son aquellos donde vara la cantidad de tiempo

necesaria que debe transcurrir entre un reforzador y el siguiente antes de que
una respuesta sea reforzada, dando lugar a un valor promedio de intervalo entre
reforzadores (primero la rata debe esperar 25 minutos, en el segundo ensayo 50
, en el tercero 75,etc...). Se abrevia como IV.
En los programs de intervalo se puede establecer una duracin limitada durante la cual se
pueda conseguir el reforzador (han pasado los 20 minutos estipulados para que la rata pueda
conseguir el reforzador si pulsa la palanca, pues bien, tiene 5 minutos para pulsarla sino los 20
minutos volvern a contarse sin dar la posibilidad de conseguir el reforzador)
En todo caso, el requisito del nmero de respuestas o del tiempo transcurrido es a partir de la
ocurrencias del reforzador anterior.
A continuacin, vamos a exponer las diferencias conductuales que se consiguen con uno u otro
tipo de reforzamiento:
Programas de RV: proporcionan tasas de respuesta muy altas y constantes
Programas de IV: proporciona tambin tasas constantes de respuesta, aunque son de

un valor inferior a los programas RV
Programas RF: se caracteriza inicialmente por una tasa elevada de respuesta, que se
mantiene desde la primera respuesta despus de haber obtenido el reforzador hasta la
siguiente respuesta reforzada. Esta ejecucin alta y estable de conducta se desarrolla
rpidamente cuando la razn es relativamente pequea. Pueden observarse dos
fenmenos:
(1) Carrera de la razn: es la pausa pos-reforzamiento que se sigue de una
transicin casi instantnea a una tasa alta de respuesta posterior que se produce
en razones altos (cuando la rata debe pulsar la palanca 50 veces o ms)
(2) Tensin de la razn: es cuando el sujeto deja de responder por completo debido
a que el requisito de la razn es muy elevado
La duracin de la pausa post-reforzamiento se incrementa sistemticamente a medida
que aumenta el requisito de la razn.
Programas IF: se caracteriza por una pausa post-reforzamiento ms o menos

prolongada en funcin de la duracin del intervalo y una progresiva aceleracin
posterior de la tasa de respuesta en cada uno de los intervalos, de manera que la tasa
mayor de respuesta se produce cerca del final del intervalo. Se denomina a este efecto
festoneado.
La duracin de la pausa est directamente relacionada con la longitud del programa de IF,
mayor duracin mayor ser la pausa
Pg. 2
Resumiendo, la diferencia entre programas fijo y variables, es que en los primero se suele
producir una pausa tras cada reforzamiento. Por otro lado entre RF e IF la diferencia es que en
el primero se pasa de la pausa post-reforzamiento a una tasa alta y estable y en el segundo se
pasa de la pausa a una aceleracin gradual en la tasa de respuesta hasta alcanzar una tasa
alta al final del intervalo (cuando el sujeto piensa que el tiempo especificado ha llegado a su
fin).
Es necesario resear que en los programas de razn la duracin de la pausa est determinada
ms por el programa que se va a completar que por el que ha ocurrido inmediatamente antes.
Por ejemplo, en programas mltiples (que luego veremos) donde primero se refuerza cada 5
respuestas, luego cada 50, luego 5, despus 50,etc... lo que viene a decir esta idea es que la
pausa larga se dar entre el programa de 5 y el de 50 y no entre el de 50 y el de 5 (dicho de
otro modo RF5 pausa larga RF50 pausa corta RF5 pausa larga RF50 pausa corta,etc...).
En los programas de intervalo, la pausa tiende a ajustarse proporcional y rpidamente a los
cambios en la frecuencia de reforzamiento.
1.1.1
Programas de razn frente a programas de intervalo: funciones de
retroalimentacin
Cuando se igualan las tasas y patrones de reforzamiento, la tasa de respuesta suele ser mayor
en los programas de razn que en los de intervalo.
Como es lgico en los programas de intervalo la tasa de respuesta no influye directamente
sobre la frecuencia de administracin de los reforzadores, mientras que la tasa de
reforzamiento vara de manera directa con los cambios en la tasa de respuesta en los
programas de razn. La explicacin es que los programas de intervalo refuerzan tiempo entre
respuestas (TER) largos. Otra explicacin que se ha dado es que en los programas de intervalo
no existe relacin entre la tasa de respuesta y la tasa de reforzamiento, es lo que se le ha
denominado explicacin molar.
Una funcin de retroalimentacin es una descripcin de la forma en que acta el ambiente,
como la frecuencia de reforzamiento, la magnitud del reforzador, o la demora al reforzador, en
funcin de algn aspecto de la ejecucin conductual. Las relaciones entre la conducta y el
ambiente, como las establecidas por los programas de reforzamiento, se pueden describir en
trminos de funciones de retroalimentacin. La funcin de retroalimentacin de la tasa de
reforzamiento para la tasa de respuesta en un programa de RF que requiera N respuestas por
reforzador es R=B/N, donde R es la tasa de reforzamiento obtenido y B es la tasa de respuesta
emitida.
En los programas de intervalo las funciones de retroalimentacin son ms difciles de calcular,
se representaran con una forma de la funcin hiperblica. Las funciones se aplanan a partir de
una tasa de respuesta, porque por mucho que se responda la tasa mxima de reforzamietno
no puede aumentar ms que el valor especificado por el programa de intervalo.
Pg. 3
El control diferencial de la conducta en los programas de intervalo es bastante dbil, las

contingencias de reforzamiento no empujan la conducta en ninguna direccin. Adems, estos
programas generan una mayor variabilidad entre sujetos en la tasa de respuesta, es decir, se
encontrarn ms diferencias individuales en la tasa de respuesta entre unos animales y otros
bajo programas de intervalo que de razn.
El ejemplo paradigmtico de una funcin de retroalimentacin plana es el experimento de
supersticin.
1.2 Programas de reforzamiento diferencial de tiempos entre respuestas
Reforzamiento diferencial de tasas bajas de respuesta (RDB): slo se refuerza la

respuesta si ha transcurrido un tiempo especificado desde la anterior respuesta ( en los
de IF el tiempo es desde el anterior reforzador). Se produce, pues, una contingencia de
castigo para las respuestas que ocurren con anterioridad al tiempo especificado por el
programa RDB.
Reforzamiento diferencial de tasas altas de respuesta (RDA):el reforzador se hace

contingente con la respuesta si sta ocurre antes de que haya transcurrido una tiempo
determinado. Se refuerzan TER cortos. Se obtendr el reforzador si se responde antes
de que transcurra un tiempo determinado, y las respuestas que ocurran despus de ese
intervalo temporal simplemente reinician el intervalo
1.2.1
Teora del reforzamiento diferencial de los tiempos entre respuestas
Mediante estos reforzamiento diferenciales lo que se hace es reforzar la ejecucin a un

determinado ritmo. La teora del reforzamiento diferencial de los TER afirma que en todos los
programas de condicionamiento operante se refuerzan especficamente TER de una duracin
determinada.
Los programas RV e IV consiguen una tasa de respuesta muy constante, esto es, sin pausas
postreforzamiento, con lo que la duracin de los TER es muy homognea y es fcil atribuir
dicha ejecucin al reforzamiento diferencial de los TER de una duracin determinada (ms
largos en los programas de intervalo que en los de razn).
La ejecucin en los programas RF e IF, sin embargo, no es tan homognea como en los
programas variables y normalmente se obtienen acusadas pausas post-reforzamiento. Por ello,
los TER reforzados en estos programas deberan ser siempre muy cortos.
1.3 Programas compuestos de reforzamiento
Los programas compuestos resultan de la aplicacin de dos o ms programas bsicos de
reforzamiento y pueden dividirse en dos grandes bloques, aquellos donde la presentacin de
los programas componentes es secuencial y aquellos donde los componentes se presentan de
forma simultnea.
1.3.1
Programas alternantes y secuenciales: el control por el estmulo y el
reforzamiento condicionado
Programas alternantes
Pg. 4
Programa mixto
Se presentan dos o ms programas bsico alternndose al azar. El cambio de uno a otro de los
programas es independiente de la conducta del sujeto en experimentacin. Depende, sin
embargo, de la duracin de un tiempo establecido con anterioridad por el experimentador
Programa mltiple
Es igual que el mixto con la diferencia de que cada componente se seala con una clave
discriminativa distinta, y el sujeto es informado en todo momento de en qu parte del
programa mltiple se encuentra
Programas secuenciales
Programa tndem
Consta al menos de dos programas simples que se presentan siempre en el mismo orden. Los
sujetos deben completar el primer programa para poder iniciar el segundo, al final del cual
consiguen la administracin del reforzador. Slo es posible conseguir el reforzador si se
cumplen en sucesin los programas componentes, el cumplimiento del primero de ellos slo
dar lugar a la posibilidad de realizar el siguiente, pero el reforzador slo se conseguir al
terminar de completar todos.
Programa encadenado
Es igual que el tndem pero cada uno de los programas simples est sealado de manera
diferente, de forma que el sujeto experimental conoce en qu componente del programa se
encuentra en cada momento. Estos programas se han utilizado para estudiar el reforzamiento
condicionado, que hace referencia al hecho de que algunos estmulos adquieren capacidades
reforzantes por su asociacin con los reforzadores primarios
1.2.3
Programas simultneo: programas concurrentes y programas combinados
Programas concurrentes
Se disponen simultneamente al menos dos programas bsicos de reforzamiento. Se puede

cambiar de un programa a otro sin que normalmente haya sido necesario haber completado un
tiempo o un nmero de respuestas en cada uno de los programas. Los sujetos deben elegir
entre responder a uno u otro de los programas que componen el programa concurrente (por
ejemplo, hay dos palancas una RF20 y otra RF60)
Programas combinados
Consisten en combinaciones de un programa de razn y otro de intervalo, podemos distinguir:
Programa alternativo
Se refuerza una respuesta cada vez que se cumple con el requisito del programa de razn o el
de intervalo, existiendo as dos formas de conseguir el reforzamiento
Programa conjuntivo
Se refuerza una respuesta cada vez que se cumplen al mismo tiempo con el requisito de la
razn y del intervalo
Programa entrelazado
Pg. 5
La respuesta que se fuerza viene determinada por dos programas, pero la disposicin de uno
de ellos se latera por el desarrollo del otro
2. CONDUCTA DE ELECCIN
En los programas concurrentes, la eleccin o preferencia entre las alternativas de respuesta se
calcula por la tasa relativa de respuesta y se representa Ra/Ra+Rb, donde Ra y Rb representan
la tasa de respuesta en la alternativa a y la tasa de respuesta en la alternativa b.
Debemos distinguirlo de los premios concurrentes, donde se da a elegir al sujeto entre dos
actividades diferentes (correr y beber p ejem.), pero este modelo no es el ms adecuado
porque implican respuestas consumatorias distintas. El procedimiento que se usa actualmente
podemos denominarlo de eleccin entre respuestas instrumentales concurrentes.
2.1 La ley de igualacin
La ley de igualacin afirma que la tasa relativa de respuesta entre dos alternativas de
respuestas concurrentes es igual a la tasa (frecuencia) relativa de reforzamiento asocaida con
cada una de dichas alternativas de respuesta
Ra/Ra+Rb=Fa/Fa+Fb
Donde Ra y Rb representan las tasas de respuesta en las alternativas a y b; y Fa y Fb
representan la tasa (frecuencia) de reforzamiento asociada a las alternativas a y b
respectivamente.
Posteriormente se aadieron a la frmula todos los parmetro de reforzamiento:
Ra/Ra+Rb= Fa/Fa+Fb x Ma/Ma+Mb x 1/Da/1Da+1/Db
Siendo M las magnitudes de reforzamiento y D las demoras.
Esta frmula lo que establece es que todos los factores de reforzamiento influyen de forma
igual en la eleccin, y en concreto, de forma multiplicativa, de manera que cualquiera de esos
factores puede reducir la eleccin por una alternativa de respuesta aunque los otros factores
sean altamente favorables.
Lo esencial de la ley de igualacin es que establece una igualdad entre la tasa relativa de
respuesta y la tasa relativa de reforzamiento, de manera que la proporcin entre las
respuestas emitidas en las alternativas debe ser igual a la proporcin de los reforzadores
obtenidos en dichas alternativas.
2.2 Maximizacin: eleccin entre programas concurrentes de razn
El intento de generalizar la ley de igualacin a situaciones diferentes que la originalmente
descrita por Herrnstein, ha llevado a los investigadores a variar el tipo de programa de
reforzamiento asociados a las alternativas de respuesta. Estos investigadores usaron
programas de razn diferentes ( un programa concurrente RF-RF o uno RV-RV) los sujetos
tienden a elegir la alternativa de respusta que tiene una razn ms baja, describindose dicho
resultado como maximizacin.
La maximizacin es un componente adaptativo pues no tiene mucha ventaja dedicar esfuerzo a
Pg. 6
responder en una alternativa menos favorable. Adems, la maximizacin, que implica elegir en
exclusiva la alternativa ms favorable, no contradice la ley de igualacin.
Se han utilizado tambin combinaciones de programas de intervalo con programas de razn
( un programa RV en uno y en otra palanca de IV). Lo ptimo en este caso sera que los
animales se dedicasen a responder casi en exclusiva en el programa de razn y probar
espordicamente en el de intervalo.
En otras palabras, la maximizacin se da cuando los sujetos tienden a elegir la alternativa de
respuesta que tiene una razn ms baja, siendo ste un comportamiento adaptativo pues no
tiene mucha ventaja dedicar esfuerzo a responder en una alternativa menos favorable a
expensas de perder la oportunidad de reforzamiento en la ms ventajosa
2.3 Igualacin temporal
Viene a decir que al mismo tiempo que se iguala la tasa relativa de respuesta con la tasa
relativa de reforzamiento, se iguala el tiempo de estancia en las alternativas de respuesta con
la tasa relativa de reforzamiento en dichas alternativas de respuesta.
Ta/Ta+Tb=Fa/Fa+Fb
Donde Ta y Tb son los tiempos de permanencia en las alternativas a y b; y Fa y Fb son las
tasas de reforzamiento de dichas alternativas de respuesta.
2.4 Ley generalizada de igualacin
Para evitar que los animales cambien de programa por variables diferentes a las consecuencias
del reforzamiento, los investigadores aaden la limitacin de que no se refuerce la respuesta
de cambio de alternativa por un tiempo. El denominado demora por el cambio (DPC)y consiste
en introducir un perodo temporal breve, de aproximadamente 2 3 segundos, despus de la
primera respuesta a una de las alternativas para que pueda entrar en funcionamiento el
programa de reforzamiento asociado a dicha alternativa de respuesta. Las consecuencia
normal de haber introducido la contingencia DPC es que los sujetos enfrentados con una
situacin de eleccin abandonan su comportamiento de alternancia y realizan la eleccin en
base exclusivamente a las contingencias de reforzamiento asociadas con cada una de las
alternativas de respuesta.
Existen otras muchas fuentes potenciales de influencia no deseables en los experimentos de
eleccin, y genricamente estas influencias se han denominado sesgos ( un sesgo es la
conducta de alternancia antes descrita, la disposicin espacial de las alternativas de respuesta,
el color, etc...).
Todos estos elementos los recoge Baum en la siguiente frmula:
Ra/Ra+Rb=Fa/Fa+Fb X Sa/Sa+Sb
Donde R son las tasas de respuesta, F las tasas de reforzamiento y S los sesgos
Otros fenmenos son:
La sobreigulacin: cuando la mejor alternativa es valorada por encima de la preferencia

establecida por la igualacin perfecta (ej. un programa concurrente IV30-IV60, la
Pg. 7
igualacin perfecta sera el pulsar el doble en la primera palanca, la sobreigualacin

sera pulsar ms del doble)
Infraigualacin: cuando la mejor alternativa es valroada por debajo de la preferencia

establecida por la igualacin perfecta ( siguiendo el ejemplo anterior que en la palanca
IV30 se pulsar menos del doble que IV60)
Es ms comn encontrar infraigualacin que sobreigualacin, debido principalmente a la

tendencia a cambiar de alternativa cuando se ha obtenido reforzamiento en una de ellas.
Hay que resear que cuando se habla de estos fenmenos siempre se hace referencia a la tasa
de respuesta en la alternativa ms favorable.
Si entre dos alternativas igualmente favorable, los animales eligen una ms que otra, esa
desviacin de la ley de igualacin no puede decirse que sea producida por uno de estos
fenmenos, sino por la existencia de sesgos de respuesta.
Toda esta fenomenologa la recogi Baum en otra frmula:
Ra/Rb=k(Fa/Fb)elevado a s
Donde k representa los segos relativos y l s, la sensibilidad hacia los programas de
reforzamiento
2.5 Teoras de la igualacin
1.- Teora molecular: afirma que el cambio de una alternativa de respuesta a otras se realiza
en el momento en que la probabilidad momentnea de reforzamiento sea mayor en la otra
alternativa. . Basa su anlisis en el clculo de probabilidades relativas de reforzamiento en
cada momento.
2.- Teora molar: afirma que los animales distribuyen sus respuestas de acuerdo a un clculo
global de las tasas relativas de reforzamiento entre las dos alternativas de respuesta ,
eligiendo ms aquella alternativa que proporciona una mayor tasa de reforzamiento.
3.- Teora del mejoramiento: es una sntesis de las dos anteriores. Segn esta idea, los
organismos eligen entre dos fuentes de premio de manera que se iguales las tasas locales de
reforzamiento, respondiendo a la alternativa que en un momento dado presenta una mejor
tasa local de reforzamiento. Existe pues una igualacin temporal, las tasas locales de
respuesta y de reforzamiento sern iguales, por cuanto se responder menos a la alternativa
menos favorable, se obtendrn menos reforzadores en ella, pero tambin se le dedicar menos
tiempo.
2.6 Impulsividad y autocontrol: la eleccin con compromiso
Mediante las cadenas concurrentes de respuesta se mide la eleccin entre diferentes fuentes
de premio.
stos se componen como mnimo de dos pasos, un eslabn inicial donde el sujeto elige entre
dos alternativas de respuesta, y un eslabn terminal donde se proporcionan los reforzadores
por responder en la alternativa de respuesta elegida durante el eslabn inicial.
Pg. 8
En un experimento se demostr, que cuando la eleccin era directa, como en el caso del
programa concurrente simple, se prefera la opcin que llevaba al premio pequeo inmediato
an cuando dicha opcin no fuese la ms ventajosa en trminos de obtencin del mximo
reforzamiento.
Cuando usaron un programa concurrente encadenado e introdujeron un tiempo constante de
espera para poder acceder a la oportunidad de que las respuestas fueran reforzadas, las
preferencias cambiaron y los animales preferan la opcin que llevaba al reforzador mayor pero
ms demorado
Impulsividad: la preferencia por una recompensa pequea pero inmediata
Autocontrol: preferencia pro una recompensa mayor demorada
Demorar un poco la entrega del reforzador pequeo hace que su fuerza se debilite y se
prefiera esperar a uno de mayor magnitud
2.7 La nocin de valor de los reforzadores
El valor de alternativa aumentar con la magnitud del reforzador y disminuir con la demora
para la entrega del reforzador.
Mazur ha propuesto que el cambio de un comportamiento impulsivo a uno autocontrolado se
puede explicar mediante una funcin hiperblica que podra expresarse as:
Va=Ma/1+kDa
Donde, Va es el valor del reforzador; Ma la magnitud; Da la demora y k es una constante que
representa la tasa de descuento de la demora para cada individuo
2.8 La tasa de respuesta en relacin a la ley de igualacin
Herrstein ampli la ley de igualacin al considerar que cualquier situacin implica
necesariamente una eleccin, incluso cuando slo se ofrezca una alternativa de respuesta,
como en los programas bsicos de reforzamiento. En este caso, la eleccin estara entre
responder o no.
La frmula que recoge este principio es la siguiente:
Ra/Ra+Ro=Fa/Fa+Fo
Donde Ra es la tasa de respuesta operante especfica del programa;Ro la tasa de otras
actividades del animal; Fa la frecuencia de reforzamiento explcito programado y Fo la
frencuencia de reforzamiento intrnseco de otras actividades.
La tasa absoluta de una conducta (Ra) est en funcin de la tasa relativa de reforzamiento de
esa conducta en relacin con otras. Se puede aumentar la tasa de respuesta aumentando el
refozamiento de esa conducta (Fa mayor) o disminuyendo la tasa de reforzamiento alternativo
(F0 menor)
Esta ecuacin es la cuantificacin de la ley del efecto de Thorndike.
Pg. 9
3. LA NATURALEZA DE LA ASOCIACIN EN EL APRENDIZAJE INSTRUMENTAL

Siguiendo a Skinner y a Hull, la formulacin de la ley de igualacin y de la teora de la
igualacin por Herrstein se basaron en el constructo de fuerza de la respuesta.
Para Thorndike, en su formulacin de la ley del efecto, la fuerza de la respuesta se desarrolla
de naturaleza asociativa, concretamente entre estmulos y respuestas.
Hull es quien mejor representa la teora de que el aprendizaje es fruto de la formacin de
asociaciones estmulo-respuesta (E-R). Segn este punto de vista, los estmulos ambientales
elicitan respuestas y su asociacin se ve estampada por la ocurrencia del reforzador. En el
futuro, ante la presentacin de tales estmulos ser ms probable la ocurrencia de las
respuesta que han sido reforzadas.
Otro seguidor de la teora E-R es Guthrie, quien fue el primero en distinguir entre actos y
movimientos.
Hull, como ya hemos mencionado, era defensor de la asociacin E-R, pero argumentaba que el
refuerzo de la formacin de esa asociacin era debido a una reduccin del impulso,
introduciendo as el concepto de motivacin en la teora del aprendizaje.
Hull tambin introdujo los conceptos de hbito y el de incentivo. Para Hull la consecucin del
reforzador, reduce las necesidades del organismo (impulso) al tiempo que incita a la accin
(incentivo), distinguiendo estos dos aspectos motivacionales de los reforzadore.
Por otro lado, Tolman es generalmente descrito como defensor de un esquema estmuloestmulo (E-E). Para l, los animales aprenden mapas cognitivos, demostrando que los
cambios en la conducta atribuidos al aprendizaje son el resultado de la intervencin de
procesos como la expectativa de recompensa, y demostrando al mismo tiempo que
aprendizaje y ejecucin no es lo mismo, no resultando necesario el reforzador para el
aprendizaje pero s para la ejecucin.
Esto queda demostrado, por ejemplo, en el denominado aprendizaje latente, donde se aprende
una determinada tarea pero no se premia por hacerla. Posteriormente, se realiza de forma
correcta y s se premia la tarea
4. REGLAS DE EJECUCIN OPERANTE
Tambin existen otras teoras para explicar la fuerza de la respuesta que no apelan a la
asociacin. Es el caso de Skinner que propuso que en el condicionamiento operante los
reforzadores seleccionan las respuestas, no otorgando un papel necesario a la formacin de
ningn tipo de asociacin concreta, ni E-R ni E-E sino de sealizadores de que la respuesta
puede ser recompensada.
4.1 Teora de la probabilidad diferencial
Premack sostuvo que Dadas dos respuesta en un procedimiento de condicionamiento
instrumental, la respuesta ms probable reforzar a la menos probable y la respuesta menos
Pg. 10
probable no reforzar a la ms probable

Segn el principio de reforzamiento de Premack los reforzadores derivan su efecto de las
disposiciones experimentales en forma de relaciones de contingencia y que cualquier evento,
sea un estmulo o una respuesta, potencialmente puede convertirse en un reforzador eficaz.
Para que una actividad pueda convertirse en reforzador deben cumplirse dos supuestos
fundamentales:
1.- Dicha actividad debe ser preferida en la lnea base (por defecto)
2.- La probabilidad de ocurrencia de la actividad preferida debe restringirse y ocurrir de forma
contingente con la realizacin de una actividad menos preferida,fruto de la cual la actividad
menos preferida se convierte en instrumental.
Por tanto, la actividad reforzadora ocurre a menor probabilidad que en condiciones de libre
acceso y la actividad instrumental aumenta su probabilidad de ocurrencia
En el plano punitivo, Premack argument que la actividad de ms baja probabilidad puede
castigar a la de mayor probabilidad siempre y cuando se aumente su probabilidad de
ocurrencia y suceda contingentemente con la actividad preferida, que como resultado de dicha
operacin disminuir su frecuencia de aparicin en relacin con su ocurrencia en la lnea base.
De aqu se desprende que las actividades ms preferidas nunca podrn castigar a las
actividades menos preferidas.
Para medir la probabilidad de respuesta, Premack sugiri que la medida de respuesta ms
apropiada es la probabilidad momentnea.
4.2 Teora de la privacin de respuesta
Segn esta propuesta, para que una actividad pueda funcionar como un reforzador eficaz slo
es necesario restringir la realizacin de dicha actividad en relacin con su ocurrencia en el
punto de bienestar ( o lnea de base con acceso ilimitado a todas las actividades), pero no es
necesario que dicha actividad tenga que ser ms preferida que la que se va a convertir en
actividad instrumental.
La hiptesis de privacin de la respuesta predice que la tasa de respuesta y la tasa de
reforzamiento deben relacionar en forma de U invertida y no lineal.
Pg. 11

Tema 5 Aprendizaje

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tema 5 Aprendizaje

Uploaded by

Copyright:

Available Formats

TEMA 5

PROGRAMAS DE Y TEORAS DE REFORZAMIENTO

Programas de razn fija: el nmero de respuestas requerido para que se

Programas de razn variable: requiere un nmero de respuestas que vara de

Programas de intervalo fijo: se mantiene constante el tiempo requerido para que

20 minutos si pulsa obtendr la bolita; de nuevo, deber esperar 20 minutos

Programas de intervalo variable: son aquellos donde vara la cantidad de tiempo

Programas de RV: proporcionan tasas de respuesta muy altas y constantes

Programas de IV: proporciona tambin tasas constantes de respuesta, aunque son de

Programas IF: se caracteriza por una pausa post-reforzamiento ms o menos

Programas de razn frente a programas de intervalo: funciones de

El control diferencial de la conducta en los programas de intervalo es bastante dbil, las

Reforzamiento diferencial de tasas bajas de respuesta (RDB): slo se refuerza la

Reforzamiento diferencial de tasas altas de respuesta (RDA):el reforzador se hace

Teora del reforzamiento diferencial de los tiempos entre respuestas

Mediante estos reforzamiento diferenciales lo que se hace es reforzar la ejecucin a un

Programas alternantes y secuenciales: el control por el estmulo y el

Programas simultneo: programas concurrentes y programas combinados

Se disponen simultneamente al menos dos programas bsicos de reforzamiento. Se puede

La sobreigulacin: cuando la mejor alternativa es valorada por encima de la preferencia

igualacin perfecta sera el pulsar el doble en la primera palanca, la sobreigualacin

Infraigualacin: cuando la mejor alternativa es valroada por debajo de la preferencia

Es ms comn encontrar infraigualacin que sobreigualacin, debido principalmente a la

Impulsividad: la preferencia por una recompensa pequea pero inmediata

Autocontrol: preferencia pro una recompensa mayor demorada

3. LA NATURALEZA DE LA ASOCIACIN EN EL APRENDIZAJE INSTRUMENTAL

probable no reforzar a la ms probable

You might also like