Programas de reforzamiento: razón vs intervalo

Captulo 6: Programas de reforzamiento y conducta de eleccin
Un programa de reforzamiento es la regla o criterio que determina que instancia de la

respuesta instrumental ser seguir por la entrega del reforzador. Estos determinan la tasa,
el patrn y la persistencia de la conducta instrumental.
Un programa de reforzamiento es la regla o criterio que determina que ocurrencia de una
respuesta ser seguida por el reforzador. La entrega del reforzador podr depender de que
suceda cierto nmero de respuestas, del transcurrir del tiempo, de la presencia de ciertos
estmulos, de la ocurrencia de otras respuestas o de cualquier cantidad de factores.
Los programas de reforzamiento que involucran relaciones similares entre respuestas y
reforzadores, por lo general, producen patrones de conducta semejantes.
Los programas de reforzamiento predominan tanto en la forma en que se aprende una
respuesta instrumental como en la manera en que es mantenida despus por el
reforzamiento.
Programas simples de reforzamiento intermitente
Solo un factor determina que instancia de la respuesta instrumental es reforzada.
Programas de razn: el reforzamiento solo depende del nmero de respuestas realizadas
por el organismo. Lo nico que requiere es el conteo del nmero de respuestas emitidas y la
entrega del reforzador cada vez que se cumple el nmero exigido. Si el nmero que se pide
es uno, cada emisin de la respuesta instrumental resulta en la entrega del reforzador
(Reforzamiento continuo, RFC)
Se dice que las situaciones en que la respuesta solo es reforzada algunas veces implican
reforzamiento parcial o intermitente.
Programa de razn fija: si pide una cantidad constante de respuestas para obtener el
reforzamiento. El programa de reforzamiento continuo tambin es uno de razn fija ya que
involucra una razn fija de una respuesta por reforzador. En un programa de reforzamiento
continuo los organismos suelen responder a una tasa estable y moderada en la que solo
ocurren pausas breves e impredecibles.
Una vez que se inicia la conducta, la tasa de respuestas es alta y estable, pero puede haber
una pausa antes de iniciar el numero requerido de repuestas. Registro acumulativo de la
conducta.
Un registro acumulativo es una forma particular de representar la manera en que una
respuesta se repite a lo largo del tiempo. Muestra el nmero total (o acumulado) de
respuestas que han sucedido hasta un punto particular en el tiempo.
La pendiente de la lnea dibujada por el registrador acumulativo representa la tasa de

respuestas del sujeto. El registro acumulativo muestra una representacin visual completa
de cundo y con qu frecuencia responde un sujeto durante una sesin.
Se conoce como pausa posreforzamiento a la tasa cero de respuestas que ocurre justo
despus de cada reforzamiento. La tasa elevada y estable de respuestas que completa cada
requisito de razn se denomina carrera de la razn.
Si la razn requerida aumenta mucho de manera sbita, es probable que el animal haga
pausas peridicas antes de completar la razn exigida, esto se conoce como tensin de la
razn.
Aunque la pausa ocurre antes de una carrera de la razn en los programas de razn fija,
histricamente se conoca como la pausa posreforzamiento, la investigacin ha demostrado
que la duracin de la pausa es controlada por la siguiente razn requerida.
La pausa posreforzamiento se denomina a la pausa previa a la razn.
Programa de razn variable: en un programa de razn fija se quiere un nmero predecible
de respuestas o esfuerzo por cada reforzador. La predictibilidad puede eliminarse
modificando el nmero de respuestas que se pide por reforzamiento de una ocasin a la
siguiente.
Programa de razn variable (RV). El valor numrico de un programa de razn variable
indica el nmero promedio de respuestas que se pude por reforzador.
Como no es posible predecir el nmero de respuestas requeridas por reforzamiento, las
pausas predecibles en la tasa de respuestas son menos probables en los programas de razn
variable que en los de razn fija. Los organismos responden a una rasa bastante estable en
los programas de RV.
Aunque es posible que ocurran pausas posreforzamiento en los programas de razn
variable, esas pausas, son ms largas y ms destacadas en los programas de razn fija. En
los programas de razn fija la tasa total de respuestas tiende a distribuirse en un patrn de
pausa- carrera mientras que en los programas de razn variable se observa un patrn de
respuestas ms estable.
Programas de intervalo: el reforzamiento depende solo del nmero de respuestas realizadas
por el sujeto.
Programa de intervalo fijo: en una programa simple de intervalo, una respuesta se refuerza
nicamente si ocurre luego de que ha transcurrido una cantidad establecida de tiempo
despus de un punto de referencia, la ltima entrega del reforzador o el inicio del ensayo.
En un programa de intervalo fijo (IF), la cantidad de tiempo que tiene que pasar antes que
una respuesta sea reforzada se manteniendo constante de un ensayo al siguiente. Los

programas de intervalo fijo se encuentran en situaciones donde se necesita una cantidad fija
de tiempo para preparar el reforzador.
La tasa de respuestas aumenta a medida que se acerca el momento en que estar disponible
el siguiente reforzador. Este incremente en la tasa de respuestas se manifiesta en el registro
acumulativo, hacia el final del intervalo fijo, como una aceleracin. Se conoce como festn
del intervalo fijo, al patrn de respuestas que se desarrolla en los programas de
reforzamiento de intervalo fijo.
El desempeo en un programa de intervalo fijo refleja la precisin del sujeto para
discriminar el tiempo.
El intervalo nicamente determina cuando estar disponible el reforzador, no cuando ser
entregado. Para recibir el reforzador despus que se ha hecho disponible, el sujeto todava
tiene que dar la respuesta instrumental.
La pausa posreforzamiento y la aceleracin posterior hacia el final del intervalo reflejan la
capacidad para distinguir el tiempo.
La pausa ocurre pues se requiere un nmero predeciblemente grande de respuestas para
obtener la siguiente recompensa.
Programa de intervalo variable: en los programas de intervalo fijo las respuestas son
reforzadas si ocurren despus de que haya transcurrido una cantidad fija de tiempo, desde el
inicio del ensayo o ciclo del programa. Los programas de intervalo tambin puede ser
impredecibles. En un programa de intervalo variable (IV) las respuestas solo se refuerzan si
ocurren despus que ha trascurrido un lapso variable desde el inicio del ensayo o el ciclo
del programa.
Los programas de intervalo variable se encuentras en situaciones en que se necesita que
pase una cantidad imprescindible de tiempo para preparar el reforzador.
Igual que en los programas de intervalo fijo, el sujete tiene que realizar la respuesta
instrumental para obtener el reforzador. Los reforzadores no son gratuitos, solo se entregan
si el individuo responde despus que termino el intervalo variable. Los programas de IV
mantienen tasas estables y constantes de respuestas sin pausas regulares.
Programas de intervalo y disponibilidad limitada: en los programas simples de intervalo,
una vez que el reforzador est disponible permanece as hasta que se realiza la respuesta
requerida, sin importar cuanto tiempo lleve.
Una vez que el reforzador est listo, permanece disponible hasta que se emite la respuesta.
En el caso de los programas de intervalo fuera del laboratorio, es ms comn que los
reforzadores solo estn disponibles por periodos limitados.
Tiempo de restriccin que permanece asequible un reforzador se conoce como
disponibilidad limitada. Las restricciones de disponibilidad limitada pueden aadirse a los
programas de intervalo fijo y de intervalo variable.
Comparacin de los programas de razn y de intervalo.
Tanto en los programas de razn fija como en los de intervalo fijo hay una pausa
posreforzamiento despus de cada entrega del reforzador. Adems, tanto RF como IF
producen tasas altas de respuesta justo antes de la entrega del siguiente reforzador. En
contraste, los programas de razn variable y de intervalo variable mantienen tasas
constantes de respuesta, sin pausas predecibles.
Reforzamiento de los TER
La primera explicacin de las tasas ms altas de respuesta que se observan en los
programas de razn se enfoca en el espacio o intervalo entre una respuesta y la siguiente.
Se conoce como el tiempo entre respuestas (TER).
Si el sujeto es reforzado por una respuesta que ocurre poco despus de la precedente,
entonces se refuerza un TER corto y los TER cortos se hacen ms probables en el futuro.
Por otro lado, si el sujeto es reforzador por una respuesta que termina un TER largo,
entonces se refuerza un TER largo y este tipo de TER se hace ms probable en el futuro. Un
sujeto cuyos tiempos entre respuestas son principalmente cortos est respondiendo a una
tasa elevada. En contraste, un sujeto con tiempos entre respuestas predominantemente
largos est respondiendo a una tasa baja.
En un programa de razn no existen restricciones temporales y entre ms rpido complete
el participante la razn requerida, ms pronto recibir el reforzador. En consecuencia, un
programa de razn favorece que no se espere demasiado entre respuestas y apoya tiempos
entre respuestas cortos. Los programas de razn refuerzan diferencialmente tiempo entre
respuestas cortos.
En los programas de intervalo no resultan ventajosos los tiempos entre respuestas cortos, de
hecho, estos programas favorecen una espera ms larga entre respuestas.
Funciones de retroalimentacin
La relacin entre las tasas de respuestas y las tasas de reforzamiento calculadas para una
sesin experimental completa o un periodo prolongado. Funcin de retroalimentacin
porque se considera que el reforzamiento es la retroalimentacin o consecuencia de la
respuesta.
Dado que en los programas de razn el nico requisito para el reforzamiento es dar cierto
nmero de respuestas, entre ms rpido complete el sujeto la razn requerida, ms pronto
obtiene el siguiente reforzador. La tasa de respuestas tiene una relacin directa con la tasa
de reforzamiento. Entre mayor sea la tasa de respuestas ms reforzadores recibir el sujeto
por hora y mayor ser su tasa de reforzamiento.
La funcin de retroalimentacin para un programa de razn es una funcin lineal creciente
y no tiene lmite. Los programas de intervalo establecen un lmite superior al nmero de
reforzadores que puede obtener un sujeto.
Conducta de eleccin: programas concurrentes
Los programas de reforzamiento descritos hasta ahora estaban orientados hacia una sola
respuesta, as como a su reforzamiento.
Los programas concurrentes permiten la medicin continua de la eleccin, pues el
organismo tiene la libertad para cambiar entre las alternativas de respuesta en cualquier
momento, varias opciones de respuesta.
Medidas de la conducta de eleccin
La eleccin de un individuo en un programa concurrente se refleja en la distribucin de su
conducta entre las dos alternativas de respuesta, lo cual puede medirse de varias maneras.
Una tcnica comn es calcular la tasa relativa de respuestas en cada alternativa. Se divide la
tasa de respuestas emitidas en la tecla izquierda entre la tasa total de respuestas (tecla
izquierda ms tecla derecha)
C1/ (C1+Cd)
Si la paloma picotea con la misma frecuencia en las dos teclas de respuesta, la razn ser
0.5.
La forma en que un organismo distribuye su conducta entre las dos alternativas de respuesta
es influida en gran medida por el programa de reforzamiento en efecto, para cada respuesta.
El ave puede obtener ms reforzadores picoteando en ambos lados.
La tasa relativa de reforzamiento obtenida en cada alternativa de respuesta puede calcularse
de manera similar a la tasa relativa de respuestas. La tasa de reforzamiento obtenida en la
tecla derecha es rd. Por lo tanto la tasa relativa de reforzamiento obtenida en la tecla
izquierda ser r1 divido entre la tasa total de reforzamiento (la suma de la tasa de
recompensas obtenidas en la tecla izquierda y la tasa de recompensas obtenidas en la tecla
derecha)
r1/(r1+rd)
La ley de igualacin
Hernstein. La tasa relativa de respuestas en una alternativa igualaba la tasa relativa de
reforzamiento obtenida en esa alternativa. La relacin como una ley de la conducta, la ley
de igualacin.
La tasa de respuestas o de conducta (C) y la tasa de reforzamiento (r) en una alternativa se
expresan como una proporcin de las tasas totales de respuestas y de reforzamiento, de la
siguiente manera:
C1/(C1+Cd)= r1/(r1+rd)
Las tasas relativas de respuesta igualan las tasas relativas de reforzamiento. La idea ms
importante surgida de la ley de igualacin es que la tasa de una respuesta particular no
dependa nicamente de la tasa de reforzamiento de esa respuesta. El hecho de que una
conducta ocurra con mucha o poca frecuencia no solo depende de su propio programa de
reforzamiento, sino tambin de las tasas de reforzamiento de otras actividades que el
individuo puede realizar. Un determinado programa simple de reforzamiento, que es muy
eficaz en un ambiente pobre en recompensas, puede tener poco impacto si existen fuentes
alternativas de reforzamiento.
Subigualacin, sobreigualacin y sesgo de respuesta
La ley de igualacin indica con claridad que las elecciones no se hacen de manera
caprichosa, sino que son una funcin ordenada de las tasas de reforzamiento.
Las tasas relativas de respuesta no siempre igualan con exactitud las tasas relativas de
reforzamiento.
La mayor parte de los casos en que la conducta de eleccin no se ajusta perfectamente a la
relacin de igualacin puede adecuarse mediante la adicin de dos parmetros p y s.
El parmetro s representa la sensibilidad de la conducta de eleccin a las tasas relativas de
reforzamiento para las alternativas de respuesta. Cuando la igualacin es perfecta s es igual
a 1. Las tasas relativas de respuesta son una funcin directa de las tasas relativas de
reforzamiento. La desviacin ms comn de la igualacin perfecta implica una menor
sensibilidad de la conducta de eleccin a las tasas relativas de reforzamiento, subigualacion.
Advierta que si el exponente s es menor de uno, el valor del trmino que representa las
tasas relativas del reforzador (ra/rb) se vuelven ms pequeo, lo que indica la menor
sensibilidad a la tasa relativa de reforzamiento.
La subigualacion se reduce si hay menos reforzamiento por cambiar de una alternativa de
respuesta a la otra y si los sujetos tienen ms experiencia con el procedimiento de eleccin.
El parmetro p representa el sesgo (o preferencia) de respuesta. el sesgo de respuesta
influye en la eleccin cuando las alternativas de respuesta requieren diferentes cantidades
de esfuerzo o si el reforzador que se proporciona a una respuesta es mucho ms deseable
que el que se ofrece a la otra respuesta. La preferencia (o sesgo) por una respuesta o un
reforzador sobre los otros da por resultado que se responda ms en el lado preferido y es
representada por un valor ms altor del parmetro del sesgo o preferencia (p).
La ley de igualacin y los programas de reforzamiento
Puede considerarse que incluso las situaciones de una sola respuesta involucran una
eleccin entre realizar la respuesta especificada, y participar en otras actividades posibles.
El reforzamiento total en un experimento, con un programa simple incluye tanto las
recompensas extrnsecas programadas como las otras fuentes no programadas de
reforzamiento. Esas consideraciones permiten aplicar la ley de igualacin a los programas
de reforzamiento con una sola respuesta.
Mecanismos de la ley de igualacin
La ley de igualacin describe la forma en que los organismos distribuyen sus respuestas en
una situacin de eleccin, pero no explica que mecanismo son responsables de esta
distribucin de la respuesta.
La ley de igualacin se plantea en trminos de tasas de respuesta y de reforzamiento
promediadas a lo largo de toda la sesin experimental, pero ignora cundo se realizan
respuestas individuales. Ignoran lo que podra ocurrir a nivel de las respuestas individuales,
teoras molares. Estas explican conglomerados de respuestas, tienen que ver con la
distribucin total de respuestas y reforzadores en las situaciones de eleccin.
Lo que sucede a nivel de las respuestas individuales y consideran que la relacin de
igualacin es el resultado neto de esas elecciones individuales, teoras moleculares.
Igualacin y maximizacin de las tasas de reforzamiento
Las explicaciones de la conducta de eleccin sometidas a la ms exhaustiva investigacin
se basan en la idea intuitivamente razonable de que los organismos distribuyen sus
actividades entre las alternativas de respuesta de modo que puedan recibir la mayor
cantidad posible de reforzamiento en la situacin.
Maximizacin molecular
Los organismos siempre eligen la alternativa de respuesta que tenga mayor probabilidad de
ser reforzada en el momento.
Cuando dos programas A y B, estn en vigor al mismo tiempo, el sujeto cambia del
programa A al programa B a mediad que se incrementa la probabilidad de reforzamiento en
el programa B.
Shimp propuso que la relacin de igualacin es un producto secundario del cambio atinado
cuando la probabilidad de obtener reforzamiento en la tecla de la respuesta alternativa se
hace mayor que la probabilidad de ser reforzado en la tecla de respuesta actual.
Maximizacin molar
Suponen que los organismos distribuyen sus respuestas entre varias alternativas de modo
que se maximice la cantidad de reforzamiento que obtiene a largo plazo, aun cuando no se
especifica con claridad que tan largo de ser ese plazo. Las molares se orientan en
conglomerados de conducta emitida en el curso de algn periodo, usualmente la duracin
total de la sesin experimental ms que en las respuestas individuales de eleccin.
En muchas situaciones la maximizacin molar predice con precisin los resultados de los
procedimientos de eleccin, aunque ciertos hallazgos presentan dificultades para las teoras
de maximizacin global.
Mejoramiento
El mejoramiento opera en una escala entre los mecanismos moleculares y molares.
El trmino mejoramiento se refiere a hacer que algo sea mejor, no a elegir la mejor
alternativa en ese omento (maximizacin global). Se refiere a la meta mas modesta (o
inocente) de lograr que la situacin mejore. Mejor de lo que haba sido en el pasado
reciente.
Tasa local de respuesta y de reforzamiento. Las tasas locales se calculan solo para el
periodo que el sujeto dedica a una alternativa de eleccin particular. La tasa loca de
respuesta en A se calcula dividiendo la frecuencia de respuesta en A entre el tiempo que el
sujeto dedique a responder en A. esto contrasta con la razn total, que se calcula dividiendo
la frecuencia de respuesta en A entre la duracin completa de la sesin experimental. La
tasa local de una respuesta siempre es mayor que su tasa total.
La teora del mejoramiento supone que los organismos cambian de una alternativa de
respuesta a otra para mejorar la tasa local de reforzamiento que reciben. El mecanismo de
mejoramiento resulta en igualacin.
Eleccin compleja
En un programa estndar de reforzamiento concurrente se dispone al mismo tiempo de o
dos o ms alternativas de respuesta, pudindose cambiar, en cualquier momento de una a la
otra.
Se dice que la gente carece de autocontrol si elige recompensas pequeas a corto plazo en
lugar de esperar por un beneficio mayor pero demorado.
Programas encadenados concurrentes
Programa de reforzamiento encadenado concurrente. Los sujetos preferirn un programa de
reforzamiento de razn variable (que ofrece variedad en la cantidad de respuestas
requeridas para obtener los reforzadores sucesivos) a un programa de razn fija (que
requiere el mismo nmero de respuestas por reforzador). Un programa de reforzamiento
encadenadoconcurrente implica dos etapas o eslabones, la primera etapa se conoce como
eslabn de eleccin, en este se permite que el participante elija entre dos programas
alternativos emitiendo una de dos respuestas. Eslabn terminal, una vez que el participante
hace una eleccin se queda con este hasta que concluya el eslabn terminal del programa.
Los programas encadenados concurrentes involucran eleccin con compromiso.
El patrn de respuesta que ocurre en el componente terminal de un programa encadenadoconcurrente es el caracterstico del programa de reforzamiento que se est ejecutando
durante ese componente.
La preferencia por el programa RV es motivada por el hecho de que en ocasiones un

programa RV proporciona reforzamiento por relativamente pocas respuestas.
La consecuencia por responder durante el eslabn inicial (eleccin) de un programa
concurrente no es el reforzador primario, sino la entrada a uno de los eslabones terminales.
La consecuencia inmediata de la respuesta en el eslabn inicial es un estmulo asociado con
el eslabn terminal que se eligi. Como este estmulo est presente cuando se entrega el
reforzador primario ele estimulo del eslabn terminal se convierte en un reforzador
condicionado. Un programa concurrente es uno en que las respuestas en el eslabn inicial
son reforzadas con la presentacin de un reforzador condicionado. Los programas
encadenado concurrentes proporcionan una herramienta til para el estudio del
reforzamiento condicionado
La conducta de eleccin es regida por los programas del eslabn termina y el programa que
este en efecto en el eslabn inicial.
Estudios sobre el autocontrol
El autocontrol frecuentemente es una cuestin para elegir una recompensa grande
demorada sobre otra inmediata y pequea.
Procedimiento de eleccin directa. Procedimiento encadenado concurrente.
Las preferencias cambian a favor de la recompensa demorada grande a medida que se exige
que los participantes esperen ms tiempo para recibir cualquiera de las recompensas
despus de hacer su eleccin. Si las recompensas son entregadas poco despus de una
respuesta de eleccin, los sujetos, por lo general, prefieren la recompensa pequea e
inmediata.
Reduccin del valor y explicaciones del autocontrol
El valor de un reforzador se reduce segn el tiempo que tenga que esperar para recibirlo.
Funcin de descuento del valor.
El valor de un reforzador (V) se relacin directamente con la magnitud de la recompensa
(M) e inversamente con la demora de la recompensa (D) de acuerdo con
V=M/(1+KD), donde K es el parmetro de la tasa de descuento. Funcin hiperblica de
decaimiento. Si el reforzador se entre sin demora (D=0) su valor se relaciona directamente
con su magnitud. Entre ms tiempo se demore el reforzador, menor ser su valor.
Como el valor de la recompensa al principio disminuye con rapidez dadas las demoras
involucradas en T1, el valor de la grande es menor que el valor de la pequea. El modelo
predice que si la eleccin ocurre en T1 se preferira la recompensa pequea (opcin
impulsiva). Con demoras mayores las funciones de descuento se cruzan. El valor de ambas
recompensas es mejor en T2 que en T1 porque T2 implica demoras ms largas.
Advierta que en T2 el valor de la recompensa grande ahora es mayor que el de la pequea.
Si la eleccin se hiciera en T2 se preferira la recompensa grande (opcin de autocontrol)
Funciones de descuento del valor e impulsividad en la conducta humana
El parmetro K indica la rapidez con que disminuye el valor de la recompensa en funcin
de la demora. Entre ms pronunciada sea la funcin de descuento de la demora de una
persona, ms difcil le ser mostrar autocontrol y tambin ms impulsiva resultara ser.
Puede ensearse el autocontrol?
Una persona que no puede tolerar el tiempo de espera requerido para obtener recompensas
grandes tiene que renuncia a la obtencin de esos reforzadores.
El autocontrol es un componente crucial de la socializacin y el ajuste emocional
Este s se puede ensear.
Entrenar a la gente con recompensas demoradas parece tener efectos generalizados para
incrementar su tolerancia por las recompensas demoradas.

Programas de reforzamiento: razón vs intervalo

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Programas de reforzamiento: razón vs intervalo

Diunggah oleh

Hak Cipta:

Format Tersedia

Captulo 6: Programas de reforzamiento y conducta de eleccin

Un programa de reforzamiento es la regla o criterio que determina que instancia de la

La pendiente de la lnea dibujada por el registrador acumulativo representa la tasa de

una respuesta sea reforzada se manteniendo constante de un ensayo al siguiente. Los

La preferencia por el programa RV es motivada por el hecho de que en ocasiones un

Anda mungkin juga menyukai