Anda di halaman 1dari 38

El Acondicionamiento

Operante
(Aprendizaje Operante,
Aprendizaje Estímulo-Respuesta
Aprendizaje de Skinner)
Conceptos Importantes
• Estímulos
• Respuesta Operante
• Aprendizaje vs. Extinción
• Consecuencias
• La Ley de Efecto Propuesta por Thorndike
• Refuerzos
• Castigos
• Refuerzo constante o parcial
• Itinerarios de Refuerzos usados por Skinner
• Efectos de la magnitud del refuerzo o castigo
• Efectos del retraso del refuerzo o castigo
• Generalización del aprendizaje
• Aprendizaje de discriminación
• Moldeamiento
Estímulos
• Eventos externos o internos que son
notados por un organismo.
• Ejemplos: ver la luz roja, ver una puerta
cerrada, “sentir” hambre”, ver un billete de
$20 en el piso.
Respuesta Operante
• Acciones del organismo referente a un
estímulo en particular y que hace algo
(“opera en”) en el ambiente.
• Ver luz roja – frenar el carro
• Ver puerta cerrada – abrir la puerta
• Sentir “hambre” – ir a la cafetería
• Ver un billete de $20 en el piso - recogerlo
Aprendizaje vs. Extinción
• La fase en la cual se adquiere la
respuesta operante se le llama
“adquisición” y la fase en la cual se
pierde la respuesta operante se llama
“extinción”.
• Durante adquisición el refuerzo es
administrado siguiendo a la respuesta.
• Durante extinción, el refuerzo nunca más
es administrado siguiendo a la respuesta.
Consecuencias
• Se refiere a lo que pasa siguiendo a la
acción tomada.
• Ver luz roja – frenar – evitar accidente
• Ver puerta cerrada – abrir la puerta –
entrar en la clase
• Sentir hambre – ir a la cafetería –
saciamos el hambre
• Ver billete de $20 – recogerlo – nos
alegramos
• Las consecuencias pueden ser positivas o
negativas.
• Las consecuencias pueden ser inmediatas
o pueden ser retrasadas.
• Las consecuencias pueden variar en
magnitud
La Ley de Efecto
de Throndyke
• Si la respuesta a un estímulo produce
consecuencias positivas para el organismo, la
probabilidad de esa respuesta a ese estímulo en
un futuro aumentará.
• Si la respuesta a un estímulo produce
consecuencias negativas para el organismo, la
probabilidad de esa respuesta a ese estímulo en
un futuro se reducirá.
• Otra manera de ver la Ley de Efecto:

Respuestas que son seguidas de consecuencias


positivas aumentan la probabilidad de que ese
organismo haga la misma respuesta cuando, en
un futuro, vuelva a ver a ese estímulo.

Respuestas que son seguidas de consecuencias


negativas causan que esa respuesta a ese
estímulo tienda a no ocurrir en el futuro
Ejemplo de Consecuencia Positiva
• Juan ha notado a una joven, María, en una de
sus clases y la quiere conocer.
• Él se asegura que está frente a la puerta del
salón para que cuando María llegue, él poder
sonreirle.
• María llega y va a entrar (estímulo), Juan le
sonríe (respuesta operante), María sonríe de
vuelta y le habla (consecuencia positiva).
• La probabilidad de que Juan sonría cuando no
conoce a la persona aumenta en el futuro.
Ejemplo de Consecuencia
Negativa
• Juan ha notado a una joven, María, en una de
sus clases y la quiere conocer.
• Él se asegura que está frente a la puerta del
salón para que cuando María llegue, él poder
sonreírle.
• María llega y va a entrar (estímulo), Juan le
sonríe (respuesta operante), María lo mira mal y
le vira la cara (consecuencia negativa).
• La probabilidad de que Juan soría cuando no
conoce a la persona baja en el futuro.
Refuerzos
• La Ley de Efecto lo que hace es definir los
refuerzos y los castigos. Refuerzo es
cualquier consecuencia que aumenta la
probabilidad de una respuesta operante.
• Los refuerzos pueden ser positivos o
negativos, ambos aumentan la
probabilidad de la respuesta operante.
Refuerzo Positivo
• El refuerzo Positivo aumenta la
probabilidad de la respuesta operante
porque el organismo quiere obtener esa
consecuencia.
• Ejemplo: Juana le dice a Luis (su hijo de
8 años) que si recoge su cuarto le dará $5
para que vaya a comprar un juguete. Luis
recoge el cuarto para obtener la
consecuencia (los $5).
Refuerzo Negativo
• El refuerzo Negativo aumenta la
probabilidad de la respuesta operante
porque el organismo quiere evitar esa
consecuencia.
• Ejemplo: Juana le dice a Luis (su hijo de
8 años) que si no recoge su cuarto no lo
dejará ver el TV esa noche. Luis recoge el
cuarto para evitar la consecuencia (no
poder ver TV esa noche).
CASTIGOS
• Un castigo es cualquier consecuencia que
reduce la probabilidad de que la
respuesta operante ocurra en el futuro.
• Como en el caso de los refuerzos, los
castigos pueden ser positivos o negativos,
y ambos reducen la probabilidad de la
respuesta operante ocurra en futuro.
Castigo Positivo
• En el caso del castigo positivo la respuesta
operante no ocurre para así evitar recibir una
consecuencia negativa de la respuesta
operante.
• Ejemplo: María le dice a su hijo de 8 años “Si
no dejas de molestar a tu hermanito, te sentaré
en una silla por una hora”.
El hijo de María deja de molestar a su hermanito
para no recibir la consecuencia de que lo
sienten en una silla por una hora.
Castigo Negativo
• En el caso del castigo negativo la
respuesta operante no ocurre para evitar
perder algo positivo.
• Ejemplo: María le dice a su hijo de 8 años
“Si no dejas de molestar a tu hermanito,
no te dejaré ver TV esta noche”.
El hijo de María deja de molestar a su
hermanito para evitar perder de ver la TV
esa noche.
OTRA MANERA DE VERLOS
REFUERZO POSITIVO
Probabilidad de la respuesta aumenta
para obtener consecuencia.
REFUERZO NEGATIVO
Probabilidad de la respuesta aumenta
para evitar consecuencia
CASTIGO POSITIVO
probabilidad de la respuesta disminuye
para evitar recibir consecuencia
CASTIGO NEGATIVO
probabilidad de la respuesta disminuye
para evitar perder algo positivo
No Confundir Refuerzos Negativos
con los Castigos Negativos
• Si notan, las consecuencias del ejemplo de refuerzo
negativo y castigo negativo son iguales.
• Pero lo que sucede con la respuesta operante NO ES
IGUAL.
• En el caso del refuerzo negativo, la probabilidad de la
respuesta aumenta.
(el hijo de María recoge su cuarto)
• En el caso del castigo negativo, la probabilidad de la
respuesta disminuye.
(el hijo de María deja de molestar a su hermanito)
Refuerzos Constantes y Refuerzos
Parciales
• Las consecuencias positivas que causan que una respuesta
operante aumente en probabilidad pueden ocurrir de varias
maneras.
• Constante (“continuous”): si cada vez que la respuesta ocurre,
ocurre también la consecuencia positiva. Ejemplo: cada vez que
una rata aprieta una palanca, la rata recibe comida.
• parcial: si no siempre que la respuesta ocurre, ocurre la
consecuencia positiva. En vez de siempre, la consecuencia puede
que ocurra la mitad de las veces (50% parcial), la tercera parte de
las veces (33% parcial), la cuarta parte de las veces (25% parcial),
una décima parte de las veces (10% parcial) y así. Ejemplo: cada
10 veces que una rata aprieta la palanca, recibe comida.
El Efecto de Refuerzo parcial
(Partial Reinforcement Effect)
• Se ha estudiado en profundidad la diferencia
entre dar refuerzo constante o refuerzo parcial.
Dos efectos han sido notados en la literatura. El
efecto de refuerzo parcial durante adquisición y
el efecto de refuerzo parcial durante extinción.
El primero no se confirma consistentemente en
los estudios, pero el segundo (efecto de
refuerzo parcial durante extinción) si es
confirmado consistentemente.
Efecto de Refuerzo parcial en
Adquisición
• El efecto del refuerzo parcial en adquisición es que los
organismo que reciben refuerzos parcials tienden a
formar vínculos más fuertes entre el estímulo y la
respuesta.
• Este vínculo fuerte se demuestra durante la extinción,
pues si comparamos a dos grupos, uno que aprendió
con refuerzo constante y el otro que aprendió con
refuerzo parcial, podemos ver que el grupo parcial
persiste por mucho más tiempo emitiendo la respuesta
operante. Los datos indican que mientras más bajo el %
de refuerzo parcial, más persistencia de la respuesta
operante (pudiérase decir que lo aprendido con un
refuerzo parcial es díficil de extinguir).
Itinerarios Usados por Skinner
• Skinner usó 4 diferentes itinerarios mayormente e indicó las
diferencias de los efectos de los itinerarios en la respuesta operante
• Primero, él diferenció entre la categoría de “razón” y de “intérvalo”.
La categoría de “razón” se basa en cuántas respuestas hace el
organismo y la de “intérvalo” se basa en cuanto tiempo ha pasado
desde la última respuesta.
• Segundo, él diferenció entre dos maneras de decidir “cuándo” dar el
refuerzo. La categoría “fijo” se refiere a siempre se da refuerzo cada
vez que el organismo emite un número específico de respuesta o
pasa un período de tiempo específico.

La categoría “variable” se refiere a que el refuerzo va a ocurrir, en


promedio, cada un número específico de respuestas o pasa un
período específico de tiempo. Pero los refuerzos en particulares
ocurren aleatoriamente (en número de respuestas o intérvalos de
tiempo).
Itinerarios de RAZÓN
• De Razón: Basados en # de respuestas.

Razón Fija (RF): se da el refuerzo cada vez que el organismo emite un número
específico de respuestas.

Ejemplo: Itinerario de RF5: Se refuerza la respuesta #5, la #10, la #15, la #20, la #25,
la #30 y así.

Razón Variable (RV): se da el refuerzo en promedio, cada cierto número de


respuestas, pero en cuál respuesta en particular es aleatorio.

Ejemplo: Itinerario de RV5: Primero hay que saber cuántas respuestas van a haber en
el estudio. Digamos que habrán 100 respuestas en total. Si el promedio de refuerzo
es cada 5 respuestas, van a haber 20 refuerzos en total durante el estudio (100 entre
5=20). Las respuestas serán de la 1 a la 100, y sabemos que reforzaremos a 20 de
ellas. Las 20 respuestas de la 1 a la 100 se escogen al azar. Un ejemplo sería, se
refuerza la respuestas: 4, 9, 15, 17, 22, 33, 35, 40, 48, 51, 55, 60, 62, 70, 71, 82,
85, 90, 92, y 98. Lo importante es que la respuesta específica que se va reforzar fue
escogida al azar.
Itinerarios de INTÉRVALOS
• De Intérvalos: Basados en el período de tiempo desde que se emitó la última
respuesta.

Intérvalo Fijo (IF): se da el refuerzo cada vez que el organismo emite una respuesta cuando se
cumple un período de tiempo específico.

Ejemplo: Itinerario de IF5 seg.: Se refuerza la primera respuesta que ocurre después de pasar 5
segundos, 10 segundos, 15 segundos y así.

Intérvalo Variable (IV): se da el refuerzo cuando pasa un período de tiempo específico, en


promedio, pero en cuál período en particular es aleatorio.

Ejemplo: Itinerario de IV5 seg.: Primero hay que saber cuánto tiempo va a durar el estudio.
Digamos que el estudio durará 2 minutos. Si el promedio de refuerzo es cada 5 segundos, van a
haber 24 refuerzos en total durante el estudio (2 min. x 60 seg. entre 5 seg.=24 refuerzos). Los
intérvalos serán de 1 seg. a 120 seg. (1 seg, 2 seg, 3 seg, 4 seg, etc.), y sabemos que
reforzaremos a 24 de ellos. Los 24 intérvalos del segundo 1 al segundo 120 se escogen al azar.
Un ejemplo sería, se refuerza la primera respuesta que ocurre después del segundo número: 4,
9, 15, 17, 22, 33, 35, 40, 48, 51, 55, 60, 62, 70, 71, 82, 85, 90, 92, 98, 102, 105, 108, 115. Lo
importante es que el período de tiempo específico que se va reforzar fue escogido al azar.
Efectos de Itinerario en la
Respuesta Operante
• Skinner se interesó mucho en ver cuáles eran los efectos de los diferentes itinerarios en la
respuesta operante del organismo en el laboratorio (él usó usualmente palomas).
• Cómo Leer Gráficas de Aprendizaje:

1. Los ejes de la gráfica:

El eje “Y” es el vertical y es de costumbre usarlo para poner la conducta observada (la variable
dependiente en los estudios experimentales.

El eje “X” es el horizontal y es de costumbre usarlo para poner el número de la respuesta o el


número del intérvalo de tiempo (la variable independiente en estudios experimentales).
Skinner usó el número de respuestas “acumuladas”, por lo tanto, las gráficas siempre suben
hacia la derecha.
Gráfica de Itinerario de Razón
Variable

Número de
respuestas
acumuladas

Itinerario de Razón Variable


Gráfica de Itinerario de Razón Fija

Número de
respuestas
acumuladas

Itinerario de Razón Fija


Gráfica de Itinerario de Intérvalo
Variable

Número de
respuestas
acumuladas

Itinerario de Intérvalo Variable


Gráfica de Itinerario de Intérvalo
Fijo

Número de
respuestas
acumuladas

Itinerario Intérvalo Fijo


Interpretación de las Gráficas
• Mientras más fuerte es el vínculo entre el estímulo y la
respuesta operante, más vertical es la línea. Como
podemos ver, la línea que indica aprendizaje intenso
sería la correspondiente a la gráfica de razón variable.
• Efecto “escalonado” del itinerario de intérvalo fijo: Si
notan, en esa gráfica, el organismo tiene un período de
tiempo que no emite respuestas (las partes donde la
línea es horizontal), seguido por un período corto de
respuestas rápidas. Este es efecto es típico de los
intérvalos fijos, pues, como el refuerzo se da
exactamente cada cierto período de tiempo, el
organismo aprende a solo responder cuándo el período
está por acabarse.
Efectos de la Magnitud del
Refuerzo
• También se ha estudiado en profundidad
la diferencia en la magnitud del refuerzo
dado como consecuencia de la respuesta
operante.
• Los datos de los estudios indican que
mientras más magnitud de refuerzo, más
fuerte es el vínculo y más rápido es la
adquisición de la respuesta operante.
Efectos del Retraso del Refuerzo
• Otra área que ha sido estudiada en profundidad es el
efecto en el aprendizaje del retraso del refuerzo.
• Refuerzo que sigue inmediatamente a la respuesta
operante es el que más efectivo es en acondicionar la
respuesta.
• Si hay un lapso de tiempo (retraso) entre la respuesta y
el refuerzo, mientras más largo es el lapso, menos
efectivo es el refuerzo en acondicionar la respuesta.
• Se ha visto también que lo mismo aplica a los castigos.
Los castigos más efectivos son los que suceden
inmediatamente siguiendo a la respuesta. Mientras más
largo es el lapso de itempo, menos efectivo es el
castigo.
Generalización del Aprendizaje
Operante
• Una respuesta operante asociada a un estímulo
en particular también se emite a estímulos
parecidos al original. Por ejemplo, un niño que
aprende a temer a la autoridad de su padre,
puede también estar demostrando temor a
estímulos generalizados, como “personas en
posiciones de autoridad (maestros, policías etc).
• En general, pudiéramos decir que la
generalización “extiende” la respuesta a otros
estímulos similares.
Aprendizaje Discriminante en el
acondicionamiento operante
• Discriminación es lo opuesto de generalización. En esta
situación el organismo aprende a no responder a
estímulos similares y solamente responder a un estímulo
en particular con una respuesta en particular.
• “Estímulo Discriminante” es el nombre que se le da a un
estímulo que señala que una respuesta en particular es
la que se reforzará. Por ejemplo, cuando la luz de
tránsito pone la luz “roja” esa luz roja es el estímulo
discriminante que indica que la respuesta reforzada es
“frenar”.
• Otro ejemplo: cuando el profesor entre en la clase
los/las estudiantes dejan de conversar y prestan
atención. El estímulo discriminate (profesor) al aparecer,
indica que la respuesta reforzada es prestar atención.
Moldeamiento
• Hasta ahora hemos considerado solo respuestas simples como “apretar” una
palanca, “frenar” a luz roja, etc. Pero pudiéramos preguntarnos cómo el aprendizaje
operante propone que se aprende una respuesta mucho más compleja, como hacer
que nuestra mascota nos traiga el periódico que está en el patio.
• “Moldeamiento” es el proceso en el cual se refuerzan respuestas cada vez más
aproximadas a la respuesta que queremos que ocurra. El perro no sabe lo que
queremos, por lo tanto tenemos que empezar con la respuesta más simple que es,
que mire hacia el patio. Esto lo logramos reforzando al perro solo cuando está
mirando hacia al patio (usaríamos un itinerario parcial, usando galletitas de perro
como refuerzo). Cuando ya logramos que el perro mire hacia el patio
consistentemente, dejamos de reforzar esa respuesta y ahora comenzamos a
reforzar lo próxima aproximación, que sería, reforzar la respuesta de “caminar” hacia
el patio. Cuando ya logramos que el perro camine hacia el patio, lo dejamos de
reforzar y comenzamos a reforzar la próxima respuesta aproximada, que sería
“pararse” sobre el periódico. Cuando ya logramos que el perro se pare sobre el
periódico, comenzamos a reforzar el cogerlo con la boca. Cuando ya logramos que lo
coga con la boca consistentemente, empezamos a reforzarlos por caminar hacia
nosostros, y después, por soltar el periódico en nuestra mano. Así, paso a paso, la
respuesta compleja de traernos el periódico del patio se acondiciona. De esta
manera es como entrenan a los animales que vemos en las películas y programas
de TV.
• Si ya leyó el material del texto y se siente
preparado/a para el quiz, pase a cogerlo.

Anda mungkin juga menyukai