connecting...
4 NEMberから投げnemがありました!!

報酬の不確実性と時間的遅延 -経済畑の意見が気になるやつ-

4.97
xem

 

学習心理学において、強化子(好子)という概念がある。

 

これは、個体が特定の環境下においてある行動を示した後に提示することでその行動の発生を増加させる働きを持つ刺激を指す。

 

そして

環境→行動→強化子

という一連の試行を経ることで、その個体がその行動を獲得すること、ないし「そこでそれをすれば何かしら良いことが起こる」という認識が内的に生じることを学習と呼ぶ。

 

話は逸れるが、個人的に好子という表現は、この刺激について「社会通念上好ましいものに限る」という誤解を招くような気がするためあまり使わないようにしている。

 

例えば、変質者が女性の前で陰部を露出した際、女性が強烈なビンタをかましたとして、その後もむしろ積極的にボロンッ!と出し続けて迫っているのであれば、その変質者にとっては「ビンタ」は露出行為の好子として機能しているのである。

 

せめて、叱られて伸びる子であれば、引っ叩かれて息子を伸ばすこともなかったのに...と悔やまれる。

 

(まぁ、多くの場合は通念的に理にかなったものとも重なるわけだが...)

 

それはさておき、強化子(好子)としての報酬の提示はタイミングがキモであるらしく、特に重要な要素の一つに時間的遅延を極力無くすというテクニックが求められるようである。

 

ある状況で何かをした後、すぐに望ましい結果が出る(と思われる)ならばまたそれを行うようになる=学習が成立するだろうし、逆になかなか結果が出ないのであれば学習は成立し辛いという事だろう。

 

痩せたい百貫デブも、1食断食する(「何かをしない」という選択をすることは行動ではないという原理主義者もいるらしいが...)ことで直ちに体重が半減するならば皆こぞって断食し始めるのだ。

世界から肥満問題の多くは消え失せ、ライザップも潰れるが、現実的にはそう簡単に痩せないからこそ、多数のデブが今日も今日とてデブライフを送っているのである。

 

さて、この例を借りるならば

痩せて健康的な体型が手に入るという「未来の報酬」の価値が割り引かれる現象

その要因としては、単純な時間的遅延だけではなく、痩せるまでに要する労力や不確実性、その他挙げていくとキリがない程の様々なものが挙げられる。

 

ここで疑問が生じるのだが、果たして

「時間的遅延」というものそれ自体

が持つ、結果の価値を減衰させる力とは如何程のものなのだろうか?

いや、それ自体を測ることは可能なのだろうか?

 

というのも、「時間的遅延」と「不確実性」というのは完全に切り離すことが不可能であると感じるからである。

 

さすがに、ここまでくるとまるで膾を吹くような話ではあるが、例えば、1秒後に宇宙が消滅する可能性が棄却できないのは事実であろう。

 

況んや、1年後に自分が破産している可能性や、50年後に日本国が何処とは言わないがお隣の国に侵略されて紅に染まっている可能性など先ほどの例に比べれば十二分にあり得る。

 

より抽象的なことを考えるとする。

例えば、この世における時間というものは既に流れ終わっており、我々は単線なり複数路線なりそのレールの上を走り、一つまたは無限にあるその「時の終わり」に向かって現在進行形で移動しているのかもしれないが未だ本質はよくわからないなどと仮定したとしよう。

観察という行為が結果を決めるとしても、はたまた既にある形に決定しているとしても、そこを進む中でそれを感ずる個体にとっては結局一寸先は闇であり、二重の意味で「わからない」。

 

だからこそ、「結果が遅れる」という事象には、必然的に不確実性が付随せざるを得ない。

となると、報酬が遅延するということが学習の成立を妨げるのも、不確実性が増大するのが原因であり、時間は本質ではないのではないか?...

 

と結論づけたいところなのだが、そうは問屋が卸さない。

 

ここまでの推論を台無しにする知見がある。

 

なんと、鳩だろうがネズミだろうが、あるいは私だろうが、不確実な方がハマるのだ。

 

これは、学習心理学においてはVR、VI強化スケジュールという概念で説明される。

行動に対して、特定の反応回数ないし時間間隔に基づいた確率で報酬が提示されるが、あくまで決まった回数やタイミングで確実にそれを貰えるわけではない、という強化の手続きのことである。

 

人の世においては、主に賭博と呼ばれる行為がそれに当たる。

 

古今東西、道具やルールの移り変わりこそあれど、博打というものは常に人を魅了して止まないものである。

案の定、我が国においてもなんと古事記にすらその存在が確認される。

平安貴族は荘園を賭けて日々やんごとなきサイコロを投げつけ合い、また、我々現代人もなけなしのバイト代や生活保護費をパチンコやらソシャゲにひたすら突っ込む有様である。

 

そういえば、かつてクレッチマーという精神科医が、人間の体型と気質には関連性があり、その内、筋骨隆々とした人間にはてんかんの気があると述べた。

基本的に、そのような人々は強い信念を持った極端な道徳者や倹約家であることが多いらしい。

そして、その信念が極端化すると妄想に取り憑かれたり、暴走してひたすら賭博に走ることがあるとか...?

 

腐敗や堕落の象徴とされがちなギャンブルへの依存が、品行方正が極化した結果として生じることもあるという見方はある種面白くはある。

 

ふと、中華は明代末期の将軍、呉三桂の裏切りの話を思い出した。

 

彼は、明帝国の為に尽くす勇猛な将軍であり、都である北京の防衛を任されていたようだ。

当時の明は、度重なる周辺異民族からの侵攻への対処や豊臣秀吉による朝鮮出兵への対応に追われ、また内政においても権力闘争などが頻発し、もはや風前のともし火、結果的に彼が到着する前に既に賊軍の手により北京は陥落し、愛する女も失った。

 

そこで張り詰めていた糸が切れたのだろうか、なんと漢人でありながらこれもまた賊軍である満州人に急に寝返り、本来護るべき都である北京まで誘導するというなんとも破綻した行動を取ったのだ。

 

もしかしたら、行き過ぎた規範と矛盾した現実の乖離に耐えられなったことが彼をそうさせたのかもしれない。

 

閑話休題、VR、VIと対をなすものにFR、FI強化スケジュールという概念もある。

以下で、それらについても述べていく。

 

FR、FIは、特定の回数や時間そのものに応じて報酬が提示されるスケジュールであり、勿論、実際に与えられたことを確認するまでは真に確実だとは言えないものの、VR、VIのようなギャンブル的なスケジュールより確実性は上だろう。

 

そして、人はこれにイマイチハマり辛いのだ。

スタンプカードがスクラッチくじより射幸性が低く、客寄せパンダとして機能し辛いとか、あとは月の中頃〜月末辺りに仕事が鬱陶しくなるのもこれで説明され得る。

 

なお、回数を1回、時間を1秒といったように最小単位に設定するとどうなるか?

という疑問を持った方がいるかもしれない。

これは、序盤で取り上げた時間的遅延がないよう適切なタイミングで行われる強化であり、断食したらすぐ痩せるデブの例もそうだろう。

たしかに、初期の段階であれば行動に対してすぐにかつ確実に見返りがあった方が学習は成立しやすいと思われるが、これもまた贅沢な話で、毎回それが続くと報酬の価値が下がる、要は「飽きる」のだ。

 

だからこそ、荒唐無稽な話だが、先ほどの断食ダイエットに対して、既に成功体験がある人間がその後太るたびに断食ダイエットに手を出すようにさし向ける為には

「断食しても体重が減らないケース(不確実性)」

も体験させることが必要なのである。

 

 

 

 

 

以上の事柄を検討してみたところ、いくつか気になった点がある。

 

価値価値と言うが、そもそも

「報酬の価値が最も極大化するのはどんな場面か?」

と考えてみると、それは

「個体にそれが欠乏しており、かつ不確実であるものの、次に働きかけをした時にそれがもたらされる可能性がある状況下」

ではないか?

 

欠乏とは、文字通り飽和と対をなす状態である

これは人が何かを欲しがったり得るために働きかける上で最低限必要な条件なのだろう。

欠乏がなければ先に挙げたような行動もしないため学習も起こらないし、はじめは欠乏していた個体が行動した結果、欲しいものを得て学習したとして、既にそれが飽和しているならもう欲しがらない(少なくともしばらくは)のだ。

 

イケアで棚を買った人は、例えば、棚で性的に興奮する嗜好があるとかでない限りは明日もイケアに新しい棚を買いに行くことはまずないという話である。

 

(本棚を買った翌日のメルマガで更に本棚をオススメされたり、テレビ市場が無限に拡大すると読んでアクオスに投資し過ぎたら死にかけた某企業なども実際あるので、割と見落とされがちなのかもしれないが...)

 

ここで、プロスペクト理論における価値関数を参考にしたい。

損失は増えれば増えるほど主観的に価値がマイナスされていくのに対して、利益に関しては価値が飽和しやすく、ある程度まで得ると主観的な満足感が横ばいになることで有名な関数なのだが、今回注目するのはそこではない。

 

実は、利益に関しても、与えられ始めてすぐの段階では客観的にごくごく小さな利益量でもかなりの満足感を示すのだ。

 

空腹の際は大した料理でなくとも大変美味く感じるようなものだ。

欠乏の最中で与えられる初期の報酬というのは個体にとってそれだけ多大な威力を持っているのである。

 

しかし、実際に易々とそれが手に入るのなら有り難みは急激に消え失せるし、また確実に与えられるにしてもそこまでの道のりが明らかに長く険しいものであるならば嫌気がさし、行動のモチベーションが削がれ、それに連動して報酬も酸っぱいブドウと化す。

 

そう考えると、確実に報酬は与えられるが時間的な遅延が伴う選択肢より不確実だが常に一定確率で報酬が与えられる可能性がある選択肢の方が反応率が高くなる=魅力的だと見做されるのは、偏に特徴そのものがその理由であると言える。

つまり、時間的遅延はなく、働きかけに対して常に報酬が発生する可能性を持っているが、手に入りそうでなかなか思うようにそれが叶わない状態を維持させられるからだ。

 

これなら、それなりに欠乏を味わっていようが、期待が無くなることはまずない。

期待していれば行動も維持されるし、期待も行動も維持されているからこそ報酬の価値も酸っぱくならないのである。

 

さて、ここで先に示した

「時間的遅延には大きな不確実性が付随する。」

及び

「報酬の価値低下の本質的原因は不確実性であり、遅延による低下もそれで説明可能である」

という仮説について改めて考える。

 

①.確率的なリスクだけを持つ選択肢であれば、次に反応した時に報われる可能性があるのに対して、②.「未来に、確実にその報酬がそっくりそのまま貰える」という選択肢はタイムラグがある。

②は、未来は予測が困難である為、それが嘘であるかもとか踏み倒されるかもというような多大な不確実性が感じられるため、①の方を(どちらかといえば)魅力的であると見做す人が多いのではないか?

 

「不確実な選択肢」>「もっと不確実な選択肢」

という構図である。

 

価値関数の形から導いた先ほどの理由は比較的素直なのだが、こちらの場合「未来を過度に不確実なものと見做す」という姿勢の存在を前提として、①>②という嗜好のあり方も、時間的な不確実性が確率的な不確実性よりも過大に評価されたからという捻くれた説明をする事になる。

 

しかし、やはりこれは斜に構えすぎではないか?

そもそも、我々が待つことを嫌悪したり、あるいは待っている最中にそれにうんざりしたりする時、そこにこれから来る結果に対しての一抹の不安がある時も中にはあるだろうが、基本的に多くの場合は単に長時間待たされること自体への肉体、精神的な苦痛が大部分を占めているのではないか?

 

故に、遅延に不確実性が付随することを全否定はできないし、遅延自体の影響を切り離して測定するのが困難であることも理解できるものの、やはり遅延の影響も不確実性に一元化して捉えるのはあまりにも無理があると思われるため、遅延は遅延で価値を変動させるだけの影響力を持つ独立した一つの要因として捉える方が望ましいであろう。

 

また、不確実性は全く無いに越したことはないというのを至上命題として皆が共有しているとすると、確実かつ即時的に報酬が得られる選択肢が至高の価値を持つため、少なくとも飽きるまでは常にそれが選ばれ続けるはずだが、おそらく飽きるまでに要する試行の回数が著しく少ないだろうと思われる。

スポーツやゲームなどにルール上様々な制限が設けられているのはその為なのだろうか?

だからこそ人々を熱狂させるのであろう。

 

逆に、即時かつ確実に相手を打ち負かしたいのであればサッカーも遊戯王もいらないのだ。

そんな面倒な事をしなくても、瓶やら棒やらで完膚なきまでぶん殴れば「勝てる」からである。

 

しかし、そんな問答無用な戦いよりもルールある闘いに心躍らせる人々が多いという事から考えると、むしろ自ら不確実なものを求めているようにも見える。

一見不思議だが、感覚的に分からなくもない性質である。

 

さて、以下でいくつか補足を行いたい。

まず、テキ屋のクジにPS4など一台も入っていないように、①も本当に確率論かというとそれは表向きで、本当は嘘っぱちである可能性は十分にある。

しかし、これは認識のあり方の話なので、物理的にどうこうということそれ自体は特に問題ではない。

 

次に、価値を比較する際、便宜上はリスクと思われる諸々の影響を合算し、価値からその総和を引くという手段を用いたりするが、100gと1mを足し算引き算するのは本質的にはおかしな話であるように、おそらく今リスクとされるもの達はそれぞれ質的に等価ではないだろう。

認知科学において計量や計算をする際には、このような質的な目線も常に忘れずに持っておく必要があると個人的には思うのだ。

 

そして最後に、①に関して、遅延が0であるように書いたが、重箱の隅を突くと数秒単位の遅延は発生している以上、0でなく感じられる場合もあるかもしれない。

 

例えば、テキ屋の親父が不器用であり、クジを開くのに少々手こずったりしたら、子どもたちはやきもきするものであろう。

どうせ、紙製の伸びる剣やら変なキーホルダーやらしか当たらないのだが。

 

とにかく、認識に関しては外側から紋切り型に定義しようとすると様々な弊害が生じるので困ったものである。

 

ところで、行動経済学や社会心理学において、時間的遅延の影響を測定する為に行われる実験に

「遅延価値割引課題」

というものがある。

 

これは、未来の報酬と即時で貰える報酬を比較させ、等価だと感じる組み合わせを測定する課題である。

実験刺激には貨幣がよく用いられ、例えば

「1年後に貰える10000円」と等価なのは「今貰えるX円」

という結果が求められる。

 

一応、知能指数などと割引率の相関は示されているようであり、頭が悪い人ほど辛抱が足りないため利口な人と比較した時に即時的に貰えるX円の値が著しく低くなるなどといった知見はあるようだが、個人的に貨幣はこの実験の刺激としてあまり適切なものであるとは思えない。

 

なぜなら、貨幣価値自体が常に変動しているからである。

極端な例を出すと、1940年代当時に山をいくつも買えるほどの日本円を持っていたとしても、戦後に狂気のインフレがあった為、10年後にその額で交換可能なものはどのくらいかというと、おそらく一軒家すら買えないだろう。

とすると、この価値割引という現象は純粋に物理的な意味での遅延による影響を測定しているようで、実は為替の変動や国家の破綻、災害、戦争のリスクなど不確実性側の影響が多大に現れているのではないか?

 

仮に、10年以内に日本が本格的に軍事侵攻されそうであるならば、今すぐ貰える5000円を選択した方が、10年後に貰える10000円を選択するより「利口」であるため

 

貨幣を用いた実験の結果をもって

「割引率が高いやつは非合理!

だって無教養、低学歴、低IQ、喫煙率、犯罪率なんかとも相関出てる!」

というような一義的な結論を出すのはどうなのだろうか...?

 

(このような影響は、例えば「今は円の価値は常に不変であると考えてください」とでも教示すれば相殺できるのだから杞憂だという人もいるのかもしれないが、人間そこまでうまく切り離して考えられるだろうか?)

 

とはいえ、永遠に不変の絶対的価値を持つ対象自体、プラトニックな世界にしか存在しないだろうし、欠乏-飽和という状態によっても変動する以上、この課題の穴はまず埋められないだろう。

 

例えば、すぐに腐るイワシの切り身を刺激として用いるよりは貨幣を用いた方が「マシ」なのかもしれない。

 

仮に、不変の価値を持つ事物を刺激として用意して、かつ現実世界において不可避である遅延に不確実性が抱き合わせで関わってくるという事実を経験していない、真っさらな参加者を集め、その上で「時間だけ」を操作することが可能であるなら、それが価値に対して及ぼす影響だけを測定することができるのだが、思考実験でしかそれが実現し得ないのが大変口惜しい...。

 

 


112 views
価値 心理学 経済学 行動経済学 強化子 インセンティブ 合理性 学習 プロスペクト理論
2018-11-04 18:11:49
nem投げnem 通報

nemlogで記事を書いて 仮想通貨nemをゲットしよう!

nemlogは暗号通貨nemを使用した寄付機能付きブログ投稿サイトです。
ブログを通じてユーザー同士がお互いにnemを寄付しあえるような環境づくりを目指して、nemlogはスタートしました。
あなたもステキ記事を投稿して暗号通貨nemをゲットしてみませんか?

nemがもらえる各種イベントも盛り上がっていますので、この機会にユーザー登録してみませんか?

nemlogの無料ユーザー登録はこちらから新規登録
sasuke0025 コメント日時:2018-11-05 09:51:47ID:6091

投げNEMさせて頂きました!! 広がれNEMの輪!!
ボクのnemlog記事です。良かったら読んでください。https://nemlog.nem.social/blog/6376


物愚者 コメント日時:2018-11-04 20:58:21ID:5975

>>ZEMZEM::

ZEMZEM様
ありがとうございます!


ZEM🐳ZEM コメント日時:2018-11-04 19:40:07ID:5952

・w・面白かった!


この記事を書いたNEMber

物愚者
689
アイローニー!!
nem投げnem profile
6271