線条体行動選択と強化学習の動態

Nagashima Kazuhiro
2 時間前
読了時間: 5分

大脳基底核の働きとして、ハイパー直接路（全体的な抑制）/直接路（促通）/間接路（抑制）というGo/NoGoのメカニズムは古くから知られていました。

単一のターゲットシステムの活動制御としてみると、全く論理的なメカニズムに見えますね。

一方、マースデンは「基底核は、”後天的”に学習した運動機能の”自動的”な発動・発現に重要な働きをもつ｣と指摘し、大脳基底核が運動プログラムの選択/切り替えや学習において中枢的な役割を果たしていることを提唱していました。

学習という側面から大脳基底核を見ると、少しおかしなことが起こります。

単純化すれば、dSPNは選択された行動の促通に、iSPNは競合行動の抑制に関与すると考えられてきました。これらはドーパミンの増減で働きを変えることになっています。

例えば、選択しうる選択肢として行動A と行動Bが存在しているとします。

この時、行動Aを選択したとします。

単純なGo/Nogoモデルとして考えると、大脳基底核の中では、dSPNが行動Aを促通していて、iSPNが行動Bを抑制しているという事になります。

行動Aが上手くいって、ドーパミン信号が増加すると、dSPNの活動がより促通される学習が起こるというのはわかりやすいですよね。

ところが、行動Aをおこなって上手くいかない場合は、ドーパミンの投射が減少することになります。この時、iSPNはドーパミン減少によって働きを強化することになります。この時、抑制していたのは行動Bですから、より強く行動Bを抑制することになります。

すると、次に同じシチュエーションが起きて大脳基底核が行動Aと行動Bを選択する際、行動Bが強く抑制されて、以前上手くいかなかった行動Aを選択する事になります。

ここに矛盾が生じるわけです。

この矛盾を出発点に、この研究はおこなわれたようです。

以下、研究の要約です。

1. 研究の背景：大きな矛盾（パラドックス）

脳の線条体には、行動を促進する「直接路（dSPN）」と行動を抑制する「間接路（iSPN）」という2つの経路があります。

• 従来の理論: 報酬が得られるとdSPNが強化され（やりやすくなる）、罰や期待外れがあるとiSPNが強化される（しなくなる）ことで学習が進むと考えられてきました。

• 実際の生物学的知見: しかし、近年の研究で、iSPNは「ドーパミンが減少したとき（悪い結果のとき）」にシナプスが強化されることがわかっています。一見正しいように見えますが、計算モデルでシミュレーションすると、**「悪い結果を招いた行動を、次も選ぶようにiSPNが学習してしまう」**という致命的な矛盾が生じることが判明しました。

2. 本研究の発見：矛盾の解決

著者らは、線条体のニューロン活動を「2つの成分」に分解することで、この矛盾を解決しました。

1. 「何をするか」を決める成分（行動選択）: dSPNとiSPNが競合・協力して、特定の行動を実行します。

2. 「どれくらい良く学習できるか」を決める成分（学習の符号）:

• iSPNの学習ルール（ドーパミン低下で強化される）は、実は**「過去に選ばれなかった行動」に対する評価を更新する役割**を担っていることを数学的に示しました。

• これにより、iSPNは単に「行動を止める」だけでなく、直接路と協力して「最適な行動以外を排除する」という、より洗練された役割を果たしていることがわかりました。

3. なぜこの研究が重要か

• 行動の相関の謎を解明: 実際の観測では、dSPNとiSPNは「アクセルとブレーキ」のように対立するのではなく、両方が同時に活動していることが多く、これが謎でした。この論文のモデルは、なぜ両方が同時に動く必要があるのかを論理的に説明しています。

• 強化学習の新しい実装: 人工知能（AI）の強化学習アルゴリズムを、より「生物学的に正しい（脳に近い）」方法で実装するヒントを与えています。

• 病態への理解: ドーパミンが関わる疾患（パーキンソン病や依存症など）において、なぜ行動選択のバランスが崩れるのかを理解するための新しい枠組みを提供します。

まとめ

この論文は、**「iSPN（間接路）は単なるブレーキ役ではなく、dSPN（直接路）と組み合わさることで、生物学的な制約（不自然に見える学習ルール）を乗り越えて、効率的に正しい行動を選び出すための高度な計算を行っている」**ということを明らかにしました。

要約は以上です。

さて、この研究においてもいくつか問題点がある様に思います。

この研究では、線条体ニューロンの働きを｢行動選択｣と「学習」の2つに分類しています。ここは良いと思うのです。

iSPN学習ルールについて、｢最適な行動以外を排除する｣働きがあるとしていますが、その為には、どの行動選択に対してその行動以外を抑制したのかという情報が必要になりますよね。本文にも書いてありますが、つまりiSPNに最適な行動＝dSPNの行動選択情報のエファレンスコピー情報が必要になる訳です。この回路として推測されるのは最終出力先である運動実行皮質からのフィードバック、もしくは基底核から視床に投射された情報が基底核のiSPNに受け渡されていると考える必用が出てきそうですが、この回路は仮説と云う事になります。

また、行動選択自体に対して､昔の考え方では、促通すべき行動情報が直接路によって促通されている際に、間接路はその後に働くわけですから、抑制されるべき行動情報が僅かな時間、共存しているという事も推測されます。もし、最近の流れにある様にある程度の時間幅の中で同時に働くとすれば、回路的に中継が少ない回路である直接路と中継が多い回路である間接路のタイミングをどの様に調整しているのかという疑問も出てきそうに思います。

その他にも色々ありそうではありますが、とりあえずこのモデルにも何かしらの問題はありそうな気はします。

ただ、個人的に非常に面白いのは、この構造を考えると大脳基底核ループは以前言われていた様な並列ループ構造ではなくて隣接したループは互いに影響を与え合っているメカニズムを想定する必要がありそうだという事なのです。

昔は並列構造であるとされていました。

私は個人的に螺旋的な情報をやり取りするメカニズムが存在していた方が、基底核の働きとしては臨床的に説明しやすいのではないかと考えていたのですが、どうやら、以前の直感はある程度的を射ていたようですね。(*^_^*)

この研究は2024年にプレプリントとして公開され、2025年5月8日にeLifeで正式発表されたものです。

この記事は、私が理解出来る範囲で書いたものです。

興味がありましたら、元の研究論文を読んでいただければ幸いです。

(*^_^*)

Dynamics of striatal action selection and reinforcement learning