私の株日記: 自動売買への道 (2026-04-22)

楽天証券の口座でデイトレの自動売買に挑戦しようと、Windows / Excel 上で動作する マーケットスピード II RSS を利用した Python アプリ (Kabuto) を開発しています。今月は、来るゴールデン・ウィークに存分に強化学習モデルのバックテストができるように準備を進めています。

今日の日経平均株価

現在値	59,585.86		+236.69	+0.40%	15:45
前日終値	59,349.17	04/21	高値	59,708.21	11:11
始値	59,104.11	09:00	安値	59,005.48	09:01

※ 右の 15 分足チャートは Yahoo! Finance のデータを yfinance で取得して作成しました。

【関連ニュース】

トップへ

強化学習の沼

月末から始まるゴールデンウィークにゆっくりバックテストができそうなので、それまでにどれだけ強化学習モデルを育てられるかに挑んでいます。

学習環境 TrainingEnv(gymnasium.Env)

学習環境の概略です。

行動空間 Action Space: 「返済」を行動空間に加えると学習が進まなかったことを踏まえ「返済」は環境側で制御。ナンピン禁止を行動マスクで制御; PositionType に対する mask [HOLD, BUY, SELL]
観測空間 Observation Space: 株価、インジケータなど [-inf, +inf]（おまかせ「標準化」）; クロス関連 [-inf, +inf]（符号が重要なので「標準化」なし）; カウンタ関連 [0, +inf]（おまかせ「標準化」）; ポジションを One-Hot エンコーディング
報酬 Rewards
終了条件 Episode End

複数のティックデータで訓練

過去 20 日分のティックデータに対してそれぞれ 100 エピソードの学習を実施しました。

過去 20 日分の学習における報酬 (episord_reward)、損益 (pnl)、約定回数 (transactions) トレンド by TensorBoard

報酬 (episord_reward) は最初の 2 日分の学習後は概ね 0 を下回るトレンドになってしまいました。報酬がプラス側で収束することを期待していましたが、なかなか思うようにはなりません。

引いてダメなら割ってみる

今回の学習では、日毎の株価の絶対値のズレが、VecNormalize ラッパーのスケーリングに極力影響を与えないようにと考えて、株価に関連する特徴量に対して、始値を引くという加工を加えました。

本質的には大きな違いがないのかもしれませんが、興味があった、始値を引くのではなくて割ってみることを試すことにしました。引く場合は株価は 0 始まりですが、割る場合は 1 始まりになります。

あと、学習時間を節約するため、直接関係がない特徴量を一旦削除して次元を下げて、報酬パラメータを少し調整して学習を実施しています。

進捗が遅いのですが、明日、結果をまとめます。

トップへ

参考サイト

私の株日記

2026-04-22

自動売買への道 (2026-04-22)