私の株日記: 自動売買への道 (2026-04-30)

楽天証券の口座でデイトレの自動売買に挑戦しようと、Windows / Excel 上で動作する マーケットスピード II RSS を利用した Python アプリ (Kabuto) を開発しています。

今日の日経平均株価

現在値	59,284.92		-632.54	-1.06%	15:45
前日終値	59,917.46	04/28	高値	59,560.57	09:00
始値	59,484.71	09:00	安値	58,928.20	13:32

※ 右の 15 分足チャートは Yahoo! Finance のデータを yfinance で取得して作成しました。

【関連ニュース】

トップへ

強化学習の沼

5 月の連休にゆっくりバックテストができそうなので、それまでにどれだけ強化学習モデルを育てられるかに挑んでいます。

エージェント

学習・推論用の環境は、下記のように分離しました。ただし、推論環境 InferenceEnv は、学習環境 TrainingEnv を継承しています。

graph LR
    subgraph make_env_training
        A[TrainingEnv] --> B[[Monitor]]
    end
    subgraph make_env_inference
        C[InferenceEnv] --> D[[Monitor]]
    end
    B --> E[[DummyVecEnv]]
    D --> E[[DummyVecEnv]]

今までの進捗を振り返って、強化学習が実用上使い物になるレベルまで洗練されるには時間がかかりそうです。それまで、粛々と学習と推論の評価を続けるわけにもいかないので、推論用の環境では、エントリ（建玉）と、利確・ロスカットによる返済の妥当性を確認するロジックを加えています。

このやり方を突き詰めると「アルゴリズムで建玉や返済を決めれば良い」ということになり、「わざわざ強化学習モデルを使う必要があるのか？」という本質的な疑問にぶつかってしまいました。

再びアルゴリズムのみの取引に戻すかどうか決めかねていますが、おそらくは、週末からアルゴリズムのみに戻してプログラムを整理してバックテストを始めることになりそうです。

今日、明日は、今までの取り組みを継続します。

学習環境 TrainingEnv(gymnasium.Env)

学習環境の概略です。

行動空間 Action Space: 「返済」を行動空間に加えると学習が進まなかったことを踏まえ「返済」は環境側で制御。ナンピン禁止を行動マスクで制御; PositionType に対する mask [HOLD, BUY, SELL]
観測空間 Observation Space: 株価、インジケータなど; クロス・オシレータ関連; ポジションを One-Hot エンコーディング
報酬 Rewards
終了条件 Episode End

複数のティックデータで学習

特徴量のスケーリングを委ねようと VecNormalize を使用していましたが、問題に直面して使用を諦めたので、まだ特徴量のスケーリングの対応が不十分ですが、少し確認してパフォーマンスを確認しました。

過去データの学習 (5 episodes / day) における報酬 (episord_reward)、損益 (pnl)、約定回数 (transactions) トレンド by TensorBoard

推論用環境

推論トレンド

学習に使用したティックデータ＋本日収集したティックデータを順番に推論しました。

収集したティックデータに対する推論トレンド

本日分の推論詳細を示しました。

本日分のティックデータに対する推論の詳細

現在、「強化学習モデル＋エントリと返済の妥当性を確認アルゴリズム」と、アルゴリズムのみにした場合のパフォーマンス差を評価する検討をしています。

トップへ

参考サイト

私の株日記

2026-04-30

自動売買への道 (2026-04-30)