私の株日記: 自動売買への道 (2026-04-17)

楽天証券の口座でデイトレの自動売買に挑戦しようと、Windows / Excel 上で動作する マーケットスピード II RSS を利用した Python アプリ (Kabuto) を開発しています。今月は、来るゴールデン・ウィークに存分に強化学習モデルのバックテストができるように準備を進めています。

今日の日経平均株価

現在値	58,475.90		-1,042.44	-1.75%	15:45
前日終値	59,518.34	04/16	高値	59,381.25	09:02
始値	59,255.09	09:00	安値	58,475.90	15:30

※ 右の 15 分足チャートは Yahoo! Finance のデータを yfinance で取得して作成しました。

【関連ニュース】

トップへ

強化学習の沼

月末から始まるゴールデンウィークにゆっくりバックテストができそうなので、それまでにどれだけ強化学習モデルを育てられるかに挑んでいます。

学習環境 TrainingEnv(gymnasium.Env)

学習環境の概略です。

行動空間 Action Space: 「返済」を行動空間に加えると学習が進まなかったことを踏まえ「返済」は環境側で制御。ナンピン禁止を行動マスクで制御; PositionType に対する mask [HOLD, BUY, SELL]
観測空間 Observation Space: 株価、インジケータなど [-inf, +inf]（おまかせ「標準化」）; クロス関連 [-inf, +inf]（符号が重要なので「標準化」なし）; カウンタ関連 [0, +inf]（おまかせ「標準化」）; ポジションを One-Hot エンコーディング
報酬 Rewards
終了条件 Episode End

今回は、学習時のティックデータの終端の truncated 処理でエピソードを終了する際に、約定回数から下記の式で報酬を与えるようにしました。

\[ \Delta R = r_{\max}\,\frac{n_{\text{trade}}}{n}\,\exp\!\left(1-\frac{n_{\text{trade}}}{n}\right) \]

望ましい約定回数 \(n_{\text{trade}}\) で、報酬が極大 \(r_{\max}\) になります。また、約定回数が \(0\) の時は報酬も \(0\) になります。深い根拠はありませんが現在のところ \(n_{\text{trade}} = 25\) としています。

報酬についても妥当な大きさが皆目判らなかったので、\(r_{\max} = 10\) と適当に設定しています。

複数のティックデータで訓練

過去 20 日分のティックデータに対し、最初のティックデータは 100 エピソード、残りは 50 エピソードの学習を実施しました。

過去 20 日分の学習における報酬 (episord_reward)、損益 (pnl)、約定回数 (transactions) トレンド by TensorBoard

学習トレンドを見る限り、約定回数 (transactions) のトレンドが 0 に収束するようには見えません。推論で 100 を超えるようであれば報酬を調節します。

推論 - 今日のティックデータ

まだ推論と呼べるほど立派ではありませんが、過去 20 日分のティックデータで学習したモデルを使って、過去 19 日分のデータ + 今日のティックデータに対して推論しました。

本日のティックデータを含む過去 20 日分の、ティックデータ推論時の損益 (pnl) トレンド

今日のティックデータ分のレビュー

収益結果はマイナスになってしまいましたが、昨日と異なり、まんべんなく売買されています。この週末に学習用と推論用の環境を分けて、推論用環境にロスカットする機能を実装してどうなるか確認したいです。

本日のティックデータに対して推論したときの取引データ

また、週末は学習終端における約定回数に関連する報酬量を調節して、学習結果の違いも確認します。

トップへ

参考サイト

私の株日記

2026-04-17

自動売買への道 (2026-04-17)