use winning_percentage_wdl in learn by tttak · Pull Request #36 · nodchip/Stockfish

tttak · 2020-07-03T15:29:47Z

こんばんは。
評価関数の学習時にWDLを使うオプションを追加してみました。
learn use_wdl 1 ... のように指定すると、sigmoidを使うwinning_percentage()の代わりにWDLを用いた勝率を使うようになります。

単純に、以下のような実装にしてみました。

double winning_percentage_wdl(Value value, int ply)
{
	double wdl_w = UCI::win_rate_model( value, ply);
	double wdl_l = UCI::win_rate_model(-value, ply);
	double wdl_d = 1000.0 - wdl_w - wdl_l;

	return (wdl_w + wdl_d / 2.0) / 1000.0;
}

valueだけではなくgamePlyを使うところが通常と異なります。

ただ、手元で少し学習させてみましたところ、あまり効果がないようでした。（というより、逆効果でした）
ですので、このプルリクエスト自体はマージして頂かなくても問題ありません。
将来的には学習でWDLを活用できれば面白いかと思い、プルリクエストという形で提起させて頂きました次第です。

official-stockfish@1100688 official-stockfish#2778 official-stockfish#2788

nodchip · 2020-07-03T22:36:50Z

Thank you for the pull request. I merged it.

nodchip · 2020-07-05T01:03:26Z

@tttak さん
本件レビュー中に見落としがあったこと気にづきました。
calc_grad()は勾配を計算する関数でwinning_percentage()の計算式を微分したものとなっております。use_wdlが0の場合には、もとのwinning_percentage()が使用されるよう修正をお願いできますでしょうか？また、use_wdlが1の場合は、winning_percentage_wdl()の計算式を微分したものが返るよう、修正をお願いできますでしょうか？
修正が難しい場合はRevertしたほうが良いかもしれません。

tttak · 2020-07-05T10:17:35Z

@nodchip さん
ご指摘ありがとうございます。
修正したいと思いますが、修正するにあたりいくつかご教示ください。

use_wdlが0の場合には、もとのwinning_percentage()が使用されるよう修正をお願いできますでしょうか？

こちらについては、現在の実装でもそのようになっているつもりでした。
winning_percentage(Value value, int ply) の中でuse_wdlの値に応じて
winning_percentage_wdl(Value value, int ply) と、もとの winning_percentage(double value) を呼び分けています。
もし私の思い違いのようでしたらご指摘お願いします。

また、use_wdlが1の場合は、winning_percentage_wdl()の計算式を微分したものが返るよう、修正をお願いできますでしょうか？

現在主に使われているのは LOSS_FUNCTION_IS_ELMO_METHOD の calc_grad() かと思います。
この calc_grad() では lambda * (q - p) + (1.0 - lambda) * (q - t) を返していますが、
特に微分は使用していないように思いましたが、いかがでしょうか？
（LOSS_FUNCTION_IS_WINNING_PERCENTAGE の calc_grad() では微分を使っているように思いますが、
　今回のご指摘は LOSS_FUNCTION_IS_WINNING_PERCENTAGE の場合に関するものでしたでしょうか？）

nodchip · 2020-07-05T10:55:42Z

こちらについては、現在の実装でもそのようになっているつもりでした。
winning_percentage(Value value, int ply) の中でuse_wdlの値に応じて
winning_percentage_wdl(Value value, int ply) と、もとの winning_percentage(double value) を呼び分けています。
もし私の思い違いのようでしたらご指摘お願いします。

大変失礼いたしました。記述が誤っておりました。
use_wdlが0の場合には、LOSS_FUNCTION_IS_ELMO_METHODのcalc_grad()の中で、勝率の推定にwinning_percentage_wdl()を用い、勝率のクロスエントロピーの式を微分したもの、に修正をお願いしできればと思います。
元の関数は、シグモイド関数の微分σ'(x)=σ(x)σ(1-x)を用いて式変形を行い、
lambda * (q - p) + (1.0 - lambda) * (q - t)
というシンプルな実装にできていますが、UCI::win_rate_model()を見る限り、シグモイド関数の入力に進行度mに対する3次式が含まれており、上記の式より複雑になるのではないかと思います。
また、LOSS_FUNCTION_IS_ELMO_METHOD以外のcalc_grad()についても、今一度計算式の見直しをお願いできればと思います。

よろしくお願いいたします。

tttak · 2020-07-05T14:37:28Z

なるほど。q - p というのは単純に勝率の差を取っているのではなく、
勝率のクロスエントロピーの式を微分した結果得られたもので、
その過程でシグモイド関数の σ'(x)=(1-σ(x))σ(x) という性質が使われていたのですね。
よく見ると、最近のやねさんの記事にも書かれていましたね...
WDL版のcalc_grad()の算出、私の数学力では心許ないので、@qhapaq-49さんあたりにご登場願いたいところです...

nodchip · 2020-07-06T00:59:50Z

ご理解いただきありがとうございます。
次のバイナリのリリースに向け、一旦use_wdlに関する変更をRevertさせていただいてもよろしいでしょうか？

tttak · 2020-07-06T01:53:49Z

はい。一旦Revertして頂いて問題ございません。
お手数をお掛けしますが、よろしくお願いいたします。

tttak and others added 3 commits July 3, 2020 23:01

merge "Provide WDL statistics"

9ce0ef3

official-stockfish@1100688 official-stockfish#2778 official-stockfish#2788

use winning_percentage_wdl in learn

c964e90

Merge branch 'master' into WDL_20200703b

cea5240

nodchip merged commit 3b535b5 into nodchip:master Jul 3, 2020

This was referenced Aug 20, 2020

[NNUE]use winning_percentage_wdl in learn official-stockfish/Stockfish#3034

Closed

Use winning_percentage_wdl in learn #90

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

use winning_percentage_wdl in learn#36

use winning_percentage_wdl in learn#36
nodchip merged 3 commits intonodchip:masterfrom
tttak:WDL_20200703b

tttak commented Jul 3, 2020

Uh oh!

nodchip commented Jul 3, 2020

Uh oh!

nodchip commented Jul 5, 2020

Uh oh!

tttak commented Jul 5, 2020

Uh oh!

nodchip commented Jul 5, 2020

Uh oh!

tttak commented Jul 5, 2020

Uh oh!

nodchip commented Jul 6, 2020

Uh oh!

tttak commented Jul 6, 2020

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

tttak commented Jul 3, 2020

Uh oh!

nodchip commented Jul 3, 2020

Uh oh!

nodchip commented Jul 5, 2020

Uh oh!

tttak commented Jul 5, 2020

Uh oh!

nodchip commented Jul 5, 2020

Uh oh!

tttak commented Jul 5, 2020

Uh oh!

nodchip commented Jul 6, 2020

Uh oh!

tttak commented Jul 6, 2020

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants