SewiGの日記

2004|01|04|05|06|07|09|10|11|12|

2005|01|02|03|04|05|06|07|08|09|10|11|12|

2006|01|02|03|04|05|06|07|08|09|10|11|12|

2007|01|02|03|04|05|06|07|08|09|10|11|12|

2008|01|02|03|

2005-05-19 [木]

■ [Programming] Q学習 (Q-Learning)

Q学習は強化学習の一手法です。ある状態と、そのとき選択することのできる行動をセットで考え、セットに対する評価値をQ値と呼びます。そして、このQ値が大きくなるような行動を選択していくのがQ学習の流れになります。

例えば以下のようなマルコフ決定過程があるとします。

崖歩き問題の最後の部分

Q値の初期値は0として、S35の状態からS47に移るような行動を取った場合に報酬(>0)が与えられ、初期状態に戻るという問題を考えます。状態S35で行動aを取ったら報酬が与えられた場合、次のエピソードでは状態S35における各行動のQ値をみると行動aが最大になっているので、状態S35では行動aを取ります。そして状態S35に移るような行動を取った状態へと報酬が伝播していき充分なエピソード経過後は初期状態から終了状態までの状態行動対のQ値が高くなります。詳しい解説は参考文献*1をどうぞ。

基本的なアルゴリズムは以下のようになります。行動選択でε-greedy方策を使用すると、適度に探索が行われるので局所解にはなりにくいので使いましょう。

public void step() {
	// 行動選択
	currentAction = selectAction(currentState, currentAction);
	
	int oldState = currentState;
	int oldAction = currentAction;
	
	// 行動実行
	double r = executeAction();
	
	// Q値の更新
	double currentMaxValue = qValue[currentState][0];
	currentAction = 0;
	for (int i = 1; i < maxAction; i++) {
		if (qValue[currentState][i] > currentMaxValue) {
			currentMaxValue = qValue[currentState][i];
			currentAction = i;
		}
	}
	qValue[oldState][oldAction] += learningRate*(r + discountRate*qValue[currentState][currentAction] - qValue[oldState][oldAction]);
	
	// 状態の更新
	stateChange(oldState, oldAction);
}

*1 Reinforcement Learning: An Introduction - Richard S. Sutton and Andrew G. Barto
http://www.cs.ualberta.ca/~sutton/book/the-book.html

[ツッコミを入れる]

2006-05-19 [金]

■ [Other] 研究室訪問インタビュー

教授が1学生のために30分ほど時間を割いて研究について語ってくれるいい機会でした。実際に教授と一対一で話し合うと、パンフレットやホームページの概要からはわからない熱意や面白さが伝わってきますね。

自分のやりたいことと、自分に向いてる分野が異なることは良くあることなので、他人の意見も参考にして進路を決めてみてはどうでしょうか。

[ツッコミを入れる]

2007-05-19 [土]

■ [Food] インデアンカレー

加賀にインデアンカレーという店があった。カレーの店ではあるが、各種和食も揃う食堂。

カレーは、容器から盛り付けまで見た目は石川風どろり濃厚カレーなんだけど、味は甘口。しかし、ルー以外はなかなかおいしい。

■ [Other] 電源交換

なぜ、福井に行ったかというと電源をもらいに行ったからからです。これでサーバ機の死にそうな電源を死んでない電源にと交換しました。ま、この電源もいつまでもつかわかりませんが…

[ツッコミを入れる]


		2007年 5月
日	月	火	水	木	金	土
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31