暴雪在API测试中的应用
强化学习例子
问题:1 a,c,d,f。这里的d->f 是怎么计算的,我计算的是0.2*[4+ 0.8*(-1) - 0.6]
是这值 还要加上原 Q(S,A) = 0.56+ 0.6= 1.16=1.2 (图2 DF为什么是1.2)
2 关于结果相加
不是两个动作相加
而是Q(s,a)相加
是这值 还要加上原 Q(S,A) = 0.56+ 0.6= 1.16=1.2