【深度学习&强化学习】常用数学符号整理

深度学习与强化学习中常用的数学符号整理如下:变量与参数: w, W:权重,在神经网络中表示连接不同神经元的权重参数。 b, B:偏置,在神经网络中表示每个神经元的偏置项。 x, X:输入数据,表示输入到神经网络或强化学习算法中的观测值或状态。 y, Y:输出数据,表示神经网络或强化学习算法的预测...
【深度学习&强化学习】常用数学符号整理
深度学习与强化学习中常用的数学符号整理如下:
变量与参数: w, W:权重,在神经网络中表示连接不同神经元的权重参数。 b, B:偏置,在神经网络中表示每个神经元的偏置项。 x, X:输入数据,表示输入到神经网络或强化学习算法中的观测值或状态。 y, Y:输出数据,表示神经网络或强化学习算法的预测结果或目标值。 θ:参数集合,通常包括权重和偏置等可学习的参数。
运算符: Σ:求和符号,用于表示对一系列数值进行求和操作。 ∏:求积符号,用于表示对一系列数值进行求积操作。 ?:偏导数符号,用于表示函数对某一变量的偏导数。 ▽:梯度符号,表示函数对所有变量的偏导数组成的向量。 ?·:散度,表示向量场的散度。
概率与统计: P:概率,表示事件A发生的概率。 P:条件概率,表示在事件B发生的条件下,事件A发生的概率。 E[X]:期望,表示随机变量X的平均值。 Var:方差,表示随机变量X的离散程度。 D_KL:KL散度,用于衡量两个概率分布P和Q之间的差异。
强化学习特有符号: s, S:状态,表示环境的状态。 a, A:动作,表示智能体采取的动作。 r, R:奖励,表示智能体在采取动作后获得的奖励。 π:策略,表示智能体根据状态选择动作的概率分布。 γ:折扣因子,用于计算未来奖励的现值。 Q:动作值函数,表示在状态s下采取动作a的期望回报。 V:状态值函数,表示在状态s下的期望回报。
请确保在阅读相关文献或代码时,根据作者的约定使用相应的符号,以确保理解和沟通的准确性。
2025-05-02
mengvlog 阅读 14 次 更新于 2025-12-19 23:09:07 我来答关注问题0
萌文网在线解答立即免费咨询

符号相关话题

Copyright © 2023 WEN.MENGVLOG.COM - 萌文网
返回顶部