Style Miner：基于强化学习算法的风格因子构造

努力的光头强

1069人浏览 · 2024-12-24 10:39:39

努力的光头强 · 2024-12-24 10:39:39 发布

1. 引言

众所周知，特征提取对于现实世界中的数据分析和机器学习至关重要。一般来说，特征具有两大功能：预测和解释。如今，借助监督机器学习工具箱中的大量工具，可以高效地提取预测性特征，并在许多领域取得了巨大进步，包括计算机视觉、神经机器翻译等。然而，仍然存在一些现实问题，其中未来的观测难以预测，例如股票市场和气候变化。在这种情况下，找到具有强解释力的因子更为重要，以便能够抽象出复杂的现实状态，从而为人所理解。例如，经济学家使用低维风格因子来解释资产波动性，以了解市场、衡量资产风险并建立投资组合。气象学家使用温室气体、其他人为压力源和自然成分来解释观测到的全球地表温度变化，以便通过控制主要风格因子来减缓全球变暖。本文旨在回答如何利用强化学习来发现解释性风格因子，特别是在高维时间序列问题中，这些因子用于解释观测结果而不是预测它们。

如 Menchero 等人所述，高质量风格因子应满足两个基本要求：具有高解释力并且稳定。首先，风格的主要用途是解释未来结果，解释应具有显著性。其次，风格必须稳定（波动不大），以便历史上滞后的解释对未来的决策具有价值。本文重点关注寻找同时满足这两个要求的风格因子。

风格因子提取的研究有三条主线：1）人类专家的个案研究，2）无监督特征提取方法，以及 3）监督特征提取方法。专家因子的设计通常需要特定领域的深厚专业知识，并且可以实现合理的性能。然而，在高维大数据领域，在新数据集中寻找新的风格因子变得越来越困难。无监督方法（如主成分分析 (PCA) 和自编码器 (AutoEncoder)）可以在静态数据集中找到隐藏变量。然而，当目的是解释未观测到的未来结果而不是当前观测结果时，它们在时间序列数据中的表现并不令人满意。另一方面，监督学习方法可以借助序列神经网络的最新进展来处理顺序数据集。例如，深度风险模型 (DRM) 被证明比专家因子表现更好。然而，由于监督深度学习方法依赖于可微分的损失函数，它们很难应用于具有不可微分反馈的问题。此外，还有一些研究在其他金融领域使用强化学习方法，但它们不能直接应用于风格因子挖掘。

本文提出 Style Miner，这是一种基于约束强化学习的风格因子提取方法，它明确解决了解释力和稳定性之间的权衡。我们首先将风格因子提取问题表述为约束马尔可夫决策过程 (CMDP)，其中智能体尝试根据时间序列观测生成连续风格因子。对于每个生成的风格因子，智能体将解释力作为长期回报，将因子序列的负自相关作为成本。智能体的目标是最大化解释力，同时满足具有高序列自相关的约束。此外，为了加快训练速度，我们还提出了一些实用技术来简化问题，并采用自适应启发式方法来显式平衡奖励和约束。在现实世界金融市场数据上的实验表明，Style Miner 在仅使用原始市场数据输入的情况下，可以实现最先进的性能，并且比人类专家提出的行业公认因子具有相对 10% 的 R 平方解释力增长。

本文的主要贡献总结如下：

我们提出了 Style Miner，它使用约束强化学习提取风格因子。它试图在约束稳定性的同时最大化解释力。据我们所知，这是首次使用强化学习方法提取风格因子的研究。
我们设计了细粒度的即时奖励和成本，以缓解稀疏奖励问题，然后使用拉格朗日启发式方法来自适应地在奖励和成本约束之间进行平衡。
我们进行了广泛的实验，并表明我们的方法可以在保持高时间稳定性的同时实现最先进的解释力，这显著优于行业知名的专家设计因子。

2. 相关工作

2.1 人类专家设计的风格因子

最早的均值-方差模型认为，在考虑收益的同时应衡量风险。这种风险是通过资产收益的波动性来衡量的。收益波动性较大的股票通常风险较高。这是第一次将数学统计引入投资组合理论，为现代金融奠定了基础。随着均值-方差模型的提出，学者们逐渐认识到衡量投资组合风险的重要性。资本资产定价模型 (CAPM) 将风险分为系统性风险和非系统性风险。非系统性风险不应通过高收益来补偿。CAPM 仅使用一个因子来衡量系统性风险。由于单一因子的解释力有限，因此提出了多因子模型方法。多因子模型将股票的收益归因于几个不同的风格因子，并使用这些因子来估计协方差矩阵。基于因子的方法的主要优势在于将高维股票特征提取到低维因子中，这样问题的复杂性不会随着股票数量的增加而改变。多因子模型中最经典的方法是 Fama-French 模型。Fama-French 在 CAPM 的基础上增加了价值和规模因子，估计了因子的风险溢价，并通过时间序列回归检验了模型的性能。在 Fama 和 MacBeth 中，提出了另一种横截面回归因子模型来确定横截面回归的因子收益。Fama 和 French 指出横截面方法更好。Barra 是一个著名的横截面回归多因子模型。

上述专家设计的方法具有很高的解释力，但由于需要大量的人力资源进行手动设计，发展相对缓慢。从 CAPM 到 Barra 花费了将近几十年的时间。

2.2 无监督特征提取方法

近年来，无监督机器学习也被广泛应用。一个简单有效的无监督方法使用 PCA 将高维股票数据压缩到整个序列上的低维因子载荷。然而，这种方法生成的因子载荷不会随时间变化。由于股票分布不稳定，对测试集的影响会逐渐恶化。因此，Kelly 等人提出了工具化 PCA (IPCA) 的线性模型，它从股票数据中估计风格因子和资产的因子载荷系数。IPCA 将资产特征视为变量，也可以包括时间变化。此外，奇异值分解 (SVD) 的分解过程也可以通过自编码器来实现。然而，这种方法没有利用股票数据的时间信息。因此，FactorVAE 基于自编码器添加门控循环单元 (GRU) 来获取时间信息。但 FactorVAE 主要关注模型的预测能力，而不是解释力。

2.3 监督特征提取方法

监督深度学习在提取复杂非线性特征方面表现良好。它还可以有效地使用监督梯度来实现预期目标。在 DRM 中，风格因子作为输入，GRU 和图注意力网络 (GAT) 被添加进来以发现时间和横截面信息。DRM 设计了一种多任务方法以平滑输出因子。DRM 是深度学习在风格因子提取方面的一个良好尝试。然而，多任务学习降低了训练效率，并损害了解释力，因为它过于关注长期稳定性。因此，与专家因子相比，DRM 的 R 平方仅相对增加了 2.0%。此外，DRM 使用专家因子作为输入，导致原始信息丢失，其结果在很大程度上取决于专家因子的质量。

3. 将风格挖掘视为 CMDP

3.1 符号

如图 2 所示，考虑一个时间序列 {Xt}t=1，其中 Xt = {xi,t}i=1 有 n 个独立的观测值。对于每个 i = 1, …, n，观测值 xi,t 是一个多维向量。此外，设 Yt = g(X>t) 为步骤 t 的未来结果，即我们需要使用风格因子来解释的目标标签。Yt = {yi,t }i=1，其中 yi,t 是一个值。

这种设置适用于许多领域。例如，在量化金融中，Xt 表示时间步 t 的市场数据，n 是股票数量，xi,t 表示第 i 只股票在时间 t 的原始观测值，Yt 可以是这些股票的未来收益或已实现波动性。

现在，我们需要找到一组风格因子作为历史数据的压缩表示，表示为 Ut = {ui,t}i=1 = "(X<t)，其中 uit ∈ RK 是第 i 个序列的 K 维风格因子。我们希望这些风格因子对目标标签 Yt（即股票的风格可以解释其未来收益）具有很强的解释力，并且随着时间的推移也保持稳定（即股票的风格在短时间内不会改变）。因此，我们需要定义以下两个评估指标。

3.2 风格因子的评估标准

解释力

在每个时间步，假设获得真实结果 Yt，我们可以拟合一个关于风格因子的解释模型 y(Ut)，即

Yt = y(Ut) + Et，

其中 Et = (1, t, …, En, t) 是未解释的残差。通常，我们可以将解释方差的比例视为解释力。具体来说，在本文中，我们使用平均逐步 R2 作为指标，即

Expl(U1:T) = R2 = 1/T * Σt=1 to T [Σi=1 to n (Wi,t * (yi,t - yi,t)2) / Σi=1 to n (Wi,t * (yi,t)2)]

其中 Wi,t 是第 i 个序列的权重。

稳定性

另一方面，风格因子本身作为时间序列不应波动太大，这可以通过风格系列的自相关来评估。具体来说，我们使用滞后 1 自相关如下：

AutoCorr(U1:T) = 1/K * Σk=1 to K Corr(Uk 1:T-1, Uk 2:T)

其中 Corr(., .) 是皮尔逊相关系数函数。

正如 Menchero 等人建议的那样，如果风格因子的自相关系数高于 0.9，则认为它们质量高，否则太不稳定而无法使用。因此，在本文中，我们让 AutoCorr(U1:T) ≥ 0.9 作为稳定性的约束。

3.3 约束马尔可夫决策过程

我们将问题表述为有限期约束马尔可夫决策过程 (CMDP)，即

max ET~T [R(U1.T)]，

s. t. ETNT [C(U1:T )] ≤ d0，

其中 M = (S, U, P, R, C, do)，其中 St 是状态空间，包含历史观测值，U 是动作空间，P 是转移函数，R 是奖励函数，C 是成本函数，do ∈ R+ 是允许的最大成本。对于轨迹 T := (So, Uo, S1, …)，其中 Ut ~ TT (.|St)，St+1 ~ P(.|St, Ut)，我们使用解释力作为奖励，稳定性作为约束，即

R(U1.T) = Expl(U1:T), C(U1.T) =1-AutoCorr(U1:T)。

4. Style Miner 算法

该问题面临两大挑战：

如何简化原始问题，该问题具有高问题复杂性但反馈稀疏。
如何设计一种算法来有效地平衡重要性和稳定性之间的权衡。

4.1 使用隐藏状态和即时反馈简化 CMDP

从上一节可以看出，该问题具有高维观测值和动作，但反馈信号很少。众所周知，这种稀疏奖励问题可能难以优化。因此，在本节中，我们使用三种技术简化问题：1) 序列建模中的隐藏状态技术，将高维序列输入转换为密集的隐藏表示，2) 每个序列的表示，以及 3) 即时奖励和成本以缓解稀疏奖励问题。

简化的状态

原始观测值 St = {X<t} 有两个复杂性来源：1) 它包括 N 个多变量序列，N 可以很大；2) 它包括 t 个历史时间步，t 可以很大。因此，我们提出了一种简化的状态设置，其中包含一个独立的编码器结构。我们首先将整体状态分解为各个序列 St = {xi,t }i=1，并假设一个编码器为每个单独的序列生成隐藏状态 hi,t = Encoder(Si,t)，因此 i,t = (xi,t, hi,t-1)。

尽管这与原始问题定义不等效，但这样一来，智能体可以将所有序列作为小批量并行做出决策，这在实际问题中可以经验性地产生合理的结果。

即时奖励

在原始设置中，由于反向解释和评估步骤考虑了所有样本序列，每个序列共享相同的累积回报 R(U1.T)。为了充分利用基于小批量的策略迭代，我们希望区分每个单独样本序列的贡献。因此，在每个时间步 t，我们分解整体 R 平方 R? 为所有序列的细粒度即时奖励。第 i 个序列获得以下奖励：

Ti,t = 1/n * Σi=1 to n (Wi,t * yi,t - Wi,t * yi,t)2 / Σi=1 to n (Wi,t * yi,t)2

这样我们仍然有 rt = R2 = Σi=1 to n Ti,t。

成本

对于每个序列 i，整体成本函数是 C(ui,1:T) = 1 - AutoCorr(ui,1:T)。由于这种成本只有在情节结束后才能获得，我们定义每个时间步 t 的即时成本如下：

Ci,t = {0, if t < T; C(Ui,1:T), if t = T}

4.2 具有稳定性约束的策略优化

基于上述 CMDP，我们使用近端策略优化 (PPO) 来优化策略 T。PPO 是一种基于信任区域方法的在线策略 RL 算法，适用于连续决策问题。它提出了一种裁剪版的对偶目标函数，如下所示：

L(θ) = E[min(πθ(ai,t|si,t)/πθold(ai,t|si,t) * Ai,t, clip(πθ(ai,t|si,t)/πθold(ai,t|si,t), 1-ε, 1+ε) * Ai,t)]

其中 πθ(ai,t|si,t) 是策略输出，πθold(ai,t|si,t) 是更新前的旧策略，Ai,t 是估计的优势，计算如下：

Ai,t = ri,t + Vθ(si,t+1) - Vθ(si,t)

其中 ri,t 是即时奖励，Vθ(si,t) 是价值函数输出，γ 是折扣系数，用于平衡未来误差。

解决 CMDP 问题的一种常见方法是使用拉格朗日松弛技术。拉格朗日松弛技术可以通过添加惩罚项将 CMDP 转换为等效的无约束问题，从而使优化过程可行。

然而，在 Style Miner 中，我们发现我们的问题不需要确保在训练过程中从头到尾都满足约束，只需最终结果满足约束即可。因此，我们使用了一种更简单的启发式方法。与拉格朗日方法类似，它将约束转换为具有自适应乘数 β 的正则化项。乘数具有线性增长计划，即 β = min(β + Δβ, βmax)，直到满足约束。因此，对偶损失可以形成如下：

Lactor = E[min(πθ(ai,t|si,t)/πθold(ai,t|si,t) * Ai,t, clip(πθ(ai,t|si,t)/πθold(ai,t|si,t), 1-ε, 1+ε) * Ai,t)] - β * max((C(ui,t) - d0), 0)

之后，在可行解范围内，Style Miner 将在无约束状态下优化解释力目标函数。因此，这种简单的启发式方法保证了 Style Miner 最终在优化目标的同时实现约束。

评论家网络的损失函数是评论家网络输出与累积未来奖励的经验值 Vtarget i,t 之间的均方误差。

Lcritic = E[(V(si,t) - Vtarget i,t)2]

其中 Vtarget i,t 可以计算如下：

Vtarget i,t = E[ri,t’ | t’ > t]

Style Miner 框架

Style Miner 的整个框架如图 3 所示。基于 actor-critic 框架，我们在 Actor 和 Critic 中都添加了 GRU 以获得隐藏的时间信息。我们选择 GRU 是因为它简单有效。GRU 架构可以公式化为：

hi,t = LayerNorm(GRU(xi,t, hi,t-1))

不同序列之间 actor 和 critic 的参数是共享的。

在训练过程中，按照原始 PPO，行动是通过行动分布获得的，其中策略输出均值和方差，以便策略可以实现探索。每个情节都有相同的长度，即训练数据集的长度。在每个情节终止后，策略将更新 k 个 epoch。与 PPO 不同，我们将整个情节划分为数据块，以便我们可以并行训练这些数据块，并在每个数据块中保持原始顺序。

更新后，我们将计算新策略在验证数据集上的自相关性。由于计算所有股票的自相关性既耗时又费力，我们将抽取几十只股票以获得近似估计。一旦自相关性满足约束，我们将停止增加系数 β。

系数 βmax 用于控制约束的惩罚项的增加速度。d0 是约束项。现在我们提出我们的新算法 Style Miner，如算法 1 所示，所有序列并行执行。

5. 实验

我们的实验基于中国股票市场的三个数据集上的风格因子提取，使用原始市场数据和专家设计的特征。通过实验，我们希望回答三个问题：

Q1：Style Miner 能否生成兼具高解释力和高稳定性的风格因子？

Q2：我们能否明确控制两者之间的权衡？

Q3：Style Miner 在不同特征和不同数据集上的性能如何？

Q4：Style Miner 的每个部分对性能有何影响？

5.1 实验设置

数据

我们的实验是在中国股票市场的原始数据上进行的。对于主要实验，我们选择 13 个常用的原始特征作为输入：{open, high, low, close, VWAP (成交量加权平均价), volume, money, negMarketValue, turnover rate, amount of transactions, PB, PE, percent-change}。数据集分割基于日期时间（2013/10/28 至 2017/12/29 用于训练，2018/01/02 至 2018/12/28 用于验证，以及 2019/01/02 至 2019/12/30 用于测试）。此外，我们还在包括 CSI500 和 CSI1000 的两个数据集上训练我们的算法，以测试生成因子的稳健性和实用性。

基准方法

我们详细整理并复制了现有的风格因子挖掘方法，包括专家因子 [Menchero 等人，2011]，无监督学习方法 [Wold 等人，1987；Gu 等人，2021；Kelly 等人，2019] 和监督学习方法 [Lin 等人，2021]。除了目前在量化领域可用的几种经典风格因子生成方法外，我们还实现了几个强化学习方法进行比较，包括 PPO [Schulman 等人，2017]，DDPG [Lillicrap 等人，2016] 和 TD3 [Fujimoto 等人，2018]。基准方法的详细信息以及 Style Miner 的超参数可以在附录中找到。我们将所有基准方法的因子维度设置为十，以便进行公平比较。

数据预处理

价格列（open, high, low, close 和 VWAP）具有相似的值，因此我们将 high, low, close 和 VWAP 替换为相对于开盘价的百分比变化。所有特征列都使用 Z 分数进行标准化。此外，我们使用前向填充来处理缺失值。

评估指标

我们选择以下三个指标：

R2 用于衡量模型的解释力。R2 的计算定义如公式 (2)。
平均 T 值是所有风格因子的平均绝对 t 统计量。T 值显示了风格因子的显著性。
AutoCorr 是所有股票系列中所有因子的自相关系数的平均值。自相关系数的计算定义如公式 (3)。

上述三个指标都是越高越好。

5.2 实验结果

主要结果

为了回答 Q1，我们首先将几种成熟的基准模型与 Style Miner 在三个主要指标上进行比较：R2、所有因子的平均 T 值和 AutoCorr。环境基于所有股票及其原始数据，测试数据集上的结果计算结果如表 1 所示。在使用原始数据作为输入的前提下，Style Miner 可以在 AutoCorr 高于 0.92 的情况下比专家因子实现 10.4% 的 R2 相对增长，满足了稳定性要求。PCA 方法没有 Autocorr，因为它在整个系列上是固定值。

对于需要实现更高的 AutoCorr 的情况，我们还提供了 Style Miner 的指数移动平均 (EMA) 版本，即使用简单加权平均对生成的风格因子序列进行平均。EMA 可以公式化为 Ut = pUt + (1 - p)Ut-1，这里我们设置 p = 0.25。由于 Style Miner 生成的风格因子已经具有很高的稳定性，因此它可以实现极高的 AutoCorr，同时损失较少的 R2。Style Miner 的 EMA 版本在每日特征上的最终结果仍然可以相对超过专家因子 6.4% 的 R2，并且具有相同的 AutoCorr。验证和测试数据集上每天的 R2 如图 4(a) 所示。可以看出，在整个验证和测试集上，Style Miner 可以实现比当前公共方法更好的解释力。

为了回答 Q2，我们比较了 Style Miner 在没有自适应惩罚的情况下的性能，这意味着即使满足约束，惩罚项也会一直影响策略。如图 4© 所示，具有自适应 βmax = 0.05 的 Style Miner 可以实现接近非自适应 βmax = 0.01 的 R2，并且仍然保持高自相关。

与监督学习方法的比较

我们复制了深度风险模型 (DRM)，这是一种监督学习方法，并与 Style Miner 进行了详细比较，如表 2 所示。参数 H 是 DRM 中多任务学习的范围。H 越大，模型输出越平滑。实验结果如表 2 所示。

通过比较不同类型的输入数据，我们可以发现 DRM 对输入数据的要求更高，在原始数据输入的情况下，DRM 无法获得高稳定性。因此，DRM 中的多任务学习方法不能保证稳定性，并且会导致训练速度慢和解释力差的问题。此外，在相同输入下，Style Miner 可以获得远远超过 DRM 的解释力和稳定性。

与强化学习方法的比较

所有基于 RL 的方法的训练曲线如图 4(b) 所示。尽管其他强化学习方法可以挖掘出与专家因子解释力接近的风格因子，但生成风格因子不稳定。

不同输入特征和数据集

我们进一步研究了 Style Miner 在不同特征（Q3）下的性能。如图 4(d) 所示，当使用专家因子作为输入时，由于输入相当稳定，因此模型将实现高自相关。然而，由于输入平滑，解释力也受到限制。通过同时使用原始数据和专家因子作为输入，Style Miner 可以实现更高的 R2，并且自相关高于 0.9。因此，我们可以得出结论，在更平滑的输入特征下，Style Miner 可以在保持更高稳定性的同时获得更高的解释比率。额外的输入特征可以进一步提高模型的解释力。

我们还测试了中国股票市场的两个数据集，包括 CSI500 和 CSI1000，它们包含 500 和 1000 只股票。我们在表 3 中展示了 CSI500。结果表明，由于股票规模减少，其他模型的输出也变得更加稳定，但仍然不符合要求（高于 0.9）。

消融研究

为了回答 Q4，我们对 StyleMiner 的每个技术部分进行了消融研究。所有股票的结果如表 4 所示。消融结果表明，每个部分都是必不可少的，我们可以得到以下分析：GRU 使模型能够获得历史信息，否则它无法实现高平滑度；约束可以平衡权衡，因为我们不需要太高的平滑度；惩罚可以保证高 AutoCorr；奖励分解方法可以识别每只股票的贡献，因此模型可以实现高 R2。

6. 结论

在本文中，我们提出了一种用于风格因子提取的新型强化学习算法 Style Miner。为了解决风格因子提取中的挑战，我们将风格挖掘表述为 CMDP，设计了细粒度的即时奖励和成本，并使用拉格朗日启发式方法来自适应地平衡它们。实验结果表明，Style Miner 显著优于其他基准。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程文末领取哈）

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）

在这里插入图片描述
👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git

腾讯云开发者社区

所有评论(0)

查看更多评论

努力的光头强

@2401_85373898

已为社区贡献13条内容

Style Miner：基于强化学习算法的风格因子构造

努力的光头强

1. 引言

2. 相关工作

2.1 人类专家设计的风格因子

2.2 无监督特征提取方法

2.3 监督特征提取方法

3. 将风格挖掘视为 CMDP

3.1 符号

3.2 风格因子的评估标准

解释力

稳定性

3.3 约束马尔可夫决策过程

4. Style Miner 算法

4.1 使用隐藏状态和即时反馈简化 CMDP

简化的状态

即时奖励

成本

4.2 具有稳定性约束的策略优化

5. 实验

5.1 实验设置

数据

基准方法

数据预处理

评估指标

5.2 实验结果

主要结果

与监督学习方法的比较

与强化学习方法的比较

不同输入特征和数据集

消融研究

6. 结论

如何学习AI大模型 ？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

CSDN粉丝独家福利

👉1.大模型入门学习思维导图👈

👉2.AGI大模型配套视频👈

👉3.大模型实际应用报告合集👈

👉4.大模型落地应用案例PPT👈

👉5.大模型经典学习电子书👈

👉6.大模型面试题&答案👈

CSDN粉丝独家福利

所有评论(0)

温馨提示：您尚未绑定手机号

努力的光头强

如何学习AI大模型？