AI工具百科:
DianJinR1是什么
DianJinR1是阿里云通义点金团队与苏州大学联合推出的金融领域推理增强大模型,专为金融任务设计,融合了先进的技术和全面的数据支持。
模型通过推理增强监督和强化学习提升金融推理任务的表现,核心是DianJinR1Data数据集,整合了CFLUE、FinQA和中国合规检查(CCC)数据集,涵盖多样化的金融推理场景。 DianJinR1包括DianJinR17B和DianJinR132B两个版本,均通过监督微调(SFT)和强化学习(RL)两阶段优化,采用组相对策略优化(GRPO)方法,结合双重奖励信号以优化推理质量。
在金融领域的CFLUE、FinQA、CCC等基准测试中,DianJinR1显著优于非推理模型,在CCC数据集上,单次调用推理模型的表现超过多代理系统。
DianJinR1的主要功能
金融推理增强:通过推理增强监督和强化学习,提升金融任务的推理能力。在金融测试集 CFLUE、FinQA 和 CCC 上,DianJinR1 的表现优于基础模型。
高质量数据集支持:基于 DianJinR1Data 数据集构建,整合了 CFLUE、FinQA 和 CCC 数据集,覆盖多种金融推理场景。
结构化推理输出:模型能以结构化格式生成推理步骤和最终答案,方便理解和应用。
强化学习优化:采用 Group Relative Policy Optimization(GRPO)算法,结合格式奖励和准确性奖励,优化推理质量。
高效推理能力:在实际应用中,DianJinR1 的单次调用推理模型表现与多代理系统相当甚至更优,且计算成本更低。
DianJinR1的技术原理
高质量数据集构建:DianJinR1 的核心是 DianJinR1Data 数据集,数据集整合了 CFLUE、FinQA 和专有的中国合规检查(CCC)数据集。涵盖了多样化的金融推理场景,经过验证的注释,确保数据的高质量和领域相关性。
结构化监督微调(SFT):模型通过监督微调(SFT)阶段进行训练,使用结构化格式生成推理步骤和最终答案。具体来说,每个训练实例包括一个问题、推理路径(格式化为 <think>…</think>)和答案(格式化为 <answer>…</answer>)。模型通过学习这些结构化的输入和输出,生成连贯的推理步骤和正确的答案。
强化学习优化:在监督微调的基础上,DianJinR1 进一步应用了群体相对策略优化(GRPO)算法进行强化学习。该算法引入了双重奖励信号:格式奖励(鼓励生成结构化的输出)和准确性奖励(奖励正确答案),进一步提升推理质量。
DianJinR1的项目地址
Github仓库:https://github.com/aliyun/qwendianjin
HuggingFace模型库:https://huggingface.co/DianJin
arXiv技术论文:https://arxiv.org/pdf/2504.15716
DianJinR1的应用场景
金融风险评估与合规检查:DianJinR1 能高效处理复杂的金融合规任务,例如在 CCC(中国合规检查)数据集上的应用中,模型通过单次调用即可实现与多代理系统相当甚至更优的性能,显著降低了计算成本。
金融问答与客户服务:在 FinQA 数据集的测试中,DianJinR1 展现了强大的金融问答能力,能为客户提供准确的金融信息和解决方案。有助于提升金融机构的客户服务质量和效率。
金融考试与教育:DianJinR1 在 CFLUE 数据集上的表现尤为突出,准确率从 77.95% 提升至 86.74%。表明模型可以用于金融考试的辅助训练和教育场景,帮助考生更好地理解和掌握金融知识。
复杂金融任务的推理与决策:DianJinR1 通过结构化推理和强化学习优化,能处理复杂的金融任务,如财务报表分析、投资决策等。