AReaLboba–蚂蚁联合清华开源的强化学习训练框架
AI工具百科:
AReaLboba是什么
AReaLboba 是蚂蚁技术研究院和清华大学联合推出的开源强化学习训练框架。AReaLboba是 AReaL 的升级版本,降低了强化学习训练门槛,用户能轻松训练推理模...
Phi4reasoning–微软推出的Phi4推理模型系列
AI工具百科:
Phi4reasoning是什么
Phi4reasoning 是微软推出的 140 亿参数的推理模型,专为复杂推理任务设计。通过监督微调(SFT)训练而成,使用了 OpenAI 的 o3mini 模型生成的高质...
SuperGPQA–豆包大模型联合MAP开源的知识推理基准测试集
AI工具百科:
SuperGPQA是什么
SuperGPQA 是字节跳动豆包大模型团队联合 MAP 推出的全面覆盖 285 个研究生级学科、包含 26529 道专业题目的知识推理基准测试集。解决传统评测基准学科...
PRefLexOR–MIT团队推出的新型自学习AI框架
AI工具百科:
PRefLexOR是什么
PRefLexOR(Preferencebased Recursive Language Modeling for Exploratory Optimization of Reasoning)是MIT团队提出的新型自学习AI框架,结合了偏好...
ChatTS14B–字节开源的时间序列理解和推理大模型
AI工具百科:
ChatTS14B是什么
ChatTS14B 是字节跳动研究团队开源的专注于时间序列理解和推理的大型语言模型,参数量达 140 亿。基于 Qwen2.514BInstruct 微调而成,通过合成数据对齐...
FinR1–上海财经联合财跃星辰推出的金融推理大模型
AI工具百科:
FinR1是什么
FinR1是上海财经大学联合财跃星辰推出的首个金融领域R1类推理大模型。基于7B参数的Qwen2.57BInstruct架构,通过在金融推理场景的高质量思维链数据上进行SFT...
kimithinkingpreview–月之暗面推出的多模态思考模型
AI工具百科:
kimithinkingpreview是什么
kimithinkingpreview 是月之暗面推出的多模态思考模型,具备深度推理能力,擅长解决复杂问题,如代码、数学和工作难题。模型基于 reasoning_c...
BlockDance–复旦联合字节推出的扩散模型加速方法
AI工具百科:
BlockDance是什么
BlockDance 是复旦大学联合字节跳动智能创作团队推出的用在加速扩散模型的新方法。BlockDance 基于识别重用相邻时间步中结构相似的时空特征(STSS),...
MedReason–美国加州联合南洋理工等机构推出的医学推理框架
AI工具百科:
MedReason是什么
MedReason是美国加州大学圣克鲁斯分校、加拿大不列颠哥伦比亚大学、新加坡南洋理工大学等机构推出的医学推理框架,基于知识图谱提升大型语言模型(LLMs...
OpenCodeReasoning–英伟达开源的代码推理AI模型
Ai工具百科:
Open Code Reasoning是什么
Open Code Reasoning(OCR)是英伟达开源的代码推理AI模型,基于Nemotron架构,专为提升代码推理和生成能力设计。OCR包含32B、14B和7B三种模...
DianJinR1–阿里云通义点金联合苏大推出的金融推理大模型
AI工具百科:
DianJinR1是什么
DianJinR1是阿里云通义点金团队与苏州大学联合推出的金融领域推理增强大模型,专为金融任务设计,融合了先进的技术和全面的数据支持。
模型通过推理...
QwQ32B–阿里通义千问开源的最新推理模型
AI工具百科:
QwQ32B是什么
QwQ32B 是阿里巴巴开源的新型推理模型,参数量为 320 亿。基于大规模强化学习(RL)训练,在数学推理、编程等任务上表现出色,性能比肩 6710 亿参数的 Deep...