StepR1VMini–阶跃星辰最新推出的多模态推理模型
AI工具百科:
StepR1VMini是什么
StepR1VMini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出,具备良好的指令遵循和通用能力,能高精度感知图像完成复杂推理任务。模型...
Addsubtitle–AI视频翻译工具,自动生成时间同步的字幕
AI工具百科:
Addsubtitle是什么
Addsubtitle 是基于 AI 的在线视频编辑工具,通过智能技术为用户提供便捷的字幕添加、翻译及视频编辑服务。用户可以轻松将视频翻译成100多种语言,一...
Dolphin–清华联合海天瑞声推出的语音识别大模型
AI工具百科:
Dolphin是什么
Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22种方言...
Mogao–字节跳动Seed团队推出的多模态理解与生成统一架构
AI工具百科:
Mogao是什么
Mogao是字节跳动Seed团队推出的交错多模态生成全基础模型。在架构上采用了双视觉编码器,结合变分自编码器(VAE)和视觉变换器(ViT),能更好地进行视觉理...
gpt4otranscribe–OpenAI推出的语音转文本模型
AI工具百科:
gpt4otranscribe是什么
gpt4otranscribe是 OpenAI 推出的高性能语音转文本模型。基于最新的语音模型架构,用海量多样化音频数据训练,精准捕捉语音细微差别,显著降低单...
ICEdit–浙江大学联合哈佛大学推出的指令式图像编辑框架
AI工具百科:
ICEdit是什么
ICEdit(InContext Edit)是浙江大学和哈佛大学推出的指令式图像编辑框架。基于大规模扩散变换器(Diffusion Transformer)的强大生成能力和上下文感知能力...
DeepResearchWebUI–开源AI研究助手,逐步深入挖掘研究主题
AI工具百科:
Deep Research Web UI是什么
Deep Research Web UI 是开源的 AI 研究助手工具,帮助用户高效地进行深度研究。通过 AI 驱动的迭代搜索,逐步深入挖掘指定主题,以树状结构...
EAPTalk–AI英语口语测评应用,自动对口语练习进行实时打分
AI工具百科:
EAP Talk是什么
EAP Talk 是基于AI技术的英语口语测评应用,专注于学术英语(EAP)的学习与练习。基于大数据、语音识别、自然语言处理等技术,为学生提供实时自动打分和...
KiminaProver–月之暗面联合Numina推出的数学定理证明模型
AI工具百科:
KiminaProver是什么
KiminaProver是月之暗面与Numina团队合作推出的大型数学定理证明模型,模型采用大规模强化学习训练,能以类似人类的方式进行推理,在Lean 4语言中严...
IIAgent–IntelligentInternet开源的通用AIAgent框架
AI工具百科:
IIAgent是什么
IIAgent 是开源的Agent框架,通过与大型语言模型(LLM)的交互,简化和提升跨多个领域的工作流程。具备多种核心功能,包括研究与事实核查、内容生成、数据...
MistralOCR–MistralAI推出的先进光学字符识别工具
AI工具百科:
Mistral OCR是什么
Mistral OCR 是 Mistral AI 推出的先进光学字符识别(OCR)工具,专为处理复杂文档而设计。能全面理解文档中的文本、图像、表格和数学公式等元素,支...
Pixel3DMM–慕尼黑联合伦敦大学等推出的3D人脸重建框架
AI工具百科:
Pixel3DMM是什么
Pixel3DMM是慕尼黑工业大学、伦敦大学学院和Synthesia联合推出的单图像3D人脸重建框架。框架基于DINO基础模型,引入专门的预测头,从单张RGB图像中准确...

