ICEdit–浙江大学联合哈佛大学推出的指令式图像编辑框架
AI工具百科:
ICEdit是什么
ICEdit(InContext Edit)是浙江大学和哈佛大学推出的指令式图像编辑框架。基于大规模扩散变换器(Diffusion Transformer)的强大生成能力和上下文感知能力...
gpt4otranscribe–OpenAI推出的语音转文本模型
AI工具百科:
gpt4otranscribe是什么
gpt4otranscribe是 OpenAI 推出的高性能语音转文本模型。基于最新的语音模型架构,用海量多样化音频数据训练,精准捕捉语音细微差别,显著降低单...
DeepResearchWebUI–开源AI研究助手,逐步深入挖掘研究主题
AI工具百科:
Deep Research Web UI是什么
Deep Research Web UI 是开源的 AI 研究助手工具,帮助用户高效地进行深度研究。通过 AI 驱动的迭代搜索,逐步深入挖掘指定主题,以树状结构...
EAPTalk–AI英语口语测评应用,自动对口语练习进行实时打分
AI工具百科:
EAP Talk是什么
EAP Talk 是基于AI技术的英语口语测评应用,专注于学术英语(EAP)的学习与练习。基于大数据、语音识别、自然语言处理等技术,为学生提供实时自动打分和...
KiminaProver–月之暗面联合Numina推出的数学定理证明模型
AI工具百科:
KiminaProver是什么
KiminaProver是月之暗面与Numina团队合作推出的大型数学定理证明模型,模型采用大规模强化学习训练,能以类似人类的方式进行推理,在Lean 4语言中严...
IIAgent–IntelligentInternet开源的通用AIAgent框架
AI工具百科:
IIAgent是什么
IIAgent 是开源的Agent框架,通过与大型语言模型(LLM)的交互,简化和提升跨多个领域的工作流程。具备多种核心功能,包括研究与事实核查、内容生成、数据...
Pixel3DMM–慕尼黑联合伦敦大学等推出的3D人脸重建框架
AI工具百科:
Pixel3DMM是什么
Pixel3DMM是慕尼黑工业大学、伦敦大学学院和Synthesia联合推出的单图像3D人脸重建框架。框架基于DINO基础模型,引入专门的预测头,从单张RGB图像中准确...
MistralOCR–MistralAI推出的先进光学字符识别工具
AI工具百科:
Mistral OCR是什么
Mistral OCR 是 Mistral AI 推出的先进光学字符识别(OCR)工具,专为处理复杂文档而设计。能全面理解文档中的文本、图像、表格和数学公式等元素,支...
Bolt3D–牛津大学联合谷歌推出的3D场景生成技术
AI工具百科:
Bolt3D是什么
Bolt3D 是谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合推出的新型 3D 场景生成技术,是潜在扩散模型,能在单个 GPU 上,仅需不到七秒的时间,直接从...
InternVL–OpenGVLab推出的多模态大模型
AI工具百科:
InternVL是什么
InternVL 是上海人工智能实验室 OpenGVLab 推出的多模态大模型,专注于视觉与语言任务。采用 ViTMLPLLM 架构,通过视觉模块(如 InternViT)和语言模块(...
AIResearcher–香港大学推出的开源自动化科学研究工具
AI工具百科:
AIResearcher是什么
AIResearcher 是香港大学数据科学实验室推出的开源自动化科学研究工具,基于大型语言模型(LLM)代理实现从研究想法到论文发表的全流程自动化。
A...
LBM–AI图像转换框架,实现可控阴影生成
AI工具百科:
LBM是什么
LBM(Latent Bridge Matching)是Jasper Research团队推出的新型图像到图像转换框架,基于在潜在空间中构建桥匹配实现快速高效的图像转换。LBM仅需单步推理完...