Marker–AI文档转换工具,多格式转换为Markdown、JSON、HTML
AI工具百科:
Marker是什么
Marker 是开源的高精度文档转换工具,专注于将 PDF、Word 等多种文档格式快速、准确地转换为 Markdown、JSON 和 HTML 格式。
通过深度学习技术,自动去...
OmniCam–浙大联合上海交大等高校推出的多模态视频生成框架
AI工具百科:
OmniCam是什么
OmniCam 是先进的多模态视频生成框架,通过摄像机控制实现高质量的视频生成。支持多种输入模态组合,用户可以提供文本描述、视频中的轨迹或图像作为参考,...
AgentPrune–同济联合港中文等机构推出的多智能体通信优化框架
AI工具百科:
AgentPrune是什么
AgentPrune 是同济大学、香港中文大学等机构联合提出的针对大型语言模型(LLM)驱动的多智能体系统通信优化框架,通过“剪枝”技术,剔除冗余或有害的通...
VoltAgent–开源的AIAgent构建和编排框架
AI工具百科:
VoltAgent是什么
VoltAgent 是开源的 TypeScript 框架,用在构建和编排 AI Agent。VoltAgent 提供构建 AI 应用的基础结构和工具,简化与大语言模型(LLM)的交互、状态管...
OpenComputerAgent–HuggingFace推出的免费云端AI Agent工具
AI工具百科:
Open Computer Agent是什么
Open Computer Agent 是 Hugging Face 推出的免费云端 AI Agent 工具。支持在 Linux 虚拟机中运行,基于预装的程序(如 Firefox)完成用户指...
赤兔Chitu–清华联合清程极智开源的大模型推理引擎
AI工具百科:
Chitu是什么
Chitu(赤兔)是清华大学高性能计算研究所与清程极智联合开源的高性能大模型推理引擎,专为解决大模型在推理阶段的高成本和低效率问题设计,具有强大的硬件...
GoogleBeam–谷歌推出的AI3D视频通信平台
AI工具百科:
Google Beam是什么
Google Beam是谷歌推出的AI驱动的3D视频通信平台。基于先进的AI技术和3D成像,将2D视频流转换为逼真的3D效果,让远程通话更自然、更直观。
用户能...
BAGEL–字节跳动开源的多模态基础模型
AI工具百科:
BAGEL是什么
BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语...
EmbodiedReasoner–浙大联合阿里等机构推出的具身交互推理模型
AI工具百科:
Embodied Reasoner是什么
Embodied Reasoner是浙江大学、中国科学院软件研究所、阿里巴巴集团等机构推出的新型的具身交互推理模型,基于视觉搜索、推理和行动协同完成复...
LocAgent–斯坦福联合耶鲁大学等机构推出的代码问题定位智能体
Ai工具百科:
LocAgent是什么
LocAgent是斯坦福大学、耶鲁大学和南加州大学等机构联合推出的,专注于代码定位任务的框架,帮助开发者快速准确地找到代码库中需要修改的部分。LocAgent...

