所有分类
  • 所有分类
  • AI提示词
  • AI培训视频教程

AI工具百科: TokenFD是什么 TokenFD是上海交通大学联合美团推出的细粒度图文对齐基础模型,主要用于文档理解任务。通过Token级对齐,实现了图像Token与语言Token在同一特征空间中的共...

AI工具百科: Marker是什么 Marker 是开源的高精度文档转换工具,专注于将 PDF、Word 等多种文档格式快速、准确地转换为 Markdown、JSON 和 HTML 格式。 通过深度学习技术,自动去...

AI工具百科: AgentPrune是什么 AgentPrune 是同济大学、香港中文大学等机构联合提出的针对大型语言模型(LLM)驱动的多智能体系统通信优化框架,通过“剪枝”技术,剔除冗余或有害的通...

AI工具百科: OmniCam是什么 OmniCam 是先进的多模态视频生成框架,通过摄像机控制实现高质量的视频生成。支持多种输入模态组合,用户可以提供文本描述、视频中的轨迹或图像作为参考,...

AI工具百科: Flow是什么 Flow是谷歌推出的AI电影制作工具,整合了Veo 3、Imagen 4和Gemini 2.5等多个AI模型,能根据文本提示生成完整的电影场景或短片,保持连贯性。 用户可以通过...

AI工具百科: VoltAgent是什么 VoltAgent 是开源的 TypeScript 框架,用在构建和编排 AI Agent。VoltAgent 提供构建 AI 应用的基础结构和工具,简化与大语言模型(LLM)的交互、状态管...

AI工具百科: Chitu是什么 Chitu(赤兔)是清华大学高性能计算研究所与清程极智联合开源的高性能大模型推理引擎,专为解决大模型在推理阶段的高成本和低效率问题设计,具有强大的硬件...

AI工具百科: BAGEL是什么 BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语...

AI工具百科: Open Computer Agent是什么 Open Computer Agent 是 Hugging Face 推出的免费云端 AI Agent 工具。支持在 Linux 虚拟机中运行,基于预装的程序(如 Firefox)完成用户指...

AI工具百科: Google Beam是什么 Google Beam是谷歌推出的AI驱动的3D视频通信平台。基于先进的AI技术和3D成像,将2D视频流转换为逼真的3D效果,让远程通话更自然、更直观。 用户能...

AI工具百科: MealPlanner是什么 MealPlanner 是创新的 AI 驱动的餐饮计划应用。基于分析用户的饮食偏好、过敏情况和饮食限制(如素食、无麸质等),生成个性化的餐饮计划。 用户与...

AI工具百科: Embodied Reasoner是什么 Embodied Reasoner是浙江大学、中国科学院软件研究所、阿里巴巴集团等机构推出的新型的具身交互推理模型,基于视觉搜索、推理和行动协同完成复...
戳我👆免费下载:全球AI领域大咖课、AI全能商业技能教程、国外大神AI商业课...
显示验证码