TesserAct–AI4D具身世界模型,能预测3D场景的动态演变
AI工具百科:
TesserAct是什么
TesserAct 是创新的 4D 具身世界模型,能预测 3D 场景随时间的动态演变,响应具身代理的动作。通过训练 RGBDN(RGB、深度和法线)视频数据来学习,超越...
ProxyLite–开源视觉语言模型,支持自动化网页任务
AI工具百科:
Proxy Lite是什么
Proxy Lite 是开源的轻量级视觉语言模型(VLM),参数量为3B,支持自动化网页任务。Proxy Lite 能像人类一样操作浏览器,完成网页交互、数据抓取、表单...
KimiAudio–MoonshotAI开源的音频基础模型
AI工具百科:
KimiAudio是什么
KimiAudio 是 Moonshot AI 推出的开源音频基础模型,专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练,具备强大的音...
VersatileOCRProgram–开源多模态OCR工具,精准提取复杂结构化数据
AI工具百科:
VersatileOCRProgram是什么
VersatileOCRProgram是开源多模态OCR工具,支持从复杂的教育材料中提取结构化数据,生成适合机器学习训练的高质量数据集。VersatileOCRProgra...
Maestro–开源的端到端自动化测试框架
AI工具百科:
Maestro是什么
Maestro是用在移动和Web应用的端到端自动化测试框架。基于内置的容错能力和延迟容忍机制,解决传统测试中常见的不稳定性和等待问题。Maestro基于声明式语...
MeshifAI–AI3D模型生成平台,支持生成简单模型和纹理模型
AI工具百科:
MeshifAI是什么
MeshifAI 是AI文本转 3D 模型生成平台,能根据用户输入的文本提示快速生成 3D 模型,支持生成简单模型和纹理模型(PBR)两种类型,生成的模型为 .glb 格...
ChatTS14B–字节开源的时间序列理解和推理大模型
AI工具百科:
ChatTS14B是什么
ChatTS14B 是字节跳动研究团队开源的专注于时间序列理解和推理的大型语言模型,参数量达 140 亿。基于 Qwen2.514BInstruct 微调而成,通过合成数据对齐...
MTTransformerEngine–摩尔线程开源的高效训练与推理优化框架
AI工具百科:
MTTransformerEngine是什么
MTTransformerEngine 是摩尔线程开源的高效训练与推理优化框架,专为 Transformer 模型设计。框架通过算子融合、并行加速等技术,充分基于摩...
Same.dev–AI前端开发工具,输入网页链接、截图、文件转化为前端代码
Ai工具百科:
Same.dev是什么
Same.dev 是 AI 前端开发工具,专注于将网页截图、设计文件或网页链接转化为前端代码。以像素级精度复制用户界面,确保生成的代码与原始设计高度一致。用...
OpenAvatarChat–阿里开源的实时数字人对话系统
AI工具百科:
Open Avatar Chat是什么
Open Avatar Chat 是阿里开源的模块化的实时数字人对话系统,支持在单台电脑上运行完整的功能。Open Avatar Chat 支持低延迟的实时对话(平均响...
NotaGen–中央音乐学院联合北航、清华等推出的音乐生成模型
AI工具百科:
NotaGen是什么
NotaGen 是中央音乐学院、北京航空航天大学、清华大学等机构推出的音乐生成模型,基于模仿大型语言模型(LLM)的训练范式生成高质量的古典乐谱。NotaGen ...
UniToken–复旦联合美团等机构推出的统一视觉编码框架
AI工具百科:
UniToken是什么
UniToken 是新型的自回归生成模型,专为多模态理解与生成任务设计。通过结合离散和连续的视觉表示,构建了一种统一的视觉编码框架,能同时捕捉图像的高级...

