MistralSmall3.1–MistralAI开源的多模态AI模型
AI工具百科:
Mistral Small 3.1是什么
Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型,有 240 亿参数,基于 Apache 2.0 许可证发布。在文本和多模态任务上表现出色,支...
Flex.2preview–Ostris推出的文本到图像扩散模型
AI工具百科:
Flex.2preview是什么
Flex.2preview 是Ostris开源的 80 亿参数文本到图像扩散模型,支持通用控制输入(如线条、姿态、深度)和内置修复功能。模型基于一个模型满足多种创...
AquaVoice–AI文档编辑工具,自然语言指令对文本进行编辑
AI工具百科:
Aqua Voice是什么
Aqua Voice 是AI语音驱动的文档编辑工具。Aqua Voice支持将语音转换为文本,支持用自然语言指令对文本进行编辑和格式化,如删除、重述、格式调整等。Aq...
OmniTalker–阿里推出的实时文本驱动说话头像生成框架
AI工具百科:
OmniTalker是什么
OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。
核...
FLUXText–阿里推出的多语言场景文本编辑框架
AI工具百科:
FLUXText是什么
FLUXText 是阿里推出的新型的多语言场景文本编辑框架,基于扩散模型(Diffusion Model)和轻量级字形嵌入模块。框架基于注入字形条件信息,提升复杂场景...
MMaDA–字节联合普林斯顿大学等推出的多模态扩散模型
AI工具百科:
MMaDA是什么
MMaDA(Multimodal Large Diffusion Language Models)是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型,支持跨文本推理、多模态理解和...