所有分类
  • 所有分类
  • AI工具
  • AI提示词
  • 课程资源

MagenticUI–微软开源的人机协作AI Agent研究原型

热门教程(视频)

MagenticUI–微软开源的人机协作AI Agent研究原型 - AI办公工具

AI工具百科:

MagenticUI是什么

MagenticUI 是微软推出的开源研究原型,用在探索人类参与的 AI Agent系统。MagenticUI 是以人为中心的AI Agent,能与用户协作完成复杂的 Web 任务,如浏览网页、执行代码和处理文件。

MagenticUI 的核心特点是协作规划(coplanning)、协作执行(cotasking)、安全机制(action guards)及从经验中学习(plan learning)。MagenticUI 基于让用户在任务规划和执行过程中实时参与,提供透明且可控的交互体验。

MagenticUI 基于人类反馈提升任务完成效率,降低人工成本,为研究人类与 AI Agent的协作提供实验平台。

MagenticUI的主要功能

协作规划:在执行任务前生成分步计划,用户能修改、批准,确保任务按预期进行。

协作执行:实时展示即将执行的操作,用户随时接管控制权,确保任务执行符合需求。

安全机制:在执行关键或不可逆操作前征求用户批准,支持用户自定义审批策略,保障操作安全。

学习复用:任务完成后保存执行计划,用户能在未来任务中复用或修改,提升效率。

MagenticUI的技术原理

系统架构:MagenticUI 基于 AutoGen 的 MagenticOne 系统,用多个专业代理(agents)组成,协同工作完成任务。Orchestrator(协调者)由大型语言模型(LLM)驱动,负责与用户进行协作规划,决定何时征求用户反馈,将子任务分配给其他Agent完成。WebSurfer(网页浏览者)配备浏览器控制能力的 LLM Agent,能执行点击、输入、滚动等操作,完成 Orchestrator 分配的网页浏览任务。Coder(代码执行者)配备 Docker 代码执行容器的 LLM Agent,将结果反馈给 Orchestrator。FileSurfer(文件处理者)配备 Docker 容器和文件转换工具的 LLM 代理,能定位文件、转换为 Markdown 格式,回答有关文件的问题。

交互流程:用户输入文本消息和附加图像与 MagenticUI 交互。Orchestrator 根据用户输入创建自然语言的分步计划,用户基于计划编辑界面进行修改。Orchestrator 根据计划的每一步决定由哪个Agent或用户完成,发送请求等待响应。所有步骤完成,Orchestrator 生成最终答案呈现给用户。如果在执行过程中发现计划不足,Orchestrator 在获得用户许可后重新规划执行新计划。

安全与控制:用户设置 MagenticUI 可访问的网站列表,访问列表外的网站需要用户明确批准。用户在 MagenticUI 执行任务的任何阶段中断它,停止任何待执行的代码或网页浏览操作。MagenticUI 控制的浏览器和代码执行器都在 Docker 容器中运行,避免对主机环境产生影响,防止登录凭证泄露等安全风险。用户配置行动审批策略,决定 MagenticUI 在执行某些操作时是否需要用户批准。

MagenticUI的项目地址

项目官网:https://www.microsoft.com/enus/research/blog/magenticui
GitHub仓库:https://github.com/microsoft/magenticui

MagenticUI的应用场景

复杂任务自动化:帮助用户完成多步骤的 Web 任务,如比较产品价格、填写在线表单或预订旅行。

代码编写与执行辅助:生成代码片段、安全运行代码,例如数据分析或脚本编写。

文件处理与信息检索:转换文件格式、搜索文件内容回答相关问题。

研究与开发:为研究人员提供实验平台,探索人机协作方式。

教育与培训:作为教学工具,帮助学习任务规划和 AI 协作。

0
加入AI学习第一站,精选2025年,AI工具、提示词、变现教程。 【戳我查看 】资料目录 【戳我登录】获取资料
显示验证码
没有账号?注册  忘记密码?