文章导读
还在手动复制粘贴网页内容吗?遇到反爬虫机制就束手无策?
本教程专为非技术用户设计,无需编写任何代码。
你将学会如何通过 N8N 连接 Dumpling AI 服务,只需简单几步配置,就能轻松绕过反爬限制,自动抓取并清洗任何网页数据。
跟着本教程操作,让你立即提升数据获取效率,把时间花在更有价值的分析上。
配置目的
许多网站设有反爬虫机制,直接抓取数据非常困难,而且原始HTML代码杂乱,难以直接使用。
通过 Dumpling AI 这类第三方服务,我们可以将抓取和清洗的工作外包出去。
只需在 N8N 中发送一个请求,就能高效获取到干净、结构化的网页数据,为后续的数据分析和处理做好准备。
前置条件
在开始配置之前,请确保你已经准备好以下两项:
1. 一个可以正常运行的 N8N 环境(云端版或本地部署版均可)。
2. 一个 Dumpling AI 账号,并且已经成功获取了 API Key。
账号平台准备
登录你的 Dumpling AI 账户后台。
通常在“API 设置”、“开发者”或“我的账户”等菜单下,你可以找到你的 API Key 和 Secret。
请将这串字符复制下来,它将作为我们访问服务的唯一凭证。
关键节点配置
整个配置过程的核心,是在 N8N 中正确设置 HTTP Request 节点,下面我们分步进行。
第一步:添加 HTTP Request 节点
在你的 N8N 工作流画布中,点击“+”号,搜索并添加一个“HTTP Request”节点。
第二步:配置请求基础信息
选中该节点,在右侧的参数面板中,进行如下基础设置:
Request Method: 设置为 POST。
URL: 填入 Dumpling AI 提供的网页抓取 API 地址。例如:https://api.dumplingai.com/v1/scrape (请以官方文档为准)。
第三步:配置 Header Auth 认证 (核心)
这是最关键的一步,用于验证你的 API 权限。
1. 在参数面板中找到 Authentication 下拉菜单。
2. 点击并选择 Generic Credential Type。
3. 在下方出现的 Credentials 菜单中,选择 HTTP Header Auth。
4. 点击右侧的 Create New 按钮,创建一个新的凭证。
在弹出的凭证配置窗口中,你需要填写两个核心信息:
Name: 填写 Header 的名称。这个名称由 API 服务方规定,常见的有 Authorization 或 x-api-key。请查阅 Dumpling AI 的文档确认,此处我们以 Authorization 为例。
Value: 将你从 Dumpling AI 官网复制的 API Key 完整地粘贴到这里。请确保没有多余的空格或字符。
最后,给这个凭证起一个容易识别的名字(如:My Dumpling AI Key),然后点击保存。
第四步:配置请求 Body 参数
我们需要告诉 Dumpling AI 要抓取哪个网页。
1. 在节点的参数面板中,将 Body Content Type 设置为 JSON。
2. 在下方的 Body 输入框中,填入 JSON 格式的参数。例如,抓取特定网址并要求返回清洗后的内容:
{"url": "https://n8n.io/", "cleaned": "true"}
如果你希望动态传入URL,可以使用 N8N 的表达式,从上一个节点获取数据。
第五步:测试节点
完成以上所有配置后,点击节点下方的 Execute Node 按钮。
如果一切正常,你将在右侧的输出窗口看到成功的返回结果,其中包含了目标网页的干净内容。
常见错误排查
401 Unauthorized 错误:
这是最常见的认证失败提示。通常意味着你的 API Key 错误,或者 Header Name 设置不正确。请返回第三步,仔细检查凭证配置是否与 Dumpling AI 文档要求完全一致。
网络请求超时:
如果请求长时间没有响应,可能是你的 N8N 服务器无法连接到外部网络,或者 Dumpling AI 服务暂时不可用。可以先检查网络,稍后再试。
实现商业价值
配置完成后,你就拥有了一个强大的自动化数据采集工具。
你可以批量抓取竞品网站的价格、产品信息,或监控行业资讯,为市场分析和商业决策提供高质量、结构化的数据支持,极大地提升了工作效率。

