WebFetch API
快速开始
发出第一个 WebFetch 请求,并理解默认返回行为。
使用 Lexmount WebFetch API,可以直接从公开网页中提取结构化内容,而不需要自己搭建抓取、渲染和提取链路。
最常用的起点,是 POST /v1/extract。
鉴权说明
- 当前接口处于内测阶段
- 外部调用时,请求需要带
X-API-Key - 请联系管理员获取 API key
第一个请求
API_KEY='<your-api-key>'
curl -sS -X POST https://webfetch.lexmount.com/v1/extract \
-H 'content-type: application/json' \
-H "X-API-Key: $API_KEY" \
-d '{
"extract": {
"url": "https://example.com"
}
}'典型响应:
{
"result": {
"url": "https://example.com",
"final_url": "https://example.com",
"status_code": 200,
"title": "Example Domain",
"description": "Example Domain",
"main_text": "Example Domain This domain is for use in illustrative examples in documents.",
"engine": "http",
"template_id": "generic:v1",
"dom_id": "dom_123"
},
"metadata": {
"dom_id": "dom_123",
"template_id": "generic:v1",
"server_elapsed_ms": 1234
}
}你会拿到什么
POST /v1/extract 是一体化接口,内部会自动完成:
- 页面抓取
- 模板匹配
- 必要时的后台模板生成
- 最终结构化提取
result 里最常用的字段包括:
titledescriptionmain_textfinal_urlauthorpublish_timelinksimagesenginetemplate_iddom_id
什么时候使用 Dump DOM
当你需要直接拿到抓取后的 HTML、检查页面渲染结果、或者希望复用某次抓取得到的 dom_id 时,使用 POST /v1/dom/dump。
curl -sS -X POST https://webfetch.lexmount.com/v1/dom/dump \
-H 'content-type: application/json' \
-H "X-API-Key: $API_KEY" \
-d '{"url":"https://example.com"}' \
| jq '{final_url, engine, dom_id, dump_path, html_len:(.html|length)}'调整默认行为
POST /v1/extract 默认会返回 trace,默认不会返回 raw_dom。
- 如果你希望响应更小,并关闭 trace,见 关闭 Trace
- 如果你需要在响应中拿到
raw_dom,见 返回 Raw DOM
下一步
- 查看 All-in-One Extract 了解
/v1/extract的完整请求和响应格式 - 查看 Dump DOM 了解
/v1/dom/dump的参数与复用方式 - 查看 常见错误 了解常见错误和排查方式
Lexmount 文档