寻找从你的网站上提取和分析具体数据的有力方法? Oncrawl 的自定义字段功能允许您在爬行过程中从页面中刮去任何内容,从而您可以完全灵活地收集您所需的准确信息,以便您进行 SIO 分析。
** 什么是定制字段? 页:1 页:1
自定义字段允许您从网页中提取特定属性,并在数据浏览器中直接分析这些属性. 功能允许您创建您自定义的数据列 — 您可以在页面的源代码中识别的, 您可以跟踪和分析 。
** 为什么使用自定义字段? 页:1 页:1
这些可能性几乎是无限的,
- ** 电子商务见解:** 收集产品价格、评级或库存状况
- ** 相关分析:** 评论、社会份额或文章广告
- ** 技术核查:** 检查分析标记、 ad像素或跟踪码是否在您的网站上正确执行
- 用户经验: 提取和分析面包屑路径、相关产品建议或现场搜索数据
-
** 结构化数据验证:** 验证加标执行办法和一致性
- 如何运作* 页:1
设置自定义字段是直接的:
- ** 在您的爬行设置中可获取的数据
- ** 使用REGEX或XPATH 表达式制定提取规则**
- ** 构图转换** 以准确格式化您需要的数据
- 收集数据。
- ** 用您的新自定义列在数据探索器中分析您的结果**
** 选择提取方法* 页:1
Oncrawl支持两种强大的提取方法:
REGEX(规范表达式): 适合捕捉文字的具体模式,如日期,价格,或产品标识.
QQPATH:** 基于HTML结构提取内容的理想,如标题文本,图像替代属性,或元数据值. 若您熟悉 CSS 选择器, XPATH 将覆盖类似的能力 。
甚至可以结合多个步骤,将每个规则应用到前一规则的结果中来进行复杂的提取.
** 转换和导出选项* 页:1
一旦你提取了数据,
- 丢弃空值
- 将 URL 规范化
- 计数点而不是列出值
- 转换 HTML 实体以显示字符
- 选择保留所有值还是只保留第一个匹配值
-
导出为字符串、数字、小数、布尔数或日期/时间值
** 开始提取自定义数据**
通过自定义字段,您可以将您的爬行分析转化为适合您特定需要的定制数据提取. 无论是监测电子商务的度量衡,验证技术实施,还是进行深度内容分析,定制域都给你所需要的数据.