数据采集系统是一款智能化的互联网数据采集工具,与内容管理系统深度集成,可简单快速地将目标网站的内容采集到自己的网站中,以快速填充网站内容,或者通过定时采集来实现自动转载目标网站的新闻,以减少网站内容运维工作。

与内容管理系统深度集成

数据采集系统能够从目标网站采集数据,通过智能分析,将数据与指定内容模型的各个字段匹配生成相应的内容实体,并保存至指定栏目中。目标网页中的图片和附件会以文件形式保存在网站的上传文件夹中。

支持数据采集的内容模型包括文章、公开信息、政策文件等。

支持多种数据源格式

  • 网站
  • 网页

  • RSS 源

  • API 接口
    (XML 格式)

  • API 接口
    (Json 格式)

  • 支持从网页、RSS 源、API 接口(Json 格式、XML 格式)采集数据。
    当数据源为网页或 API 接口时,支持设置请求头参数。

采集功能完备

  • 支持按正序或倒序进行数据采集。
  • 支持定时采集功能。
  • 支持断点续采。
  • 支持采集排重(增量采集),可以根据标题或 URL 进行排重。
  • 支持自动下载内容中的图片和附件。
  • 支持自动过滤正文中的链接。
  • 支持更新采集,即在采集所有数据的同时不清空历史记录,并判断历史记录中是否存在相同数据,若存在则更新数据,否则插入新数据。
  • 支持重新采集,即清空历史记录后重新采集全部数据。
  • 支持批量执行采集任务。
  • 支持查看采集进度。
  • 支持采集历史记录管理,用户可以查看、删除、清空采集历史记录。
  • 支持仅采集为链接内容,并保留至源网页的链接。
  • 可视化配置采集规则

    提供可视化操作界面,无需编写代码。用户可以通过简单的拖拽、点选和配置来定义采集规则,使不懂技术的编辑人员也能轻松配置采集规则。

  • 支持代理服务器

    支持采集只能通过代理服务器访问的网站内容,或者通过代理服务访问来绕过目标网站的反爬虫限制。

  • 支持采集需要身份认证的网站

    支持采集需要认证的网站内容,支持的认证方式包括 HttpBasic 认证、Token 认证和 Jwt 认证。

  • 反反爬虫

    具备简单的反反爬虫机制,通过模拟正常浏览器的 UA、调整采集间隔时间和通过代理服务器访问等手段,有效应对网站的反爬虫机制,确保采集过程的稳定性和可靠性。

  • 实时监控与预警

    系统保存完整的采集日志记录,可通过日志还原采集过程,帮助分析采集过程中出现的问题。同时,借助完善的日志功能,系统能够实时统计各项采集指标,并提供实时预警。

×

用户登录