数据采集系统是一款智能化的互联网数据采集工具,与内容管理系统深度集成,可简单快速地将目标网站的内容采集到自己的网站中,以快速填充网站内容,或者通过定时采集来实现自动转载目标网站的新闻,以减少网站内容运维工作。
与内容管理系统深度集成
数据采集系统能够从目标网站采集数据,通过智能分析,将数据与指定内容模型的各个字段匹配生成相应的内容实体,并保存至指定栏目中。目标网页中的图片和附件会以文件形式保存在网站的上传文件夹中。
支持数据采集的内容模型包括文章、公开信息、政策文件等。
采集功能完备
- 支持按正序或倒序进行数据采集。
- 支持定时采集功能。
- 支持断点续采。
- 支持采集排重(增量采集),可以根据标题或 URL 进行排重。
- 支持自动下载内容中的图片和附件。
- 支持自动过滤正文中的链接。
- 支持更新采集,即在采集所有数据的同时不清空历史记录,并判断历史记录中是否存在相同数据,若存在则更新数据,否则插入新数据。
- 支持重新采集,即清空历史记录后重新采集全部数据。
- 支持批量执行采集任务。
- 支持查看采集进度。
- 支持采集历史记录管理,用户可以查看、删除、清空采集历史记录。
- 支持仅采集为链接内容,并保留至源网页的链接。
-
可视化配置采集规则
提供可视化操作界面,无需编写代码。用户可以通过简单的拖拽、点选和配置来定义采集规则,使不懂技术的编辑人员也能轻松配置采集规则。
-
支持代理服务器
支持采集只能通过代理服务器访问的网站内容,或者通过代理服务访问来绕过目标网站的反爬虫限制。
-
支持采集需要身份认证的网站
支持采集需要认证的网站内容,支持的认证方式包括 HttpBasic 认证、Token 认证和 Jwt 认证。
-
反反爬虫
具备简单的反反爬虫机制,通过模拟正常浏览器的 UA、调整采集间隔时间和通过代理服务器访问等手段,有效应对网站的反爬虫机制,确保采集过程的稳定性和可靠性。
-
实时监控与预警
系统保存完整的采集日志记录,可通过日志还原采集过程,帮助分析采集过程中出现的问题。同时,借助完善的日志功能,系统能够实时统计各项采集指标,并提供实时预警。
用户登录
还没有账号?
立即注册