大家好! 我是"一步采集"的作者。 地址: http://onestepspider.51pashanhu.com/
一步采集通过分析网页 HTML 结构,尝试自动识别出页面中的列表数据,比如 V2EX 列表的主题数据,包括字段标题、时间、作者、阅读量等等。 还有常见的表格类数据。
并且,程序内还有一套“分页识别算法”,自动分析出下一页,以实现采集分页数据的功能。
优点:相对于其他同类产品,一步采集的速度是有非常大的优势,采集一个常规网页,基本都是在秒级别。
缺点和不足: 对于 Ajax 加载的网页还不支持,详情页的识别还在开发中。
这个产品目前还是一个 Demo 阶段,欢迎大家提供宝贵意见! 我们持续改进!