爱意满满的作品展示区。
oness

一步采集(OneStepSpider) - 网页列表数据的自动识别尝试

  •  1
     
  •   oness · Jun 17, 2017 · 4555 views
    This topic created in 3290 days ago, the information mentioned may be changed or developed.

    大家好! 我是"一步采集"的作者。 地址: http://onestepspider.51pashanhu.com/

    一步采集通过分析网页 HTML 结构,尝试自动识别出页面中的列表数据,比如 V2EX 列表的主题数据,包括字段标题、时间、作者、阅读量等等。 还有常见的表格类数据。

    并且,程序内还有一套“分页识别算法”,自动分析出下一页,以实现采集分页数据的功能。

    优点:相对于其他同类产品,一步采集的速度是有非常大的优势,采集一个常规网页,基本都是在秒级别。

    缺点和不足: 对于 Ajax 加载的网页还不支持,详情页的识别还在开发中。

    这个产品目前还是一个 Demo 阶段,欢迎大家提供宝贵意见! 我们持续改进!

    7 replies    2018-02-06 05:54:41 +08:00
    oness
        1
    oness  
    OP
       Jun 17, 2017
    核心点就 2 个:自动识别列表算法、自动识别分页算法。
    下一步的自动采集内容页,涉及正文提取算法。 这个目前有很成熟的算法,很好搞定。
    whung
        2
    whung  
       Jun 17, 2017 via iPhone   ❤️ 1
    收藏下支持一下你
    mingyun
        3
    mingyun  
       Jun 17, 2017
    试了下,速度挺快的,都不用写代码了
    watermelon92
        4
    watermelon92  
       Jun 17, 2017
    实测速度的确快啊,怎么做到的
    oness
        5
    oness  
    OP
       Jun 18, 2017
    @whung
    感谢!
    @mingyun
    @watermelon92
    哈哈,相比其他一些云采集是快很多。
    不过,可改进的地方还很多
    xiaoqiang0704
        6
    xiaoqiang0704  
       Jun 18, 2017
    确实很方便。可以进一步分享实现的方式吗
    jayli517
        7
    jayli517  
       Feb 6, 2018
    找东西的时候发现的,已经 200 多天了,不知道还更新不更新了,爬山虎采集器倒是评测感觉挺好的
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2663 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 88ms · UTC 03:59 · PVG 11:59 · LAX 20:59 · JFK 23:59
    ♥ Do have faith in what you're doing.