V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
practicer
V2EX  ›  Python

Python 爬虫项目如何管理?

  •  1
     
  •   practicer · 2016 年 10 月 8 日 · 6771 次点击
    这是一个创建于 3387 天前的主题,其中的信息可能已经有所发展或是发生改变。

    换工作后终于名正言顺写爬虫了,团队中只有我一个人写爬虫项目, 最近有个爬虫项目持续到年底,一天爬一个网站的速度,那么, 百来个爬虫项目如何管理呢? 我不用 scrapy, 有什么 tricky 或者建议请不吝赐教.

    我期望的比较好的管理方式是部署到 web, 通过 web 管理. 实在不行就只能用 excel 管理啦.

    20 条回复    2020-04-08 08:33:17 +08:00
    50vip
        1
    50vip  
       2016 年 10 月 8 日
    不知道是什么意思~
    wico77
        2
    wico77  
       2016 年 10 月 8 日
    pyspider, 不过这个适合定时爬。
    Patrick95
        3
    Patrick95  
       2016 年 10 月 8 日
    用 Python 再写一个爬虫项目的 Web 管理系统嘛,应该不难呀。
    wayslog
        4
    wayslog  
       2016 年 10 月 8 日 via Android
    crontab+版本控制自动跑,考虑到迁移 ip 的事儿再用 ansible 写了个半自动化部署脚本。。。用的也挺好的
    practicer
        5
    practicer  
    OP
       2016 年 10 月 8 日 via iPhone
    @wico77 看起来很有用,真的很感谢分享
    practicer
        6
    practicer  
    OP
       2016 年 10 月 8 日 via iPhone
    @Patrick95 重新写不是挺慢的吗
    Kilerd
        7
    Kilerd  
       2016 年 10 月 8 日
    造轮子,造轮子!!!
    crayonyi
        8
    crayonyi  
       2016 年 10 月 8 日
    我是自己写了一个通用爬虫系统,后面用 django admin ,管理 10 几个爬虫的爬取规则及定时任务
    cphilo
        9
    cphilo  
       2016 年 10 月 8 日
    所有爬虫采用配置,然后弄个消息队列用来调度爬虫任务,基本上维护起来非常方便了,生产环境中几百个站点实践过
    practicer
        10
    practicer  
    OP
       2016 年 10 月 9 日
    @cphilo 能不能详细说明一下啊?
    practicer
        11
    practicer  
    OP
       2016 年 10 月 9 日
    @wayslog 有相关的教程吗?谢谢
    wayslog
        13
    wayslog  
       2016 年 10 月 9 日 via Android
    @practicer 没啥教程……基本上修修补补就出来了……又不是啥难得事儿……几个脚本的事儿
    zluyuer
        14
    zluyuer  
       2016 年 10 月 9 日
    推荐采用 Rundeck 调度
    brucedone
        15
    brucedone  
       2016 年 10 月 9 日
    执行载体暴露 api ,以 xml 或者 json 做为标准格式,执行载体要有当前执行,待跑列表,历史记录,爬虫管理,执行或者删除等核心功能,然后以此的基础上,你就欢快的脱离语言自己造轮子吧。
    brucedone
        16
    brucedone  
       2016 年 10 月 9 日
    关于调度的,欢迎你使用这个。[调度]可视化的调度架构-Dagobah] http://brucedone.com/archives/754
    practicer
        17
    practicer  
    OP
       2016 年 10 月 9 日 via iPhone
    @brucedone 这个工具很灵活啊,谢谢了
    ytmsdy
        18
    ytmsdy  
       2016 年 10 月 9 日
    pyspider
    cszhiyue
        19
    cszhiyue  
       2016 年 10 月 10 日
    @brucedone 更加完善的

    incubator-airflow
    tikazyq
        20
    tikazyq  
       2020 年 4 月 8 日
    crawlab
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1130 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 23:52 · PVG 07:52 · LAX 15:52 · JFK 18:52
    ♥ Do have faith in what you're doing.