换工作后终于名正言顺写爬虫了,团队中只有我一个人写爬虫项目, 最近有个爬虫项目持续到年底,一天爬一个网站的速度,那么, 百来个爬虫项目如何管理呢? 我不用 scrapy, 有什么 tricky 或者建议请不吝赐教.
我期望的比较好的管理方式是部署到 web, 通过 web 管理. 实在不行就只能用 excel 管理啦.
1
50vip 2016 年 10 月 8 日
不知道是什么意思~
|
2
wico77 2016 年 10 月 8 日
pyspider, 不过这个适合定时爬。
|
3
Patrick95 2016 年 10 月 8 日
用 Python 再写一个爬虫项目的 Web 管理系统嘛,应该不难呀。
|
4
wayslog 2016 年 10 月 8 日 via Android
crontab+版本控制自动跑,考虑到迁移 ip 的事儿再用 ansible 写了个半自动化部署脚本。。。用的也挺好的
|
7
Kilerd 2016 年 10 月 8 日
造轮子,造轮子!!!
|
8
crayonyi 2016 年 10 月 8 日
我是自己写了一个通用爬虫系统,后面用 django admin ,管理 10 几个爬虫的爬取规则及定时任务
|
9
cphilo 2016 年 10 月 8 日
所有爬虫采用配置,然后弄个消息队列用来调度爬虫任务,基本上维护起来非常方便了,生产环境中几百个站点实践过
|
12
anyforever 2016 年 10 月 9 日
|
14
zluyuer 2016 年 10 月 9 日
推荐采用 Rundeck 调度
|
15
brucedone 2016 年 10 月 9 日
执行载体暴露 api ,以 xml 或者 json 做为标准格式,执行载体要有当前执行,待跑列表,历史记录,爬虫管理,执行或者删除等核心功能,然后以此的基础上,你就欢快的脱离语言自己造轮子吧。
|
16
brucedone 2016 年 10 月 9 日
关于调度的,欢迎你使用这个。[调度]可视化的调度架构-Dagobah] http://brucedone.com/archives/754
|
18
ytmsdy 2016 年 10 月 9 日
pyspider
|
20
tikazyq 2020 年 4 月 8 日
crawlab
|