做个简单易用通用型采集器不容易,这个项目已经花了 6 年时间,还没完还将继续。
3 年前第一次发布
http://v2ex.com/t/65371#reply149
第一次发布后有人说太复杂,有人说应该提供独立的 WEB 管理界面等等,花了 3 年时间在这个版本都有实现,并且做了很多的重构与功能完善。
三年前注册的用户,可以直接安装使用(鸟巢采集器个人用户终身免费使用),
项目地址
https://github.com/speed/newcrawler
目前还不打算开放注册,准备再测试一个月(请不要申请邀请码)
鸟巢采集器
http://www.newcrawler.com
测试帐号(请使用海外节点,因为 GAE,OpenShift 都已被墙)
username:test
password:test
演示视频
http://video.newcrawler.com/newcrawler_v2.2.mp4
http://ww3.sinaimg.cn/large/5e24c9a7gw1f2sj1vgfx8j20zk0rhtg2.jpg
1
rubyvector 2016 年 4 月 11 日 楼主强人哦.界面细腻,功能强大到难以想像.不知道处理有 IP 限制的页面是否有解决方案
|
2
mazyi PRO cool
|
3
shiny PRO 以前也考虑过写类似东西,但思路不及楼主。看得出花费了大量心血。
|
4
stiekel 2016 年 4 月 11 日 有毅力,一个项目能够坚持这么多年,赞!
|
5
yanyuan2046 2016 年 4 月 11 日 牛逼,能用 6 年做一件事的都是牛人
|
6
server 2016 年 4 月 11 日
牛人,毅力!!
|
7
whahuzhihao 2016 年 4 月 11 日
好棒!楼主好毅力
|
8
pypy 2016 年 4 月 11 日
好厉害!学习楼主这种精神!
|
9
sohoer OP |
10
mew7wo 2016 年 4 月 11 日
楼主牛人 已安装试用
|
11
kukat 2016 年 4 月 11 日
有 docker image 吗?
|
12
sewyu 2016 年 4 月 11 日
吓到了,好强大。。。。 绝对大神
|
13
sohoer OP |
14
feather12315 2016 年 4 月 11 日 via Android
@sohoer 爬虫共享赞一个。
|
15
sylviayoung 2016 年 4 月 11 日 via iPad
佩服楼主持之以恒的精神!
|
16
leehon 2016 年 4 月 11 日
6 年有点太长,一直是楼主一个人开发吗
|
17
alongdj 2016 年 4 月 11 日 via Android
楼主好毅力…
|
18
inoricho 2016 年 4 月 11 日
楼主大触!
|
19
wuyadong 2016 年 4 月 11 日
楼主,吊~!
|
20
zeac 2016 年 4 月 11 日
佩服~
|
21
keepcleargas 2016 年 4 月 11 日
大牛 膜拜.
|
22
Kilerd 2016 年 4 月 11 日
太厉害了,坚持了那么久,我很久之前也写过一个,不过完全不通用啊。
|
23
mahone3297 2016 年 4 月 11 日
什么毅力居然让你坚持了 6 年。。。赞。。。
|
24
kutata 2016 年 4 月 11 日
这项目的构建方式刷新了三观,好腻害.....
|
25
qa52666 2016 年 4 月 11 日
牛逼
|
26
soulteary 2016 年 4 月 11 日
成功炸出来潜水党...点赞。
|
27
dong3580 2016 年 4 月 11 日
已经 star,真是膜拜大牛啊,
|
28
ixinshang 2016 年 4 月 11 日
在树莓派贴吧 看过一个类似的 info
|
29
sunbeams001 2016 年 4 月 11 日
定制度和完成度都好高……膜拜下
|
30
Xrong 2016 年 4 月 11 日
我了个去啊,牛逼到家啊。。。给楼上点个赞啊
|
31
heige853 2016 年 4 月 11 日
看了下 好牛逼 颠覆了对以往采集工具的理解~
|
32
Asimov 2016 年 4 月 11 日 via Android
回家试试
|
33
missqso 2016 年 4 月 11 日
好厉害啊,很多 ux 动画也是非常的精致。
|
34
FanError 2016 年 4 月 11 日
一登录进去 NPE 了哦
java.lang.NullPointerException at lllllllllllllll.IIlIIllllIIlllllI.lIlIllIllIIIllI(Unknown Source) at lllllllllllllll.IIlIIllllIIlllllI.IIIIIllIlIIIIII(Unknown Source) at lllllllllllllll.IIlIIllllIIlllllI.IIIIIIlllIlllIl(Unknown Source) at lllllllllllllll.IIlIIllllIIlllllI.IIlIIIlIlIIlIIl(Unknown Source) at lllllllllllllll.IIlIlllIlllIlIIII.lIIllIllllIIIIl(Unknown Source) at lllllllllllllll.IIlIlllIlllIlIIII.check(Unknown Source) at sun.reflect.GeneratedMethodAccessor60.invoke(Unknown Source) at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source) at java.lang.reflect.Method.invoke(Unknown Source) at lllllllllllllll.IIlIlIllIIIlIlIll.IIIIlIlllIIlIll(Unknown Source) at lllllllllllllll.IIlIlllIlIllllIIl.call(Unknown Source) at lllllllllllllll.IIlIIlIIIlIIlIIII.IIlIIlIlIlIlIIl(Unknown Source) at lllllllllllllll.IIlIIlIIIlIIlIIII.service(Unknown Source) |
35
Caratpine 2016 年 4 月 11 日
好厉害,赞赞赞
|
36
loadingimg 2016 年 4 月 11 日
膜拜一下
|
37
ketle 2016 年 4 月 11 日
可视化的怎么弄
|
38
Sunya 2016 年 4 月 11 日 via iPhone
wecl come back 😆。赞
|
39
csx163 2016 年 4 月 11 日
三年前看过,记得当时根本无从下手,现在真的好用多了。 [赞]
|
41
sohoer OP 上一次发布有人说访问太慢,
所以我自己实现了分布式同步,目前有三个节点, aliyun 、 gae 、 linode 被墙的资源如 GAE 请使用 linode(海外节点)访问 |
42
frankmdong 2016 年 4 月 11 日
好毅力 已 star
|
43
xiaogouxo 2016 年 4 月 11 日
楼主太刁了。已 star
|
44
walkershow 2016 年 4 月 11 日
楼主牛逼啊!
|
45
sohoer OP @leehon 一直都是一个人开发
有时候想想都觉得自己很强大,坚持这么久做一件事情 无数次编译,数不清的重构,每一次重构都很痛苦 刚开始程序员生涯的时候做过很多垃圾站,也用过不少采集器 后面知道 GAE 免费,于是想用很多的 GAE APP 来搭一个免费的爬虫网络(违反 TOS ) 基于 GAE 开发后发现 PAAS 平台限制太多,后来加上了标准的 JAVA 环境支持 目前同时支持 GAE 与标准 JAVA 环境,开发上也增加不少难度, 谁让我想吃免费的蛋糕呢! 最后大家都能有免费蛋糕吃 |
46
xingshu 2016 年 4 月 11 日
能留个邮箱么,有点其他需求,希望能通过邮箱沟通。🤗
|
47
sohoer OP |
49
fengxiang 2016 年 4 月 11 日 via Android
手动点赞,楼主能坚持真的很厉害。不像某些项目,一堆 bug 还到处宣扬。
|
50
gimp 2016 年 4 月 11 日
佩服楼主的毅力和能力,点赞!
|
51
mcwanderer 2016 年 4 月 11 日
膜拜
|
52
badcode 2016 年 4 月 11 日 看哭了,我确定是回这贴的
|
54
DesignerSkyline 2016 年 4 月 11 日
给你点赞啦!希望以后也继续更新
|
55
Flygoat 2016 年 4 月 11 日 via iPad
垃圾站助手?
|
56
sohoer OP @Flygoat 现在不做垃圾站了,像这样的 http://www.shishibi.com(半成品)
|
58
sohoer OP |
59
ven 2016 年 4 月 11 日
太强大了!赞!
|
61
binux 2016 年 4 月 11 日
|
62
ddter 2016 年 4 月 11 日
不是泼冷水啊,这个跟八爪鱼比起来有啥明显的优势吗。。。
|
63
jiezhi 2016 年 4 月 11 日
牛人,学习坚持精神!
|
65
sohoer OP |
66
HanSonJ 2016 年 4 月 11 日
我吓尿了,好厉害!
|
68
leafof 2016 年 4 月 11 日
很牛!可惜暂时用不到
|
69
ftp11yyy 2016 年 4 月 11 日
点赞,好厉害!
|
70
lemayi 2016 年 4 月 11 日
太 nb 了!
|
71
alocne 2016 年 4 月 11 日
好厉害
|
72
isb 2016 年 4 月 11 日
惊呆。~ 好厉害!!
|
73
yylzcom 2016 年 4 月 11 日 via Android
我见过的收藏人数最多的一个帖子
|
74
imWBB 2016 年 4 月 11 日
点赞
|
75
xiaocsl 2016 年 4 月 11 日
在以前的公司,有过类似的.
我负责前端,开发一个 Chrome 插件,来让人选择爬取的内容. 楼主这个,看功能要完善好多.犀利啊~ |
76
huijian222 2016 年 4 月 11 日
cool
|
77
jaylong 2016 年 4 月 11 日
好棒!
|
78
hpeng 2016 年 4 月 11 日
好牛逼。读书的时候就有这个想法,但是并没有做下去。实在佩服,佩服。
|
79
h4lt 2016 年 4 月 11 日
叼炸了。正好有相关的需要,学习学习。
|
80
strwei 2016 年 4 月 12 日
功能强大到爆,可惜不适合小白用
|
81
branchzero 2016 年 4 月 12 日
好强大啊,已 star ,佩服 LZ 的毅力!
|
82
konakona 2016 年 4 月 12 日
看了介绍视频,很强大!
非常感谢楼主分享! |
83
jacker 2016 年 4 月 12 日
和国外的 kimono 太像啦
|
85
cxshun 2016 年 4 月 12 日
好强大,佩服楼主!
|
86
codeyung 2016 年 4 月 12 日
支持楼主!
|
87
wq2016 2016 年 4 月 12 日
支持一个!
|
88
myforgame 2016 年 4 月 12 日
屌爆了
|
90
jacker 2016 年 4 月 12 日
以前做过 SEO ,采集方面主要是采集后伪原创处理然后发布,现在主要做一些运营方面,会遇到需要采集一些数据做分析,根据这两方面我个人感觉可以加上的几个功能是
1.根据部分开源的程序有通用的规则,方便小白来采集(如 WordPress ,或者 magento ); 2.对接一些 API ,如 copypass 等 如果能根据数据生成图就更好啦 kimono 可以生成自己的 API ,这个功能也是非常不错的 |
91
viosey 2016 年 4 月 13 日
太强大了, 虽然说个人免费使用, 但是即使收费了也是毫不犹豫的买买买
|
92
sohoer OP |
93
vvaaiinn 2016 年 4 月 13 日
NB 啊。求个邀请码注册玩玩
|
94
wingyiu 2016 年 4 月 15 日
NB
|
95
wingyiu 2016 年 4 月 15 日
test 账号进去各种 error ,引导做得不好,居然不是开源,不过好像反编译就行了
|
96
quericy 2016 年 4 月 20 日
看完 LZ 的项目,感觉自己写的爬虫的通用性就是个笑话
6 年....佩服 LZ 的毅力 |
97
mew7wo 2016 年 5 月 25 日
个人安装之后,用什么帐号可以登录使用个人采集器
|
98
wujunze 2016 年 8 月 19 日
佩服楼主的毅力
|
99
sparkssssssss 2016 年 8 月 20 日 via Android
膜拜!!!!
|
100
fanghui 2017 年 2 月 21 日
@sohoer 主要问题是没有 xpath 表达式显示在页面的左上角,你可以看下截图,截图地址: https://pan.baidu.com/s/1ctf1Yu
|