1
holajamc 2018 年 12 月 18 日
巧了最近也在看 Spark,不如看看官方文档?-> https://spark.apache.org/docs/latest/quick-start.html
|
2
richzhu 2018 年 12 月 18 日 兄弟,玩什么不重要,重要的是你玩的怎么样
|
3
devqin 2018 年 12 月 18 日
|
4
andylsr 2018 年 12 月 18 日 via Android
看你数据量,市面上几千条数据也拿来分析的~有必要 spark 么,
|
5
penisulaS 2018 年 12 月 18 日
这个就看实际的需求环境了
|
6
yab119074412 2018 年 12 月 18 日
spark 也有 Python 版的 pyspark
|
7
janxin 2018 年 12 月 18 日 pyspark,另外也取决于数据量
是时候拿出这个文章了了 Don't use Hadoop - your data isn't that big https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html 当然,老外也有可能没见识,不知道我天朝的大数据 |
8
ftexplore 2018 年 12 月 18 日
python 适合数据分析的原因是,很多非计算机领域的大牛,例如数学家,他们用 python 比较顺手,所以有大量的 lib 可以用
|
9
mwiker 2018 年 12 月 18 日
另一个叫啥的语言:scala。因为 spark 是由 scala 编写的,用 scala 支持更多的 api。不过熟悉 python 的用 pyspark 也可以了。
|
10
yak9dd 2018 年 12 月 18 日
python 只是接口,把数据灌倒 spark,flink,tensorflow 里跑。python 真的很慢,但其处理数据的简洁性使得绝大部分数据处理框架都是 Python 接口
|
11
yanzixuan 2018 年 12 月 18 日
pandas 难道不专业?数据量少用 pandas,数据量大用 dask,数据量很大用 spark。
|
12
cyspy 2018 年 12 月 18 日
pyspark+numpy 是常用做法。
|
13
hikarugo 2018 年 12 月 18 日
有时间纠结工具,不如先找一个上手试试
|
14
visitantzj 2018 年 12 月 18 日
python 数据分析有优势的是大数据 /ML 这些离工程领域近的生态圈强,单纯说数据分析语法上没有 matlab/r/julia 这些适合,用 python 经常感觉脑子里要想一想语法 namespace 之类的,不像那些语言思维那么流畅。
|
15
googlefans 2019 年 1 月 3 日 via iPad
spark 要多大量级的数据?
|