有没有人自己做过spark on aws ec2的项目

J.X · 2017-06-24 #1 想请教一下，谢谢 超赞

想请教一下，谢谢

Musers · 2017-06-24 #2 only on local mode 超赞

only on local mode

chris_cc

正在迁移中....我这里有个spark的群，可以帮拉

J.X

呵呵，我就猜cris_cc可能作过，我还在学习阶段，准备以后再上面用spark处理大量数据。有什么心得和最佳实践不妨有空科普一下。amazon aws上面的各种服务超级强大，看了之后觉得用来维护跟新数据非常方便容易，不晓得是不是错觉

chris_cc

目前坑还是比较多，相比传统数据库而言。优点也是明显的：理论上没有上线的数据量，相对低的infrastructure成本，以及，有争议的更低的运营成本。

UC Berkeley，作为Spark的摇篮，在Edx上开了几门课，感兴趣可以看一下。

AWS 确实方便，部署各种应用超快。

Musers

求问一下，SPARK配SCALA 还是 PYTHON？原则上应该是SCALA好，static typing, type inference更适应构建大型的应用。

用PYTHON写过几个SPARK程序，感觉PYTHON真心不适合构建大型项目，没有type info，极容易出错，程序写大点，自己有时候都搞糊涂了。

可以网上招人很多就招PYTHON，DEEP LEARNING之类的更是以PYTHON为主，鸟都不鸟SCALA...

J.X

chris_cc 说:
目前坑还是比较多，相比传统数据库而言。优点也是明显的：理论上没有上线的数据量，相对低的infrastructure成本，以及，有争议的更低的运营成本。

UC Berkeley，作为Spark的摇篮，在Edx上开了几门课，感兴趣可以看一下。

AWS 确实方便，部署各种应用超快。

多谢，最近看了spark的官方文档和aws的spark service，理论上知道了写皮毛，感觉想多看点实例
这门课怎么样：
Data Science and Engineering with Spark
Price:Free to Audit
Effort:5 - 10 hours per week, per course.
Length:2 - 4 weeks per course
Created by: UC BerkeleyX

你是自己做还是公司有项目？特别羡慕公司有项目，跟着做几次就回了，呵呵

J.X

Musers 说:
求问一下，SPARK配SCALA 还是 PYTHON？原则上应该是SCALA好，static typing, type inference更适应构建大型的应用。

用PYTHON写过几个SPARK程序，感觉PYTHON真心不适合构建大型项目，没有type info，极容易出错，程序写大点，自己有时候都搞糊涂了。

可以网上招人很多就招PYTHON，DEEP LEARNING之类的更是以PYTHON为主，鸟都不鸟SCALA...

python，scala应该两个都需要吧
估计招人的都默认你会Python就肯定会scala
我用的最多的就是python，都觉得scala挺好理解的
python没有type info的问题存在很久，但是它的简洁方便还是很吸引人的

chris_cc

J.X 说:
多谢，最近看了spark的官方文档和aws的spark service，理论上知道了写皮毛，感觉想多看点实例
这门课怎么样：
Data Science and Engineering with Spark
Price:Free to Audit
Effort:5 - 10 hours per week, per course.
Length:2 - 4 weeks per course
Created by: UC BerkeleyX

你是自己做还是公司有项目？特别羡慕公司有项目，跟着做几次就回了，呵呵

这就是我推荐的那门课啊。

Spark本身不难，几个大模块SparkSQL，dataframe，Mlib其实就是把原来单机版的扩展到分布式，一来可以处理所谓大数据，二来可以某种程度上降低成本。

目前和数据相关的业界主流越来越倾向于Python不是没有道理的，Python的缺点，性能低下，语法不严谨等等在这个行业的应用上都不是太多问题，但学习曲线平，上手难度低，尤其是Python的“胶水”特性使它成为大数据时代最全面的瑞士军刀式的工具。其趋势之强，可以从微软的机器学习包DMTK居然把PY作为第一支持语言，甚至排在亲儿子C#前面，就可见一斑。

Scala是很好的语言，非常适合AMP实验室这班才华横溢的小伙子们用来开发Spark。但基于Spark的应用开发，PY可能是更适合的语言。

J.X · 2017-06-28 #10 旁听不收钱 超赞

旁听不收钱

Musers

chris_cc 说:
这就是我推荐的那门课啊。

Spark本身不难，几个大模块SparkSQL，dataframe，Mlib其实就是把原来单机版的扩展到分布式，一来可以处理所谓大数据，二来可以某种程度上降低成本。

目前和数据相关的业界主流越来越倾向于Python不是没有道理的，Python的缺点，性能低下，语法不严谨等等在这个行业的应用上都不是太多问题，但学习曲线平，上手难度低，尤其是Python的“胶水”特性使它成为大数据时代最全面的瑞士军刀式的工具。其趋势之强，可以从微软的机器学习包DMTK居然把PY作为第一支持语言，甚至排在亲儿子C#前面，就可见一斑。

Scala是很好的语言，非常适合AMP实验室这班才华横溢的小伙子们用来开发Spark。但基于Spark的应用开发，PY可能是更适合的语言。

我对不是static typed的语言有很大偏见，希望不要见怪。

个人认为PYTHON在DS的成功其实更多与它在高等学府的推广有关，并不是其语言本身有多优秀，高等算法需要很深的理论知识才能搞出来，不是博士，教授之类的一般搞不出来，所以PYTHON在ML，NLP等广泛应用。

很多例子可以说明PYTHON其实不适合构建大型应用，从大公司出的新语言，如GOLANG FROM GOOGLE, SWIFT FROM APPLE, HACK FROM FACEBOOK, RUST FROM MOZILLA, C# FROM M都是清一色static typed的语言，这些公司从实践中认为type info在工程性上是相当重要的。

Python的duck typing在项目维护中简直是恶梦，Python 3出来快10年了，至今很多Python的类库只支持Python 2，我个人认为一个很大的原因是，因为缺少type info，使得refactoring变成一件痛苦的事情，间接造成类库更新慢。

chris_cc

我可以肯定PY不是最好的语言，包括火到不行的JS。但还是哪句话，没有最好的，只有最合适的。

做机器学习/人工智能的，很大一部分不是计算机科班出身，但这些人的成果是大数据这个行业链上最有价值的一段。Hadoop是用Java写的，Spark是Scala。在工程的意义上，这是在那个时间点对那个团队最好的选择。但是在应用中，绝大部分Hadoop的用户其实熟悉和需要的是SQL，所以基于Java的MapReduce和基于script的pig先后先死掉，活下来的是基于SQL的Hive/Impala/Drill。对于Spark，类似的故事，Scala对于非软件工程背景的用户而言学习成本还是更高了些。同样的时间，PY的POC都做出来了，Java/Scala可能还在设置环境，debug………

至于PY工程上的缺陷，类似没有静态类型这种，单就大数据这个行业而言，都不是什么事儿了（R表示你们慢慢聊）——我能把数据捣腾清楚就好，应用的话交给Java/C#/Go/JS这些去做——其实PY硬着头皮也可以称自己是full stack——这不是有姜戈嘛。

尤其是对我这种从C/C++转过来的，PY简直像打开了一个新世界：我槽，原来可以这么操作啊。感觉从繁琐的语言细节中解脱出来而可以专注在解决实际问题上，结果就是工作效率成倍增长。网络名言“life is short， do Python”真不是吹的。

兄举的Google/Facebook/MS的例子很好，但正是这几家公司，无一例外的把自家下一代的AI平台（Tensorflow，PyTorch，DMTK）押宝在了PY上，绝不是偶然之举。

Musers 说:
我对不是static typed的语言有很大偏见，希望不要见怪。

个人认为PYTHON在DS的成功其实更多与它在高等学府的推广有关，并不是其语言本身有多优秀，高等算法需要很深的理论知识才能搞出来，不是博士，教授之类的一般搞不出来，所以PYTHON在ML，NLP等广泛应用。

很多例子可以说明PYTHON其实不适合构建大型应用，从大公司出的新语言，如GOLANG FROM GOOGLE, SWIFT FROM APPLE, HACK FROM FACEBOOK, RUST FROM MOZILLA, C# FROM M都是清一色static typed的语言，这些公司从实践中认为type info在工程性上是相当重要的。

Python的duck typing在项目维护中简直是恶梦，Python 3出来快10年了，至今很多Python的类库只支持Python 2，我个人认为一个很大的原因是，因为缺少type info，使得refactoring变成一件痛苦的事情，间接造成类库更新慢。

Musers

chris_cc 说:
我可以肯定PY不是最好的语言，包括火到不行的JS。但还是哪句话，没有最好的，只有最合适的。

做机器学习/人工智能的，很大一部分不是计算机科班出身，但这些人的成果是大数据这个行业链上最有价值的一段。Hadoop是用Java写的，Spark是Scala。在工程的意义上，这是在那个时间点对那个团队最好的选择。但是在应用中，绝大部分Hadoop的用户其实熟悉和需要的是SQL，所以基于Java的MapReduce和基于script的pig先后先死掉，活下来的是基于SQL的Hive/Impala/Drill。对于Spark，类似的故事，Scala对于非软件工程背景的用户而言学习成本还是更高了些。同样的时间，PY的POC都做出来了，Java/Scala可能还在设置环境，debug………

至于PY工程上的缺陷，类似没有静态类型这种，单就大数据这个行业而言，都不是什么事儿了（R表示你们慢慢聊）——我能把数据捣腾清楚就好，应用的话交给Java/C#/Go/JS这些去做——其实PY硬着头皮也可以称自己是full stack——这不是有姜戈嘛。

尤其是对我这种从C/C++转过来的，PY简直像打开了一个新世界：我槽，原来可以这么操作啊。感觉从繁琐的语言细节中解脱出来而可以专注在解决实际问题上，结果就是工作效率成倍增长。网络名言“life is short， do Python”真不是吹的。

兄举的Google/Facebook/MS的例子很好，但正是这几家公司，无一例外的把自家下一代的AI平台（Tensorflow，PyTorch，DMTK）押宝在了PY上，绝不是偶然之举。

我有点好奇，依您的看法，python是做POC，exploration的，应用是交给Java之类的，那究竟有没有Production grade的大数据产品 in python呢？能稳定服务数百万用户的产品？
大公司本质上可能看中的不是Python本身，而是Python所代表的高等学府，学者之类的，一般只有这类理论知识深厚的人才能玩得动AI。

chris_cc

太多了。pyspark，airflow，h2o，tensorflow……这些都是已经有大量prod部署的产品。

其实我的意思不是py做poc，prod交给其它语言，而是py适合做好数据这一块的应用，其它业务模块交给其它语言。举个例子，银行信用卡申请时的风险评估，后台的风险模型和评估可以用py来构建，再以数据库表或者web api的形式提供给其它语言。

Musers 说:
我有点好奇，依您的看法，python是做POC，exploration的，应用是交给Java之类的，那究竟有没有Production grade的大数据产品 in python呢？能稳定服务数百万用户的产品？
大公司本质上可能看中的不是Python本身，而是Python所代表的高等学府，学者之类的，一般只有这类理论知识深厚的人才能玩得动AI。

J.X

Musers 说:
求问一下，SPARK配SCALA 还是 PYTHON？原则上应该是SCALA好，static typing, type inference更适应构建大型的应用。

用PYTHON写过几个SPARK程序，感觉PYTHON真心不适合构建大型项目，没有type info，极容易出错，程序写大点，自己有时候都搞糊涂了。

可以网上招人很多就招PYTHON，DEEP LEARNING之类的更是以PYTHON为主，鸟都不鸟SCALA...

请教一下，我安装了Intellij idea，怎么选左边的scala，右边没有scala,我安装了scala plugin啊

别人的是这样，有scala

Musers

J.X 说:
请教一下，我安装了Intellij idea，怎么选左边的scala，右边没有scala,我安装了scala plugin啊

浏览附件471254
别人的是这样，有scala
浏览附件471255

我的也没有SCALA选项，感觉选SBT或IDEA就可以了。

J.X · 2017-07-21 #17 谢谢，困扰了两天 超赞

谢谢，困扰了两天

sbswang

现在加拿大的几个银行，还有walmart之类都在招spark, scala, 大摩也在招，还是要学一下scala的，会的话比较抢手

chris_cc

sbswang 说:
现在加拿大的几个银行，还有walmart之类都在招spark, scala, 大摩也在招，还是要学一下scala的，会的话比较抢手

工作的话pyspark足矣。当然艺多不压身。

sbswang

chris_cc 说:
工作的话pyspark足矣。当然艺多不压身。

在多伦多这边招，人家明确要求精通Scala, 会python的人一大堆，新毕业的学一下都会，门槛低，工资也不高

一键看好帖

交易

帖子

用户

本地社区

加国生活

移民签证

服务黄页

有没有人自己做过spark on aws ec2的项目

更多选项

J.X

Musers

chris_cc

愚者一得

J.X

chris_cc

愚者一得

Musers

J.X

J.X

chris_cc

愚者一得

J.X

Musers

chris_cc

愚者一得

Musers

chris_cc

愚者一得

J.X

Musers

J.X

sbswang

chris_cc

愚者一得

sbswang

Similar threads

家园推荐黄页

家园币系统数据