LOL,这个说法就好像“PPT有那么多模版,随便套个不就可以作presentation了”。
何况spark/graphlab/mahout这些只是解决了大数据环境下机器学习算法工具从无到有的问题,离好用还有很尝的路要走。举个例子,spark的dataframe 以及graphlab的sframe都是受R的dataframe启发而来,但功能都还不够完善。
spark还有很多东西是基于map reduce的思路而实现的,如果不注意的话很容易出现性能问题。比如一个简单的 sum groupby操作,不同的写法可能会有上百倍的性能差异。
好的ds,de非常难得,理论,经验,天赋,运气,勤奋缺一不可,不是补几门课就能速成的。我也刚刚起步,共勉。
何况spark/graphlab/mahout这些只是解决了大数据环境下机器学习算法工具从无到有的问题,离好用还有很尝的路要走。举个例子,spark的dataframe 以及graphlab的sframe都是受R的dataframe启发而来,但功能都还不够完善。
spark还有很多东西是基于map reduce的思路而实现的,如果不注意的话很容易出现性能问题。比如一个简单的 sum groupby操作,不同的写法可能会有上百倍的性能差异。
好的ds,de非常难得,理论,经验,天赋,运气,勤奋缺一不可,不是补几门课就能速成的。我也刚刚起步,共勉。