微信昙花一现

不知道有没有人有兴趣谈谈科技话题。现在网络社交确实已经不是最被看好的增长点。从业内朋友的反馈看, 大家都在关注大数据,以及移动互联。当然这两个概念也不是新生事物,但是最近炒得很火。被形容成“金矿”什么的。有几个认识的朋友都在努力往大数据方向转。

好多文章对于大数据有各种展望,其火爆程度颇有点像90年代末的“生物技术”。记得当时陈章良之流把DNA技术吹得牛逼上天,给人感觉是20年后全世界都是DNA改造人和改造动植物了,但其实生物工程后来成了最坑爹专业。令人期待的变种人好像也没有出现。

感觉大数据也有点眼高手低的潜质。作为一个具有较为粗浅计算机知识的coder,直观感觉是数据的采集、挖掘、建模、分析利用都是极其艰巨的任务,只可能在已经证实的巨大商业利益的推动下应用于极少数几个领域。而很多文章所举的例子,通过广泛采集某些极其细微的人类活动规律去预测一些潜在商业机会,应该是非常难以实现的。不知道大家对此有何看法。

以前做商业计划市场调查等等时需要抽样调查,但这种使用抽样数据的统计方法不论怎样设计,都会有一定程度的失真,因为没有哪种抽样的少部分样本能完美地代表整个人群。而所谓大数据,不是抽样,而是直接使用整体目标群体的数据,很真实。

但是大数据对商业预测的作用,实际上很难说。如果大家都使用大数据,调整自己的商业策略,那么等商业策略实施的时候,整个市场同时又变化了,以前的大数据的有效性也变化了,就像股市一样。
所以,如果只有一个人使用大数据,通吃。大家都用大数据,博弈。
 
看国内搞it的都在说,不过一直不知道“大数据”是个啥?

微信上的段子。

什么叫大数据?

▶某必胜客店的电话铃响了,客服人员拿起电话。

客服:必胜客。您好,请问有什么需要我为您服务?

顾客:你好,我想要一份……

客服:先生,烦请先把您的会员卡号告诉我。

顾客:16846146***。

客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是2646****,您公司电话是4666****,您的手机是1391234****。请问您想用哪一个电话付费?

顾客:你为什么知道我所有的电话号码?

客服:陈先生,因为我们联机到CRM系统。

顾客:我想要一个海鲜比萨……

客服:陈先生,海鲜比萨不适合您。

顾客:为什么?

客服:根据您的医疗记录,你的血压和胆固醇都偏高。

顾客:那你们有什么可以推荐的?

客服:您可以试试我们的低脂健康比萨。

顾客:你怎么知道我会喜欢吃这种的?

客服:您上星期一在国家图书馆借了一本《低脂健康食谱》。

顾客:好。那我要一个家庭特大号比萨,要付多少钱?

客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。

顾客:那可以刷卡吗?

客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。

顾客:那我先去附近的提款机提款。

客服:陈先生,根据您的记录,您已经超过今日提款限额。

顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到?

客服:大约30分钟。如果您不想等,可以自己骑车来。

顾客:为什么?

客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。

顾客:当即晕倒......
 

阿吾

踏实做事 有趣做人
以前做商业计划市场调查等等时需要抽样调查,但这种使用抽样数据的统计方法不论怎样设计,都会有一定程度的失真,因为没有哪种抽样的少部分样本能完美地代表整个人群。而所谓大数据,不是抽样,而是直接使用整体目标群体的数据,很真实。

但是大数据对商业预测的作用,实际上很难说。如果大家都使用大数据,调整自己的商业策略,那么等商业策略实施的时候,整个市场同时又变化了,以前的大数据的有效性也变化了,就像股市一样。
所以,如果只有一个人使用大数据,通吃。大家都用大数据,博弈。

所以得先下手为强,

去年IBM提供了“Watson Analytics”云端数据分析服务,还让大伙免费试用,
 

Kerrigan

静如瘫痪 动如癫痫
绝对是个好的职业方向,Hadoop三驾马车之一Hortonworks去年年底实现了IPO,

据说LinkedIn2014年最热门的职业技能中,排名榜首的就是“统计分析和数据挖掘”,

今后有Hadoop经验的会越来越吃香,

你好,我想问个十分粗浅实际的问题。能否给我科普一下,比如就我一个普通Java EE程序员(还是来加拿大半路出家的,以前国内做C++写driver的),像Hadoop这类的东西距离我有多远。是两三本书呢,还是两三光年?实话说我对计算机软件领域各种知识都略通,但是无一精深,典型的万金油。
 

阿吾

踏实做事 有趣做人
微信上的段子。

什么叫大数据?

▶某必胜客店的电话铃响了,客服人员拿起电话。

客服:必胜客。您好,请问有什么需要我为您服务?

顾客:你好,我想要一份……

客服:先生,烦请先把您的会员卡号告诉我。

顾客:16846146***。

客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是2646****,您公司电话是4666****,您的手机是1391234****。请问您想用哪一个电话付费?

顾客:你为什么知道我所有的电话号码?

客服:陈先生,因为我们联机到CRM系统。

顾客:我想要一个海鲜比萨……

客服:陈先生,海鲜比萨不适合您。

顾客:为什么?

客服:根据您的医疗记录,你的血压和胆固醇都偏高。

顾客:那你们有什么可以推荐的?

客服:您可以试试我们的低脂健康比萨。

顾客:你怎么知道我会喜欢吃这种的?

客服:您上星期一在国家图书馆借了一本《低脂健康食谱》。

顾客:好。那我要一个家庭特大号比萨,要付多少钱?

客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。

顾客:那可以刷卡吗?

客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。

顾客:那我先去附近的提款机提款。

客服:陈先生,根据您的记录,您已经超过今日提款限额。

顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到?

客服:大约30分钟。如果您不想等,可以自己骑车来。

顾客:为什么?

客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。

顾客:当即晕倒......

都给整合在一起了,所有的数据汇集成“数据湖”,从部门级到企业级,
 

阿吾

踏实做事 有趣做人
你好,我想问个十分粗浅实际的问题。能否给我科普一下,比如就我一个普通Java EE程序员(还是来加拿大半路出家的,以前国内做C++写driver的),像Hadoop这类的东西距离我有多远。是两三本书呢,还是两三光年?实话说我对计算机软件领域各种知识都略通,但是无一精深,典型的万金油。

俺也不太懂,只有概念性的东西,

但看一下架构,其实具体的技术细节(具体到编码),很多还都是我们平常用的那些东西,

如果会JAVA,再学学基于Java的Hadoop 应用程序开发,可以算是入门了吧,

Hortonworks-YARN架构.png
 
最后编辑: 2015-01-13

阿吾

踏实做事 有趣做人
其实Hadoop的两个重要部分HDFS和MapReduce

不过是google当年的GFS和MapReduce的开源,google检索那么好用,就靠着这个技术,

当然后来google又有了新的技术(那些都是2003时候的东西了),

但Hadoop技术却为大数据提供了很好的实现手段,

全球很多技术都落后于Google,Google的技术一直在影响着全球,
 

Kerrigan

静如瘫痪 动如癫痫
俺也不太懂,只有概念性的东西,

但看一下架构,其实具体的技术细节(具体到编码),很多还都是我们平常用的那些东西,

如果会JAVA,再学学基于Java的Hadoop 应用程序开发,可以算是入门了吧,

浏览附件372530

如果我对这个图没理解错的话,它是一个纵向理解的图。也就是说,底层是HDFS,上层各种接口都能用。从现在主流的阿帕奇Solr到各种关系型SQL,到比较edge的NoSQL以及各种杂七杂八的ISV,都能够进行搜索并输出结果。那么现在所谓做Hadoop,应该是指在HDFS,或者至多在HDFS上面一层做开发。如果我没猜错的话,都是一些java或者c++。

如果这样理解,应该是学学基于Java的Hadoop 应用程序开发就行。不过软件这玩意都是说起来容易做起来难啊。。
 

阿吾

踏实做事 有趣做人
如果我对这个图没理解错的话,它是一个纵向理解的图。也就是说,底层是HDFS,上层各种接口都能用。从现在主流的阿帕奇Solr到各种关系型SQL,到比较edge的NoSQL以及各种杂七杂八的ISV,都能够进行搜索并输出结果。那么现在所谓做Hadoop,应该是指在HDFS,或者至多在HDFS上面一层做开发。如果我没猜错的话,都是一些java或者c++。

如果这样理解,应该是学学基于Java的Hadoop 应用程序开发就行。不过软件这玩意都是说起来容易做起来难啊。。

没错,从hadoop的MapReduce应用开发入手,还有这方面的认证,
 

Kerrigan

静如瘫痪 动如癫痫
没错,从hadoop的MapReduce应用开发入手,还有这方面的认证,

唉,刚刚monster.ca上看了下,

MapReduce + Toronto 有1个职位;
hadoop + Toronto 有10个;
jQuery + Toronto 有77个;
Java + Toronto 有212个。

程序员不好做啊。。尤其是专注于某种技术的程序员,更不好做。哥们,你准备学这个MapReduce么?
 

阿吾

踏实做事 有趣做人
唉,刚刚monster.ca上看了下,

MapReduce + Toronto 有1个职位;
hadoop + Toronto 有10个;
jQuery + Toronto 有77个;
Java + Toronto 有212个。

程序员不好做啊。。尤其是专注于某种技术的程序员,更不好做。哥们,你准备学这个MapReduce么?

俺不学,不干开发很多年了,俺只是平常比较关注业界动态,
 
你好,我想问个十分粗浅实际的问题。能否给我科普一下,比如就我一个普通Java EE程序员(还是来加拿大半路出家的,以前国内做C++写driver的),像Hadoop这类的东西距离我有多远。是两三本书呢,还是两三光年?实话说我对计算机软件领域各种知识都略通,但是无一精深,典型的万金油。
如果看得明白书,就说自己有五年以上经验,基本上面试就有了
 
你好,我想问个十分粗浅实际的问题。能否给我科普一下,比如就我一个普通Java EE程序员(还是来加拿大半路出家的,以前国内做C++写driver的),像Hadoop这类的东西距离我有多远。是两三本书呢,还是两三光年?实话说我对计算机软件领域各种知识都略通,但是无一精深,典型的万金油。

Hadoop本身并不难,理解了hdfs 和mapreduce概念,你可以看看简单的开发。Java在开发中主要是做函数。因为在数据分析中,复杂的是数据模型,这个不是你写几个命令就可以完成的。
复杂的东西还要借助java库和python等一些脚本语言。大数据做分析其实用处很大,但是很烧钱。所以多伦多没有什么市场
 

注册或登录来发表评论

您必须是注册会员才可以发表评论

注册帐号

注册帐号. 太容易了!

登录

已有帐号? 在这里登录.

顶部