数据科学技能集

winnerzhu · 最后编辑: 2020-01-13

首先说明，这不是教学贴，所以不会详细展开。大家可以Google相关名词学习。第二是我是躺床上写的，很多名词由于只会他们的英文，就不Google翻译过来了。现在正题。

数据科学其实是个大杂汇，所有跟数据沾边的都包在里面。总体分类有data cleansing，feature engineering，data analysis，data visualization。
以下是理论技能
原始数据有各种缺陷，例如数据缺失，数据错误（人为错误或者机器感应器错误）,对于数据缺失，高级点的用imputation 补充缺失的数值，还有一些基本方法就是用平均值，0 代替。数据错误的处理要复杂些，先用extreme value analysis或者anormaly analysis确定是否存在错误的数据和寻找错误的地方，再用数据缺少的处理方法处理错误的数据，但常用做法是抛弃错误数据。

feature engineering就是从原始数据中去发现与需解决的问题相关的variables，这个过程一般是根据domain expert的经验和指导下寻找，一些covariance analysis如heat map等也有帮助。如果数据的dimension很高，一些dimension reduction如principle component analysis，singular value decomposition（其实和PCA一样）就需要用了，如果分析方法的成本和variable的数量成正比甚至指数式增长，如local outlier factor，那dimension reduction就是必须了。feature engineering根据行业而变化，要求data scientist具备极强科研能力（至少是啃论文的能力）去寻找适当的处理方法，不同行业不一样，所以没法系统的培训（最系统和靠谱的训练方法就是写不同课题的survey paper了）.

先到这，看家园币收入状况再决定是否继续分析方法，data visualization。

23楼数据分析分类及统计学方法简介

yamiyami · 2020-01-13 #2 赞一个就走不懂 超赞

赞一个就走不懂

scywlj · 2020-01-13 #3 先押一把。 超赞

先押一把。

美梦成真1808 · 2020-01-13 #4 哈哈都能看懂 超赞

哈哈都能看懂

winnerzhu

大家都押一下，这个貌似很多人想知道呀，我是把我毕生经验浓缩于一贴

美梦成真1808

你还可以给大家讲讲深度学习什么的人脸识别这些说不定有人会觉得有趣

winnerzhu

美梦成真1808 说:
你还可以给大家讲讲深度学习什么的人脸识别这些说不定有人会觉得有趣

其实那些最无趣。这属于data analysis里的一项。但很多情况下用不上。用了就是大炮打小蚊子的感觉。

美梦成真1808

winnerzhu 说:
其实那些最无趣。这属于data analysis里的一项。但很多情况下用不上。用了就是大炮打小蚊子的感觉。

最简单就是naive bayes 和 logistic regression了哈哈我知道一些吧

美梦成真1808 · 2020-01-13 #9 其实大炮打小蚊子怕的是overfitting 超赞

其实大炮打小蚊子怕的是overfitting

winnerzhu

美梦成真1808 说:
其实大炮打小蚊子怕的是overfitting

对，overfitting是data analysis里的一个critical problem。不同analysis 方法产生overfitting的情况不一样。哪怕最简单的linear regression也会有overfitting。你是从事什么职业啊，对数据科学很了解啊

美梦成真1808

winnerzhu 说:
对，overfitting是data analysis里的一个critical problem。不同analysis 方法产生overfitting的情况不一样。哪怕最简单的linear regression也会有overfitting。你是从事什么职业啊，对数据科学很了解啊

哈哈工作中用到

winnerzhu

美梦成真1808 说:
哈哈工作中用到

看来捕捉到美女数据科学家一枚了，上个美图帮忙加人气

卡城西北

请教一个问题。搞软件的人是不是倾向于认为，只要写了代码，一切都会自动发生，数据就会在网络上自动的跑来跑去？你们对电路硬件是怎么看的？真不是抬杠，就想知道你们的看法。

卡城西北

能问一个人工智能的问题吗？人工智能技术追求的目标是不是发展出人工的职能？那么现在的研究认为智能的本质是什么？以前普遍认为智能是生物发展到一定阶段才有的属性。如果机器也会有智能，那就打破了生命和智能的必然联系。会不会智能其实和磁一样，在空间以场的形式分布？

winnerzhu

卡城西北说:
请教一个问题。搞软件的人是不是倾向于认为，只要写了代码，一切都会自动发生，数据就会在网络上自动的跑来跑去？你们对电路硬件是怎么看的？真不是抬杠，就想知道你们的看法。

不同的开发人员不一样，所以我只能说自己的观点。一个成熟的data scientist 会需要考虑硬件的capacity，例如neuron network 一般需要GPU server 进行数据量大的training， spark 在运行pipeline时也需要设定executor的数量，memory 等设定。但由于很多硬件层面的事情已经abstracted，很多时候，data scientist 不会考虑硬件上的事情。但如果是做算法开发的一些更高层次的工作，那么硬件是怎么执行算法的也是需要考虑的一个事情。最明显的就是self driving，算法开发人员就要考虑信号延迟，感应器布局，怎样分布和分布什么样的感应器等等。

winnerzhu

卡城西北说:
能问一个人工智能的问题吗？人工智能技术追求的目标是不是发展出人工的职能？那么现在的研究认为智能的本质是什么？以前普遍认为智能是生物发展到一定阶段才有的属性。如果机器也会有智能，那就打破了生命和智能的必然联系。会不会智能其实和磁一样，在空间以场的形式分布？

这个问题很难回答，只能说，人工智能的目标确实就是一台会自己思考自己进化，有自我认知，有感情的机器。生命和智能的联系属于哲学层面时事情，不是我能回答的。但考虑到人工智能其实可以算是仿生学的一种，如早期的feed forward network 叫perceptron ，就是一次逻辑上模拟人脑的perceptron，CNN 是模拟人脑处理图像时是怎样解构图像feature的，当然还有其他基于数学和统计的方法，但本质上，人工智能可以算是从逻辑上模拟人脑思考学习过程的题目。其他的分析方法都是基于这个展开的。现在距离真正的人工智能还远得很，神经网络，deep learning其实把路给走死了，人的学习过程必然不是只基于大量数据的，所以终极目标还远。但我认为未来肯定有一天会达成。如果真产生了会思考的机器，那他必然能够自我复制，无论是纯数据上，还是物理结构上（给与它连结物理层面的能力），那其实也可以把他看成另一种模式的生命。所以人工智能其实也是人类探寻上帝，也可能冒犯上帝的一个行为。

卡城西北

winnerzhu 说:
不同的开发人员不一样，所以我只能说自己的观点。一个成熟的data scientist 会需要考虑硬件的capacity，例如neuron network 一般需要GPU server 进行数据量大的training， spark 在运行pipeline时也需要设定executor的数量，memory 等设定。但由于很多硬件层面的事情已经abstracted，很多时候，data scientist 不会考虑硬件上的事情。但如果是做算法开发的一些更高层次的工作，那么硬件是怎么执行算法的也是需要考虑的一个事情。最明显的就是self driving，算法开发人员就要考虑信号延迟，感应器布局，怎样分布和分布什么样的感应器等等。

把电路硬件抽象成和软件运行有关的系统，这是很合理的。
最早的"编程"，是继电器逻辑阵列，属于一种硬件程序，通过普通集电器和延时继电器的工作先后次序完成设计的动作。我上学时还学过所谓的继电器时序图。
自从有了晶体管，电路有了存储功能，程序从硬件上独立出来。我相信哪怕以后电路变成"量子线路"，在电子线路（晶体管集成电路）上发展起来的软件理论完全可以移植。从这个方向来看，软件有超越硬件的趋势。

winnerzhu

卡城西北说:
把电路硬件抽象成和软件运行有关的系统，这是很合理的。
最早的"编程"，是继电器逻辑阵列，属于一种硬件程序，通过普通集电器和延时继电器的工作先后次序完成设计的动作。我上学时还学过所谓的继电器时序图。
自从有了晶体管，电路有了存储功能，程序从硬件上独立出来。我相信哪怕以后电路变成"量子线路"，在电子线路（晶体管集成电路）上发展起来的软件理论完全可以移植。从这个方向来看，软件有超越硬件的趋势。

也无所谓谁超越谁，软件始终是在硬件上运行，而硬件的capacity是有上限的，所以软件也被硬件限制着。例如为何不在hadoop上搞neuron network，是因为hadoop 的那一套分布式结构和matrix calculation天生不搭配，所以最好用GPU server，而server的硬盘储存量有上限，好像最多就20 个rack，不记得了。那就反过来限制了可以储存和用于training 的数据（虽然现实中很少发生不够用的情况。）以前在爱立信就听说过一个training 运行了一个星期还没完成，因为数据分布在几个远程服务器上，很大的数据transfer拖慢了，想一下，一个batch 远程copy 一堆数据，但数据量太大，无法同时储存在工作服务器上，所以远程机1的数据过完了，删掉，搬远程机2的，一个batch搬几次，一个training 过一百个batch。。。。。。

寻源思远

卡城西北说:
能问一个人工智能的问题吗？人工智能技术追求的目标是不是发展出人工的职能？那么现在的研究认为智能的本质是什么？以前普遍认为智能是生物发展到一定阶段才有的属性。如果机器也会有智能，那就打破了生命和智能的必然联系。会不会智能其实和磁一样，在空间以场的形式分布？

我对人工智能的发展最为期待，希望它能像过去30年里互联网改变我们的生活一样，能改变我们未来30年的生活。

一键看好帖

交易

帖子

用户

本地社区

加国生活

移民签证

服务黄页

数据科学技能集

更多选项

winnerzhu

yamiyami

scywlj

美梦成真1808

繁花似锦

winnerzhu

美梦成真1808

繁花似锦

winnerzhu

美梦成真1808

繁花似锦

美梦成真1808

繁花似锦

winnerzhu

美梦成真1808

繁花似锦

winnerzhu

卡城西北

卡城西北

winnerzhu

winnerzhu

卡城西北

winnerzhu

寻源思远

Similar threads

家园推荐黄页

家园币系统数据