斯坦福 IT

数据科学技能集

最大赞力
0.00
当前赞力
100.00%
首先说明,这不是教学贴,所以不会详细展开。大家可以Google相关名词学习。第二是我是躺床上写的,很多名词由于只会他们的英文,就不Google翻译过来了。现在正题。

数据科学其实是个大杂汇,所有跟数据沾边的都 包在里面。总体分类有data cleansing,feature engineering,data analysis,data visualization。
以下是理论技能
原始数据有各种缺陷,例如数据缺失,数据错误(人为错误或者机器感应器错误),对于数据缺失,高级点的用imputation 补充缺失的数值,还有一些基本方法就是用平均值,0 代替。数据错误的处理要复杂些,先用extreme value analysis或者anormaly analysis确定是否存在错误的数据和寻找错误的地方,再用数据缺少的处理方法处理错误的数据,但常用做法是抛弃错误数据。

feature engineering就是从原始数据中去发现与需解决的问题相关的variables,这个过程一般是根据domain expert的经验和指导下寻找,一些covariance analysis如heat map等也有帮助。如果数据的dimension很高,一些dimension reduction如principle component analysis,singular value decomposition(其实和PCA一样)就需要用了,如果分析方法的成本和variable的数量成正比甚至指数式增长,如local outlier factor,那dimension reduction就是必须了。feature engineering根据行业而变化,要求data scientist具备极强科研能力(至少是啃论文的能力)去寻找适当的处理方法,不同行业不一样,所以没法系统的培训(最系统和靠谱的训练方法就是写不同课题的survey paper了).

先到这,看家园币收入状况再决定是否继续分析方法,data visualization。

23楼数据分析分类及统计学方法简介
 
最后编辑: 2020-01-13
最大赞力
0.00
当前赞力
100.00%
能问一个人工智能的问题吗?人工智能技术追求的目标是不是发展出人工的职能?那么现在的研究认为智能的本质是什么?以前普遍认为智能是生物发展到一定阶段才有的属性。如果机器也会有智能,那就打破了生命和智能的必然联系。会不会智能其实和磁一样,在空间以场的形式分布?
 
最大赞力
0.00
当前赞力
100.00%
请教一个问题。搞软件的人是不是倾向于认为,只要写了代码,一切都会自动发生,数据就会在网络上自动的跑来跑去?你们对电路硬件是怎么看的?真不是抬杠,就想知道你们的看法。
不同的开发人员不一样,所以我只能说自己的观点。 一个成熟的data scientist 会需要考虑硬件的capacity, 例如neuron network 一般需要GPU server 进行数据量大的training, spark 在运行pipeline时也需要设定executor的数量,memory 等设定。但由于 很多硬件层面的事情已经abstracted, 很多时候,data scientist 不会考虑硬件上的事情。但如果是做算法开发的一些更高层次的工作,那么硬件是怎么执行算法的也是需要考虑的一个事情。最明显的就是self driving,算法开发人员就要考虑信号延迟,感应器布局,怎样分布和分布什么样的感应器等等。
 
最大赞力
0.00
当前赞力
100.00%
能问一个人工智能的问题吗?人工智能技术追求的目标是不是发展出人工的职能?那么现在的研究认为智能的本质是什么?以前普遍认为智能是生物发展到一定阶段才有的属性。如果机器也会有智能,那就打破了生命和智能的必然联系。会不会智能其实和磁一样,在空间以场的形式分布?
这个问题很难回答,只能说,人工智能的目标确实就是一台会自己思考自己进化,有自我认知,有感情的机器。生命和智能的联系属于哲学层面时事情,不是我能回答的。但考虑到人工智能其实可以算是仿生学的一种,如早期的feed forward network 叫perceptron , 就是一次逻辑上模拟人脑的perceptron,CNN 是模拟人脑处理图像时是怎样解构图像feature的, 当然还有其他基于数学和统计的方法,但本质上,人工智能可以算是从逻辑上模拟人脑思考学习过程的题目。其他的分析方法都是基于这个展开的。现在距离真正的人工智能还远得很,神经网络,deep learning其实把路给走死了,人的学习过程必然不是只基于大量数据的,所以终极目标还远。但我认为未来肯定有一天会达成。如果真产生了会思考的机器,那他必然能够自我复制,无论是纯数据上,还是物理结构上(给与它连结物理层面的能力),那其实也可以把他看成另一种模式的生命。所以人工智能其实也是人类探寻上帝,也可能冒犯上帝的一个行为。
 
最大赞力
0.00
当前赞力
100.00%
不同的开发人员不一样,所以我只能说自己的观点。 一个成熟的data scientist 会需要考虑硬件的capacity, 例如neuron network 一般需要GPU server 进行数据量大的training, spark 在运行pipeline时也需要设定executor的数量,memory 等设定。但由于 很多硬件层面的事情已经abstracted, 很多时候,data scientist 不会考虑硬件上的事情。但如果是做算法开发的一些更高层次的工作,那么硬件是怎么执行算法的也是需要考虑的一个事情。最明显的就是self driving,算法开发人员就要考虑信号延迟,感应器布局,怎样分布和分布什么样的感应器等等。
把电路硬件抽象成和软件运行有关的系统,这是很合理的。
最早的"编程",是继电器逻辑阵列,属于一种硬件程序,通过普通集电器和延时继电器的工作先后次序完成设计的动作。我上学时还学过所谓的继电器时序图。
自从有了晶体管,电路有了存储功能,程序从硬件上独立出来。我相信哪怕以后电路变成"量子线路",在电子线路(晶体管集成电路)上发展起来的软件理论完全可以移植。从这个方向来看,软件有超越硬件的趋势。
 
最大赞力
0.00
当前赞力
100.00%
把电路硬件抽象成和软件运行有关的系统,这是很合理的。
最早的"编程",是继电器逻辑阵列,属于一种硬件程序,通过普通集电器和延时继电器的工作先后次序完成设计的动作。我上学时还学过所谓的继电器时序图。
自从有了晶体管,电路有了存储功能,程序从硬件上独立出来。我相信哪怕以后电路变成"量子线路",在电子线路(晶体管集成电路)上发展起来的软件理论完全可以移植。从这个方向来看,软件有超越硬件的趋势。
也无所谓谁超越谁,软件始终是在硬件上运行,而硬件的capacity是有上限的,所以软件也被硬件限制着。例如为何不在hadoop上搞neuron network,是因为hadoop 的 那一套分布式结构和matrix calculation天生不搭配,所以最好用GPU server, 而server的硬盘储存量有上限,好像最多就20 个rack, 不记得了。那就反过来限制了可以储存和用于training 的数据(虽然现实中很少发生不够用的情况。) 以前在爱立信就听说过一个training 运行了一个星期还没完成,因为数据分布在几个远程服务器上,很大的数据transfer拖慢了,想一下,一个batch 远程copy 一堆数据,但数据量太大,无法同时储存在工作服务器上,所以远程机1的数据过完了,删掉,搬远程机2的,一个batch搬几次,一个training 过一百个batch。。。。。。
 
最大赞力
0.26
当前赞力
100.00%
能问一个人工智能的问题吗?人工智能技术追求的目标是不是发展出人工的职能?那么现在的研究认为智能的本质是什么?以前普遍认为智能是生物发展到一定阶段才有的属性。如果机器也会有智能,那就打破了生命和智能的必然联系。会不会智能其实和磁一样,在空间以场的形式分布?
我对人工智能的发展最为期待,希望它能像过去30年里互联网改变我们的生活一样,能改变我们未来30年的生活。
 

Similar threads

家园推荐黄页

家园币系统数据

家园币池子报价
家园币最新成交价
家园币总发行量
加元现金总量
家园币总成交量
家园币总成交价值

池子家园币总量
池子加元现金总量
池子币总量
1池子币现价
池子家园币总手续费
池子加元总手续费
入池家园币年化收益率
入池加元年化收益率

微比特币最新报价
毫以太币最新报价
微比特币总量
毫以太币总量
家园币储备总净值
家园币比特币储备
家园币以太币储备
比特币的加元报价
以太币的加元报价
USDT的加元报价

交易币种/月度交易量
家园币
加元交易对(比特币等)
USDT交易对(比特币等)
顶部