首先说明,这不是教学贴,所以不会详细展开。大家可以Google相关名词学习。第二是我是躺床上写的,很多名词由于只会他们的英文,就不Google翻译过来了。现在正题。
数据科学其实是个大杂汇,所有跟数据沾边的都 包在里面。总体分类有data cleansing,feature engineering,data analysis,data visualization。
以下是理论技能
原始数据有各种缺陷,例如数据缺失,数据错误(人为错误或者机器感应器错误),对于数据缺失,高级点的用imputation 补充缺失的数值,还有一些基本方法就是用平均值,0 代替。数据错误的处理要复杂些,先用extreme value analysis或者anormaly analysis确定是否存在错误的数据和寻找错误的地方,再用数据缺少的处理方法处理错误的数据,但常用做法是抛弃错误数据。
feature engineering就是从原始数据中去发现与需解决的问题相关的variables,这个过程一般是根据domain expert的经验和指导下寻找,一些covariance analysis如heat map等也有帮助。如果数据的dimension很高,一些dimension reduction如principle component analysis,singular value decomposition(其实和PCA一样)就需要用了,如果分析方法的成本和variable的数量成正比甚至指数式增长,如local outlier factor,那dimension reduction就是必须了。feature engineering根据行业而变化,要求data scientist具备极强科研能力(至少是啃论文的能力)去寻找适当的处理方法,不同行业不一样,所以没法系统的培训(最系统和靠谱的训练方法就是写不同课题的survey paper了).
先到这,看家园币收入状况再决定是否继续分析方法,data visualization。
23楼数据分析分类及统计学方法简介
数据科学其实是个大杂汇,所有跟数据沾边的都 包在里面。总体分类有data cleansing,feature engineering,data analysis,data visualization。
以下是理论技能
原始数据有各种缺陷,例如数据缺失,数据错误(人为错误或者机器感应器错误),对于数据缺失,高级点的用imputation 补充缺失的数值,还有一些基本方法就是用平均值,0 代替。数据错误的处理要复杂些,先用extreme value analysis或者anormaly analysis确定是否存在错误的数据和寻找错误的地方,再用数据缺少的处理方法处理错误的数据,但常用做法是抛弃错误数据。
feature engineering就是从原始数据中去发现与需解决的问题相关的variables,这个过程一般是根据domain expert的经验和指导下寻找,一些covariance analysis如heat map等也有帮助。如果数据的dimension很高,一些dimension reduction如principle component analysis,singular value decomposition(其实和PCA一样)就需要用了,如果分析方法的成本和variable的数量成正比甚至指数式增长,如local outlier factor,那dimension reduction就是必须了。feature engineering根据行业而变化,要求data scientist具备极强科研能力(至少是啃论文的能力)去寻找适当的处理方法,不同行业不一样,所以没法系统的培训(最系统和靠谱的训练方法就是写不同课题的survey paper了).
先到这,看家园币收入状况再决定是否继续分析方法,data visualization。
23楼数据分析分类及统计学方法简介
最后编辑: 2020-01-13