斯坦福 IT

科长开讲:SQL,Python 和 R 语言,20年老兵三分钟给你讲明白,超越一切大学教授和网络博主

未尝不可

思考的芦苇
20年一线老兵,只说干货:

1. 有数据库的时候,就只用SQL;

2. 没有数据库的时候,也没有条件建库的时候,1G以下的CSV可以勉强用EXCEL手工处理,1G以上的就必须用Python或者R等语言了;

3. 5个G的CSV巨型文件,如果只是统计,那么就用R。如果除了统计之外,还需要重新处理排序和归纳数据列表,那就用Python;

4. SQL是查询语言,R是统计语言,Python是多功能编程语言(可以兼任查询和统计的功能,当然也可以像JAVE和C一样编程序);

5. 为什么会没有数据库呢?大型互联网和金融分析,需要当天或者2-3个小时内出结果,客户出于安全等考虑,不会授权给乙方数据库操作权限。所以,你只有一个SFTP上面导出的CSV文件,或者AWS CLOUD直接Read Only文件,10G数据量,2个小时内出结果,你的IT DBA不可能给你资源建库,导入数据,然后慢慢用SQL和BI工具处理,你也没有那么多时间。所以Python和R就是你的好朋友了;

6. 即使是甲方自己的人员,出于Production服务器的运行效率,也不会允许BI或者DA等人员,直接在后台数据库上跑SQL,而且很多最新的Apps后台用的也不是传统的SQL服务器,根本无法用SQL+BI的传统方法;

7. 但是对于一个数据科学家或者Data Engineer,90%还是需要SQL,毕竟那种极端案例不多,不是天天都需要996,711去处理10个G的CSV文件,90%的企业,包括亚麻厂,鸽厂,窗户厂,平时也还是在用SQL+BI+PPT去汇报;

8. SQL是九阳神功,Python和R是倚天剑和屠龙刀,没有SQL,任何人在大数据分析这个行业里,走不长,也走不远,很多大学毕业的小孩,尤其是财务背景的文科生转到BI或者DA,总想弯道超车绕过SQL,那是走不通的,SQL无法被超越和替代,SQL是一切万物的基础体能,3000米都跑不下来,还学踢足球?
SQL不用说了,数据查询处理王牌
R对大型文本文件处理不行,可以说很差,而且极慢,优点免费,好学,安装包极小,处理统计很好,本来就是统计用语言
Python是好语言,应用于各种场面,

python和sql放在一起比,感觉不合适,不是一类东西啊
 
python有pyodbc之类的api,可以直接用sql啊。我直接有时候做简单的数据库操作,就直接在function里面写sql了,如果复杂了就用sqlalchemy之类的ORM,看来来更简洁一些
 

Mimi2007

程序员妹子
20年一线老兵,只说干货:

1. 有数据库的时候,就只用SQL;

2. 没有数据库的时候,也没有条件建库的时候,1G以下的CSV可以勉强用EXCEL手工处理,1G以上的就必须用Python或者R等语言了;

3. 5个G的CSV巨型文件,如果只是统计,那么就用R。如果除了统计之外,还需要重新处理排序和归纳数据列表,那就用Python;

4. SQL是查询语言,R是统计语言,Python是多功能编程语言(可以兼任查询和统计的功能,当然也可以像JAVE和C一样编程序);

5. 为什么会没有数据库呢?大型互联网和金融分析,需要当天或者2-3个小时内出结果,客户出于安全等考虑,不会授权给乙方数据库操作权限。所以,你只有一个SFTP上面导出的CSV文件,或者AWS CLOUD直接Read Only文件,10G数据量,2个小时内出结果,你的IT DBA不可能给你资源建库,导入数据,然后慢慢用SQL和BI工具处理,你也没有那么多时间。所以Python和R就是你的好朋友了;

6. 即使是甲方自己的人员,出于Production服务器的运行效率,也不会允许BI或者DA等人员,直接在后台数据库上跑SQL,而且很多最新的Apps后台用的也不是传统的SQL服务器,根本无法用SQL+BI的传统方法;

7. 但是对于一个数据科学家或者Data Engineer,90%还是需要SQL,毕竟那种极端案例不多,不是天天都需要996,711去处理10个G的CSV文件,90%的企业,包括亚麻厂,鸽厂,窗户厂,平时也还是在用SQL+BI+PPT去汇报;

8. SQL是九阳神功,Python和R是倚天剑和屠龙刀,没有SQL,任何人在大数据分析这个行业里,走不长,也走不远,很多大学毕业的小孩,尤其是财务背景的文科生转到BI或者DA,总想弯道超车绕过SQL,那是走不通的,SQL无法被超越和替代,SQL是一切万物的基础体能,3000米都跑不下来,还学踢足球?

SQL是我的后院,哈哈哈。
 
python有pyodbc之类的api,可以直接用sql啊。我直接有时候做简单的数据库操作,就直接在function里面写sql了,如果复杂了就用sqlalchemy之类的ORM,看来来更简洁一些

你说的是我一直反对的做法。

Python是编程语言(瑞士军刀),SQL是查询语言(菜刀),Python是给SQL帮忙的。无限的扩展Python编辑器,在里面跑SQL,是本末倒置,或者说,根本不清楚数据分析的目的和原理。

你在瑞士军刀加一个菜刀插件,我为什么不直接用菜刀啊?!

只有在确实不能使用SQL的时候,才考虑借Python帮忙,不能上来直接什么都有Python。

BI,数据分析,数据科学,大数据,核心还是:查询。SQL是最好的查询语言,是亲爹。Python是编程语言,是二叔,R是统计语言,是大姑。二叔和大姑,不能替代亲爹。

Python编辑器上加SQL插件,是二叔穿亲爹的衣服,冒充老爹。傻啊?!想爸爸,直接找亲爹就完了。
 
手动点赞!修炼到第一层,SQL, Python, R都会一些,年薪多少?

多伦多,起薪:10万,可以每周至少一天WFH,20天年假,有奖金等
西雅图,起薪:15万,可以每周至少两天WFH,25天年假,有奖金,RSU等
大湾区,起薪:20万,可以每周至少三天WFH,30天年假,有食堂,奖金,RSU,Option等
 
你说的是我一直反对的做法。

Python是编程语言(瑞士军刀),SQL是查询语言(菜刀),Python是给SQL帮忙的。无限的扩展Python编辑器,在里面跑SQL,是本末倒置,或者说,根本不清楚数据分析的目的和原理。

你在瑞士军刀加一个菜刀插件,我为什么不直接用菜刀啊?!

只有在确实不能使用SQL的时候,才考虑借Python帮忙,不能上来直接什么都有Python。

BI,数据分析,数据科学,大数据,核心还是:查询。SQL是最好的查询语言,是亲爹。Python是编程语言,是二叔,R是统计语言,是大姑。二叔和大姑,不能替代亲爹。

Python编辑器上加SQL插件,是二叔穿亲爹的衣服,冒充老爹。傻啊?!想爸爸,直接找亲爹就完了。
做数据库查询,在python编程里面是非常常见的一个操作,要不然就不会有那么多的库支持这种操作了。针对及其简单的查询直接写sql, 在python项目里面。很多大数据的查询都支持raw sql,所以说还是有它应用的场景
 
最后编辑: 2019-12-28
还有个原因为什么有时候觉得用raw sql方便时因为像pycharm之类的ide非常强大,支持数据库查询,在python里面写sql语句自动完成和debug非常容易,像sqlalchemy之类的ORM自动提示什么的有时候还不灵。当然只写都是内部生产维护用的代码,要拿个客户还是用orm最好,否则别人看起来头痛
 
这个只是针对及其简单的查询。很多大数据的查询都支持raw sql,所以说还是有它应用的场景

现在推Python是潮流,因为大家想去SQL化。关系型数据库慢慢会边缘化,文件型数据库慢慢成为主流,也许以后真的就是SQL给Python当替补了。

Python = JAVA + SQL,一种语言管所有。程序开发和BI两个团队也合并了。呵呵。

还可以开一节课:Python 和 Java (.net 早就挂了,就不讨论了)
 
现在推Python是潮流,因为大家想去SQL化。关系型数据库慢慢会边缘化,文件型数据库慢慢成为主流,也许以后真的就是SQL给Python当替补了。

Python = JAVA + SQL,一种语言管所有。程序开发和BI两个团队也合并了。呵呵。

还可以开一节课:Python 和 Java (.net 早就挂了,就不讨论了)
python这么强大?呵呵,我是做civil工程的,用python处理数据是不二选择
 

注册或登录来发表评论

您必须是注册会员才可以发表评论

注册帐号

注册帐号. 太容易了!

登录

已有帐号? 在这里登录.

Similar threads

顶部