上海Java培训
达内上海中山公园中心

0791-88193285

热门课程

数据开发需要学哪些东西?

  • 时间:2018-02-27 11:02
  • 发布:51CTO
  • 来源:51CTO

当下,大数据在IT互联网行业日益火热,学大数据开发的人也越来越多。那么,数据开发需要学哪些东西,有哪些方向?业内人士为大家整理分析了一下。

从职业发展来说,数据开发一般来说有这么三条线,大家看着使用。

主线1给数据开发人员提供支持的线,就叫它服务支持线吧。

数据集群运维工程师->大数据平台开发工程师->大数据系统架构师->大数据框架开发工程师

技能点:

必选:LinuxHadoop集群,HiveZookeeperHBaseOzzieFlume

可选:Impala、各种框架源码

语言:shellPython

建议路线:1、先学习基础的 Hadoop 集群维护技能,写一些 shell 脚本,使用定时调度功能。2、学会使用平台工具进行监控和维护,并参与到平台开发和工具开发中。3、对现有系统架构和框架进行重新架构或改良。

主线2为数据开发人员提供弹药,就叫它数据仓库线

数据采集工程师->ETL工程师->数据治理架构师->数据服务架构师

技能点:

必选:HiveQLSparkHiveFlinkKafka

可选:Storm、分布式一致性算法、JVM调优、MapReduceBitTable

语言:ScalaSQLJava

建议路线:1、学会从业务系统的关系型数据库中抽取数据。2、学会使用Hive SQL 对数据进行清洗。3、学会用 SparkFlink 对数据进行各种处理和输出,若数据量太大则应该进行调优。4、学会对数据进行治理,对数据进行分层设计,对数据分布心理有数,对数据质量进行全方位监控。

主线3为数据分析人员提供弹药,就叫它数据挖掘线

数据开发工程师->数据算法工程师->数据分析师

技能点:

必选:可视化技术、SQL、统计学、概率论、智能优化、机器学习工具(Tensorflowscikit-learn

可选:caffeetorchOpenCV

语言:PythonR

建议路线:1、学会使用 SQL 拿到所需的数据以及预处理出特征。2、使用 R 或者 Scikit-learn 进行数据探索和挖掘。3、对数据进行业务层面的分析,以提取出更有用的东西。4、自己实现一些数据分析的算法。

聊聊数据开发的语言问题

最后聊聊数据从业人员的语言问题。总是有小伙伴问我,该不该学R,该不该学 Scala ,该不该学 Python,该不该用 Java。我的观点就是,每个语言都只是自己的工具,不要守着一本语言到死,每个语言都有它自己擅长的领域,在每个领域你尽量用它擅长的语言去处理,就好了。(并不是说当然其他语言也会有一些旁支可以处理一些)。

ScalaSpark的实现语言是 Scala,现在也有大神用PySpark 来实现一些数据处理的东西,为了兼容机器学习框架。

Python数据爬取和机器学习从业必备,其他语言基本都是旁支。不要以为Python跑得很慢,其实那些框架都是 C++  C实现的,只是套了一个 Python 的壳,还做了很多优化,比你自己写的 C++ 还快。

R数据探索和数据可视化有非常多场景是用 R语言来进行做的。

JavaHadoop 套件基本都是用 Java 实现的,熟悉 Java 可以让你更加清晰你所占用的资源分布,瓶颈是在 cpu 还是内存,是磁盘 IO 还是网络 IO


上一篇:PHP程序员的岗位职责是什么?
下一篇:2018更适合人工智能开发的编程语言是什么?

java开发三年,总结一些经历与经验。

做Java开发2w月薪,需要技术水平达到什么程度?

你真的适合学习JAVA开发吗?

浅谈JAVA

选择城市和中心
贵州省

广西省

海南省