① 数据开发工程师(Java)是什么职位
岗位职责:
- 负责贝壳找房平台大数据平台架构的规划、设计与实施- 参与建设、维护、优化基于实时技术的数据平台,为业务提供易用的数据工具和平台。
- 关注开源技术动态。- 通过大数据平台和工具,支撑海量数据分析、数据挖掘、机器学习工作,提升贝壳找房平台线上产品效果与线下运营效率任职要求:
- 丰富的Java研发经验,精通Java,熟悉Python中的一种- 熟悉Mysql,熟悉网络编程及并发技术,熟悉安全解决方案- 有丰富后端服务系统的设计和实现经验,有独立的系统级设计能力
- 扎实的计算机基础,熟悉常用的数据结构和算法,熟悉Linux系统环境
- 熟悉大数据技术栈,对Hadoop、Hive、Spark、Hbase、Kafka、ELK等开源组件有使用及优化经验者优先- 有互联网公司中大型分布式系统经验优先- 负责过项目、有业务思维产品思维优先。
- 简单、真诚、负责、主动
② 如何成为一个大数据开发工程师
大数据工程师有多种解释,一种是用大数据的,就是data scientist这种。
1.建立数据平台、2. 实现产品中依赖数据的部分、3.通过数据对具体问题进行调查分析、4.建立模型支持公司的决策。每一个Data Scientist都有不同的侧重点,但平均来说工作量大概各占1/4。
一种是开发大数据平台的,就是平台开发工程师,比如写hadoop,hive的某个组件的工程师。工程师的技术要求是比较全面的,除了最基础的编程语言(C语言/C++/JAVA等)、数据库技术(SQL/ORACLE/DB2等)、.NET平台技术、C#、C/S B/S程序开发,还有诸多如JAVA SCRIPT、AJAX、HIBERNATE、SPRING、J2EE、WEB SERVICE、STRUTS等前沿技术。
你问的很笼统,ITjob网上有相关介绍,可以看看自己到底是要选择哪条路,毕竟两个的方向还是有些差距的,可以结合自身情况,看更符合哪一个吧。
③ 为什么java大数据工程师工资特别高
1、国家政策
我国从中央到地方的大数据政策体系已经基本完善,目前已经进入落地实施阶段。在顶层设计上,国务院《促进大数据发展行动纲要》对政务数据共享开放、产业发展和安全三方面做了总体部署。还有《政务信息资源共享管理暂行办法》《大数据产业发展规划(2016-2020)》等文件。
2、行业趋势
计算机、互联网、IT类的职位需求的空缺一直很大,大数据的行业应用更加广泛,正加速渗透到经济社会的方方面面,大数据广泛应用于电信业、金融业扩展到政务、健康医疗、工业、交通物流、能源行业、教育文化等。
3、Java和大数据
功能强大的java语言可跨平台开发,为大数据功能的实现提供了更多的解决方案,用java开发目前主流的大数据hadoop已成为众多公司的选择。在数据驱动的未来,大数据人才市场势必会越来越大。
④ 为什么很多的java程序员会转行做大数据工程师
1、Java是学习大数据的编程基础
大数据框架的编写支持很多开发语言,但是Java在大数据开发方面有很大的优势,目前流行的大数据Hadoop框架,很多部分都是用开源的Java语言编写,因此Java在大数据方面有很大优势。
2、大数据发展前景空间更大
java经过多年发展,目前基本处于饱和状态,对于新入行的人来说,竞争比较激烈。大数据分析、大数据开发等大数据人才成为市场紧缺型人才,发展前景好,薪资水平高。根据有关数据显示,大数据行业是目前平均收入最高的行业,其从业人员平均年薪已逾十万元,有经验的大数据工程师平均年薪一般在12万元以上。
⑤ 如何成为一名大数据开发工程师
随着2017年大数据应用的发展,大数据价值得以充分的体现,大数据在企业和社会层面成为重要的战略资源,数据成为新的战略制高点,是大家抢夺的新焦点。一个新行业的出现,必将在工作职位方面有新的需求。具有丰富经验的数据分析人才将成为稀缺的资源,数据驱动型工作将呈现爆炸式的增长,薪资也随着会增长,东时Java大数据学习课程从最基础的java入门,linux,mysql,pythodn等等,零基础也能学习。
⑥ 大数据工程师和大数据开发工程师的职能有何区别
大数据工程师和大数据开发工程师两者之间没有区别。大数据工程师指的就是大数据开发工程师。大数据工程师(即大数据开发工程师)从事大数据采集、清洗、分析、治理、挖掘等技术研究,并加以利用、管理、维护和服务。
4、设计、开发、集成、测试大数据软硬件系统。
5、管理、维护并保障大数据系统稳定运行。
6、监控、管理和保障大数据安全。
7、提供大数据的技术咨询和技术服务。
(6)java大数据开发工程师扩展阅读:
大数据工程师(即大数据开发工程师)的技能要求:
1、精通Java技术知识,熟悉Spark、kafka、Hive、HBase、zookeeper、HDFS、MR等应用设计及开发。
2、了解python/shell等脚本语言。
3、熟悉大数据平台架构,对ETL、数据仓库等有一定了解。
4、有数据可视化、数据分析、数学模型建立相关经验者优先考虑。
5、有爬虫系统开发经验者优先。
⑦ Java开发工程师(大数据方向)是什么职位
Java可以做网站
Java可以做游戏
Java可以做软件
⑧ 大数据和Java开发哪个更有前途
两者关系
java是计算机的一门编程语言;可以用来做很多工作,大数据开发属于其中一种;
大数据属于互联网方向,就像现在建立在大数据基础上的AI方向一样,
他两不是一个同类,但是属于包含和被包含的关系;
java可以用来做大数据工作,大数据开发或者应用不必要用java,可以Python,Scala,go语言等。
再有就是就业前景
看看职友集的数据,
Java工程师
最后根据自己的需要可以自己选择适合自己的才是最好的,
⑨ 分析如何成为一名大数据开发工程师
1、认识大数据
大数据开发工程师,首先你得熟悉关系型数据库,比如Oracle或者MySQL,熟悉之后,有利于数据仓库的开发;再次熟悉Hadoop,这个都是现在大数据领域中用的最多的一个技术,它的HDFS可以实现分布式存储,Yarn是一个优秀的资源调度框架
2、大数据所需技能要求
必须掌握的技能:
Java高级(虚拟机、并发)、Linux 基本操作、Hadoop(HDFS+MapRece+Yarn )、 HBase(JavaAPI操作+Phoenix )、Hive(Hql基本操作和原理理解)、 Kafka、Storm/JStorm、Scala、Python、Spark (Core+sparksql+Spark streaming ) 、辅助小工具(Sqoop/Flume/Oozie/Hue等)
⑩ 要成为一名大数据开发工程师必备哪些技能
首先我们要了解Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。
大数据
Java :只要了解一些基础即可,做大数据不需要很深的Java 技术,学java SE 就相当于有学习大数据基础。
Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。
Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapRece和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapRece是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。
Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。
Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。
Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。
Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapRece程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。
Oozie:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapRece、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。
Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。
Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。
Spark:它是用来弥补基于MapRece处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。