⑴ 分析如何成为一名大数据开发工程师
1、认识大数据
大数据开发工程师,首先你得熟悉关系型数据库,比如Oracle或者MySQL,熟悉之后,有利于数据仓库的开发;再次熟悉Hadoop,这个都是现在大数据领域中用的最多的一个技术,它的HDFS可以实现分布式存储,Yarn是一个优秀的资源调度框架
2、大数据所需技能要求
必须掌握的技能:
Java高级(虚拟机、并发)、Linux 基本操作、Hadoop(HDFS+MapRece+Yarn )、 HBase(JavaAPI操作+Phoenix )、Hive(Hql基本操作和原理理解)、 Kafka、Storm/JStorm、Scala、Python、Spark (Core+sparksql+Spark streaming ) 、辅助小工具(Sqoop/Flume/Oozie/Hue等)
⑵ 数据库高级开发工程师和数据库管理员谁钱多
开发一般会高一点。还是看技术水平,所在的城市还有所在公司重视程度
⑶ 网易《Java高级开发工程师》微专业 值得买吗
课程不错的 我存网盘了 可以看一下
⑷ 如何成为一个大数据开发工程师
大数据工程师有多种解释,一种是用大数据的,就是data scientist这种。
1.建立数据平台、2. 实现产品中依赖数据的部分、3.通过数据对具体问题进行调查分析、4.建立模型支持公司的决策。每一个Data Scientist都有不同的侧重点,但平均来说工作量大概各占1/4。
一种是开发大数据平台的,就是平台开发工程师,比如写hadoop,hive的某个组件的工程师。工程师的技术要求是比较全面的,除了最基础的编程语言(C语言/C++/JAVA等)、数据库技术(SQL/ORACLE/DB2等)、.NET平台技术、C#、C/S B/S程序开发,还有诸多如JAVA SCRIPT、AJAX、HIBERNATE、SPRING、J2EE、WEB SERVICE、STRUTS等前沿技术。
你问的很笼统,ITjob网上有相关介绍,可以看看自己到底是要选择哪条路,毕竟两个的方向还是有些差距的,可以结合自身情况,看更符合哪一个吧。
⑸ 数据开发工程师(Java)是什么职位
岗位职责:
- 负责贝壳找房平台大数据平台架构的规划、设计与实施- 参与建设、维护、优化基于实时技术的数据平台,为业务提供易用的数据工具和平台。
- 关注开源技术动态。- 通过大数据平台和工具,支撑海量数据分析、数据挖掘、机器学习工作,提升贝壳找房平台线上产品效果与线下运营效率任职要求:
- 丰富的Java研发经验,精通Java,熟悉Python中的一种- 熟悉Mysql,熟悉网络编程及并发技术,熟悉安全解决方案- 有丰富后端服务系统的设计和实现经验,有独立的系统级设计能力
- 扎实的计算机基础,熟悉常用的数据结构和算法,熟悉Linux系统环境
- 熟悉大数据技术栈,对Hadoop、Hive、Spark、Hbase、Kafka、ELK等开源组件有使用及优化经验者优先- 有互联网公司中大型分布式系统经验优先- 负责过项目、有业务思维产品思维优先。
- 简单、真诚、负责、主动
⑹ 我想做一名高级数据库开发工程师,不知道还需要了解哪些知识,希望过来人帮我指点一下。
你提到的这些已经可以应对一般的公司这个职位了,不过,不同公司还是会有差异。
如果还要提高自己的竞争力的话,应该是下面这些了:
1 业务知识--不要小看这个;
2 开发经验,最好有大型数据库系统的开发经验;
3 数据仓库;
4 其它一些:沟通、学习能力、排错能力、英文能力、管理体系等等。
学无止境,数据库开发这条路前途很好,但道路也不会很平,最好能有人和项目来带。
⑺ 要成为一名大数据开发工程师必备哪些技能
首先我们要了解Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。
大数据
Java :只要了解一些基础即可,做大数据不需要很深的Java 技术,学java SE 就相当于有学习大数据基础。
Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。
Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapRece和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapRece是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。
Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。
Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。
Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。
Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapRece程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。
Oozie:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapRece、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。
Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。
Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。
Spark:它是用来弥补基于MapRece处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。
⑻ 大数据开发工程师有哪些岗位
1、大数据开发工程师:开发,建设,测试和维护架构;负责公司大数据平台的开发和维护,负责大数据平台持续集成相关工具平台的架构设计与产品开发等。
2、数据分析师:收集,处理和执行统计数据分析;运用工具,提取、分析、呈现数据,实现数据的商业意义,需要业务理解和工具应用能力。
3、数据挖掘工程师:数据建模、机器学习和算法实现;商业智能,用户体验分析,预测流失用户等;需要过硬的数学和统计学功底以外,对算法的代码实现也有很高的要求。
4、数据架构师:需求分析,平台选择,技术架构设计,应用设计和开发,测试和部署;高级算法设计与优化;数据相关系统设计与优化,需要平台级开发和架构设计能力。
5、数据库开发:设计,开发和实施基于客户需求的数据库系统,通过理想接口连接数据库和数据库工具,优化数据库系统的性能效率等。
6、数据库管理:数据库设计、数据迁移、数据库性能管理、数据安全管理,故障检修问题、数据备份、数据恢复等。
7、数据科学家:数据挖掘架构、模型标准、数据报告、数据分析方法;利用算法和模型提高数据处理效率、挖掘数据价值、实现从数据到知识的转换。
8、数据产品经理:把数据和业务结合起来做成数据产品;平台线提供基础平台和通用的数据工具,业务线提供更加贴近业务的分析框架和数据应用。
⑼ 网易的校招数据分析工程师岗位对编程能力要求高吗
应该还是针对数据逻辑逻辑分析能力有要求
⑽ 想成为大数据开发工程师有哪些要求
一、认识大数据
大数据本质其实也是数据,不过也包括了些新的特征,
数据来源广;
数据格式多样化(结构化数据、非结构化数据、Excel文件等);
数据量大(最少也是TB级别的、甚至可能是PB级别);
数据增长速度快。
而针对以上新的特征需要考虑很多问题:
例如,数据来源广,该如何采集汇总?采集汇总之后,又该存储呢?数据存储之后,该如何通过运算转化成自己想要的结果呢?
对于这些问题,我们需要有相对应的知识解决。
二、大数据所需技能要求
Python语言:编写一些脚本时会用到。
Scala语言:编写Spark程序的最佳语言,当然也可以选择用Python。
Ozzie,azkaban:定时任务调度的工具。
Hue,Zepplin:图形化任务执行管理,结果查看工具。
Allluxio,Kylin等:通过对存储的数据进行预处理,加快运算速度的工具。
必须掌握的技能:
Java高级(虚拟机、并发)、Linux 基本操作、hadoop(HDFS+MapRece+Yarn )、 HBase(JavaAPI操作+Phoenix )、Hive(Hql基本操作和原理理解)、 Kafka、Storm/JStorm、Scala、Python、Spark (Core+sparksql+Spark streaming ) 、辅助小工具(Sqoop/Flume/Oozie/Hue等)
高阶技能6条:
机器学习算法以及mahout库加MLlib、 R语言、Lambda 架构、Kappa架构、Kylin、Alluxio
三、学习规划
每天需要有3个小时的学习时间,周末的时候需要10小时,如果做不到的话,只能是
第一阶段(基础阶段)
Linux学习
Linux操作系统介绍与安装、Linux常用命令、Linux常用软件安装、Linux网络、 防火墙、Shell编程等。
Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)
掌握多线程、掌握并发包下的队列、掌握JVM技术、掌握反射和动态代理、了解JMS。
Zookeeper学习
Zookeeper分布式协调服务介绍、Zookeeper集群的安装部署、Zookeeper数据结构、命令。
第二阶段(攻坚阶段)
Hadoop、Hive、HBase、Scala、Spark、Python
第三阶段(辅助工具工学习阶段)
Sqoop、Flume、Oozie、Hue这些工具的学习