1. 大数据应用工程师是做什么的
总结一句话就是 写 SQL (很多入职一两年的大数据工程师主要的工作就是写 SQL )
还有其他的
2 为集群搭大数据环境(一般公司招大数据工程师环境都已经搭好了,公司内部会有现成的大数据平台,但我这边会私下搞一套测试环境,毕竟公司内部的大数据系统权限限制很多,严重影响开发效率)
3 维护大数据平台(这个应该是每个大数据工程师都做过的工作,或多或少会承担“运维”的工作)
4 数据迁移(有部分公司需要把数据从传统的数据库 Oracle、MySQL 等数据迁移到大数据集群中,这个是比较繁琐的工作,吃力不讨好)
5 应用迁移(有部分公司需要把应用从传统的数据库 Oracle、MySQL 等数据库的存储过程程序或者SQL脚本迁移到大数据平台上,这个过程也是非常繁琐的工作,无聊,高度重复且麻烦,吃力不讨好)
6 数据采集(采集日志数据、文件数据、接口数据,这个涉及到各种格式的转换,一般用得比较多的是 Flume 和 Logstash)
7 数据处理
7.1 离线数据处理(这个一般就是写写 SQL 然后扔到 Hive 中跑,其实和第一点有点重复了)
7.2 实时数据处理(这个涉及到消息队列,Kafka,Spark,Flink 这些,组件,一般就是 Flume 采集到数据发给 Kafka 然后 Spark 消费 Kafka 的数据进行处理)
8 数据可视化(这个我司是用 Spring Boot 连接后台数据与前端,前端用自己魔改的 echarts)
9 大数据平台开发(偏Java方向的,大概就是把开源的组件整合起来整成一个可用的大数据平台这样,常见的是各种难用的 PaaS 平台)
10 数据中台开发(中台需要支持接入各种数据源,把各种数据源清洗转换为可用的数据,然后再基于原始数据搭建起宽表层,一般为了节省开发成本和服务器资源,都是基于宽表层查询出业务数据)
11 搭建数据仓库(这里的数据仓库的搭建不是指 Hive ,Hive 是搭建数仓的工具,数仓搭建一般会分为三层 ODS、DW、DM 层,其中DW是最重要的,它又可以分为DWD,DWM,DWS,这个层级只是逻辑上的概念,类似于把表名按照层级区分开来的操作,分层的目的是防止开发数据应用的时候直接访问底层数据,可以减少资源,注意,减少资源开销是减少 内存 和 CPU 的开销,分层后磁盘占用会大大增加,磁盘不值钱所以没什么关系,分层可以使数据表的逻辑更加清晰,方便进一步的开发操作,如果分层没有做好会导致逻辑混乱,新来的员工难以接手业务,提高公司的运营成本,还有这个建数仓也分为建离线和实时的)
总之就是离不开写 SQL ...
2. 大数据工程师的日常工作做什么
【导读】时至今日,相信大家对大数据工程师一点也不陌生,作为时下比较热门的高薪职业,很多人想转行做大数据工程师,那么你知道大数据工程师的日常工作做什么?工作强度大不大呢?为此小编整理了以下内容,一起来看看吧!
1, 写 SQL :一般来说许多入职一两年的大数据工程师首要的工作就是写 SQL ;
2 ,为集群搭大数据环境(一般公司招大数据工程师环境都现已搭好了,公司内部会有现成的大数据途径);
3 ,维护大数据途径(这个应该是每个大数据工程师都做过的工作,或多或少会承担“运维”的工作);
4, 数据搬家(有部分公司需求把数据从传统的数据库 Oracle、MySQL 等数据搬家到大数据集群中,这个是比较繁琐的工作);
5 ,运用搬家(有部分公司需求把运用从传统的数据库 Oracle、MySQL
等数据库的存储进程程序或许SQL脚本搬家到大数据途径上,这个进程也是非常繁琐的工作,高度重复且杂乱)
6 ,数据收集(收集日志数据、文件数据、接口数据,这个触及到各种格式的转化,一般用得比较多的是 Flume 和 Logstash)
7, 数据处理
7.1 ,离线数据处理(这个一般就是写写 SQL 然后扔到 Hive 中跑,其实和首要点有点重复了)
7.2 ,实时数据处理(这个触及到音讯部队,Kafka,Spark,Flink 这些,组件,一般就是 Flume 收集到数据发给 Kafka 然后
Spark 消费 Kafka 的数据进行处理)
8 ,数据可视化(这个我司是用 Spring Boot 联接后台数据与前端,前端用自己魔改的 echarts)
9 ,大数据途径开发(偏Java方向的,大约就是把开源的组件整合起来整成一个可用的大数据途径这样,常见的是各种难用的 PaaS 途径)
10
,数据中台开发(中台需求支撑接入各种数据源,把各种数据源清洗转化为可用的数据,然后再根据原始数据建立起宽表层,一般为了节省开发本钱和服务器资源,都是根据宽表层查询出业务数据)
11 ,建立数据仓库(这儿的数据仓库的建立不是指 Hive ,Hive 是建立数仓的东西,数仓建立一般会分为三层 ODS、DW、DM
层,其间DW是最重要的,它又能够分为DWD,DWM,DWS,这个层级仅仅逻辑上的概念,类似于把表名按照层级差异隔来的操作,分层的目的是防止开发数据运用的时分直接访问底层数据,能够减少资源,留意,减少资源开支是减少
内存 和 CPU
的开支,分层后磁盘占用会大大增加,磁盘不值钱所以没什么联络,分层能够使数据表的逻辑更加清楚,便当进一步的开发操作,假定分层没有做好会导致逻辑紊乱,新来的员工难以接手业务,跋涉公司的运营本钱,还有这个建数仓也分为建离线和实时的)
以上就是小编今天给大家整理发送的关于“大数据工程师的日常工作做什么?”的相关内容,希望对大家有所帮助。想了解更多关于大数据工程师要求具备的能力,关注小编持续更新。
3. 大数据工程师主要做什么
当前大数据平台开发岗位的附加值还是比较高的,大数据平台开发岗位往往集中在大型互联网企业,随着云计算逐渐从IaaS向PaaS过渡,大数据平台开发也会基于行业特点来开发针对性比较强的PaaS平台,这是整合行业资源并搭建技术生态的一个关键。搭建PaaS平台不仅需要掌握大数据知识,同时还需要掌握云计算知识,实际上大数据和云计算本身就有比较紧密的联系,二者在技术体系结构上都是以分布式存储和分布式计算为基础,只不过关注点不同而已。
大数据运维工程师以搭建大数据平台为主,虽然这部分岗位的门槛相对比较低,但是需要学习的内容还是比较多的,而且内容也比较杂,网络知识、数据库管理知识、操作系统(Linux)知识、大数据平台(含开源和商用平台)知识都需要掌握一些,对于实践操作的要求会比较高。
最后,当前大数据工程师往往并不包含专业的数据分析岗位,一般数据分析岗位都会单独列出来,这部分岗位涉及到算法岗、开发岗(实现)和数据呈现岗等,数据分析岗位对于从业者的数学基础要求比较高,同时还需要掌握大量的数据分析工具,当然也离不开Python、Sql等知识。
4. 大数据工程师的工作内容是什么
1、数据采集:
业务系统的埋点代码时刻会产生一些分散的原始日志,可以用Flume监控接收这些分散的日志,实现分散日志的聚合,即采集。
2、数据清洗:
一些字段可能会有异常取值,即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。
一些日志的字段信息可能是多余的,下游不需要使用到这些字段做分析,同时也为了节省存储开销,需要删除这些多余的字段信息。
一些日志的字段信息可能包含用户敏感信息,需要做脱敏处理。如用户姓名只保留姓,名字用'*'字符替换。
3、数据存储:
清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高,则可以把日志记录入到kafka。
4、数据分析统计:
数据分析是数据流的下游,消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据,简单的报表统计可以用sql在kylin或者hive统计,复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。
5、数据可视化:
用数据表格、数据图等直观的形式展示上游"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据。
5. 大数据工程师到底是什么
用阿里巴巴集团研究员薛贵荣的话来说,大数据工程师就是一群“玩数据”的人,玩出数据的商业价值,让数据变成生产力。大数据和传统数据的最大区别在于,它是在线的、实时的,规模海量且形式不规整,无章法可循,因此“会玩”这些数据的人就很重要。
沈志勇认为如果把大数据想象成一座不停累积的矿山,那么大数据工程师的工作就是,“第一步,定位并抽取信息所在的数据集,相当于探矿和采矿。第二步,把它变成直接可以做判断的信息,相当于冶炼。最后是应用,把数据可视化等。”
因此分析历史、预测未来、优化选择,这是大数据工程师在“玩数据”时最重要的三大任务。通过这三个工作方向,他们帮助企业做出更好的商业决策。
6. 大数据专业是干嘛的
大数据工程师有不少细分方向,不同的方向需要具备不同的知识结构,通常情况下大数据工程师分为四个具体的工作领域,分别是大数据底层平台研发、大数据应用开发、大数据分析和大数据运维。
大数据专业是做什么的?
分析历史、预测未来、优化选择,这是大数据工程师在“玩数据”时最重要的三大任务:
1、找出过去事件的特征:
大数据工程师一个很重要的工作,就是通过分析数据来找出过去事件的特征。找出过去事件的特征,最大的作用是可以帮助企业更好地认识消费者。通过分析用户以往的行为轨迹,就能够了解这个人,并预测他的行为。
2、预测未来可能发生的事情:
通过引入关键因素,大数据工程师可以预测未来的消费趋势。
3、找出最优化的结果:
根据不同企业的业务性质,大数据工程师可以通过数据分析来达到不同的目的。
除此之外,在工作岗位上,大数据工程师需要基于Hadoop,Spark等构建数据分析平台,进行设计、开发分布式计算业务。负责大数据平台(Hadoop,HBase,Spark等)集群环境的搭建,性能调优和日常维护。负责数据仓库设计,数据ETL的设计、开发和性能优化。参与构建大数据平台,依托大数据技术建设用户画像。
除开以上是需要负责处理的工作,还需要负责分析新的数据需求,完成数据处理的设计(文档)和实现。对大数据应用产品设计及解决方案设计,通过大数据挖掘用户需求。负责数据处理程序设计框架改善,数据处理性能优化, 系统数据处理的能力提高等
7. 大数据分析开发工程师可以从事哪些工作这些岗位有需要做什么
岗位举例:
大数据工程师、大数据处理工程师、大数据分析挖掘工程师
岗位职责:
负责公司基于海量数据的云服务平台的架构和研发;
根据业务规则与分析模型实现数据建模、数据挖掘提取、数据分析、数据展示工作,编制数据分析报告;
理解业务的方向和战略,收集互联网数据,并结合行业数据,开发有效的数据模型,根据用户属性,挖掘用户需求;
通过用户行为分析,为产品、流程改进和技术解决方案提供基于运营数据分析的支持;
8. 大数据工程师好做吗
大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。
不过在国内,大数据的应用才刚刚萌芽,人才市场还不那么成熟,“你很难期望有一个全才来完成整个链条上的所有环节。更多公司会根据自己已有的资源和短板,招聘能和现有团队互补的人才。
于是每家公司对大数据工作的要求不尽相同:有的强调数据库编程、有的突出应用数学和统计学知识、有的则要求有咨询公司或投行相关的经验、有些是希望能找到懂得产品和市场的应用型人才。正因为如此,很多公司会针对自己的业务类型和团队分工,给这群与大数据打交道的人一些新的头衔和定义:数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title,我们将其统称为“大数据工程师”。
一个优秀的大数据工程师要具备一定的逻辑分析能力,并能迅速定位某个商业问题的关键属性和决定因素。“他得知道什么是相关的,哪个是重要的,使用什么样的数据是最有价值的,如何快速找到每个业务最核心的需求。”联合国网络大数据联合实验室数据科学家沈志勇说。学习能力能帮助大数据工程师快速适应不同的项目,并在短时间内成为这个领域的数据专家;沟通能力则能让他们的工作开展地更顺利,因为大数据工程师的工作主要分为两种方式:由市场部驱动和由数据分析部门驱动,前者需要常常向产品经理了解开发需求,后者则需要找运营部了解数据模型实际转化的情况。
你可以将以上这些要求看做是成为大数据工程师的努力方向,这是一个很大的人才缺口。目前国内的大数据应用多集中在互联网领域,有超过56%的企业在筹备发展大数据研究,未来5年,94%的公司都会需要数据科学家。因此也建议一些原本从事与数据工作相关的公司人可以考虑转型。
大数据工程师就是一群“玩数据”的人,玩出数据的商业价值,让数据变成生产力。大数据和传统数据的最大区别在于,它是在线的、实时的,规模海量且形式不规整,无章法可循,因此“会玩”这些数据的人就很重要。
因此分析历史、预测未来、优化选择,这是大数据工程师在“玩数据”时最重要的三大任务。通过这三个工作方向,他们帮助企业做出更好的商业决策。
如何成为大数据工程师
由于目前大数据人才匮乏,对于公司来说,很难招聘到合适的人才—既要有高学历,同时最好还有大规模数据处理经验。因此很多企业会通过内部挖掘。
目前长期从事数据库管理、挖掘、编程工作的人,包括传统的量化分析师、Hadoop方面的工程师,以及任何在工作中需要通过数据来进行判断决策的管理者,比如某些领域的运营经理等,都可以尝试该职位,而各个领域的达人只要学会运用数据,也可以成为大数据工程师。
薪酬待遇
作为IT类职业中的“大熊猫”,大数据工程师的收入待遇可以说达到了同类的顶级。根据颜莉萍的观察,国内IT、通讯、行业招聘中,有10%都是和大数据相关的,且比例还在上升。大数据时代的到来很突然,在国内发展势头激进,而人才却非常有限,现在完全是供不应求的状况。在美国,大数据工程师平均每年薪酬高达17.5万美元,而据了解,在国内顶尖互联网类公司,同一个级别大数据工程师的薪酬可能要比其他职位高20%至30%,且颇受企业重视。
职业发展路径
由于大数据人才数量较少,因此大多数公司的数据部门一般都是扁平化的层级模式,大致分为数据分析师、资深研究员、部门总监3个级别。大公司可能按照应用领域的维度来划分不同团队,而在小公司则需要身兼数职。有些特别强调大数据战略的互联网公司则会另设最高职位—如阿里巴巴的首席数据官。这个职位的大部分人会往研究方向发展,成为重要数据战略人才。。另一方面,大数据工程师对商业和产品的理解,并不亚于业务部门员工,因此也可转向产品部或市场部,乃至上升为公司的高级管理层。
9. 很想知道大数据工程师是做什么的
主要对大数据进行搜集和分析,对现在的发展形势有一个预判,像东莞金码这样的学校还会专门开设相关课程呢。
10. 大数据工程师到底需要会什么
1.大数据基础知识。hadoop生态圈的组件,离线批处理和流处理组件。所以什么zookeep hdfs yarn hive hbase eslasticsearch spark sparkstreaming flink等等,你都要了解,甚至熟悉才行。不管国外的CDH,还是国内的TDH、华为、阿里的产品,你实施中是要安装、指导客户使用、以及debug常见问题的。
2.Linux知识。目前基本集群服务大部分是使用linux的,所以需要熟悉linux常用命令,linux相关发性版本系统(如redhat ubuntu centos甚至 arm体系架构的系统)安装,网络配置,磁盘规划,常见系统问题分析等等。
3.必要的开发语言,应用和运维开发基础。别以为实施工程师就不用写代码了,其实实施工程师也要会,而且要全面。shell perl python的脚本用来运维自动化,java sacla写一些demo用来展示给客户做应用接入,sql做一些数据处理和etl等。另外debug集群的时候,经常会有日志信息,也是不同语言的trace信息,不懂开发,这部分log都看不明白的。
4.虚拟化技术。现在很多大数据产品已经上云了,数据云也是未来的方向。所以k8s docker 等都需要了解。国内阿里、星环等等产品都带有云的概念了。
5.软实力。沟通和写作能力、抗压能力、灵活应变能力等。这是技术以外的,但是也很重要。