大數據工程師干什麼_大數據工程師好做嗎

1. 大數據應用工程師是做什麼的

總結一句話就是寫 SQL （很多入職一兩年的大數據工程師主要的工作就是寫 SQL ）
還有其他的

2 為集群搭大數據環境（一般公司招大數據工程師環境都已經搭好了，公司內部會有現成的大數據平台，但我這邊會私下搞一套測試環境，畢竟公司內部的大數據系統許可權限制很多，嚴重影響開發效率）

3 維護大數據平台（這個應該是每個大數據工程師都做過的工作，或多或少會承擔「運維」的工作）

4 數據遷移（有部分公司需要把數據從傳統的資料庫 Oracle、MySQL 等數據遷移到大數據集群中，這個是比較繁瑣的工作，吃力不討好）

5 應用遷移（有部分公司需要把應用從傳統的資料庫 Oracle、MySQL 等資料庫的存儲過程程序或者SQL腳本遷移到大數據平台上，這個過程也是非常繁瑣的工作，無聊，高度重復且麻煩，吃力不討好）

6 數據採集（採集日誌數據、文件數據、介面數據，這個涉及到各種格式的轉換，一般用得比較多的是 Flume 和 Logstash）

7 數據處理
7.1 離線數據處理（這個一般就是寫寫 SQL 然後扔到 Hive 中跑，其實和第一點有點重復了）
7.2 實時數據處理（這個涉及到消息隊列，Kafka，Spark，Flink 這些，組件，一般就是 Flume 採集到數據發給 Kafka 然後 Spark 消費 Kafka 的數據進行處理）

8 數據可視化（這個我司是用 Spring Boot 連接後台數據與前端，前端用自己魔改的 echarts）

9 大數據平台開發（偏Java方向的，大概就是把開源的組件整合起來整成一個可用的大數據平台這樣，常見的是各種難用的 PaaS 平台）

10 數據中台開發（中台需要支持接入各種數據源，把各種數據源清洗轉換為可用的數據，然後再基於原始數據搭建起寬表層，一般為了節省開發成本和伺服器資源，都是基於寬表層查詢出業務數據）

11 搭建數據倉庫（這里的數據倉庫的搭建不是指 Hive ，Hive 是搭建數倉的工具，數倉搭建一般會分為三層 ODS、DW、DM 層，其中DW是最重要的，它又可以分為DWD,DWM,DWS，這個層級只是邏輯上的概念，類似於把表名按照層級區分開來的操作，分層的目的是防止開發數據應用的時候直接訪問底層數據，可以減少資源，注意，減少資源開銷是減少內存和 CPU 的開銷，分層後磁碟佔用會大大增加，磁碟不值錢所以沒什麼關系，分層可以使數據表的邏輯更加清晰，方便進一步的開發操作，如果分層沒有做好會導致邏輯混亂，新來的員工難以接手業務，提高公司的運營成本，還有這個建數倉也分為建離線和實時的）

總之就是離不開寫 SQL ...

2. 大數據工程師的日常工作做什麼

【導讀】時至今日，相信大家對大數據工程師一點也不陌生，作為時下比較熱門的高薪職業，很多人想轉行做大數據工程師，那麼你知道大數據工程師的日常工作做什麼?工作強度大不大呢?為此小編整理了以下內容，一起來看看吧!

1，寫 SQL ：一般來說許多入職一兩年的大數據工程師首要的工作就是寫 SQL ;

2 ，為集群搭大數據環境(一般公司招大數據工程師環境都現已搭好了，公司內部會有現成的大數據途徑);

3 ，維護大數據途徑(這個應該是每個大數據工程師都做過的工作，或多或少會承擔「運維」的工作);

4，數據搬家(有部分公司需求把數據從傳統的資料庫 Oracle、MySQL 等數據搬家到大數據集群中，這個是比較繁瑣的工作);

5 ，運用搬家(有部分公司需求把運用從傳統的資料庫 Oracle、MySQL
等資料庫的存儲進程程序或許SQL腳本搬家到大數據途徑上，這個進程也是非常繁瑣的工作，高度重復且雜亂)

6 ，數據收集(收集日誌數據、文件數據、介面數據，這個觸及到各種格式的轉化，一般用得比較多的是 Flume 和 Logstash)

7，數據處理

7.1 ，離線數據處理(這個一般就是寫寫 SQL 然後扔到 Hive 中跑，其實和首要點有點重復了)

7.2 ，實時數據處理(這個觸及到音訊部隊，Kafka，Spark，Flink 這些，組件，一般就是 Flume 收集到數據發給 Kafka 然後
Spark 消費 Kafka 的數據進行處理)

8 ，數據可視化(這個我司是用 Spring Boot 聯接後台數據與前端，前端用自己魔改的 echarts)

9 ，大數據途徑開發(偏Java方向的，大約就是把開源的組件整合起來整成一個可用的大數據途徑這樣，常見的是各種難用的 PaaS 途徑)

10
，數據中台開發(中台需求支撐接入各種數據源，把各種數據源清洗轉化為可用的數據，然後再根據原始數據建立起寬表層，一般為了節省開發本錢和伺服器資源，都是根據寬表層查詢出業務數據)

11 ，建立數據倉庫(這兒的數據倉庫的建立不是指 Hive ，Hive 是建立數倉的東西，數倉建立一般會分為三層 ODS、DW、DM
層，其間DW是最重要的，它又能夠分為DWD,DWM,DWS，這個層級僅僅邏輯上的概念，類似於把表名按照層級差異隔來的操作，分層的目的是防止開發數據運用的時分直接訪問底層數據，能夠減少資源，留意，減少資源開支是減少
內存和 CPU
的開支，分層後磁碟佔用會大大增加，磁碟不值錢所以沒什麼聯絡，分層能夠使數據表的邏輯更加清楚，便當進一步的開發操作，假定分層沒有做好會導致邏輯紊亂，新來的員工難以接手業務，跋涉公司的運營本錢，還有這個建數倉也分為建離線和實時的)

以上就是小編今天給大家整理發送的關於「大數據工程師的日常工作做什麼?」的相關內容，希望對大家有所幫助。想了解更多關於大數據工程師要求具備的能力，關注小編持續更新。

3. 大數據工程師主要做什麼

當前大數據平台開發崗位的附加值還是比較高的，大數據平台開發崗位往往集中在大型互聯網企業，隨著雲計算逐漸從IaaS向PaaS過渡，大數據平台開發也會基於行業特點來開發針對性比較強的PaaS平台，這是整合行業資源並搭建技術生態的一個關鍵。搭建PaaS平台不僅需要掌握大數據知識，同時還需要掌握雲計算知識，實際上大數據和雲計算本身就有比較緊密的聯系，二者在技術體系結構上都是以分布式存儲和分布式計算為基礎，只不過關注點不同而已。

大數據運維工程師以搭建大數據平台為主，雖然這部分崗位的門檻相對比較低，但是需要學習的內容還是比較多的，而且內容也比較雜，網路知識、資料庫管理知識、操作系統(Linux)知識、大數據平台(含開源和商用平台)知識都需要掌握一些，對於實踐操作的要求會比較高。

最後，當前大數據工程師往往並不包含專業的數據分析崗位，一般數據分析崗位都會單獨列出來，這部分崗位涉及到演算法崗、開發崗(實現)和數據呈現崗等，數據分析崗位對於從業者的數學基礎要求比較高，同時還需要掌握大量的數據分析工具，當然也離不開Python、Sql等知識。

4. 大數據工程師的工作內容是什麼

1、數據採集：

業務系統的埋點代碼時刻會產生一些分散的原始日誌，可以用Flume監控接收這些分散的日誌，實現分散日誌的聚合，即採集。

2、數據清洗：

一些欄位可能會有異常取值，即臟數據。為了保證數據下游的"數據分析統計"能拿到比較高質量的數據，需要對這些記錄進行過濾或者欄位數據回填。

一些日誌的欄位信息可能是多餘的，下游不需要使用到這些欄位做分析，同時也為了節省存儲開銷，需要刪除這些多餘的欄位信息。

一些日誌的欄位信息可能包含用戶敏感信息，需要做脫敏處理。如用戶姓名只保留姓，名字用'*'字元替換。

3、數據存儲：

清洗後的數據可以落地入到數據倉庫(Hive)，供下游做離線分析。如果下游的"數據分析統計"對實時性要求比較高，則可以把日誌記錄入到kafka。

4、數據分析統計：

數據分析是數據流的下游，消費來自上游的數據。其實就是從日誌記錄里頭統計出各種各樣的報表數據，簡單的報表統計可以用sql在kylin或者hive統計，復雜的報表就需要在代碼層面用Spark、Storm做統計分析。一些公司好像會有個叫BI的崗位是專門做這一塊的。

5、數據可視化：

用數據表格、數據圖等直觀的形式展示上游"數據分析統計"的數據。一般公司的某些決策會參考這些圖表裡頭的數據。

5. 大數據工程師到底是什麼

用阿里巴巴集團研究員薛貴榮的話來說，大數據工程師就是一群「玩數據」的人，玩出數據的商業價值，讓數據變成生產力。大數據和傳統數據的最大區別在於，它是在線的、實時的，規模海量且形式不規整，無章法可循，因此「會玩」這些數據的人就很重要。

沈志勇認為如果把大數據想像成一座不停累積的礦山，那麼大數據工程師的工作就是，「第一步，定位並抽取信息所在的數據集，相當於探礦和采礦。第二步，把它變成直接可以做判斷的信息，相當於冶煉。最後是應用，把數據可視化等。」

因此分析歷史、預測未來、優化選擇，這是大數據工程師在「玩數據」時最重要的三大任務。通過這三個工作方向，他們幫助企業做出更好的商業決策。

6. 大數據專業是幹嘛的

大數據工程師有不少細分方向，不同的方向需要具備不同的知識結構，通常情況下大數據工程師分為四個具體的工作領域，分別是大數據底層平台研發、大數據應用開發、大數據分析和大數據運維。
大數據專業是做什麼的？
分析歷史、預測未來、優化選擇，這是大數據工程師在「玩數據」時最重要的三大任務：
1、找出過去事件的特徵：
大數據工程師一個很重要的工作，就是通過分析數據來找出過去事件的特徵。找出過去事件的特徵，最大的作用是可以幫助企業更好地認識消費者。通過分析用戶以往的行為軌跡，就能夠了解這個人，並預測他的行為。
2、預測未來可能發生的事情：
通過引入關鍵因素，大數據工程師可以預測未來的消費趨勢。
3、找出最優化的結果：
根據不同企業的業務性質，大數據工程師可以通過數據分析來達到不同的目的。
除此之外，在工作崗位上，大數據工程師需要基於Hadoop，Spark等構建數據分析平台，進行設計、開發分布式計算業務。負責大數據平台(Hadoop，HBase，Spark等)集群環境的搭建，性能調優和日常維護。負責數據倉庫設計，數據ETL的設計、開發和性能優化。參與構建大數據平台，依託大數據技術建設用戶畫像。
除開以上是需要負責處理的工作，還需要負責分析新的數據需求，完成數據處理的設計(文檔)和實現。對大數據應用產品設計及解決方案設計，通過大數據挖掘用戶需求。負責數據處理程序設計框架改善，數據處理性能優化, 系統數據處理的能力提高等

7. 大數據分析開發工程師可以從事哪些工作這些崗位有需要做什麼

崗位舉例：
大數據工程師、大數據處理工程師、大數據分析挖掘工程師
崗位職責：
負責公司基於海量數據的雲服務平台的架構和研發；
根據業務規則與分析模型實現數據建模、數據挖掘提取、數據分析、數據展示工作，編制數據分析報告；
理解業務的方向和戰略，收集互聯網數據，並結合行業數據，開發有效的數據模型，根據用戶屬性，挖掘用戶需求；
通過用戶行為分析，為產品、流程改進和技術解決方案提供基於運營數據分析的支持；

8. 大數據工程師好做嗎

大數據是眼下非常時髦的技術名詞，與此同時自然也催生出了一些與大數據處理相關的職業，通過對數據的挖掘分析來影響企業的商業決策。
不過在國內，大數據的應用才剛剛萌芽，人才市場還不那麼成熟，「你很難期望有一個全才來完成整個鏈條上的所有環節。更多公司會根據自己已有的資源和短板，招聘能和現有團隊互補的人才。
於是每家公司對大數據工作的要求不盡相同：有的強調資料庫編程、有的突出應用數學和統計學知識、有的則要求有咨詢公司或投行相關的經驗、有些是希望能找到懂得產品和市場的應用型人才。正因為如此，很多公司會針對自己的業務類型和團隊分工，給這群與大數據打交道的人一些新的頭銜和定義：數據挖掘工程師、大數據專家、數據研究員、用戶分析專家等都是經常在國內公司里出現的Title，我們將其統稱為「大數據工程師」。
一個優秀的大數據工程師要具備一定的邏輯分析能力，並能迅速定位某個商業問題的關鍵屬性和決定因素。「他得知道什麼是相關的，哪個是重要的，使用什麼樣的數據是最有價值的，如何快速找到每個業務最核心的需求。」聯合國網路大數據聯合實驗室數據科學家沈志勇說。學習能力能幫助大數據工程師快速適應不同的項目，並在短時間內成為這個領域的數據專家；溝通能力則能讓他們的工作開展地更順利，因為大數據工程師的工作主要分為兩種方式：由市場部驅動和由數據分析部門驅動，前者需要常常向產品經理了解開發需求，後者則需要找運營部了解數據模型實際轉化的情況。
你可以將以上這些要求看做是成為大數據工程師的努力方向，這是一個很大的人才缺口。目前國內的大數據應用多集中在互聯網領域，有超過56%的企業在籌備發展大數據研究，未來5年，94%的公司都會需要數據科學家。因此也建議一些原本從事與數據工作相關的公司人可以考慮轉型。
大數據工程師就是一群「玩數據」的人，玩出數據的商業價值，讓數據變成生產力。大數據和傳統數據的最大區別在於，它是在線的、實時的，規模海量且形式不規整，無章法可循，因此「會玩」這些數據的人就很重要。
因此分析歷史、預測未來、優化選擇，這是大數據工程師在「玩數據」時最重要的三大任務。通過這三個工作方向，他們幫助企業做出更好的商業決策。
如何成為大數據工程師
由於目前大數據人才匱乏，對於公司來說，很難招聘到合適的人才—既要有高學歷，同時最好還有大規模數據處理經驗。因此很多企業會通過內部挖掘。
目前長期從事資料庫管理、挖掘、編程工作的人，包括傳統的量化分析師、Hadoop方面的工程師，以及任何在工作中需要通過數據來進行判斷決策的管理者，比如某些領域的運營經理等，都可以嘗試該職位，而各個領域的達人只要學會運用數據，也可以成為大數據工程師。
薪酬待遇
作為IT類職業中的「大熊貓」，大數據工程師的收入待遇可以說達到了同類的頂級。根據顏莉萍的觀察，國內IT、通訊、行業招聘中，有10％都是和大數據相關的，且比例還在上升。大數據時代的到來很突然，在國內發展勢頭激進，而人才卻非常有限，現在完全是供不應求的狀況。在美國，大數據工程師平均每年薪酬高達17.5萬美元，而據了解，在國內頂尖互聯網類公司，同一個級別大數據工程師的薪酬可能要比其他職位高20％至30％，且頗受企業重視。
職業發展路徑
由於大數據人才數量較少，因此大多數公司的數據部門一般都是扁平化的層級模式，大致分為數據分析師、資深研究員、部門總監3個級別。大公司可能按照應用領域的維度來劃分不同團隊，而在小公司則需要身兼數職。有些特別強調大數據戰略的互聯網公司則會另設最高職位—如阿里巴巴的首席數據官。這個職位的大部分人會往研究方向發展，成為重要數據戰略人才。。另一方面，大數據工程師對商業和產品的理解，並不亞於業務部門員工，因此也可轉向產品部或市場部，乃至上升為公司的高級管理層。

9. 很想知道大數據工程師是做什麼的

主要對大數據進行搜集和分析，對現在的發展形勢有一個預判，像東莞金碼這樣的學校還會專門開設相關課程呢。

10. 大數據工程師到底需要會什麼

1.大數據基礎知識。hadoop生態圈的組件，離線批處理和流處理組件。所以什麼zookeep hdfs yarn hive hbase eslasticsearch spark sparkstreaming flink等等，你都要了解，甚至熟悉才行。不管國外的CDH，還是國內的TDH、華為、阿里的產品，你實施中是要安裝、指導客戶使用、以及debug常見問題的。

2.Linux知識。目前基本集群服務大部分是使用linux的，所以需要熟悉linux常用命令，linux相關發性版本系統(如redhat ubuntu centos甚至 arm體系架構的系統)安裝，網路配置，磁碟規劃，常見系統問題分析等等。

3.必要的開發語言，應用和運維開發基礎。別以為實施工程師就不用寫代碼了，其實實施工程師也要會，而且要全面。shell perl python的腳本用來運維自動化，java sacla寫一些demo用來展示給客戶做應用接入，sql做一些數據處理和etl等。另外debug集群的時候，經常會有日誌信息，也是不同語言的trace信息，不懂開發，這部分log都看不明白的。

4.虛擬化技術。現在很多大數據產品已經上雲了，數據雲也是未來的方向。所以k8s docker 等都需要了解。國內阿里、星環等等產品都帶有雲的概念了。

5.軟實力。溝通和寫作能力、抗壓能力、靈活應變能力等。這是技術以外的，但是也很重要。

導航:首頁 > 項目工程 > 大數據工程師干什麼

大數據工程師干什麼

與大數據工程師干什麼相關的資料