1. 大數據應用工程師是做什麼的
總結一句話就是 寫 SQL (很多入職一兩年的大數據工程師主要的工作就是寫 SQL )
還有其他的
2 為集群搭大數據環境(一般公司招大數據工程師環境都已經搭好了,公司內部會有現成的大數據平台,但我這邊會私下搞一套測試環境,畢竟公司內部的大數據系統許可權限制很多,嚴重影響開發效率)
3 維護大數據平台(這個應該是每個大數據工程師都做過的工作,或多或少會承擔「運維」的工作)
4 數據遷移(有部分公司需要把數據從傳統的資料庫 Oracle、MySQL 等數據遷移到大數據集群中,這個是比較繁瑣的工作,吃力不討好)
5 應用遷移(有部分公司需要把應用從傳統的資料庫 Oracle、MySQL 等資料庫的存儲過程程序或者SQL腳本遷移到大數據平台上,這個過程也是非常繁瑣的工作,無聊,高度重復且麻煩,吃力不討好)
6 數據採集(採集日誌數據、文件數據、介面數據,這個涉及到各種格式的轉換,一般用得比較多的是 Flume 和 Logstash)
7 數據處理
7.1 離線數據處理(這個一般就是寫寫 SQL 然後扔到 Hive 中跑,其實和第一點有點重復了)
7.2 實時數據處理(這個涉及到消息隊列,Kafka,Spark,Flink 這些,組件,一般就是 Flume 採集到數據發給 Kafka 然後 Spark 消費 Kafka 的數據進行處理)
8 數據可視化(這個我司是用 Spring Boot 連接後台數據與前端,前端用自己魔改的 echarts)
9 大數據平台開發(偏Java方向的,大概就是把開源的組件整合起來整成一個可用的大數據平台這樣,常見的是各種難用的 PaaS 平台)
10 數據中台開發(中台需要支持接入各種數據源,把各種數據源清洗轉換為可用的數據,然後再基於原始數據搭建起寬表層,一般為了節省開發成本和伺服器資源,都是基於寬表層查詢出業務數據)
11 搭建數據倉庫(這里的數據倉庫的搭建不是指 Hive ,Hive 是搭建數倉的工具,數倉搭建一般會分為三層 ODS、DW、DM 層,其中DW是最重要的,它又可以分為DWD,DWM,DWS,這個層級只是邏輯上的概念,類似於把表名按照層級區分開來的操作,分層的目的是防止開發數據應用的時候直接訪問底層數據,可以減少資源,注意,減少資源開銷是減少 內存 和 CPU 的開銷,分層後磁碟佔用會大大增加,磁碟不值錢所以沒什麼關系,分層可以使數據表的邏輯更加清晰,方便進一步的開發操作,如果分層沒有做好會導致邏輯混亂,新來的員工難以接手業務,提高公司的運營成本,還有這個建數倉也分為建離線和實時的)
總之就是離不開寫 SQL ...
2. 大數據工程師的日常工作做什麼
【導讀】時至今日,相信大家對大數據工程師一點也不陌生,作為時下比較熱門的高薪職業,很多人想轉行做大數據工程師,那麼你知道大數據工程師的日常工作做什麼?工作強度大不大呢?為此小編整理了以下內容,一起來看看吧!
1, 寫 SQL :一般來說許多入職一兩年的大數據工程師首要的工作就是寫 SQL ;
2 ,為集群搭大數據環境(一般公司招大數據工程師環境都現已搭好了,公司內部會有現成的大數據途徑);
3 ,維護大數據途徑(這個應該是每個大數據工程師都做過的工作,或多或少會承擔「運維」的工作);
4, 數據搬家(有部分公司需求把數據從傳統的資料庫 Oracle、MySQL 等數據搬家到大數據集群中,這個是比較繁瑣的工作);
5 ,運用搬家(有部分公司需求把運用從傳統的資料庫 Oracle、MySQL
等資料庫的存儲進程程序或許SQL腳本搬家到大數據途徑上,這個進程也是非常繁瑣的工作,高度重復且雜亂)
6 ,數據收集(收集日誌數據、文件數據、介面數據,這個觸及到各種格式的轉化,一般用得比較多的是 Flume 和 Logstash)
7, 數據處理
7.1 ,離線數據處理(這個一般就是寫寫 SQL 然後扔到 Hive 中跑,其實和首要點有點重復了)
7.2 ,實時數據處理(這個觸及到音訊部隊,Kafka,Spark,Flink 這些,組件,一般就是 Flume 收集到數據發給 Kafka 然後
Spark 消費 Kafka 的數據進行處理)
8 ,數據可視化(這個我司是用 Spring Boot 聯接後台數據與前端,前端用自己魔改的 echarts)
9 ,大數據途徑開發(偏Java方向的,大約就是把開源的組件整合起來整成一個可用的大數據途徑這樣,常見的是各種難用的 PaaS 途徑)
10
,數據中台開發(中台需求支撐接入各種數據源,把各種數據源清洗轉化為可用的數據,然後再根據原始數據建立起寬表層,一般為了節省開發本錢和伺服器資源,都是根據寬表層查詢出業務數據)
11 ,建立數據倉庫(這兒的數據倉庫的建立不是指 Hive ,Hive 是建立數倉的東西,數倉建立一般會分為三層 ODS、DW、DM
層,其間DW是最重要的,它又能夠分為DWD,DWM,DWS,這個層級僅僅邏輯上的概念,類似於把表名按照層級差異隔來的操作,分層的目的是防止開發數據運用的時分直接訪問底層數據,能夠減少資源,留意,減少資源開支是減少
內存 和 CPU
的開支,分層後磁碟佔用會大大增加,磁碟不值錢所以沒什麼聯絡,分層能夠使數據表的邏輯更加清楚,便當進一步的開發操作,假定分層沒有做好會導致邏輯紊亂,新來的員工難以接手業務,跋涉公司的運營本錢,還有這個建數倉也分為建離線和實時的)
以上就是小編今天給大家整理發送的關於「大數據工程師的日常工作做什麼?」的相關內容,希望對大家有所幫助。想了解更多關於大數據工程師要求具備的能力,關注小編持續更新。
3. 大數據工程師主要做什麼
當前大數據平台開發崗位的附加值還是比較高的,大數據平台開發崗位往往集中在大型互聯網企業,隨著雲計算逐漸從IaaS向PaaS過渡,大數據平台開發也會基於行業特點來開發針對性比較強的PaaS平台,這是整合行業資源並搭建技術生態的一個關鍵。搭建PaaS平台不僅需要掌握大數據知識,同時還需要掌握雲計算知識,實際上大數據和雲計算本身就有比較緊密的聯系,二者在技術體系結構上都是以分布式存儲和分布式計算為基礎,只不過關注點不同而已。
大數據運維工程師以搭建大數據平台為主,雖然這部分崗位的門檻相對比較低,但是需要學習的內容還是比較多的,而且內容也比較雜,網路知識、資料庫管理知識、操作系統(Linux)知識、大數據平台(含開源和商用平台)知識都需要掌握一些,對於實踐操作的要求會比較高。
最後,當前大數據工程師往往並不包含專業的數據分析崗位,一般數據分析崗位都會單獨列出來,這部分崗位涉及到演算法崗、開發崗(實現)和數據呈現崗等,數據分析崗位對於從業者的數學基礎要求比較高,同時還需要掌握大量的數據分析工具,當然也離不開Python、Sql等知識。
4. 大數據工程師的工作內容是什麼
1、數據採集:
業務系統的埋點代碼時刻會產生一些分散的原始日誌,可以用Flume監控接收這些分散的日誌,實現分散日誌的聚合,即採集。
2、數據清洗:
一些欄位可能會有異常取值,即臟數據。為了保證數據下游的"數據分析統計"能拿到比較高質量的數據,需要對這些記錄進行過濾或者欄位數據回填。
一些日誌的欄位信息可能是多餘的,下游不需要使用到這些欄位做分析,同時也為了節省存儲開銷,需要刪除這些多餘的欄位信息。
一些日誌的欄位信息可能包含用戶敏感信息,需要做脫敏處理。如用戶姓名只保留姓,名字用'*'字元替換。
3、數據存儲:
清洗後的數據可以落地入到數據倉庫(Hive),供下游做離線分析。如果下游的"數據分析統計"對實時性要求比較高,則可以把日誌記錄入到kafka。
4、數據分析統計:
數據分析是數據流的下游,消費來自上游的數據。其實就是從日誌記錄里頭統計出各種各樣的報表數據,簡單的報表統計可以用sql在kylin或者hive統計,復雜的報表就需要在代碼層面用Spark、Storm做統計分析。一些公司好像會有個叫BI的崗位是專門做這一塊的。
5、數據可視化:
用數據表格、數據圖等直觀的形式展示上游"數據分析統計"的數據。一般公司的某些決策會參考這些圖表裡頭的數據。
5. 大數據工程師到底是什麼
用阿里巴巴集團研究員薛貴榮的話來說,大數據工程師就是一群「玩數據」的人,玩出數據的商業價值,讓數據變成生產力。大數據和傳統數據的最大區別在於,它是在線的、實時的,規模海量且形式不規整,無章法可循,因此「會玩」這些數據的人就很重要。
沈志勇認為如果把大數據想像成一座不停累積的礦山,那麼大數據工程師的工作就是,「第一步,定位並抽取信息所在的數據集,相當於探礦和采礦。第二步,把它變成直接可以做判斷的信息,相當於冶煉。最後是應用,把數據可視化等。」
因此分析歷史、預測未來、優化選擇,這是大數據工程師在「玩數據」時最重要的三大任務。通過這三個工作方向,他們幫助企業做出更好的商業決策。
6. 大數據專業是幹嘛的
大數據工程師有不少細分方向,不同的方向需要具備不同的知識結構,通常情況下大數據工程師分為四個具體的工作領域,分別是大數據底層平台研發、大數據應用開發、大數據分析和大數據運維。
大數據專業是做什麼的?
分析歷史、預測未來、優化選擇,這是大數據工程師在「玩數據」時最重要的三大任務:
1、找出過去事件的特徵:
大數據工程師一個很重要的工作,就是通過分析數據來找出過去事件的特徵。找出過去事件的特徵,最大的作用是可以幫助企業更好地認識消費者。通過分析用戶以往的行為軌跡,就能夠了解這個人,並預測他的行為。
2、預測未來可能發生的事情:
通過引入關鍵因素,大數據工程師可以預測未來的消費趨勢。
3、找出最優化的結果:
根據不同企業的業務性質,大數據工程師可以通過數據分析來達到不同的目的。
除此之外,在工作崗位上,大數據工程師需要基於Hadoop,Spark等構建數據分析平台,進行設計、開發分布式計算業務。負責大數據平台(Hadoop,HBase,Spark等)集群環境的搭建,性能調優和日常維護。負責數據倉庫設計,數據ETL的設計、開發和性能優化。參與構建大數據平台,依託大數據技術建設用戶畫像。
除開以上是需要負責處理的工作,還需要負責分析新的數據需求,完成數據處理的設計(文檔)和實現。對大數據應用產品設計及解決方案設計,通過大數據挖掘用戶需求。負責數據處理程序設計框架改善,數據處理性能優化, 系統數據處理的能力提高等
7. 大數據分析開發工程師可以從事哪些工作這些崗位有需要做什麼
崗位舉例:
大數據工程師、大數據處理工程師、大數據分析挖掘工程師
崗位職責:
負責公司基於海量數據的雲服務平台的架構和研發;
根據業務規則與分析模型實現數據建模、數據挖掘提取、數據分析、數據展示工作,編制數據分析報告;
理解業務的方向和戰略,收集互聯網數據,並結合行業數據,開發有效的數據模型,根據用戶屬性,挖掘用戶需求;
通過用戶行為分析,為產品、流程改進和技術解決方案提供基於運營數據分析的支持;
8. 大數據工程師好做嗎
大數據是眼下非常時髦的技術名詞,與此同時自然也催生出了一些與大數據處理相關的職業,通過對數據的挖掘分析來影響企業的商業決策。
不過在國內,大數據的應用才剛剛萌芽,人才市場還不那麼成熟,「你很難期望有一個全才來完成整個鏈條上的所有環節。更多公司會根據自己已有的資源和短板,招聘能和現有團隊互補的人才。
於是每家公司對大數據工作的要求不盡相同:有的強調資料庫編程、有的突出應用數學和統計學知識、有的則要求有咨詢公司或投行相關的經驗、有些是希望能找到懂得產品和市場的應用型人才。正因為如此,很多公司會針對自己的業務類型和團隊分工,給這群與大數據打交道的人一些新的頭銜和定義:數據挖掘工程師、大數據專家、數據研究員、用戶分析專家等都是經常在國內公司里出現的Title,我們將其統稱為「大數據工程師」。
一個優秀的大數據工程師要具備一定的邏輯分析能力,並能迅速定位某個商業問題的關鍵屬性和決定因素。「他得知道什麼是相關的,哪個是重要的,使用什麼樣的數據是最有價值的,如何快速找到每個業務最核心的需求。」聯合國網路大數據聯合實驗室數據科學家沈志勇說。學習能力能幫助大數據工程師快速適應不同的項目,並在短時間內成為這個領域的數據專家;溝通能力則能讓他們的工作開展地更順利,因為大數據工程師的工作主要分為兩種方式:由市場部驅動和由數據分析部門驅動,前者需要常常向產品經理了解開發需求,後者則需要找運營部了解數據模型實際轉化的情況。
你可以將以上這些要求看做是成為大數據工程師的努力方向,這是一個很大的人才缺口。目前國內的大數據應用多集中在互聯網領域,有超過56%的企業在籌備發展大數據研究,未來5年,94%的公司都會需要數據科學家。因此也建議一些原本從事與數據工作相關的公司人可以考慮轉型。
大數據工程師就是一群「玩數據」的人,玩出數據的商業價值,讓數據變成生產力。大數據和傳統數據的最大區別在於,它是在線的、實時的,規模海量且形式不規整,無章法可循,因此「會玩」這些數據的人就很重要。
因此分析歷史、預測未來、優化選擇,這是大數據工程師在「玩數據」時最重要的三大任務。通過這三個工作方向,他們幫助企業做出更好的商業決策。
如何成為大數據工程師
由於目前大數據人才匱乏,對於公司來說,很難招聘到合適的人才—既要有高學歷,同時最好還有大規模數據處理經驗。因此很多企業會通過內部挖掘。
目前長期從事資料庫管理、挖掘、編程工作的人,包括傳統的量化分析師、Hadoop方面的工程師,以及任何在工作中需要通過數據來進行判斷決策的管理者,比如某些領域的運營經理等,都可以嘗試該職位,而各個領域的達人只要學會運用數據,也可以成為大數據工程師。
薪酬待遇
作為IT類職業中的「大熊貓」,大數據工程師的收入待遇可以說達到了同類的頂級。根據顏莉萍的觀察,國內IT、通訊、行業招聘中,有10%都是和大數據相關的,且比例還在上升。大數據時代的到來很突然,在國內發展勢頭激進,而人才卻非常有限,現在完全是供不應求的狀況。在美國,大數據工程師平均每年薪酬高達17.5萬美元,而據了解,在國內頂尖互聯網類公司,同一個級別大數據工程師的薪酬可能要比其他職位高20%至30%,且頗受企業重視。
職業發展路徑
由於大數據人才數量較少,因此大多數公司的數據部門一般都是扁平化的層級模式,大致分為數據分析師、資深研究員、部門總監3個級別。大公司可能按照應用領域的維度來劃分不同團隊,而在小公司則需要身兼數職。有些特別強調大數據戰略的互聯網公司則會另設最高職位—如阿里巴巴的首席數據官。這個職位的大部分人會往研究方向發展,成為重要數據戰略人才。。另一方面,大數據工程師對商業和產品的理解,並不亞於業務部門員工,因此也可轉向產品部或市場部,乃至上升為公司的高級管理層。
9. 很想知道大數據工程師是做什麼的
主要對大數據進行搜集和分析,對現在的發展形勢有一個預判,像東莞金碼這樣的學校還會專門開設相關課程呢。
10. 大數據工程師到底需要會什麼
1.大數據基礎知識。hadoop生態圈的組件,離線批處理和流處理組件。所以什麼zookeep hdfs yarn hive hbase eslasticsearch spark sparkstreaming flink等等,你都要了解,甚至熟悉才行。不管國外的CDH,還是國內的TDH、華為、阿里的產品,你實施中是要安裝、指導客戶使用、以及debug常見問題的。
2.Linux知識。目前基本集群服務大部分是使用linux的,所以需要熟悉linux常用命令,linux相關發性版本系統(如redhat ubuntu centos甚至 arm體系架構的系統)安裝,網路配置,磁碟規劃,常見系統問題分析等等。
3.必要的開發語言,應用和運維開發基礎。別以為實施工程師就不用寫代碼了,其實實施工程師也要會,而且要全面。shell perl python的腳本用來運維自動化,java sacla寫一些demo用來展示給客戶做應用接入,sql做一些數據處理和etl等。另外debug集群的時候,經常會有日誌信息,也是不同語言的trace信息,不懂開發,這部分log都看不明白的。
4.虛擬化技術。現在很多大數據產品已經上雲了,數據雲也是未來的方向。所以k8s docker 等都需要了解。國內阿里、星環等等產品都帶有雲的概念了。
5.軟實力。溝通和寫作能力、抗壓能力、靈活應變能力等。這是技術以外的,但是也很重要。