1. 從大數據入門,到達到一定水平,在學習路徑上有什麼建議
目前我們正處在大數據時代,掌握大數據相關技術對提高自己的職場競爭力一定是有幫助的。
大數據學習建議:
1、0基礎小白從Java語言開始學習
因為當前的大數據技術主要是用 Java 實現的或者是基於 Java 的,想入行大數據,Java基礎是必備的;
2、Java開發能力需要通過實際項目來鍛煉
在學習完Java語言之後,往往只是掌握了Java語言的基本操作,只有通過真正的項目鍛煉才能進一步提高Java開發能力。
3、大數據開發有明顯的場景要求
大數據開發是基於目前已有信息系統的升級改造,是一個系統的過程,包括平台的搭建、數據的存儲、服務的部署等都有較大的變化,要想真正理解大數據需要有一個積累的過程。對於初學者來說,應該先建立一個對開發場景的認知,這樣會更好的理解大數據平台的價值和作用。
4、從基礎開發開始做起
對於初級程序員來說,不管自己是否掌握大數據平台的開發知識,都是從基礎的開發開始做起,基於大數據平台開發環境。
從就業的角度來說,大數據開發是一個不錯的選擇。但我並不建議脫離實際應用來學習大數據,最好要結合實際的開發任務來一邊學習一邊使用。
2. 會matlab和遺傳演算法,及其他優化演算法,可以找到什麼樣的工作
最好要會某種編程語言,比如C/C++、java等,最好再有深厚的數學基礎,包括運籌學知識、概率論與數理統計知識,要不然,光憑你說的那些找不到什麼工作。
即便你想從事演算法工程師的工作,也要有一定的編程功力(可不是指matlab),以及數據結構與演算法設計基礎。
還不明白的話,你可以到前程無憂或者中華英才網等招聘網站輸入你的檢索詞:matlab+遺傳演算法試一試,看看能有什麼樣的工作適合你。
3. 數據分析師和數據挖掘工程師的區別
我們先來了解一下兩者的區別。
一、意義不同
數據分析師 是數據師Datician的一種,指的是不同行業中,專門從事行業數據搜集、整理、分析,並依據數據做出行業研究、評估和預測的專業人員。
演算法(Algorithm)是一系列解決問題的清晰指令,也就是說,能夠對一定規范的輸入,在有限時間內獲得所要求的輸出。如果一個演算法有缺陷,或不適合於某個問題,執行這個演算法將不會解決這個問題。不同的演算法可能用不同的時間、空間或效率來完成同樣的任務。一個演算法的優劣可以用空間復雜度與時間復雜度來衡量。演算法工程師就是利用演算法處理事物的人。
二、薪資不同
數據分析師的職位平均工資大約在¥9086;演算法工程師職位平均工資水平(元/月-稅前)大約在¥1200之上。
數據分析師和演算法工程師哪個難?由上可知演算法工程師比數據分析師要難學。此外,企業對於數據分析師的技能要求很高,具體要求如下:
1、懂業務。
從事數據分析工作的前提就會需要懂業務,即熟悉行業知識、公司業務及流程,最好有自己獨到的見解,若脫離行業認知和公司業務背景,分析的結果只會是脫了線的風箏,沒有太大的使用價值。
2、懂管理。
一方面是搭建數據分析框架的要求,比如確定分析思路就需要用到營銷、管理等理論知識來指導,如果不熟悉管理理論,就很難搭建數據分析的框架,後續的數據分析也很難進行。另一方面的作用是針對數據分析結論提出有指導意義的分析建議。
3、懂分析。
指掌握數據分析基本原理與一些有效的數據分析方法,並能靈活運用到實踐工作中,以便有效地開展數據分析。基本的分析方法有:對比分析法、分組分析法、交叉分析法、結構分析法、漏斗圖分析法、綜合評價分析法、因素分析法、矩陣關聯分析法等。高級的分析方法有:相關分析法、回歸分析法、聚類分析法、判別分析法、主成分分析法、因子分析法、對應分析法、時間序列等。
4、懂工具。
指掌握數據分析相關的常用工具。數據分析方法是理論,而數據分析工具就是實現數據分析方法理論的工具,面對越來越龐大的數據,我們不能依靠計算器進行分析,必須依靠強大的數據分析工具幫我們完成數據分析工作。
5、懂設計。
懂設計是指運用圖表有效表達數據分析師的分析觀點,使分析結果一目瞭然。圖表的設計是門大學問,如圖形的選擇、版式的設計、顏色的搭配等等,都需要掌握一定的設計原則。重要作用。
演算法工程師需要掌握的技能
1. 編程:PYTHON,JAVA,C
2. 數據結構與演算法
3. 機器學習演算法
4. PAPER閱讀能力
5. 造輪子的能力
對於演算法工程師,有別於數據挖掘工程師的第一個區別就是對於傳統的演算法和數據結構的要求。 我自身不是計算機科班出身,在我工作的第一年壓根沒有接觸過這一塊,也從沒打算去學這一塊。 我第一次知道數據結構和演算法的時候是去面試一家英語流利說的公司,當時面試官讓我寫一下斐波那契數列的偽代碼,我聽都沒有聽說過,於是面試官又讓我寫一下如何從一組數列當中最快的尋找出中位數,我依舊不知所措,因為平時都是習慣用函數,還從沒想過真正的實現方式是怎樣的。面試官很疑惑也很遺憾的當場就對我說:我覺得你可能不適合我們的崗位。
數據結構和演算法應該是必備的技能,演算法工程師應該對用常用的知識點有深入理解,能夠在面對不同項目場景的時候靈活選擇數據機構和演算法。
第二點是機器學習演算法,這個地方肯定會比之前的數據挖掘演算法要求高很多。除了常用機器學習演算法能夠手推之外,還要對演算法本身有更深入的思考。我記得我面試阿里的時候面試官拋出這么幾個問題,說如果boosting演算法不使用決策樹,而使用SVM會怎樣,或者說每一輪迭代都使用不同模型,比如第一次是決策樹,第二次是SVM,那麼會怎樣? 還有一個就是logistic regression這些演算法為何沒有使用ada,mone這些方法,能不能用?有什麼優缺點等等。
4. 淺談學習運籌與優化軟體的心得
科普推廣運籌學一直以來是【運籌OR帷幄】平台的初衷。本次我們邀請到了平台優化板塊的責編團隊的成員,結合各自獨特的業界工作體會,分享他們眼中在業界發光發熱的運籌學。
一、元器件行業中的運籌學
本人在一家做元器件服務的公司實習,軍用元器件使用的時候有兩個典型場景:替代和統型。
替代是設計師針對進口元器件找到可替代的國產型號;統型是在一個產品的BOM內確定某幾個不同元器件是否可以統一使用一種,以此減少元器件品種數。
目前行業內開始從依賴專家經驗(比如知道某個國產元器件就是對標某個進口元器件做的),轉向從元器件性能參數的相似度出發進行判斷,所以涉及到相似度和聚類方法的應用。
相比方法本身,解決問題的更大阻礙是元器件性能參數數據的復雜性和不規范性。例如不同類別的元器件性能參數不同,即使在同一類別下,不同生廠商給出的性能參數形式也不同,對此進行規范需要有元器件專業知識,所以實際中,數據清洗往往耗費最多人力,也是影響方法使用效果的一大因素。
5. 您好 我是一名大三在校生,數學與應用數學(金融數學)專業,能否就考研專業和學校選擇問題向您請教
數學與應用數學專業考研方向1:基礎數學
專業介紹
基礎數學(學科代碼:070101)是數學下設的二級學科之一。基礎數學又稱為純粹數學,是數學科學的核心與基礎部分。基礎數學包括數理邏輯、數論、代數、幾何、拓撲、函數論、泛函分析和微分方程等分支學科。當代數學的迅速發展使得這些分支學科間交叉與滲透的趨勢日益明顯,出現了許多新的研究領域和生長點。基礎數學不僅是其它應用性數學學科的基礎,而且也是自然科學、技術科學及社會科學等所必不可少的語言、工具與方法。高科技的發展及電子計算機的廣泛應用為基礎數學的研究提供了更廣闊的應用前景。
培養目標
本學科培養的碩士應是基礎數學方面的高層次的專門人才,具有比較扎實寬廣的數學基礎,了解本學科目前的進展與動向,並在某一子學科受到一定的科研訓練,有較系統的專業知識,初步具有獨立進行理論研究的能力或運用數學知識解決實際問題的能力,在某個專業方向上做出有理論或實踐意義的成果。較為熟練地掌握一門外國語,能閱讀本專業的外文資料。畢業後能從事與數學相關的科研、教學或其它實際工作。
就業前景
基礎數學專業是其他相關專業的基礎專業。此專業與其他很多學科具有緊密的聯系,這也就為本專業的畢業生在就業上進行轉行奠定了理論基礎,比如此專業的畢業生可以從事科研數據分析,統計,軟體開發,三維動畫製作等工作。但是此專業是偏重理論的專業,所以相對應用數學來講就業面相對較窄。
就業去向
1、 科技教育和經濟部門從事研究教學工作或在製造業生產經營及管理部門從事實際應用開發研究和管理工作。
2、 IT業職員、商務人員。
3、 教師。
相關職位
數學教師,數學模型師,數學學科教輔圖書編輯及編輯助理,數學研發工程師,數學編輯,數學證券投資模型程序設計,基礎軟體工程師,通信系統數學建模及理論分析研究員,數學學科編輯,奧數教師。
數學與應用數學專業考研方向2:應用數學
專業介紹
應用數學(學科代碼:070104)是數學下設的二級學科之一。應用數學是應用目的明確的數學理論和方法的總稱,研究如何應用數學知識到其它范疇(尤其是科學)的數學分枝,可以說是純數學的相反。包括微分方程、向量分析、矩陣、傅里葉變換、復變分析、數值方法、概率論、數理統計、運籌學、控制理論、組合數學、資訊理論等許多數學分支,也包括從各種應用領域中提出的數學問題的研究。計算數學有時也可視為應用數學的一部分。
培養目標
本學科培養的碩士應是應用數學方面的高層次的專門人才,具有比較扎實寬廣的數學基礎,了解本學科目前的進展與動向,並在某一應用方向受到一定的科研訓練,有較系統的專業知識,能熟練運用計算機及數學軟體,初步具有獨立進行理論研究的能力,或運用專業知識與有關專業人員合作解決某些實際應用問題的能力,在某個應用方向上做出有理論或實踐意義的成果。較為熟練地掌握一門外國語,能閱讀本專業的外文資料。畢業後能從事與應用數學相關的教學、科研或其它實際工作。
就業前景
應用數學專業屬於基礎專業,是其他相關專業的「母專業」。無論是進行科研數據分析、軟體開發、三維動畫製作還是從事金融保險,國際經濟與貿易、工商管理、化工制葯、通訊工程、建築設計等,都離不開相關的數學專業知識。
嚴密的邏輯思維能力,來自於深厚扎實的數學功底。可見數學與應用數學專業是從事其他相關專業的基礎。隨著科技事業的發展和普及,數學專業與其他相關專業的聯系將會更加緊密,數學專業知識將會得到更廣泛的應用。以數學專業或相其關專業為依託實現職業再選擇的人數佔87%。由於數學與應用數學專業與其他相關專業聯系緊密,以它為依託的相近專業可供選擇的比較多有數學系的專業是採用數學的方法分析解決金融、經管方面的問題。
畢業生能進行基礎數學理論研究或教學、應用軟體的設計與開發,就業主要是雙向選擇,自主擇業。主要到科技、教育和經濟部門從事研究、教學工作或在生產經營及管理部門從事實際應用、開發研究和管理工作。可在科研部門、政府部門、金融系統、高校、部隊、計算機軟體公司、通訊公司等企事業單位從事理論研究、計算機軟體系統的開發、設計和維護等工作。
就業去向
1、政府、銀行、保險公司從事精算有關的工作。
2、IT、地產、制葯等行業從事與數學相關工作。
3、高等院校或科研院所從事教學或研究工作。
4、各教育培訓機構從事數學相關教學或研發工作。
相關職位
數學教師,數學模型師,數學學科教輔圖書編輯及編輯助理,數學研發工程師,數學編輯,數學證券投資模型程序設計,基礎軟體工程師,演算法工程師,通信系統數學建模及理論分析研究員,數學學科編輯,奧數教師。
數學與應用數學專業考研方向3:學科教學(數學)
專業為專業碩士。專業碩士和學術學位處於同一層次,培養方向各有側重。專業碩士主要面向經濟社會產業部門專業需求,培養各行各業特定職業的專業人才,其目的重在知識、技術的應用能力。
本專業學生主要學習教育學、心理學、數學教學設計、數學課程教材分析、數學學習評價是、現代數學概論等其他課程。
數學與應用數學專業考研方向4:計算數學
專業介紹
計算數學(070102)是數學下設的一個二級學科。它主要研究有關的數學和邏輯問題怎樣由計算機加以有效解決。計算數學的內容計算數學也叫做數值計算方法或數值分析。主要內容包括代數方程、線性代數方程組、微分方程的數值解法,函數的數值逼近問題,矩陣特徵值的求法,最優化計算問題,概率統計計算問題等等,還包括解的存在性、唯一性、收斂性和誤差分析等理論問題。
培養目標
本學科培養的碩士應是計算數學方面的高層次的專門人才,具有比較扎實寬廣的數學基礎,了解本學科目前的進展與動向,並在某一子學科上受到一定的科研訓練,有較系統的專業知識,能熟練運用計算機進行數值演算法的程序設計,初步具有獨立進行理論研究的能力或與有關專業人員合作解決某些實際應用中的計算與軟體研製問題的能力,在某個專業方向上做出有理論或實踐意義的成果。
就業前景
隨著科技事業的發展和普及,數學專業與其他專業的聯系更加緊密,尤其是與計算機聯系的緊密型,使得數學專業知識將會得到更廣泛的應用,就業前景比較好。此專業的畢業生主要到學校、科研院所、金融行業、電信等部門從事數學研究與教育、圖形圖像及信號處理、自動控制、統計分析、信息管理、科學計算和計算機應用等工作。還可以自主創業,如開辦與數學相關的輔導培訓機構等。
相關職位
數學教師,數學模型師,數學學科教輔圖書編輯及編輯助理,數學研發工程師,數學編輯,數學證券投資模型程序設計,基礎軟體工程師,通信系統數學建模及理論分析研究員,數學學科編輯,奧數教師。
6. 進阿里巴巴工作對學歷有什麼要求
阿里巴巴對於很多人而言是國內首屈一指的互聯網公司,不僅是大神眾多,福利待遇更是不錯,對於不少找工作的人而言是一個好的地方,正所謂越好的公司入職要求就會越高。
想要進入阿里巴巴普通崗位要求本科以上學歷,部分崗位甚至要求碩士以上學歷,且畢業於985、211高等院校,如果你的學歷低,都不需要人選,直接機器就刷下去了。低學歷如果找朋友內推都很難有戲,由此可見學歷真的是進入大公司的敲門磚啊!
最近在職場論壇上看到這樣一個帖子:阿里巴巴員工自曝:大專學歷進入阿里,不是自己優秀,因為肯加班。小編看到這里很驚訝,本身大專學歷在一流的互聯網公司真的是鳳毛麟角,還直言自己不是優秀,僅僅是因為願意加班。
互聯網公司加班是家常日飯,但是也是極其注重效率的,不可能是廉價勞動力型的,光看網友的字面意思就是因為廉價加班所以才被錄入啊!果不其然就有其他網友直接留言問他:你是怎麼進入阿里巴巴工作的?本人回答:堅持不懈,不要臉。
這樣簡單的回答好多人沒有看懂,於是另外的網友繼續提問講詳細點,那個網友直接表示自己修了博士學位,看到這里小編瞬間就懂了,能從大專學歷到博士學歷,不花時間精修是做不到的,那個網友明顯是花時間在努力提升學歷,積攢工作經驗。
這樣肯付出時間去努力拚搏,然後在工作中遇到不足又願意加班去提升自己,放在哪個公司都是受老闆喜歡的。學歷只是前期敲門磚,實力與能力才是在職場生存的重要因素。
學歷低不要緊,放棄學習才是致命因素,之前我在抖音上面看到有小姐姐想去阿里巴巴,於是按照阿里巴巴的要求一項項的去提高自己的經驗與能力,歷時花費一年的時間。最後她真的成功收到了阿里的錄取通知書。
大公司情節現在很多人都有的,如果有就去實現吧!沒學歷的盡量去補個學歷,讓自己更具有競爭力,也是為了有進入大公司的門檻和資格。不然就去集贊經歷,有足夠的能力也可以進入大公司的,不過光有能力在面試那一關會相對而言更苛刻,世上無難事只怕有心人!
7. 阿里巴巴運籌優化演算法工程師工資多少
好羨慕你啊,工資不會低了
8. 進阿里巴巴工作對學歷有什麼要求
要求蠻高的。不過這個分情況。
1、如果你面試的是技術崗位,這個學歷加工作經驗,基本不可能。除非你業余做了很牛的事情,比如自己開發了個軟體什麼的;ps.阿里有外包工,轉正的機會也有,不過機會很少。而且阿里最近在精簡銷售團隊,原來負責賣誠信通的都轉到其他崗位,所以機會更少了;
2、如果面試的是克服等非技術類工作,主要是個人的:1、價值觀與阿里是不是相符。具體什麼六脈神劍什麼的價值觀,去學習;2、個人的性格特點、工作經驗等。3、學歷不是決定因素,但是,確實是很重要的因素。阿里對外宣傳的是,不拘一格降人才,但實際上即使是非211本科畢業的同學,比起211、985的同學,面試通過的成功率要低一些,或者要多經歷一些考驗步驟。
3、阿里非常注重新鮮血液,所以喜歡招收一些應屆畢業生,因為他們肯干,思維沒有固話。而社會招聘的人員非常少,大部分主要是靠獵頭以及推薦。ps如果你覺得自己夠強,網上發帖求助,讓阿里內部的員工幫你推薦一下,成功的幾率會高一些。
4、阿里也不是外面看的那麼輕松。加班文化很濃。而且是自願加班。不過,各種福利以及工作環境是不錯
9. 交通運輸專業考研的性價比如何
交通運輸專業准備考研的學生來答
首先我覺得交通運輸專業考研性價比較高
大學本科四年學的知識遠遠少於工作中需要的知識,所以在工作中也需要繼續學習。當然也有同學選擇繼續深造,在專業領域獲得更多的知識,知識水平更高。考研不只是使自己的能力提高,同時也是高薪工作的敲門磚。
這些學校專業的師資力量以及學校能給予你的鍛煉平台也是考研的好處。考研是很值得的,一心堅持,難度因人而異,說句實在話,根據你自己的實力可達到的高度選擇相應難度的學校,考研就會有高性價比。
希望回答能對你有幫助。
10. 如何快速成為數據分析師
接下來我們分別從每一個部分講講具體應該學什麼、怎麼學。
數據獲取:公開數據、Python爬蟲
如果接觸的只是企業資料庫里的數據,不需要要獲取外部數據的,這個部分可以忽略。
外部數據的獲取方式主要有以下兩種。
第一種是獲取外部的公開數據集,一些科研機構、企業、政府會開放一些數據,你需要到特定的網站去下載這些數據。這些數據集通常比較完善、質量相對較高。
另一種獲取外部數據費的方式就是爬蟲。
比如你可以通過爬蟲獲取招聘網站某一職位的招聘信息,爬取租房網站上某城市的租房信息,爬取豆瓣評分評分最高的電影列表,獲取知乎點贊排行、網易雲音樂評論排行列表。基於互聯網爬取的數據,你可以對某個行業、某種人群進行分析。
在爬蟲之前你需要先了解一些 Python 的基礎知識:元素(列表、字典、元組等)、變數、循環、函數(鏈接的菜鳥教程非常好)……以及如何用成熟的 Python 庫(urllib、BeautifulSoup、requests、scrapy)實現網頁爬蟲。如果是初學,建議從 urllib 和 BeautifulSoup 開始。(PS:後續的數據分析也需要 Python 的知識,以後遇到的問題也可以在這個教程查看)
網上的爬蟲教程不要太多,爬蟲上手推薦豆瓣的網頁爬取,一方面是網頁結構比較簡單,二是豆瓣對爬蟲相對比較友好。
掌握基礎的爬蟲之後,你還需要一些高級技巧,比如正則表達式、模擬用戶登錄、使用代理、設置爬取頻率、使用cookie信息等等,來應對不同網站的反爬蟲限制。
除此之外,常用的的電商網站、問答網站、點評網站、二手交易網站、婚戀網站、招聘網站的數據,都是很好的練手方式。這些網站可以獲得很有分析意義的數據,最關鍵的是,有很多成熟的代碼,可以參考。
數據存取:SQL語言
你可能有一個疑惑,為什麼沒有講到Excel。在應對萬以內的數據的時候,Excel對於一般的分析沒有問題,一旦數據量大,就會力不從心,資料庫就能夠很好地解決這個問題。而且大多數的企業,都會以SQL的形式來存儲數據,如果你是一個分析師,也需要懂得SQL的操作,能夠查詢、提取數據。
SQL作為最經典的資料庫工具,為海量數據的存儲與管理提供可能,並且使數據的提取的效率大大提升。你需要掌握以下技能:
提取特定情況下的數據:企業資料庫里的數據一定是大而繁復的,你需要提取你需要的那一部分。比如你可以根據你的需要提取2018年所有的銷售數據、提取今年銷量最大的50件商品的數據、提取上海、廣東地區用戶的消費數據……,SQL可以通過簡單的命令幫你完成這些工作。
資料庫的增、刪、查、改:這些是資料庫最基本的操作,但只要用簡單的命令就能夠實現,所以你只需要記住命令就好。
數據的分組聚合、如何建立多個表之間的聯系:這個部分是SQL的進階操作,多個表之間的關聯,在你處理多維度、多個數據集的時候非常有用,這也讓你可以去處理更復雜的數據。
數據預處理:Python(pandas)
很多時候我們拿到的數據是不幹凈的,數據的重復、缺失、異常值等等,這時候就需要進行數據的清洗,把這些影響分析的數據處理好,才能獲得更加精確地分析結果。
比如空氣質量的數據,其中有很多天的數據由於設備的原因是沒有監測到的,有一些數據是記錄重復的,還有一些數據是設備故障時監測無效的。比如用戶行為數據,有很多無效的操作對分析沒有意義,就需要進行刪除。
那麼我們需要用相應的方法去處理,比如殘缺數據,我們是直接去掉這條數據,還是用臨近的值去補全,這些都是需要考慮的問題。
對於數據預處理,學會 pandas 的用法,應對一般的數據清洗就完全沒問題了。需要掌握的知識點如下:
選擇:數據訪問(標簽、特定值、布爾索引等)
缺失值處理:對缺失數據行進行刪除或填充
重復值處理:重復值的判斷與刪除
空格和異常值處理:清楚不必要的空格和極端、異常數據
相關操作:描述性統計、Apply、直方圖等
合並:符合各種邏輯關系的合並操作
分組:數據劃分、分別執行函數、數據重組
Reshaping:快速生成數據透視表
概率論及統計學知識
數據整體分布是怎樣的?什麼是總體和樣本?中位數、眾數、均值、方差等基本的統計量如何應用?如果有時間維度的話隨著時間的變化是怎樣的?如何在不同的場景中做假設檢驗?數據分析方法大多源於統計學的概念,所以統計學的知識也是必不可少的。需要掌握的知識點如下:
基本統計量:均值、中位數、眾數、百分位數、極值等
其他描述性統計量:偏度、方差、標准差、顯著性等
其他統計知識:總體和樣本、參數和統計量、ErrorBar
概率分布與假設檢驗:各種分布、假設檢驗流程
其他概率論知識:條件概率、貝葉斯等
有了統計學的基本知識,你就可以用這些統計量做基本的分析了。通過可視化的方式來描述數據的指標,其實可以得出很多結論了,比如排名前100的是哪些,平均水平是怎樣的,近幾年的變化趨勢如何……
你可以使用python的包 Seaborn(python包)在做這些可視化的分析,你會輕松地畫出各種可視化圖形,並得出具有指導意義的結果。了解假設檢驗之後,可以對樣本指標與假設的總體指標之間是否存在差別作出判斷,已驗證結果是否在可接受的范圍。
python數據分析
如果你有一些了解的話,就知道目前市面上其實有很多 Python 數據分析的書籍,但每一本都很厚,學習阻力非常大。但其實真正最有用的那部分信息,只是這些書里很少的一部分。比如用 Python 實現不同案例的假設檢驗,其實你就可以對數據進行很好的驗證。
比如掌握回歸分析的方法,通過線性回歸和邏輯回歸,其實你就可以對大多數的數據進行回歸分析,並得出相對精確地結論。比如DataCastle的訓練競賽「房價預測」和「職位預測」,都可以通過回歸分析實現。這部分需要掌握的知識點如下:
回歸分析:線性回歸、邏輯回歸
基本的分類演算法:決策樹、隨機森林……
基本的聚類演算法:k-means……
特徵工程基礎:如何用特徵選擇優化模型
調參方法:如何調節參數優化模型
Python 數據分析包:scipy、numpy、scikit-learn等
在數據分析的這個階段,重點了解回歸分析的方法,大多數的問題可以得以解決,利用描述性的統計分析和回歸分析,你完全可以得到一個不錯的分析結論。
當然,隨著你實踐量的增多,可能會遇到一些復雜的問題,你就可能需要去了解一些更高級的演算法:分類、聚類,然後你會知道面對不同類型的問題的時候更適合用哪種演算法模型,對於模型的優化,你需要去學習如何通過特徵提取、參數調節來提升預測的精度。這就有點數據挖掘和機器學習的味道了,其實一個好的數據分析師,應該算是一個初級的數據挖掘工程師了。
系統實戰
這個時候,你就已經具備了數據分析的基本能力了。但是還要根據不同的案例、不同的業務場景進行實戰。能夠獨立完成分析任務,那麼你就已經打敗市面上大部分的數據分析師了。
如何進行實戰呢?
上面提到的公開數據集,可以找一些自己感興趣的方向的數據,嘗試從不同的角度來分析,看看能夠得到哪些有價值的結論。
另一個角度是,你可以從生活、工作中去發現一些可用於分析的問題,比如上面說到的電商、招聘、社交等平台等方向都有著很多可以挖掘的問題。
開始的時候,你可能考慮的問題不是很周全,但隨著你經驗的積累,慢慢就會找到分析的方向,有哪些一般分析的維度,比如top榜單、平均水平、區域分布、年齡分布、相關性分析、未來趨勢預測等等。隨著經驗的增加,你會有一些自己對於數據的感覺,這就是我們通常說的數據思維了。
你也可以看看行業的分析報告,看看優秀的分析師看待問題的角度和分析問題的維度,其實這並不是一件困難的事情。
在掌握了初級的分析方法之後,也可以嘗試做一些數據分析的競賽,比如 DataCastle 為數據分析師專門定製的三個競賽,提交答案即可獲取評分和排名:
員工離職預測訓練賽
美國King County房價預測訓練賽
北京PM2.5濃度分析訓練賽
種一棵樹最好的時間是十年前,其次是現在。現在就去,找一個數據集開始吧!!