目錄為什麼要學習數據科學為什麼用 MOOC入門數據科學網站推薦更多的學習網站結語先做一個簡單的自我介紹:某 985 大學自動化在讀,即將本科畢業去美國就讀金融科技碩士。一年以前我還是一個連機器學習是什麼都不知道的小白,隻上過 C 語言和數據結構兩門編程基礎課,通過下面的網站一步步自學 Python、SQL 以及機器學習的各種方法,成功入門數據科學。下面是我在學習過程中使用的和瞭解的有關數據科學的網站,每個網站都配有自己的經歷或者相應的介紹,每個網站也給出瞭相應的價格,希望可以幫你快速入門數據科學,從容應對這波數據浪潮。為什麼要學習數據科學在今天,隻要你身處互聯網,就一定能頻繁聽到大數據、機器學習、人工智能等字眼。數據科學已經深入產業界,銀行、保險、零售行業等都在使用機器學習方法為自己的商業運作賦能,機器學習等數據科學方法代替人的新聞也層出不窮,即使我們應該保持冷靜、克制焦慮,但科技的大趨勢我們也不能視而不見。從職業發展來說,學習數據科學或許可以讓你在今後的發展中占得先機,在這波科技浪潮中取得優勢;從個人角度來說,未來數據分析是必不可少的,將來明白如何利用數據可能就和今天明白如何使用電腦一樣稀松平常,掌握數據分析的一些技能或許可以讓你生活地更有效率。What is Data Science?為什麼用 MOOC盡管數據科學炒的火熱,想要入門一門學科絕非一件容易事。縱使有些網站有著系統的培訓班,動輒 1000 大洋以上的報班費真的傷不起;而對著網上的免費資料自學,從各種公眾號免費獲取到 10 個 G 的資料,但大多資料凌亂且沒有體系,永遠都是放在硬盤裡「吃灰」;對著各種工具書學,雖然系統但難免概念的堆砌,有時候看完所有基礎操作也做不完一個完整的項目。我個人覺得學習數據科學這類需要實際操作的學科,最好的方式是learning by doing,即在學完瞭一個方法後要立馬實際操作並感受,哪怕不報錯地完成一個最簡單的項目也會有極大地自信心。所以我認為,網站和 MOOC 類學習是學習數據科學最好的方式。在看完或者閱讀完教程後,這些課程也會留有相對的作業,通過一個一個章節的學習,會不斷鞏固基礎,也完成一個一個的項目。入門數據科學網站推薦下面這些 MOOC 類網站都是英文網站,按推薦順序排序。我經過對比之後,發現相比於國內的學習網站,這些英文網站課程質量會更好,有些完全免費,有些需要付費但價格著實不貴,性價比都比較高。別擔心,這些課程的英文難度都不會太高,很多都配有字幕,有些網站甚至有中文翻譯。利用英文網站學習,一方面可以學到質量更高的課程,另一方面還能潛移默化地鍛煉英語,何樂而不為呢。(但有些可能科學上網速度會更快。)DataCamp.comDataCamp 是一個互動性的 MOOC 網站,視頻類的講解偏少,更多的是文字直接指導你進入實戰項目。同時 DataCamp 也是我最推薦的數據科學入門網站,從 Python 與 R 的基礎講解到數據處理流程,從機器學習到深度學習,它都有涉及。如果沒有時間嘗試不同的 MOOC,認真刷完它的一個 Career Track 就夠用瞭。DataCampDataCamp 有以下三個特點:直接開始上手做:不像通常的 MOOC 是視頻講解後課下留作業,DataCamp 確實做到瞭讓你在做的過程中學習,如下圖:左邊是指導性文字,右邊是你需要填寫的 code。這樣做可以說把 learning by doing 做到瞭極致DataCamp 學習界面不用在自己電腦上安裝 Python 或 R 的環境:網站上有雲端的運行環境,寫完代碼後直接提交就可以看到結果瞭,可以說非常省心省力。作為經歷瞭小白階段的我,可以說非常理解裝環境的痛苦。代碼還沒寫一行,裝環境就費瞭半天勁。有例如 Anaconda 的集成包順利安裝完還好說,要是出瞭什麼問題網上一搜全是用命令行,很多寫的又不詳細,完全不知道每個命令是幹嘛的,還沒入門就已經放棄。但在這個網站學習完全不用擔心這些事,先學習代碼如何寫,完整地寫一個項目入門,那些裝環境的瑣碎事情等到深入瞭解瞭再做也不遲。幫你預先安排好瞭課程列表:網站將一個個課程打包為 Skill Tracks 和 Career Tracks ,如下圖。不論你是想學 Python 還是 R,想成為數據分析員還是數據科學傢,隻用找到相應的 Track 點進去跟著學就好瞭,不用再糾結下一步學什麼技能。當然,這些列表是靈活的,你完全可以跳過某個 Track 的一些課程。DataCamp 的 Career Track 界面同時,DataCamp 還提供瞭一些語言(如 Python)、工具(如 Jupyter Notebook)以及各種包(如 NumPy、Pandas、Matplotlib)的 cheatsheet(小抄) ,簡潔而美觀。價格:一些課程免費,解鎖全部課程 $25 / 月。Coursera | Machine Learning Specialization – University of WashingtonMachine Learning Specialization – University of Washington 是入門機器學習的優質課程,由華盛頓大學兩位教授主講。此課程是一個系列,原本總共有 6 個 course,分別講解機器學習基礎(Machine Learning Foundations)、回歸(Regression)、分類(Classification)、聚類(Clustering)、矩陣分解(Matrix Factorization)、深度學習(Deep Learning)。每個 Course 大約 6 個章節,每個章節學習時間大約 3 小時。Machine Learning Specialization此課程最有特色的地方,是用第一個 Course:Machine Learning Foundations 統領接下來 5 個 Course,每個章節對應著接下來 5 個 Course,用最簡單的案例和現成的工具,利用上述的 5 種機器學習方法分別完成 5 個項目。也就是說,在第一課裡你就完整地利用機器學習解決瞭一個個現實的問題,然後再在接下來的 5 個課中深入學習每一個機器學習的方法。我對這種自頂向下的學習方式的方式完全贊同,因為一開始我就宏觀瞭解瞭該用什麼方法解決什麼問題,而不是學瞭一堆命令卻不知道解決問題的流程;而且經過第一個 Course 的學習,會有極大地成就感,因為每次都成功完成瞭一個項目,接下來會更想瞭解這個現成工具是怎麼制作的,也就更想深入剖析機器學習的各種方法。Course 的每周內容但是為什麼說是原本有 6 個 Course 呢,因為現在這個系列隻有 4 個 Course 瞭…… 教授老爺子課程開發到一半跳票瞭,據說是因為他開發的 Trui 軟件包被蘋果收購以後忙得沒時間開發完課程瞭。不過別擔心,即使隻有前四個課程,回歸、分類和聚類依舊是機器學習的重頭,學完四個課程會掌握絕大部分的機器學習技術。如果時間有限想快速入門,建議學習第一個課程,同樣會比較全面地瞭解機器學習的各種方法,同時也能利用軟件包解決一定的問題。對比大名鼎鼎的吳恩達的機器學習課程,這個機器學習可能更適合小白,同時課程內使用 Python 這一對新手更加友好的語言,而吳恩達的課程用的是 MATLAB,所以華盛頓大學的課程更適合入門機器學習。依托於 Coursera 這一大平臺,課程每個視頻都配有英文文稿,部分視頻有中文字幕,相信學習起來更易上手。價格:免費旁聽(選擇課程時點 Audit),上完課後拿證書要付費。Udemy | Complete Python BootcampComplete Python Bootcamp: Go from zero to hero in Python 3 是入門 Python 比較推薦的課程,導師講解很細致,邊編程邊講,從 Python 最基礎的數據結構、到函數和方法,再到模塊和類,內容安排很合理,且每章都有作業可以檢測自己的學習。Complete Python Bootcamp 主頁不過此課程是關於 Python 語言的課程,將 Python 作為開發語言完全講解,實際上應用到數據科學的 Python,隻用上到此課程的 Module & Package 就足夠瞭,剩下的有興趣也可以繼續學習,但在數據科學中可能應用不大。價格:RMB 100 元左右。課程內的視頻Khan Academy (可汗學院)Khan Academy 主頁我在 Khan Academy 上學的 SQL 基礎用法。同 DataCamp 一樣,代碼可以直接在這個網站上運行,無需本地安裝環境。上課過程中互動性也很強,同時運用積分制讓你每完成一個項目都會有成就感。可汗學院對於數據科學的課程較少。但其本身有著非常全面的課程,從計算機科學到人文社科都有。在計算機科學的門類中也有不少基礎課,課程也比較通俗易懂,適合復習基礎或拓展知識面。價格:完全免費。課程內學習過程:左邊是代碼,右邊是結果更多的學習網站上述四個網站是我親身體驗過並用來入門數據科學的網站。在學習過程中也同樣搜集瞭別人推薦的網站,但還沒來得及體驗,以下列出來供感興趣的朋友們點擊。DataquestDataquest 是以文字教程為主的網站,也是邊看邊學,與 DataCamp 很相似,有興趣的朋友可以探索一下。價格:$29 / 每月。Udacity (優達學城)Udacity 內所有的課程都是和 IT 有關的,更 Geek 一點,不像 edX 或者 Coursera 還有人文社科類的課程。Udacity 優點是課程有體系化,有針對某個職位的專項課程,對職業發展比較友好;但價格真的不便宜,一般一個納米學位都要上千大洋。網站內也有免費的課程,同時大多數課程都有中文版。價格:課程費用不等,都在幾千左右。Udacity 主頁edXedX 由麻省理工學院和哈佛大學共同創建,與 Coursera、Udacity 並稱為 MOOC 三巨頭。其實光看 edX 開課的大學列表就挺震撼的瞭,可以說足不出戶也可以享受頂級大學的課程。關於數據科學,根據網上的評價推薦下面的課程系列:Complete Python Bootcamp 主頁Data Science – Harvard University哈佛大學推出的數據科學系列課程 Data Science – Harvard University,共包含 9 個課程,主要使用的是 R 語言。順便提一下,哈佛大學才新增瞭 Data Science 的碩士學位,2018 年秋季是第一批學生入學,從側面也可見數據科學的發展。Harvard’s Data Science CertificateMicrosoft Professional Program in Data Science微軟推出的數據科學課程 Microsoft Professional Program in Data Science,課程內容比較全面,有 Python 和 R 語言兩條支線,可以任選一條完成課程,當然也可以都掌握。同時也將 Excel 以及自傢雲平臺 Azure 融合進課程,用微軟系的朋友可以更多關註一下。Microsoft Data Science Program價格:edX 所有課程都是免費的,不過上完課程要獲取證書需要付費。CourseraApplied Data Science with Python Specialization密歇根大學的系列課程 Applied Data Science with Python Specialization,據說對新手比較友好,共 5 個 Course,從基礎到機器學習以及深度學習都有介紹,比較全面。密歇根大學的數據科學課程Machine Learning – Stanford University這門課程 由大名鼎鼎的斯坦福教授吳恩達主講,很多人就是沖著這個名號去學習這門課程的。此課程很全面的講解瞭機器學習的各個部分,也會有很多案例應用。但是課程全程用的是 Matlab,並不是用現在數據科學最主流的 Python 和 R,從這方面來講對新手來說可能不是很友好,建議有瞭一定機器學習基礎後再用這門課補課。大名鼎鼎的斯坦福機器學習課程Deep Learning Specialization同樣是吳恩達領銜的深度學習課程 Deep Learning Specialization,共有 5 個 Course,包括神經網絡和卷積神經網絡。在 Coursera 上的深度學習課程價格:所有課程均可免費旁聽(點 Audit),獲取證書需付費。Brilliant.orgBrilliant.org 是我偶然間從 Instagram 推薦的廣告上發現的網站,網站制作精良,多是數學與科學的主體。網站試圖以最簡單的方法出傳達科學知識,絕對是不可多得的好網站。同時也有人工智能與機器學習的主體,但應該更偏重理論,有興趣的朋友可以瞭解一下。同時這個網站還有同名 app:Brilliant。Birlliant 主打課程,多與數學及物理相關價格:基礎課程免費,其他需要付費結語以上就是我用來入門數據科學的網站以及在學習過程中搜集到的感興趣的網站,分享出來供想要入門的朋友參考。數據分析是一個趨勢,且不說忽視它會不會被淘汰,但掌握它絕不是一件壞事,畢竟技多不壓身。在入門數據科學時,看書或許有點沉悶,上線下的培訓課或許又太花時間,而這些 MOOC 課程既讓你可以自由安排時間學習,也更好地發揮瞭多媒體的優勢,讓你 Learning by doing。你隻需要靜下心來沉浸於英語的環境,並加上一點耐心,挑出自己喜歡的課程系列並持續學下去,相信你會在未來擁有更高的起點。
本文出自快速备案,转载时请注明出处及相应链接。