More  

小編的世界 優質文選 網路

如何申請創建數據分析項目組合


2020年8月26日 - 網路小編 52sissi 
   

在深入探討如何組合投資組合之前,讓我們看一下其中的原因。

為什麼大數據分析項目至關重要

老板不會付錢給你做你從未做過的事情。這是任何行業的勞動力市場的基本規則,大數據分析也不例外。確實,這很合乎邏輯:你會去以前從未煮過的廚師的餐廳嗎?還是登上從未有過高空飛行的飛行員駕駛的飛機?可能不是。

無論你是要從全日制學習,其他職業過渡到大數據分析,還是只是想嘗試另一種大數據分析工作,你都將需要經驗。即使對於入門級職位,如果一項工作需要技能,你也需要能夠證明自己可以做到,然後再有人付錢去做。

但是大多數入門級申請人在大數據分析領域幾乎沒有專業經驗。那麼,如何證明自己具備工作所需的技能呢?項目組合項目。項目組合將替代你的工作申請中的工作經驗。它向潛在的雇主表明你確實可以完成你所申請的大數據分析工作。

實際上,項目可能是應用程序中最重要的部分,因為它們會在流程的每個階段出現。他們將在你的簡曆中提及,並鏈接到你的申請中,你可以期望它們在許多求職面試中也發揮重要作用。我們在創建本指南時與之交談的大多數招聘人員說,他們在篩選候選人時會審查項目和項目組合,但他們也在面試中談到了這些項目。

可能會要求你解釋你在數據分析項目中所做的統計選擇,或者通過你的代碼與招聘經理交談。可能會詢問你在小組項目中與他人合作的經曆,或將特定項目組合在一起時遇到的挑戰。

招聘人員告訴我們,他們有時會使用項目來評估從應聘者的技術能力到對主題的熱情程度等各個方面。沒有該領域的專業經驗,你可能不得不在招聘過程的各個階段嚴重依賴項目,因此,正確選擇它們至關重要。

你的投資組合需要證明什麼

確切地說,你需要在投資組合中展示的內容取決於你所申請的工作。在市場營銷中尋找數據分析師職位的人應該擁有一系列突出市場營銷相關分析技能的項目。尋找機器學習工程師職位的人最好擁有一系列令人印象深刻的機器學習項目。

但是,無論你要尋找什麼角色,都要記住的口頭禪是:你的作品集應證明你可以勝任這項工作。

做工作並不僅僅意味著證明你具有技術能力。對於大多數與數據相關的職位,你將希望自己的投資組合能夠證明自己擁有:

1)交流能力

2)與他人合作的能力

3)技術能力

4)推理數據的能力

5)主動的動機和能力

另外值得指出的是,這個詞你在“證明你可以做的工作”是非常重要的。你的投資組合項目應該是唯一的。

投資組合的重點,在很大程度上是整個申請流程的指導原則,能夠證明你的工作方式易於驗證。如果你選擇炫耀一些常用的東西並且已經有現有的教程,對於我作為招聘經理來說,很難評估你是否實際上做了很多工作和思考,或者你是否只是在做簡單的事情?然後是通用教程。

包含在大數據分析產品組合中的項目

大數據分析檔案包應包含3-5個項目,這些項目應展示你與工作相關的技能。再次,這裏的目標是證明你可以勝任這項工作,因此,你的投資組合看起來越像你所申請工作的日常工作,就越有說服力。

不要僅僅選擇隨機的項目進行處理,就可以將其添加到你的簡曆或投資組合中。解決與你感興趣的公司有關的問題。

這適用於你在項目中執行的任務類型,也適用於項目檢查的主題領域以及正在使用的數據集類型。讓我們仔細看看這三個因素:

任務類型:在你要申請的工作中,你需要做哪些事情?你會做很多數據清理嗎?機器學習?數據可視化?自然語言處理?你將嚴格執行分析,還是為他人構建儀表板和其他分析工具?無論這些問題的答案是什麼,都應將它們集成到你的產品組合中。

主題領域:你是否正在尋找市場營銷職位?你可能需要突出顯示旨在回答與營銷相關的問題的項目。如果你正在移動應用程序開發中尋找數據工作,那麼你將需要展示可以證明你可以從應用程序數據中獲取有用的產品見解的項目。使用項目表明你對與所申請工作相關的主題和業務問題有所了解,或者至少對之感興趣,可以幫助你的應用程序脫穎而出。

數據集類型:不同行業中可能會使用不同類型的數據,因此表明你具有一些與工作中所見相似的數據處理經驗,有助於證明你已具備完成數據准備工作的能力。工作。例如,如果你可能正在查看目標工作中的大量時間序列數據,則有助於在你的投資組合中展示一些時間序列分析技能。

如有疑問,請包括以下項目:

你的投資組合針對所申請的特定工作越仔細地量身定制,就可能獲得更好的結果。但是,如果你要申請入門級職位,那麼你的職位可能會很寬泛,並且你可能還會考慮那些需要很多相同技能的職位,而不論其行業如何。如果你將一個投資組合與至少一個以上類別的項目組合在一起,那麼你將有一個很好的起點。

數據清理項目:數據准備,數據,整理,數據清理–不論你想稱它什麼,它都占大多數大數據分析工作的60-80%,因此,你肯定需要一個展示你的數據清理技能的項目。至少,你將希望找到一個淩亂的數據集(不要選擇任何已經清除的數據),提出一些有趣的分析問題進行檢查,然後清除數據並進行一些基本分析以回答這些問題。問題。

如果你想在這裏提高難度,那麼收集自己的數據(通過API,網絡抓取或其他方法)將展示一些其他技能。使用某種非結構化數據(與淩亂但靜止的結構化數據集相對)也看起來不錯。

數據講故事和可視化項目:講故事,提供真實的見解以及用數據說服他人是任何大數據分析工作的關鍵部分。如果你無法讓CEO理解或采取行動,那麼最好的分析就是沒有用的。這個項目應該使讀者進行分析,並得出結論,即使對於只有很少編碼或統計學背景的外行來說,也是可以理解的。

數據可視化和交流技巧在這裏將很重要,以顯示和解釋你的代碼在做什麼。以Jupyter Notebook或R Markdown的形式呈現此圖標是很好的,但是你可能需要增加一些額外的難度,例如自定義圖表設計或包括一些交互式元素。

小組項目:小組合作表明你具有溝通和協作能力,這兩種技能對於大數據分析工作都很重要。任何類型的項目都可以是小組項目;這裏重要的是要證明你可以在團隊中以人際關系(清晰的溝通,公平的分工,真正的協作)和技術(在Git和GitHub管理項目)中發揮作用。

如果你想在這裏解決難題,請嘗試參與一個受歡迎的開源項目,例如以你選擇的語言為與大數據分析相關的開源庫做出貢獻。這可能非常困難,但是如果你確實設法為受歡迎的庫或程序包做出了貢獻,那麼實際上可以使你的應用程序在雇主中脫穎而出。

其他要考慮的項目類型

端到端系統構建項目:許多大數據分析工作可以包括構建系統,這些系統可以有效地分析常規數據集的輸入,而不是分析單個特定的數據集。例如,你可能需要為銷售團隊建立一個儀表板,以可視化公司的銷售數據並在輸入新數據時定期進行更新。

該項目應表明,你有能力構建一個系統,該系統可以對輸入的新數據集執行相同的分析,還可以構建一個可以被其他人相對輕松理解和運行的系統。最簡單的版本是注釋良好的代碼,可以從定期更新的公共數據集中獲取數據並進行一些分析。它的README文件應說明其他人如何使用它,並且該項目應相對容易讓其他編碼人員通過命令行運行。

如果你想在這裏加大難度,那就無極限了:你可以構建功能完善的交互式Web儀表板,或者構建處理實時/流數據的系統。這裏的關鍵只是表明你可以構建一個可重用的分析系統,並且其他人或至少其他程序員可以理解。

解釋性文章,文章或談話:能夠以簡單易懂的術語解釋複雜的技術概念對於任何大數據分析家來說都是一項寶貴的技能,因此在博客文章,文章或會議談話中解釋一些技術概念可能是一個很好的補充如果做得好,就可以加入你的投資組合。只要確保選擇一個適當複雜的主題,並且你理解並可以解釋即可。例如,一篇博客文章解釋了在你的目標行業中經常使用的機器學習算法的幕後情況,這很可能包含在產品組合中。

項目組合項目格式和演示

既然你已經對要包含在投資組合中的內容有所了解,那麼應該如何呈現呢?實際上只有兩種通用方法:和個人投資組合網站。

我們與該項目進行交流的每位招聘人員都同意,申請人應具有可顯示其項目的有效GitHub帳戶,因此,如果你希望獲得廣泛的吸引力,那絕對是你應該開始的地方。一些招聘人員說,他們對投資組合網站上精心設計的項目介紹印象深刻,但另一些招聘人員則說,他們不太關心單獨的投資組合網站,只會看候選人的GitHub。

因此,從准備好GitHub開始是有意義的。

大數據分析項目的GitHub

如果你還不了解GitHub的基礎知識,請查看此介紹性博客文章或有關Git和版本控制的完整,交互式課程,以使自己起步並運行。如果你要創建一個新的GitHub帳戶,請確保選擇一個專業的用戶名(用戶名是公開的,這是潛在雇主找到你的方式)。

一旦在GitHub上進行設置,好消息就是你的項目演示不必特別複雜:對於大多數項目來說,以Jupyter Notebook或R Markdown格式展示你的項目都是不錯的選擇。

在項目本身中,請嘗試使代碼塊相對較短,並在其中插入文本塊,以清楚,簡潔地說明代碼在做什麼以及原因。使用文本格式(標題和副標題,粗體,斜體,代碼段等)使內容井井有條,易於閱讀。

你應該始終假設知道自己在說什麼的人都可以閱讀你的代碼。這意味著你應該嘗試使用你的語言命名約定,遵循首選的樣式,並嘗試保持代碼高效,整潔。

這也意味著,只要你認為對代碼有幫助,就應該在代碼中添加注釋,這樣一眼便可以看到發生了什麼。(在團隊中進行協作時,對代碼進行注釋是特別重要的實踐,因此包含使代碼易於遵循的良好注釋也說明了良好的溝通和團隊合作能力。)

在你的代碼中需要注意的其他一些潛在的跳閘點:

1)如果你是在本地創建的項目,則可能已對數據的文件路徑進行了硬編碼,以便你的代碼讀取計算機上存儲數據的特定目錄。對於公共項目,最好將數據與筆記本(或子文件夾)保存在同一文件夾中,以便你可以包括一個相對路徑,該路徑將適用於下載存儲庫並運行代碼的任何人。

2)你可能需要包括有關任何軟件包的信息以及所用外部軟件包和庫的版本詳細信息,以使其他人更容易下載和運行你的代碼。有關如何執行此操作的更多信息,請參見此處。

3)如果你要使用API密鑰或其他訪問憑據從某處提取數據,則不想公開共享這些憑據!這篇文章包括一個很好的演練,介紹了如何在保持他人私密性的同時仍使其他人輕松使用你的代碼。

4)如果要包括在項目存儲庫中使用的數據,則應檢查以確保你具有合法的再分配權。

你應該始終README在每個項目中包括一個通常為Markdown格式的文件,其中包含對該項目的簡要說明。這是GitHub在有人查看你的項目存儲庫時默認顯示的文件,因此它應該提供他們將要看到的內容的概述。這可能包括詳細信息,例如你的項目分析的內容,該項目的目標是什麼,使用的技術以及結論的摘要。它還應包括其他人可能需要自行安裝和運行你的項目的任何信息。

GitHub要記住的重要一件事是,它將向所有人顯示查看你個人資料的所有公共存儲庫,並且還將顯示你的所有貢獻活動。這意味著你需要保持帳戶幹淨和有效。對於潛在的雇主來說,點擊進入你的個人資料並找到數百個被放棄的項目將是一件令人討厭的事情,如果潛在的雇主在過去幾個月中實際上沒有做任何事情,那將是令人討厭的事情。

遵循這些原則,請記住,將項目添加到GitHub後,這些項目並不是一成不變的。即使你正在申請工作,也可以並且應該繼續對它們進行迭代。如果你獲得有用的反饋(或者只是想出了一個好主意),那麼在已經發布的項目中實施這些更改就沒有錯。實際上,繼續迭代你的項目是一個好主意-它向你的雇主表明你很活躍,感興趣並且從事與雇用你相同的工作。

准備GitHub的最後一步?確保將其鏈接到雇主可能找到你的所有地方。如我們的履曆章節所述,履曆上應該有一個可點擊的GitHub鏈接,但你還想確保在你使用的任何社交網站(LinkedIn,Twitter,Instagram,個人網站等)上都包含一個GitHub鏈接,並包含你提交的帶有任何在線申請表的URL。你想讓尋找你的人盡可能輕松地找到你的GitHub。

下一級:專用項目或項目組合站點

一旦啟動並運行了活動的GitHub,可能值得花一些時間為你的一個或多個項目組合一個更加獨特的演示文稿。並非每個招聘經理都會花時間查看專門的項目頁面或特殊的投資組合網站,但是對於某些人來說,多花些功夫會引人注目。

總的來說,你想要的是視覺效果,” SharpestMinds的愛德華·哈裏斯(Edouard Harris)說。“理想情況下,你已經在某處的服務器上運行了某些東西。

最佳的情況是:你正在開會(與業內人士交談),你巧妙地將對話引向了你所構建的這個很酷的東西的方向。然後,你可以拿出手機,就像:簽出。玩吧。就在這裏。”

擁有一個基於網絡的視覺或交互式數據項目“發出了一個非常好的信號。它發出一個信號,表明此人足夠了解服務器的設置。這是一筆不小的工作。<此人知道如何操作>使界面足夠漂亮,以便人們可以使用它。這些都是真實的,有價值的東西。

顯然,為項目創建一個專用站點,尤其是交互式站點,比在GitHub上簡單地投放Jupyter Notebook所需的時間要多幾個數量級。但是,盡管它需要更多的前期投資,但從長遠來看,它確實可以帶來紅利,特別是如果你在活動中親自進行並親自結成網絡(應該如此)時。在擁擠的會議大廳中,如何申請創建數據分析項目組合https://www.aaa-cg.com.cn/data/2593.html要給在手機上滾動瀏覽GitHub的人留下深刻的印象,斜眼並嘗試讀取你的代碼。清晰,可視,基於數據的故事或交互式項目可以給人留下深刻的印象。

僅出於啟發目的,這是一個非常直觀的數據故事的示例,這是一個很酷的交互式數據項目的示例。這些只是為了激發靈感–不用擔心,入門級求職者不可能達到這種水平的打磨質量。但是你可以看到為什麼要親自進行網絡連接,擁有一個像這樣的項目來炫耀,比嘗試讓別人瀏覽你喜歡的GitHub存儲庫更具影響力。

項目資源

至此,你知道了為什麼需要項目組合。你知道哪些項目應包括在投資組合中,以及如何展示它們。現在,困難的部分來了:實際執行項目。

你選擇的項目會根據你的個人興趣和目標工作角色而有很大差異。但是,如果你需要一個良好的起點,那麼實際上我們所有的大數據分析課程都包括開放式指導項目。如果你需要一些時間來適應它們並使其成為自己的產品,那麼這些對投資組合可能會很有用,並且它們也將是有用的靈感來源。例如,你可以在我們網站上的一個指導項目中工作,然後找到一個新的數據集,並嘗試對自己的投資組合項目應用類似的分析。

以下是一些其他資源,當你將新項目放在一起或在求職之前回頭對舊項目進行改進和迭代時,這些資源可能會有所幫助:

數據源

對於任何項目,最重要的選擇之一就是要分析哪些數據。如果你想使用現有的公共數據集,則最好避免從Kaggle這樣的網站上大受打擊-Kaggle上的流行數據集將在數百個項目中使用,並且雇主會討厭看到它們。

確保你正在做的事情完全與眾不同,最好的方法是獲取自己的數據集,而不是下載別人編譯的數據。兩種最簡單的方法是通過網絡抓取或通過訪問API。

AAA教育提供了涵蓋API和Web抓取的課程,並且我們還提供了一些免費教程,供你使用BeautifulSoup等工具進行Web抓取和使用API。例如,你可以訪問Twitter API並使用它來實時分析推文(我們也有相應的教程)。

如果你真的想加倍努力,還可以通過執行自己的調查或手動收集數據等方法來收集數據。收集自己的數據非常耗時,但是如果這是獲取有趣且獨特的數據集的唯一方法,那麼以後可以通過獨特的分析創建的“哇”因素將值得你付出所有這些痛苦。

並且不要忘記,你可能會生成大量自己的數據-使用計算機和智能手機,你可以收集有關自己的各種數據,從生產力水平到睡眠習慣。走這條路線可能會有風險(你不希望以自我為中心,而且你的個人數據可能不會像其他人那樣對你感興趣),但是你肯定有一些方法可以從自己的角度來處理數據成為具有廣泛吸引力的有趣的大數據分析項目。

設計資源

項目完成後,使其脫穎而出的最簡單方法之一就是升級可視化效果,以使招聘人員不會在許多其他大數據分析產品組合中看到“默認”外觀。

有多種方法可以使用代碼進行此操作-例如,查看有關如何在Python中獲得FiveThirtyEight圖表外觀的教程。但更一般而言,將一些基本設計原則應用於你的工作將幫助你的圖表脫穎而出,並更清楚地講述其故事。

以下是一些其他有用的數據可視化資源:

1)Data Viz Project的大型圖表類型庫非常適合提醒自己各種圖表類型,並幫助你找到適合數據的最佳圖表類型。

2)Hubspot的數據可視化設計PDF具有一些針對特定類型的圖表進行設計的非常有用的技巧。

3)我們自己的數據顏色指南,深入介紹了在選擇顏色時應考慮的事項。

4)Geckoboard提供了可打印的海報,如果你需要一些基於牆的靈感和設計幫助,可以將其掛在辦公室中。

5)加州大學伯克利分校(UC Berkeley)在數據背景下有30分鐘的圖形設計視頻,如果你有時間投入其中,這將非常有幫助。

靈感來源

有時,你只需要一點火花就可以開始一個項目,或者給你一個使項目從優到高的想法。你可以在這裏找到真正出色的大數據分析項目:

1)FiveThirtyEight-數據新聞業的擁護者538不斷發布有關政治和體育的基於數據的新工作。他們還發布了許多數據,因此你可以嘗試對他們的某些工作進行反向工程。

2)信息就是美麗獎 -該網站每年都會獎勵各種基於數據的項目類別的獎項,但它們還會在全年中定期發布重大項目的重點摘要。

3)數據是美麗的 -此subreddit主持了業餘和專業大數據分析項目以及可視化。你也可以在那裏共享你自己的項目,以獲得其他reddit用戶的反饋。

4)Kaggle -Kaggle競賽是找到完整的大數據分析項目的好地方(查找已完成的競賽,然後瀏覽最受好評的“內核”。這裏的好處是你可以看到整個項目,包括所有代碼。

5)國家報紙的大數據分析團隊-主要的國家和國際報紙以及其他媒體組織經常有“數據”部分,你可以在其中找到有趣的大數據分析工作的結果。在某些情況下,他們也有GitHub帳戶,他們也可以在其中共享項目和/或數據。

相關推薦

共享單車數據分析的SQL數據庫設計

大數據分析R為什麼要學習SQL知識

大數據分析R語言7種數據可視化方式

人工智能機器學習的慘痛教訓

大數據分析為什麼要學習R中的線性建模