發布時間:2020-05-13 08:32:11來源:魔方格
當別人在高談闊論機器學習時,你卻插不上嘴,這是一種怎樣的體驗?不懂機器學習沒有關系,但你一定要知道下面的十個機器學習基本常識。曾經在Endeca、谷歌和LinkedIn機器學習開發的Daniel Tunkelang為我們概括總結了這十個常識。
1. 機器學習就是從數據中挖掘洞見,而人工智能是炒作。
只要使用了正確的訓練數據和算法,機器學習可以解決大部分問題。而所謂的人工智能,只不過是一種包裝。只要有助于營銷,你要把它叫作什么都可以。
2. 數據和算法是機器學習的核心,而數據更為重要。
雖然人們熱衷于研究機器學習算法,但數據才是機器學習的關鍵要素。機器學習可以沒有復雜完備的算法,但沒有高質量的數據就不行。
3. 如果你沒有大量數據,就不要使用太復雜的模型。
機器學習根據輸入參數來探索模型空間,參數越多,越有可能出現過擬合,所以應該要盡量遵循簡單模型的原則。
4. 機器學習的成果取決于數據的質量。
種瓜得瓜,種豆得豆。機器學習只能發現已經存在于數據中的模式。比如在解決分類問題時,就要求訓練數據具有清晰的特征。
5. 只有當訓練數據具有代表性時,機器學習才能奏效。
過去不能代表未來。要時刻警惕訓練數據和生產數據之間出現傾斜,經常性地訓練數據,避免數據模型過時。
6. 機器學習困難的部分其實是數據轉換。
機器學習的大肆炒作可能會給你造成一種印象,就是機器學習主要是如何選擇和調整算法。但實際上,機器學習工作的大部分時間花在了數據清理和特征工程上,也就是將數據的原始特征轉換成更具表示性的特征。
7. 深度學習是革命性的,但不是銀彈。
深度學習對部分傳統的特征工程進行了自動化,特別是在圖像和視頻處理領域。但深度學習不是銀彈,我們無法在它擅長的領域之外應用它,況且,我們仍然要花很多精力進行數據清理和轉換。
8. 機器學習系統也是高度脆弱的。
機器學習算法不會干掉人類,干掉人類的是人類自己。機器學習系統如果出現故障,通常都不是因為機器學習算法本身,而是人類在訓練數據中引入了錯誤。要時刻警惕,軟件工程中出現的錯誤在機器學習系統中同樣會出現。
9. 機器學習可能在無意之中創造出可自我實現的預言。
今天通過機器學習做出的決策,將會影響未來收集到的訓練數據。如果你在機器學習系統中嵌入了某種偏見,它會持續不斷地生成新的訓練數據,這些數據反過來增強了這種偏見,而有些偏見會毀掉人類的生活。所以,不要讓機器學習系統有機會創造出可自我實現的預言。
10. 人工智能不會自我感知,也不會崛起到要干掉人類。
很多吃瓜群眾從科幻電影中看到人工智能。但要注意,我們可以從科幻電影中獲得靈感,但它們畢竟不是現實,我們真正要擔心的是人類無意識地在機器學習系統中嵌入偏見。