數據不夠，是模型表現不佳的“借口”，還是真正的問題所在？

本文作者：張大倩

2020-06-22 10:26

導語：數據量真的是項目的限制因素嗎？

“如果我能獲得更多的訓練數據，我的模型精度就會大大提高”，“我們應該通過API獲得更多的數據”，“源數據質量太差，我們無法使用”。

這是很多工程師在模型表現不力時給出的一些解釋或者理由。

數據作為機器學習或分析項目的基礎，雖然現在擁有的可用數據比之前要多，但是數據不足或者數據類型不匹配等問題并不少見。

然而如何知道這些問題是真正的問題點還是僅僅是借口呢？換句話說，如何發現數據是否是項目的限制因素？

那就需要，查找數據瓶頸！

一般來說，主要可以從以下三個方面來調整數據：

深度：增加數據點的數量
廣度：增加數據源的多樣性
高質量：整合混亂的數據！

數據不夠，是模型表現不佳的“借口”，還是真正的問題所在？

一：從數據深度上下功夫

這種方式不需要改變數據結構，而是新增數據點。

你不能一直控制數據點（例如：你不能輕易地新增用戶），但是至少可以在某些方面一直控制這個點。

在下面這幾個不同的情況下，增加數據量是很有用的。

1、A/B測試或實驗

如果你正在運行一個實驗，需要足夠的數據點來實現結果統計的意義，而需要多少個數據點，還受到其他因素的影響，例如：誤差范圍、置信區間和分布的方差。對于要進行的每一個實驗，都有一個最小數據量閾值：如果已經達到這個閾值，則可以繼續進行下一步，因為再增加數據點已經起不到任何作用了。否則，數據將會成為實驗的瓶頸。下面這篇博文對此進行了很好的概述：

https://towardsdatascience.com/how-do-you-know-you-have-enough-training-data-ad9b1fd679ee

2、機器學習中的預測精度

如果你正在運行的是一個預測模型，預測精度會隨著數據量的增加而提高，但是這個精度會達到某個“飽和”點，如何去發現是否已經達到這樣的一個點呢？你可以用不同數量的訓練數據點來重新訓練模型，然后根據數據量繪制預測精度。如果曲線沒有變平，則模型可能從額外增加的數據進一步受益。

數據不夠，是模型表現不佳的“借口”，還是真正的問題所在？

來源：Kim 和 Park 在 researchgate 上發表的文章

https://www.researchgate.net/publication/228784109_A_Survey_of_Applications_of_Artificial_Intelligence_Algorithms_in_Eco-environmental_Modelling）

3、賦能深度學習

雖然傳統的機器學習模型可以在較小的數據量下運行，但是模型越復雜，它需要的數據量就越多，到最后，如果沒有大量的數據作為支撐，深度學習模型就無法運行。對機器學習模型來說，大數據是一種需求，而不是提高性能的好方法。

4、分析和思路

即使你沒有將數據用于預測，但是想要豐富報告或者進行一次分析來證實你的決策，數據量仍然有可能會成為預測的瓶頸。不過如果你的數據具備許多異構性，并且你還能夠從不同的粒度層級上對其進行分析，增加數據量便是正確的做法。例如你有一個龐大的銷售隊伍，銷售的產品范圍非常寬泛，每一個銷售人員可能只銷售產品中的一個子集。如果你想比較他們在銷售某一特定產品方面的能力，可能就無從比較了。