ACM 通訊：為什么社會計算學并不等于「計算機科學+社會數據」

本文作者： WBLUE

編輯：楊曉凡

2018-03-31 13:05

導語：本文觀點是關于計算機科學和社會科學之間的差異，以及它們對計算社會學的影響。本文作者：漢娜·沃勒克(漢娜@dirichlet.net)

雷鋒網 AI 科技評論按：隨著機器學習的發展和流行，有越來越多的領域開始嘗試借助機器學習的力量解決領域內的原有問題。比如社會科學的問題現在就可以把機器學習作為工具，從而衍生出「社會計算學」。那么社會計算學是否等于「計算機科學+社會數據」呢？這篇發表在 ACM 通訊 2018 年 3 月刊的文章就解析了其中的區別。

本文作者 Hanna Wallach 是微軟研究院的高級研究員，馬薩諸塞大學阿姆赫斯特分校的副教授。雷鋒網 AI 科技評論全文編譯如下。

ACM 通訊：為什么社會計算學并不等于「計算機科學+社會數據」

「計算社會科學」

本文觀點是關于計算機科學和社會科學之間的差異，以及它們對計算社會學的影響。先說結論：重點點很簡單，盡管機器學習被大肆炒作，但它并不是一個一勞永逸的解決方案。如果我們要用機器學習并以負責任和道德的方式研究社會現象，我們仍然需要社會科學家。

我是一名受訓的機器學習研究員。我最近的工作與傳統的機器學習相差甚遠，可以說與之相反，我的側重點是社會計算學——使用數字化信息和數理統計方法來研究社會現象。

舉個例子，假如您想知道諸如亞馬遜或 Netflix 等網站上的活動是來自于推薦還是來自于其他因素，你可以構建一個統計模型來估計觀測數據之間的因果聯系，例如對于單個產品或者單個電影頁面來說，基于推薦的訪問次數、總的訪問次數都是如何隨時間變化的。

或者，假如你對于參議員在特定問題上的投票模式感興趣，想知道他們何時和為何偏離了他們所屬黨派和意識形態原本的期待。解決這個問題，你可以利用國會投票歷史和相應的法案文本，對每個參議員基于事件的意識形態的調整進行建模。

又或者，假設你想研究美國的教師聘用制度是否是反映系統社會不平等的層級的證據。您可以使用數千名終身職位教職員的職位來模擬大學之間聘用關系的隨時動態。

意料之中，解決這些問題需要跨學科的方法，的確，社會計算學正是計算機科學，統計學和社會科學的交叉點。

對我而言，從傳統的機器學習轉移到這個跨學科的空間意味著我需要在與機器學習相關的算法黑盒子之外進行思考，而不是把注意力放在開發和使用機器學習方法對社會真實數據進行分析中所涉及的機遇和挑戰上。

這個觀點反映了這些機遇和挑戰。在解釋機器學習應用于社會科學與其應用于其他領域的不同之處之前，我圍繞三點構建了我的討論：目標，模型和數據。

目標

當我第一次開始從社會計算學工作時，我一直在聽計算機科學家和社會科學家之間的談話，我不明白為什么會有「我搞不明白——這怎么研究呢？」這樣的對話。但后來當我讀到加里·金和丹·霍普金斯這兩位政治科學家的這句話時，我認為，這才是抓住了兩種研究脫節的核心：「計算機科學家可能有興趣做大海撈針的事情，例如通過搜索顯示正確的網頁來展示研究結果，但社會科學家的關注點更多的在于描述大海撈針的特點。

換句話說，我一直聽到的對話是因為計算機科學家和社會科學家通常追求的是兩種完全不同類別的目標。

計算機科學家和社會科學家通常追求的目標屬于兩個完全不同的類別。

第一類目標是預測。預測是指使用觀察到的數據來推斷缺失的信息或未來的、尚未觀察到的數據。使用 King 和 Hopkins 的術語來說，這些是「找到針」的任務。一般來說，計算機科學家和決策者對他們最感興趣。果然，傳統的機器學習一直專注于預測任務——例如圖像分類，識別手寫體，以及玩象棋和圍棋等游戲。

第二類任務是解釋。這里的重點是「為什么」或「如何」的問題——換句話說，為觀察到的數據找到合理的解釋。這些解釋可以與已有的理論或先前的發現進行比較，或者用于產生新的理論。因此解釋任務是「描述大海撈針」的任務，一般來說，對它是最感興趣的社會科學家。因此，社會科學家受過訓練，可以用清晰的、可測試的假設來構建細致的研究問題。例如，女性是否一直被排除在工作圈的長期戰略規劃之外？如果政府組織知道他們的同行組織已經遵守公共記錄要求，他們是否更有可能一樣遵守？

模型

這些不同的目標——預測和解釋——會導致非常不同的建模方法。在許多預測任務中，重點不在于因果關系，而在于預測準確性。換句話說，我們不關心為什么一個模型能夠做出好的預測；我們只關心它怎么做。因此，預測模型很少需要解釋，這意味著它們的結構幾乎沒有限制，它們可以是由大量數據訓練而來的任意復雜的黑盒子。例如，一個「深度」神經網絡 GoogLeNet 使用 22 個圖層和數百萬個參數將圖像分類為 1000 個不同的類別。

相反，解釋任務基本上與因果關系有關，其目標是使用觀察到的數據來提供支持或反對因果關系的依據。因此，解釋模型必須是可說明的。它們的結構很容易地將研究者感興趣的點與世界現有的理論知識聯系起來。因此，許多社會科學家利用貝葉斯統計模型——一種表達先驗概率，不確定性和明確建模假設的方法。

換言之，預測模型通常旨在替代人類解釋或推理，而解釋模型旨在告知或指導人類推理。

數據

除了追求不同的目標，計算機科學家和社會科學家通常還會處理不同類型的數據。計算機科學家通常與大規模的數字化數據集打交道，這些數據集除了用于「機器學習研究」這件事自身之外，別無它用。相反，社會科學家通常使用策劃收集的數據來回答具體問題。由于這個過程需要大量人工勞動力，所以這些數據集一般都是小規模的。

但是，這也是社會計算學背后的推動力之一——由于互聯網，我們現在有各種機會獲得以前沒法學習的記錄各種社會現象的大規模數字化數據集。例如，我的合作者 Bruce Desmarais 和我想對地方政府通信網絡進行數據驅動的研究，重點關注當地政治行為者如何與大家進行溝通。事實證明，美國大多數州都有模仿聯邦信息自由法的陽光法。這些法律要求地方政府歸檔文本記錄（包括許多州的電子郵件），并根據要求向公眾披露。

因此，Desmarais 和我向北卡羅來納的100個縣政府發出了需要提供公共記錄的請求。要求每個縣的部門領導提供隨機選擇的三個月時間內發送和接收到的所有非私人電子郵件信息。出于好奇,我們也決定借此機會進行現場隨機試驗來測試，當縣政府知道了和他們同等級的政府成員在履行了對于公眾信息的請問之后是否更樂意去履行同樣的請求。

就平均而言，我們發現那些被告知他們的同行已經履行過的那些縣會花更少的時間來答復我們的請求，并且更有可能完成它。最終，我們收到了來自25個不同縣政府的50多萬封電子郵件。

挑戰

很明顯，像這樣的新機會是極好的。但這些機會也帶來了新的挑戰。其中最引人注目的是，人們很容易說，「為什么不把這些大規模的社會數據集與計算機科學家提出的強大的預測模型結合在一起呢?」。然而，與傳統的計算機科學家使用的數據集不同，這些新的數據集通常是關于人們日常生活的——他們的屬性，他們的行為，以及他們的互動。這些數據集不僅記錄了大規模的社會現象，而且通常是基于個人顆粒度級的和秒到秒的行為。因此，他們提出了一些關于隱私、公平和責任的復雜倫理問題。

從媒體上可以清楚地看到，機器學習最讓人害怕的一件事是在社會環境中使用黑盒預測模型。在這種情況下，有可能弊大于利。可以確信的是這些模型會增強現有的結構性偏見，并且邊緣化歷史地位處于弱勢的群體。

結論

對我來說，這是一條重要的前進道路。顯然，機器學習是非常有用的，尤其是機器學習對于社會科學來說是很有用的。但是我們必須將我們對待用于社會科學的機器學習的方式和用于類似手寫識別或者下象棋的機器學習的方式區別開來。我們不能只把機器學習方法應用到黑盒里，那樣的話社會計算科學就只是計算機科學和社會數據的疊加了。我們需要透明度。我們需要區分解釋能力——甚至在預測環境中。我們需要進行嚴格的、詳細的錯誤分析。我們需要質疑。但是，最重要的是，我們需要與社會科學家合作，以了解我們的建模決策背后的倫理意義和影響。

via Communications of the ACM, Vol. 61 No. 3, Pages 42-44，雷鋒網 AI 科技評論編譯

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

2人收藏

WBLUE

知情人士

發私信

當月熱門文章