Twitter從Recsys 2020挑戰中學到了什么

本文作者： AI研習社-譯站

2020-12-06 09:06

導語：Twitter 圖學習研究負責人 Michael Bronstein 親述。

譯者：AI研習社（聽風1996）

雙語原文鏈接：What Twitter learned from the Recsys 2020 Challenge

ecommender系統是現代社交網絡和電子商務平臺的重要組成部分。它們旨在最大限度地提高用戶滿意度以及其他重要的商業目標。與此同時，在以根據用戶興趣定制內容為目的來建立新模型基準測試時，缺乏供學界研究使用的大規模的公共社交網絡數據集。而在過去的一年里，我們努力解決了這個問題。

Twitter與RecSys會議展開合作以支持2020挑戰賽。在兩周的時間里，我們發布了一個包含推文和用戶參與度組成的數據集，其中有1.6億條公開推文用于訓練，4000萬條公開推文用于驗證和測試。

在這篇文章中，我們描述了數據集以及Nvidia、Learner和Wantely團隊提交的三個獲獎作品。我們試圖對幫助獲獎者取得成績的選擇做出一般性的結論，特別是:

以最快的實驗速度用于特征選擇和模型訓練

有利于泛化的對抗驗證[1]
上下文特征的使用
在神經網絡上使用決策樹

我們希望這些研究結果對更廣泛的研究界有用，并啟發推薦系統的未來研究方向。

挑戰賽的參與者被要求預測用戶參與四種互動中任何一種互動的可能性：贊、回復、轉發和引用tweet。我們根據以下兩個指標對提交的作品進行評估：相對于我們所提供的簡單基準方法的相對交叉熵（RCE），以及Precision-Recall曲線下的面積（PR-AUC）。

Twitter從Recsys 2020挑戰中學到了什么

隨時間的變化的訓練、測試和驗證數據集的表示

我們要特別注意（我們所使用的）維持數據集需與Twitter平臺同步。數據集反映了平臺上的變化，例如，當其中的一條推文被刪除，有用戶將其個人資料變為私有或完全刪除。所以提交的數據就會被重新評估，排行榜也會根據重新計算的指標進行更新[2]。

數據集的特征表示。它們分為用戶特征（針對作者和讀者）、推文特征和參與度特征。

今年的挑戰賽競爭尤為激烈，注冊用戶超過1000人。在整個挑戰過程中，參賽者積極提交解決方案，并在挑戰的第一階段（根據提交指南）修改了他們的團隊組成。最后階段有20個競爭者，平均團隊規模為4名成員。此外，各隊總計設計了127種不同的方法，來嘗試贏得挑戰比賽。在整個挑戰過程中，參賽者的活躍度很高，在最后幾天，參賽者對提交的作品進行了改進，達到了做最優性能。最終的結果出現在排行榜上。

與之相伴的RecSys Challenge 2020研討會收到了12篇論文，程序委員會對這些論文進行了審閱。其中9篇論文被接受。

Twitter從Recsys 2020挑戰中學到了什么

數據集的特征表示。它們分為用戶特征（針對作者和讀者）、推文特征和參與度特征。

與之相伴的RecSys Challenge 2020研討會收到了12篇論文，程序委員會對這些論文進行了審閱。其中9篇論文被接受。

第一名：英偉達

GPU Accelerated Feature Engineering and Training for Recommender Systems.

Nvidia的論文[3]描述了訓練xgboost模型來預測每個交互事件?？傮w的關注點在于為該模型生成有用的特征。文章強調快速提取特征和模型訓練是該方法成功的關鍵。本文在附錄中提供了4種模型中每種模型的15個最有用的特征列表。

從數據集中快速提取特征并進行再訓練是冠軍和亞軍的關鍵區別。特征工程流程和訓練流程的運行時間都不到一分鐘。除此之外，對不同的分類特征和特征組合采用目標編碼（均值編碼+加法平滑），包括這些組合的目標均值。作者還從推文的內容中創建了分類特征（如最受歡迎的兩個詞和最不受歡迎的兩個詞）。用于特征重要性評估和選擇的對抗性驗證通過選擇更通用的特征來防止過擬合。采用基于樹模型的集成方法用于生成最終模型。

第二名：Learner

Predicting Twitter Engagement With Deep Language Models.

Learner[4]融合了深度學習與梯度提升決策樹（GBDT），并專注于不同特征的創建。作者使用啟發式方法設計了467個特征，并使用BERT和XLM-R生成了推文的文本表示（同時使用了目標Twitter文本以及最近參與的Twitter文本）。

該條目與其他條目的關鍵區別在于使用了預訓練的自然語言處理（NLP）模型BERT和XLM-R，并進行了微調。第一層的微調是以無監督的方式進行的。接下來，將語言模型與其他特征結合以有監督的方式進行微調。。該模型是一個多層感知機（MLP），有四個頭，每個頭代表一種參與類。本文還引入注意力機制生成了用戶過去十次互動的嵌入向量。以目標推文為關鍵，利用注意力機制對每個的嵌入向量進行組合。此外，還使用了啟發式特征，如參與用戶、推文創建者、推文特征和用戶與創建者交互特征的不同表示。與其他條目一樣，本文使用xgboost進行特征工程和選擇，并將Yeo-Johnson transformation應用于分類特征和非標準化連續特征。

第三名：Wantely

A Stacking Ensemble Model for Prediction of Multi-type Tweet Engagements.

Wantely的投稿[5]提出了一種預測tweet參與度的兩階段方法。第一階段的分類器是輕量級的，只使用在不同目標（Like、Retweet等）中通用的特征，并且具有相似的訓練/測試精度。第二階段分類器將輕量級分類器的輸出與特定于目標的特征一起用作特征。

上游的通用模型生成下游模型所需的特征。作者認為，通過這樣的方式，每種參與類型的下游模型都可以從所有其他參與的數據中受益。除此之外，除此之外，如Nvidia條目所示，本文通過對抗性驗證直接評估訓練和測試數據集之間的特征分布差異，從而確定了哪些特征是可通用的。

在所有提交的論文中，有許多相同的見解。我們重點介紹以下主題：

勝出模型中使用的有用特征—目標編碼是王道。首先，目標編碼（用目標變量的平均值替換分類變量）使問題變得更簡單。它同時用于用戶和作者id，因此編碼了用戶的平均參與率。其次，使用了大量特征交叉[6]。

快速實驗進行特征選擇。快速檢驗許多假設的能力一直是數據科學競賽中不可或缺的一部分，并再次證明在這一挑戰中具有決定性作用。Nvidia團隊能夠在GPU上運行整個流程。這讓他們只需2分18秒就能訓練出一個模型（包括特征工程），而在CPU上則需花費數小時。

通過對抗性驗證來應對過度擬合。比賽選手常用的一種技術是建立一個判別器來預測訓練和測試/驗證集之間的差異。根據模型選擇特征時使用的重要性分數，通過去除最重要的特征，可以幫助模型更好地泛化。此技術有助于避免訓練數據過擬合。

上下文特征的使用。今年的數據集和之前的數據集的一個重要區別是我們提供的上下文特征。在三篇獲獎論文中，有兩篇對基于上下文特征的BERT進行了復雜的使用。NLP中的深度學習方法已經證明了它對推薦系統的有用性，盡管我們認為在這個領域還有更多的改進空間。

決策樹與深度學習。梯度增強決策樹（GBDT）的一個顯著優勢是，無需對單個特征的尺度進行歸一化和計算。這使得所有勝出論文的迭代速度更快。

在計算機視覺和NLP等領域，深度學習模型已經通過利用CNNs和transfomer展示了令人印象深刻的進展?；谶@一挑戰的結果，我們仍然不明白在推薦系統中什么構成良好的深度學習架構。我們呼吁研究界共同尋找推薦器系統的最佳深度學習架構。

我們也注意到，雖然我們只對提交的模型的性能進行了評估，但在生產系統中還有許多其他限制。對我們來說，延遲是一個大問題：模型需要在毫秒內對推文進行評分。在這種情況下，需要仔細檢查集成方法的使用。集成中每一步的附加延遲都可能會導致它們對我們的目標來說太慢。

我們感謝所有參與者和我們的同事使這得一挑戰成為可能。我們相信，發布大規模數據集將有助于解鎖推薦系統領域的新進展。Twitter現在比以往任何時候都致力于幫助外部研究，并且最近為學術研究人員發布了新的API端口，以幫助促進進一步的探索和合作。

[1] J. Pan et al. Adversarial validation approach to concept drift problem in user targeting automation systems at Uber (2020) arXiv:2004.03045. Introduces adversarial validation, a powerful technique used by several participants.

[2] L. Belli et al. Privacy-Aware Recommender Systems Challenge on Twitter’s Home Timeline (2020) arXiv:2004.13715 provides the details about the challenge and the dataset.

[3] B. Schifferer et al., GPU Accelerated Feature Engineering and Training for Recommender Systems (2020). Proc. Recommender Systems Challenge 2020. Nvidia’s submission, also described in their blog post.

[4] M. Volkovs et al., Predicting Twitter Engagement With Deep Language Models (2020). Proc. Recommender Systems Challenge 2020. Learner’s submission.

[5] S. Goda et al., A Stacking Ensemble Model for Prediction of Multi-Type Tweet Engagements (2020). Proc. Recommender Systems Challenge 2020. Wantely’s submission.

[6] The full list of features with importance for different objectives like Retweet/Reply is available in the appendix of the Nvidia paper.

AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作，通過提供學習、實戰和求職服務，為AI學術青年和開發者的交流互助和職業發展打造一站式平臺，致力成為中國最大的科技創新人才聚集地。

如果，你也是位熱愛分享的AI愛好者。歡迎與譯站一起，學習新知，分享成長。

Twitter從Recsys 2020挑戰中學到了什么