用技術杜絕劇透，2020 新賽事「IMDB 影評劇透檢測」上線！

本文作者：楊鯉萍

2019-12-31 18:10

導語：讓我康康是誰在劇透？

每次說到劇透，相信很多朋友和我一樣，心底都泛起了陣陣憂傷。

最近有部火熱的劇《慶余年》，那陣容、那演技、那劇情，真是每一集都一波三折，時刻牽動著觀眾的心弦，讓人欲罷不能。

用技術杜絕劇透，2020 新賽事「IMDB 影評劇透檢測」上線！

然而，在我們還沉浸在對故事劇情的 YY 中時，有人在網上劇透了大結局！這就相當于奧特曼打怪獸時直接甩出大招，于是怪獸被秒殺。故事仿佛還沒開始就已經結束，這讓我們這些影迷一時根本無法接受！

正因如此，AI 研習社的大賽管理員們想出了全新的應對策略，何不利用現有的技術來做出識別劇透類影評的初步 demo——「劇透判別器」呢？

用技術杜絕劇透，2020 新賽事「IMDB 影評劇透檢測」上線！

文字識別與檢測背景

文字作為載體和線索，在很多情況下，能夠提供比圖像更多的信息。因此，作為計算機視覺中一個重要的研究課題，文字檢測和識別也隨深度學習的興起和發展，一起進入了全新的時代。

用技術杜絕劇透，2020 新賽事「IMDB 影評劇透檢測」上線！

從技術的角度而言，文字檢測通常是通過算法計算判斷在單詞或者文字行層面是否含有文字實例（如果有，則標出位置）的過程；而文字識別則更進一步，它會在文字檢測基礎之上，再將文字區域轉化為計算機可讀取和編輯的符號。

用技術杜絕劇透，2020 新賽事「IMDB 影評劇透檢測」上線！

目前，文字檢測與識別主要存在三個方面的重大挑戰，即：場景文字的多樣性（如文字的顏色、大小、方向、語言、字體等）、圖像背景的干擾（與文字相似的其它物體）以及圖像本身質量（噪聲、模糊、非均勻光照等）缺陷帶來的問題。

文字識別與檢測算法

從上面的介紹來看，文字識別與圖像識別其實大同小異，都需要先抓取對象，再進行判斷識別。具體而言，給定一張圖像，我們需要找出這張圖中文字出現的位置，再對位置框中文字類型進行分類。

用技術杜絕劇透，2020 新賽事「IMDB 影評劇透檢測」上線！

因此，我們可以采用目標檢測網絡來進行文本檢測，如 Faster RCNN。但由于文本與物體之間有很多不同特征，如：文字形式、邊緣輪廓、間隔等，該技術應用于文字檢測中的實際效果并不是特別理想。于是在此基礎上，更多適用于文本檢測的方法出現了。

用技術杜絕劇透，2020 新賽事「IMDB 影評劇透檢測」上線！

CTPN（Connectionist Text Proposal Network）

這一深度神經網絡很好的解決了文本檢測中一大難點，即：文本行的長度變化問題，并能夠生成更好的 text proposal。

具體而言，CTPN 提出了一個全新的想法，將文本檢測的任務拆分。首先，我們檢測文本框中的一部分，判斷其是否為文本內容；然后我們將屬于同一文本框的每個小文本框合并，從而得到一個完整的文本框，最終完成文本檢測任務。

用技術杜絕劇透，2020 新賽事「IMDB 影評劇透檢測」上線！

除此之外，CTPN 還提出在文本檢測中加入 RNN 來進一步提升效果。雖然 RNN 常用于序列模型；但在 CTPN 算法中，組成完整文本框的多個小文本框也可以屬于序列模型，因此使用 RNN 模型可以利用過去或未來的信息來學習和預測，從而提升識別效果。

詳細論文參考：
https://arxiv.org/abs/1609.03605

SegLink

盡管 CTPN 文本檢測方法能夠在自然場景下較好的實現對文字的檢測，但在處理非水平文本時，該算法則表現出了不太理想的效果。SegLink 正是為了解決這一問題而生出的算法，它可以實現對各種角度文字的靈活檢測。

用技術杜絕劇透，2020 新賽事「IMDB 影評劇透檢測」上線！

該算法的檢測過程主要分為三部分，首先檢測生成的各個切片，即上圖中的所有黃色框；接著對這些屬于同一個文本行的黃色框進行連接；最后再通過合并算法，將這些切片與鏈接合并為一個完整的文本行，得到完整文本行的檢測位置及旋轉角度。整個架構采取了 SSD 的思路，在切片檢測上，通過「套框」的方式，對結果進行回歸。

詳細論文參考：
https://arxiv.org/abs/1703.06520

IMDB 影評劇透檢測

盡管檢測算法有些難度，但本次 AI 研習社（https://god.yanxishe.com/）推出的比賽主要考驗的是大家的識別編碼能力，賽題將重心落在了判斷部分。

用技術杜絕劇透，2020 新賽事「IMDB 影評劇透檢測」上線！

本次大賽「IMDB 影評劇透檢測」的目標為：正確識別測試集影評是否為包含劇透信息。因此，不必要考慮文字不工整、圖像清晰度差等更復雜的問題。

開始時間：2019-12-30 09:00:00
結束時間：2020-01-29 00:00:00

大賽提供了免費云訓練 GPU 資源，以及基礎獎金池為 2000 元~比賽一共設置了三種獎項，包括了：參與獎（30%）、突破獎（20%）、排名獎（50%），三種獎項互不沖突。

數據集說明

IMDB_movie_details 數據集里，包含 1572 部電影信息，train 和 test 都是影評信息，其中訓練集有 473913 條，測試集有 100000 條。測試集、訓練集正負樣本比例一致。

其中，一些關鍵字段說明如下：

movie_id : 電影 ID
user_id: 用戶 ID
review_id: 影評 ID
review_summary: 影評簡介
review_text: 影評信息
is_spoiler: 是否劇透
review_data: 評論時間
rating : 評分

建議使用 Pandas 讀取數據，如下所示：

用技術杜絕劇透，2020 新賽事「IMDB 影評劇透檢測」上線！

數據集下載鏈接：
https://static.leiphone.com/IMDB.zip

評審標準

最終提交結果文件如下所示，其中，第一個字段：測試集 review_id，ID 從 0 開始;；第二個字段：評論是否包含劇透信息，0=沒有，1=劇透。

用技術杜絕劇透，2020 新賽事「IMDB 影評劇透檢測」上線！

整個比賽的評審完全透明化，我們將會對比選手提交的 csv 文件，確認正確識別樣本數量，按照如下公式計算得分，其中：

True：模型分類正確數量
Total ：測試集樣本總數量

用技術杜絕劇透，2020 新賽事「IMDB 影評劇透檢測」上線！

每日 24:00，我們也會將最新結果更新在官網排行榜上。

常見問題 Q&A

1、提交結果無法評分是什么原因？

AI 研習社：請確認 csv 文件格式和預測樣本數量。格式要求不能含有引號、冒號、逗號、星號等字符。數量必須與測試集一致。檢查完畢還是無法評分的，請聯系慕慕。

2、提現遲遲不到賬如何處理？

AI 研習社：我們會在 3 個工作日內處理提現申請，后續還要經過財務審核，一般不會超過 7 個工作日到賬。提現具體進度可以咨詢慕慕。

3、為何 SkyDataLab-AI 云平臺使用時長受限或沒有權限使用 GPU？

AI 研習社：想享有 SkyDataLab-AI 云平臺資源（不限時長、GPU）的使用權限，需通過每個比賽的報名鏈接進行跳轉，即在每個比賽的開始時間和結束時間期間內，均享有該權限，這是天數 SkyDataLab-AI 云平臺給 AI 研習社提供的服務。

PS：通過一般注冊方式登錄平臺的用戶，只能免費使用 20 小時，且無 GPU 使用權限

4、SkyDataLab-AI 平臺上傳大數據時，瀏覽器為何會崩潰？

AI 研習社：正常情況下，大數據不建議通過瀏覽器上傳，因為會導致瀏覽器內存崩潰。

因此，針對超過 20M 的大數據，可通過如下方式上傳：

sftp -P 59999 用戶名 @sdl.iluvatar.com.cn

5、SkyDataLab-AI 平臺新創建的任務/之前創建的任務在啟動時，為何一直顯示處于啟動狀態？

AI 研習社：由于該平臺為多名用戶提供環境，資源為共享模式。當任務一直處于啟動狀態時，說明資源緊張，所申請的資源需要排隊等待。

PS：以上情況多存在于啟動帶 GPU 的環境時，由于 GPU 資源有限，且大部分編碼時間并不會使用 GPU，因此，建議在編碼階段創建非 GPU 的資源環境，使整個平臺資源得到最大利用。

6、SkyDataLab-AI 平臺無法解壓 zip 文件？

AI 研習社：平臺可直接上傳 zip 文件并提供解壓功能，具體操作如下：

上傳 zip 文件：數據管理 -->上傳 -->選擇本地文件 -->點擊需要上傳的 zip 文件；

解壓 zip 文件：數據管理 -->找到所需解壓的 zip 文件 -->點擊「操作」列解壓圖標。

用技術杜絕劇透，2020 新賽事「IMDB 影評劇透檢測」上線！

更多信息，可進入參賽主頁查看：
https://god.yanxishe.com/20

雷鋒網 AI 開發者雷鋒網雷鋒網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

楊鯉萍

編輯

發私信

當月熱門文章