成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能開發者 正文
    發私信給AI研習社
    發送

    0

    深度學習訓練時 GPU 溫度過高?輸入這幾行命令就能迅速降溫

    本文作者: AI研習社 2017-07-14 14:57
    導語:GPU 如何降溫?

    深度學習訓練時 GPU 溫度過高?輸入這幾行命令就能迅速降溫

    雷鋒網按:本文作者胡智豪,原載于作者個人博客,雷鋒網經授權發布。

    新買回來的不帶水冷公版GPU,在滿負載運行的時候,溫度從室溫馬上飆升到85度,而且模型訓練不是幾分鐘完事,很有可能要長期保持在高溫狀態下運行,讓如此昂貴的GPU一直發燒真是讓人太心疼!

    深度學習訓練時 GPU 溫度過高?輸入這幾行命令就能迅速降溫

    首先得到知乎上一位朋友的文章啟發:從零開始組裝深度學習平臺(GPU散熱)。具體地址:

    http://t.cn/RK9wyBK

    這篇文章寫的是在ubuntu X server環境下,通過修改nvidia-settings來修改GPU風扇速度,因為默認的nvidia-settings設置是,即使GPU在計算的時候溫度已經達到85度,風扇速度最高不會超過70%,這樣就無法很好地為GPU進行散熱,因此需要手動修改GPU風扇速度。

    注,以下設置都是針對linux系統的GPU設置,windows的朋友請搜索相關文章。

      一、如果你有顯示器(X server)

    可以完全按照上面提到的文章《從零開始組裝深度學習平臺》操作,這里貼出關鍵步驟為:

    1. 修改/etc/X11/xorg.cong文件

    sudo nano /etc/X11/xorg.conf

    2. 在Section "Device"里面加入 Option "Coolbits" "4"

    Section "Device"

         Identifier      "Device0"

         Driver          "nvidia"

         VendorName      "NVIDIA"

         Option          "Coolbits" "4"

    EndSection

    3. 重啟電腦sudo reboot

    4. 輸入:

    nvidia-settings -a "[gpu:0]/GPUFanControlState=1" -a "[fan:0]/GPUTargetFanSpeed=100"

    這里GPUTargetFanSpeed=100就是風扇的速度, 100就是風扇運行在100%的速度, 也可以改成其它速度. 注意在新的NVIDIA驅動, GPUCurrentFanSpeed 被改成了 GPUTargetFanSpeed. 另外GPUFanControlState=1表示讓用戶可以手動調節GPU風扇速度。

    感謝原文知乎作者:張三

      二、如果你沒有顯示器

    一般在ubuntu上搭建完深度學習環境后,許多朋友習慣把ubuntu的X桌面服務禁用掉,然后通過另一臺windows系統的電腦通過ssh來連接GPU機器使用。這個時候X server已經被禁用掉,開機也自動啟動命令行模式,上面第一種做法就不適用于這種情況了。原因是,nvidia-settings只能在X桌面環境下運行,若你想強行使用這個設置就會報錯:

    深度學習訓練時 GPU 溫度過高?輸入這幾行命令就能迅速降溫

    因此正常情況下,是不可能通過修改這個設置來改變風扇速度的。

    但有沒有其它方法修改呢?有!你需要騙過系統,讓它你有顯示器,這就是常說的headless模式。

    主要的解決方法是參考了鏈接里這篇文章(fan speed without X : powermizer drops card to p8):

    http://t.cn/RK9ASS5

    這篇文章提供了修改風扇速度的腳本,在ubuntu下運行腳本即可實時調節風扇速度,從而為GPU降溫。

    這里提供詳細步驟:

    1. 克隆這個github倉庫到本地目錄/opt:

    https://github.com/boris-dimitrov/set_gpu_fans_public

    cd /opt

    git clone https://github.com/boris-dimitrov/set_gpu_fans_public

    深度學習訓練時 GPU 溫度過高?輸入這幾行命令就能迅速降溫

    深度學習訓練時 GPU 溫度過高?輸入這幾行命令就能迅速降溫

    在這個倉庫包括上圖幾個文件,主要起作用的是cool_gpu這個文件,我們把文件夾克隆下來之后,運行cool_gpu就可以調節風扇速度了。

    2. 修改文件夾名字為set-gpu-fans,因為作者疏忽,在cool_gpu代碼中此文件夾被命名為“set-gpu-fans”,然而git clone下來的文件夾名字是“set_gpu_fans_public”。

    sudo mv set_gpu_fans_public set-gpu-fans

    3. 創建一個符號鏈接,讓系統知道這個代碼在哪里:

    ln -sf ~/set-gpu-fans /opt/set-gpu-fans

    4.定位到set-gpu-fans文件夾,輸入以下命令:

    cd /opt/set-gpu-fans

    sudo tcsh

    ./cool_gpu >& controller.log &

    tail -f controller.log

    這個命令是運行cool_gpu降溫代碼,啟動后會看到這些實時變化的提示:

    深度學習訓練時 GPU 溫度過高?輸入這幾行命令就能迅速降溫

    在開始計算測試前,我們看看目前GPU的溫度:

    深度學習訓練時 GPU 溫度過高?輸入這幾行命令就能迅速降溫

    這里用的是2卡進行計算測試,我們可以看到,2卡的Perf(性能)一項已經被調整為“P2”(其它卡仍為P8),2卡的溫度為35度,而且三個風扇的速度均為55%。“P2”指的是nvidia的顯卡power state,從P0到P12,最高性能狀態為P0,運行計算是為P2,最低功耗(最低性能)為P12

    啟動模型訓練,我們可以看到程序正在不斷地自動調節溫度:

    深度學習訓練時 GPU 溫度過高?輸入這幾行命令就能迅速降溫

    當運行訓練模型一段時間后,最終的溫度狀態如下圖:

    深度學習訓練時 GPU 溫度過高?輸入這幾行命令就能迅速降溫

    風扇被全部調節到80%的速度,溫度穩定在65度!對比文章開頭的數據,顯卡溫度從84度降到65度,整整下降了20度!

      三、一點要注意的

    在上面第二部分的文章出來之前,網上還流傳著另一篇文章,那篇可以說是最原始的版本,上面第二部分的代碼正是基于該篇原始版本文章改進的,鏈接地址在這里(Set fan speed without an X server):

    http://t.cn/RK9yQmf

    但這篇文章的原始代碼存在一個嚴重問題:雖然能夠強制改變風扇速度,但GPU會被降頻工作,power state會被強制降為P8,導致運算性能嚴重下降!

    可能是那篇文章發表時間比較早,不大適用現在最新的顯卡和驅動,因此才有了上面第二部分的改進版本,所以大家不要使用原始版本的代碼,否則GPU會被限制性能。

    雷鋒網相關閱讀:

    對話“AI 教父”黃仁勛:人工智能開啟 GPU 計算時代

    一文詳解英偉達剛發布的 Tesla V100 究竟牛在哪?

    雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

    深度學習訓練時 GPU 溫度過高?輸入這幾行命令就能迅速降溫

    分享:
    相關文章

    編輯

    聚焦數據科學,連接 AI 開發者。更多精彩內容,請訪問:yanxishe.com
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說