成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    政企安全 正文
    發私信給又田
    發送

    0

    假評論“捅了”馬蜂窩,辦事的真不是人?

    本文作者: 又田 2018-10-23 08:22
    導語:毫無疑問,馬蜂窩剛剛度過一個黑色周末

    毫無疑問,馬蜂窩剛剛度過一個黑色周末。

    10月20號微信公眾號“小聲比比”發表了一篇名為《獨家|估值175億的旅游獨角獸,是一座僵尸和水軍構成的鬼城》的文章,直指旅游網站馬蜂窩評論抓取抄襲其他旅游平臺,大量內容和抽獎涉嫌造假。

    假評論“捅了”馬蜂窩,辦事的真不是人?

    作者宛如手提一把98K的剛槍王,一槍一靶,甩出了馬蜂窩與點評,攜程、藝龍、美團、Agoda、Yelp等網站評論對比圖,操作堪稱一流。

    這篇文章以朋友圈為擴散中心,迅速開啟病毒式傳播,短時間內達到10W+閱讀量。馬蜂窩隨后在10月22日也就是今天一早,發出了一則聲明稱,該自媒體文章所述的馬蜂窩用戶數量與事實和第三方機構數據都嚴重不符,并存在誤導傾向,已被查證為有組織攻擊行為,將采取法律手段維護自身權益。

    假評論“捅了”馬蜂窩,辦事的真不是人?

    圍觀口水戰

    馬蜂窩與爆料自媒體的口水戰還在繼續,圍觀群眾也保持著吃瓜激情,支持者有,吐槽者有,抖機靈甩段子的也有。

    比如知乎用戶羅一覺提出了一個有意思的細節,馬蜂窩的這些假評論,主要是在工作日、工作時間發出來的。而不是和別的正常網站一樣,集中在飯點、休息日。

    假評論“捅了”馬蜂窩,辦事的真不是人?

    假評論“捅了”馬蜂窩,辦事的真不是人?

    這說明:

    1. 馬蜂窩在抄襲的時候,沒有考慮到正常用戶的行為方式。如果程序員稍微動一下腦筋,把抄好的評論在飯點發出去,那就沒這么大的問題。

    2. 這些評論很可能是員工在工作時間一個一個抄過來的,而不是有什么自動化的軟件在抄襲。因為程序應該是不需要休息的。而且從數據來看,一萬五千活躍用戶,有三四年的時間,完全是一個人工團隊可以進行的工作量。所以,在馬蜂窩就有一個團隊,十來上百人,每天的任務就是把別家的評論抄到自己家的網站上。我無法想象這種工作的枯燥程度,簡直就是《城市之光》里的工人。他們可能拿著最低工資,但他們的產出,卻是馬蜂窩估值100億+人民幣的核心競爭力。

    另一位知乎網友Windfury則聊到一些技術問題,

    馬蜂窩上的攻略雷同的太多了,就像搜索引擎搜編程問題一樣,結果大都是機器人的互相拷貝,一個后果是錯誤的引導被復制來復制去。

    馬蜂窩的問題對用戶來說除了相似內容太多,還有一個時效性問題,比如說很多景區當前在修路或者現在那個省份有票價優惠,這對游客來說其實是很重要的信息,缺失了會導致行程出現嚴重問題,而這個問題在馬蜂窩現在這種社區模式下無法解決。

    還有網友則認為爆料方是有備而來,

    能把馬蜂窩,點評,攜程、藝龍、美團、Agoda、Yelp這些網站全部爬一遍,他背后的團隊技術實力肯定很強悍,肯定也花費了不少時間和金錢做這件事。不過我很好奇作者花費了這么多資源做這件事,僅僅是為了打假?我覺得原因沒那么簡單。

    要么作者夸大了他的爬蟲數據量,要么作者也準備開一家馬蜂窩,手動狗頭。

    也有網友認為這一連串都是套路,熟悉的配方多家使用,

    沒有內容來源→爬蟲扒其他網站→數據量暴增→報表好看→估值暴增→風投(人傻錢多)源源不斷→IPO→套現

    知乎網友 Lincoin 認為機器人創造內容,乃是業內的常見操作,沒什么新鮮的。

    淘寶剛上線的時候,缺少種子用戶(小白鼠),馬老板帶著員工自己買自家商品寫評論打分,創業初期都是這么過來的。但是「抄襲」的這么明顯,還當自家資產來賣,這確實就有點不厚道了。

    微博網友:

    馬蜂窩:我們不生產內容,我們只是內容的搬運工;

    從螞蜂窩改到馬蜂窩,怪不得會捅馬蜂窩…… 

    當然還有一些網友情不自禁甩出了諸多表情包

    ……

    假評論“捅了”馬蜂窩,辦事的真不是人?

    關于數據挖掘這事兒

    事實上,數據挖掘這件事兒一直都存有爭議,一方面平臺認為利用技術爬取數據可以完善功能提高用戶使用感,另一方面卻被質疑爬取的數據是否侵犯作者權益。

    也有人好奇報道中稱馬蜂窩2100萬條“真實點評”中,有1800萬條都是通過機器人從競品網站抄襲過來的,這是如何做到的。

    來自邦盛科技機器防御專家告訴雷鋒網宅客頻道,目前平臺均是通過網絡機器人技術從其他網站爬取信息,并抄襲到自己的平臺。

    網絡機器人,是一種按照一定的規則,自動地抓取網絡信息的程序或者腳本。當前大部分的網絡機器人是通過直接發起http請求的方式獲取網頁資源,無js引擎,會進行一定的偽裝,并使用動態IP來躲避反爬蟲措施。隨著網站防護能力的不斷提升,網絡爬蟲會逐漸向瀏覽器內核型進化,從而具備執行js的能力,并進一步的擬人化,增加被識別的難度。

    總之,機器人創造內容已經不新鮮了,以馬蜂窩風波中的刷評為例,就是通過爬取競品的商家評論數據,以預定義的一些隨機替換規則(比如稱謂,地點,時間等等)構造新的評論,最后利用馬蜂窩平臺設立的大批機器人賬號,發布在自己平臺的對應商家評論里。

    當然,類似馬蜂窩去抓取其他網絡預訂同行的內容數據這種情況在業內很是常見,隨著互聯網的快速發展,網絡機器人也越來越普遍。

    根據之前國外網絡安全公司的研究報告,50%左右的網絡流量來自網絡機器人,遍布各類網站,包括出行、社交、OTA、電商、招聘、銀行、政府等。例如出行類中的12306票務信息被各類搶票軟件瘋狂地爬取,高峰時刻每天的訪問量達到千億次。在社交類中,通過網絡爬蟲技術可以指揮一幫網絡機器人關注某人的微博、公眾號等,進行點贊、關注或者留言,制造大量的僵尸粉。

    (因此諸多吃瓜群眾表示:知乎、微博大V軟文贊評都是刷的,大家彼此彼此。)

    在問到最關鍵的被爬取內容網站是否能發覺并采取反爬手段時,專家告訴我們,針對爬蟲,常規的反爬蟲手段包括驗證碼、HTTP Header校驗、代理IP識別等。

    隨著爬蟲技術的演進,常規的反爬蟲手段已經無法有效阻止爬蟲的訪問。近年來通過多維度、多層次的檢測,并輔以后端大數據分析來識別網絡機器人逐漸興起并成為主流。

    利用設備指紋技術從設備維度定位網絡機器人,人機識別技術從操作行為判別機器人點擊和自動化點擊,而后端大數據實時分析技術可根據長周期數據進行復雜規則決策。綜合以上手段,可有效偵測爬蟲行為,保護網站的信息資產不被爬取和泄露。

    手段想有都可以有,但平臺用不用就不知道了。

    可惜,對于深陷輿論中心的馬蜂窩來說,黑色周末依然在延續。

    參考來源:知乎

    雷鋒網宅客頻道(微信公眾號:letshome),專注先鋒科技,講述黑客背后的故事,歡迎關注雷鋒網宅客頻道。

    假評論“捅了”馬蜂窩,辦事的真不是人?

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說