成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    金融數智化 正文
    發私信給周蕾
    發送

    0

    恒生電子首席架構師章樂焱:金融機構做數據中臺,要分幾步? | 公開課回顧

    導語:怎樣讓數據產生價值,再回饋到業務場景?

    恒生電子首席架構師章樂焱:金融機構做數據中臺,要分幾步? | 公開課回顧

    3月28日,恒生電子首席架構師、數據中臺發展部經理、恒生研究院首席技術專家章樂焱在雷鋒網公開課上,以「智慧金融的新基礎設施」為題,深度剖析數據中臺在金融領域的應用與實踐。

    后續將有更多課程上線,添加微信號 LorraineSummer 報名聽課,或收看本節課程視頻回放。

    章樂焱把金融機構的數據分為兩處,一邊是各種各樣的業務系統歸攏出來的業務數據中心,也就是數據倉庫(數倉);另一邊是有著大量外部數據的資訊數據中心,業務系統的關鍵小數據就是疊加了大量來自外部的資訊類的大數據——數據中臺的作用,就是將兩大中心串聯起來,建立相應的數據標準,讓這些數據產生價值,再回饋到業務場景中去。

    結合恒生電子的建設經驗和最新的技術趨勢,章樂焱不僅解釋了金融機構數據中臺的構建之必要,還給出了頗為詳細的中臺構建步驟。

    以下為章樂焱分享內容節選,雷鋒網AI金融評論做了不改變原意的編輯。

    數據中臺這個概念最近確實很火,特別是過去的一年。2018年年底,恒生電子就成立了數據中臺發展部,專門幫助金融機構搭建數據中臺。可能恒生跟螞蟻金服有一定的關系,我們一直也在討論大中臺這樣的概念。

    在整個金融行業里面,大家有一個普遍的說法,認為拉長來看,最近的一兩百年,技術對金融行業的影響還是很明顯的,包括工業革命、信息技術的升級。

    拉近到最近的幾十年,可以明顯地看到整個金融行業數字化、網絡化、智能化“三浪疊加”的態勢。特別是智能化的基礎其實就是數據。因為金融行業本身就有大量的數據,加上互聯網技術的疊加之后,產生了更多的數據,有助于我們構建相應的智能化應用。

    中國持牌的金融機構,包括證券、期貨、基金、銀行、保險、信托,再加上交易所,也就是我們所說的整個行業的基礎設施,包括登記結算公司、滬深交易所、期貨交易所等等。恒生電子20多年來就一直圍繞著金融行業在做相應的IT建設。

    以恒生電子一直關注的財富資管領域為例。證券公司、基金公司提供金融產品、銷售金融產品,就是經常說的財富管理;資金募集起來之后,金融機構如何去做投資,就涉及到資產管理。

    細分來看,這兩個行業需要以數據為本,來實現相應的業務驅動,包括投資研究、風險管理、客戶服務、運營管理等等,都是和數據有關系的。我們看到的變化是也從傳統的做法向數字化轉變。

    例如投資研究里面,需要引用大數據,實現智能投研。客戶識別方面,持牌的金融機構有KYC要求,需要對客戶的適當性進行相應的清晰判斷,否則需要承擔相應的法律責任。

    比如在參與金融活動的時候,你可能是個投資者,也可能是個金融消費者,作為金融消費者的話就要受到消費者權益保護的相應的法律法規的制約,所以金融機構怎么來理解你的客戶,也會有很多數字化上的要求。

    從整個行業來看,數據上的智能化應用對整個行業的影響越來越大。

    數據中臺在金融機構里的「角色分析」

    金融機構的數據,可以分為兩塊,一塊就是各種各樣的業務系統歸攏出來的業務數據中心,一般傳統領域我們就叫數據倉庫(數倉)。從上個世紀開始,大家都在做數據倉庫的一些建設,到了現在,隨著技術的發展,數倉其實也有很多相應的變化。

    還有一塊就是資訊數據中心,這里的數據大量來自外部,業務系統的關鍵小數據疊加了大量來自外部的資訊類的大數據。

    金融機構要建立數據中臺的話,需要同時關注業務數據中心和資訊數據中心。這兩方面的數據當然不可能是割裂的,我們觀察到,這兩方面的數據會通過機構、人、產品,緊緊地聯系在一起。我們從經營管理、財富管理業務、風險管理業務、資產管理業務、機構服務業務、經紀業務等這些金融機構的各個業務系統中,把數據抽取出來,建立相應的標準。

    這些數據產生價值,需要回饋到業務場景中去。

    比如說做數倉有很多BI分析人員,分析公司的經營情況、各項業務的趨勢;金融機構有很多金融工程包括行業研究的人員,需要去挖掘各種投資機會,控制相應的投資風險。

    作為數據中臺能提供哪些服務賦能到各個業務場景,這也是數據中臺去做實施建設的時候需要去回答的。

    • 企業畫像

    在業務數據中心和資訊數據中心之間有個關聯,最重要的就兩塊,我們叫兩個畫像,一個叫做用戶畫像,一個叫企業畫像。

    金融機構都是服務行業,服務行業就是服務于你的客戶。如何刻畫客戶?特別是做財富管理這個領域就很重要,需要從各個渠道包括外部拿到相應的數據來刻畫客戶,這叫用戶畫像。

    恒生電子首席架構師章樂焱:金融機構做數據中臺,要分幾步? | 公開課回顧

    募集資金之后,你投資的標的都是跟一些企業有關系,核心的就是圍繞著投資標的企業,所以對這個標的企業怎么刻畫也很重要,比如財務數據分析、公告/研報/公文分析、關聯金融產品分析、企業圖譜-股權風險分析、產業圖譜-產業風險分析、新聞輿情分析等等。

    這里以企業畫像為例。隨著技術的進步,我們發現要分析一家企業,有越來越多的新手段,比如分析的不只是一家企業,而會去建立所謂的企業圖譜、股權關系,對整個產業鏈上下游關系進行分析。

    在構建知識圖譜的時候,會有很多外部的信息是文本信息,不像財務報表可以很容易結構化。在處理大量的外部文本資訊信息的時候,就要用到自然語言處理相應的技術,才能把核心的關鍵的內容提取出來。

    當然,投資的時候,投資者比較喜歡聽小道消息,所以新聞輿情大家也會很關注,包括專業性的分析、高管事件、生產安全事故、專業人員對行業事件的解讀等等。新聞輿情同樣是大家關注的領域,傳導過來會影響到整個企業。

    阿里在說數據中臺的時候經常說一個概念叫One ID,在傳統金融機構里面,如果你的數據只是來自內部業務系統,One ID 相對是容易實現的;但是如果引入了大量的外部信息,One ID確實是一個很挑戰的事情。

    例如恒生電子,如果是股票的話,600570是一個明顯的ID,但是你到新聞資訊里去看,它可能是中文寫的“恒生電子”,可能是全稱,可能是簡稱,包括很多上市公司還有集團公司、股份公司。但是在新聞資訊里講的時候,如何準確識別出來這個信息說的是這家公司,還是它的關聯公司?

    這時候要進行One ID的處理,確實是一件很有挑戰性的事情,需要通過上下文或者說建立金融大詞林,類似于大的詞典,這樣就能知道恒生電子有哪幾種說法,通過上下文分析知道講的是母公司、股份公司還是子公司。

    構建One ID,有時候會用機器去識別,特別是AI 的技術,實際上很多時候最后出來的結果是一個概率的問題,可能要人工和機器結合來實現。

    金融機構做數據中臺,要分幾步?

    一家金融機構有很多數據資產,首先要理清楚有多少數據資產,只有理清楚了,數據才能成為資產,基于數據才能做一些協同。

    各個業務要做協同,有兩種做法,一是傳統的每個業務系統開放接口,就可以互相協同了。

    還有一種,一般來說金融機構會有好多開發商的系統,這些開發商系統的API控制,并不是想要開發商提供就可以有的。API不行的時候如何進行業務協同呢?其實通過數據也是可以做相應的協同的,但這個前提是需要清楚的知道到底有哪些數據資產。

    內部的數據資產可能還好理,當你引入大量的外部數據,所謂的大數據很多是大量外部數據,這些外部數據可能還是不同的業務部門買進來的——從整個公司的視角來看,有哪些數據?這就是要梳理的。

    • 數據標準化

    有了那么多數據資產,如何應用?很重要的一點就是要有相應的數據標準,否則大家對概念的定義、數據的統計口徑、指標的定義都不一樣,要實現協同也是很困難的。

    首先把所有的資產通過資產地圖、資產目錄進行管理,通過相應的元素進行描述:哪個數據?在哪個庫里?誰負責的?跟哪個業務系統相關?所謂的元數據,要去把它搞清楚,在這個基礎上標準化。

    所以其實一般講數據中臺,會講到數據治理很重要的一塊就是數據的標準,包括概念的定義、指標定義如何統一口徑。

    金融領域尤其如此。在金融領域有些指標很重要,因為金融機構需要承擔相關的法律責任,一方面是需要向監管機構報送各種各樣的信息,另一方面需要向公眾披露各種各樣的信息,這兩方面的數據的統計口徑需要保持一致,不然就會出現問題。在這背后需要進行相應的數據標準的制定。

    制定數據標準跟制定API接口是類似的,一個是穩定,一個是最小化原則。

    • 數據服務化

    數據整理好了、該標準化的數據標準化之后,就是為要使用數據的部門提供相應的數據服務,要把數據服務化,畢竟數據中臺是培育業務創新的土壤,也是利用數據促進業務創新的保障。實際上在數據中臺項目的實施階段,很難定義清楚總共需要提供多少數據服務。

    所以在建數據中臺的時候,我們希望能夠為金融機構構建一個相對敏捷、能為下游提供數據服務的平臺。在這其中,工具很重要。

    當下游業務系統提供取數需求的時候,如何快速地進行相應的實施?原來金融機構在做數倉的時候,下游公司有需求就直接告訴下游公司的表結構,讓下游公司直接連上來自己取。

    這時候就會發現很多問題:數據中心的表暴露給了多少對象?有多少下游應用與你相關?這其實是很難控制的。如果在中間增加一層所謂的數據服務層,以API的形式、微服務的形式向下游提供,這時候就可以數據應用與數據中心的進一步解耦,并可以對數據的使用對象、使用頻率進行相應的控制。

    最后,數據都整好了,人工智能的應用如何來體現?做人工智能有很多專業的要求,比如機器學習、自然語言處理、知識圖譜等,這些人很專業,但是下面的應用部門不可能配備很多類似的專業人員,這時候中臺部門就要承接這些專業能力的沉淀作用,要去搭建跟人工智能相關的團隊、平臺,為下游用數的部門提供這種專業服務。

    恒生電子首席架構師章樂焱:金融機構做數據中臺,要分幾步? | 公開課回顧

    這樣的數據中臺,我們把它叫做新的基礎設施。

    為什么說新的?從上個世紀開始,數倉我們就已經開始建了,現在說的數據中臺有更多的數據挖掘、數據分析的技術引進,有AI的加工能力。我們現在發現很多金融機構確實有傳統的數倉技術,當有大量的外部大數據進來的時候,整個技術平臺確實也是需要做相應的一些升級

    因為數據格式上來講,有大量的文本的非結構化的數據進來了,數據量也越來越多,所以需要建立起新的基礎設施。

    那么,新的基礎設施建設的時候,眼前你會看到什么?確實大家對數據治理相應的一些基礎工作,數據資產怎么梳理、數據質量怎么保證、數據標準如何制定、智能的應用……還是比較薄弱的。所以我說給金融機構建數據中臺的時候,確實有很多眼前的問題要解決。

    去年數據中臺概念火了之后,很多人都說可以提供數據中臺服務,實際上在大部分情況下,提供的是數據平臺的一套技術工具。工具是必要的,但在有了工具之后,很多事情還要人去做。

    比如資本市場的各個金融機構,他們最關鍵的核心系統就有三四十套,有時候還包括同一類業務系統找兩家開發商來建設,或者同一類業務根據客戶屬性不同建設不同的系統。

    核心業務系統的種類很多,多年來的版本也很多。要把數據收集起來,就需要核心業務系統的對接能力。

    • 對接外部資訊廠商

    此外,數據中臺也需要對接各種各樣的資訊廠商。

    整個資本市場,外部資訊廠商也有好幾十家,有一些提供的數據比較全面,有些是特色的數據。除了這些主要的資訊廠商之外,有時候金融機構也會根據自己的特色,采購某些數據,比如某個行業網站的數據。這些外部的數據都要進行相應的關聯和管理。

    而且來自資訊廠商的外部數據還有一個很重要的特點,就是它的數據結構很不穩定,沒有一個統一的行業標準,企業需要建立自己的企業標準,否則來自外部的同類的數據,可能會出現某個字段名字一樣但內涵不一樣的情況。這些數據既然不穩定,就要建大量的檢驗規則來保障數據的質量。

    另外,既然建立了數據中臺,不用業務系統、下游應用直接按的指標應該有同樣的口徑,需要梳理清楚有多少這樣的公共指標,保證口徑的統一,這也是中臺價值的重要體現。這些內容目前來講就是靠人力。

    AI很酷,但AI背后也需要大量的人力投入。例如金融機構要處理很多的資訊信息,也就是文本的處理。中文文本處理里面一個很重要的問題就是,中文的歧義很嚴重,特別是人民、地名。如何解決?需要建立詞林、相應的知識圖譜,通過NLP的技術進行上下文的判斷,還需要大量的負面樣本。這里面需要很多的人工勞動。

    • 知識圖譜建設

    AI領域另一個很重要的就是知識圖譜。比如構建企業鏈,投資的時候要判斷投資標的企業的風險,還要判斷它的關聯企業。能獲得的工商數據可能是幾千萬級別的,加上相應的屬性……這些知識圖譜,或者說數據圖、數據庫的構建和應用能力,前期也需要人力來進行。RPA最近比較流行,在金融領域除了購買資訊之外也需要一些外面的數據,就需要通過一些技術手段對互聯網數據進行處理。

    數據應用領域也很重要,畢竟花了這么多錢搭建起了數據中臺,如果不說做完之后數據中臺項目能夠支持哪些應用,在企業內部立項也會有問題。

    在金融機構,數據中臺最主要支撐的應用有四塊:經營管理、風險管理、營銷管理、投資研究。

    經營管理,大家很好理解,公司領導要出報表,是不是還要看各項的數據?營銷是以客戶為中心,要去服務相應的投資者,營銷管理人員需要大量的數據應用做支撐。但是對于投資來講,風險也是很重要的,所以風險管理、風險合規、風險控制各方面也是數據強依賴的。投資研究就更加需要大量的外部數據了。

    所以要建數據中臺,很多問題,目前來講可能要靠人力去應對,這部分占的比重還是比較大的。我們也希望后面的技術進步能很大程度地提升人力處理的效率。

    總結一下:底層是數據中臺的技術平臺,要管理數據,做相應的數據開發,對外提供服務,構建相應的AI能力,搭建AI工具平臺。有了這個工具平臺之后,幫助金融機構構建各種各樣的數據中心,包括業務數據中心和資訊數據中心,也會根據上游的場景分階段建立,原來的應用可以逐步遷移到新的數據中臺的架構上來。在沒有數據中臺之前,整個金融行業大家對數據也是非常重視的,有大量的應用在用。建數據中臺之后,不能簡單地把老的應用鏟掉,全部重新來過,所以需要有一個把大量的下游應用進行平滑遷移的升級方案。

    應用詳解之企業畫像

    除了上面說到的這些“臟活累活”,做數據中臺還是很多看上去讓人覺得很酷的事情。

    比如說企業畫像,資訊中心里面非常重要的數據是要把投資標的企業描述清楚,描述清楚之后確實會對金融機構下游的核心業務起到很好的支撐。在這其中我們也看到大量AI技術被應用。

    比如企業畫像里面有一個叫“企業智查”,這并不是簡單地買一些工商數據描述一下就結束了,實際上會有更多的另類的數據關聯上去。如何關聯?這就涉及到后面的知識圖譜、圖數據庫,除了公司數據,還有產業鏈數據,這些數據構成了企業之間相互關系的核心網絡。

    在這個網絡之后,還可以疊加金融機構自己的研究人員在企業業務發展過程中調研到的、分析到的企業信息,從而形成一個相對完備的企業畫像。

    這里面的企業數可能是千萬級別的,從工商數據、企業之間的相互關聯關系、股權關系,通過股權、債券或者說高管,把這些企業連接起來。還有通過產業的上下游、金融機構投資研究人員建立的所謂產業鏈分析的網絡,關聯起來。

    關聯之后就可以查到圍繞這家公司有哪些信息,有沒有違約,有點像企業的“情報系統”。在這個“情報系統”里面,可以查到一個企業,周邊有一層層衍生出來的很多信息。

    • 輿情監測

    也許你還會關心當下發生了哪些事情,所以很多公司也在建設輿情監控系統。

    恒生從事件的角度來看,把輿情轉換成各種各樣的事件,比如針對企業的事件、針對企業所在行業的事件、宏觀方面的事件等,這些都會對企業產生影響。通過各種事件分類,給企業打上標簽,從而形成相應的風險事件預警,其中需要RPA技術去獲取外面的輿情。

    獲取大量的輿情信息之后的處理,需要用到很多自然語言處理相關的技術,需要靠智能文本處理,把關鍵信息提取出來,在這個過程中,消歧是非常重要的,怎么樣消歧、準確地關聯到相關企業。

    而且企業畫像并不是靜態地,特別是金融領域有很多持續數據,隨著時間點不同,數據都會改變。同樣的一個事情,也有發酵的過程,大家要知道事件的前因后果是什么,所以這是一個動態的、持續發展的過程。

    恒生電子首席架構師章樂焱:金融機構做數據中臺,要分幾步? | 公開課回顧

    • 財務報表

    很重要。有些企業會存在財務造假的問題,通過很多粉飾性的內容,造得天衣無縫,包括隱瞞壞賬、商譽問題、不務正業等等。

    如何識別財務造假?除了傳統的財務分析之外,也會通過機器學習來進行。但是機器學習需要負面樣本,負面樣本不夠,特征就找不到?所以需要搞一些另類的指標出來。我們需要去分析已有的數據,找到里面的負面樣本。

    比如商譽暴雷,我們就去看看最近幾年商譽暴雷的公司,把他們的財報拿過來,看看是什么樣子的,然后把他們放到機器學習的模型里,看看能不能把問題找出來。

    當然,如果專業人員本身就有一些規則,那就更簡單了,可以把一些原來沒有結構化的數據提取出來,然后專業的分析人員寫一些規則,就能直接進行判斷了。一般來說,我們會把這兩種方式結合起來使用。

    • 關聯分析

    是說做一些關聯關系的挖掘,包括整個的風險網絡。關聯分析圖看起來是平面的,但實際上這是一個立體的網絡。在立體的網絡上如何進行快速地搜索響應,特別是復雜的幾度以上的搜索?在圖上做搜索,最簡單的就是明確告訴我們一個實體,沿著實體做瀏覽性的搜索是很容易的,但是你要做幾度以上的這種分析,對水平的要求就很高了——當網絡很大的時候,要找出幾度以上的相互關系的時候,能不能實現秒級響應,還是說要跑很久?

    股權穿透,相對來說是一個比較簡單的關聯關系的分析,但其中還有一些規則。如何確定一個閾值多少是合適的?有些法律法規本身就有定義,有些不行怎么辦?可能就需要使用統計學的手段,找一些負面樣本。穿透一般要求穿透到自然人,或者說國資委,一層層穿透下去。

    數據中臺作為一個新基礎設施,在構建過程中確實是比較有講究的,要有基本的數據治理和IT治理。從傳統的關系數據庫到有些地方要大數據技術、AI技術,技術與業務的結合也很重要,不然花了很大成本建了這個中臺卻不知道該怎么用,或者不知道上層的分析模型該怎么建,這就很難發揮數據的作用。

    在做金融行業數據中臺的時候,我們內部會進行分層,一層是偏技術的,一層是偏業務的。數據過來之后,偏技術層的會進行基本的處理,比如打個標簽、關聯到圖數據庫里去,這對業務的要求貌似不高,對技術基礎的要求會高一點。數據結構化處理之后,業務團隊就要上來發揮作用。比如剛才提到的財務分析有很多模型,這種模型不一定是IT團隊所擅長的。

    比如說像恒生,我們也做債券違約的預警,要做數據分析。第一,分析現狀是什么。第二分析原因,比如增長的原因是什么?一個投資掙錢了,到底是哪個部分掙的錢,這叫績效歸因。第三是預警,能預測到后面的要做預測。包括剛說到的做原因分析的時候,實際上是有很多專業的模型的。

    這些一般是我們偏業務的團隊會來做,我們會找金融工程相應的人來做上層的模型,才能支撐到下游的場景。偏技術和偏業務的人,對數據處理的深度確實不太一樣。比如債券預警的模型怎么做?看起來都很簡單,是個多因子的積分卡一樣的東西,但是關鍵是每個因子怎么選,權重怎么附,這些都需要一些專業的人員來做。

    金融AI技術投入,為什么數據挖掘能排第二?

    展望未來,數據挖掘在金融AI技術投入中,排名第二,圖像識別排名第一。我覺得比較好理解,因為現在圖像識別確實相對來講是應用比較成熟的領域,準確度也很高。但是我們發現數據挖掘竟然是在整個的技術投入中排名第二?我們感覺到現在用的好多手段還是比較傳統,為什么它會排名第二?

    如果把Gartner分析報告里的這一頁上列的這些技術也算在數據挖掘的技術里的話,確實可能投入就上去了。這是Gartner去年對數據技術發展趨勢的分析,我挑了幾條。

    • 到 2020年,將有50%的分析查詢是通過搜索,自然語言處理或語音生成的,或者將自動生成。

    • 到 2021年,自然語言處理和對話分析將把分析和商業智能的采用率從35%的員工提高到 50%以 上,其中包括新的用戶類別,尤其是前臺工作人員。

    • 到 2021 年,持久化內存(非易失性內存條)將占內存計算內存GB 消耗的 10 %以上。

    • 到 2022 年,圖分析和圖數據庫的應用將以每年 100 %的速度增長,以不斷加速數據準備并實現更復雜和適應性更強的數據科學

    • 到 2022 年,通過增加機器學習和自動服務級別管理,數據管理手動任務將減少 45 %。

    為什么要有這樣的技術投入?其實數據的運用越來越普遍了,不是說只有一些專業的分析人員才用它,整個生態里的各個環節的業務人員,可能都需要數據。對這些人員來說,你不能把數據的獲取、分析的要求提得很高,所以會引用一些自然語言技術去處理。

    我們之前提到的知識圖譜,實際上它的技術底層有2種,一個圖數據庫叫圖的存儲,還有一個圖的分析,這塊的話Gartner預測也是說每年是百分之百的速度增長。

    你要做數據分析,最重要的就是關聯,要把數據關聯起來才能做更多的分析,這確實是圖數據庫比較擅長的。關聯大量數據的時候,你也會發現說數據結構是很難提前預定、預測好的,那圖數據庫的好處就是,相應的結構、屬性增加一些,對原來的分析是沒有什么影響的。

    最后一條,其實這個是我比較希望看到的,因為我剛才說到無論是建數據中心也好,做數據中臺也好,還是需要大量人力投入。

    但是Gartner也預測,其實我們實際上也看到大量的利用機器學習的方式,利用各種自動化在整個數據管理或者數據準備上。當對業務不熟悉的時候,機器學習可以很大地減輕負擔。當你換個行業去分析人家的數據的時候,或者一個新人進來,有大量的自動化手段來幫助你做數據管理、做數據的準備,可以有效提升做數據中臺的效率。

    后續將有更多課程上線,添加微信號 LorraineSummer 報名聽課,或收看本節課程視頻回放。

    雷鋒網雷鋒網雷鋒網

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說