最新亚洲人成网站在线观看_亚洲色欲久久久综合网_亚亚洲一区日韩高清中文字幕亚洲,中文天堂资源在线WW

網(wǎng)站地圖|收藏本站|在線留言|騰訊博客|新浪博客您好,歡迎來到鳳谷官網(wǎng)!

鳳谷

新型燒結(jié)技術(shù)突破者Regenerative furnace expert

全國咨詢電話0510-88818999

更少能源更多能量
當(dāng)前位置:首頁 » 鳳谷資訊中心 » 行業(yè)資訊 » 忘掉你的大數(shù)據(jù)吧!數(shù)據(jù)思維才最重要的

忘掉你的大數(shù)據(jù)吧!數(shù)據(jù)思維才最重要的

文章出處:e制造責(zé)任編輯:江蘇鳳谷節(jié)能科技有限公司m.dnbgl.com人氣:-發(fā)表時(shí)間:2015-10-25 08:22【

江蘇鳳谷節(jié)能科技有限公司  坦白講如果沒有擁有數(shù)據(jù)思維,那即使擁有了很多數(shù)據(jù),而且不管這些數(shù)據(jù)有多大,都不能說你在做大數(shù)據(jù),所以大數(shù)據(jù)的核心其實(shí)是要擁有數(shù)據(jù)思維。”

數(shù)據(jù)思維利用數(shù)據(jù)解決問題

什么是數(shù)據(jù)思維?數(shù)據(jù)思維的最核心是利用數(shù)據(jù)解決問題,利用數(shù)據(jù)解決問題的最核心是要深度了解需求,了解真正要解決什么樣的問題,解決問題背后的真實(shí)目的是什么。在解決問題的過程中我們使用數(shù)據(jù)的方法,通??梢越辛炕姆椒?。

所謂量化的方法,就是解決問題的過程要可衡量、可評估,有非常明確的定義,這點(diǎn)在車?yán)蠋煏镉幸黄徒榻B了他的幾個(gè)定義,即“PIMA”,這四個(gè)字母分別代表了解決問題時(shí)要考慮的幾個(gè)緯度。

需要有明確的目的(P);在達(dá)到目的的過程中需要有清晰的定義(I);在解決問題的過程中所使用的手段是可量化的(M);對問題、解決問題的全過程可評估(A)。

所以不管是財(cái)務(wù)、人事、還是生產(chǎn)或銷售的每一個(gè)環(huán)節(jié)都是可量化的,可以通過數(shù)據(jù)解決問題的。

通過量化的數(shù)據(jù)解決問題,就是我們所謂的數(shù)據(jù)思維。舉明略在金融行業(yè)的實(shí)際案例來看:我們先思考一下,金融行業(yè)里銀行、保險(xiǎn)或證券公司經(jīng)營的目的是什么?這是核心。車?yán)蠋熢跁镆步榻B了,考慮大數(shù)據(jù)也好,考慮數(shù)據(jù)思維也好,首先是要分析出所做事情的真正目的是什么?然后再進(jìn)行量化分析。

實(shí)際上,金融行業(yè)企業(yè)最核心的是風(fēng)險(xiǎn)控制問題。銀行獲取存款的過程做一個(gè)最基本的存款操作就行了,是沒有任何風(fēng)險(xiǎn)的。但當(dāng)銀行想盈利的時(shí)候,存款業(yè)務(wù)因?yàn)橐Ц秲衾⒊蔀榉琴嶅X手段,想賺錢要通過貸款實(shí)現(xiàn)。銀行把收過來的存款貸出去,兩者之間的利差是銀行的利潤。

所以對于銀行來講,真正的核心訴求是如何在貸款過程中降低風(fēng)險(xiǎn),盡量減少貸款個(gè)體或企業(yè)不還款的風(fēng)險(xiǎn)。這個(gè)風(fēng)險(xiǎn)越低,銀行的利潤空間就越大。因?yàn)檎麄€(gè)貸款利差并不高,可能只有幾個(gè)點(diǎn),最多也不會超過十個(gè)點(diǎn),即便是現(xiàn)在的小貸,也不會超過十個(gè)點(diǎn)。但一般一個(gè)貸款人還不了款的話,銀行利潤就會被大打折扣?,F(xiàn)在整個(gè)市場上的風(fēng)險(xiǎn)率或壞賬率有時(shí)會高達(dá)百分之三、百分之五,即便比較低的時(shí)候可能在很多銀行有百分之一點(diǎn)幾、百分之二點(diǎn)幾。所以如何有效的控制這個(gè)風(fēng)險(xiǎn)對銀行很重要。

所以對于銀行來講,他需要了解貸款人的還款能力。而且還款能力從他貸款到還款過程中也在時(shí)時(shí)發(fā)生變化,有消費(fèi)者在貸款瞬間是有還款能力的,但在還款之前的整個(gè)周期里他經(jīng)歷的狀況其實(shí)在不斷發(fā)生變化。企業(yè)更是這樣子,每個(gè)企業(yè)在經(jīng)營過程中的狀態(tài)是瞬息萬變的。所以對于銀行來講了解消費(fèi)者或企業(yè)的整個(gè)經(jīng)營狀況、資產(chǎn)狀況、風(fēng)險(xiǎn)狀況是非常關(guān)鍵的,中間的每個(gè)環(huán)節(jié)都可能造成貸款人最后無法還款,銀行需要評估這里面的每一個(gè)因素與最后能否發(fā)簽證的關(guān)系。

在傳統(tǒng)金融行業(yè)里,很多銀行只會考慮發(fā)貸款或者發(fā)信用卡之前的風(fēng)控分析。很多銀行到人民銀行拿到一些個(gè)人消費(fèi)者征信報(bào)告,這些數(shù)據(jù)包含了消費(fèi)者以前其他的貸款、每個(gè)月工資情況等等這樣一些最基本的信息。銀行根據(jù)信息打分,然后這個(gè)分?jǐn)?shù)之上的消費(fèi)者可以獲批貸款,在分?jǐn)?shù)之下的就不會獲批。這整個(gè)過程是成本較高的,因?yàn)槿魏我粋€(gè)報(bào)告都是要花錢去買。第二點(diǎn)是很多情況下需要面訪,現(xiàn)場進(jìn)行風(fēng)險(xiǎn)考察,然而這個(gè)考察過程中數(shù)據(jù)的真實(shí)性和有效性也是值得商榷的。

比如我們的一個(gè)客戶——郵政儲蓄銀行。向他們貸款的很多客戶是農(nóng)民,他們在種植或者養(yǎng)殖生產(chǎn)中需要資金支持,比如用來投資買種子或者購買種植養(yǎng)殖的基本設(shè)施。但是當(dāng)面談的時(shí)候他或許假裝家里有一頭牛,我將來可以賣掉這個(gè)牛還款,但這個(gè)牛有可能是從他的鄰居家拉過來的。所以真正證明貸款申請人信用的數(shù)據(jù)真實(shí)性和有效性是解決這個(gè)問題過程中非常核心的問題。數(shù)據(jù)是否是真實(shí)有效的、數(shù)據(jù)是否跟最后結(jié)果有關(guān)系,這就是我們在數(shù)據(jù)思維決策過程中需要考慮的兩個(gè)非常核心的問題。

“ 其實(shí)我是有一點(diǎn)近視眼的,我看很遠(yuǎn)處的一個(gè)廣告牌,上面的文字有時(shí)我看得不是很清楚,但我的大腦是能夠猜出來文字大概是講什么的。本質(zhì)上是因?yàn)樵谖业拇竽X是擁有識別低分辨率的數(shù)據(jù),同時(shí)再把它還原推測到高分辨率的那個(gè)能力。這種能力其實(shí)也是大數(shù)據(jù)公司里面非常核心的能力。"2數(shù)據(jù)治理還原推測到“高分辨率”我接下來就給大家講講處理數(shù)據(jù)里面最核心的兩個(gè)工作。第一個(gè)工作我們稱之為數(shù)據(jù)清洗或是叫數(shù)據(jù)治理。

很多公司擁有大量的數(shù)據(jù),但如果這些數(shù)據(jù)沒有辦法整合到一起,沒辦法清洗、在線化,沒辦法讓使用者方便取用,那即便數(shù)據(jù)量再大也不能說這個(gè)公司有大數(shù)據(jù)。所以清洗和整合數(shù)據(jù)是非常重要的。通常在技術(shù)領(lǐng)域有一個(gè)概念叫“ETL”,ETL其實(shí)只把數(shù)據(jù)抽取到一起,進(jìn)行數(shù)據(jù)格式統(tǒng)一化,最后再加載到一個(gè)可應(yīng)用的平臺上,這是整個(gè)數(shù)據(jù)治理行業(yè)里面最核心的幾個(gè)環(huán)節(jié)。但在大數(shù)據(jù)概念出來之后,跟傳統(tǒng)ETL有一個(gè)挺大的區(qū)別在于數(shù)據(jù)格式跟以前相比更加復(fù)雜。通常我們所謂的大數(shù)據(jù)、我們處理的數(shù)據(jù)除了包括以前的結(jié)構(gòu)化數(shù)據(jù),還包括新的非結(jié)構(gòu)化數(shù)據(jù)。

非結(jié)構(gòu)化數(shù)據(jù)是指數(shù)據(jù)里每一條記錄之間的格式并不統(tǒng)一,甚至很多數(shù)據(jù)都是臟數(shù)據(jù)。大家可以想象銀行的很多數(shù)據(jù),比如消費(fèi)者注冊信息:姓名、年齡、手機(jī)號、身份證號,包括月收入可能都要求填,但很多情況下大家填信息的時(shí)候格式都不一定統(tǒng)一,比如說手機(jī)號可能有一些人填沒有加“86”,再比如說身份證號有人填的是18位的,有人填的是15位的,這些信息是否是統(tǒng)一格式對于未來的數(shù)據(jù)應(yīng)用非常關(guān)鍵。

今天很多互聯(lián)網(wǎng)公司都是擁有大量數(shù)據(jù)的,中國最大的三巨頭BAT都擁有海量消費(fèi)者網(wǎng)名數(shù)據(jù)。百度云每天一個(gè)人搜索數(shù)據(jù),阿里擁有每個(gè)人每天購物的瀏覽數(shù)據(jù)和下單采購數(shù)據(jù),騰訊就不用說了,他有我們每個(gè)人的聊天記錄、通信記錄。他們擁有的數(shù)據(jù)都是非??膳碌?。這些數(shù)據(jù)有一個(gè)很主要的工作在清洗過程中,就是需要把數(shù)據(jù)的唯一用戶標(biāo)識進(jìn)行統(tǒng)一,因?yàn)楹芏嗟臄?shù)據(jù)是散落在不同的子平臺上的,在不同的平臺上的可能會有不同的唯一標(biāo)識,在有的情況下一個(gè)網(wǎng)名是處于登陸狀態(tài),而有些情況下是處于沒有登錄的情況。如何把不同的數(shù)據(jù)都打到同一個(gè)標(biāo)簽上是很多公司正在做的事情。

像我最近在跟幾個(gè)阿里包括車?yán)蠋?,還有騰訊的人聊,他們自己內(nèi)部都有一個(gè)類似于叫自然人計(jì)劃的項(xiàng)目,這是公司的核心項(xiàng)目。這個(gè)項(xiàng)目工作就是把整個(gè)集團(tuán)下屬的所有公司的數(shù)據(jù)收集到一起,把這些數(shù)據(jù)連到一塊兒,把消費(fèi)者行為最后標(biāo)到一個(gè)真正的可以看出來的一個(gè)自然人身上。比如說像我在阿里體系里不僅是有購物行為,還有在高德地圖上的瀏覽的行為,而且我在高德地圖上是沒有登錄的,那在阿里體系里面他就需要通過一些算法的猜測,而這個(gè)人使用地圖的具體行為可能正好也就是這個(gè)人使用的支付寶賬號的信息,他們通過一個(gè)算法是可以關(guān)聯(lián)起來的。實(shí)際上這個(gè)關(guān)聯(lián)并不難,因?yàn)槲疫@兩個(gè)行為都是落在同一個(gè)手機(jī)上的,他可以通過手機(jī)的ID就可以把我的行為連起來了,最后得出結(jié)論就是吳明輝的。

所以前面我也反復(fù)提到過好多次,數(shù)據(jù)實(shí)際上是每一個(gè)人、每一個(gè)個(gè)體、每個(gè)機(jī)器、每天日常的各種人的行為的一些記錄。因?yàn)槌绦虻哪芰?,可以把?shù)據(jù)及行為記錄下來,這就產(chǎn)生數(shù)據(jù)。但是任何一個(gè)商業(yè)公司也好,甚至是國家也好,都沒有能力去記錄一個(gè)個(gè)體、一個(gè)人一天二十四小時(shí)所有的行為,這是不可能的。每個(gè)人只能記錄一個(gè)片段,所以數(shù)據(jù)清洗的過程還有一個(gè)很重要的工作就是想辦法把一個(gè)人的所有行為進(jìn)行補(bǔ)全,甚至對你的未來行為進(jìn)行預(yù)測。

這就好比平時(shí)用數(shù)碼相機(jī)照相,平時(shí)看到一張照片是一百萬像素、五百萬像素還是一千萬像素的,事實(shí)上大家可以理解整個(gè)世界的像素是無窮的。但是我們最后把拍照存下來的時(shí)候肯定是有限制的,如幾百萬或者一千萬,最高可能有幾千萬像素的相機(jī)。但實(shí)際上拍下來,真正數(shù)碼化存下來的時(shí)候,他已經(jīng)是一個(gè)采樣的過程,就是把真正分辨率極高的這個(gè)真實(shí)世界里面的一部分信息抽樣存下來,然后分辨率越高,就是抽樣的比例越高。分辨率越低,抽樣的比例越低。

而我們真正記錄下來數(shù)據(jù),記錄得越全面,對還原真實(shí)世界就還原得越好。但是很多情況下,如果真正的技術(shù)、好的算法或者數(shù)據(jù)清晰的整合能力很強(qiáng)的話,可以把一個(gè)低分辨率的信息,還原成原來很高分別率,很真實(shí)的情況。就像我們的人眼其實(shí)就很厲害,因?yàn)槠鋵?shí)我是有一點(diǎn)近視眼的,但是我看很遠(yuǎn)處的一個(gè)廣告牌,上面的文字有的時(shí)候我看得不是很清楚,但是我的大腦是能夠猜出來到底這個(gè)文字是講什么的,本質(zhì)上是因?yàn)樵谖业拇竽X里面是擁有識別低分辨率的數(shù)據(jù),同時(shí)再把它還原推測到高分辨率的那個(gè)能力。這種能力其實(shí)也是大數(shù)據(jù)公司里面非常核心的能力。

“并不是所有的數(shù)據(jù)在系統(tǒng)里面都存在,比如說我跟我同事之間的關(guān)系,我跟我愛人之間的家庭關(guān)系,可能在公安系統(tǒng)里面并沒有完整的存儲數(shù)據(jù)。但是很多數(shù)據(jù)可以非??焖俚谋话l(fā)現(xiàn)出來。”3數(shù)據(jù)關(guān)聯(lián)同一趟火車到互為同事的推斷前面我給大家介紹的是數(shù)據(jù)的清洗整合。實(shí)際上大數(shù)據(jù)技術(shù)除了信息整合之外,另外一個(gè)很核心的技術(shù)是數(shù)據(jù)的關(guān)聯(lián)。

前面我也提到了很多大數(shù)據(jù)客戶不管是政府還是企業(yè)都有很多不同的數(shù)據(jù),因?yàn)閿?shù)據(jù)本身是需要關(guān)聯(lián)起來,在數(shù)據(jù)真正聯(lián)系到一起之后,在數(shù)據(jù)內(nèi)部我們可以發(fā)現(xiàn)很多數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系,而這些關(guān)系真正的挖掘好了之后,它的實(shí)戰(zhàn)價(jià)值是非常大的,可以起到1+1遠(yuǎn)遠(yuǎn)大于2的作用。

在美國有一家非常有名的大數(shù)據(jù)企業(yè)叫“Palantir”,這家公司現(xiàn)在雖然還沒上市,但市值已達(dá)兩百億美金,是全球沒有上市的企業(yè)里市值排名前五的企業(yè)。這家企業(yè)之所以厲害是因?yàn)槠湓诶脭?shù)據(jù)關(guān)聯(lián)這種能力去給美國情報(bào)機(jī)構(gòu),包括CIA、美國國土安全局提供數(shù)據(jù)挖掘服務(wù),幫助他們進(jìn)行反恐和非常重大的刑事案件追查,數(shù)據(jù)的關(guān)聯(lián)在很多情況下能夠幫助政府很好的發(fā)現(xiàn)犯罪份子。

明略數(shù)據(jù)現(xiàn)在也在利用類似的技術(shù)給中國的公安局等部門提供類似的服務(wù)。在整個(gè)公安破案過程中,這種關(guān)系的挖掘是非常重要的。就像前面我說的,并不是所有數(shù)據(jù)在系統(tǒng)里面都存在,比如說我跟我同事之間的關(guān)系,我跟我愛人之間的家庭關(guān)系,可能在公安系統(tǒng)里面并沒有完整的存儲數(shù)據(jù)。但是很多數(shù)據(jù)可以非??焖俚谋话l(fā)現(xiàn)出來。舉個(gè)例子,當(dāng)時(shí)我們在河北做了一個(gè)試點(diǎn),我也是很強(qiáng)烈地被震撼到了。當(dāng)時(shí)把我的名字輸?shù)竭@套系統(tǒng)之后,其實(shí)是通過我們自己做開發(fā)的系統(tǒng),我們可以用非??焖俚姆椒ú槌瞿囊恍┤耸俏以诿髀缘耐隆?/p>

雖然在公安系統(tǒng)里并沒有記錄我是明略的,我的同事也是明略的,我們之間這種同事關(guān)系,但在公安系統(tǒng)里記錄了我曾經(jīng)從北京坐了一趟動(dòng)車去到了河北,我的另外一個(gè)同事也坐這趟車過去,同天晚上我們又入住了同一家酒店,就這樣簡簡單單的信息,就把我們兩個(gè)人關(guān)聯(lián)上了。我們其他同事用類似的方法都可以非常簡單地被關(guān)聯(lián)在一起。當(dāng)我們利用這樣方法把幾組數(shù)據(jù),比如乘坐火車的數(shù)據(jù)和住酒店的數(shù)據(jù)關(guān)聯(lián)到一起之后,很多關(guān)聯(lián)關(guān)系就自動(dòng)的被發(fā)現(xiàn)出來了。這個(gè)價(jià)值對于整個(gè)安全體系來講是非常非常重要的。今天其實(shí)很多公安都在試用類似的方法偵破重大案件。

總結(jié)

大數(shù)據(jù)的核心有兩個(gè):第一,要知道數(shù)據(jù)是如何獲取的。第二,要擁有“數(shù)據(jù)思維”,擁有數(shù)據(jù)思維最核心是我們要考慮到一個(gè)事物從起因到結(jié)果的發(fā)展過程,所有的數(shù)據(jù)其實(shí)是記錄這個(gè)過程中的證據(jù)。

當(dāng)一個(gè)機(jī)構(gòu)在給一個(gè)消費(fèi)者、一個(gè)個(gè)人提供服務(wù)的過程中,這些數(shù)據(jù)很多情況下就被存儲下來了。存儲下來的數(shù)據(jù)可以通過大數(shù)據(jù)技術(shù)來還原最開始的真相,通過統(tǒng)計(jì)學(xué)的模型可以把缺失的信息補(bǔ)全,用來預(yù)測未來的信息,這就是大數(shù)據(jù)的本質(zhì)。


鳳谷工業(yè)爐集設(shè)計(jì)研發(fā),生產(chǎn)銷售,培訓(xùn)指導(dǎo),售后服務(wù)一體化,專利節(jié)能技術(shù)應(yīng)用,每年為企業(yè)節(jié)省40%-70%的能源成本,主要產(chǎn)品加熱爐,工業(yè)爐,節(jié)能爐,蓄熱式爐,垃圾氣化處理設(shè)備,歡迎致電咨詢:0510-88818999