合作信息
社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)
發(fā)布單位:清華大學(xué)
所屬行業(yè):電子信息
合作信息類型:意向合作
機構(gòu)類型:高等院校
供求關(guān)系:供應(yīng)
合作信息期限:2016-12
參考價格:面議
0
收藏數(shù)
合作信息簡介
1成果簡介
社會網(wǎng)絡(luò)已經(jīng)成為覆蓋用戶最廣、傳播影響最大、商業(yè)價值最高的Web2.0業(yè)務(wù),在世
界范圍內(nèi),最著名的社會網(wǎng)絡(luò)代表是Facebook、Twitter,用戶量分別達(dá)到12億、5億;國
內(nèi)使用人數(shù)最多的社會網(wǎng)絡(luò)工具是新浪微博和騰訊微博,其中新浪微博用戶達(dá)到5億,騰訊
微博用戶超過8億。社會網(wǎng)絡(luò)中的巨大用戶群每天產(chǎn)生海量的用戶數(shù)據(jù)、關(guān)系數(shù)據(jù)和信息數(shù)
據(jù),若能夠?qū)A繑?shù)據(jù)進(jìn)行準(zhǔn)確、及時的分析,則會在精確營銷、輿情探測以及網(wǎng)絡(luò)安全等
方面創(chuàng)造巨大價值。然而由于社會網(wǎng)絡(luò)的大數(shù)據(jù)特性以及分析方面要求準(zhǔn)確、及時,目前缺
乏融合多項社會網(wǎng)絡(luò)分析技術(shù)的、成熟的社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)。
社會網(wǎng)絡(luò)分析技術(shù)是一項關(guān)鍵技術(shù),也是一項熱門的研究,涵蓋了社會學(xué)、人類學(xué)、社
會語言學(xué)、地理、社會心理學(xué)、通信研究、資訊科學(xué)、社會網(wǎng)絡(luò)分析與探勘、組織研究、經(jīng)
濟學(xué)以及生物學(xué)等多個領(lǐng)域,是一項多學(xué)科交叉技術(shù)。社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)要求具有堅
實的數(shù)據(jù)支撐,即數(shù)據(jù)獲取全面、更新及時、獲取數(shù)量大,也強調(diào)多維度、多粒度的分析手
段相結(jié)合,并對分析速度、可視化以及人機交互等方面都提出很高的要求。
基于上述現(xiàn)狀和挑戰(zhàn),在國家科技支撐項目的資助下,實現(xiàn)基于新浪微博、Twitter等
主要社會網(wǎng)絡(luò)交流工具的大數(shù)據(jù)分析系統(tǒng),系統(tǒng)完成從數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、
消息中心、數(shù)據(jù)分析、結(jié)果可視化展示的閉環(huán)處理流程,支持多種社會網(wǎng)絡(luò)(Twitter、新浪
微博等)的數(shù)據(jù)實時、不間斷獲取,獲取數(shù)據(jù)量在國內(nèi)外同研究領(lǐng)域處于領(lǐng)先地位;實現(xiàn)整
體、個體、群體以及事件的多層次、多粒度分析模式;同時具備良好的人機交互操作界面以
及優(yōu)秀的分析展示效果。
系統(tǒng)的特點如下:
? 多手段數(shù)據(jù)獲取模式融合:采用網(wǎng)絡(luò)流量分析、API/非API爬蟲、元搜索以及增量
式爬蟲等多手段數(shù)據(jù)獲取模式相結(jié)合的方式進(jìn)行數(shù)據(jù)實時、不間斷獲取,保證數(shù)據(jù)
獲取全面、更新及時、獲取量大;
? 多維度、多粒度數(shù)據(jù)分析手段結(jié)合:系統(tǒng)對社會網(wǎng)絡(luò)整體、個體、群體、事件四個
維度的對象進(jìn)行分析,并結(jié)合基礎(chǔ)分析、深度挖掘的多粒度分析手段共同完成社會
網(wǎng)絡(luò)的數(shù)據(jù)分析;
? 多種關(guān)鍵技術(shù)支撐:系統(tǒng)融合機器學(xué)習(xí)、分布式并行處理、數(shù)據(jù)挖掘、自然語言處
理等多種關(guān)鍵技術(shù),共同保證系統(tǒng)各項功能的穩(wěn)定、快速實現(xiàn);
? 優(yōu)秀的分析展示效果和友好的人機交互操作:借助Gephi工具進(jìn)行群體、事件等分
析效果的可視化展示,可視化效果清晰;操作便捷,實現(xiàn)用戶與系統(tǒng)、系統(tǒng)與數(shù)據(jù)
庫的無縫連接。
上述優(yōu)點表明該系統(tǒng)能夠?qū)崿F(xiàn)從數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、消息中心、數(shù)據(jù)分
析、結(jié)果可視化展示的處理流程,達(dá)到完善的功能實現(xiàn)目標(biāo)和優(yōu)秀的系統(tǒng)運行效果。查新表
明,國內(nèi)外目前尚未發(fā)現(xiàn)有如此功能全面與性能優(yōu)越的社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)。
性能參數(shù):
? 能有效獲取社會網(wǎng)絡(luò)平臺的用戶數(shù)據(jù)、關(guān)系數(shù)據(jù)和信息數(shù)據(jù),獲取覆蓋率不低于
85%;
? 分布式爬蟲支持不少于10個節(jié)點,分布式數(shù)據(jù)庫支持不少于5個節(jié)點;
? 數(shù)據(jù)庫讀/寫操作不少于并發(fā)1000次,數(shù)據(jù)預(yù)處理效率不小于1000條/秒;
? 數(shù)據(jù)存儲規(guī)模不小于7TB;
? 熱點信息(個體、群體、事件)發(fā)現(xiàn)準(zhǔn)確率不低于75%,關(guān)鍵路徑發(fā)現(xiàn)準(zhǔn)確率不低于
75%;
? 熱點話題發(fā)現(xiàn)準(zhǔn)確性不低于80%,傾向性言論的發(fā)布主體發(fā)現(xiàn)準(zhǔn)確率不低于75%;
? 信息傳播壽命預(yù)測準(zhǔn)確率不低于80%。
2應(yīng)用說明
2013年9月,利用社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)進(jìn)行數(shù)據(jù)獲取以來,獲取Twitter用戶數(shù)據(jù)
2.2億,用戶關(guān)系數(shù)據(jù)11.5億,推文1.2億,目前數(shù)據(jù)量仍處于不斷高速增長階段;著重獲
取社會網(wǎng)絡(luò)上中國人全集的數(shù)據(jù),主要采用基于用戶屬性、用戶關(guān)系、用戶信息3層過濾機
制,通過特定團體獲取方式進(jìn)行獲取,中國人用戶數(shù)據(jù)達(dá)到63萬,用戶關(guān)系數(shù)據(jù)510萬,
推文數(shù)據(jù)1740萬,目前中國人用戶數(shù)據(jù)已趨于穩(wěn)定,推文數(shù)據(jù)仍處于快速增長階段。在獲
取到的數(shù)據(jù)基礎(chǔ)上,對網(wǎng)絡(luò)中個體、群體、事件以及整體進(jìn)行基礎(chǔ)分析以及深度挖掘,能夠
快速識別關(guān)鍵個體、關(guān)鍵群體、熱點信息、熱點話題,并實現(xiàn)對信息、話題的情感分析、趨
勢預(yù)測等功能,同時也保證分析效果優(yōu)秀的可視化展示。
3效益分析
由于目前國內(nèi)外尚無同標(biāo)準(zhǔn)產(chǎn)品,而社會網(wǎng)絡(luò)大數(shù)據(jù)分析的需求比較迫切,因此本系統(tǒng)
具有較大的推廣空間。本系統(tǒng)價格每套150萬元。而本系統(tǒng)數(shù)據(jù)積累深厚、運行穩(wěn)定、分析
功能全面、處理速度快、響應(yīng)時間短??傮w上,系統(tǒng)成本低、功能全、速度快,運行費每月
在3000元左右,具有明顯的經(jīng)濟和技術(shù)優(yōu)勢。
清華大學(xué)科技成果重點推廣項目
32
4合作方式
轉(zhuǎn)讓或者聯(lián)合推廣。
5項目所屬行業(yè)領(lǐng)域
電子信息。
社會網(wǎng)絡(luò)已經(jīng)成為覆蓋用戶最廣、傳播影響最大、商業(yè)價值最高的Web2.0業(yè)務(wù),在世
界范圍內(nèi),最著名的社會網(wǎng)絡(luò)代表是Facebook、Twitter,用戶量分別達(dá)到12億、5億;國
內(nèi)使用人數(shù)最多的社會網(wǎng)絡(luò)工具是新浪微博和騰訊微博,其中新浪微博用戶達(dá)到5億,騰訊
微博用戶超過8億。社會網(wǎng)絡(luò)中的巨大用戶群每天產(chǎn)生海量的用戶數(shù)據(jù)、關(guān)系數(shù)據(jù)和信息數(shù)
據(jù),若能夠?qū)A繑?shù)據(jù)進(jìn)行準(zhǔn)確、及時的分析,則會在精確營銷、輿情探測以及網(wǎng)絡(luò)安全等
方面創(chuàng)造巨大價值。然而由于社會網(wǎng)絡(luò)的大數(shù)據(jù)特性以及分析方面要求準(zhǔn)確、及時,目前缺
乏融合多項社會網(wǎng)絡(luò)分析技術(shù)的、成熟的社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)。
社會網(wǎng)絡(luò)分析技術(shù)是一項關(guān)鍵技術(shù),也是一項熱門的研究,涵蓋了社會學(xué)、人類學(xué)、社
會語言學(xué)、地理、社會心理學(xué)、通信研究、資訊科學(xué)、社會網(wǎng)絡(luò)分析與探勘、組織研究、經(jīng)
濟學(xué)以及生物學(xué)等多個領(lǐng)域,是一項多學(xué)科交叉技術(shù)。社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)要求具有堅
實的數(shù)據(jù)支撐,即數(shù)據(jù)獲取全面、更新及時、獲取數(shù)量大,也強調(diào)多維度、多粒度的分析手
段相結(jié)合,并對分析速度、可視化以及人機交互等方面都提出很高的要求。
基于上述現(xiàn)狀和挑戰(zhàn),在國家科技支撐項目的資助下,實現(xiàn)基于新浪微博、Twitter等
主要社會網(wǎng)絡(luò)交流工具的大數(shù)據(jù)分析系統(tǒng),系統(tǒng)完成從數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、
消息中心、數(shù)據(jù)分析、結(jié)果可視化展示的閉環(huán)處理流程,支持多種社會網(wǎng)絡(luò)(Twitter、新浪
微博等)的數(shù)據(jù)實時、不間斷獲取,獲取數(shù)據(jù)量在國內(nèi)外同研究領(lǐng)域處于領(lǐng)先地位;實現(xiàn)整
體、個體、群體以及事件的多層次、多粒度分析模式;同時具備良好的人機交互操作界面以
及優(yōu)秀的分析展示效果。
系統(tǒng)的特點如下:
? 多手段數(shù)據(jù)獲取模式融合:采用網(wǎng)絡(luò)流量分析、API/非API爬蟲、元搜索以及增量
式爬蟲等多手段數(shù)據(jù)獲取模式相結(jié)合的方式進(jìn)行數(shù)據(jù)實時、不間斷獲取,保證數(shù)據(jù)
獲取全面、更新及時、獲取量大;
? 多維度、多粒度數(shù)據(jù)分析手段結(jié)合:系統(tǒng)對社會網(wǎng)絡(luò)整體、個體、群體、事件四個
維度的對象進(jìn)行分析,并結(jié)合基礎(chǔ)分析、深度挖掘的多粒度分析手段共同完成社會
網(wǎng)絡(luò)的數(shù)據(jù)分析;
? 多種關(guān)鍵技術(shù)支撐:系統(tǒng)融合機器學(xué)習(xí)、分布式并行處理、數(shù)據(jù)挖掘、自然語言處
理等多種關(guān)鍵技術(shù),共同保證系統(tǒng)各項功能的穩(wěn)定、快速實現(xiàn);
? 優(yōu)秀的分析展示效果和友好的人機交互操作:借助Gephi工具進(jìn)行群體、事件等分
析效果的可視化展示,可視化效果清晰;操作便捷,實現(xiàn)用戶與系統(tǒng)、系統(tǒng)與數(shù)據(jù)
庫的無縫連接。
上述優(yōu)點表明該系統(tǒng)能夠?qū)崿F(xiàn)從數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、消息中心、數(shù)據(jù)分
析、結(jié)果可視化展示的處理流程,達(dá)到完善的功能實現(xiàn)目標(biāo)和優(yōu)秀的系統(tǒng)運行效果。查新表
明,國內(nèi)外目前尚未發(fā)現(xiàn)有如此功能全面與性能優(yōu)越的社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)。
性能參數(shù):
? 能有效獲取社會網(wǎng)絡(luò)平臺的用戶數(shù)據(jù)、關(guān)系數(shù)據(jù)和信息數(shù)據(jù),獲取覆蓋率不低于
85%;
? 分布式爬蟲支持不少于10個節(jié)點,分布式數(shù)據(jù)庫支持不少于5個節(jié)點;
? 數(shù)據(jù)庫讀/寫操作不少于并發(fā)1000次,數(shù)據(jù)預(yù)處理效率不小于1000條/秒;
? 數(shù)據(jù)存儲規(guī)模不小于7TB;
? 熱點信息(個體、群體、事件)發(fā)現(xiàn)準(zhǔn)確率不低于75%,關(guān)鍵路徑發(fā)現(xiàn)準(zhǔn)確率不低于
75%;
? 熱點話題發(fā)現(xiàn)準(zhǔn)確性不低于80%,傾向性言論的發(fā)布主體發(fā)現(xiàn)準(zhǔn)確率不低于75%;
? 信息傳播壽命預(yù)測準(zhǔn)確率不低于80%。
2應(yīng)用說明
2013年9月,利用社會網(wǎng)絡(luò)大數(shù)據(jù)分析系統(tǒng)進(jìn)行數(shù)據(jù)獲取以來,獲取Twitter用戶數(shù)據(jù)
2.2億,用戶關(guān)系數(shù)據(jù)11.5億,推文1.2億,目前數(shù)據(jù)量仍處于不斷高速增長階段;著重獲
取社會網(wǎng)絡(luò)上中國人全集的數(shù)據(jù),主要采用基于用戶屬性、用戶關(guān)系、用戶信息3層過濾機
制,通過特定團體獲取方式進(jìn)行獲取,中國人用戶數(shù)據(jù)達(dá)到63萬,用戶關(guān)系數(shù)據(jù)510萬,
推文數(shù)據(jù)1740萬,目前中國人用戶數(shù)據(jù)已趨于穩(wěn)定,推文數(shù)據(jù)仍處于快速增長階段。在獲
取到的數(shù)據(jù)基礎(chǔ)上,對網(wǎng)絡(luò)中個體、群體、事件以及整體進(jìn)行基礎(chǔ)分析以及深度挖掘,能夠
快速識別關(guān)鍵個體、關(guān)鍵群體、熱點信息、熱點話題,并實現(xiàn)對信息、話題的情感分析、趨
勢預(yù)測等功能,同時也保證分析效果優(yōu)秀的可視化展示。
3效益分析
由于目前國內(nèi)外尚無同標(biāo)準(zhǔn)產(chǎn)品,而社會網(wǎng)絡(luò)大數(shù)據(jù)分析的需求比較迫切,因此本系統(tǒng)
具有較大的推廣空間。本系統(tǒng)價格每套150萬元。而本系統(tǒng)數(shù)據(jù)積累深厚、運行穩(wěn)定、分析
功能全面、處理速度快、響應(yīng)時間短??傮w上,系統(tǒng)成本低、功能全、速度快,運行費每月
在3000元左右,具有明顯的經(jīng)濟和技術(shù)優(yōu)勢。
清華大學(xué)科技成果重點推廣項目
32
4合作方式
轉(zhuǎn)讓或者聯(lián)合推廣。
5項目所屬行業(yè)領(lǐng)域
電子信息。