發(fā)布時間:2020-04-11所屬分類:計算機職稱論文瀏覽:1次
摘 要: 摘要:采用復雜網(wǎng)絡分析特定屬性群體。以互聯(lián)網(wǎng)企業(yè)高管簡歷作為原始數(shù)據(jù),以高管姓名和分詞系統(tǒng)抽取實體關鍵詞作為節(jié)點,個人簡歷中是否包含關鍵詞作為連接邊的條件進行建模,使用復雜網(wǎng)絡理論對所建網(wǎng)絡進行分析。實驗結果表明,部分關鍵詞節(jié)點度值存在明
摘要:采用復雜網(wǎng)絡分析特定屬性群體。以互聯(lián)網(wǎng)企業(yè)高管簡歷作為原始數(shù)據(jù),以高管姓名和分詞系統(tǒng)抽取實體關鍵詞作為節(jié)點,個人簡歷中是否包含關鍵詞作為連接邊的條件進行建模,使用復雜網(wǎng)絡理論對所建網(wǎng)絡進行分析。實驗結果表明,部分關鍵詞節(jié)點度值存在明顯差異,歸一化后的特征向量明顯大于介數(shù)。通過統(tǒng)計分析發(fā)現(xiàn),美國和北京相關背景很重要,同時對比歸一化后的介數(shù)和特征向量證明兩點:第一,社會關系中個體涉及的實體對象比在社會關系網(wǎng)絡中的位置更為重要;第二,跨行業(yè)跳槽人員的職業(yè)背景經(jīng)歷可能會給其在新的企業(yè)中的個人發(fā)展帶來不利影響。
關鍵詞:復雜網(wǎng)絡;分詞系統(tǒng);中心性
人類對于網(wǎng)絡的研究由來已久,18世紀偉大的數(shù)學家歐拉對于七橋問題(Konigsberg)的研究是目前公認的最早關于網(wǎng)絡的研究。20世紀60年代由Erdos和Renyi兩位匈牙利數(shù)學家建立的隨機圖理論(randomgraphtheory)[1]被公認是在數(shù)學上最早開創(chuàng)了復雜網(wǎng)絡拓撲結構的系統(tǒng)性分析。在20世紀末,小世界網(wǎng)絡模型[2]和無標度網(wǎng)絡模型[3]的相繼提出,使得復雜網(wǎng)絡成為學術界熱門的研究方向。而且小世界網(wǎng)絡模型和無標度網(wǎng)絡模型有著和現(xiàn)實世界網(wǎng)絡[4]相似的網(wǎng)絡特性。例如,小世界網(wǎng)絡的小世界性和高聚集度系數(shù);無標度網(wǎng)絡的小世界性和節(jié)點度分布服從冪律分布的特點。不過,這兩種網(wǎng)絡都存在一定的不足之處,如小世界網(wǎng)絡的節(jié)點度值服從指數(shù)分布問題及無標度網(wǎng)絡的聚集系數(shù)很小等問題,但實際上現(xiàn)實世界的網(wǎng)絡也存在著不同程度的差異。針對以上網(wǎng)絡,大量的學者進行了改進,如Newman和Watts對小世界網(wǎng)絡模型作了進一步改進[5],使得網(wǎng)絡不存在孤立節(jié)點,也是目前最廣為使用的小世界網(wǎng)絡模型;Li等對無標度網(wǎng)絡模型作了進一步改進[6],由于網(wǎng)絡中的節(jié)點并不能獲取到網(wǎng)絡的全局信息,從而提出了局域世界概念。
使用復雜網(wǎng)絡來對現(xiàn)實世界中的一些問題進行研究,可以指導和預測現(xiàn)實世界中事物的發(fā)展趨勢和走向,將現(xiàn)實世界中的有限資源合理利用,使得資源利用效益最大化。同時也可以利用復雜網(wǎng)絡分析現(xiàn)實世界網(wǎng)絡的脆弱邊或是脆弱節(jié)點,從而有針對性地改善和防止問題的發(fā)生。肖盛等[7]基于復雜網(wǎng)絡理論對某地區(qū)真實電網(wǎng)進行脆弱性評估,結果表明,分析所得脆弱節(jié)點的分布情況與該地區(qū)電力網(wǎng)絡脆弱節(jié)點的真實情況基本相符。譚陽紅等[8]對傳統(tǒng)評估電網(wǎng)節(jié)點重要度的方法進行了改進,引入相對熵和灰色關聯(lián)度,提高了評估結果的準確度。文獻[9]以武漢市路網(wǎng)作為原始數(shù)據(jù),通過計算復雜網(wǎng)絡的中心性,發(fā)現(xiàn)武漢市路網(wǎng)具有層次結構特征且結構構成符合“二八分率”的規(guī)律。文獻[10]分析了我國礦業(yè)并購演變過程,通過計算中心性指標,使用K-核分解算法發(fā)現(xiàn)礦業(yè)并購市場易受到外部環(huán)境影響等特點。這也就進一步證明了復雜網(wǎng)絡不僅具有理論研究價值,同時也具備在現(xiàn)實中的應用價值。
現(xiàn)實世界中充斥著各種各樣的信息,按照類型可分為文字、視頻、圖片及音頻等,但最為常見的還要屬文本信息。而文本信息為了提高可讀性和信息邏輯性,在表達上存在著冗余性,如文本信息中的介詞、代詞及標點符號等內(nèi)容實際上一般并不包含有效的信息要素。為了提取出文本信息的有效信息要素,必須使用合理的分詞方式來實現(xiàn)。分詞是指將連續(xù)的字序列按照一定規(guī)范重新組合成詞序列的過程。其中,分詞的規(guī)范重組部分實際上是分詞的核心部分,因為,無論中文還是英文都不能完全按照固定模式進行分詞,文本信息中往往會含有大量專有名詞、機構名、人名及地名等信息,如果按照完全固定模式分詞,會使大量文本有效信息失真,所以,分詞時必須進行文本語義分析,結合語義分析結果進行分詞才能得到更為準確的分詞結果,這樣的結果對于研究也更具有現(xiàn)實意義。文獻[11]基于復雜網(wǎng)絡理論對文本關鍵詞進行提取,提出了綜合考慮目標詞匯以及相鄰節(jié)點的貢獻度來提取關鍵詞的方法。文獻[12]通過詞序統(tǒng)計組合來提取文本信息關鍵詞,綜合使用詞序統(tǒng)計、詞性標記、停用詞過濾等方式提高關鍵詞提取準確性。
在現(xiàn)代社會和企業(yè)發(fā)展中,人才是最寶貴的資源,很多企業(yè)和國家都在強調(diào)這一點,甚至出現(xiàn)企業(yè)為了得到一個關鍵人物或團隊出手將整家公司收購的極端現(xiàn)象,由此看出現(xiàn)代社會對于有才能人士的重視。同時,人才也是不同國家、不同企業(yè)的必爭之地。我國提出的“千人計劃”、“萬人計劃”以及現(xiàn)在各個城市都在不斷推出的引進人才計劃和為留住人才而推出的各種優(yōu)惠政策都從側(cè)面證明了人才對于社會和企業(yè)發(fā)展的重要性。文獻[13]通過趨勢外推法和灰色模型對湖北科技人才需求進行演化預測,文獻[14]分析了人才分析對戰(zhàn)略人力資源管理的價值,總結了人才分析的主要用途并提出了實施人才分析需要注意的相關問題。本文基于復雜網(wǎng)絡和NLPIR(naturallanguageprocessing&informationretrieval)分詞系統(tǒng)以百度百科詞條信息作為原始數(shù)據(jù)對幾家互聯(lián)網(wǎng)企業(yè)的高管進行研究分析。
1高管復雜網(wǎng)絡模型建立
本文使用的高管人員名單來自于以下互聯(lián)網(wǎng)企業(yè):百度、阿里巴巴、騰訊、滴滴、美團、京東、今日頭條;每位高管人員的個人信息均來自于百度百科官方詞條。
建模算法設計:
a.由于使用爬蟲技術獲取到的文本信息不規(guī)范,存在格式不統(tǒng)一、包含異常的符號等問題,所以,在獲取到文本信息后,根據(jù)預先設定的處理規(guī)則進行處理。例如,刪除多余的空格、換行符號及少部分的不規(guī)則網(wǎng)頁標簽等。經(jīng)過預處理后原始數(shù)據(jù)成為姓名與個人百度百科詞條一一對應的形式。例如,通過預處理得到以李彥宏為文件名的文本文件。k
b.NLPIR(https://github.com/NLPIR-team/NLPIR)是一套能夠?qū)⒔o定文本進行分詞并提取實體詞(有意義的詞匯,如人名、地名、公司名稱等)、關鍵詞、敏感詞的分詞系統(tǒng)。本文使用該分詞系統(tǒng)對處理好的文本信息進行實體抽取,獲得有意義的實體詞匯作為關鍵詞信息。例如,李彥宏對應百度、創(chuàng)始人、董事長、北京大學、華爾街等實體關鍵詞。VpVpVkVkc.通過以上a,b這2個步驟,獲得了兩類網(wǎng)絡節(jié)點,一類節(jié)點為個人姓名,代表本文網(wǎng)絡所使用的高管人員姓名;另一類節(jié)點為關鍵詞,代表分詞系統(tǒng)實體抽取得到的有意義的實體描述關鍵詞。
通過圖3和表1可以看出,根據(jù)上述模型所建復雜網(wǎng)絡有著與現(xiàn)實世界網(wǎng)絡相似的網(wǎng)絡參數(shù)[15]。例如,網(wǎng)絡的平均路徑長度為3.641,滿足現(xiàn)實世界網(wǎng)絡的小世界特性[16],而聚集系數(shù)為0.092,相對較大,滿足高聚集性,圖3為網(wǎng)絡的度分布情況,可以看出,網(wǎng)絡的度分布與現(xiàn)實世界網(wǎng)絡度分布的無標度特點相對應。
2高管網(wǎng)絡中心性
描述復雜網(wǎng)絡的參數(shù)主要包含以下幾種:網(wǎng)絡密度、度、平均最短路徑和網(wǎng)絡的聚集系數(shù)。其中,網(wǎng)絡密度主要刻畫了網(wǎng)絡連接的總體特征,網(wǎng)絡的度主要描述個體節(jié)點的連接情況,平均最短路徑能夠體現(xiàn)網(wǎng)絡信息流傳遞效率,而網(wǎng)絡的聚集系數(shù)則能夠體現(xiàn)網(wǎng)絡的局部聚集情況。
分別將度值排名在前25的關鍵詞及關鍵詞對應的度值進行橫向?qū)Ρ确治觯梢缘玫街鶢顖D如圖5所示。
從圖5可以看出,橫向?qū)Ρ认卤本┖兔绹@2個關鍵詞的度值相比于同類關鍵詞具有明顯的優(yōu)勢,兩者的度值都遠大于同類關鍵詞的度值,其中,美國是同類關鍵詞的5~7倍,北京是同類關鍵詞的3~7倍。通過度值的橫向?qū)Ρ瓤梢钥闯觯@些互聯(lián)網(wǎng)企業(yè)的高管和北京、美國相關的背景信息顯得尤為重要。這一點也與現(xiàn)實世界的基本情況相符。美國作為自二戰(zhàn)以來的世界強國,對于計算機、互聯(lián)網(wǎng)這類高科技行業(yè)在全球范圍內(nèi)都稱得上絕對領先,所以,我國大量互聯(lián)網(wǎng)人才在選擇留學、交流時,美國往往是他們的首選,文獻[18]中表明,美國仍然是多數(shù)人留學的首選目的地。另一方面,雖然我國大型互聯(lián)網(wǎng)公司在國內(nèi)發(fā)展情況很好,但往往也會在美國硅谷等地設立研發(fā)中心等,網(wǎng)絡中涉及的7家(百度、阿里、騰訊、滴滴、美團、京東、今日頭條)公司中有71.43%的公司在美國有分公司、辦事處或研發(fā)中心。文獻[19]指出,設立海外研發(fā)中心具有從東道國獲取新信息、新技術服務于母公司的技術開發(fā)戰(zhàn)略的作用,而這時的東道國主要有兩類:一是擁有“技術高地”的技術發(fā)達國家,二是擁有“人才富地”的人力資源優(yōu)質(zhì)國家,而恰好美國在這兩方面都符合。
北京作為我們國家的首都及政治中心,對于任何一個企業(yè)而言,北京相對于我國的其他城市有著完全不同的意義,企業(yè)管理人員背景信息和北京有著較大的關系也屬于合理。另一方面,北京作為一線城市,有著眾多優(yōu)秀的高校和人才,企業(yè)和一線城市有著較大的親密度,這對于屬于前沿行業(yè)的互聯(lián)網(wǎng)公司也是必不可少的,網(wǎng)絡中涉及的7家企業(yè)100%均在北京有分公司、研發(fā)中心等。其中,5家公司總部就在北京。文獻[20]針對我國互聯(lián)企業(yè)分布進行分析。圖6為互聯(lián)網(wǎng)企業(yè)數(shù)量前五的省市的統(tǒng)計分析圖。可以看出,北京互聯(lián)網(wǎng)企業(yè)數(shù)量有明顯優(yōu)勢,這也進一步證明了本文所得分析結果的合理性。
2.2特征向量和介數(shù)
2.2.1特征向量
AaijaijλAe=(e1,e2,···,eN)Aλ一個節(jié)點的度指標僅僅描述了該節(jié)點對于其他節(jié)點的直接影響力,若一個節(jié)點與另一個度值很高的節(jié)點之間存在連接[17],則該節(jié)點的影響力也會受到影響而增強,這與現(xiàn)實世界中的很多情況是一致的,如果把每個人看作是一個節(jié)點的話,一個節(jié)點的信息占有率在很大程度上取決于它與什么樣的節(jié)點有連接。但是,這種類型的特征無法用度值進行衡量,故本文使用特征向量這一網(wǎng)絡指標來衡量節(jié)點這種特征的顯著與否。設網(wǎng)絡G的鄰接矩陣為,為矩陣第i行第j列的元素,的取值集合為{0,1},為的主特征值,是一個常量,為矩陣對應的特征向量。
3結 論
以復雜網(wǎng)絡為理論基礎,對幾家大型互聯(lián)網(wǎng)企業(yè)高管人員進行建模分析,通過復雜網(wǎng)絡的理論分析研究對象是否具有共性、具有哪些共性以及該類人員具有哪些顯著特點。以百度百科官方詞條作為原始數(shù)據(jù),通過分詞系統(tǒng)抽取實體關鍵詞,獲得有信息要素的實體關鍵詞;以高管姓名和關鍵詞作為網(wǎng)絡節(jié)點,高管個人信息中是否包含關鍵詞作為連接邊的條件構建復雜網(wǎng)絡;最后通過復雜網(wǎng)絡的理論分析得到一些與現(xiàn)實世界具有一致性的網(wǎng)絡特征,同時這些一致性也證明模型的合理性。
分析網(wǎng)絡后,得到以下主要結論:首先,將度值較高的美國和北京分別整理統(tǒng)計對比后發(fā)現(xiàn),美國和北京相對于其他同類別的關鍵詞確實有著明顯的度值優(yōu)勢,證明對于大型互聯(lián)網(wǎng)企業(yè)高管而言美國和北京相關的背景信息確實很重要;其次,將特征向量指標值和介數(shù)指標值歸一化后作圖對比,發(fā)現(xiàn)一個與現(xiàn)實世界具有一致性的特點,一個人社交關系中的社交對象相比于他在社交關系中起到的信息傳遞的作用更為重要,也讓他更容易獲得成功;最后,對圖9中的異常節(jié)點進行分析,發(fā)現(xiàn)跨行業(yè)跳槽時過去不同的職業(yè)經(jīng)歷可能會在未來的個人發(fā)展中產(chǎn)生不好的影響。
相關期刊推薦:《上海理工大學學報》是由上海理工大學主辦的理工科綜合性學術刊物,主要報道系統(tǒng)科學與復雜性科學、能源與動力工程、光電信息與計算機科學、機械材料科學、生物醫(yī)學科學、傳媒出版科學以及基礎學科(數(shù)學、物理、化學)等方面的學術研究和科研實踐成果。