如何研究及应用大数据(北京邮电大学副教授傅湘玲)
如何研究及应用大数据(北京邮电大学副教授傅湘玲)
2024-11-22 07:03:10  作者:趚鍍噭凊  网址:https://m.xinb2b.cn/tech/vtd416376.html

编者按:本文作者在高校大数据教育教学领域拥有相对成熟的教学经验、独到的教育观点及创新的教学方法。作为全国高校人工智能与大数据创新联盟常务理事,积极推进大数据教育教学工作,本文内容根据作者在"赋能大数据教育专题"分享的内容整理而成,旨在为2020年高校数据科学与大数据技术专业、大数据管理与应用专业、大数据技术与应用专业赋能。


北京邮电大学副教授 傅湘玲

关于大数据在企业管理中的应用我们要回答的主有四个问题:第一,这些数据说明了什么问题;第二,这些数据从哪里来;第三,我们得出了什么分析结果;第四,在结果中得到了什么启示。要实现大数据在企业管理决策中的应用,一方面是要有好的数据支撑,另一方面则需要经典的管理理论的应用。只有数据与经典理论结合起来,才可能会形成新的管理决策的应用和模型,这是对大数据与企业管理决策的理解。

分享五个案例:第一是基于海量的互联网数据的新产品开发决策;第二是基于海量互联网数据的竞争产品分析;第三是基于企业社交网络的员工潜力测量研究;第四是利用公众博客文本进行公众幸福感测量;第五是基于微博数据的新闻线索发现。

一、基于海量的互联网数据的新产品开发决策

即如何在线评论中帮助企业的产品设计师更好地设计产品。传统的新产品设计一般是通过问卷的方式进行,用户买了产品之后,会留下很多评论,这种评论实际上代表了用户的需求,我们能否将这些用户需求转变为产品设计师的维度用户需求,从而改进产品设计。我们能否将经典的卡洛模型用在在线评论分析之中,从而实现智能及时地实现新产品的改进。如针对手机产品的评论所做的二次开发过程中,手机新产品开发过程中如何利用在线评论提取其需求,从而帮助设计师更好地改进产品设计。


图1-技术路线图

在上述的技术路线图中,首先是做一个数据调研,从京东、淘宝、新浪微博中提取我们需要做的手机评论数据,本研究中我们选取了十款需要分析的手机型号,从京东等网站上进行数据的爬取。获取到数据之后,在技术路线图中可以看到进行了数据的预处理,其中包括评论的去重,当然还有一项很重要的工作,即样本的有用性人工标记,其实对产品设计师而言,有些评论对产品设计师没用,但对消费者有用。做完样本的有用性标记之后,进行有用性模型训练,同时在大量的评论中构建了一个需要提取的特征、情感、机型,因此在技术路线中,构建了特征词库、情感词库、机型词库,在此基础上构建手机的主题模型,主题模型是指构建一个词对,比如手机的待机时间较长,接着进行情感的分析。做完这项工作后,再结合管理中的卡洛模型进行客户需求分析。卡洛模型中提到客户的满意包括基本需求,期望需求和惊喜需求,我们根据用户效用值的大小进行排序,得到用户的1)基本需求:版本、功能、外观、物流及售后、其他;2)期望需求:处理器及配件、屏幕、信号及发热、相机;3)惊喜需求:电池、价格、手感、系统。对此我们也提出相应的管理建议:对于基本需求,管理建议:保证符合服务标准,努力降低产品故障率和服务失误率;对于期望需求,管理建议:不单是考虑符合服务标准,而是如何提高服务标准。同样对于惊喜需求,管理建议:首先保证另外两类需求,开发新服务,增加新内容。

二、基于海量互联网数据的竞争产品分析

在产品评论中存在不同产品间的各种不同属性特征的比较,在此基础上我们提出了另外一个概念——产品在线声誉。产品的在线声誉分为产品美誉度和知名度。美誉度又从属性美誉度和属性权重两个角度进行考虑。就属性的美誉度而言,前面的过程中提取了手机的每个属性特征,如电池、屏幕、内存等,对每个属性都有一个评价的矩阵值,即一条评论中对某个属性的效用值,据此计算出属性的美誉度,接着对属性的权重进行计算,便可得出第i条评论对某个产品属性j的评价,从而测量出不同产品的在线声誉。在此案例中,我们针对四款手机进行了研究,分别为:华为、IPhone、三星、联想。

得出的结果大家在这个图中可以看到:


图2-手机产品美誉度对比

① 三星 N7108的各个属性的美誉度均在最外围(价格除外),即美誉度高; ② 联想A820T的各个属性的美誉度均在最内层,即美誉度最低; ③ iphone 4S的大部分属性的美誉低于三星 N7108 (价格除外),却高于华为 G520 (相机 、外观和屏幕除外),因此,从属性美誉度层面来看,三星 N7108表现较好,最好能再适当下调点价格,联想A820T整体上都需要提升。

三、基于企业社交网络的员工潜力员工潜力测量研究

人力资源管理中企业员工的潜力研究一般基于问卷进行,在这里我们希望通过企业内部社交网络的数据来进行员工潜力的测量研究。我们选取了某企业社交网络中员工的社交数据,在此基础上将员工的潜力分为了协调潜力和知识潜力两个维度。在此基础上进一步细化构建了每个细化的指标测量方法。通过对文本数据的分析与挖掘,量化测量出每个指标的值,从而进行员工潜力指数的测量研究。

四、利用公众博客文本进行了公众幸福感测量

能不能利用文本进行量化的幸福感的测量呢?传统的做法是Watson教授提出来的PANAS量表,通过问卷的方式测量某个人的幸福感。但这种量表的方式无法实现大规模、可重复、无干扰的测量,也就是说,很多人在测试时未反映出真实的感情。因此,要实现无干扰环境下大规模、可重复的测量,则需要一个更好地可以利用海量客观数据的自动化方法测量公众的幸福,我们做了一个测量幸福感的模型,主要是从某一篇博文中出现的情感词数量及频率在整篇文章中所占的比例。其中有一个很大的问题,即中文的情感词库需要量化,传统的词库很多只有正面和负面,对每一个情感词并没有得分的比较,这是工作过程中很大的一个难题,英文中有公开的词库,经过多方努力,我们找到了Ren词库。

可以看出,我们模型的结果与实际情况是比较符合的,我们对历史已经发生的事件和现在模型的结果对比是可以对应的,这是我们对公众幸福感利用博客文本做的结果和重大事件的对比。同样,我们也做了周、年的比较,将六年中每年的数据进行对比后发现,每年的二月份是情感较高的,由于二月份有春节,春节后幸福感开始下降,同时十一也是如此。在周的对比中,周一较低,周二较高,由于工作比较疲惫,周三比较低,由于看到周末了,周四之后又开始上升。这是关于重大事件的对比、每年高峰低峰的对比以及一周的对比。

因此,在这个研究中,我们将经典心理学的主观幸福感测量(PANAS量表),利用互联网中大量非结构化数据设计了一个新的幸福感量化模型,实现了对社会公众幸福感的实时动态监测。


图3-2008-2013中国公众幸福感变化与重大社会事件对照图


图4-2008-2013中国公众幸福感变化对比图


图5-中国公众幸福感一周变化趋势

五、基于微博在线数据的新闻线索挖掘


图6-技术路线图

目前来看,记者也是通过博客、社交网络大量的发现新闻线索,如通过微信群、QQ群、微博等发现有哪些热点发生,根据自己的知识判断,这有可能是一个值得深究的会成为一条新闻的消息,在此过程中可能浏览过一万条微博才发现一条值得调研和采访形成新闻的内容,我们称之为新闻线索。首先,我们构建了一个新闻线索的新闻价值模型,其中提高了线索的重要性、异常性和权变性。在构建了新闻线索后,我们听取了新华社、人民网的记者,以及一些新闻专家、公众的看法,进行了模型的改进,在技术路线图中可以看到,一方面是构建新闻价值线索模型,另一方面是从数据中找到新闻线索,在数据准备阶段,主要利用了微博,对微博事件进行了事件触发抽取、命名实体识别、时间表达抽取、事件后果抽取,由于在新闻价值模型中发现,这四个要素对新闻价值的评价是有用的,对这四个特征进行抽取后,构建了微博事件信息库和训练集、测试集,从而进行新闻价值模型的计算,这个计算过程中也进行了模型的计算和调整。以交通事故为例,通过这个过程可将某一天与所有交通有关的微博信息、新闻提取出来,并对其价值进行评分,在评分过程中,新闻事件的排名越前价值越高。对新闻记者而言,现在只需要看一千条微博便可以筛选出新闻报道的线索,减轻其工作量,从而更好地评价微博数据中可能存在的新闻线索。

以上便是五个方面的案例,其实数据是一个方面,经典管理模型的应用是第二个方面,将模型和数据结合起来,可以判断需要哪些数据、数据说明了哪些问题,以及这些数据分析如何应用到管理决策之中。

傅湘玲:毕业于北京大学,获得管理学博士学位,现任北京邮电大学软件学院副教授,北京邮电大学社会化网络信息管理与服务中心副主任; 全国信息技术标准化技术委员会SOA标准工作组专家成员。主要研究方向:社交网络分析。

  • 风干牛肉干(风干牛肉干做法)
  • 2024-11-22风干牛肉干做法主料:黄牛身上的精选牛肉制成,采用米龙、大黄瓜条、小黄瓜条(均为牛腿后部上的肉)为主料调料:食用盐、葱、姜、花生油等各适量内蒙古风干牛肉干基本上都各自有自己的独特配方先进行腌制,然后进行风干晾制因为内。
  • 魔道祖师魏无羡与温宁的幕后花絮(魔道祖师同样是报恩)
  • 2024-11-22魔道祖师同样是报恩苏涉和金光瑶的“记名之恩”《魔道祖师》中的苏涉是秣陵苏氏的现任家主,原蓝氏弟子脱离了蓝氏后,成为了秣陵苏氏的宗主,因为念及金光瑶不忘家族姓名之恩,至死追随金光瑶他在姑苏蓝氏的时候,并不出名,所以不论是。
  • 社保什么意思包括什么(社保意思是什么包括什么)
  • 2024-11-22社保意思是什么包括什么社保即社会保险,是指国家为了预防和分担年老、失业、疾病以及死亡等社会风险,实现社会安全,而强制社会多数成员参加的,具有所得重分配功能的非营利性的社会安全制度社会保险(SocialInsurance)是。
  • 做生意为什么不能请财神(做生意与敬财神)
  • 2024-11-22做生意与敬财神货殖字典里“货殖”的解释是:经商营利,俗话就是做买卖或做生意货殖一词最早出自《论语•先进》“赐不受命而货殖焉”即指谋求滋生资货财利以致富而言,也就是利用货物的生产与交换,进行商业活动,从中生财求利司马。
  • 迷你世界新年版本那些搞笑的bug(迷你世界愚人节惊喜)
  • 2024-11-22迷你世界愚人节惊喜哈喽,小伙伴们大家好每年的公历4月1日就是愚人节也称万愚节、幽默节,是从19世纪开始在西方兴起流行的民间节日,在这一天人们以各种方式互相欺骗和捉弄,往往在玩笑的最后才揭穿并宣告捉弄对象为“愚人”在今天。
  • 吾家有猫初长成:吾家几代猫成长之路
  • 2024-11-22吾家有猫初长成:吾家几代猫成长之路猫是人类动物驯化史上的一个异类,它可以在家养状态和野生状态自由切换,就这么任性,怎么活,看心情!农家猫成长路上必须经历的一段路便是——学习捕猎,通常这是野生食肉动物才会经历的,但猫在经历人类漫长的驯化。
  • 国企改革的现代企业发展模式(非凡十年国企改革)
  • 2024-11-22非凡十年国企改革每经记者:李可愚每经编辑:陈旭国有企业是中国特色社会主义的重要物质基础和政治基础,是党执政兴国的重要支柱和依靠力量——回顾党的十八大以来的十年,我国国资国企在改革和发展各方面走过了一条极不平凡的道路,。
  • 莞尔是什么意思(莞尔的解释)
  • 2024-11-22莞尔的解释莞尔指微笑的样子拼音:wǎn’ěr出处:《楚辞·渔父》:“渔父莞尔而笑,鼓枻而去”白话释义:渔父微微一笑,拍打着船桨离去常见用法:莞尔一笑示例:她们许久一见不曾在此相逢,彼此莞尔一笑。
  • 查询个人信用报告时要准备什么(个人信用报告查询攻略)
  • 2024-11-22个人信用报告查询攻略中国公民的个人记录长期被记录在中央人民银行信用系统中,形成一份跟随个人一生的档案类文件,这份档案文件就叫信用报告随着中国银行业的飞速发展,个人与银行发生信用卡申请及贷款申请业务时,银行必定会查阅个人信。
  • 69兰亭序人多吗 兰亭序百万级别69级化生寺展示
  • 2024-11-2269兰亭序人多吗 兰亭序百万级别69级化生寺展示大家好!我是逸阳指,「逸阳指看西游」每天为您奉上精彩梦幻资讯!带您回忆美好童年今天给大家展示的是一个来自兰亭序69级暴力华山队的69级化生寺,他们队伍是一化生寺四狮驼岭,是典型的“华山推土机”队伍低等。