1,大数据的运用-案例
CieloMar:CaRRot能不能例举一个你们公司里大数据分析的例子,以及如何定价?
CaRRot:数据公司的实用案例: 我就说我最近做的这个吧,某个服装快消品牌想了解中国的洗衣习惯,比如什么样的面料会机洗,什么会手洗,什么要干洗。第一步就是采集信息,从新浪微博上采集近3年相关的微博(按相关关键字),第二步清洗数据与存储,把没用的信息顾虑掉,有用的进行分类存储。第三步就是数据挖掘,按照数据挖掘的算法进行一些运算(比如这个场景比较适合关联规则)来得出结果,至于这个结果是什么样的,这个就要看你建立的模型的输出了。最后一步是数据验证了,就是验证你模型的选的合不合适,模型里面的参数是否需要变化。但是目前我做的这个没有合适的结果集来做验证,所以我就略去了。。。 总结一下大致的步骤就是数据采集(data crawling)-》数据分类和存储(data housing)-》数据挖掘(data mining)-》数据验证(data verification)。关于定价问题,其实我感觉这个弹性很大,这个要看客户了,如果是大客户的话,肯定会要得多一些。
CieloMar:数据采集就是用微博关键词?比如说这个案例里你们输入的关键词是什么?然后你们使用微博的数据,是公共资源还是跟微博买的数据?
CaRRot:数据采集就是用微博的关键词,但是我们会用 nlp(自然语言处理)来做一些联想,近义词联想.数据是新浪公共资源,和新浪做partner成本太高了。
CieloMar:比如说这个案例里,你们数据来源仅仅是微博吗?
CaRRot:其实做多个数据源的不大好做,因为各个数据源之间的权重不太好把握,比如来自新浪和微信的消息哪个更重要一些?主要看客户要求,客户目前只要做微博的就做微博的。
CieloMar:多个数据源结果不一样,是不是就意味着单一数据源结果不太准,也就导致大数据分析后的结果不准确?
CaRRot:这个不一定,这个要看你研究面向的群体了,比如想研究中国20-40这个年龄段的人,微博应该是最好的选择。
2,大数据模型
Reinaldo :大数据的模型到底是个什么感觉啊?不太能想像。
CaRRot:大数据类型的线性是怎么样的?正相关还是分散随机的。最简单的一个例子,比如预测用户购买行为,用户对此产品的互动率x(点击,收藏,加入购物车),我们需要求出用户购买该产品的概率y,那么我们可以定义y=ax,这个公式就是最简单的模型,当然,这个模型不一定适用于这个场景,在具体场景中系数肯定不止a一个。
Reinaldo:所以说针对不同情况都有各自的一个模型是吧?其实就像一个数据的分析方法?
CaRRot:针对不同场景是会建立一个合适与该场景的模型,因地制宜。建模整个过程涵盖了数据分析。从一开始的模型预测,到最后的结果验证都需要。
3,大数据与金融
Wendy:本书最开我眼界的地方,有三个。一个是样本=总体。经济学专业在做研究时,都是以一部分数据为样本来做的。随着it 技术的发展,和数据采集方法的改善。样本=总体应该能得到实现,现阶段经济计量研究方法也会受到冲击。第二是只关注相关关系,而忽略因果。和Reinaldo的感受一样,这个观点很具有冲击性。然而经济学研究中,其实也是相关重要于因果的。经济学研究很多是基于最小二乘法研究内生变量怎么随外生变量变化,例如Y=aw bz ck,研究的是每单位w,z,k的变化怎样引起y的变化。而只有一部分研究,研究的是因果关系,这时我们会引入格兰杰因果模型进行研究,但这样的研究是少数。第三,大数据对金融行业的冲击。大数据是否能代替掉行业专家?在金融行业里就是行研员和基金经理。在整个金融行业,量化金融—利用金融模型选股,构建投资组合,防范风险是必然的趋势。但是可以说没有一家金融机构敢完全依赖量化这条路。美国股市的黑色星期五,就是过渡依赖量化工具产生的。量化vs行研。索罗斯vs巴菲特,基金经理是否能创造价值,现在依然是金融界的一个hot topic。
CieloMar:从经济学角度阐述真好!不过最后两句话几个专业术语不太懂,格兰杰因果模型?书中提过吗?请解释一下。
Wendy:格兰杰因果模型,书中没有,用以分析两相关序列之间,是否因果,谁因谁果,或互为因果。
4,负面影响以及存在问题
CieloMar: Reinaldo,关于你写的文章我有几个问题:1,我认为大数据不会完全颠覆某个行业,新闻还是新闻,本质是不变的,只是行事方式变了。 2,我有个疑惑,过分依赖于数据,忽略思考因果关系,这是否会削弱我们的思考判断能力,比如我们就直接看去哪儿网的价格曲线买便宜机票,不需要去思考为什么机票会便宜,比如动车的修建降低了票价等,慢慢地我们会过分依赖数据而不是思辨能力。再比如你提到的新闻行业,我们总是通过数据来拍版,挑选新闻,这样新闻的质量慢慢降低,毕竟大部分人是“乌合之众”,而这种降低已经在发生。
Reinaldo:我基本认同乌合之众的说法,门户网站的新闻排名已经反应出来:标题党新闻最受宠、最吃香,这大概和人的天性有关,但并不意味着会让严肃的报道消失。我说的颠覆行业,更多指传统生产方式已经被改写了,无力回天,但包括报纸在内的传统媒体肯定会存在,类似广播仍存在一样,但不会占主流。而且,新闻消息的未来肯定不能再延用主编拍板的方式。至于内容低俗与否,我更倾向于用教育来引导认识,新闻媒体可以较少承担教育的功能。我认同技术改变现有行业规则,至于在改变过程中的乱象,我认同杨导的说法,技术进步会把现有的问题逐步解决。
Ada:关于这个问题,推荐大家书籍《乌合之众》。
Wendy:高科技的负面影响,推荐英剧Black Mirror(《黑镜》),以及书籍《娱乐至死》。
CieloMar:大数据目前面临的问题还有点补充:1大数据乃至说计算机行业发展得如此快,如何完善法律也是一个问题。 2网络安全问题,大家对个人隐私只会越来越重视,如何保护好大家的隐私也是关注焦点。
Reinaldo:这个(网络安全问题)在技术上,我觉得不难解决,关键是配套的法律、制度,其实我也很担心大数据被政府利用变成了《1984》的无处不监控。
CieloMar:所以网络安全也会很有市场,能否叫它大数据带来的“周边产品”?我觉得这样的周边市场还有很多,一旦某样事物火了,一定会有很多周边市场出现,所以大家忙着大数据时候,多关注周边也是一条思路。
5,值得你思考的问题!
杨导:
1 大数据可能会颠覆我们的认识,思考的时候"怎么样"比"为什么"更重要。
2 通过读书之后,我觉得怎样获取数据和利用数据很重要,是一个应该注意的方面。
3 其实书里面举的例子说亚马逊推荐相关书籍是利用了大数据,但实际上它只提高了销量,长期来看用户的体验并不好(个人认为,你们觉得呢),所以在利用大数据做推荐和营销的时候,如何提高用户体验尤其重要。
4 目前来看,大数据更多的是用在商业领域,后期发展成熟我觉得它将非常可怕,这是一个隐患。如何防患这种隐患很重要。大家都愿意去做先赚钱的事情,但很少有人愿意做先预警危机的人。
5 还有一个印象深刻的就是"数据废气",利用大家都不在意的点做些文章。
6 这是我最想强调的一点,就是实践,不要怕错,我只想利用简单的模型去印证我怀疑的东西。还有书中的说法,我希望通过实验去看一下。有兴趣的亲们一起尝试一下啊,然后我们互相交流感受。