大数据存在的问题及解决方案(值得你思考的问题)
大数据存在的问题及解决方案(值得你思考的问题)
2024-07-01 02:14:28  作者:只写了一半  网址:https://m.xinb2b.cn/tech/rkc297845.html

大数据存在的问题及解决方案(值得你思考的问题)(1)

1,大数据的运用-案例

CieloMar:CaRRot能不能例举一个你们公司里大数据分析的例子,以及如何定价?

CaRRot:数据公司的实用案例: 我就说我最近做的这个吧,某个服装快消品牌想了解中国的洗衣习惯,比如什么样的面料会机洗,什么会手洗,什么要干洗。第一步就是采集信息,从新浪微博上采集近3年相关的微博(按相关关键字),第二步清洗数据与存储,把没用的信息顾虑掉,有用的进行分类存储。第三步就是数据挖掘,按照数据挖掘的算法进行一些运算(比如这个场景比较适合关联规则)来得出结果,至于这个结果是什么样的,这个就要看你建立的模型的输出了。最后一步是数据验证了,就是验证你模型的选的合不合适,模型里面的参数是否需要变化。但是目前我做的这个没有合适的结果集来做验证,所以我就略去了。。。 总结一下大致的步骤就是数据采集(data crawling)-》数据分类和存储(data housing)-》数据挖掘(data mining)-》数据验证(data verification)。关于定价问题,其实我感觉这个弹性很大,这个要看客户了,如果是大客户的话,肯定会要得多一些。

CieloMar:数据采集就是用微博关键词?比如说这个案例里你们输入的关键词是什么?然后你们使用微博的数据,是公共资源还是跟微博买的数据?

CaRRot:数据采集就是用微博的关键词,但是我们会用 nlp(自然语言处理)来做一些联想,近义词联想.数据是新浪公共资源,和新浪做partner成本太高了。

CieloMar:比如说这个案例里,你们数据来源仅仅是微博吗?

CaRRot:其实做多个数据源的不大好做,因为各个数据源之间的权重不太好把握,比如来自新浪和微信的消息哪个更重要一些?主要看客户要求,客户目前只要做微博的就做微博的。

CieloMar:多个数据源结果不一样,是不是就意味着单一数据源结果不太准,也就导致大数据分析后的结果不准确?

CaRRot:这个不一定,这个要看你研究面向的群体了,比如想研究中国20-40这个年龄段的人,微博应该是最好的选择。

2,大数据模型

Reinaldo :大数据的模型到底是个什么感觉啊?不太能想像。

CaRRot:大数据类型的线性是怎么样的?正相关还是分散随机的。最简单的一个例子,比如预测用户购买行为,用户对此产品的互动率x(点击,收藏,加入购物车),我们需要求出用户购买该产品的概率y,那么我们可以定义y=ax,这个公式就是最简单的模型,当然,这个模型不一定适用于这个场景,在具体场景中系数肯定不止a一个。

Reinaldo:所以说针对不同情况都有各自的一个模型是吧?其实就像一个数据的分析方法?

CaRRot:针对不同场景是会建立一个合适与该场景的模型,因地制宜。建模整个过程涵盖了数据分析。从一开始的模型预测,到最后的结果验证都需要。

3,大数据与金融

Wendy:本书最开我眼界的地方,有三个。一个是样本=总体。经济学专业在做研究时,都是以一部分数据为样本来做的。随着it 技术的发展,和数据采集方法的改善。样本=总体应该能得到实现,现阶段经济计量研究方法也会受到冲击。第二是只关注相关关系,而忽略因果。和Reinaldo的感受一样,这个观点很具有冲击性。然而经济学研究中,其实也是相关重要于因果的。经济学研究很多是基于最小二乘法研究内生变量怎么随外生变量变化,例如Y=aw bz ck,研究的是每单位w,z,k的变化怎样引起y的变化。而只有一部分研究,研究的是因果关系,这时我们会引入格兰杰因果模型进行研究,但这样的研究是少数。第三,大数据对金融行业的冲击。大数据是否能代替掉行业专家?在金融行业里就是行研员和基金经理。在整个金融行业,量化金融—利用金融模型选股,构建投资组合,防范风险是必然的趋势。但是可以说没有一家金融机构敢完全依赖量化这条路。美国股市的黑色星期五,就是过渡依赖量化工具产生的。量化vs行研。索罗斯vs巴菲特,基金经理是否能创造价值,现在依然是金融界的一个hot topic。

CieloMar:从经济学角度阐述真好!不过最后两句话几个专业术语不太懂,格兰杰因果模型?书中提过吗?请解释一下。

Wendy:格兰杰因果模型,书中没有,用以分析两相关序列之间,是否因果,谁因谁果,或互为因果。

4,负面影响以及存在问题

CieloMar: Reinaldo,关于你写的文章我有几个问题:1,我认为大数据不会完全颠覆某个行业,新闻还是新闻,本质是不变的,只是行事方式变了。 2,我有个疑惑,过分依赖于数据,忽略思考因果关系,这是否会削弱我们的思考判断能力,比如我们就直接看去哪儿网的价格曲线买便宜机票,不需要去思考为什么机票会便宜,比如动车的修建降低了票价等,慢慢地我们会过分依赖数据而不是思辨能力。再比如你提到的新闻行业,我们总是通过数据来拍版,挑选新闻,这样新闻的质量慢慢降低,毕竟大部分人是“乌合之众”,而这种降低已经在发生。

Reinaldo:我基本认同乌合之众的说法,门户网站的新闻排名已经反应出来:标题党新闻最受宠、最吃香,这大概和人的天性有关,但并不意味着会让严肃的报道消失。我说的颠覆行业,更多指传统生产方式已经被改写了,无力回天,但包括报纸在内的传统媒体肯定会存在,类似广播仍存在一样,但不会占主流。而且,新闻消息的未来肯定不能再延用主编拍板的方式。至于内容低俗与否,我更倾向于用教育来引导认识,新闻媒体可以较少承担教育的功能。我认同技术改变现有行业规则,至于在改变过程中的乱象,我认同杨导的说法,技术进步会把现有的问题逐步解决。

Ada:关于这个问题,推荐大家书籍《乌合之众》。

Wendy:高科技的负面影响,推荐英剧Black Mirror(《黑镜》),以及书籍《娱乐至死》。

CieloMar:大数据目前面临的问题还有点补充:1大数据乃至说计算机行业发展得如此快,如何完善法律也是一个问题。 2网络安全问题,大家对个人隐私只会越来越重视,如何保护好大家的隐私也是关注焦点。

Reinaldo:这个(网络安全问题)在技术上,我觉得不难解决,关键是配套的法律、制度,其实我也很担心大数据被政府利用变成了《1984》的无处不监控。

CieloMar:所以网络安全也会很有市场,能否叫它大数据带来的“周边产品”?我觉得这样的周边市场还有很多,一旦某样事物火了,一定会有很多周边市场出现,所以大家忙着大数据时候,多关注周边也是一条思路。

5,值得你思考的问题!

杨导:

1 大数据可能会颠覆我们的认识,思考的时候"怎么样"比"为什么"更重要。

2 通过读书之后,我觉得怎样获取数据和利用数据很重要,是一个应该注意的方面。

3 其实书里面举的例子说亚马逊推荐相关书籍是利用了大数据,但实际上它只提高了销量,长期来看用户的体验并不好(个人认为,你们觉得呢),所以在利用大数据做推荐和营销的时候,如何提高用户体验尤其重要。

4 目前来看,大数据更多的是用在商业领域,后期发展成熟我觉得它将非常可怕,这是一个隐患。如何防患这种隐患很重要。大家都愿意去做先赚钱的事情,但很少有人愿意做先预警危机的人。

5 还有一个印象深刻的就是"数据废气",利用大家都不在意的点做些文章。

6 这是我最想强调的一点,就是实践,不要怕错,我只想利用简单的模型去印证我怀疑的东西。还有书中的说法,我希望通过实验去看一下。有兴趣的亲们一起尝试一下啊,然后我们互相交流感受。

  • 捷达ABS灯亮是怎么回事?(ABS灯有什么作用?)
  • 2024-07-01ABS灯有什么作用?捷达ABS灯ABS灯亮表示防抱死制动系统警报正常情况下,打开点火开关或启动发动机时该灯即亮,系统进入自动检测程序,完成检测后,该灯熄灭ABS系统的功能当车轮即将到达下一个锁死点时,刹车油的压力使得气囊。
  • 怎么蒸出好吃的红薯(蒸红薯的办法)
  • 2024-07-01蒸红薯的办法食材:红薯适量,水适量备好蒸锅红薯洗净备用一定要把红薯洗净放入红薯蒸20分钟就熟了上汽20分钟以后,可以观察红薯,用筷子扎一扎熟透的红薯一扎就透了没有任何阻力熟红薯很容易剥皮不要用水煮,就不好吃了在河。
  • 刘亦菲现任男朋友标准(天仙的口味很独特)
  • 2024-07-01天仙的口味很独特昨天全民星探在微博里宣布周三见,今早便公布了偷拍到的刘亦菲和宋承宪约会照片,就在网民以为这是剧组为了电影上映炒作的时候,宋承宪竟然在今日下午单方面承认了二人真的正在开始交往,这让很多刘亦菲的粉丝大感失。
  • 社保流水账单怎么打印(怎么打印社保流水账单)
  • 2024-07-01怎么打印社保流水账单社保流水账单的打印方法很简单,可以直接登录社会保险个人网页,在经过注册之后,输入账号和密码,就可以自行打印可携带个人的社保卡,身份证,来到社保分局的自助打印机,通过自助的方法打印流水账单或者也可以携带。
  • 古文诗词常用的典故百步穿杨(古文诗词常用的典故)
  • 2024-07-01古文诗词常用的典故时光不会辜负读书的你——逐臭【典源】《吕氏春秋·遇合》:“人有大臭者,其亲戚兄弟妻妾知识(了解,熟悉),无能与居者,自苦而居海上海上人有说(悦)其臭者,昼夜随之而弗能去”【释义】身上有恶臭的人,因亲属。
  • 5万首付能买什么公寓(首付2万月供160080后看不上的公寓)
  • 2024-07-01首付2万月供160080后看不上的公寓首付最低仅2万,收租2000元/月,月供1600……近期,楼市君朋友圈里被“低首付、低月供”公寓成交信息刷屏了8090后曾经“嫌弃”的公寓,现在反而被00后盯上公寓门槛再降低,有机会成为“年轻人的第一。
  • 如何看懂潜台词的答案(潜台词许多人听不懂)
  • 2024-07-01潜台词许多人听不懂人际交往中,语言艺术特别重要,会说话是情商高的一个标志,会说话,就是尽量说别人喜欢听的,别人不喜欢听的那就少讲、不讲;说话应该挑重点说,可能引起矛盾的话不要说;会说话,就是话不要说的太满,说的话要留有。
  • 985是哪几所大学(985的大学都有哪些呢)
  • 2024-07-01985的大学都有哪些呢全国共39所大学,分别是:清华大学、厦门大学、南京大学、天津大学、浙江大学、西安交通大学、东南大学、上海交通大学、山东大学、中国人民大学、吉林大学、电子科技大学、四川大学、华南理工大学、兰州大学、西北。
  • dotasolo规则(DOTA约定俗成的潜规则)
  • 2024-07-01DOTA约定俗成的潜规则NO.5选人定理:二八定理:百分之二十的英雄占据了百分之八十的出场率火枪定理:如果你手选了火枪,那么对面肯定会有白牛(同理适合于影魔)炸弹人定理:有炸弹人的局,神符永远没人吃先知定理:相信我,在你选出。
  • 黄体酮推迟月经效果好吗(吃黄体酮推迟月经)
  • 2024-07-01吃黄体酮推迟月经可行,吃法和用法不止一种以一个月经周期为28天的正常女性举例,她在月经的第14天排卵,排卵后黄体形成,黄体产生孕激素(黄体酮)如果没有受精卵着床,黄体逐渐萎缩,分泌的黄体酮急剧下降,内膜撤退性出血,也。
  • 好听有创意的群名字(比较好听的群名字)
  • 2024-07-01比较好听的群名字夏沫青城烂始、善终倾此生只为伊人暮冬残念九寸荒凉仙女味的小可爱只有一颗心忽尔今夏屍姬¢猪头小分队亲亲一家人钟爱美食联盟沙雕集团有福同享有难退群爱之梦家庭群戏精学院天南地北永不离懒懒的一家人游走的灵魂公。