近日,由天使翼(武汉)科技创业发展有限公司主办的“2019光谷科创赋能成果转化·追光演讲”活动已圆满落幕。活动中,文华学院副教授、硕士生导师廖剑锋给大家带来《解密中铁12306大数据应用》的主题分享,以下内容由廖剑锋的演讲文字速录整理,略有删减。
12306大家都知道,买火车票的软件!它就是典型的一个大数据应用的项目。如果从角度来说大数据主要是分为五个方面:产生、采集、存储、处理、交易。
产生:过去大数据产生比较多,特别是科学大实验,大实验装置,为什么过去人们不提它?因为它没有走入我们的生活,最近这几年互联网、移动端普及后,一些商业大数据逐渐走入我们的生活。
采集:如何拿到大数据,常见的有两种方式,一种是抓取,二是我们很典型的搜索引擎。
存储:很多地方建设大量存储中心,我国在很多地方设的有存储点,特别是一些硬件设备的企业和一些互联网企业。
处理:大数据处理这一块,做大数据研究的大部分人主要是在这一块做事,主要涉及它的一些核心数据。
全国大数据做的最好的地方是贵州,什么原因呢?主要是因为贵州那个地方是恒温恒湿的地方,恒温恒湿会保证服务器耗能是最少,贵州那个地方建了很多大型的数据中心,建到山洞里面建了很多。
贵州位于七星的腾讯的数据中心,就是把山洞挖空了,他们的服务器就放这个山里面,阿里、华为的都在这一片,这一片没有建这个之前都很荒凉,这是他们的一个市场。
大数据的任督二脉,一个是商业经济价值,还有一个是社会治理,做大数据研究,企业和政府应该说叫各取所需。现在做大数据的研究应该说是业界领先于学术界。大数据更多的的价值本身是直接看不到的,需要用技术挖掘才能发现,需要靠商业驱动,说白了就是要赚钱,有赚钱才有动力,我们有候把大数据比喻成石油,是一个很贵重的东西。现在的大数据政府管控比较多,大多数都用在做社会治理,这个社会治理我们用一句话概括叫宏观调控、微观采集、服务社会、造福人民。
武汉的大数据,武汉市提出“2+8+N”计划,这个2用我们现在所处的鲁巷属于光谷,2就是光谷云村和左岭大数据产业园,8是政务中心、地理空间信息云数据中心、国家数控工程系统云数据中心、长江云数据中心、国家教育云数据中心、国家音视频多媒体云数据中心、全国质量监测与评价云数据中心、中国武汉车联网云数据中心,还有建N个大数据企业……
中铁的12306这个系统是我国比较成功的一个系统。这个系统很复杂。多个方面数据显示12306年售卖30多亿张火车票,互联网售票80%,高峰日售票1280多万张,高峰时每秒售票1000多张,网站高峰日访问量1600亿次。
从库存性比较:淘宝是卖一个少一个,单纯做减一的计算。高铁动车有一千张车票,有17个站,你每卖出一张票意味着每个数据可能性会改变,12306需要强大的计算能力。
从访问高峰比较:淘宝双十一的活动只有一天,春运12306有40天,维持的时间比较长,导致爆发式增长非常非常剧烈,硬件、软件网络等等所有的都要进行设计和扩张。
一是读写分离。12306它后来解决了一个大事,它把查询抛给了阿里云,它自己不分担查询任务,它通过一系列分析发现80%的人都在查,查到最后才买票。
三是双中心双活。北京有两个中心,一个是铁道部建的中心,还有一个铁科院,就是两个机房同时工作,互相备份、互相分担、互为补充,这样做才能够防止系统垮了。
四是混合云架构。中铁和铁科院他们各有一个大型机房,然后把查询的流量给阿里云,阿里云在华北、华东、华南有中心,然后买票的核心业务还是在这两个地方。
五是内存计算。这是一个内存计算的平台,我们现在有很多大数据,如果从简单的做法可以让一些及其扛得住,就是加内存。
六是弹性扩展。这是12306里面的机房,他们里面的人现在在清查数据,比较轻松的时候访问量比较低的时候它的需求就萎缩,很多设备不工作,一旦需求量大就横向扩张。
七是异构数据同步。因为铁道部和铁科院两个中心要给各个分局,比如武汉的分局,它要同步过来,所以它就是异构数据同步。
八是风险控制。其实就是我给大家说的防止刷票和抢票,这是现在12306他们最头痛的一件事,所以他们现在大部分经理大多数都用在干这个。
数据分析早餐时间和次数,这涉及到最终给学生发贫困补助的问题。每年都有很多争议,谁是真正的贫困生?谁有高档消费?我建议谁在学校吃早餐的次数最多最早贫困补助就发给他。天天在宿舍里面打游戏,晚上过夜生活,他一定起不来,一般都是中午吃早餐或定外卖,食堂里面没有他的消费记录。
社会传销风气不好,校园网贷诱惑多,校方再三强调不要校园贷,但是很多学生借了校园贷还瞒着,他想自己扛。还款压力大,他会在网上寻找解决办法,我们利用互联网数据这么多东西看,发现很准确地找到那些学生有网贷问题。
一些女生谈恋爱,稍微不注意保护自身,比如说辅导员看到班上女生情绪低落,问她就是不说。通过一系列分析发现有问题,因为后来辅导员和她深入贪心,才知道出了事。这些都能通过上网络数据知道。
学校有很多涉及到保证人身安全的数据,学生有一些时候可能会遇到一些麻烦,一些不可预测的意外出现,要采取一定的机制,比如通过测评发现学生有严重的心理问题,医生的诊断证实他确实是有问题的,要对他进行危机干预。
还有分析男生,就是有很多学生回宿舍不学习,到底干什么呢?我们专门给他分析,通过上网行为一发现,发生男生天天看一些不良的片子。
一朋友未来岳父一直在考察他,怎么考察呢?老人到男方原工作单位看他有没有人品问题。后来又去男方的大学查看,大学几年的数据,数据一看就还知道他是一个什么样的人。这么多图片,只需要一张图片,成绩绩点和早餐次数表,这是一个宏观的分布图,这是很典型的一个例子。