• 刘冬梅:春运大数据分析报告
    2015-04-28 10:16:14   来源:Tranbbs.com    评论:0 点击:

    刘冬梅:各位领导,各位同仁,大家好,我是公路院的刘冬梅,也是ITS中心的。我和大家分享一下关于春运大数据分析报告的内容,其实这个内容我们为什么会去做这件事情呢?就是我们在和政企合作过程中,我们在和百度合作,大家以为它手上有很多的数据,大家也都希望这个数据能有所运用,我们就尝试着和百度公司合作,看能不能给我们行业里面做出一些有用的信息。我今天给大家分享的就是在这么一个背景下的尝试。

        这是基于我们今年刚刚过去的春运来说的,首先说一下数据的来源,这张图在李志堂的图里面已经出现过了,这个图其实是指春节期间百度每天有130到140亿次的定位,覆盖了3.5亿的智能手机的示意图,在这个数据背景下,我们抓取了腊月19到年初八二十天左右的春节数据进行了分析,这个里面没有含港澳台的数据,因为百度的数据在那面的使用还不够多,所以我们现在主要是针对大陆数据的分析。

        第二块儿的内容是我们得到的一些相关结论。第一是人的迁徙,所谓百度改百度迁徙,我们是指人从O到D的地址的变化,它的迁徙量,首先是它和人口是正相关的,就是我这个地区人口多那么迁徙量肯定就比较大。当然,这个里面还有一个需要看一下的,比如说这个,我们这个绿色的线,其实是省里面的人口数,红色和蓝色的线代表的是迁徙量,大家可以看出,在山东省,他的人口很多,但是他的迁徙量其实是并不高的。这个里面我们分析了一下为什么会有这种情况,目前我们自己的分析结论是因为和地域的出行习惯有关系,在山东省内的人更希望在省内的出行,因为我们这个是省际的出行结果。

        第二我们还对省和省之间的省际出行也挑了四个省进行了一个比较详细的分析,包括广东、浙江这两个省际出行前两名的省,从广东来看,省内出行占到全省出行的58%,这个比例基本上和其他省的比例差不多,大概就是省内的会稍微多一点,广东升到广西、湖南的辐射区基本上覆盖了六个省。对浙江我们也进行了分析,浙江的情况就和广东的差异有一点大,它省内的出行占全省的出行35%,他到周边的省份,尤其是到安徽、江西和湖南这三个省的比例更大一些。同时我们也对西藏和新疆这两个自治区也进行了分析,因为它是在大陆的自治区和省里面出行量是最低的。西藏里面有52%是区内出行,省际出行是到四川和青海,同时还有河南和陕西,总共的迁徙量可以达到85%。从新疆自治区里面来看,它全区的出行,新疆人好象不太爱出门,76%都是在区内出行的,剩下的24%是到甘肃、河南、山西。这个是对于单个省的,从这个情况来看,我们发现它的总体出行距离其实一般是在400公里左右。

        同时我们还对于热点城市,刚才是以省为对象进行了分析。我后面还对城市进行了分析,从城市的分析里面,我们可以看到两个特点:第一个特点是这个城市的迁徙量肯定是和城市本身的体量和人口数是正相关的,这个是非常明确的。第二个特点是目前城市到城市之间的迁徙量基本上是大城市到小城市,这个特征也比较明显。春节期间我们全国的交通出行的平均距离是408公里,500公里以内的占到74.29%,1000公里以内的是89.76%。

        还有一个就是我们刚才说到的,就是城市和城市之间有两个特点,一个是大型城市和临近相对不发展的城市之间的人口迁徙量会更大,我这个图里面显示的前15位的热点城市点对,这个里面大家可以看到西安到渭南、郑州到开封等等这些可能在我们通常看到的统计里面看不到的这些信息,也可以很明确的在前15的热点城市点对立面显示出来。第二个点对是两个大城市之间的迁徙也是比较大的,比如说上海到苏州,深圳到惠州这种大城市之间的迁徙。

        同时我们还看了一下最热的路线,这个路线我就不多说了,这个路线我们是希望比如说上海到南京到鲁南到苏州的这种比较热的路线上面,我们客运的供给情况是什么样的,其实是一个非常值得去研究的话题。

        简单总结一下,我们的特征,第一是省内出现的热度是高于省际出行的,经济发达的省份里面,特大城市和小城市的出行是热点线路的最主要的构成。这个在刚才前15个点对里面大家可以看得很清楚。第二个是排名前50的全国热点线路,它的出行距离都是在500公里以内。

        在百度已经有的数据基础上,我们也对铁路和航空枢纽进行了点的吸引的客流量的强度进行了比较。从航空枢纽上面来看,北上广深这些城市大型机场的枢纽地位十分明显,从这张图里面也可以看得出来,长江以北只有北京一个是属于在前十名的机场的枢纽站排名前十的,除了他之外都是在长江以南,这个其实对我们真正交通运输枢纽的设计也会有一定的影响。

        我们再看铁路,铁路的数据我和百度这边合适过,他们取的是一二级的铁路站划了一个区域,进入这个区域的客流量的大小,他进行了全体的统计,然后进行了一个排序,统计出来之后我们会发现,热点的车站是和我们目前南北向的铁路骨架完全吻合的,它和前面航空的热点的分布还是有一定的差异化的表现的。

        简单给大家汇报一下我们这二十天的分析结果的主要结论,一个是春运期间的交通压力特征突出表现在特大城市和周边中小城市之间的需求,对于短途客运和部分城市公交产生了比较大的压力。二个是省际的出行主要由道路和铁路运输网络承担,对于中短途的道路客运依然还有较大的市场需求。三是我们认为机场和火车站热度分布的结果可以为我们综合运输网络评估和优化提供参考。

        当然,我们也希望这个数据跟运输司和客运处也沟通过,希望我们在明年能够把长途客运站的人口热度也放进去,然后我们做一个综合对比。今天分享的程度相对来说还是非常浅显的,因为只是一些数据特征的挖掘和分析,其实这个里面如果和我们传统了交通网络和我们共计的能力结合起来的话,它对于诊断我们春运期间的热点还是很有优势的。第二个是我们将全国很重要的道路运输客运站列入到我们的氛围之内。同时,我们也建议互联网产生的这些交通大数据还是要进行保存、利用和分析,当然,这个建议我认为可能是我们和百度合作过程中发现的问题,他们可能只存一个星期的数据,而我们想做这个数据分析的话,必须要专门让他们保存出来,如果我们想看去年的数据,他们目前是没有的,必须要把它存起来才能用,所以这个也是我们一个很简单的建议。

        大概就是这么多内容,谢谢大家。


    责任编辑:李泳材

    相关热词搜索: 大数据

    上一篇:邱卫云:江苏省政企合作信息服务进展与思考
    下一篇:最后一页

    智能交通行业首家推出移动互联网媒体,每日更新 !让您随时随地了解行业资讯。
    专栏观点更多>>
    BBS观点更多>>