2021-01-04 10:26:03 阅读(241)
纽约出租车和汽车委员会(NYCTaxiandLimousineCommission,TLC在其网站上公布了2009年1月至2015年12月纽约整个城市共有12亿条出租车出行记录(压缩前数据量约为200GB)。这些数据详细记录了每辆出租车上下乘客的时间和地理位置(精确到经纬度)、旅行距离、旅行费用、支付方式和司机报告的乘客数量。作为城市发展和社会变革的见证人,出租车的活动轨迹为我们一窥纽约背后的故事提供了一扇很好的窗户。在阐述纽约出租车的分析结果之前,让我们简要介绍一下纽约出租车的行业背景。黄色出租车长期以来一直是城市的象征之一(YellowTaxi)这是纽约唯一一辆可以合法经营的出租车。自2013年夏季以来,TLC为数千辆绿色出租车提供了数千辆绿色出租车,以更好地服务于不受黄色出租车欢迎的地区(GreenTaxi)营业执照已颁发。从此,纽约人出行又多了一个选择。因此,TLC发布的数据仅包含了2013年8月以来的绿色出租车数据。然而,与纽约五大行政区域的黄色出租车自由载客不同,绿色出租车的上客区域有一定的限制。下图为TLC公布的绿色出租车合法营业区。绿色出租车可以在绿色区域自由载客,只能在灰色区域(肯尼迪国际机场和拉瓜迪亚机场)预约载客,不能在黄色区域载客。正是由于这个商业区的限制,我们下面看到了很多有趣的现象。首先,让我们来看看上下客地点的整体分布地图。为了显示效果,这两张地图没有包含Statenisland(斯塔滕岛)的数据(主要是因为斯塔滕岛的地理位置远离纽约其他四个行政区域,如果添加,显示效果不太理想)。这两张图分别显示了2009年至2015年7年出租车上下客场的分布地图。黄点代表黄色出租车,绿点代表绿色出租车。亮度越高,频率越高,分布越密集。曼哈顿地区是最密集的地区,无论是上客点还是下客点的分布地图(中间灰色长方块对应纽约中央公园)。除曼哈顿外,机场还有两个高度密集的地区:肯尼迪国际机场和拉瓜迪亚机场。黄点和绿点的分布大致符合黄色出租车和绿色出租车自由载客区的分布,尤其是上客点的分布。最后,通过比较上下客点的分布,我们发现,虽然两者主要集中在曼哈顿岛,但下客点的分布明显向外延伸。在阅读了空间维度的分布地图后,从时间维度来看,从2009年到2015年,特别是在2013年夏季引入绿色出租车后,旅游活动的数量发生了变化。首先是纽约人口最多的行政区--布鲁克林。在引进绿色出租车之前,黄色出租车的客户数量从20万开始/2013年月增长40万/在此期间,纽约人口逐渐从曼哈顿迁移到布鲁克林。在2013年夏季引进绿色出租车后,黄色出租车的客户数量急剧下降,并在半年内被绿色出租车超越。虽然出租车总客量继续增加,但到2015年,黄色出租车的客量已降至2009年的水平。其次是曼哈顿的情况。虽然从2014年开始,黄色出租车的客户数量开始下降,但总客户数量相对稳定。虽然绿色出租车被允许在上城区乘客,但整个地区仍然是传统黄色出租车的世界,绿色出租车只占很小的份额。不同于布鲁克林绿色出租车的强劲崛起,覆盖了黄色出租车和曼哈顿黄色出租车的国王地位,尽管皇后绿色出租车的市场份额在短短一年内上升到40%,但之后稳定下来,一直没有超过黄色出租车,而且后者的客户数量一直比较稳定。结合之前的绿色出租车免费乘客区和地理分布图,一个合理的解释是,除了曼哈顿,肯尼迪国际机场和拉瓜迪亚机场是纽约另外两个密集的地方,两个机场都在皇后区。由于黄色出租车可以在机场自由载客,而绿色出租车只能在机场预约载客,机场巨大的客户数量基本上流向黄色出租车。在对威廉斯堡北部的行政区域进行分析后,我们将重点关注具体的街区。从2009年到2015年,我们来看看纽约城出租车活动增长最快的街区。与皇后区快速增长的街区不同,布鲁克林区增长最快的街区集中在威廉斯堡北部。现在让我们关注威廉斯堡北部,看看这些年发生了什么。上图显示了威廉斯堡北部上客点的动态变化图。从总体趋势来看,从2009年到2014年,旅游活动迅速增长,然后开始稳定下来。具体到地理位置,快速增长的上客点主要集中在威思大街。(WytheAve)、贝里街(BerrySt)、北7街(North7)thSt),北11街(North11thst)和北12街(North12thst)附近。其中,Output在威思街、北11街和北12街附近、Verboten夜总会(通过谷歌地图,我们可以很容易地了解这些地方的类型)和威斯酒店(WytheHotel);在贝里街和北11街附近,ThewhiskeyBroklyn(酒吧);Shelter(餐厅)在威思街和北7街附近、RosaritoFishShack(餐厅)和D..O.CWineBar(餐馆)。这些消费场所基本上都是在过去的七年里开放的(或者万能谷歌),带动了当地的消费活动和旅游活动。这些消费场所基本上是在过去七年开放的(或通用谷歌),并推动了当地的消费活动和旅游活动。然而,随着2014年以后旅游活动数据的稳定,目前尚不清楚这是否意味着该地区的业务发展已经达到饱和阶段。结合美国国家气象中心提供的纽约中央公园的观测数据,我们可以分析雨天和雪天对旅游活动的影响。一般来说,雨天对纽约人的旅行没有明显影响;雪天有负面影响。雪越大,人们就越不愿意旅行。最后,让我们来看看旅行支付方式的变化。TLC提供的数据包括现金和信用卡两种有效的支付方式。我们可以看到,信用卡支付的比例从2009年的20%上升到2015年的60%,反映出信用卡在日常消费中越来越普遍。根据支付金额的细分,虽然信用卡支付的总体趋势越来越普遍,但当金额较小(小于10美元)时,人们仍然倾向于用现金支付。综上所述,由于时间和长度的关系,在本文中,我们只是用12亿条出行记录做了一些简单的分析,有权抛砖引玉。感兴趣的读者可以利用这些数据进行更有趣的分析,如纽约夜总会集中在哪里,从曼哈顿中心城市到机场需要多长时间,华尔街银行家通勤时间,9.11事件10周年纪念仪式交通,以及布鲁斯。威利斯和塞缪尔。杰克逊是否能在30分钟内从曼哈顿到西城到华尔街地铁站,等等。在去年11月的一篇博客文章中,Todschneider基于PostgreSQL使用他的苹果笔记本+PostGIS+R+GoogleMapi技术栈对这些数据进行了一系列分析,并对其进行了代码分析(SQL,将Shell和R脚本放在GitHub上。GitHub代码README.md文件中的一个问题引起了我们的兴趣:为什么不使用BigQuery和Redshift呢?BigQuery和Redshift分别是Google云平台和AmazonWebService上的数据仓库服务。本文中的数据分析也是基于Todd提供的脚本,并添加了2015年下半年的数据(Todd写文章时TLC还没有披露这部分数据)。然而,与Todd使用PostgresQL不同,虽然我们没有使用BigQuery和Redshift,但我们使用了另一个功能相似的云数据仓库--HashData(关于HashData数据仓库的详细介绍,请参考我们之前的文章)。因此,本文中使用的数据分析技术栈是:HashData+PostGIS+R+GoogleMapAPI。在HashData强大的并行执行引擎的帮助下,我们将Todd用他的苹果笔记本电脑完成的数据分析任务缩短到不到两个小时,不到20元。为了方便感兴趣的读者进行更深入的分析,我们在青云对象存储QingStor中放置了12亿条加工后的出行记录数据。HashData数据仓库提供直接从QingStor加载数据的功能。读者一旦将数据加载到数据仓库,就可以利用上述技术栈对数据进行分析。
以上就是关于12亿条纽约出租车出行数据的相关介绍,更多12亿条纽约出租车出行数据相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对12亿条纽约出租车出行数据有更深的了解和认识。
推荐阅读
最新文章
猜你喜欢以下内容:
一 客户顾问-张三 一