可视化主要使用 plotly,数据处理主要使用 pandas

 

📣 前言

  • •Step 1. 导入模块
import pandas as pd
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots

Step 2. 数据总览

数据下载:查看文章末尾获取

file_path = '/home/mw/input/subway2423/地铁客流-2024年更新.xlsx'
xls = pd.ExcelFile(file_path)

sheet_names = xls.sheet_names
sheet_names

输出结果:

['数据概览''分流客流''过去三个月趋势''客流量预测''历史客流top10''年日均客流''月日均客流''周日均客流']

这份数据包含以下8个sheet表:

  1. 1. 数据概览
  2. 2. 分流客流
  3. 3. 过去三个月趋势
  4. 4. 客流量预测
  5. 5. 历史客流top10
  6. 6. 年日均客流
  7. 7. 月日均客流
  8. 8. 周日均客流
# 创建一个字典来存储每个工作表的数据框
sheet_dataframes = {}

# 将每个工作表的数据读取到数据框中,并存储在字典中
for sheet in sheet_names:
sheet_dataframes[sheet] = xls.parse(sheet)

# 显示每个数据框的前几行,以便对数据进行概览
sheet_overviews = {sheet: dataframes.head() for sheet, dataframes in sheet_dataframes.items()}
sheet_overviews

Step 03. 数据概览数据可视化

这是“数据概览”sheet中关于不同城市地铁运营的几个关键指标的数据可视化总结:

  1. 1. 各城市地铁运营线路数(蓝色条形图):展示了上海、常州、北京、广州和西安的地铁运营线路数量。北京在这几个城市中拥有最多的运营线路。
  2. 2. 各城市地铁运营站点数(绿色条形图):展示了相同城市的地铁运营站点数量。上海在这几个城市中拥有最多的运营站点。
  3. 3. 各城市地铁运营里程(红色条形图):展示了这几个城市的地铁运营里程。上海的运营里程最长,达到约800.59公里。
  4. 4. 各城市地铁最高客流量(紫色条形图):展示了这几个城市的地铁最高客流量记录。上海的地铁最高客流量最大,达到约1339.7万人次。

这些图表为我们提供了不同城市地铁运营规模和客流情况的基本概览。

overview_data = sheet_dataframes['数据概览']
fig1 = px.bar(overview_data, x='城市', y='运营线路', title='各城市地铁运营线路数', labels={'运营线路''运营线路数'})
fig1.update_traces(marker_color='skyblue', marker_line_color='black', marker_line_width=1.5)

fig2 = px.bar(overview_data, x=‘城市’, y=‘运营站点数’, title=‘各城市地铁运营站点数’, labels={‘运营站点数’‘运营站点数’})
fig2.update_traces(marker_color=‘salmon’, marker_line_color=‘black’, marker_line_width=1.5)

fig3 = px.bar(overview_data, x=‘城市’, y=‘运营里程/km’, title=‘各城市地铁运营里程’, labels={‘运营里程/km’‘运营里程/km’})
fig3.update_traces(marker_color=‘lightgreen’, marker_line_color=‘black’, marker_line_width=1.5)

fig4 = px.bar(overview_data, x=‘城市’, y=‘最高客流’, title=‘各城市地铁最高客流量’, labels={‘最高客流’‘最高客流量’})
fig4.update_traces(marker_color=‘lightsalmon’, marker_line_color=‘black’, marker_line_width=1.5)

fig = make_subplots(rows=2, cols=2, subplot_titles=(‘各城市地铁运营线路数’‘各城市地铁运营站点数’‘各城市地铁运营里程’‘各城市地铁最高客流量’))
fig.add_trace(fig1[‘data’][0], row=1, col=1)
fig.add_trace(fig2[‘data’][0], row=1, col=2)
fig.add_trace(fig3[‘data’][0], row=2, col=1)
fig.add_trace(fig4[‘data’][0], row=2, col=2)

fig.update_layout(height=800, width=1200, showlegend=False,template=‘ggplot2’,)
fig.update_xaxes(showline=True, linewidth=1, linecolor=‘black’)

fig.show()

输出可视化结果:

Step 04. 分流客流

flow_data_xian = sheet_dataframes['分流客流']

输出可视化结果:

这是西安地铁各线路的分流客流量条形图。从图中可以看出:

  • • 西安地铁的某些线路,如2号线,有较高的客流量。
  • • 其他线路,如5号线,客流量相对较低。

Step 05. 过去三个月趋势

上海地铁过去三个月客流量趋势

# 从'过去三个月趋势'工作表中提取上海市的数据
trend_data_shanghai = sheet_dataframes['过去三个月趋势'].loc[sheet_dataframes['过去三个月趋势']['city'] == '上海']

# 将’date’列转换为日期时间格式
trend_data_shanghai[‘date’] = pd.to_datetime(trend_data_shanghai[‘date’])

# 按日期对数据进行排序
trend_data_shanghai = trend_data_shanghai.sort_values(by=‘date’)

输出可视化结果:

这是上海地铁过去三个月的客流量趋势图。从图中可以看出:

  • • 在这三个月内,上海的地铁客流量有波动,但整体上保持在一个相对稳定的水平。
  • • 有些特定日期客流量出现高峰,可能是由节假日、周末或其他特殊事件引起的。

城市间客流量对比

比较不同城市在同一时间段内的平均客流量,看看哪个城市的地铁系统最繁忙。

trend_data_all_cities = sheet_dataframes['过去三个月趋势']

trend_data_all_cities[‘date’] = pd.to_datetime(trend_data_all_cities[‘date’])

city_avg_flow = trend_data_all_cities.groupby(‘city’).mean().reset_index()

输出可视化结果:

这是不同城市地铁平均客流量的对比图。从图中可以看出:

  • • 在所提供的样本数据中,上海的平均地铁客流量是最高的,这表明上海的地铁系统可能是最繁忙的。
  • • 其他城市如西安的平均客流量相对较低。

这个图表帮助我们理解不同城市地铁系统的繁忙程度。

周末与工作日对比

工作日和周末的数据,可以比较不同城市在这两段时间的客流量差异。

# 要比较周末和工作日的客流量,首先需要确定哪些日期是周末
# 假设周末为周六(5)和周日(6),这在许多国家都是典型的
trend_data_all_cities['weekday'] = trend_data_all_cities['date'].dt.weekday
trend_data_all_cities['is_weekend'] = trend_data_all_cities['weekday'].apply(lambda x: 1 if x in [56else 0)
# 按城市和周末标志分组,并计算每个组的平均客流量
city_weekday_weekend_avg_flow = trend_data_all_cities.groupby(['city''is_weekend']).mean().reset_index()
# 重新排列表格,将'Weekday'和'Weekend'作为单独的列,以便进行更好的比较
city_weekday_weekend_avg_flow_pivot = city_weekday_weekend_avg_flow.pivot(index='city', columns='is_weekend', values='flow').reset_index()
city_weekday_weekend_avg_flow_pivot.columns = ['city''Weekday''Weekend']

输出可视化结果:

这是不同城市地铁在工作日和周末的平均客流量对比图。从图中可以看出:

  • • 对于大多数城市,周末的地铁客流量通常低于工作日。这可能是由于人们在周末通常不需要通勤上班或上学。
  • • 每个城市的具体流量模式可能因城市的特定情况而异,例如居民的工作习惯、旅游活动等。

这个图表帮助我们理解不同城市在工作日和周末的地铁客流量差异。

=

 

原创文章,作者:guozi,如若转载,请注明出处:https://www.sudun.com/ask/79283.html

(0)
guozi的头像guozi
上一篇 2024年5月30日 下午6:19
下一篇 2024年5月30日 下午6:23

相关推荐

  • dns污染违法吗,dns污染是什么意思

    DNS污染是指在互联网环境中恶意篡改DNS服务器记录,导致用户在访问特定网站时被重定向到错误的IP地址,从而无法正常访问目标网站。这种行为不仅影响用户体验,还可能带来安全风险。 2…

    行业资讯 2024年5月11日
    0
  • 网安动向热讯(周报)

      编者按 网安动向热讯,本期有七点值得关注: 一是2024政府工作报告和计划报告对“数据要素”工作制定明确政策取向,并提出具体要求;二是拜登政府公布2025财年预算申请…

    2024年3月23日
    0
  • 高防 服务器,高防服务器哪里好

    近年来,云服务器行业发展迅速,高防服务器备受关注。然而,随着网络安全问题越来越突出,人们开始质疑高防服务器的可靠性。那么什么是高防服务器,它的防御原理是什么?您如何评价其防御能力?…

    行业资讯 2024年3月19日
    0
  • 搜索引擎网站排名

    搜索引擎网站排名,这是每个网站主人都想要了解的话题。随着互联网的发展,越来越多的企业和个人都意识到,拥有一个优质的网站只是第一步,如何让自己的网站在搜索引擎中排名靠前才能真正吸引更…

    行业资讯 2024年4月11日
    0

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注