6. Python数据可视化

# 6. Python数据可视化 ### 1. json数据格式 JSON是一种轻量级的\*\*数据交互格式\*\*。可以按照JSON指定的格式去组织和封装数据。JSON本质上是一个\*\*带有特定格式的字符串\*\*。 \*\*主要功能：\*\*json就是一种在各个编程语言中流通的数据格式，负责不同编程语言中的数据传递和交互. 类似于： \* 国际通用语言-英语 \* 中国56个民族不同地区的通用语言-普通话 \*\*作用：\*\*各种编程语言存储数据的容器不尽相同,在Python中有字典dict这样的数据类型, 而其它语言可能没有对应的字典。为了让不同的语言都能够相互通用的互相传递数据，JSON就是一种非常良好的中转数据格式。如下图，以Python和C语言互传数据为例： ![image-20240309092322641](https://hgh-typora-image.oss-cn-guangzhou.aliyuncs.com/img/image-20240309092322641.png) \*\*json格式：\*\*JSON格式可以直接和Python的字典或列表进行无缝转换。 \`\`\`python # json数据的格式可以是：字典 {"name":"admin","age":18} # 也可以是：元素是字典的列表 \[{"name":"admin","age":18},{"name":"root","age":16},{"name":"张三","age":20}\] \`\`\` \*\*json格式数据转化: \*\* Python数据和Json数据的相互转化 \`\`\`python # 导入json模块 import json # 准备符合格式json格式要求的python数据 data = \[{"name": "老王", "age": 16}, {"name": "张三", "age": 20}\] # 通过 json.dumps(data) 方法把python数据转化为了 json数据，若有中文需加入ensure_ascii=False data = json.dumps(data，ensure_ascii=False) # 通过 json.loads(data) 方法把json数据转化为了 python数据 data = json.loads(data) \`\`\` ### 2. pyecharts模块使用 Echarts 是个由百度开源的数据可视化，凭借着良好的交互性，精巧的图表设计，得到了众多开发者的认可. 而 Python 是门富有表达力的语言，很适合用于数据处理. 当数据分析遇上数据可视化时pyecharts 诞生了。 \*\*pyecharts模块安装\*\* \`\`\`python pip install pyecharts \`\`\` 官方画廊：https://gallery.pyecharts.org \*\*配置选项\*\* pyecharts模块中有很多的配置选项, 常用到2个类别的选项:全局配置选项和系列配置选项 \* 全局配置：\*\*set_global_opts（）\*\*方法。配置图表的标题、配置图例、配置鼠标移动效果、配置工具栏等整体配置项 \| \*\*配置项\*\* \| \*\*作用\*\* \| \*\*代码实例\*\* \| \| ----------- \| ---------------- \| ---------------------------------------------------------- \| \| title_opts \| 设置图标题和位置 \| title_opts=opts.TitleOpts(title="标题", pos_left="center") \| \| yaxis_opts \| y轴配置项 \| yaxis_opts=opts.AxisOpts(name="累计确诊人数") \| \| xaxis_opts \| x轴配置项 \| xaxis_opts=opts.AxisOpts(name="时间") \| \| legend_opts \| 图例配置项 \| legend_opts=opts.LegendOpts(pos_left='70%') \| \*\*基础折线图构建\*\* \`\`\`python """ 演示pyecharts的基础入门 """ # 导包 from pyecharts.charts import Line from pyecharts.options import TitleOpts, LegendOpts, ToolboxOpts, VisualMapOpts # 创建一个折线图对象 line = Line() # 给折线图对象添加x轴的数据 line.add_xaxis(\["中国", "美国", "英国"\]) # 给折线图对象添加y轴的数据 line.add_yaxis("GDP", \[30, 20, 10\]) # 设置全局配置项set_global_opts来设置, line.set_global_opts( title_opts=TitleOpts(title="GDP展示", pos_left="center", pos_bottom="1%"), legend_opts=LegendOpts(is_show=True), toolbox_opts=ToolboxOpts(is_show=True), visualmap_opts=VisualMapOpts(is_show=True), ) # 通过render方法，将代码生成为图像 line.render() \`\`\` \*\*折线图相关配置\*\* \* 折线图相关配置项 \| \*\*配置项\*\* \| \*\*作用\*\* \| \*\*代码实例\*\* \| \| ---------- \| ---------------------- \| ------------------------------------------------------- \| \| init_opts \| 对折线图初始化设置宽高 \| init_opts=opts.InitOpts(width="1600px", height="800px") \| \| .add_xaxis \| 添加x轴数据 \| .add_xaxis(列表) \| \| .add_yaxis \| 添加y轴数据 \| \| \* .add_yaxis相关配置选项 \| \*\*配置项\*\* \| \*\*作用\*\* \| \*\*代码实例\*\* \| \| -------------- \| ---------------------- \| ------------------------------------------ \| \| series_name \| 设置图例名称 \| series_name="美国确诊人数" \| \| y_axis \| 输入y轴数据 \| y_axis=\["列表"\] \| \| symbol_size \| 设置点的大小 \| symbol_size=10 \| \| label_opts \| 标签设置项：不显示标签 \| label_opts=opts.LabelOpts(is_show=False) \| \| linestyle_opts \| 线条宽度和样式 \| linestyle_opts=opts.LineStyleOpts(width=2) \| ### 3. 练习 #### 3.1 疫情折线图 \`\`\`python """ 演示可视化需求1：折线图开发 """ import json from pyecharts.charts import Line from pyecharts.options import TitleOpts, LabelOpts # 处理数据 f_us = open("D:/美国.txt", "r", encoding="UTF-8") us_data = f_us.read() # 美国的全部内容 f_jp = open("D:/日本.txt", "r", encoding="UTF-8") jp_data = f_jp.read() # 日本的全部内容 f_in = open("D:/印度.txt", "r", encoding="UTF-8") in_data = f_in.read() # 印度的全部内容 # 去掉不合JSON规范的开头 us_data = us_data.replace("jsonp_1629344292311_69436(", "") jp_data = jp_data.replace("jsonp_1629350871167_29498(", "") in_data = in_data.replace("jsonp_1629350745930_63180(", "") # 去掉不合JSON规范的结尾 us_data = us_data\[:-2\] jp_data = jp_data\[:-2\] in_data = in_data\[:-2\] # JSON转Python字典 us_dict = json.loads(us_data) jp_dict = json.loads(jp_data) in_dict = json.loads(in_data) # 获取trend key us_trend_data = us_dict\['data'\]\[0\]\['trend'\] jp_trend_data = jp_dict\['data'\]\[0\]\['trend'\] in_trend_data = in_dict\['data'\]\[0\]\['trend'\] # 获取日期数据，用于x轴，取2020年（到314下标结束） us_x_data = us_trend_data\['updateDate'\]\[:314\] jp_x_data = jp_trend_data\['updateDate'\]\[:314\] in_x_data = in_trend_data\['updateDate'\]\[:314\] # 获取确认数据，用于y轴，取2020年（到314下标结束） us_y_data = us_trend_data\['list'\]\[0\]\['data'\]\[:314\] jp_y_data = jp_trend_data\['list'\]\[0\]\['data'\]\[:314\] in_y_data = in_trend_data\['list'\]\[0\]\['data'\]\[:314\] # 生成图表 line = Line() # 构建折线图对象 # 添加x轴数据 line.add_xaxis(us_x_data) # x轴是公用的，所以使用一个国家的数据即可 # 添加y轴数据 line.add_yaxis("美国确诊人数", us_y_data, label_opts=LabelOpts(is_show=False)) # 添加美国的y轴数据，标签不显示 line.add_yaxis("日本确诊人数", jp_y_data, label_opts=LabelOpts(is_show=False)) # 添加日本的y轴数据 line.add_yaxis("印度确诊人数", in_y_data, label_opts=LabelOpts(is_show=False)) # 添加印度的y轴数据 # 设置全局选项 line.set_global_opts( # 标题设置：居中靠下 title_opts=TitleOpts(title="2020年美日印三国确诊人数对比折线图", pos_left="center", pos_bottom="1%") ) # 调用render方法，生成图表 line.render() # 关闭文件对象 f_us.close() f_jp.close() f_in.close() \`\`\` #### 3.2 全国疫情地图 \`\`\`python """ 演示全国疫情可视化地图开发 """ import json from pyecharts.charts import Map from pyecharts.options import \* # 读取数据文件 f = open("D:/疫情.txt", "r", encoding="UTF-8") data = f.read() # 全部数据 # 关闭文件 f.close() # 取到各省数据 # 将字符串json转换为python的字典 data_dict = json.loads(data) # 基础数据字典 # 从字典中取出省份的数据 province_data_list = data_dict\["areaTree"\]\[0\]\["children"\] # 组装每个省份和确诊人数为元组，并各个省的数据都封装入列表内 data_list = \[\] # 绘图需要用的数据列表 for province_data in province_data_list: province_name = province_data\["name"\] # 省份名称 province_confirm = province_data\["total"\]\["confirm"\] # 确诊人数 data_list.append((province_name, province_confirm)) # 创建地图对象 map = Map() # 添加数据 map.add("各省份确诊人数", data_list, "china") # 设置全局配置，定制分段的视觉映射 map.set_global_opts( title_opts=TitleOpts(title="全国疫情地图"), visualmap_opts=VisualMapOpts( is_show=True, # 是否显示 is_piecewise=True, # 是否分段 pieces=\[ {"min": 1, "max": 99, "lable": "1\~99人", "color": "#CCFFFF"}, {"min": 100, "max": 999, "lable": "100\~9999人", "color": "#FFFF99"}, {"min": 1000, "max": 4999, "lable": "1000\~4999人", "color": "#FF9966"}, {"min": 5000, "max": 9999, "lable": "5000\~99999人", "color": "#FF6666"}, {"min": 10000, "max": 99999, "lable": "10000\~99999人", "color": "#CC3333"}, {"min": 100000, "lable": "100000+", "color": "#990033"}, \] ) ) # 绘图 map.render("全国疫情地图.html") \`\`\` #### 3.3 河南省疫情地图 \`\`\`python """ 演示河南省疫情地图开发 """ import json from pyecharts.charts import Map from pyecharts.options import \* # 读取文件 f = open("D:/疫情.txt", "r", encoding="UTF-8") data = f.read() # 关闭文件 f.close() # 获取河南省数据 # json数据转换为python字典 data_dict = json.loads(data) # 取到河南省数据 cities_data = data_dict\["areaTree"\]\[0\]\["children"\]\[3\]\["children"\] # 准备数据为元组并放入list data_list = \[\] for city_data in cities_data: city_name = city_data\["name"\] + "市" city_confirm = city_data\["total"\]\["confirm"\] data_list.append((city_name, city_confirm)) # 手动添加济源市的数据 data_list.append(("济源市", 5)) # 构建地图 map = Map() map.add("河南省疫情分布", data_list, "河南") # 设置全局选项 map.set_global_opts( title_opts=TitleOpts(title="河南省疫情地图"), visualmap_opts=VisualMapOpts( is_show=True, # 是否显示 is_piecewise=True, # 是否分段 pieces=\[ {"min": 1, "max": 99, "lable": "1\~99人", "color": "#CCFFFF"}, {"min": 100, "max": 999, "lable": "100\~9999人", "color": "#FFFF99"}, {"min": 1000, "max": 4999, "lable": "1000\~4999人", "color": "#FF9966"}, {"min": 5000, "max": 9999, "lable": "5000\~99999人", "color": "#FF6666"}, {"min": 10000, "max": 99999, "lable": "10000\~99999人", "color": "#CC3333"}, {"min": 100000, "lable": "100000+", "color": "#990033"}, \] ) ) # 绘图 map.render("河南省疫情地图.html") \`\`\` ### 3.4 柱状图绘制可通过柱状图对象的：\*\*reversal_axis()\*\*，反转x和y轴可通过\*\*label_opts=LabelOpts(position="right")\*\*设置数值标签在右侧显示 \`\`\`python """ 演示基础柱状图的开发 """ from pyecharts.charts import Bar from pyecharts.options import LabelOpts # 使用Bar构建基础柱状图 bar = Bar() # 添加x轴的数据 bar.add_xaxis(\["中国", "美国", "英国"\]) # 添加y轴数据。position：设置数值标签在右侧 bar.add_yaxis("GDP", \[30, 20, 10\], label_opts=LabelOpts(position="right")) # 反转x和y轴 bar.reversal_axis() # 绘图 bar.render("基础柱状图.html") \`\`\` \*\*时间线创建\*\*：Timeline()-时间线柱状图描述的是分类数据，回答的是每一个分类中『有多少？』这个问题。这是柱状图的主要特点,同时柱状图很难动态的描述一个趋势性的数据。这里pyecharts为我们提供了一种解决方案-时间线。 \*\*自动播放：\*\* ![image-20240309144104886](https://hgh-typora-image.oss-cn-guangzhou.aliyuncs.com/img/image-20240309144104886.png) \*\*如何设置主题：\*\*timeline = Timeline({"theme": ThemeType.LIGHT}) ![image-20240309144145401](https://hgh-typora-image.oss-cn-guangzhou.aliyuncs.com/img/image-20240309144145401.png) \*\*补充：\*\*列表的Sort方法列表.sort(key=选择排序依据的函数, reverse=True\|False) \* 参数key，是要求传入一个函数，表示将列表的每一个元素都传入函数中，返回排序的依据 \* 参数reverse，是否反转排序结果，True表示降序，False表示升序 \* sort()是列表的一个方法，而sorted()是一个函数 ###### 没懂😭😭😭 \`\`\`python """ 扩展列表的sort方法在学习了将函数作为参数传递后，我们可以学习列表的sort方法来对列表进行自定义排序 """ # 准备列表 my_list = \[\["a", 33\], \["b", 55\], \["c", 11\]\] # 排序，基于带名函数 # def choose_sort_key(element): # return element\[1\] # # my_list.sort(key=choose_sort_key, reverse=True) # 排序，基于lambda匿名函数 my_list.sort(key=lambda element: element\[1\], reverse=True) print(my_list) \`\`\` \*\*注意：\*\*ANSI 编码代表 GB2312编码；在繁体中文Windows操作系统中，ANSI编码代表Big5；在日文Windows操作系统中，ANSI 编码代表 JIS 编码 \`\`\`python """ 演示第三个图表：GDP动态柱状图开发 """ from pyecharts.charts import Bar, Timeline from pyecharts.options import \* from pyecharts.globals import ThemeType # 读取数据 f = open("D:/1960-2019全球GDP数据.csv", "r", encoding="GB2312") data_lines = f.readlines() # 关闭文件 f.close() # 删除第一条数据 data_lines.pop(0) # 将数据转换为字典存储，格式为： # { 年份: \[ \[国家, gdp\], \[国家,gdp\], ...... \], 年份: \[ \[国家, gdp\], \[国家,gdp\], ...... \], ...... } # { 1960: \[ \[美国, 123\], \[中国,321\], ...... \], 1961: \[ \[美国, 123\], \[中国,321\], ...... \], ...... } # 先定义一个字典对象 data_dict = {} for line in data_lines: year = int(line.split(",")\[0\]) # 年份 country = line.split(",")\[1\] # 国家 gdp = float(line.split(",")\[2\]) # gdp数据 # 如何判断字典里面有没有指定的key呢？ try: data_dict\[year\].append(\[country, gdp\]) except KeyError: data_dict\[year\] = \[\] data_dict\[year\].append(\[country, gdp\]) # 创建时间线对象 timeline = Timeline({"theme": ThemeType.LIGHT}) # 排序年份 sorted_year_list = sorted(data_dict.keys()) for year in sorted_year_list: data_dict\[year\].sort(key=lambda element: element\[1\], reverse=True) # 取出本年份前8名的国家 year_data = data_dict\[year\]\[0:8\] x_data = \[\] y_data = \[\] for country_gdp in year_data: x_data.append(country_gdp\[0\]) # x轴添加国家 y_data.append(country_gdp\[1\] / 100000000) # y轴添加gdp数据 # 构建柱状图 bar = Bar() x_data.reverse() y_data.reverse() bar.add_xaxis(x_data) bar.add_yaxis("GDP(亿)", y_data, label_opts=LabelOpts(position="right")) # 反转x轴和y轴 bar.reversal_axis() # 设置每一年的图表的标题 bar.set_global_opts( title_opts=TitleOpts(title=f"{year}年全球前8GDP数据") ) timeline.add(bar, str(year)) # for循环每一年的数据，基于每一年的数据，创建每一年的bar对象 # 在for中，将每一年的bar对象添加到时间线中 # 设置时间线自动播放 timeline.add_schema( play_interval=1000, is_timeline_show=True, is_auto_play=True, is_loop_play=False ) # 绘图 timeline.render("1960-2019全球GDP前8国家.html") \`\`\`