Python:数据可视化工具中的不二之选,数据可视化应用探索

数据我来大话侃 2024-02-21 01:17:00

如果你会一点编程的话,那么做数据可视化一定要使用Python,原因很简单,使用Python做数据可视化简单而实用,图表类型丰富,Python中的matplotlib、seaborn、pyecharts均有强大的绘图功能,下面例举的可视化案例对你一定有所帮助!

常见的数据可视化工具

热力图

使用heatmap函数,用于绘制热力图,从平面图上展示每个数字出现的频率,数字出现的频率越小,则颜色越深,数字出现的频率越大,则颜色越浅,从而将数字信息直观的表达出来。

import matplotlib.pyplot as pltimport seaborn as snssns.set()#使用默认设置plt.figure(figsize=(6,6))plt.rcParams['font.sans-serif'] = ['SimHei']#显示中文#提取每一位的中奖号码series=df['中奖号码'].str.split(' ',expand=True)#对每一位的中奖号码统计出现次数df1=df.groupby(series[0]).size()df2=df.groupby(series[1]).size()df3=df.groupby(series[2]).size()df4=df.groupby(series[3]).size()df5=df.groupby(series[4]).size()df6=df.groupby(series[5]).size()df7=df.groupby(series[6]).size()#横向表合并(行对齐)data=pd.concat([df1,df2,df3,df4,df5,df6,df7],axis=1,sort=True)data=data.fillna(0)#空值NaN替换为0data=data.round(0).astype(int) #浮点数转换为整数plt.title('双色球中奖数字热力图')sns.heatmap(data,annot=True,fmt='d',lw=0.5) #绘制热力图plt.xlabel('中奖号码位数')plt.ylabel('双色球数字')x=['前区1','前区2','前区3','前区4','前区5','后区1','后区2']plt.xticks(range(0,7,1),x,ha='left')plt.show()

热力图

饼图

对各个区域的销售数计数,导入matplotlib包,传入销售数据列,并对具体的图表参数进行设置,可得出华南区域的销售数占比最大为36.3%,西南区域的销售数占比最小为3.1%。

import matplotlib.pyplot as plt import matplotlib.style as pslplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号psl.use('ggplot')df_QY=df.groupby(['区域'])['销售数'].count().reset_index()#饼图labels = df_QY['区域'].tolist()explode = [0.05,0.05,0,0,0,0] # 用于突出显示数据df_QY['销售数'].plot(kind='pie',figsize=(9,6), autopct='%.1f%%',#数据标签 labels=labels, startangle=260, #初始角度 explode=explode, # 突出显示数据 pctdistance=0.87, # 设置百分比标签与圆心的距离 textprops = {'fontsize':12, 'color':'k'}, # 设置文本标签的属性值 )plt.title("各区域销售数占比")plt.show()

饼图

箱线图

对利润做箱线图,使用boxplot函数,并对箱线图图表的参数进行设置,可得出利润的数据分布情况,箱线图中的大多数利润数据都超过了箱线图的上下限。

import matplotlib.pyplot as plt import matplotlib.style as pslplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号psl.use('ggplot')plt.title('利润箱线图')df_XB=df[df['区域']=='西北']#箱线图plt.boxplot(x=df_XB['利润'],#指定绘制箱线图的数据 whis=1.5, #指定1.5倍的四分位数差 widths=0.1, #指定箱线图中箱子的宽度为0.3 showmeans=True, #显示均值 #patch_artist=True, #填充箱子的颜色 #boxprops={'facecolor':'RoyalBlue'}, #指定箱子的填充色为宝蓝色 flierprops={'markerfacecolor':'red','markeredgecolor':'red','markersize':3}, #指定异常值的填充色、边框色和大小 meanprops={'marker':'h','markerfacecolor':'black','markersize':8}, #指定中位数的标记符号(虚线)和颜色 medianprops={'linestyle':'--','color':'orange'}, #指定均值点的标记符号(六边形)、填充色和大小 labels=['西北'] )plt.show()

箱线图

折线图

对销售数做折线图,导入seaborn库,日期列做为X轴,销售数作为Y轴,由折线图可以看到销售数随日期的波动变化趋势。

import seaborn as sns import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号plt.figure(figsize=(10,6)) # 使用Seaborn绘制折线图 sns.lineplot(data=df, x='日期', y='销售数', color='blue') # 设置图表标题和轴标签 plt.title('销售数折线图') plt.xlabel('日期') plt.ylabel('销售额') # 显示图形 plt.show()

折线图

词云图

对商品品类做词云图进行展示,wordcloud库可专门做词云图,通过使用字典统计商品类别数量,创建词云对象后,使用matplotlib绘制词云图,由词云图可以看出床品件套的品类最多,办公家具的品类最少。

from wordcloud import WordCloud import matplotlib.pyplot as plt # 商品类别列表product_categories = df['商品品类'].tolist() # 使用字典统计商品类别数量 category_counts = dict() for category in product_categories: if category in category_counts: category_counts[category] += 1 else: category_counts[category] = 1 #创建词云对象 wordcloud = WordCloud(font_path='simhei.ttf', background_color='white').generate_from_frequencies(category_counts) # 使用matplotlib绘制词云图 plt.figure(figsize=(9, 6)) plt.imshow(wordcloud, interpolation='bilinear') plt.axis("off") plt.show()

词云图

玫瑰图

调用pyecharts库里面的Pie图表,用来创建玫瑰图,rosetype参数用于设置是否展示成南丁格尔玫瑰图,默认None不展示成玫瑰图,设置rosetype="radius",用扇形圆心角展现数据的百分比,通过半径展现数据大小。

import pandas as pd from pyecharts.charts import Piefrom pyecharts import options as optsdf=pd.read_excel(r'C:\Users\\Desktop\电商销售数据.xlsx')df=df.groupby('省份')['销售数'].sum().reset_index()df = df.sort_values(by='销售数',ascending=False)cate =df['省份'].to_list()data = df['销售数'].to_list()#玫瑰图美化pie = Pie(init_opts=opts.InitOpts(width='800px', height='600px', bg_color='white'))pie.add('',[list(z) for z in zip(cate, data)],radius=['10%', '70%'],center=['50%', '50%'], rosetype="radius" ).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")#设置数据标签 ).set_global_opts(title_opts=opts.TitleOpts(title='各省份销售数据玫瑰图',pos_left='350',pos_top='20', title_textstyle_opts=opts.TextStyleOpts(color='black', font_size=16)), legend_opts=opts.LegendOpts(is_show=False)#去除图例 ).set_colors( ['rgb({b},0,{r})'.format(r=450-10(len(df)-x+1), b=200-10x) for x in range(len(df))])#设置渐变颜色 pie.render_notebook()

如下即创建了一个关于各省份销售数据的玫瑰图,使用代码调用pyecharts库,并导入案例数据,并且调整玫瑰图的视图参数,使得玫瑰图有更好的视觉呈现,直观上可以突出重要数据。

玫瑰图

学习数据可视化工具可根据个人需求和喜好来选择,希望本文的介绍能够帮助你更好地了解Python数据可视化工具,从而更好地进行数据分析和呈现,如果你在学习过程中遇到问题,可随时与我沟通和交流,解决你的数据可视化难题~

0 阅读:0

数据我来大话侃

简介:感谢大家的关注