上海古都建筑设计集团,上海办公室装修设计公司,上海装修公司高质量的内容分享社区,上海装修公司我们不是内容生产者,我们只是上海办公室装修设计公司内容的搬运工平台

《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍

guduadmin02小时前

📋 博主简介

  • 💖 作者简介:大家好,我是wux_labs。😜

    热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。

    通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。

    通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。

    对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。

  • 📝 个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥
  • 📝 个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥
  • 🎉 请支持我:欢迎大家 点赞👍+收藏⭐️+吐槽📝,您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍

  • 《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍
    • 前言
    • Python数据可视化工具介绍
      • Matplotlib介绍
        • 绘制折线图
        • 绘制柱状图
        • 绘制饼图
        • 结束语

          《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍

          前言

          大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第4节的内容:数据可视化图表Matplotlib介绍。

          《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍,第1张

          图书在:当当、京东、机械工业出版社以及各大书店有售!

          Python数据可视化工具介绍

          数据可视化是一种提取有价值数据的有效方法,是数据分析和机器学习中非常重要的一环。它有助于提高分析效率,为机器学习模型提供可靠的数据基础。它可以帮助人们更直观地理解数据,更好地理解数据的趋势和变化,发现潜在的联系,从而帮助人们更好地构建机器学习模型,提高模型的准确性。此外,数据可视化可以帮助人们更好地发现数据中的噪声和异常。通过可视化,可以更容易地发现噪声数据和异常情况,从而减少机器学习模型的误差。常用的Python数据可视化工具包括Matplotlib、Seaborn、Pyecharts等。

          Matplotlib介绍

          Matplotlib是一个Python 2D绘图库,用于绘制各种类型的图形,包括折线图、柱状图、饼图、散点图等。可以自定义图形的样式和属性,可以添加标签、标题、网格等元素,可以设置图形的大小、分辨率、颜色等属性。Matplotlib采用三层结构来组织图形:

          1)容器层。容器层是指在Matplotlib图形中用于组织和管理图形元素的结构,通常包括画板(Canvas)、画布(Figure)、坐标系(Axes)等几个部分。画板是Matplotlib的图形容器,用于显示和交互Matplotlib图形,例如缩放、平移、选择、保存等。画布是Matplotlib中最顶层容器,用于组织所有的坐标系、图例(Legend)、标题(Title)等元素,是整个图形的最外层容器。坐标系是位于画布内部的容器,可以理解为一个具体的子图,用于组织所有的图形元素,例如线条、标记、图例等。

          2)辅助显示层。辅助显示层是坐标系内除了根据数据绘制的图像以外的内容,用于在Matplotlib图形中添加额外的信息和标注,以提高图形的可读性和表现力。主要包括外观(Facecolor)、边框线(Spines)、坐标轴(Axis)、坐标轴名称(Axis Label)、坐标轴刻度(Tick)、坐标轴刻度标签(Tick Label)、网格线(Grid)、图例、标题等内容。

          3)图像层。图像层指坐标系内通过plot()、scatter()、bar()、histogram()、pie()等函数根据数据绘制出的图像。

          要在项目中使用Matplotlib,需要在Python环境中安装Matplotlib,命令如下:

          $ pip install matplotlib
          

          在使用时需要在Python脚本中导入matplotlib,代码如下:

          import matplotlib.pyplot as plt
          
          绘制折线图

          折线图是Matplotlib中最基本的图形之一,Matplotlib提供了plot()方法用来绘制折线图,plot()方法的主要参数有:

          • x, y,x轴和y轴的值,可以是列表、数组、Series等类型的数据,如果只提供一个参数,则默认为y轴的值,x轴的值为数据索引或序列号。
          • inestyle,指定线条的样式,例如solid(实线)、dashed(虚线)、dashdot(点线)等。
          • linewidth,指定线条的宽度,数值类型,单位是像素。
          • color,指定线条的颜色。

            在下面的案例中,定义了x轴和y轴的数据并绘制了折线图,代码如下:

            # 构造数据
            x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
            y = [2, 3, 6, 4, 5, 8, 5, 9, 7, 10]
            plt.plot(x, y)  # 绘制折线图
            plt.show()  # 显示图形
            

            执行代码,绘制的图形如图所示。

            《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍,第2张

            绘制柱状图

            柱状图也是Matplotlib中最基本的图形之一,Matplotlib提供了bar()方法用来绘制柱状图,bar()方法的主要参数有:

            • x,柱状图的x坐标,可以是一个序列或数组,表示每个类别。
            • height,柱状图的高度,可以是一个序列或数组,表示每个柱子的高度。
            • width,柱状图的宽度,默认值为0.8。
            • bottom,柱状图底部的y坐标,可以是一个序列或数组,表示每个柱子底部的位置,用于绘制堆叠柱状图。
            • align,柱状图对齐方式,默认值为center,表示柱状图对齐于x坐标轴上的中心。
            • color,柱状图的颜色。

              在下面的案例中,定义了5种类别及对应的值并绘制柱状图,代码如下:

              # 构造数据
              categories = ['A', 'B', 'C', 'D', 'E']
              values = [23, 45, 12, 34, 32]
              plt.bar(x=categories, height=values)  # 绘制柱状图
              plt.show()  # 显示图形
              

              执行代码,绘制的图形如图所示。

              《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍,第3张

              绘制饼图

              Matplotlib提供了pie()方法用来绘制饼图,pie()方法的主要参数有:

              • x,用于绘制饼图的数据,可以是一个列表、数组或者Series。
              • explode,指定各个部分的偏移量,用于突出某个部分,值为一个列表或数组。
              • labels,指定每个部分的标签,值为一个列表或数组。
              • colors,指定每个部分的颜色,值为一个列表或数组。
              • autopct,指定每个部分所占比例的显示方式,值为一个格式化字符串。
              • pctdistance,指定比例值和圆心的距离。
              • labeldistance,指定标签和圆心的距离。

                在下面的案例中,定义了饼图的数据、颜色、显示方式等,并绘制出饼图,代码如下:

                data = [20, 30, 40, 25, 15]  # 构造数据
                labels = ['A', 'B', 'C', 'D', 'E']  # 定义标签
                explode = [0, 0.2, 0, 0, 0]  # 定义突出显示的切片
                colors = ['#ff9999', '#66bbff', '#99ff99', '#ffcc99', '#ffccff']  # 定义颜色
                plt.pie(x=data, explode=explode, labels=labels, colors=colors, autopct='%1.1f%%')  # 绘制饼图
                plt.show()  # 显示图形
                

                执行代码,绘制的图形如图所示。

                《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍,第4张

                结束语

                好了,感谢大家的关注,今天就分享到这里了,更多详细内容,请阅读原书或持续关注专栏。

网友评论

搜索
最新文章
热门文章
热门标签