Як створити діаграму розсіювання та лінійну регресію в Python з використанням Matplotlib

Post on 22 грудня 2022
by Super User

У статті я вкажу, які бібліотеки та функції Python потрібні. У коді можна буде побачити елементарні налаштування графіки у Matplotlib.

Припустимо, у вас є таблиця в Excel з числовими даними: значення показника "Оптовий товарооборот підприємства" з 2000 по 2018 рік.

На основі набору даних потрібно створити:

  1. діаграму розсіювання (або точкову діаграму), у якій по осі Х відкладаються роки, по осі Y - значення показника;
  2. лінійну регресію (або лінію тренду).

 

Зміст

 

  1. Основне про діаграму розсіювання та лінійну регресію.
  2. Які бібліотеки та функції Python знадобляться для побудови діаграми розсіювання та лінії тренду.
  3. Код Python для побудови діаграми розсіювання та лінії тренду.

 

 

1. Основне про діаграму розсіювання та лінійну регресію

Що таке діаграма розсіювання?

Діаграма розсіювання - це графік, який складається з точок у декартовій системі координат.

 Для чого потрібна діаграма розсіювання?

Завдяки діаграмі розсіювання можна

  • наочно побачити, чи є залежність (кореляція) між двома величинами;
  • наочно визначити (або хоча б припустити) тип кореляції: позитивна, від'ємна, нульова, лінійна, квадратична (параболічна), гіперболічна, експоненціальна, логарифмічна,  поліноміальна та ін.

Діаграма розсіювання має ще кілька інших назв: графік розсіювання, точковий графік, координатний графік.

 

 

2. Які бібліотеки та функції Python знадобляться для побудови діаграми розсіювання та лінії тренду.

Використовуємо модулі (бібліотеки, пакети тощо): 

  • pandas - бібліотека Python для маніпулювання даними та їхнього аналізу; тут використовується, щоб зчитати датасет), 
  • numpy - основний пакет для наукових обчислень на Python, розширення Python, щоб працювати з багатовимірними масивами і матрицями, «плюс» бібліотека високорівневих математичних функцій для операцій з цими масивами; тут використовується, щоб знайти розв. сист. рівнянь), 
  • matplotlib - бібліотека на Python для візуалізації даних двовимірною графікою, тут використовується, щоб збудувати графік);
  • стандартна бібліотека python (Python Standard Library); тут – для визначення довжини масиву.

Документація:

Почитати про функції (у порядку їх застосування):

 

 

3. Код Python для побудови діаграми розсіювання та лінії тренду.

ВАЖЛИВО!

  • У коді використовується датасет - файл tovar1-2.csv - який можна завантажити за посиланням. Файл tovar1-2.csv повинен бути у тій же папці, у якій зберігається нотбук (файл з кодом на Python).
  • Нотбук підготовлений для роботи в середовищі JupyterLab. Щоб запустити його, потрібно виділити код, розміщений нижче, скопіювати його і вставити в файл, створений у JupyterLab.

 

 ЗАУВАЖЕННЯ

Під час виконання коду з'явиться попередження, яке виглядатиме приблизно, як на рисунку.

 

Це повідомлення - не помилка, а попередження. Щоб не бачити цього попередження, а також інших попереджень про можливі критичні ситуації, можна вставити код:

import warnings

warnings.filterwarnings('ignore')

 

Щоб дізнатись більше, як використовувати платформу Anaconda для програмування на Python, можна глянути за посиланням. Щоб навчитись працювати з dataframe, можна подивитись тут.