У статті я вкажу, які бібліотеки та функції Python потрібні. У коді можна буде побачити елементарні налаштування графіки у Matplotlib.
Припустимо, у вас є таблиця в Excel з числовими даними: значення показника "Оптовий товарооборот підприємства" з 2000 по 2018 рік.
На основі набору даних потрібно створити:
- діаграму розсіювання (або точкову діаграму), у якій по осі Х відкладаються роки, по осі Y - значення показника;
- лінійну регресію (або лінію тренду).
Зміст
- Основне про діаграму розсіювання та лінійну регресію.
- Які бібліотеки та функції Python знадобляться для побудови діаграми розсіювання та лінії тренду.
- Код Python для побудови діаграми розсіювання та лінії тренду.
1. Основне про діаграму розсіювання та лінійну регресію
Що таке діаграма розсіювання?
Діаграма розсіювання - це графік, який складається з точок у декартовій системі координат.

Для чого потрібна діаграма розсіювання?
Завдяки діаграмі розсіювання можна
- наочно побачити, чи є залежність (кореляція) між двома величинами;
- наочно визначити (або хоча б припустити) тип кореляції: позитивна, від'ємна, нульова, лінійна, квадратична (параболічна), гіперболічна, експоненціальна, логарифмічна, поліноміальна та ін.
Діаграма розсіювання має ще кілька інших назв: графік розсіювання, точковий графік, координатний графік.
2. Які бібліотеки та функції Python знадобляться для побудови діаграми розсіювання та лінії тренду.
Використовуємо модулі (бібліотеки, пакети тощо):
- pandas - бібліотека Python для маніпулювання даними та їхнього аналізу; тут використовується, щоб зчитати датасет),
- numpy - основний пакет для наукових обчислень на Python, розширення Python, щоб працювати з багатовимірними масивами і матрицями, «плюс» бібліотека високорівневих математичних функцій для операцій з цими масивами; тут використовується, щоб знайти розв. сист. рівнянь),
- matplotlib - бібліотека на Python для візуалізації даних двовимірною графікою, тут використовується, щоб збудувати графік);
- стандартна бібліотека python (Python Standard Library); тут – для визначення довжини масиву.
Документація:
Почитати про функції (у порядку їх застосування):
3. Код Python для побудови діаграми розсіювання та лінії тренду.
ВАЖЛИВО!
- У коді використовується датасет - файл tovar1-2.csv - який можна завантажити за посиланням. Файл tovar1-2.csv повинен бути у тій же папці, у якій зберігається нотбук (файл з кодом на Python).
- Нотбук підготовлений для роботи в середовищі JupyterLab. Щоб запустити його, потрібно виділити код, розміщений нижче, скопіювати його і вставити в файл, створений у JupyterLab.
ЗАУВАЖЕННЯ
Під час виконання коду з'явиться попередження, яке виглядатиме приблизно, як на рисунку.

Це повідомлення - не помилка, а попередження. Щоб не бачити цього попередження, а також інших попереджень про можливі критичні ситуації, можна вставити код:
import warnings
warnings.filterwarnings('ignore')
Щоб дізнатись більше, як використовувати платформу Anaconda для програмування на Python, можна глянути за посиланням. Щоб навчитись працювати з dataframe, можна подивитись тут.