Вступ до аналітики даних для розробників

Bootcamp: Data Analytics for Developers

Лекції
Аналітика даних
Author

Богдан Красюк

Published

20 жовтня 2025 р.

1 Презентація до заняття


2 🎯 Мета

Сформувати базове розуміння ролі аналітики даних у розробці ПЗ; познайомити з ключовими поняттями, типами аналітики, типовим процесом аналізу (від постановки цілей до інтерпретації результатів), а також вимогами до якості даних, відтворюваності та звітування.

Для розробника: аналітика даних — це міст між кодом і рішеннями, що впливають на продукт.


3 ✅ Результати навчання

Після лекції учасник/учасниця:

  • розрізняє аналіз даних і науку про дані, розуміє їх місце у продуктових і R&D-процесах;
  • називає та пояснює етапи Data Analysis Process: цілі → збір → підготовка → дослідження → інтерпретація;
  • орієнтується у типах аналітики (описова, діагностична, прогнозна, прескриптивна, розвідувальна / EDA);
  • розуміє вимоги до якості даних, принципи профайлінгу й валідації;
  • здатен побудувати структурований аналітичний звіт;
  • знає, як автоматизувати окремі етапи аналізу (наприклад, обробку, валідацію, візуалізацію).

4 🗺️ План

  1. Що таке аналітика даних і навіщо вона розробнику
  2. Типи аналітики та приклади застосувань
  3. Аналіз даних як процес
  4. Якість даних і підготовка
  5. Вивчення даних (EDA)
  6. Інтерпретація результатів і звітування
  7. Інструменти, ресурси та наступні кроки

5 🔎 Що таке аналіз даних

Аналіз даних — це систематична діяльність із перетворення сирих даних у знання, потрібні для ухвалення рішень.
Це не лише обчислення показників, а послідовність логічних кроків:
питання → дані → метод → результат → висновок → дія.

Фокус розробника: уміти перетворити дані з логів, метрик, API або баз у зрозумілу історію про поведінку користувача чи стан системи.


5.1 Аналітика даних vs. Наука про дані

Параметр Аналітика даних (DA) Наука про дані (DS)
Мета Інтерпретація і пояснення Побудова моделей і прогнозів
Основні кроки Підготовка, звітність, візуалізація Моделювання, оцінка, експерименти
Роль у продукті Підтримка бізнес-рішень Автоматизація та інтелектуалізація
Інструменти SQL, Excel, Power BI, Python (pandas, matplotlib) Python (scikit-learn, TensorFlow), R
Очікуваний результат Інсайт, дашборд, звіт Прогноз, модель, алгоритм

6 💼 Чому це важливо для бізнесу

Аналітика допомагає:

  • підвищувати якість рішень та прозорість процесів;
  • покращувати досвід клієнтів і персоналізувати сервіси;
  • оптимізувати витрати та навантаження систем;
  • знаходити кореневі причини збоїв чи втрат прибутку;
  • планувати розвиток продукту на основі даних, а не інтуїції.

Приклад: навіть простий аналіз помилок API-запитів може показати, що 70% з них спричинені невалідними параметрами — це підстава змінити дизайн фронтенду.


7 🧭 Типи аналітики

  1. Описова (Descriptive) — що сталося
    • приклад: «за минулий місяць кількість користувачів зросла на 12%».
  2. Діагностична (Diagnostic) — чому сталося
    • порівняння груп, пошук причин, виявлення впливу факторів.
  3. Прогнозна (Predictive) — що станеться
    • регресійні або ML-моделі прогнозування.
  4. Прескриптивна (Prescriptive) — що робити
    • рекомендації або оптимізація дій.
  5. Розвідувальна (Exploratory / EDA) — що приховано
    • виявлення закономірностей, перевірка гіпотез, пошук аномалій.

Розробнику це допомагає: зрозуміти користувацькі шаблони, оцінити ефективність функцій, оптимізувати архітектуру або навантаження.


8 🛠️ Аналіз даних як процес

8.1 1. Визначення проблеми та цілей

  • Яку проблему ми вирішуємо?
  • Хто користується результатом і як?
  • Як виглядає успіх (KPI)?
  • Які ресурси / обмеження існують?

Приклад: “Зменшити час відповіді API на 30% протягом кварталу.”
Це дає змогу визначити метрики (latency, throughput) та план збору даних.


8.2 2. Збір даних

  • Джерела: бази, логи, API, аналітичні сервіси (GA4, Amplitude).
  • Формати: CSV, JSON, SQL, Parquet тощо.
  • Оцінюється доступність, обсяг, повнота, релевантність.

Практична порада: створіть data dictionary — короткий опис кожної таблиці / поля.


8.3 3. Підготовка даних

  • очищення пропусків і дублікатів;
  • приведення типів, форматів, одиниць;
  • створення нових змінних (feature engineering);
  • узгодження даних із різних джерел.

Інструменти: pandas, PySpark, Power Query, dbt.


8.4 4. Вивчення даних (EDA)

  • описова статистика (mean, median, std, count);
  • перевірка розподілів, відхилень і трендів;
  • візуалізація зв’язків: кореляції, heatmap, pairplot;
  • тестування гіпотез (наприклад, t-test, χ²).

Мета EDA: отримати інтуїцію про дані, щоб не “запустити модель у туман”.


8.5 5. Інтерпретація результатів

  • що означають знайдені закономірності;
  • чи підтверджується бізнес-гіпотеза;
  • наскільки стабільні результати;
  • які є ризики або упередження.

Завжди додавайте контекст: “зростання на 15%” без базової вибірки може бути оманливим.


8.6 6. Звітування та комунікація

  • короткий звіт: мета → метод → дані → висновки → рекомендації;
  • графіки з підписами, джерелами та позначенням масштабів;
  • зазначте обмеження (data quality, sample size, припущення).

Порада: використовуйте storytelling — структура «ситуація → конфлікт → відкриття → дія».


9 🧪 Якість даних і валідація

Основні критерії:

  • Повнота: відсутність пропусків;
  • Точність: правильність значень;
  • Цілісність: зв’язність між таблицями;
  • Узгодженість: формат, одиниці, timezone;
  • Своєчасність: актуальність даних.

Інструменти перевірки:
- Great Expectations, Pandera, PyDeequ;
- ручні чек-листи й контрольні візуалізації.

Важливо: якісна аналітика неможлива без якісних даних — garbage in → garbage out.


10 📑 Як оформлювати результати

Структура короткого аналітичного звіту:

  1. Контекст і запит
  2. Дані: джерела, період, обмеження
  3. Методи / підходи
  4. Ключові знахідки
  5. Висновки та вплив
  6. Ризики / обмеження
  7. Рекомендації й наступні кроки

Для команд розробників добре працює формат “Technical memo + TL;DR summary” — короткий опис для менеджера і деталізація для технічної команди.


11 ⚙️ Інструменти аналітики для розробників

  • Python: pandas, matplotlib, seaborn, scikit-learn
  • SQL / DuckDB: швидка обробка великих наборів
  • BI-інструменти: Power BI, Looker, Metabase
  • Ноутбуки: Jupyter, Quarto, Observable
  • Реплікабельність: Git, DVC, MLflow

Практика: автоматизуйте звітність (наприклад, через quarto render або nbconvert) — це скорочує час повторного аналізу.


12 🚀 Наступні кроки

  • Зробіть міні-проєкт:
    візьміть будь-який відкритий датасет і проведіть повний цикл аналізу.
  • Створіть короткий аналітичний звіт у Markdown або Power BI.
  • Порівняйте результати з висновками одногрупників — обговоріть різницю.

Мета: навчитися не лише рахувати, а й пояснювати, що це означає і чому це важливо.


13 📚 Рекомендовані джерела

  • Nina Zumel, John Mount. Practical Data Science with R (2nd ed.)
  • Jake VanderPlas. Python Data Science Handbook
  • Google. Data Analytics Professional Certificate
  • Офіційні гайди: pandas.pydata.org, quarto.org
  • Аналітичні приклади на Kaggle

Ключова ідея: аналітика — це не просто числа. Це спосіб мислення, який допомагає перетворювати дані в рішення.


Лого

Лого

Проєкт реалізується за підтримки Європейського Союзу в межах програми Дім Європи.