Використання сучасних інструментів AI для аналітики даних

Лекція з практичними прикладами у ChatGPT

Лекції

Аналітика даних

Author

Богдан Красюк

Published

20 жовтня 2025 р.

1 Презентація

2 🎯 Мета та результати навчання

Мета лекції — показати, як генеративний ШІ (GenAI) підсилює повний цикл аналітики: від роботи з неструктурованими джерелами (PDF/звіт/лист) та підготовки даних до EDA, побудови базових моделей, формулювання інсайтів і відповідального впровадження.

Після заняття ви зможете:

коректно формулювати промпти під різні кроки аналітики (витяг → очищення → EDA → моделювання → пояснення);
проєктувати «людина-в-циклі» процес, щоб знизити галюцинації та помилки;
перетворювати текст/таблиці/скани на структуровані дані (CSV/JSON) з контролем якості;
використовувати GenAI для нормалізації, злиття та збагачення реальних даних;
отримувати огляд EDA з інтерпретаціями та перевіряти його на здоровий глузд;
ініціювати побудову бейзлайнів і обирати метрики під бізнес-вартість помилок;
впроваджувати політики безпеки, приватності та етики під час аналітики з AI.

3 🧭 Як GenAI змінює аналітику даних

Ідея. GenAI перетворює аналітичний конвеєр: рутинні етапи (читання документів, виписування фактів, первинні огляди, начерки візуалізацій і звітів) делегуються моделі, а людина концентрується на постановці задачі, валідації, причинно-наслідкових зв’язках і прийнятті рішень.

Що саме прискорюється:

Інжест: витяг таблиць і фактів із PDF/сканів, переформатування у CSV/JSON.
Пре-процесінг: нормалізація назв сутностей, переведення валют/дат, дедуплікація.
EDA: початкові статистики, списки кореляцій/аномалій, замітки для дослідження.
Аналітичні чернетки: короткі висновки, бізнес-інсайти, ризики, питання для подальшої перевірки.
Комунікація: переказ складних результатів простою мовою для нетехнічної аудиторії.

Де AI не замінює людину:

формулювання мети, вартісної моделі помилок, прийняття відповідальності;
боротьба з упередженнями та дрібними, але критичними нюансами даних;
перевірка зовнішніх джерел, юридичні/етичні обмеження.

Приклади:

Фінанси: AI швидко збирає з 10-K виручку за сегментами й країнами, а аналітик перевіряє суми, курс валют і резюмує драйвери зростання.
Операції: AI агрегує описи дефектів і класифікує їх за кодами, аналітик звіряє з техкартами і виносить рішення щодо пріоритетів усунення.
Маркетинг/продажі: AI витягує з CRM найбільш типові послідовності подій до покупки, аналітик оцінює причинність і планує експерименти.

4 🗣️ Промпт-інженерія для аналітики

Принципи «хорошого промпту»:

Роль і режим: «Ти — асистент аналітика даних. Дієш обережно, вимагаєш уточнень, повертаєш структурований результат».
Вхід і контекст: чітко надайте фрагменти таблиць/текстів і поясніть, що вони означають.
Завдання і формат: напишіть очікувану структуру виходу (Markdown-таблиця / CSV-блок / JSON зі схемою).
Критерії якості: вимагайте перевірок, одиниць виміру, списку припущень, позначення невпевненості.
Обмеження: не вигадуй посилань, позначай прогалини, не об’єднуй неоднозначні сутності.

Типові патерни:

«Спитай-уточни»: якщо бракує полів (валюта, часовий зріз), AI спершу уточнює.
«Синтезуй-структуруй»: з абзацу зробити структуровану таблицю з валідованими типами.
«Перевір і процитуй»: вимагайте нумеровані цитати/витяги зі вхідного тексту.
«Переформатуй під BI»: зведена таблиця з полями, придатними для півотів.

Анти-приклади → покращення:

«Порахуй статистику» → «Зроби описову статистику для всіх числових змінних (mean, median, std, min, max, IQR); видай таблицю з назвою змінної, мірою, значенням».
«Побудуй графіки» → «Опиши, які візуалізації варто зробити (гістограми, boxplot, scatter, heatmap кореляцій) і які інсайти вони перевірять; додай підписи осей, шкали, легенду».
«Зроби кореляцію» → «Переліч всі пари з |r| ≥ 0.7; запропонуй, які з них можуть бути спостережними ефектами (confounding) і що перевірити додатково».

5 🗂️ З документів у таблиці: витяг і валідація

Сценарій. Маємо 30-сторінковий звіт із фінансовими таблицями, діаграмами й нотами. Треба витягти табличні дані, звірити підсумки й підготувати їх для подальшого аналізу.

Кроки:

Витяг таблиць: попросіть повернути у CSV/JSON зі схемою полів і типами; вимагайте позначити пропуски, валюту, одиниці.
Узгодження одиниць: курс валют, інфляція, календар (фінансовий/календарний рік).
Злиття фрагментів: якщо таблиці розкидані, попросіть зібрати їх в одну структуровану форму з ключами (рік, сегмент, географія).
Контроль якості: перехресна перевірка сум, середніх, підписів рядків/стовпців.

Приклади:

10-K / Proxy: AI збирає «виручка за сегментами та регіонами», «витрати R&D/SG&A», «компенсація керівництва»; ви перевіряєте суми, валюту, період і несуперечність між розділами.
Операційний звіт: AI знімає таблицю «показники якості» (дефекти/млн), а ви звіряєте визначення дефекту та межі специфікацій.

Типові помилки й як їх ловити:

Неверний підсумок через пропущені рядки → вимагайте «покажи список рядків, які не були додані у суму».
Змішані одиниці («тис. USD» + «млн USD») → просіть нормалізації і додайте колонку «джерело/примітка».
Зміна методології між роками → AI має попередити, ви — зафіксувати.

6 🧹 Очищення й нормалізація даних з AI

Проблеми, які AI допомагає мінімізувати:

Стандартизація текстів/назв: «Kyyiv» → «Kyiv», «Inc.»/«Ltd.» → уніфікація корпоративних суфіксів; кейс-інсенситивність.
Нормалізація категорій: «Male/Чоловік/м» у одну категорію з чіткою політикою мапінгу.
Формати дат/часу: різні локалі («2025-10-01», «01.10.2025», «1 жовтня 2025»).
Дедуплікація: fuzzy-matching компаній/адрес/продуктів із валідацією порогу схожості.
Викиди та діапазони: позначення екстремальних значень, перевірка одиниць (м, км; кг, т).

Практичні кейси:

USPTO/бренд-реєстри: уніфікація «ee_name», побудова словника «оригінал → стандарт», підрахунок об’єктів на компанію.
CRM/маркетплейси: «Nike/Nike Inc./NIKE, Inc.» → стандартизоване ім’я бренду для стабільних дашбордів.
Логістика: нормалізація гео-адрес (назва міста/країни, ISO-коди, часовий пояс).

Контроль якості:

просіть звіт трансформацій: які правила застосовано, скільки рядків змінено, приклади до/після;
вимагайте список «невизначених зіставлень» для ручного розгляду;
зберігайте словники мапінгу як артефакти для відтворюваності.

7 🔍 EDA з AI: що питати і як інтерпретувати

Що просити у AI на старті:

Описова статистика: центр/розкид, IQR, частки пропусків, карманні правила для потенційних викидів.
Кореляції/залежності: топ-зв’язки, можливі конфаундери, гіпотези для перевірки.
Візуальна програма: які графіки й навіщо (гістограми, boxplot, scatter з трендом, heatmap кореляцій, bar для категорій).

На що звертати увагу в інтерпретації:

Кореляція ≠ причинність: AI може запропонувати гіпотезу, а ви — дизайн перевірки (контрольні змінні, часові зрізи).
Дисбаланси/страти: чи не домінує одна підгрупа? Чи не «змішуємо» періоди з різними політиками?
Сезонність/тренд: для часових даних просіть окремо оцінити тренд і сезонні компоненти.
Аномалії: AI позначає підозрілі точки — ви перевіряєте їх джерело (помилка вводу, реальна подія, зміна методології).

Приклади:

Housing: AI пропонує перевірити лог-трансформацію ціни, розглянути не лінійні залежності з площею, сегментувати за районом.
Продажі e-commerce: AI звертає увагу на «довгий хвіст» SKU, сезонні піки, промо-ефекти, канібалізацію категорій.

8 🤖 Моделювання та інсайти з AI (без коду)

Що доручаємо AI:

Фреймінг задачі: формулювання — регресія чи класифікація; явна ціль; доступні ознаки; обмеження.
Вибір бейзлайнів: лінійна/логістична регресія, дерева/ансамблі, простий MLP — з описом припущень і переваг.
План валідації: train/val/test; k-fold; time-split для часових даних; що моніторити.
Метрики: RMSE/MAE для регресії; Precision/Recall/F1/ROC-AUC/PR-AUC — коли й чому.
Ризики: data leakage (коли обчислювати статистики), дисбаланс, зсув/дріфт, некоректні пороги.

Що залишаємо за людиною:

Вартісна модель помилок: скільки коштує FP/FN, де ставити поріг, які кейси віддавати на ручну перевірку.
Політики інтервенцій: що робити з «сірими зонами»; як ескалювати складні випадки.
Прийняття рішень: фінальна інтерпретація, вплив на продукт/процес, відповідальність.

Приклади застосувань:

Churn: AI готує список ознак, які корелюють з відтоком, пропонує бейзлайн-класифікатор і способи калібрування; ви узгоджуєте поріг під бюджет retention-акцій.
ETA доставки: AI рекомендує моделі та фічі (календар, погода, трафік) і способи оцінки невизначеності; ви вирішуєте, як комунікувати інтервали клієнтам.

9 🧪 Галюцинації, відповідальність і етика

Ризики:

Галюцинації: вигадані цифри/посилання, надмірна впевненість.
Упередження: історичні зсуви у даних, диспропорції за групами.
Приватність і комплаєнс: персональні дані, комерційна таємниця, ліцензії на джерела.

Запобіжники:

вимога цитат/витягів та зовнішньої валідації (звірка сум, одиниць);
людина-в-циклі на критичних кроках (затвердження мапінгів, порогів, висновків);
прозорість і відтворюваність: зберігайте промпти, словники мапінгу, версії даних і політики.

Практичні політики:

Data minimization: передавайте у промпт лише потрібні фрагменти й за можливості — деперсоналізовані.
Походження даних: логи про джерела, дати, версії.
Справедливість: перевірки якості за підгрупами, контроль небажаних відхилень.

10 🧰 Генерація аналітичних артефактів (без коду)

Що можна просити AI згенерувати «під ключ» (далі — ваша перевірка):

Аналітичні резюме: короткі executive summary із пунктами «що зросло/впало», «рекомендовані дії».
Описові розділи звіту: методологія збору даних, обмеження, список припущень.
Плани досліджень: перелік експериментів/перевірок для підтвердження причинно-наслідкових висновків.
Скелет дашбордів: опис потрібних зрізів/фільтрів/показників і логіку їх обчислення.

Приклади артефактів:

Операції: «План скорочення дефектів на 20%: топ-3 гіпотези, KPI, контрольні графіки, дані, що збираємо додатково».
Продажі: «Карту показників для дашборду: revenue, AOV, conversion, retention, розкладання причин змін».

11 🚀 Впровадження і моніторинг AI-аналітики

Що тримати під контролем після релізу:

Дріфт/зсув: розподіли ознак (covariate shift), частки класів (prior shift), зміна зв’язків (concept drift).
SLO/SLI для ML-функцій: цільові рівні якості (AUC/F1/RMSE), латентність, частка кейсів у «сірій зоні», бюджет ручних перевірок.
Плейбуки: коли перевчати модель (за часом/за тригером), як робити канарейкові релізи і відкат.

Процес «AI-аналітика як сервіс»:

версіонування даних/словників/правил мапінгу;
журнали промптів і результатів (що показали, що прийнято/відхилено);
аудит доступів і політик приватності.

12 📦 Домашнє завдання (артефакти)

Здати:

протокол промптів (з коментарями «що спрацювало/ні та чому»);
приклад витягу з PDF у CSV/JSON + перевірка сум/одиниць;
звіт із нормалізації (словник мапінгу, список невизначених відповідностей);
EDA-огляд (описові статистики, список підозрілих зв’язків, план перевірок);
чернетка інсайтів і план їхньої валідації (які дані/експерименти потрібні);
коротку політику відповідального використання AI у вашому курс-проєкті.

13 ✅ Підсумок

GenAI — прискорювач, а не заміна аналітика: делегуйте рутину, лишайте за собою постановку задачі, валідацію і рішення.
Якість = промпт + процес: формулюйте очікуваний формат, вимагайте перевірок/цитат, зберігайте артефакти.
Етика, приватність, справедливість — не опції, а частина інженерної зрілості аналітичної команди.
У проді — лише те, що моніториться і відтворюється: SLO/SLI, дріфт, плейбуки перевчання.

14 📚 Рекомендована література та матеріали

Практичні гіди з prompt-інженерії для аналітики та бізнес-звітів.
Матеріали з EDA та валідації (перелік описових метрик, контроль якості, виявлення аномалій).
Огляди упереджень, галюцинацій і відповідальної AI-практики (privacy, fairness, transparency).
Нотатки курсу «Використання генеративного ШІ для аналізу даних» (демо-кейси: PDF→CSV/JSON, USPTO, Housing, Churn, Students Performance).

14.1 Генеративний ШІ в аналізі даних

Мета і завдання. Ознайомити студентів з роллю генеративних моделей (напр. ChatGPT) у сучасному циклі аналітики даних, показати місце промпт-інжинірингу у постановці задач, перевірці результатів та комунікації інсайтів. Після вивчення розділу студент уміє формулювати промпти під аналітичні завдання, структурувати очікуваний вихід (таблиці/JSON/пояснення), виявляти ризики галюцинацій і документувати припущення.

Теоретичний матеріал. Генеративні моделі доповнюють компетенції аналітика в трьох площинах: (1) швидке прототипування ідей (чернетки коду, запити до БД, описові звіти), (2) перетворення форматів знань (з PDF/HTML до таблиць і структурованого JSON), (3) підтримка рішень (генерація гіпотез, порівняння варіантів, підготовка пояснень для стейкхолдерів). За класичним поглядом на процеси аналізу (постановка питання → збір та підготовка даних → моделювання → оцінювання → інтерпретація → комунікація) генеративний ІІ інтегрується на всіх етапах: допомагає уточнити постановку (декомпозиція завдань, формалізація метрик), структурувати дані (опис колонок, типи, перевірки), обрати методи (рекомендації алгоритмів і трансформацій), підготувати експерименти (валідаційні схеми, гіперпараметри) та пояснити результати мовою бізнесу. Якість виходу залежить від якості промпту: контекст (дані/схеми/приклади), роль (хто виконує), чіткі формати відповіді (таблиця/JSON/псевдокод), обмеження (час, інструменти), критерії якості (перевірки, тести, посилання). Важливо будувати «контракти» на вихід: вимагати поля, одиниці вимірювання, посилання на джерела, дисклеймери щодо припущень. Критичною є звичка перевіряти факти й числа незалежними обчисленнями та скриптами — моделі можуть «галюцинувати», і це не заміняє методичної перевірки. У промислових сценаріях застосовують підказки з ланцюжками міркувань (Chain-of-Thought), самоперевірку (Self-Consistency), рольові інструкції, а також підвантаження контексту з корпоративних джерел (RAG). Підсумок: GenAI не замінює аналітика, а прискорює роботу та підсилює якість комунікації, якщо є процеси валідації.

Note

Шпаргалка промптів (фрагмент):

Погано: «Зроби аналіз».
Добре: «Проаналізуй [CSV] із стовпцями [price, area, stories, …]. Дай описову статистику (mean, median, IQR), топ-10 кореляцій із price, і список змінних-кандидатів до видалення (low variance, multicollinearity). Виведи як таблицю Markdown».

Демо-приклади.

Завдання: Напиши 10 пар «поганий–хороший промпт» для тем:
описова статистика, кореляція, візуалізація, ML, часові ряди.

Ідеальний промпт (шаблон):
Ти — аналітик даних.
Мета: ...
Дані: ...
Формат виходу: таблиця зі стовпцями ...
Обмеження: ...
Перевірка якості: ...
Додай попередження щодо припущень.

Висновки. GenAI прискорює рутину й підсилює комунікацію, але вимагає дисципліни у постановці задач, прозорості джерел та перевірці результатів.

14.2 Огляд даних з AI (EDA з документів і веб-джерел)

Мета і завдання. Навчитися швидко отримувати структуровані дані з неструктурованих джерел (PDF, 10‑K/Proxy Statement), формувати таблиці/JSON та виконувати первинний EDA з допомогою GenAI.

Теоретичний матеріал. Рання стадія EDA поєднує три кроки: інґест (завантаження), нормалізацію та оркестрацію запитів. Для звітів формату 10‑K/Proxy найчастіше потрібні: пошук релевантних секцій, вилучення таблиць компенсацій/структури власності, уніфікація дат/валют та контроль за «втратами» при конвертації. Генеративний ІІ може: (1) резюмувати великі секції, (2) підсвічувати цільові патерни (наприклад, згадки про «related party transactions»), (3) повертати структурований вихід. Важливо вказувати жорстку схему результату: назви полів, одиниці вимірювання, формат чисел/дат/валют, політика відсутніх значень. Рекомендовано вимагати посилання на місце у документі (section/page/paragraph), а також дублювати результат у зручних форматах (таблиця Markdown + JSON). Для валідації — прості перехресні перевірки (сума рядків = підсумок, узгодженість валют і дат, розбіжність не більше за ε). При роботі з веб‑джерелами слід документувати дату доступу, URL і примітки щодо ліцензії/відповідальності. Для масштабування задач витягування добре працюють «пакети» промптів: пошук → екстракція за схемою → валідація → агрегація. Після структуризації можна виконати класичний EDA: описова статистика, розподіли, кореляції, побудова простих графіків для швидкої інвентаризації даних та виявлення підказок для глибшого аналізу.

Tip

Джерела з презентації:

10‑Q/10‑K приклад: As-Filed (посилання із презентації).
Proxy Statement (2023) — компенсації керівників.

Скопійований результат з ChatGPT → Ctrl+V у MS Excel.

Демо-приклади.

Промпт: Збери інформацію про структуру власності з 10‑K (посилання з презентації). 
Виведи у вигляді таблиці: Holder, Shares, %Ownership, Date, SourceSection.

Промпт: Збери інформацію про зарплати і бонуси керівників із Proxy Statement.
Формат: JSON зі схемою {name, role, base_salary, bonus, stock_awards, total, year}.

Висновки. GenAI корисний для первинної структуризації неструктурованих джерел, але контроль якості й аудит трасування джерел — обов’язкові.

14.3 Очищення даних (якість, стандартизація, дедуплікація)

Мета і завдання. Засвоїти основні категорії проблем якості даних і техніки їх усунення: пропуски, дублікати, неправильні типи, викиди, помилки написання, невідповідні категорії, форматування дат/валют.

Теоретичний матеріал. Якість даних безпосередньо впливає на коректність висновків та навчання моделей. Класичними вимірами якості є точність, повнота, узгодженість, своєчасність та унікальність. Для пропусків використовують стратегії від видалення до імпутації (середнє/медіана/модальність, регресійна імпутація, KNN-impute), але будь-яка імпутація має бути прозорою та перевіреною на стабільність. Дублікатів позбуваються через чіткі ключі, правила нормалізації рядків, record linkage та fuzzy matching. Стандартизація категоріальних полів (наприклад, «Київ», «Kyiv», «Kyyiv») потребує словників відповідностей, регулярних виразів і правил очищення суфіксів/префіксів (Inc., Ltd., Corp.). Для дат/валют — уніфікація форматів і явне зберігання timezone/валюти. Аномалії виявляють через boxplot/IQR‑правило, z‑scores або моделі детекції викидів (LOF, Isolation Forest). У великих даних якість забезпечують конвеєри перевірок: тест‑кейси на схеми, обмеження доменів, унітарні тести на скрипти, логування частот значень. Доброю практикою є data contracts між виробниками та споживачами даних. Для корпоративних сховищ — каталогізація (data catalog), політики версійності та ретро‑валідація після оновлень.

ДЕМО 4. USPTO Patent Assignment Dataset
- Дані: https://www.uspto.gov/ip-policy/economic-research/research-datasets/patent-assignment-dataset
- Схема: https://www.uspto.gov/sites/default/files/documents/pat_assign_dataset_schema.pdf
Промпт (фрагмент):
«Standardize and analyze company names for trademark aggregation. Standardize ee_name: lowercase, trim, remove punctuation, clean corporate suffixes. Group by standardized name; для кожної групи — список оригінальних ee_names, стандартизована назва, загальна кількість записів. Показати топ‑25.»

Висновки. Інвестиції в якість даних окупаються: зменшують «шум» у моделях, підвищують відтворюваність і довіру до результатів.

14.4 Моделювання з AI (регресія, класифікація, відтік клієнтів)

Мета і завдання. Показати, як GenAI допомагає в проєктуванні експерименту, підборі ознак, виборі моделей і комунікації результатів; розглянути приклад churn‑аналізу.

Теоретичний матеріал. Математичне моделювання — це формалізація системи та її поведінки через параметризовані співвідношення. У машинному навчанні відрізняють задачі передбачення (прогноз) і пояснення (каузальний аналіз), що визначає вибір методів, метрик і валідації. Для класифікації типові метрики: accuracy, precision/recall, F1, ROC‑AUC; для регресії — RMSE/MAE, (R^2), перевірка залишків. Для дисбалансних даних застосовують стратифіковане розбиття, ваги класів, пороговий аналіз та PR‑AUC. Ризик перенавчання зменшують регуляризація (L1/L2), крос‑валідація та ансамблі (bagging/boosting/stacking). Інтерпретація — критичний етап: часткові залежності, SHAP/perm‑importance пояснюють вплив ознак; але висновки слід співставляти з предметною областю. Для задач відтоку (churn) корисні не тільки класифікатори, а й моделі часу до події (Cox) для оцінки ризиків у часі. Роль GenAI: пропонує пайплайни (обробка даних → розбиття → моделювання → метрики), формує гіпотези щодо трансформацій (логарифмування, бінінг), допомагає писати звіти менеджерам зрозумілою мовою. Але моделі/метрики мають бути відтворені скриптами, а твердження — підкріплені валідованими числами.

ДЕМО 6. Customer Churn Analysis
- Дані: https://github.com/rohit-chandra/Customer_Churn_Analysis/tree/main
- Фрагмент промпту: «Provide summary statistics for churn; розклади churn за ознаками; побудуй модель для прогнозу, поясни вибір; запропонуй трансформації змінних; побудуй повний ML‑пайплайн.»

Висновки. GenAI прискорює розробку й документацію ML‑пайплайнів, але ключові рішення (вибір метрик, перевірка гіпотез, інтерпретація впливу ознак) залишаються за аналітиком.

14.5 Галюцинації, етика та відповідальне використання GenAI

Мета і завдання. Розуміти природу галюцинацій, упереджень і ризиків; вміти організувати валідацію фактів, прозорість даних і відповідальне впровадження GenAI в аналітичні процеси.

Теоретичний матеріал. Галюцинації — це переконливо сформульовані, але фактично помилкові твердження моделі. Причини: апраксимативна природа моделей, обмеження контекстного вікна, змішування доменів і «примари» від навчальних даних. Практичний мінімум контролю: (1) evidence‑based prompting — вимагати посилань і цитування джерел, (2) grounding — подавати моделі релевантний контекст (витяги з бази знань, документи), (3) перевірка за допомогою зовнішніх валідаторів (правила узгодженості, скрипти перевірки, незалежні перерахунки), (4) red teaming і сценарний аналіз, (5) журналювання джерел і версій даних/моделей. Етичні ризики охоплюють приватність, дискримінацію, безпеку та авторські права. Для їх пом’якшення застосовують datasheets for datasets та model cards, а також аудит справедливості (parity метрики, розрізи за групами). Важливо забезпечити human‑in‑the‑loop і чіткі межі відповідальності. У командах варто формалізувати політику використання GenAI: де дозволено/заборонено, як перевіряється, як документується походження даних і коду. Прозора комунікація обмежень моделі та невизначеності результатів — ключ до довіри з боку стейкхолдерів.

Warning

Практичний чек‑лист:

Вимагай джерела.
Перевіряй числа скриптами.
Логуй версії даних і моделей.
Застосовуй human‑in‑the‑loop.
Документуй datasheets/model cards.

Висновки. Без процесів верифікації та етичної рамки GenAI швидко накопичує технічний борг і репутаційні ризики. З процесами — це потужний прискорювач аналітики.

14.6 Генерація коду для аналітики (R/Python) з GenAI

Мета і завдання. Навчитися коректно делегувати моделі створення чернеток коду для EDA, підготовки даних і моделювання; зрозуміти межі довіри та способи автоматичної перевірки.

Теоретичний матеріал. LLM, навчені на коді, добре справляються з шаблонними завданнями (імпорт даних, базовий EDA, валідація типів, побудова стандартних графіків, стартові ML‑пайплайни). Ефективність залежить від чіткої специфікації API/бібліотек і прикладів. Типові ризики — «впевнені помилки» (неіснуючі параметри/функції), поверхнева обробка крайових випадків і брак тестів. Тому варто застосовувати патерни: generate → run → test → fix; автоматичні перевірки (unit tests, типізація, лінтери); вимагати коментарі до коду і прозорий логіціджмент. Комбінування R і Python через файли/API дає практичну гнучкість: наприклад, EDA у Python (pandas, matplotlib/plotly), моделювання у scikit‑learn, а звітність — у Quarto з R‑візуалізацією. Принцип «малих кроків» і guardrails (валідація вхідних параметрів, контроль розмірів виходу, таймаути) допомагають уникати збоїв під час автоматизованих запусків.

ДЕМО 8. Students Performance Dataset
- Дані: https://www.kaggle.com/datasets/rabieelkharoua/students-performance-dataset
- Етапи (з презентації): імпорт → перевірка якості → кореляції/ANOVA → підготовка (encoding/scale) → train/test 70/30 → базова регресійна/класична модель → VIF → метрики → візуалізації → висновки.

Приклад промптів (R).

# Етап 1: імпорт і первинний огляд
library(readr); library(dplyr); library(psych)
df <- read_csv("students_performance.csv")
glimpse(df); psych::describe(select_if(df, is.numeric))

# Етап 3: кореляції та heatmap
library(ggplot2); library(reshape2)
num <- df |> select_if(is.numeric)
corr <- cor(num, use = "pairwise.complete.obs")
melted <- reshape2::melt(corr)
ggplot(melted, aes(Var1, Var2, fill = value)) +
  geom_tile() + geom_text(aes(label = round(value, 2)), size = 3) +
  labs(x = NULL, y = NULL, title = "Кореляційна матриця")

Висновки. Генерація коду корисна для швидкого старту, але фінальну якість забезпечують тести, рецензії та контроль версій.

Список літератури (APA 7).

Chen, M., Tworek, J., Jun, H., et al. (2021). Evaluating large language models trained on code. arXiv:2107.03374.
Bird, S., Barr, E., et al. (2023). Code generation with LLMs: A survey. arXiv:2303.03106.
Van Rossum, G., & Drake, F. L. (2009). The Python Language Reference. Python Software Foundation.
Wickham, H., François, R., et al. (2023). dplyr: A Grammar of Data Manipulation. R package.
Pedregosa, F., Varoquaux, G., et al. (2011). Scikit-learn: ML in Python. JMLR, 12, 2825–2830.

14.7 Додаткові демо з презентації

ДЕМО 5. Housing Prices (Kaggle)

https://www.kaggle.com/datasets/yasserh/housing-prices-dataset

Промпти (фрагменти): summary variables; visual summary; identify low‑variance/highly correlated features; побудуй попарні кореляції; EDA з охайним стилем.

ДЕМО 2–3. 10‑K/Proxy → Таблиці/JSON

Збір структури власності; компенсацій топ-менеджменту.
Формати виходу: таблиця / JSON.
Копіювання результату до Excel.

14.8 Підсумок лекції

GenAI — прискорювач аналітичного циклу, особливо на етапах формулювання, структурування і комунікації.
Якість даних і перевірка фактів — обов’язкові; етика і прозорість — ключ до довіри.
Для ML важливі валідація, інтерпретація та зрозуміла розповідь про результати.
Генерація коду корисна для прототипів; у проді — тести, рев’ю та контроль.

Note

Нагадування: усі наведені промпти — шаблони. Адаптуйте поля/формати під ваш домен, додавайте перевірки, логування джерел і вказуйте версії даних.

Лого

Проєкт реалізується за підтримки Європейського Союзу в межах програми Дім Європи.

--- title: "Використання сучасних інструментів AI для аналітики даних" subtitle: "Лекція з практичними прикладами у ChatGPT" author: "Богдан Красюк" date: "2025-10-20" lang: uk categories: ["Лекції", "Аналітика даних"] format: html: toc: true toc-location: right math: mathjax toc-title: "План лекції" toc-depth: 3 number-sections: true code-fold: show code-tools: true smooth-scroll: true execute: echo: true warning: false message: false --- ## Презентація <iframe src="https://1drv.ms/p/c/0a1340ba71b3f0aa/IQQj3SRjD07yRJoT_NQQfc8uAU_f1HpywJb3ThZ46YU4Ovk?em=2&wdAr=1.7777777777777777" width="100%" height="400px" frameborder="0">This is an embedded <a target="_blank" href="https://office.com">Microsoft Office</a> presentation, powered by <a target="_blank" href="https://office.com/webapps">Office</a>.</iframe> ## 🎯 Мета та результати навчання **Мета лекції** — показати, як генеративний ШІ (GenAI) підсилює повний цикл аналітики: від роботи з неструктурованими джерелами (PDF/звіт/лист) та підготовки даних до EDA, побудови базових моделей, формулювання інсайтів і відповідального впровадження. **Після заняття ви зможете:** - коректно формулювати промпти під різні кроки аналітики (витяг → очищення → EDA → моделювання → пояснення); - проєктувати «людина-в-циклі» процес, щоб знизити галюцинації та помилки; - перетворювати текст/таблиці/скани на структуровані дані (CSV/JSON) з контролем якості; - використовувати GenAI для нормалізації, злиття та збагачення реальних даних; - отримувати огляд EDA з інтерпретаціями та перевіряти його на здоровий глузд; - ініціювати побудову бейзлайнів і обирати метрики під бізнес-вартість помилок; - впроваджувати політики безпеки, приватності та етики під час аналітики з AI. --- ## 🧭 Як GenAI змінює аналітику даних **Ідея.** GenAI перетворює аналітичний конвеєр: рутинні етапи (читання документів, виписування фактів, первинні огляди, начерки візуалізацій і звітів) делегуються моделі, а людина концентрується на постановці задачі, валідації, причинно-наслідкових зв’язках і прийнятті рішень. **Що саме прискорюється:** - **Інжест**: витяг таблиць і фактів із PDF/сканів, переформатування у CSV/JSON. - **Пре-процесінг**: нормалізація назв сутностей, переведення валют/дат, дедуплікація. - **EDA**: початкові статистики, списки кореляцій/аномалій, замітки для дослідження. - **Аналітичні чернетки**: короткі висновки, бізнес-інсайти, ризики, питання для подальшої перевірки. - **Комунікація**: переказ складних результатів простою мовою для нетехнічної аудиторії. **Де AI не замінює людину:** - формулювання мети, вартісної моделі помилок, прийняття відповідальності; - боротьба з упередженнями та дрібними, але критичними нюансами даних; - перевірка зовнішніх джерел, юридичні/етичні обмеження. **Приклади:** - **Фінанси:** AI швидко збирає з 10-K виручку за сегментами й країнами, а аналітик перевіряє суми, курс валют і резюмує драйвери зростання. - **Операції:** AI агрегує описи дефектів і класифікує їх за кодами, аналітик звіряє з техкартами і виносить рішення щодо пріоритетів усунення. - **Маркетинг/продажі:** AI витягує з CRM найбільш типові послідовності подій до покупки, аналітик оцінює причинність і планує експерименти. --- ## 🗣️ Промпт-інженерія для аналітики **Принципи «хорошого промпту»:** - **Роль і режим:** «Ти — асистент аналітика даних. Дієш обережно, вимагаєш уточнень, повертаєш структурований результат». - **Вхід і контекст:** чітко надайте фрагменти таблиць/текстів і поясніть, що вони означають. - **Завдання і формат:** напишіть очікувану структуру виходу (Markdown-таблиця / CSV-блок / JSON зі схемою). - **Критерії якості:** вимагайте перевірок, одиниць виміру, списку припущень, позначення невпевненості. - **Обмеження:** не вигадуй посилань, позначай прогалини, не об’єднуй неоднозначні сутності. **Типові патерни:** - **«Спитай-уточни»:** якщо бракує полів (валюта, часовий зріз), AI спершу уточнює. - **«Синтезуй-структуруй»:** з абзацу зробити структуровану таблицю з валідованими типами. - **«Перевір і процитуй»:** вимагайте нумеровані цитати/витяги зі вхідного тексту. - **«Переформатуй під BI»:** зведена таблиця з полями, придатними для півотів. **Анти-приклади → покращення:** - «Порахуй статистику» → «Зроби описову статистику для всіх числових змінних (mean, median, std, min, max, IQR); видай таблицю *з назвою змінної, мірою, значенням*». - «Побудуй графіки» → «Опиши, які візуалізації варто зробити (гістограми, boxplot, scatter, heatmap кореляцій) і які інсайти вони перевірять; додай підписи осей, шкали, легенду». - «Зроби кореляцію» → «Переліч всі пари з |r| ≥ 0.7; запропонуй, які з них можуть бути спостережними ефектами (confounding) і що перевірити додатково». --- ## 🗂️ З документів у таблиці: витяг і валідація **Сценарій.** Маємо 30-сторінковий звіт із фінансовими таблицями, діаграмами й нотами. Треба витягти табличні дані, звірити підсумки й підготувати їх для подальшого аналізу. **Кроки:** - **Витяг таблиць:** попросіть повернути у CSV/JSON *зі схемою полів і типами*; вимагайте позначити пропуски, валюту, одиниці. - **Узгодження одиниць:** курс валют, інфляція, календар (фінансовий/календарний рік). - **Злиття фрагментів:** якщо таблиці розкидані, попросіть зібрати їх в одну структуровану форму з ключами (рік, сегмент, географія). - **Контроль якості:** перехресна перевірка сум, середніх, підписів рядків/стовпців. **Приклади:** - **10-K / Proxy:** AI збирає «виручка за сегментами та регіонами», «витрати R&D/SG&A», «компенсація керівництва»; ви перевіряєте суми, валюту, період і несуперечність між розділами. - **Операційний звіт:** AI знімає таблицю «показники якості» (дефекти/млн), а ви звіряєте визначення дефекту та межі специфікацій. **Типові помилки й як їх ловити:** - **Неверний підсумок** через пропущені рядки → вимагайте «покажи список рядків, які не були додані у суму». - **Змішані одиниці** («тис. USD» + «млн USD») → просіть нормалізації і додайте колонку «джерело/примітка». - **Зміна методології** між роками → AI має попередити, ви — зафіксувати. --- ## 🧹 Очищення й нормалізація даних з AI **Проблеми, які AI допомагає мінімізувати:** - **Стандартизація текстів/назв:** «Kyyiv» → «Kyiv», «Inc.»/«Ltd.» → уніфікація корпоративних суфіксів; кейс-інсенситивність. - **Нормалізація категорій:** «Male/Чоловік/м» у одну категорію з чіткою політикою мапінгу. - **Формати дат/часу:** різні локалі («2025-10-01», «01.10.2025», «1 жовтня 2025»). - **Дедуплікація:** fuzzy-matching компаній/адрес/продуктів із валідацією порогу схожості. - **Викиди та діапазони:** позначення екстремальних значень, перевірка одиниць (м, км; кг, т). **Практичні кейси:** - **USPTO/бренд-реєстри:** уніфікація «ee_name», побудова словника «оригінал → стандарт», підрахунок об’єктів на компанію. - **CRM/маркетплейси:** «Nike/Nike Inc./NIKE, Inc.» → стандартизоване ім’я бренду для стабільних дашбордів. - **Логістика:** нормалізація гео-адрес (назва міста/країни, ISO-коди, часовий пояс). **Контроль якості:** - просіть *звіт трансформацій*: які правила застосовано, скільки рядків змінено, приклади до/після; - вимагайте список «невизначених зіставлень» для ручного розгляду; - зберігайте словники мапінгу як артефакти для відтворюваності. --- ## 🔍 EDA з AI: що питати і як інтерпретувати **Що просити у AI на старті:** - **Описова статистика:** центр/розкид, IQR, частки пропусків, карманні правила для потенційних викидів. - **Кореляції/залежності:** топ-зв’язки, можливі конфаундери, гіпотези для перевірки. - **Візуальна програма:** які графіки й навіщо (гістограми, boxplot, scatter з трендом, heatmap кореляцій, bar для категорій). **На що звертати увагу в інтерпретації:** - **Кореляція ≠ причинність:** AI може запропонувати гіпотезу, а ви — дизайн перевірки (контрольні змінні, часові зрізи). - **Дисбаланси/страти:** чи не домінує одна підгрупа? Чи не «змішуємо» періоди з різними політиками? - **Сезонність/тренд:** для часових даних просіть окремо оцінити тренд і сезонні компоненти. - **Аномалії:** AI позначає підозрілі точки — ви перевіряєте їх джерело (помилка вводу, реальна подія, зміна методології). **Приклади:** - **Housing:** AI пропонує перевірити лог-трансформацію ціни, розглянути не лінійні залежності з площею, сегментувати за районом. - **Продажі e-commerce:** AI звертає увагу на «довгий хвіст» SKU, сезонні піки, промо-ефекти, канібалізацію категорій. --- ## 🤖 Моделювання та інсайти з AI (без коду) **Що доручаємо AI:** - **Фреймінг задачі:** формулювання — регресія чи класифікація; явна ціль; доступні ознаки; обмеження. - **Вибір бейзлайнів:** лінійна/логістична регресія, дерева/ансамблі, простий MLP — з описом припущень і переваг. - **План валідації:** train/val/test; k-fold; time-split для часових даних; що моніторити. - **Метрики:** RMSE/MAE для регресії; Precision/Recall/F1/ROC-AUC/PR-AUC — коли й чому. - **Ризики:** data leakage (коли обчислювати статистики), дисбаланс, зсув/дріфт, некоректні пороги. **Що залишаємо за людиною:** - **Вартісна модель помилок:** скільки коштує FP/FN, де ставити поріг, які кейси віддавати на ручну перевірку. - **Політики інтервенцій:** що робити з «сірими зонами»; як ескалювати складні випадки. - **Прийняття рішень:** фінальна інтерпретація, вплив на продукт/процес, відповідальність. **Приклади застосувань:** - **Churn:** AI готує список ознак, які корелюють з відтоком, пропонує бейзлайн-класифікатор і способи калібрування; ви узгоджуєте поріг під бюджет retention-акцій. - **ETA доставки:** AI рекомендує моделі та фічі (календар, погода, трафік) і способи оцінки невизначеності; ви вирішуєте, як комунікувати інтервали клієнтам. --- ## 🧪 Галюцинації, відповідальність і етика **Ризики:** - **Галюцинації:** вигадані цифри/посилання, надмірна впевненість. - **Упередження:** історичні зсуви у даних, диспропорції за групами. - **Приватність і комплаєнс:** персональні дані, комерційна таємниця, ліцензії на джерела. **Запобіжники:** - вимога **цитат/витягів** та **зовнішньої валідації** (звірка сум, одиниць); - **людина-в-циклі** на критичних кроках (затвердження мапінгів, порогів, висновків); - **прозорість і відтворюваність:** зберігайте промпти, словники мапінгу, версії даних і політики. **Практичні політики:** - **Data minimization:** передавайте у промпт лише потрібні фрагменти й за можливості — деперсоналізовані. - **Походження даних:** логи про джерела, дати, версії. - **Справедливість:** перевірки якості за підгрупами, контроль небажаних відхилень. --- ## 🧰 Генерація аналітичних артефактів (без коду) **Що можна просити AI згенерувати «під ключ» (далі — ваша перевірка):** - **Аналітичні резюме:** короткі executive summary із пунктами «що зросло/впало», «рекомендовані дії». - **Описові розділи звіту:** методологія збору даних, обмеження, список припущень. - **Плани досліджень:** перелік експериментів/перевірок для підтвердження причинно-наслідкових висновків. - **Скелет дашбордів:** опис потрібних зрізів/фільтрів/показників і логіку їх обчислення. **Приклади артефактів:** - **Операції:** «План скорочення дефектів на 20%: топ-3 гіпотези, KPI, контрольні графіки, дані, що збираємо додатково». - **Продажі:** «Карту показників для дашборду: revenue, AOV, conversion, retention, розкладання причин змін». --- ## 🚀 Впровадження і моніторинг AI-аналітики **Що тримати під контролем після релізу:** - **Дріфт/зсув:** розподіли ознак (covariate shift), частки класів (prior shift), зміна зв’язків (concept drift). - **SLO/SLI для ML-функцій:** цільові рівні якості (AUC/F1/RMSE), латентність, частка кейсів у «сірій зоні», бюджет ручних перевірок. - **Плейбуки:** коли перевчати модель (за часом/за тригером), як робити канарейкові релізи і відкат. **Процес «AI-аналітика як сервіс»:** - версіонування даних/словників/правил мапінгу; - журнали промптів і результатів (що показали, що прийнято/відхилено); - аудит доступів і політик приватності. --- ## 📦 Домашнє завдання (артефакти) **Здати:** - протокол промптів (з коментарями «що спрацювало/ні та чому»); - приклад витягу з PDF у CSV/JSON + перевірка сум/одиниць; - звіт із нормалізації (словник мапінгу, список невизначених відповідностей); - EDA-огляд (описові статистики, список підозрілих зв’язків, план перевірок); - чернетка інсайтів і план їхньої валідації (які дані/експерименти потрібні); - коротку політику відповідального використання AI у вашому курс-проєкті. --- ## ✅ Підсумок - GenAI — **прискорювач**, а не заміна аналітика: делегуйте рутину, лишайте за собою постановку задачі, валідацію і рішення. - Якість = **промпт + процес**: формулюйте очікуваний формат, вимагайте перевірок/цитат, зберігайте артефакти. - Етика, приватність, справедливість — **не опції**, а частина інженерної зрілості аналітичної команди. - У проді — лише те, що **моніториться і відтворюється**: SLO/SLI, дріфт, плейбуки перевчання. --- ## 📚 Рекомендована література та матеріали - Практичні гіди з **prompt-інженерії** для аналітики та бізнес-звітів. - Матеріали з **EDA та валідації** (перелік описових метрик, контроль якості, виявлення аномалій). - Огляди **упереджень, галюцинацій і відповідальної AI-практики** (privacy, fairness, transparency). - Нотатки курсу «Використання генеративного ШІ для аналізу даних» (демо-кейси: PDF→CSV/JSON, USPTO, Housing, Churn, Students Performance). --- ### Генеративний ШІ в аналізі даних **Мета і завдання.** Ознайомити студентів з роллю генеративних моделей (напр. ChatGPT) у сучасному циклі аналітики даних, показати місце промпт-інжинірингу у постановці задач, перевірці результатів та комунікації інсайтів. Після вивчення розділу студент уміє формулювати промпти під аналітичні завдання, структурувати очікуваний вихід (таблиці/JSON/пояснення), виявляти ризики галюцинацій і документувати припущення. **Теоретичний матеріал.** Генеративні моделі доповнюють компетенції аналітика в трьох площинах: (1) швидке прототипування ідей (чернетки коду, запити до БД, описові звіти), (2) перетворення форматів знань (з PDF/HTML до таблиць і структурованого JSON), (3) підтримка рішень (генерація гіпотез, порівняння варіантів, підготовка пояснень для стейкхолдерів). За класичним поглядом на процеси аналізу (постановка питання → збір та підготовка даних → моделювання → оцінювання → інтерпретація → комунікація) генеративний ІІ інтегрується на всіх етапах: допомагає уточнити постановку (декомпозиція завдань, формалізація метрик), структурувати дані (опис колонок, типи, перевірки), обрати методи (рекомендації алгоритмів і трансформацій), підготувати експерименти (валідаційні схеми, гіперпараметри) та пояснити результати мовою бізнесу. Якість виходу залежить від якості промпту: контекст (дані/схеми/приклади), роль (хто виконує), чіткі формати відповіді (таблиця/JSON/псевдокод), обмеження (час, інструменти), критерії якості (перевірки, тести, посилання). Важливо будувати «контракти» на вихід: вимагати поля, одиниці вимірювання, посилання на джерела, дисклеймери щодо припущень. Критичною є звичка перевіряти факти й числа незалежними обчисленнями та скриптами — моделі можуть «галюцинувати», і це не заміняє методичної перевірки. У промислових сценаріях застосовують підказки з ланцюжками міркувань (Chain-of-Thought), самоперевірку (Self-Consistency), рольові інструкції, а також підвантаження контексту з корпоративних джерел (RAG). Підсумок: GenAI не замінює аналітика, а прискорює роботу та підсилює якість комунікації, якщо є процеси валідації. ::: {.callout-note} **Шпаргалка промптів (фрагмент):** - *Погано:* «Зроби аналіз». - *Добре:* «Проаналізуй [CSV] із стовпцями [price, area, stories, ...]. Дай описову статистику (mean, median, IQR), топ-10 кореляцій із *price*, і список змінних-кандидатів до видалення (low variance, multicollinearity). Виведи як таблицю Markdown». ::: **Демо-приклади.** ```text Завдання: Напиши 10 пар «поганий–хороший промпт» для тем: описова статистика, кореляція, візуалізація, ML, часові ряди. Ідеальний промпт (шаблон): Ти — аналітик даних. Мета: ... Дані: ... Формат виходу: таблиця зі стовпцями ... Обмеження: ... Перевірка якості: ... Додай попередження щодо припущень. ``` **Висновки.** GenAI прискорює рутину й підсилює комунікацію, але вимагає дисципліни у постановці задач, прозорості джерел та перевірці результатів. --- ### Огляд даних з AI (EDA з документів і веб-джерел) **Мета і завдання.** Навчитися швидко отримувати структуровані дані з неструктурованих джерел (PDF, 10‑K/Proxy Statement), формувати таблиці/JSON та виконувати первинний EDA з допомогою GenAI. **Теоретичний матеріал.** Рання стадія EDA поєднує три кроки: інґест (завантаження), нормалізацію та оркестрацію запитів. Для звітів формату 10‑K/Proxy найчастіше потрібні: пошук релевантних секцій, вилучення таблиць компенсацій/структури власності, уніфікація дат/валют та контроль за «втратами» при конвертації. Генеративний ІІ може: (1) резюмувати великі секції, (2) підсвічувати цільові патерни (наприклад, згадки про «related party transactions»), (3) повертати структурований вихід. Важливо вказувати жорстку схему результату: назви полів, одиниці вимірювання, формат чисел/дат/валют, політика відсутніх значень. Рекомендовано вимагати посилання на місце у документі (section/page/paragraph), а також дублювати результат у зручних форматах (таблиця Markdown + JSON). Для валідації — прості перехресні перевірки (сума рядків = підсумок, узгодженість валют і дат, розбіжність не більше за ε). При роботі з веб‑джерелами слід документувати дату доступу, URL і примітки щодо ліцензії/відповідальності. Для масштабування задач витягування добре працюють «пакети» промптів: пошук → екстракція за схемою → валідація → агрегація. Після структуризації можна виконати класичний EDA: описова статистика, розподіли, кореляції, побудова простих графіків для швидкої інвентаризації даних та виявлення підказок для глибшого аналізу. ::: {.callout-tip} **Джерела з презентації:** - 10‑Q/10‑K приклад: *As-Filed* (посилання із презентації). - Proxy Statement (2023) — компенсації керівників. Скопійований результат з ChatGPT → **Ctrl+V** у **MS Excel**. ::: **Демо-приклади.** ```text Промпт: Збери інформацію про структуру власності з 10‑K (посилання з презентації). Виведи у вигляді таблиці: Holder, Shares, %Ownership, Date, SourceSection. Промпт: Збери інформацію про зарплати і бонуси керівників із Proxy Statement. Формат: JSON зі схемою {name, role, base_salary, bonus, stock_awards, total, year}. ``` **Висновки.** GenAI корисний для первинної структуризації неструктурованих джерел, але контроль якості й аудит трасування джерел — обов’язкові. --- ### Очищення даних (якість, стандартизація, дедуплікація) **Мета і завдання.** Засвоїти основні категорії проблем якості даних і техніки їх усунення: пропуски, дублікати, неправильні типи, викиди, помилки написання, невідповідні категорії, форматування дат/валют. **Теоретичний матеріал.** Якість даних безпосередньо впливає на коректність висновків та навчання моделей. Класичними вимірами якості є точність, повнота, узгодженість, своєчасність та унікальність. Для пропусків використовують стратегії від видалення до імпутації (середнє/медіана/модальність, регресійна імпутація, KNN-impute), але будь-яка імпутація має бути прозорою та перевіреною на стабільність. Дублікатів позбуваються через чіткі ключі, правила нормалізації рядків, *record linkage* та *fuzzy matching*. Стандартизація категоріальних полів (наприклад, «Київ», «Kyiv», «Kyyiv») потребує словників відповідностей, регулярних виразів і правил очищення суфіксів/префіксів (Inc., Ltd., Corp.). Для дат/валют — уніфікація форматів і явне зберігання timezone/валюти. Аномалії виявляють через boxplot/IQR‑правило, z‑scores або моделі детекції викидів (LOF, Isolation Forest). У великих даних якість забезпечують конвеєри перевірок: тест‑кейси на схеми, обмеження доменів, унітарні тести на скрипти, логування частот значень. Доброю практикою є *data contracts* між виробниками та споживачами даних. Для корпоративних сховищ — каталогізація (data catalog), політики версійності та ретро‑валідація після оновлень. ::: {.callout-example} **ДЕМО 4. USPTO Patent Assignment Dataset** - Дані: <https://www.uspto.gov/ip-policy/economic-research/research-datasets/patent-assignment-dataset> - Схема: <https://www.uspto.gov/sites/default/files/documents/pat_assign_dataset_schema.pdf> **Промпт (фрагмент):** «Standardize and analyze company names for trademark aggregation. Standardize *ee_name*: lowercase, trim, remove punctuation, clean corporate suffixes. Group by standardized name; для кожної групи — список оригінальних *ee_names*, стандартизована назва, загальна кількість записів. Показати топ‑25.» ::: **Висновки.** Інвестиції в якість даних окупаються: зменшують «шум» у моделях, підвищують відтворюваність і довіру до результатів. --- ### Моделювання з AI (регресія, класифікація, відтік клієнтів) **Мета і завдання.** Показати, як GenAI допомагає в проєктуванні експерименту, підборі ознак, виборі моделей і комунікації результатів; розглянути приклад churn‑аналізу. **Теоретичний матеріал.** Математичне моделювання — це формалізація системи та її поведінки через параметризовані співвідношення. У машинному навчанні відрізняють задачі передбачення (прогноз) і пояснення (каузальний аналіз), що визначає вибір методів, метрик і валідації. Для класифікації типові метрики: accuracy, precision/recall, F1, ROC‑AUC; для регресії — RMSE/MAE, \(R^2\), перевірка залишків. Для дисбалансних даних застосовують стратифіковане розбиття, ваги класів, пороговий аналіз та PR‑AUC. Ризик перенавчання зменшують регуляризація (L1/L2), крос‑валідація та ансамблі (bagging/boosting/stacking). Інтерпретація — критичний етап: часткові залежності, SHAP/perm‑importance пояснюють вплив ознак; але висновки слід співставляти з предметною областю. Для задач відтоку (churn) корисні не тільки класифікатори, а й моделі часу до події (Cox) для оцінки ризиків у часі. Роль GenAI: пропонує пайплайни (обробка даних → розбиття → моделювання → метрики), формує гіпотези щодо трансформацій (логарифмування, бінінг), допомагає писати звіти менеджерам зрозумілою мовою. Але моделі/метрики мають бути відтворені скриптами, а твердження — підкріплені валідованими числами. ::: {.callout-example} **ДЕМО 6. Customer Churn Analysis** - Дані: <https://github.com/rohit-chandra/Customer_Churn_Analysis/tree/main> - *Фрагмент промпту:* «Provide summary statistics for churn; розклади churn за ознаками; побудуй модель для прогнозу, поясни вибір; запропонуй трансформації змінних; побудуй повний ML‑пайплайн.» ::: **Висновки.** GenAI прискорює розробку й документацію ML‑пайплайнів, але ключові рішення (вибір метрик, перевірка гіпотез, інтерпретація впливу ознак) залишаються за аналітиком. --- ### Галюцинації, етика та відповідальне використання GenAI **Мета і завдання.** Розуміти природу галюцинацій, упереджень і ризиків; вміти організувати валідацію фактів, прозорість даних і відповідальне впровадження GenAI в аналітичні процеси. **Теоретичний матеріал.** Галюцинації — це переконливо сформульовані, але фактично помилкові твердження моделі. Причини: апраксимативна природа моделей, обмеження контекстного вікна, змішування доменів і «примари» від навчальних даних. Практичний мінімум контролю: (1) *evidence‑based prompting* — вимагати посилань і цитування джерел, (2) *grounding* — подавати моделі релевантний контекст (витяги з бази знань, документи), (3) перевірка за допомогою зовнішніх валідаторів (правила узгодженості, скрипти перевірки, незалежні перерахунки), (4) *red teaming* і сценарний аналіз, (5) журналювання джерел і версій даних/моделей. Етичні ризики охоплюють приватність, дискримінацію, безпеку та авторські права. Для їх пом’якшення застосовують *datasheets for datasets* та *model cards*, а також аудит справедливості (parity метрики, розрізи за групами). Важливо забезпечити *human‑in‑the‑loop* і чіткі межі відповідальності. У командах варто формалізувати політику використання GenAI: де дозволено/заборонено, як перевіряється, як документується походження даних і коду. Прозора комунікація обмежень моделі та невизначеності результатів — ключ до довіри з боку стейкхолдерів. ::: {.callout-warning} **Практичний чек‑лист:** 1) Вимагай джерела. 2) Перевіряй числа скриптами. 3) Логуй версії даних і моделей. 4) Застосовуй *human‑in‑the‑loop*. 5) Документуй *datasheets/model cards*. ::: **Висновки.** Без процесів верифікації та етичної рамки GenAI швидко накопичує технічний борг і репутаційні ризики. З процесами — це потужний прискорювач аналітики. --- ### Генерація коду для аналітики (R/Python) з GenAI **Мета і завдання.** Навчитися коректно делегувати моделі створення чернеток коду для EDA, підготовки даних і моделювання; зрозуміти межі довіри та способи автоматичної перевірки. **Теоретичний матеріал.** LLM, навчені на коді, добре справляються з шаблонними завданнями (імпорт даних, базовий EDA, валідація типів, побудова стандартних графіків, стартові ML‑пайплайни). Ефективність залежить від чіткої специфікації API/бібліотек і прикладів. Типові ризики — «впевнені помилки» (неіснуючі параметри/функції), поверхнева обробка крайових випадків і брак тестів. Тому варто застосовувати патерни: *generate → run → test → fix*; автоматичні перевірки (unit tests, типізація, лінтери); вимагати коментарі до коду і прозорий логіціджмент. Комбінування R і Python через файли/API дає практичну гнучкість: наприклад, EDA у Python (pandas, matplotlib/plotly), моделювання у scikit‑learn, а звітність — у Quarto з R‑візуалізацією. Принцип «малих кроків» і *guardrails* (валідація вхідних параметрів, контроль розмірів виходу, таймаути) допомагають уникати збоїв під час автоматизованих запусків. ::: {.callout-example} **ДЕМО 8. Students Performance Dataset** - Дані: <https://www.kaggle.com/datasets/rabieelkharoua/students-performance-dataset> - Етапи (з презентації): імпорт → перевірка якості → кореляції/ANOVA → підготовка (encoding/scale) → train/test 70/30 → базова регресійна/класична модель → VIF → метрики → візуалізації → висновки. ::: **Приклад промптів (R).** ```r # Етап 1: імпорт і первинний огляд library(readr); library(dplyr); library(psych) df <- read_csv("students_performance.csv") glimpse(df); psych::describe(select_if(df, is.numeric)) ``` ```r # Етап 3: кореляції та heatmap library(ggplot2); library(reshape2) num <- df |> select_if(is.numeric) corr <- cor(num, use = "pairwise.complete.obs") melted <- reshape2::melt(corr) ggplot(melted, aes(Var1, Var2, fill = value)) + geom_tile() + geom_text(aes(label = round(value, 2)), size = 3) + labs(x = NULL, y = NULL, title = "Кореляційна матриця") ``` **Висновки.** Генерація коду корисна для швидкого старту, але фінальну якість забезпечують тести, рецензії та контроль версій. **Список літератури (APA 7).** - Chen, M., Tworek, J., Jun, H., et al. (2021). Evaluating large language models trained on code. *arXiv:2107.03374*. - Bird, S., Barr, E., et al. (2023). Code generation with LLMs: A survey. *arXiv:2303.03106*. - Van Rossum, G., & Drake, F. L. (2009). *The Python Language Reference*. Python Software Foundation. - Wickham, H., François, R., et al. (2023). *dplyr: A Grammar of Data Manipulation*. R package. - Pedregosa, F., Varoquaux, G., et al. (2011). Scikit-learn: ML in Python. *JMLR, 12*, 2825–2830. --- ### Додаткові демо з презентації ::: {.callout-example} **ДЕМО 5. Housing Prices (Kaggle)** - <https://www.kaggle.com/datasets/yasserh/housing-prices-dataset> **Промпти (фрагменти):** summary variables; visual summary; identify low‑variance/highly correlated features; побудуй попарні кореляції; EDA з охайним стилем. ::: ::: {.callout-example} **ДЕМО 2–3. 10‑K/Proxy → Таблиці/JSON** - Збір структури власності; компенсацій топ-менеджменту. - Формати виходу: таблиця / JSON. - Копіювання результату до Excel. ::: --- ### Підсумок лекції - GenAI — прискорювач аналітичного циклу, особливо на етапах формулювання, структурування і комунікації. - Якість даних і перевірка фактів — обов’язкові; етика і прозорість — ключ до довіри. - Для ML важливі валідація, інтерпретація та зрозуміла розповідь про результати. - Генерація коду корисна для прототипів; у проді — тести, рев’ю та контроль. ::: {.callout-note} **Нагадування:** усі наведені промпти — шаблони. Адаптуйте поля/формати під ваш домен, додавайте перевірки, логування джерел і вказуйте версії даних. ::: --- :::: {.columns} ::: {.column width="20%"} <img src="https://kleban.page/bc-2025/images/logo.png" alt="Лого" style="height: 70px;"> ::: ::: {.column width="30%"} <img src="https://kleban.page/bc-2025/images/eu-founded.png" alt="Лого" style="height: 100px;"> ::: ::: {.column width="50%"} Проєкт реалізується за підтримки **Європейського Союзу** в межах програми [Дім Європи](https://houseofeurope.org.ua/). ::: ::::