Зробив українську документацію з Python для аналізу даних — ділюсь з усіма
Всім привіт!
Мене звати Влад, і ось настав цей довгоочікуваний момент для моєї першої публікації на DOU))
Якщо коротко про мене, я зараз студент курсу Data Analytics і планую повністю займатись аналітикою даних.
Як взагалі з’явилась ідея зробити документацію
Почав робити фінальний проєкт на курсі, і тут мені знадобились функції, з якими я ще не працював. Рішення, здавалося б, просте — почати шукати в інтернеті і одразу зіштовхнувся з тим, що більшість матеріалів англійською, а знайдені приклади потребували додаткового розбору: і взагалі незрозуміло було, чому саме так, коли це застосовується, і які є підводні камені.
Україномовного структурованого довідника, де все це зібрано в одному місці, просто не існувало. Тому вирішив зробити його сам — щоб допомогти собі і тим, хто стикається з тим самим кожного дня в роботі.
Що знаходиться всередині
П’ять бібліотек, які покривають більшість щоденних задач аналітика: Pandas, NumPy, Matplotlib, Plotly, Seaborn. Загалом 627 функцій з цікавими практичними прикладами коду, та як краще його застосовувати.
199 функцій розкриті розширено — і ось, що мене самого здивувало в процесі: деякі функції вміють набагато більше, ніж здається на перший погляд. Кожна з них має параметри і розширення, про які не дізнаєшся, якщо просто гуглиш базовий приклад, і як можна зрозуміти, то я саме на це і натрапив. Саме тому для кожної розширеної функції є окремий блок: коли використовувати, ключові параметри, поширені помилки і пов’язані функції.
Це забрало в мене чимало часу, але результат — саме той, який я хотів: один ресурс українською, де можна швидко знайти функцію та одразу зрозуміти, як її правильно застосувати, і чому саме так)
Реальний приклад з практики, який дав мені задуматися над цим
Під час ETL процесу в фінальному проєкті мені потрібно було заповнити пропуски в даних. Я знав, що є fillna(), але не знав, наскільки вона гнучка, і був потім дуже приємно здивований)
Виявилось, що можна заповнювати не тільки нулем чи медіаною, а й значеннями з іншого стовпця, або використовувати ffill/bfill для часових рядів.
І головне — є важливий нюанс, який я для себе прям записав: заповнення середнім може спотворити статистику і моделі, тому для часових рядів краще interpolate() або ffill, а для категоріальних — окрема категорія 'unknown'.
Саме такі деталі, які можна не знайти у базовому прикладі — і є в кожній розширеній функції документації.
Для кого підходить
Ресурс підійде як для початківців, які тільки знайомляться з Python для аналітики, так і для тих, хто вже знає основи, але хоче закріпити або відкрити щось нове.
Короткий гайд, як користуватись
Він описаний також на головній сторінці документації, але додам також коротко сюди. Там є глобальний пошук, де ви можете натиснути /, і він знаходить функції з усіх п’яти бібліотек одразу.
Кожна бібліотека має окрему сторінку з навігацією по розділам. Функції з тегом extended розгортаються кнопкою «Дізнатися більше» — там повний розбір з прикладами і типовими помилками.
Документація: kiichenko-vlad.github.io/pandas-numpy-uk-docs
Буду радий вашому зворотному зв’язку — якщо знайдете, що варто доповнити або є функції яких не вистачає.
Цікаво також почути, чи стикались з подібною проблемою ті, хто вчиться або вже працює в аналітиці?
4 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарівWow! Дійсно дуже корисний гайд зібрали. Видно, що вклались в нього. Дякую, що ділитесь!
Дякую! Завжди радий поділитися)
Документація супер! Дякую що поділились — дуже корисно.
Дякую! Радий що виявилось корисним — саме для цього і робив. Якщо знайдете щось що варто доповнити — буду радий почути))