Зробив українську документацію з Python для аналізу даних — ділюсь з усіма

💡 Усі статті, обговорення, новини для початківців — в одному місці. Приєднуйтесь до Junior спільноти!

Всім привіт!

Мене звати Влад, і ось настав цей довгоочікуваний момент для моєї першої публікації на DOU))
Якщо коротко про мене, я зараз студент курсу Data Analytics і планую повністю займатись аналітикою даних.

Як взагалі з’явилась ідея зробити документацію

Почав робити фінальний проєкт на курсі, і тут мені знадобились функції, з якими я ще не працював. Рішення, здавалося б, просте — почати шукати в інтернеті і одразу зіштовхнувся з тим, що більшість матеріалів англійською, а знайдені приклади потребували додаткового розбору: і взагалі незрозуміло було, чому саме так, коли це застосовується, і які є підводні камені.

Україномовного структурованого довідника, де все це зібрано в одному місці, просто не існувало. Тому вирішив зробити його сам — щоб допомогти собі і тим, хто стикається з тим самим кожного дня в роботі.

Що знаходиться всередині

П’ять бібліотек, які покривають більшість щоденних задач аналітика: Pandas, NumPy, Matplotlib, Plotly, Seaborn. Загалом 627 функцій з цікавими практичними прикладами коду, та як краще його застосовувати.

199 функцій розкриті розширено — і ось, що мене самого здивувало в процесі: деякі функції вміють набагато більше, ніж здається на перший погляд. Кожна з них має параметри і розширення, про які не дізнаєшся, якщо просто гуглиш базовий приклад, і як можна зрозуміти, то я саме на це і натрапив. Саме тому для кожної розширеної функції є окремий блок: коли використовувати, ключові параметри, поширені помилки і пов’язані функції.

Це забрало в мене чимало часу, але результат — саме той, який я хотів: один ресурс українською, де можна швидко знайти функцію та одразу зрозуміти, як її правильно застосувати, і чому саме так)

Реальний приклад з практики, який дав мені задуматися над цим

Під час ETL процесу в фінальному проєкті мені потрібно було заповнити пропуски в даних. Я знав, що є fillna(), але не знав, наскільки вона гнучка, і був потім дуже приємно здивований)

Виявилось, що можна заповнювати не тільки нулем чи медіаною, а й значеннями з іншого стовпця, або використовувати ffill/bfill для часових рядів.

І головне — є важливий нюанс, який я для себе прям записав: заповнення середнім може спотворити статистику і моделі, тому для часових рядів краще interpolate() або ffill, а для категоріальних — окрема категорія 'unknown'.

Саме такі деталі, які можна не знайти у базовому прикладі — і є в кожній розширеній функції документації.

Для кого підходить

Ресурс підійде як для початківців, які тільки знайомляться з Python для аналітики, так і для тих, хто вже знає основи, але хоче закріпити або відкрити щось нове.

Короткий гайд, як користуватись

Він описаний також на головній сторінці документації, але додам також коротко сюди. Там є глобальний пошук, де ви можете натиснути /, і він знаходить функції з усіх п’яти бібліотек одразу.

Кожна бібліотека має окрему сторінку з навігацією по розділам. Функції з тегом extended розгортаються кнопкою «Дізнатися більше» — там повний розбір з прикладами і типовими помилками.

Документація: kiichenko-vlad.github.io/pandas-numpy-uk-docs

Буду радий вашому зворотному зв’язку — якщо знайдете, що варто доповнити або є функції яких не вистачає.

Цікаво також почути, чи стикались з подібною проблемою ті, хто вчиться або вже працює в аналітиці?

👍ПодобаєтьсяСподобалось10
До обраногоВ обраному5
LinkedIn
Ctrl + Enter
Ctrl + Enter

Велике дякую! На таких людях світ тримається)

Wow! Дійсно дуже корисний гайд зібрали. Видно, що вклались в нього. Дякую, що ділитесь!

Документація супер! Дякую що поділились — дуже корисно.

Дякую! Радий що виявилось корисним — саме для цього і робив. Якщо знайдете щось що варто доповнити — буду радий почути))

Підписатись на коментарі