Автоматизація збору даних про компанії + короткий опис через LLM
Привіт 👋
Працюю з автоматизацією і нещодавно зробив невеликий інструмент для збору інформації про компанії. Спочатку робив під свої задачі, але виявилось, що це доволі універсальна штука.
Ідея проста: є список компаній → потрібно швидко зрозуміти, чим вони займаються, знайти сайт, контакти і отримати короткий опис.
Що робить скрипт:
- шукає компанії через DNB
- витягує сайт, індустрію та базові дані
- парсить сайт (включаючи сторінки типу contact / about)
- знаходить телефони (навіть якщо вони в різних форматах)
- збирає текст із сайту
- генерує короткий опис
(3–5 речень)
На виході отримую вже готову таблицю з нормальною структурою.
Що виявилось неочевидно складним:
- телефони на сайтах — повний хаос форматів
- багато «сміттєвого» тексту при парсингу
- сайти часто мають нестандартну структуру
- LLM може падати по лімітах → довелось робити fallback
Де це можна використовувати:
- лідогенерація
- швидкий ресерч компаній
- підготовка до продажів
- аналіз ринку
Зробив просту демо-сторінку (поки максимально базову):
Цікаво, чи хтось робив щось подібне?
І як ви вирішуєте проблему нормалізації даних із сайтів (особливо контактів)?
7 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарівТак, я робив таке
Парсити краще Clay, там очищені та перевірені дані
Крім того, там можна задати фільтри, щоб формувати саме за своїм сегментом.
Сам парсер та інші інструменти краще писати на go, ніж на python — швидше будуть.
Де можна використовувати — для аутрича. Я розсилаю по мільйонах компаній.
Також зробив простий сайт — bablo.biz/uk
Доброго дня. Дякую за коментар. А яку LLM ви використовували? Я брав одну з умовно безкоштовних від Groq. Доволі швидка, але не дуже потужна на мій погляд
gpt-5.4-pro
gpt-4.1
Дякую за відповідь.
Підкажіть, будь ласка, де ви берете такі обсяги компаній (мільйони)? Я поки працюю з DNB і держреєстрами, але це не дуже добре масштабується.
datarade.ai
Цікаво, а чим саме ви робите розсилку в такому обсязі? Це готовий сервіс, платне ПЗ чи власний софт? Якщо не секрет, ще цікаво, як у вас побудована технічна частина: домени, інфраструктура і deliverability.
Свій софт та інфраструктура
Для Gmail використовую GCP, для Outlook — Azure, для решти — AWS.