Автоматизація збору даних про компанії + короткий опис через LLM
Привіт 👋
Працюю з автоматизацією і нещодавно зробив невеликий інструмент для збору інформації про компанії. Спочатку робив під свої задачі, але виявилось, що це доволі універсальна штука.
Ідея проста: є список компаній → потрібно швидко зрозуміти, чим вони займаються, знайти сайт, контакти і отримати короткий опис.
Що робить скрипт:
- шукає компанії через DNB
- витягує сайт, індустрію та базові дані
- парсить сайт (включаючи сторінки типу contact / about)
- знаходить телефони (навіть якщо вони в різних форматах)
- збирає текст із сайту
- генерує короткий опис
(3–5 речень)
На виході отримую вже готову таблицю з нормальною структурою.
Що виявилось неочевидно складним:
- телефони на сайтах — повний хаос форматів
- багато «сміттєвого» тексту при парсингу
- сайти часто мають нестандартну структуру
- LLM може падати по лімітах → довелось робити fallback
Де це можна використовувати:
- лідогенерація
- швидкий ресерч компаній
- підготовка до продажів
- аналіз ринку
Зробив просту демо-сторінку (поки максимально базову):
Цікаво, чи хтось робив щось подібне?
І як ви вирішуєте проблему нормалізації даних із сайтів (особливо контактів)?
7 коментарів
Додати коментар Підписатись на коментаріВідписатись від коментарів