Автоматизація збору даних про компанії + короткий опис через LLM

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Привіт 👋

Працюю з автоматизацією і нещодавно зробив невеликий інструмент для збору інформації про компанії. Спочатку робив під свої задачі, але виявилось, що це доволі універсальна штука.

Ідея проста: є список компаній → потрібно швидко зрозуміти, чим вони займаються, знайти сайт, контакти і отримати короткий опис.

Що робить скрипт:

  • шукає компанії через DNB
  • витягує сайт, індустрію та базові дані
  • парсить сайт (включаючи сторінки типу contact / about)
  • знаходить телефони (навіть якщо вони в різних форматах)
  • збирає текст із сайту
  • генерує короткий опис (3–5 речень)

На виході отримую вже готову таблицю з нормальною структурою.

Що виявилось неочевидно складним:

  • телефони на сайтах — повний хаос форматів
  • багато «сміттєвого» тексту при парсингу
  • сайти часто мають нестандартну структуру
  • LLM може падати по лімітах → довелось робити fallback

Де це можна використовувати:

  • лідогенерація
  • швидкий ресерч компаній
  • підготовка до продажів
  • аналіз ринку

Зробив просту демо-сторінку (поки максимально базову):

👉 dibara512.github.io/my-site

Цікаво, чи хтось робив щось подібне?

І як ви вирішуєте проблему нормалізації даних із сайтів (особливо контактів)?

👍ПодобаєтьсяСподобалось1
До обраногоВ обраному0
LinkedIn
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Дозволені теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Так, я робив таке

Парсити краще Clay, там очищені та перевірені дані
Крім того, там можна задати фільтри, щоб формувати саме за своїм сегментом.

Сам парсер та інші інструменти краще писати на go, ніж на python — швидше будуть.

Де можна використовувати — для аутрича. Я розсилаю по мільйонах компаній.

Також зробив простий сайт — bablo.biz/uk

Доброго дня. Дякую за коментар. А яку LLM ви використовували? Я брав одну з умовно безкоштовних від Groq. Доволі швидка, але не дуже потужна на мій погляд

Дякую за відповідь.
Підкажіть, будь ласка, де ви берете такі обсяги компаній (мільйони)? Я поки працюю з DNB і держреєстрами, але це не дуже добре масштабується.

Цікаво, а чим саме ви робите розсилку в такому обсязі? Це готовий сервіс, платне ПЗ чи власний софт? Якщо не секрет, ще цікаво, як у вас побудована технічна частина: домени, інфраструктура і deliverability.

Цікаво, а чим саме ви робите розсилку в такому обсязі? Це готовий сервіс, платне ПЗ чи власний софт?

Свій софт та інфраструктура

Якщо не секрет, ще цікаво, як у вас побудована технічна частина: домени, інфраструктура і deliverability.

Для Gmail використовую GCP, для Outlook — Azure, для решти — AWS.

Підписатись на коментарі