Як зробити групування ключових слів з AI контенту для пошукової системи?
Наразі я розробляю пошукову систему, орієнтовану на контент (картинки, відео), створений за допомогою штучного інтелекту, і зіткнувся з викликом у організації мого датасету. Датасет складається з 1,5 мільйона ключових слів і фраз, отриманих з великої кількості генеративних AI-промптів. Ці ківорди значно відрізняються, особливо імена, і їх потрібно групувати в уніфіковані категорії для покращення функціональності пошуку та UX.
Прикладом варіацій, з якими я стикаюся, є кілька представлень «Miley Cyrus», такі як:
- Miley Cyrus
- MileyCyrusPopStar
- lora:Miley_Cyrus_2024:1
- Miley as Hannah Montana
- miley_cyrus_live
- MileyCyrus_HD
Мета полягає в очищенні, стандартизації, вилученні значущих ключових слів, а потім групуванні цих термінів для виявлення взаємозв’язків та шаблонів, все це має бути масштабованим і автоматизованим способом.
Враховуючи величезний розмір набору даних, ручне сортування або рев’ю неможливе. Я шукаю поради щодо кращих практик, інструментів, бібліотек або алгоритмів, які могли б сприяти такому аналізу тексту та організації даних у великому масштабі.
Буду вдячний за будь які поради.
4 коментарі
Додати коментар Підписатись на коментаріВідписатись від коментарів