Для бренда в цілому, та по кампаніям окремо. Зазвичай статті не рерайтять, а тільки трошки змінюють і передруковують і у такому випадку вимірявши схожість текстів на відсотків 70% можна говорити про одну тему. Дані намагаємось оновлювати у режимі реального часу.
Не зовсім. Спочатку ми шукаємо у медіа новини, де згадуються потрібні нам компанії, і для них вже проводимо аналіз.
Используем комбинацию готовых инструментов. Тот же solr позволяет искать похожие тексты, а потом используем python для проверки.