• Як зробити групування ключових слів з AI контенту для пошукової системи?

    Значить можна:

    1) шукати, дороблювати або писати tokenizer, який розіб’є «MileyCyrusPopStar» у («Miley», «Cyrus», «Pop», «Star») або ще дрібніше — можна глянути на gensim.utils.tokenize, почитати наприклад тут — huggingface.co/...​/nlp-course/en/chapter6/1

    2) об’єднати токени, які є однією сутністю («Miley», «Cyrus») у «MileyCyrus». Можна глянути тут — radimrehurek.com/...​ensim/models/phrases.html. Не знаю, чи це зараз найкращий варіант, давно за цим не слідкував

    3) якщо цього недостатьно, наприклад ви хочете об’єднати синоніми або описки, то на натренувати ембеддінги на ваших документах (генеративних AI-промптах) після кроків 1) і 2)

    4) далі отримані фрази(n-грами) і токени з дуже близькими ембеддінгами злити в єдиний обʼєкт. Тут виникне питання, яку форму зробити канонічною «MileyCyrus», «miley_cyrus» чи «Miley», потрібно буде придумати якісь правила

    Також варто було б пошукати user generated сайти які часто оновлюються і розмічаються користувачами, можливо звідти можна було б витягнути канонічні форми.

  • Як зробити групування ключових слів з AI контенту для пошукової системи?

    З опису не дуже ясно які категорії бажано отримати. Це шось типу тегів (яких багато), чи менша кількість широких категорій типу «співачка». Чи взагалі деяка їєрархія — «Співачки» -> «Miley Cyrus». Якщо це відкрите питання, то як ці категорії будуть допомогати користувачам. Або іншими словами яке UX планується з використанням цих категорій. Якщо і це відкрите питання, то потрібно визначитись з прикладами UX, які підійдуть для ваших цілей.

    В будь-якому разі багато існуючих класифікацій можна витягнути з існуючих датасетів, починаючи від Вікіпедії і закінчуючи самописними парсерами спеціалізованих сайтів.

    Далі постане питання знаходження відповідності між канонічною формою поняття і її записами довільною мовою, наприклад «Miley Cyrus» і «MileyCyrusPopStar». Думаю, тут потрібно буде дивитися в сторону різноманітних tokenizers, хоча швидше за все прийдеться писати свій, або як мінімум допилювати існуючий. Далі маючи розбивку «miley_cyrus_live» на («miley», «cyrus», «live») бажано згрупувати токени у поняття «miley cyrus» та «live». Для цього можна використати щось типу models.phrases з бібліотеки Gensim.

    Ці групи та одиночні токени вже можна використовувати як теги, хоча бажано буде продивитися найчастіші, деякі з них будуть загальними словами, марними з точки зору пошуку за ключовим словом.

    Для побудови деякої ієрархії чи просто фільтрування цих недотегів можна побудувати відповідності між тегами і наприклад назвами статей з Вікіпедії чи інших датасетів.

    P.S. Не претендую на ідеальний підхід до цієї задачі, просто мої прикидки.

  • Прошу поділитися власним досвідом медитації

    Даже если 0.01% пойдет по психиатрам после ретрита, это уже плохо.

    Откуда вы узнали, что они утаили диагноз? Вы реально проводите детективное расследование насчет каждого ученика, который стал странно себя вести? А как насчет тех, которые поняли, что все плохо через пару дней после окончания ретрита? В этих ретритах все на добровольцах держится, откуда у них столько времени, чтобы все тщательно расследовать?

    Я не настолько знаком с этим разделом буддизма, чтобы уверенно представлять технику безопасности. Но, раз знающие люди утверждают, что в буддизме известны возможные последствия длительной Випассаны, то как минимум стоило бы предупреждать о таких исходах, пускай они и очень редки.

    Может люди с большим опытом могли бы и разработать какой-то список «первых звоночков», после которых мирянину стоило бы остановиться, если он не желает такого просветления.

  • Прошу поділитися власним досвідом медитації

    Насколько я понял, в ретритах Гоенки эти моменты не проговариваются, или на них недостаточно акцентируется внимание.

    Насчет «не имеют права рассказывать о позитивном опыте» я ничего не говорил. Мой главный посыл — слабая техника безопасности десятидневных ретритов Гоенки.

  • Прошу поділитися власним досвідом медитації

    Проблема в том, что не все знают, что у них назревает психическое расстройство, а техника безопасности этих ретритов по Гоенке слабая.

    Підтримали: Dmytro Sirenko, anonymous
  • Прошу поділитися власним досвідом медитації

    Моя позиция в том, что Випассана полезна, но рекламировать десятидневный ретрит новичкам в Випассане без акцента на том, что может пойти не так, без тщательных мер предосторожности — безответственно.

  • Прошу поділитися власним досвідом медитації

    Я читал еще минимум 2 истории о съехавшей крыше. И там люди искали не кайфа, и не съезда крыши.

  • Прошу поділитися власним досвідом медитації

    Советую попробовать 15 минут самой простой Випассаны. Описание легко найти в инете, схема очень простая.

    Випассана отлично помогает заметить насколько современная культура частых переключений убивает наше тщательное «глубокое» мышление, и восстановиться.

    А на десятидневный ретрит по Випассане сходу точно не стоит ехать, в другом комментарии расписал подробней.

  • Прошу поділитися власним досвідом медитації

    Только сначала желательно почитать истории людей, у которых съехала крыша от такого десятидневного ретрита. Это очень редко, но бывает.

    Вот, один из примеров, быстро нагуглил — ’She didn’t know what was real’: Did 10-day meditation retreat trigger woman’s suicide?

    Причем, что интересно, в буддизме давно известно, что от такой практики может надолго смениться восприятие реальности («съехать крыша» по-народному). Но оптимистичный подход этих ретритов Гоенки не обращает на это внимание.

    Когда-то читал детально об этом в англоязычных статьях, не могу сейчас найти.

    Підтримав: Dmytro Sirenko
  • ІТ бізнес проти введення надзвичайного стану. Спільна заява бізнес-спільноти

    «Разница в 100 раз» — не аргумент с учетом экспоненциального роста заражений.

  • Насколько мы далеки от развитого ИИ?

    BostonDynamics скриптует, а не ИИ делает. Речь об этом, а не о автомобилях.

  • ВОПРОС-ОТВЕТ касательно СПД-2

    Добрый день.
    Нужно ли «продлевать» единый налог на следующий год?
    Я сейчас на едином налоге и хочу понять, нужно ли на днях подать заявление на единый налог, если я планирую на нем оставаться в 2018.
    Если нужно — то это тот же бланк, что и для переходящих на единый налог с общей системы?

  • Провайдер «Домашняя сеть» (domashka.net). Отзывы

    Еще минус был при подключении, примерно как ниже описали, пришлось пару раз приспособиться к их графику. В остальном все нравится.

  • Провайдер «Домашняя сеть» (domashka.net). Отзывы

    +1, за это их и люблю. Все другие провайдеры глючили чаще, чем этот.

    Единственный момент — были когда-то непонятные проблемы с доступом к их DNS серверу, я просто прописал гугловский Public DNS, и все стало ок.

  • Обучение нейросетей. Мощный GPU на Core i3

    Обратите внимание на последнее поколение Nvidia GPU, оно заметно лучше для обучения глубоких нейронных сетей. См. Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning

    Підтримав: Alexander Baranetsky
  • DOU Ревизор в киевском офисе GlobalLogic: «Солидный R&D-центр с ярким дизайном»

    Вы же не взяли пропуск на шутку, а шутить — шутите.

  • DOU Ревизор в киевском офисе GlobalLogic: «Солидный R&D-центр с ярким дизайном»

    Странно, у меня самым быстрым шагом не меньше 22 минут занимало.

    Підтримав: Gluttton
  • DOU Ревизор в киевском офисе GlobalLogic: «Солидный R&D-центр с ярким дизайном»

    У монитора может быть ШИМ. Плюс сухой воздух в Глобале. Мы увлажнители воздуха включали в свое время.

  • Що Ви відповідаєте на питання «Які Ваші зарплатні очікування?», коли проходите співбесіду на фірмах?

    Оцениваешь наиболее реальный вариант для себя — по ДОУ опросам, опросам друзей и т.п.

    Это база. Допустим 2700. Оцениваешь минимум, за который тебя точно должны взять. Допустим 2200. Идешь на три собеседования, в первой фирме просишь 2200, во второй 2700, в третьей 3200.

    Если есть склонность к недооценке себя, еще хорошо бы в четвертом месте попросить 3700.

    До ответа из третьей фирмы, первые два оффера откладываешь. Если есть оффер на 3200, но другой проект интересней, говоришь, что у тебя оффер на 3200 и спрашиваешь, что они могут сделать.

    Дальше уже выбираешь.

    Підтримали: ZeRMiuNT ZeRM, Kateryna Syrotenko
  • Чем офис угостить?

    Еще есть несколько дней купить последние дыни. Амал вкусные, Пьела де Сапо.

    Если бюджет не жмет, можно по паре конфеток Львівської Майстерні Шоколаду взять.

← Сtrl 123456 Ctrl →