З опису не дуже ясно які категорії бажано отримати. Це шось типу тегів (яких багато), чи менша кількість широких категорій типу «співачка». Чи взагалі деяка їєрархія — «Співачки» -> «Miley Cyrus». Якщо це відкрите питання, то як ці категорії будуть допомогати користувачам. Або іншими словами яке UX планується з використанням цих категорій. Якщо і це відкрите питання, то потрібно визначитись з прикладами UX, які підійдуть для ваших цілей.
В будь-якому разі багато існуючих класифікацій можна витягнути з існуючих датасетів, починаючи від Вікіпедії і закінчуючи самописними парсерами спеціалізованих сайтів.
Далі постане питання знаходження відповідності між канонічною формою поняття і її записами довільною мовою, наприклад «Miley Cyrus» і «MileyCyrusPopStar». Думаю, тут потрібно буде дивитися в сторону різноманітних tokenizers, хоча швидше за все прийдеться писати свій, або як мінімум допилювати існуючий. Далі маючи розбивку «miley_cyrus_live» на («miley», «cyrus», «live») бажано згрупувати токени у поняття «miley cyrus» та «live». Для цього можна використати щось типу models.phrases з бібліотеки Gensim.
Ці групи та одиночні токени вже можна використовувати як теги, хоча бажано буде продивитися найчастіші, деякі з них будуть загальними словами, марними з точки зору пошуку за ключовим словом.
Для побудови деякої ієрархії чи просто фільтрування цих недотегів можна побудувати відповідності між тегами і наприклад назвами статей з Вікіпедії чи інших датасетів.
P.S. Не претендую на ідеальний підхід до цієї задачі, просто мої прикидки.
Даже если 0.01% пойдет по психиатрам после ретрита, это уже плохо.
Откуда вы узнали, что они утаили диагноз? Вы реально проводите детективное расследование насчет каждого ученика, который стал странно себя вести? А как насчет тех, которые поняли, что все плохо через пару дней после окончания ретрита? В этих ретритах все на добровольцах держится, откуда у них столько времени, чтобы все тщательно расследовать?
Я не настолько знаком с этим разделом буддизма, чтобы уверенно представлять технику безопасности. Но, раз знающие люди утверждают, что в буддизме известны возможные последствия длительной Випассаны, то как минимум стоило бы предупреждать о таких исходах, пускай они и очень редки.
Может люди с большим опытом могли бы и разработать какой-то список «первых звоночков», после которых мирянину стоило бы остановиться, если он не желает такого просветления.
Насколько я понял, в ретритах Гоенки эти моменты не проговариваются, или на них недостаточно акцентируется внимание.
Насчет «не имеют права рассказывать о позитивном опыте» я ничего не говорил. Мой главный посыл — слабая техника безопасности десятидневных ретритов Гоенки.
Проблема в том, что не все знают, что у них назревает психическое расстройство, а техника безопасности этих ретритов по Гоенке слабая.
Моя позиция в том, что Випассана полезна, но рекламировать десятидневный ретрит новичкам в Випассане без акцента на том, что может пойти не так, без тщательных мер предосторожности — безответственно.
Я читал еще минимум 2 истории о съехавшей крыше. И там люди искали не кайфа, и не съезда крыши.
Советую попробовать 15 минут самой простой Випассаны. Описание легко найти в инете, схема очень простая.
Випассана отлично помогает заметить насколько современная культура частых переключений убивает наше тщательное «глубокое» мышление, и восстановиться.
А на десятидневный ретрит по Випассане сходу точно не стоит ехать, в другом комментарии расписал подробней.
Только сначала желательно почитать истории людей, у которых съехала крыша от такого десятидневного ретрита. Это очень редко, но бывает.
Вот, один из примеров, быстро нагуглил — ’She didn’t know what was real’: Did
Причем, что интересно, в буддизме давно известно, что от такой практики может надолго смениться восприятие реальности («съехать крыша» по-народному). Но оптимистичный подход этих ретритов Гоенки не обращает на это внимание.
Когда-то читал детально об этом в англоязычных статьях, не могу сейчас найти.
«Разница в 100 раз» — не аргумент с учетом экспоненциального роста заражений.
BostonDynamics скриптует, а не ИИ делает. Речь об этом, а не о автомобилях.
Добрый день.
Нужно ли «продлевать» единый налог на следующий год?
Я сейчас на едином налоге и хочу понять, нужно ли на днях подать заявление на единый налог, если я планирую на нем оставаться в 2018.
Если нужно — то это тот же бланк, что и для переходящих на единый налог с общей системы?
Еще минус был при подключении, примерно как ниже описали, пришлось пару раз приспособиться к их графику. В остальном все нравится.
+1, за это их и люблю. Все другие провайдеры глючили чаще, чем этот.
Единственный момент — были когда-то непонятные проблемы с доступом к их DNS серверу, я просто прописал гугловский Public DNS, и все стало ок.
Обратите внимание на последнее поколение Nvidia GPU, оно заметно лучше для обучения глубоких нейронных сетей. См. Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning
Вы же не взяли пропуск на шутку, а шутить — шутите.
Странно, у меня самым быстрым шагом не меньше 22 минут занимало.
У монитора может быть ШИМ. Плюс сухой воздух в Глобале. Мы увлажнители воздуха включали в свое время.
Оцениваешь наиболее реальный вариант для себя — по ДОУ опросам, опросам друзей и т.п.
Это база. Допустим 2700. Оцениваешь минимум, за который тебя точно должны взять. Допустим 2200. Идешь на три собеседования, в первой фирме просишь 2200, во второй 2700, в третьей 3200.
Если есть склонность к недооценке себя, еще хорошо бы в четвертом месте попросить 3700.
До ответа из третьей фирмы, первые два оффера откладываешь. Если есть оффер на 3200, но другой проект интересней, говоришь, что у тебя оффер на 3200 и спрашиваешь, что они могут сделать.
Дальше уже выбираешь.
Еще есть несколько дней купить последние дыни. Амал вкусные, Пьела де Сапо.
Если бюджет не жмет, можно по паре конфеток Львівської Майстерні Шоколаду взять.
Значить можна:
1) шукати, дороблювати або писати tokenizer, який розіб’є «MileyCyrusPopStar» у («Miley», «Cyrus», «Pop», «Star») або ще дрібніше — можна глянути на gensim.utils.tokenize, почитати наприклад тут — huggingface.co/.../nlp-course/en/chapter6/1
2) об’єднати токени, які є однією сутністю («Miley», «Cyrus») у «MileyCyrus». Можна глянути тут — radimrehurek.com/...ensim/models/phrases.html. Не знаю, чи це зараз найкращий варіант, давно за цим не слідкував
3) якщо цього недостатьно, наприклад ви хочете об’єднати синоніми або описки, то на натренувати ембеддінги на ваших документах (генеративних AI-промптах) після кроків 1) і 2)
4) далі отримані фрази(n-грами) і токени з дуже близькими ембеддінгами злити в єдиний обʼєкт. Тут виникне питання, яку форму зробити канонічною «MileyCyrus», «miley_cyrus» чи «Miley», потрібно буде придумати якісь правила
Також варто було б пошукати user generated сайти які часто оновлюються і розмічаються користувачами, можливо звідти можна було б витягнути канонічні форми.