Долучайся до найбільшої конференції по високонавантаженим проектам в Україні | Приєднатися
×Закрыть

Нужны учебные материалы и репетитор по построению регрессионных моделей для решения задач классификации

Коллеги, посоветуйте пожалуйста репетитора по статистике в Киеве и учебные материалы по теме. Интересует построение регрессионных моделей для решения задач классификации.

Мой текущий бекграунд не позволяет мне в полной мере разобраться во всех этих регрессиях деревьях градиентных спусков и всяких наивных байесах.

p.s. Если посоветуете учебные материалы — буду признателен.
Спасибо.

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Вообще-то информации по теме в сети — навалом. У меня надергано больше 2 гигабайт всяко-разного. Беда в том, что есть какая-то «классика», т.е. общеупотребимые, достаточно простые модели, но там вопросы точности, ограниченности или же наоборот ( вы же вроде специалист по большим данным) выборки, он-лайн или офф-лайн обработки, невыполнения предположений об нормальности распределения и прочих реальных ситуаций не затрагивается. Остальное надо искать по крупицам в разных источниках. С наскоку, особенно, если

а цена ошибки — очень велика (в долларах)
. — эту задачу не решить. Разумеется, на реальном, а не на студенческом уровне.
Ну, например, для случая малых выборок можно смотреть в направлении бутстрапа.
посоветуйте пожалуйста репетитора по статистике в Киеве
«И — боже вас сохрани — не читайте до обеда советских газет» ©
Если посоветуете учебные материалы — буду признателен.
Отличная книга-конспект (кратко, без воды) Statistics in Plain English, 3rd Edition

Егор, ссылки на coursera должно хватить Вам. Есть еще тонна книг по математике, и даже электронных, но нужно знать конкретику. Приятно видеть что в Киеве эта тематика востребована. В Одессе пока .... тишина.
Для изучения основ есть мои и не только книги в электронке и печатные по численным методам (кратко и трезво изложено с примерами), теории вероятностей (тоже основы и кратко и понятно новичкам). Вот только это все на украинском. Очень доходчивых материалов мало и больше уже не бывать.

Вот только это все на украинском.
Можна лінки на ваші книги?

дык а что за задача-то? напиши в личку, может, помогу

Задача кредитного скоринга.

Пусть есть:
v — вектор признаков.
S — функция(иначе модель) которая классифицирует v как относящийся к одному из классов (условно: ’хороший’ - 2 , ’рискованный’ - 1, ’плохой’ - 0)
Существует n(0...1] и p(0...1] — случайные переменные зависящие от S(v) и преставляет собой вероятность ложно-позитивного или ложно-негативного результата S(v) соотвественно.

Качество модели S будет идеальным тогда, тогда n = 0, а p = 1.
Проблема состоит в том, что массив данных слишком мал (десятки — сотни этих самых v), а цена ошибки — очень велика (в долларах), как и цена ложнонегативного срабатывания(упущенная прибыль).
Т.к. историческая выборка будет очень мала, то логистическая регрессия будет иметь высокую вероятность(n) ложноположительного результата.

Одним из инуитивных решений может быть ввести набор моделей, на основе разных алгоритмов и принимать решение исходя из кворума этих моделей, но я пока не могу оценить как та или другая модель подходит для решения этой задачи.

Проблема состоит в том, что массив данных слишком мал
Зверни увагу на Монте-Карло симуляції.

Что это даст? Сгенерируем данные?

Згенеруєш реальні ситуації, оціниш результат (ложнонегативного срабатывания) і подивишся чи достатньо в тебе даних.

А ты распределение знаешь? Что генерировать будешь? Или влоб rand и погнало?

Проблема состоит в том, что массив данных слишком мал (десятки — сотни этих самых v)
Если массив слишком мал, то выборка не репрезентативна, (особенно если признаков много, а данных — понт), а это значит нифига у тебя не выйдет, как не крути. И тут твой бэкграунд без разницы.
Качество модели S будет идеальным тогда, тогда n = 0, а p = 1.
В твоем случае это втупую подгонка модели под конкретный маленький датасет. Типа переобучение. Полюбому надо много данных. Данных много не бывает !

одна из основных заповедей machine learning — сложность модели должна соответствовать количеству имеющихся данных. если данных мало, я бы настоятельно рекомендовал использовать модель попроще, и сконцентрировать усилия на получении большего количества примеров и на feature engineering.

наводящие вопросы: что у вас в качестве labels в тренировочных данных? классификация бинарная? (например, 1 = вернул кредит, 0 = не вернул)? сколько процентов от тренировочных данных составляют данные каждого класса (напр. 80% положительных, 20% отрицательных примеров)?

Можешь еще в тупую построить таблицы сопряженности по всяким признакам, рассчитать статистики, посмотреть является ли результат значимым, хз еще что тут делать. Ексель в помощь :)

Проблема состоит в том, что массив данных слишком мал (десятки — сотни этих самых v), а цена ошибки — очень велика (в долларах), как и цена ложнонегативного срабатывания(упущенная прибыль).
Т.к. историческая выборка будет очень мала
Можно в цифрах ? Скажем параметров оценки 30, а датасет скажем 1000.

Подписаться на комментарии