×Закрыть

3 мільйони замовлень, open source for ML!

Цікаво, що їдять американці?

Instacart з радістю оголошує перший публічний реліз набору даних, «Instacart Online Grocery Shopping Dataset 2017». Цей анонімний набір даних містить зразок з більш ніж 3 мільйонів замовлень у продуктових магазинах від більш ніж 200 000 користувачів Instacart.

Для кожного користувача надається від 4 до 100 своїх замовлень, з послідовністю товарів, придбаних у кожному замовленні. Також надається тиждень і годину дня розміщення замовлення і відносний показник часу між замовленнями.

Чи можете ви здогадатися, який продукт, швидше за все, буде замовлений пізно вночі?

Програми

Instacart сподівається, що спільнота машинного навчання використовуватиме ці дані для тестування моделей для прогнозування продуктів, які користувач знову купуватиме, намагатиметься вперше або додати до кошика наступного під час сеансу.

В даний час Instacart використовує XGBoost, word2vec і Annoy у виробництві на подібних даних для сортування елементів для користувачів, щоб «купити знову» і рекомендувати користувачам під час покупки. Ці дані та алгоритми, що вивчаються на ньому, дають можливість Instacart революціонізувати те, як споживачі відкривають і купують продукти.

Дані

Набір даних надається як є для некомерційного використання і може бути завантажений з S3 за адресою: www.instacart.com/...​ets/grocery-shopping-2017

Деякі цікаві висновки

У цьому наборі даних є багато цікавих моделей. Наприклад, з 25 найкращих замовлених продуктів, перші 24 — це морозиво! Останній, звичайно, це заморожена піца.

Оригінал тут
tech.instacart.com/...​open-sourced-d40d29ead6f2

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Абсолютно нерепрезентативные данные, которые слабо корелируют с покупкой товаров onsite. В том-то и дело, что через Instacart заказывают в основном замороженный фастфуд и практически никогда товар с ограниченным сроком годности, включая фрукты, овощи и т.п.

Датасет скоріше викинули для кореляції і підкачки існуючих аглоритмів

Подписаться на комментарии