Come work in Estonia – the most advanced digital society. Many Ukrainians already know that Estonia is affordable – become one of them and check out the jobs available!
×Закрыть

Последние комментарии

  • Як опрацювати CSV файл з 6 млн рядків?

    Навскидку такой алгоритм:
    1) Открываем исходный файл, читаем построчно.
    2) Для каждой строки считаем хэш ключа группировки и цену.
    3) Ищем хэш в словаре вида: хэш = ключ, цена, номер строки.
    4) Если не нашли — то пишем строку в файл результата и заносим в словарь смещение строки от начала файла.
    5) Если нашли и цена в словаре меньше — пропускаем строку.
    6) Если нашли и цена в словаре больше — пишем строку в файл результата и апдейтим в словаре цену и номер строки.
    7) Когда прошли весь исходный файл — имеем заполненный словарь в памяти и файл результата (с дупликатами).
    8) Из словаря копируем номера строк в отсортированный массив. Словарь больше не нужен.
    8) Открываем файл результата и копируем из него в финальный файл только те строки, которые есть в массиве. Для этого идем по массиву и сикаем файл стрим на нужное число.

  • Порошенко запретил вконтакте, яндексовские сервисы, и другие

    Это украинские русскоязычные города

    преимущественно русскоязычные*.

    Не знаю как там Харьков, но Днепр по ощущениях может чуть больше половины, хотя грань не точная ибо суржик еще тот с обеих сторон, надо вычислять по соотношению украинских и русских слов в одном предложении :) Особенно, занятно, когда в разговоре начинаешь что то подозревать и оказывается что ни для одного из вас русский не родной, но пока состоится этот handshake.. ))

  • Специализация cyber security

    забыл добавить тег сарказм.

  • Специализация cyber security

    а, стоп, все впереди.

    Вы сами ответили на свой вопрос)

  • Як опрацювати CSV файл з 6 млн рядків?

    В базу даних завантажити же ж.

  • Кто видел живого 50+ лет программиста?

    Бачив в банку. Старша за 55 вже була. Думаю, якби підтягнула англійську, то і ще старшою би далі працювала.

  • Порошенко запретил вконтакте, яндексовские сервисы, и другие

    Хоть кто то из русскоязычных предлагал здесь вводить квоты против украинского языка?

    Ну так мы же не в России, что надо благодарить за то, что нет квот против украинского. Было бы там много украиноязычных, или других, я более чем уверен, что после слов «понаехали» последовали бы квоты на русский, если там их еще нет. В Украине государственный- украинский язык, это отлично, что много русскоговорящих, но страна имеет право поддерживать свой исторический язык и квоты вполне адекватные меры, которые так или иначе, используют немало стран.

  • Специализация cyber security

    почему тогда я не наблюдаю отбитых феминисток, разговоров про гендерные штуки, геев, воткни палку — вырастет стартап?
    а, стоп, все впереди.

  • Як опрацювати CSV файл з 6 млн рядків?

    Не знаю про пітон, а зазвичай робив так.

    — три масиви, два індeксних, трeтій для рeзультату.
    — читаю рядок. Шукаю код для артикула і виробника. Як нeма, додаю іх до відповідних індeксів.
    — формую код для рeзультату. Наприклад кодАртикула << 15 | кодВиробника. Чи навпаки, залeжить від кількості унікальних артикулів та виробників
    — шукаю по ньому рeзультат. Порівнюю за потрібними критeріями. Збeрігаю, якщо більш гідний.
    — в кінці маю рeзультат.
    — індeксні масиви можна тeж збeрeгти, для іншого критeрія, або файла.

    Звісно, якщо масиви в мові чeсні.
    Як нeма в мові масивів, то використувавати або мапу, або дeрeво

  • Специализация cyber security

    Я это предположил на основе того, что за границей это востребовано. А как правило, то что востребовано у них, потом приходит к нам. Я об этом писал ранее.

  • Як опрацювати CSV файл з 6 млн рядків?

  • Альтернатива пошти для домену

    На скільки я зрозумів, то у вас є час повчитись, налаштувати як треба свій сервак. Рекомендую спробувати. Якщо ви цим ніколи не займались, то прийдеться з тиждень повозитись з налаштуваннями SMTP, IMAP, MX, SPF, DKIM, фаєрволу і т.д., але воно того варте.

    Я налаштовував VPS на CentOS + Postfix + Dovecot з нульовим досвідом, все працює як годинник. Бачу в логах, що postfix завертає купу лівих звернень до нього. Я у цьому точно не експерт (бо один раз налаштував і забув), але схоже що postfix має якусь просту антиспам-систему, бо у мене немає ніякого spamassassin, але ще жоден спам не прорвався (хоча я й не публікую свою пошту)...

  • Як опрацювати CSV файл з 6 млн рядків?

    Велосипедописьменник?

  • Як опрацювати CSV файл з 6 млн рядків?

    Вот же молодежь )
    Ладно, еще проще:
    1. Выбираем из файла в массив все строки, где есть нужные нам производители
    2. Выбираем из получившегося массива в новый все строки, где есть нужные нам артикулы
    3. Последний массив сортируем по увеличению цены
    4. Выбрасываем в результат первые Х строк отсортированного массива

    В данном алгоритме единственная относительно «тяжелая» функция — сортировка на 3 этапе, но т.к. к этому моменту мы уже имеем небольшой массив, она пройдет быстро.

  • Як опрацювати CSV файл з 6 млн рядків?

    6 млн. дійсно багато. pandas вже вище радили, може він считає ту справу еффективніше.

  • Кто видел живого 50+ лет программиста?

    Больше чем вы можете себе представить ;)

  • Як опрацювати CSV файл з 6 млн рядків?

    Даском я отлично параллелил обработку данных, т.к веселый Python однопроцессный и крутить 12Gb куски видя, как одно ядро загружено на 100%, а остальные простаивают — это удовольствие не для слабонервных. С его помощью и добавления хеша по составному ключу удалось оптимизировать скорость выполнения кода с одной недели до 1.5 часов на 12Gb данных. И заводить Spark не пришлось :)

  • Порошенко запретил вконтакте, яндексовские сервисы, и другие

    Google доказал: большинство украинцев говорят по-русски

    О, 93%... да это даже лучше 86%))

  • Я верю в молодых украинских юристов больше, чем в программистов

    В каментах прям все великие знатоки судебной системы))) посмешили

  • Як опрацювати CSV файл з 6 млн рядків?

    Желательно запускать rm -rf с sudo и на корневой директории.

← Сtrl 12345678910 Ctrl →