We’re approaching the limits of computer power — we need new programmers now

Denys Poltorak Embedded | C++ (opentowork) 15.01.2020 19:08

Вбрось хороший проект и зарплату — расчехлим)

Vadym Baranenko

Alexandr Gavriluk 16.01.2020 11:50

Так OpenCL даже для скриптовых языков даёт сильное ускорение где оно нужно.

Vadym Baranenko

Nik Katalnikov explorer 15.01.2020 14:16

где человеки, там х#%ня и неэффективность, причём первого больше.

слава роботам!

anonymous 15.01.2020 18:46

-

Nik Katalnikov

Denys Poltorak Embedded | C++ (opentowork) 15.01.2020 19:15

Фу яка бяка!

anonymous

Yevgen Lasman Atlassian tools expert, DevOps в cPrime Inc. 15.01.2020 06:47

Якби ж то!

anonymous 15.01.2020 18:48

-

Yevgen Lasman

Denys Poltorak Embedded | C++ (opentowork) 15.01.2020 18:57

Точно не «незабаром» бо нема механізму генетичної модифікації мітохондрій.
Також наступні пункти:
1) Не вирішене питання ракових пухлин. З віком сильно збільшується шанс захворіти.
2) Генетично сповільнені сіньори можуть виявитись недостатньо працьовитими.
3) Наразі маємо проблеми з нервовою системою та психікою при збільшенні віку людини.

anonymous

anonymous 15.01.2020 19:05

-

Denys Poltorak Embedded | C++ (opentowork) 15.01.2020 19:06

Там в статті не про збільшення молодості, а про вповільнення енергообігу в організмі (аналогічно тривалому голоданню). От чи багато голодний сіньор накодить?

anonymous

anonymous 15.01.2020 19:10

-

Denys Poltorak Embedded | C++ (opentowork) 15.01.2020 19:15

клітини переходять в режим відновлення а не ділення пошвидше

не клітини, а мітохондрії. А клітинам в цей час не вистачає енергії, котру ці мітохондрії мали б виробляти.

Якщо голоду не відчувається то в чому проблема?

Проблема в тому, що сонний сіньор п’є каву, щоб прокинутись та пришвидшити метаболізм. А тут — кава не подіє, бо мітохондріям пофіг — вони собі своїми власними справами займаються. І взагалі — на все пофіг, сигнальна система зламана.

anonymous

anonymous 15.01.2020 19:36

-

Denys Poltorak Embedded | C++ (opentowork) 15.01.2020 19:46

Стаття базується на цьому en.wikipedia.org/...hondrial_theory_of_ageing
Зазвичай рекомендують голодувать періодами. При тривалому голоданні чи обмеженні калорійності їжі змінюється психічний стан — стаєш спокійнішим. Але робить теж нічого не хочеться. Таке собі «созерцание». Більш-менш схоже описано тут www.lib.ru/...IT/SMELEW/shmelev_sun.txt

anonymous

anonymous 15.01.2020 20:22

-

Denys Poltorak Embedded | C++ (opentowork) 16.01.2020 10:55

А текстом нема? Там же година...

anonymous

anonymous 16.01.2020 12:51

-

Denys Poltorak Embedded | C++ (opentowork) 16.01.2020 13:37

Дякую, цікаве.
Час впливає на організм мінімум наступними шляхами:

1) Власне старіння — зменшення кількості та якості того, що продукують клітини. Регулюється якимись механізмами в організмі, імовірно — може буть сповільнене чи, навіть, обернене.

2) Пошкодження геному клітин (віруси, опромінення, хімія) — призводить до раку. В клітині є з десяток методів захисту від безконтрольного розмноження та зміни профілю. Пошкодження геному може ламати що завгодно, в тому числі — цей захист. Коли усі методи захисту поламані чи дезактивовані — починається рак. Буває, що котрийсь з них не зламаний, а просто не використовується — наприклад, самознищення клітин, коли не вистачає їжі. Тоді людина може голодати, і рак самознищиться. Але в кожному конкретному випадку ніхто не знає, які механізми ще працюють, тому й лікувать рак не вміють — бо воно індивідуальне.

3) Старіння мозку (накопичення пріонів та іншої хрєні в тканині) та психіки (старшим людям важче навчатись і хочеться на дачу). Теж незрозуміло, що тут зробить, бо нервова тканина майже не оновлюється.

Чувак в статті бореться з пунктом (1). Якщо вони його поборють — матимемо популяцію старих маразматиків з постійними хірургіями раку.

Якщо цікава соціальна модель суспільства з необмеженим терміном життя — раджу почитати Фукуяму gtmarket.ru/...aboratory/basis/3604/3608
Там і інші моделі розвитку генетичного суспільства гідні антиутопій)

anonymous

anonymous 16.01.2020 13:40

-

Denys Poltorak Embedded | C++ (opentowork) 16.01.2020 13:50

Не знаю, де ядра клітин зорового нерва. Пошкоджені нерви відростають десь на сантиметр за рік. Але це не нові клітини, а «хвости» клітин, ядра котрих знаходяться в головному чи спинному мозку.

В твоїй статті з рекламою контори він писав, що відновлював зір в мишей з глаукомою — це схоже на де(ре?)спеціалізацію клітин. Точніше не скажу — треба читать його наукові статті чи щось таке. + я не біолог, а трохи хімік.

anonymous

Alex Koshterek погромизд 16.01.2020 14:30

Пошкоджені нерви відростають десь на сантиметр за рік.

миллиметр в день

Volodymyr Yefremov Laravel/Vue.js dev в - - - 16.01.2020 09:27

При тривалому голоданні чи обмеженні калорійності їжі змінюється психічний стан — стаєш спокійнішим. Але робить теж нічого не хочеться. Таке собі «созерцание».

Творческое состояние...

Grez 15.01.2020 02:51

Во что они собрались упираться, если клауд только набирает обороты ?

Left Outer Join 16.01.2020 00:01

А клауд этот на каких-то других инопланетянских процессорах работает?

Grez

Grez 16.01.2020 00:20

уперся в перформанс — поднал еще один инстанс.

Left Outer Join 16.01.2020 00:28

А взаимодействие между инстансами перформанс конечно же не сжирает

Grez

Left Outer Join 16.01.2020 00:29

Ну и опять же, не все задачи параллелятся, закон Амдала никто не отменял

Grez

Grez 16.01.2020 00:43

Это все хорошо, Карл. Только ты понимаешь что 3 гигагерц пенек был выпущен в 2003.

17 лет назад, Карл!

С тех пор частота не растет. При этом количество овнокодеров и вакансий для них не уменьшаеться а все растет и растет.

Bohdan Horbeshko 17.01.2020 00:09

Как это не растёт? В кукурузенах и i9 4 ГГц, а разгоняются они до 4.5 ГГц и даже до 5 ГГц.

А если до графеновых процессоров доживём, то и повышения частот на порядок стоит ожидать. Но вот что-то пока даже мемристоров обещанных не видно.

Grez

Grez 17.01.2020 01:05

и даже до 5 ГГц

Так разгоняли еще в 2005.

А если до графеновых процессоров доживём, то и повышения частот на порядок стоит ожидать.

Если доживем то хорошо.

Bohdan Horbeshko

Dmitry Panfilov Senior C++ Developer 17.01.2020 11:46

эх сейчас бы думать что производительность проца зависит только от частоты

Grez

Alexandr Gavriluk 13.01.2020 19:16

використовувати тормозні фреймворки, і почати оптимізовувати наш власний код

Основная проблема в том, что мы не пишем нетленку, а решаем проблемы бизнеса и «making customer happy». И мы получаем зарплату за свою работу, причем даже не за результат работы, а за часы работы. При этом более качественный и оптимизированный код требует больше часов разработки и стало быть более дорогой. Так вот, если бизнес удовлетворяет текущее решение их бизнес-проблемы, но которое требует 28 ядерный мак и где-то 50 тыс$ на разработку, то это решение будет выгоднее чем требующее обычного 4-ядерного PC и пару миллионов долларов на разработку.

Ну и да, например в отношении фреймворка, что я разрабатываю, пользователи начали жаловаться на тормоза и руководство поставило задачи и выделило время на оптимизацию кода, которой я с этого года и займусь. А до тех пор пока у пользователей было все норм, но и задачи такой не стояло.

Так что не к программистам обращайтесь, а к бизнесу через ту же систему отзывов. Если тот же фейсбук получит множество гневных комментариев в техподдержку о тормозах странички, то руководство поставит задачу об оптимизации кода, а если пользователям норм, то и руководству норм.

Sergey Lysak T/T Lead 13.01.2020 19:24

которое требует 28 ядерный мак и где-то 50 тыс$ на разработку то это решение будет выгоднее чем требующее обычного 4-ядерного PC и пару миллионов долларов на разработку.

в наши 90ые как-то столкнулся с софтом в одной клинике, в качестве сервера обычная 286 машинка, к ней с 5ок терминалов.
автор лишился работы, нии и завод что курировал этот нии закрылись, и за еду, на С вперемешку с ассемблером написал всё.
от собственной базы данных до ui.
летало!

ну а потом, говорят уехал таки, в америки.

клиперисты потом пытались заменить, но — железа им требовалось поболе, для нетвари серверок, 486ой, и 286ые вместо терминалов

Alexandr Gavriluk

Sergey Lysak T/T Lead 13.01.2020 18:22

we need

хто ці — we?
Ці we мають грошенят платити висококваліфікованим у рази більше аніж низькокваліфікованим, причому за вдумане програмування, на котре зазвичай витрачається у рази більше часу аніж за «швидке»?

Прийшов час зупинитися, перестати писати і використовувати тормозні фреймворки, і почати оптимізовувати наш власний код?

ніхто не заважає:
перестати використовувати тормозні фреймворки
та замість завдань від бізнесу — оптимізувати власний код.

Просто зупиніться, та почніть нову епоху!

P.S.
про нову епоху, майже без жартів
dou.ua/...rums/topic/29433/#1756640

Alex Furman 13.01.2020 17:42

“Anything less than immortality is a complete waste of time.” © Bender

Vlad Stelmahovsky Software Engineer в Verity AG 13.01.2020 14:27

Невже настає епоха вдуманого програмування і висококваліфікованих розробників?

о боже нет! только не это!

Dmitry Bugay Java Team Lead 13.01.2020 11:51

Сказки и влажные метчы «труЪ-программеров».

Олексій Пєніє 13.01.2020 00:04

Я намекну: лимит человеческого потенциала достигнут хрен знает когда. И хрен знает сколько раз. Открыто заявляю, люди отстой, развивайте рептилоидов

Left Outer Join 13.01.2020 00:16

какие достижения у рептилоидов

Олексій Пєніє

anonymous 13.01.2020 00:23

-

Антон Окороков 13.01.2020 12:06

Фейсбук?

Left Outer Join 12.01.2020 21:36

Это же хорошо. Каждые два года будет выгорать в два раза больше айтишников, не выдержав сношания мозга ассемблером.

Dmytro Hrebeniuk Mobile Software Enginner в Self-Employment 14.01.2020 11:27

Не всегда ассемблер дает перформанс. На C будет универсальнее. Хотя C тоже хватит)

anonymous 12.01.2020 15:07

-

Denys Poltorak Embedded | C++ (opentowork) 12.01.2020 13:37

да этот баян каждые 5 лет публикуют

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 12.01.2020 14:10

Он 5 лет назад ещё читать не умел %)

anonymous 12.01.2020 14:44

-

Oleg Korol POWER Ops, again 13.01.2020 09:56

вот только технологии производства чипов, с каждым разом, все ближе и ближе к атомарному пределу, о чем выше и было сказано

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 10:36

Зато сами чипы все дешевле. Пересядут на фермы из АРМов. Что поменяется?

Oleg Korol

anonymous 13.01.2020 12:05

-

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 12:13

Тут вопрос в блокировке — как гарантировать, что в ту же память не пописал кто-то другой. На хардварном уровне там какая-то жесть между кешами процов, которые отслеживают инвалидацию по кольцевой шине. Даже на вики многобукв en.wikipedia.org/wiki/Cache_coherence
Если туда еще видяху запихнуть — прийдет капец.

anonymous

anonymous 13.01.2020 12:28

-

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 12:38

Кстати, тут один человек на ДОУ давно предлагает новую архитектуру...

anonymous

Konstantin Strukov 13.01.2020 12:50

*начертил вокруг себя круг* (или пентаграмму нужно было?)

Volodymyr Yefremov Laravel/Vue.js dev в - - - 16.01.2020 09:37

Гексаэдр

Konstantin Strukov

anonymous 13.01.2020 13:08

-

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 13:17

Та уже смесь везде
Modern processors appear to the user to be von Neumann machines, with the program code stored in the same main memory as the data. For performance reasons, internally and largely invisible to the user, most designs have separate processor caches for the instructions and data, with separate pathways into the processor for each. This is one form of what is known as the modified Harvard architecture.
en.wikipedia.org/...wiki/Harvard_architecture
Майка надо пригласить.

anonymous

anonymous 13.01.2020 13:22

-

Vitaliy Fedoriv Java Developer 13.01.2020 14:50

Хомо сапіенси не мислять мультипоточно. Точніше мультизадачність у нас витісняюча. З чого випливає, що писати /дебажити код, в якому все по іншому — насилувати мозок.

anonymous

anonymous 13.01.2020 15:00

-

Vitaliy Fedoriv

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 15:01

Нужно будет больше программистов чтобы делать то же самое.

anonymous

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 15:07

Не знаю, как другие, но я точно не зависаю когда ем суп или когда смотрю в монитор %)

Vitaliy Fedoriv

anonymous 13.01.2020 15:10

-

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 15:13

так суп через AsyncIO

Vitaliy Fedoriv Java Developer 13.01.2020 20:36

Я не кажу, що ти зависаєш, але в даному випадку ти не думаєш про те, як ти їш суп, ти думаєш про щось інше. А от, скажімо, попадеться тобі в супі горошинка перецю і ти її розкусиш — от тоді ти на суп думками переключишся. :)

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 20:41

Может это только я так суп ем. Ну хорошо, когда я пишу код — я не думаю куда мне смотреть на экран, мозг сам позиционирует глаз в нужно место, я не думаю, каким пальцем пошевилить, чтобы нажать кнопочку, я думаю слово, пальцы его набирают и т.п.

Vitaliy Fedoriv

anonymous 14.01.2020 07:11

-

Volodymyr Yefremov Laravel/Vue.js dev в - - - 16.01.2020 09:44

Здесь ключ — «или».
Попробуй одновременно:
— шагать на месте
— наклоняться в стороны
— одной рукой гладить себя по голове
— другой — похлопывать по животу
— моргать глазами
— произносить напамять стихотворение
:)
Для доказательства, что при этом не зависаешь, плз сними на видео

Vadim Kopanev Architect 17.01.2020 11:26

Сложности возникают только когда нужно делать 2+ задачи, в которых нужно думать, в твоём списке это максимум одна, так что это легко достижимо

Volodymyr Yefremov

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 14:52

Кстати, может я и не прав, но уже сейчас нет смысла в более чем 4-6 ядер на PC. Чтобы их заюзать полноценно тебе нужно вывернуться наизнанку в коде. Реально 2-3 еще как-то будут работать, остальные ждать и кушать электричество.

Смотря чем на нем заниматься. Нужна статистика. Вот в компиляцию много ядер умеют.

anonymous

anonymous 13.01.2020 15:03

-

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 15:14

Я не шарю в математику

anonymous

anonymous 13.01.2020 15:23

-

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 17:18

можно попробовать через индексный массив. тогда задача превращается в молотилку памяти.

1) заполняем массив размерности 2^16: 
uint32_t sq[256][256];
for(unsigned i = 0; i < 256; ++i)
    for(unsigned j = 0; j < 256; ++j) {
        const int tmp = i - j;
        sq[i][j] = tmp * tmp;
    }
2) делим входную матрицу на количество относительно равных сегментов по количеству доступных ядер numcores
uint64_t result[numcores];
memset(result, 0, sizeof(result);
uint32_t start[numcores];
start[0] = 0;
for(unsigned i = 1; i < numcores; ++i)
    start[i] = start[i - 1] + size / numcores;
3) на каждом ядре запускаем по потоку:
for(unsigned offset = start[core]; offset < start[core + 1]; ++offset)
    result += sq[A[offset]][B[offset]];
4) когда они домолотили, суммируешь result:
uint64_t final = 0;
for(unsigned i = 0; i < numcores; ++i)
    final += result[i];
return sqrt(final);

будет оно быстрее или медленнее, чем в лоб — надо мерять.

anonymous

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 17:45

result += sq[A[offset]][B[offset]];

Вот ты правильно написал, а теперь вспомни, что у него есть процедура вычисления тензоров, где он ложит в матрицу результат, который в коде вверху ты опять достаёшь. Т.е. эту строчку кода нужно просто вставить в его процедуру вычитания тензоров. Всё.

На GPU вычесть 2 тензора очень быстро.

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 17:49

А как там на GPU со скоростью доступа к памяти? На CPU это основной тормоз будет, 256КБ индексного массива в кеш первого уровня не влезут.

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 18:00

А как там на GPU со скоростью доступа к памяти?

Смотря какой, есть регистры, есть локальная, есть расшаренная, есть глобальная. Где он хранит тензоры, для нас не имеет значения, т.к. он утверждает, что и так всё очень быстро.

A и B — у нгего это не скаляры, а матрицы, там индексный массив не нужен.

По сути его задача: есть две матрицы A и B, над ними он делает unspeakable acts и получает матрицу С, как продукт операций над A и B. Дальше он шарится по всем элементам матрицы С и суммирует квадраты значений, в конце берёт корень из суммы (единичная операция).

Вся проблема в том, что он представляет операцию над A и B и над C как две разные задачи, что является ошибочным. Вполне возможно что над A и B работает не его код, а библиотечная функция но тут он ССЗБ, так как занимается оптимизацией кирпичиков неоптимизированного алгоритма.

anonymous 13.01.2020 18:23

-

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 18:30

ну так всегда. либо мало кода на питоне, либо — много на ассемблере.

anonymous

anonymous 13.01.2020 18:48

-

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 18:52

ну не знаю. Там только пока инфраструктуру и заголовки напишешь — уже в 2-3 если не 5 раз кода больше.

anonymous

anonymous 13.01.2020 19:06

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 18:41

Начнешь писать на CPU у тебя еще появиться момент с запуском потоков — они очень медленно запускают.

Запускаешь заранее, держишь потоки горячими (spinning threads). Если не умеешь в низкоуровневое потоковое программирование, то OpenMP расширение для С/C++, которое уже дохерища лет есть в gcc, сделает за тебя всю работу.

#pragma omp parallel for 
for (int j=0; j<n; j++)

в прагме можешь задать больше деталей, сколько потоков и как разбивать на гриды.

До этого стартовать пачку потоков и повесить их в ожидание, потом по мере поступления задач условными переменными запускать их — остальное время они будут стоять и ждать.

Обычно данные подготавливают заранее для всех потоков, они по заданному курсу ведут вычисления.

anonymous

anonymous 13.01.2020 18:52

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 19:06

В реальности обычно в 1.5-2 раза быстрее на 8 ядрах, чем на одном с этой либой.

Там есть свои хитрости, как и везде. Например цикл на миллион, оно просто разобъёт на четыре цикла с разными диапазонами в каждом из потоков, что будет убийством. Это уже твоя забота, чтобы разбить длинный цикл на два вложенных, к примеру, чтобы сбалансировать разбиение и параллелизацию внутреннего на относительно короткие диапазоны.

А вот если ручками с потоками разрулится, то можно получить и в 7.5 раза на 8 ядрах, против одного

OpenMP вполне съедобно для 9/10 всех задач, за разруление ручками тариф может быть и 10x. Я около 8 лет подрабатывал удаленно тем что оптимизировал творчество тех, кто не умеет в оптимизацию и параллелизм. Обожал эту работу — снос башни каждый день, хуже наркоты, но очень стрессовая.

anonymous

anonymous 13.01.2020 19:11

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 19:14

Не съедобно, но для втюхивания годится, потому что типичный обман. Вон чуть быстрее и главное проц на 100% запахали.

Ну тогда для тебя и использование -O0 и -O3 тоже должно быть обманом.

anonymous

anonymous 13.01.2020 19:18

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 19:24

Нет. Никто не рассказывает, что включив ключик в компиляторе они ускорили программу и это было очень сложно

Так никто и не рассказывает для OpenMP, задействовали и отлично. Также как и с оптимизацией — для 9/10 всех случаев этого достаточно. За тюнинг идёт специальный прайс.

Один одесский еврей купил себе офигенно дорогой майбах. Неделю откатал на нем и майбах перестал заводиться. Что делать? Куда бежать? И посоветовали ему обратиться к старому Мойше, он-де первоклассный диагност, вмиг найдет и решит проблему. Пригласил еврей старого Мойше к себе, показал машину. Старый Мойше открыл капот и долго смотрел внутрь. Затем достал серебряный молоточек, стукнул им один раз и сказал еврею: «Заводи!». Еврей завел, машина работает.

СМ: С вас 10 000 долларов!

Е: И это за то, что вы один раз ударили молоточком?!

СМ: Неет, за то, что я один раз ударил молоточком, с вас 1 доллар. А вот за то, что я знал, куда ударить, с вас остальные 9 999 долларов!

anonymous

anonymous 14.01.2020 07:14

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 14.01.2020 12:32

а в реальности

Ты не путай галерное программирование с реальным программированием.

anonymous

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 15:13

Кстати, может я и не прав, но уже сейчас нет смысла в более чем 4-6 ядер на PC. Чтобы их заюзать полноценно тебе нужно вывернуться наизнанку в коде. Реально 2-3 еще как-то будут работать, остальные ждать и кушать электричество.

Ты не прав. Когда ядра спят, то они потребляют меньше электричества, чем светодиод на корпусе. Вот взять эмбеддед, 4 ядерный процессор от Intel (ApolloLake), мой драйвер GPU, который в расслабленном состоянии имеет 21 поток и до 50 под нагрузкой. Как ты думаешь, 4 ядра мало или нет? 2/3 всех потоков, конечно, спят большинство времени, но, если ты имеешь около 10 клиентов, использующих GPU, то проснуться они все вместе по событию от GPU, например, рендеринг закончен. И каким образом ты сможешь обеспечить системе realtime свойства с одним или двумя ядрами?

anonymous

anonymous 13.01.2020 15:22

-

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 15:33

Ну и второй вопрос Зачем они спящие в счетной задаче? Ждут, когда им доступ к памяти дадут?

Не все задачи счетные. У меня сейчас порядка 10 потоков:
* ЮСБ обработчик (1 или 2 потока)
* Прослойка (HAL) на стороне ЮСБ
* Основная логика
* Прослойка (vendor abstraction layer) на стороне SIP
* SIP обработчик (1 или 2 потока)
* Стек таймеров
* Работа с файлами (история звонков, телефонная книга)
* Нотификации демону через запуск скриптов
* Консольный ввод
* Прокачка аудио
Может, че забыл.
Все, кроме аудио, обычно не нагружены. Но написать это без потоков или тасклетов было бы той еще камасутрой. И тут минимум 3 уровня приоритетов:
0) аудио
(1) таймера
2) логика
3) файлы
Более высокие приоритеты должны прерывать задачи более низких приоритетов.
То есть, мне куча ядер не надо, но многопоточность очень даже полезна — каждый поток делает что-то свое, не лезет к соседям, и даже особо о них не знает.

anonymous

anonymous 13.01.2020 15:44

-

Left Outer Join 13.01.2020 21:53

что из этого нельзя сделать в одном потоке, машиной состояний, одним большим switch()-ем на 100500 case-ов? :D

anonymous 14.01.2020 07:17

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 14.01.2020 12:32

Заказчик посчитает, что его обманули, когда у видит, что код очень прост.

Это проблемы заказчика. Я искал одну эфемерную багу в чужих GPU драйверах на протяжении больше года пробами и фейлами до тех пор пока не пришёл заказчик и не сказал, что дальше мы не едем, пока не исправим, я плачу. Вендор драйверов тоже был оплачен заказчиком и тоже искал. Через три месяца патч состоял из двух строк. Заказчик пытался возмущаться, конечно, но ему сразу предложили бери исходники и ищи сам или плати и жди фикса. То, что патч из двух строк — не моя вина, в коде их десятки миллионов и надо было найти нужные две.

anonymous

Denys Poltorak Embedded | C++ (opentowork) 14.01.2020 12:36

Машины состояний на матрицах вообще нечитаемые, когда есть несколько измерений у состояния, или вложенность состояний.

anonymous

Denys Poltorak Embedded | C++ (opentowork) 14.01.2020 11:55

Передачу аудио и работу с фалами. Пока будешь писать в файл, пропустишь пару аудио фреймов, или провтыкаешь обработать прерывание, которое плата прислала по ЮСБ, и телефон не покажет номер звонящего, потому что буфер под номер на плате размером 8 цифр, и его надо пополнять, когда он 7 цифр отослал.
Короче, софт реалтайм в свитчи не умеет.

anonymous 14.01.2020 12:24

-

Denys Poltorak Embedded | C++ (opentowork) 14.01.2020 12:34

Сейчас в юзерспейсе ДМА, кажется, не реализуешь. Да и очень спорный какой-то ДМА между ЮСБ и сокетом, с разворачиванием заголовков одного пакета и наворачиванием заголовков другого.

anonymous

anonymous 14.01.2020 12:51

-

Denys Poltorak Embedded | C++ (opentowork) 14.01.2020 12:54

для софт реалтайма с jitter buffer оно ок, но файлы в том же потоке не попишешь, и телефонную книгу не посортируешь. Пакеты по 10 или 20 мс аудио + несколько разговоров одновременно.

anonymous

Left Outer Join 14.01.2020 12:56

но файлы в том же потоке не попишешь,

Это почему вдруг? На девайсе есть ОСь? Асинхронное i/o не завезли?

Denys Poltorak Embedded | C++ (opentowork) 14.01.2020 13:02

Линух. Асинхронное не пробовал — проще отдельный поток. Сортировать телефонную книгу или историю звонков тоже можно по кускам, но это все — изврат.

anonymous 14.01.2020 13:06

-

Denys Poltorak Embedded | C++ (opentowork) 14.01.2020 13:20

Ну зачем делать сложно то, что можно сделать просто. Сложности дофига в бизнес-логике (вон соседние растаманы даже стандарт читать не стали). Засовывать себе палки куда не надо еще и искусственной однопоточностью — ну нафига?

anonymous

Left Outer Join 14.01.2020 13:22

Если в железке один процессор/ядро — то это многопоточность там искусственная, а не наоборот :)

Denys Poltorak Embedded | C++ (opentowork) 14.01.2020 13:26

Есть несколько достаточно независимых задач, производимых одновременно:
1) передача аудио
2) логика управления системой
3) работа с файлами и сортировка данных
Докажи, что многопоточность искусственная.

anonymous 14.01.2020 15:51

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 14.01.2020 15:58

В данном случае многопоточность ничем не отличается от многозадачности, т.е. все должны работать под DOS’ом с GUI? Ибо многозадачность такая же искусственная. Ты просто отождествляешь понятия многопоточности и многозадачности с параллельностью выполнения кода, а это понятия хоть и не ортогональные, но и не рядом лежать.

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 15:37

Вот как ее правильно решить, чтобы посчиталось быстро?

Наверное нужно немного отойти от классического программирования а ля Basic-style. В качестве элементарного примера рассмотри комбо-операцию Multiply-Add: en.wikipedia.org/...iply—accumulate_operation . Ничего не мешает сделать сначала умножение, потом сложение, но комбо-операция будет где-то в 1.5 быстрее, тем более, что большинство операций умножения заканчиваются сложением, как, например, в расчёте приведенной тобой норме. Теперь, если ты поднимешься на пару уровней абстракции выше, то что тебе мешает во время вычисления твоих тензоров проводить операцию подсчёта нормы, ведь конечный результат ты всё равно сохраняешь в матрицу, вот и сохраняй промежуточные суммы перед сохранением в матрицу результата, потом просуммируй полученные суммы из всех потоков, в результате норму ты получишь почти бесплатно.

anonymous

anonymous 13.01.2020 15:45

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 15:54

Но это жесть решение для сложения всех элементов массива.

Ты просто не привык. Я раньше давал подобные задачки на собеседовании (только проще, а ля multiply-add), которые жёстко отсеивали математиков и вайтишников от труъ программеров. Научись думать как процессор, вникни в суть происходящих процессов, стань процессором! © почти сержант американской армии. Просто математики не умеют в параллелизм, так их учат.

anonymous

anonymous 13.01.2020 15:58

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 16:08

Пока же от тебя только понты.

Витя, иди броди в своих чащах.

У тебя есть вычислительный грид, допустим 8×512, если нет ручного управления гридами, то обычно среда предоставляет размерность сетки. Это значит что ты в 8 потоков будешь считать по 512 элементов. В каждом кернеле у тебя есть атомарная переменная SUM — сумма, при подсчёте каждого из 512 элемента ты делаешь SUM=MADD (E[x], SUM), в конце работы какдого из 8 кернелов у тебя будет 8 переменных SUM, которые нужно просуммировать и вычислить квадратный корень, что и будет твоей нормой.

anonymous

anonymous 13.01.2020 16:18

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 16:29

Бедненький, ничего не сказал, никого не обвинил, а теперь играешь обиженку.

anonymous

anonymous 13.01.2020 15:56

Я в низкоуровневых штуках не понимаю но в чем проблема?
На каждое ядро одна операция за один такт(может и не один)

anonymous

anonymous 13.01.2020 16:03

-

anonymous

anonymous 13.01.2020 16:13

Я когда-то читал на хабре, было очень интересно, но нифига не понятно — как я понял GPU разделен на блоки по сколько-то там ядер.
Допустим у нас есть гпу в котором есть 3 блока по 5 ядер.
Нам нужно посчитать сумму массива из допустим 8 элементов
В такой ситуации задействуются первые 2 блока
допустим в первый блок мы кормим 5 элементов,во второй блок мы кормим оставшиеся 3 элемента (оно так будет загружатся, или разобьет пополам по 4 элемента на блок?) в этот же момент третий блок остается свободный и может считать что то отличное от сложения или он вхолостую посчитает что-то или он просто будет неактивным?
и после первого такого сложения у нас уже есть массив из 4х элементов — мы можем его уже посчитать на одном блоке, опять же что в это время будут делать 2 других блока?

anonymous

anonymous 13.01.2020 16:24

-

anonymous

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 16:15

Есть трюк чуть ускорить и выстроить их в цепочку не m*n*k, а log(m*n*k).

А вот интересно, если тебе дать задачу сделать memset() операцию на 16 ядрах на участке в 1Gb RAM. Какой код ты напишешь?

anonymous

anonymous 13.01.2020 16:23

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 16:32

Я ожидал подобного, но захотелось очередной раз местных супер-пупер-ниньзя-гуру в их говно мокнуть мордой.

Я тебе написал решение: подсчитываешь сразу сумму во время вычитания двух тензоров. Ты в упор делаешь вид, что его не видишь его и начинаешь выдавать мне какие-то «сферические» правильные решения, которых быть не может априори, есть оптимизация конкретной задачи.

anonymous

anonymous 13.01.2020 16:45

-

dou.ua/...rums/topic/29433/#1756474

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 16:46

anonymous

anonymous 13.01.2020 16:49

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 16:58

Витя, мне больше делать нехер, как писать за тебя код — приведи код вычитания двух твоих тензоров, я покажу тебе что нужно делать. Код подсчёты нормы не нужно.

Так я увижу решение это задачи от супеп-пупер-нинзя-гуру на CUDA или OpenCL?

Ты очень упорот. Я тебе пытаюсь объяснить что тебе не нужно решать эту задачу, её можно добавить как субчасть при вычислении разницы двух тензоров. Где ты всё равно имеешь доступ к элементам матрицы. А ты пытаешься оптимизировать задачу, которая порождена неоптимизированным алгоритмом.

Наш диалог звучит примерно как, Витя: «А ну покажи, мне, бля, гуру, как ты быстро сделаешь умножение в столбик», а я говорю, что есть для больший чисел Karatsuba, а ты опять кричишь, что надо оптимизировать умножение в столбик.

anonymous

anonymous 13.01.2020 18:11

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 18:29

Заводишь локальную переменную interim_sum типа register float interim_sum = 0.0;

....
    for (int i = index; i < n; i += stride) {
        y[i] = x[i] - y[i];
        interim_sum += y[i] * y[i];
    }
    atomicAdd(&global_sum, interim_sum);
}

В global_sum по окончанию выполнения всех кернелов у тебя будет сумма квадратов всех элементов. Достаёшь её процессором и вычисляешь корень.

anonymous

anonymous 13.01.2020 18:42

-

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 18:47

И все ядра выстроились в цепочку. О чем я выше писал.

Там цепочка один раз в конце вычисления после основного цикла. Все остальное время оно записывает результат в регистр, локальный для потока.

anonymous

anonymous 13.01.2020 18:55

-

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 18:56

Я не знаю, какая встроенная видяшка в моем ноуте)

anonymous

anonymous 13.01.2020 19:01

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 18:52

И все ядра выстроились в цепочку. О чем я выше писал.

Объясни где ты там увидел цепочку? Она есть только в месте atomicAdd, но она per invocation, их должно быть немного, либо контроллируй размеры сетки сам.

А к твоему коды еще нужно запрашивать, что там на конкретном GPU с блоками, ядрами и правильно задать все размеры.

Зачем? У тебя есть вычисление y[i], ты просто его используешь повторно для суммы квадратов.

Но как только начал суммирование, то вся скорость GPU сдохла.

С какого хрена, прости, мой французский?

но стоит появиться хоть одной операции с барьером и GPU сразу сливает по полной.

Так выноси барьеры за циклы! Тем более atomic не полный барьер.

Заточи под свою архитектуру:
devblogs.nvidia.com/...g-shared-atomics-maxwell

Вот про регистры я ничего толком не знал на GPU.

Регистр говорит лишь о том, что тебе не надо это число в памяти, и то, что тебе пофиг, где оно находится, если компилятор для GPU сможет всё время держать его в регистре, то будет очень быстро.

anonymous

anonymous 13.01.2020 18:57

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 19:18

Ты говоришь про библиотечный вызов? Ну я хз что они там написали, я тебе говорю про голый код. Я просто иногда балуюсь своим рейтрейсером, добавил radiosity ( en.wikipedia.org/...osity_(computer_graphics ) для мягких теней, FPS упали со 100 для FullHD до 98 на мобильном Atom CPU от Intel. А там далеко не только суммирование, там дохерища вычислений.

anonymous

anonymous 13.01.2020 19:19

-

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 19:28

Да, это их либа и не думаю, что ты сильно квалифицированнее разрабов на нвидии.

Бугага! Если учесть то, чем я занимаюсь и то, что как минимум двое моих бывших коллег, которые доводили своими решениями меня до прединфарктного состояния, сейчас работают в nVidia, то могу сказать, что ты не прав на 200%. Но это оставим на твоей совести.

anonymous

anonymous 14.01.2020 07:20

-

Dmitry Panfilov Senior C++ Developer 14.01.2020 10:45

воткнуть костыль в драйвер это же милое дело, был как то свидетелем когда кое кто полинял на много денег изза бага в дровах

anonymous

anonymous 14.01.2020 10:56

-

Dmitry Panfilov

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 14.01.2020 12:46

Ну расскажи, какие драйвера к подобному железу пишут в постсовке.

Писали и очень много (тебе, конечно, не доложили!), но если не настолько туп, как пытаешься тут показаться, то у тебя хватит ума понять, почему люди уезжают — потому что нет работы тут.

Но ЧСВ у каждого постсовка больше, чем у всех америкосов вместе взятых.

И как оно живётся с такими тараканами, что ты каждого, кто что-то умеет делать обвиняешь в ЧСВ и понтах?

Раз уже пошла такая пьянка, то хочу сказать, что ты мудила редкостный, пришёл, чтобы спросить как сделать быстро, а вместо того чтобы разобраться в предложенном решении ты начал тыкать ссылками на какое-то «правильное» решение. Т.е. ты не за советом пришёл, а по-проверять? Отныне ты сразу будешь идти на йух с любыми вопросами.

anonymous

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 14.01.2020 12:39

Украинский программист самый программистый в мире.

Тебе обязательно нужно кого-то унижать, чтобы возвыситься и по другому ты существовать не можешь? Очень много украинских программистов работают в выше перечисленных компаниях не на пол ставки, потому что украинские, а на всю катушку, только потому что специалисты. Тебе так это тяжело вбить в свою голову?

Вот только почему то INTEL, NVIDIA, AМД — все пиндосские (как принято говорить у еще более восточных антиамериканцев).

И причём тут программисты к основанию полупроводниковых компаний?

anonymous

Left Outer Join 13.01.2020 21:56

надо DMA для этого задействовать!

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 21:57

DNA!

Left Outer Join 13.01.2020 22:01

или ещё лучше, дёрнуть ресет на чипе памяти, и будет тебе memset() за O(1)

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 13.01.2020 22:06

Лет 20 назад — да, сейчас это мегадырища, вся надежда на то, что питание было отключено и память получила частичное повреждение. Но кого волнуют такие мелочи %)

Dmitry Panfilov Senior C++ Developer 13.01.2020 18:52

у вас там в куде штоле sub group operations не завезли?

anonymous

anonymous 13.01.2020 19:05

-

Dmitry Panfilov

Dmitry Panfilov Senior C++ Developer 13.01.2020 19:22

у тебя есть запущеные потоки в так называемой саб группе, они паралельно что то делают

Но как только тебе понадобилось сложить все чти числа

все потоки в саб группе дружно делают subgroupAdd и записывают результат в output буфер согласно gl_SubgroupID

потом все это повторить пока у тебя не останется одна сабгруппа с одним итоговым результатом

anonymous

Oleksandr Merkulov asterisk guru 15.01.2020 02:32

Ну так GPU и есть эта «переработка» архитектуры в сторону паралельности.
А дальше будут другие компромисы, типа Xylix чипов или нейро-сетевых специализаций(вроде гугловского чипа).
Возможно, когдато весь x86 станет отдельным контроллером и основа будет как GPU, но это точно не в ближайшее время.

anonymous

Oleg Korol POWER Ops, again 13.01.2020 12:44

Embedded Tech Lead

остановите эту Землю, я сойду

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 12:57

Ну смотри.
Развивались процы по частоте. Потом уперлись в потолок. Что сделали — начали плодить ядра. Ну пришлось слегка попереписывать часть софта для поддержки многопоточности.
Сейчас плодится количество ядер, но тоже скоро может быть потолок. Какой следующий шаг? NUMA. Тоже надо будет попереписывать, методика уже понятна — давно делают распределенные системы в энтерпрайзе.
Твои пред(по)ложения?

Oleg Korol

Left Outer Join 13.01.2020 13:01

а куда девать закон Амдала

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 13:03

а куда его девают последние лет 15? Вот туда же и девать.

Left Outer Join 13.01.2020 13:04

так никуда же не девают

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 13:09

www.karlrupp.net/...icroprocessor-trend-data
перелом по частоте и производительности в 2005 видишь?
куда его девают?

Left Outer Join 13.01.2020 13:18

то, что процики делают многоядерными, совсем не значит, что софт на них начинает быстрее работать, может быть и наоборот

anonymous 13.01.2020 13:13

-

Denys Poltorak Embedded | C++ (opentowork) 13.01.2020 13:21

А до этого стало невозможно поюзать всю мощность системы в классическом однопоточном приложении. Пережили.

anonymous

anonymous 13.01.2020 13:30

-

Oleg Korol POWER Ops, again 13.01.2020 15:10

я просто не понимаю, как дискутировать с человеком, который не читает то, что ему пишут и использует слова, значение которых не знает...

Bot Bot 12.01.2020 13:34

Ну тоесть уперлись в способности работников IT, как проегров так и не прогеров, просто так лечить упрощенными языками/фреемверками, аджайлами, доп ядрами в проце уже не помогает. Все еще дорого, глючно и долго.
Ну и слава богу, значит работы еще будет дофигища.

anonymus ps 12.01.2020 10:59

Пиши на Джаве и будет тебе счастье

Котэ 12.01.2020 22:17

— Простите, я потерял сынишку в вашем торговом центре. Можно сделаю объявление по радио?
— Конечно.
Наклоняется к микрофону:
— Я пишу на джаве.

anonymus ps

Ювженко Денис System Architect в Intellias 13.01.2020 13:06

Сорян, але ще поки не у всіх стоїть по терабайту оперативи.

anonymus ps

Bohdan Horbeshko 15.01.2020 18:33

А Java ME и не знает, что ей терабайт оперативы нужен!

Ювженко Денис

Mike Gorchak Graphics Device Driver Developer в QNX Software Systems 15.01.2020 18:41

Java ME не знает, что она уже 10 лет как сдохла.

Bohdan Horbeshko

Bohdan Horbeshko 16.01.2020 23:39

И что, Java за 10 лет стала прожорливее? Или -Xmx отменили? Наоборот — над производительностью работают, GC совершенствуется.

Поддержка Java ME встречается даже в относительно недавних китайфонах, например, LEXAND A2 Flip и Allview H3 Join. Приложений новых не от энтузиастов нету, да; многие, тем не менее, развивались вплоть до середины 10-х: Opera Mini, UC Browser, разнообразные игры от Gameloft. Так что цифра малость завышена.

Senseye 12.01.2020 10:28

Було б добре, та тоді треба відмовитись від PHP, Ruby, Python і JS, та почати розробляти на C++, C, Rust

А відмовитись буде неможливо

Іван Малич CIO в SanWell Distribution 12.01.2020 10:55

Так і бачу інтеграційний проект з купою rest та xml-ws, що написано на C.
І замовник такий: «Вау, лише в 12 разів дорожче, та ще й лише в 17 разів довше. Але ж працює в 3 рази швидше. І пам’яті на 1к баксів можна менше використати!»

Senseye

anonymous 12.01.2020 13:13

-

Dmitry Bugay Java Team Lead 13.01.2020 11:53

Щось дуже в крайність)

Та нет, не особо. Еще и эстимейты занизил.

anonymous

Not Sure 12.01.2020 13:17

Можно на Go писать, он быстрее чем java (незначительно), python, ruby.

Anton Matveiev AWS Security Engineer в Toyota Kreditbank 12.01.2020 14:06

Зараз почнеться)

Not Sure

anonymous 12.01.2020 16:39

А можно писать на cython и шатать тот го на чем свет стоит, ну или в крайнем случае PyO3 и не отказываться от удобства в пользу сомнительной скорости и явного неудобства.

Not Sure

Dmitry Bugay Java Team Lead 13.01.2020 11:53

он быстрее чем java (незначительно)

Но неудобнее. Значительно.

Not Sure

Left Outer Join 12.01.2020 21:37

Так і бачу інтеграційний проект з купою rest та xml-ws, що написано на C.

а что такого

Bohdan Horbeshko 15.01.2020 18:38

І пам’яті на 1к баксів можна менше використати!

Сабж станет реальностью, лишь когда (и если) инвестиции в железо станут дороже труда низкоуровневых программистов.

А пока что тенденция обратная, уже даже в микроконтроллеры JS пихают.

anonymous 12.01.2020 16:42

Кстати интересно, на сколько порядков возрастет «гаунность» кода написанного на С и ++ после того, как все начнут на них писать и не дешевле ли будет делать мультипроцессорные системы, чем переписывать по 10 раз?

Senseye

Alex Koshterek погромизд 12.01.2020 18:26

А чем тебе поможет С если например ORM делает дико неоптимальный запрос?

anonymous

Not Sure 12.01.2020 18:38

например ORM делает дико неоптимальный запрос?

А если VM делает дико неоптимальные вычисления?) Какая будет реальная вычисл. сложность банального перебора массива на ruby в сравнении с, например, c/c++?

Alex Koshterek

Alex Koshterek погромизд 12.01.2020 18:42

А является ли это боттлнеком? Разве что в какой-то сугубо вычислительной задаче, когда нету баз, сетевых вызовов и прочих тормозных штук.

Not Sure

anonymous 12.01.2020 20:14

Ты что? Какая ORM? рост мощностей замедлился!!!! алярм, ахтунг какие могут быть прослойки вообще? исключительно чистый sql хотя его же нужно парсить да и сервер бд иметь — это все в мусорку, нужно напрямую читать файл с диска,а пользователь пускай на своей стороне богомерзким джаваскриптом уже обработает.

Alex Koshterek

Left Outer Join 12.01.2020 21:38

SQL запросы будут транслироваться в машинный код на этапе конпеляции проекта :)

anonymous

Sergey Lysak T/T Lead 13.01.2020 18:34

берите круче, эпоха ИИ на подходе.

во время компиляции проекта будет собираться сервер БД оптимизированный под описанные запросы.
причем, с кодом, который на основе статистики реальной работы, будет пересобирать сервер БД.
JIT компилятор в JVM же так уже делает. Немножко, не всегда, но может.

Дело за малым — расширение применения этого подхода

Что означает — думать об оптимизациях вообще не будет иметь смысла.

Это у автора статьи

Way back in the 1960s,

а надо мыслить о 2060s

а дальше, еще интерсенее — писать код вообще не придется.
а только спецификации, ТЗ, и прочую литературу.
ИИ сам сгенерит, скомплирует, перекомпилирует, ...
А если ему будет непонятно, то еще и переспросит — у вас в спецификации на странице 15 написано вот это, а странице 96 — вот это. и эти вещи логически несовместимы. Предлагаю варианты: ...

Так что автор статьи — просто ностальгирует по прошлому.

Oleksandr Merkulov asterisk guru 15.01.2020 02:43

Mysql блин уже пересобирает фактически логику в зависимости от его понимания запроса. Не, не физически, просто она основана на таблицах которые он поправляет.
Токо ж не всегда работает почемуто, иногда к еще большим фризам приводит.