Тренировка нейросетей. Bottlenecking

Здравствуйте!

Поставил себе карту GTX 1080 что бы нейросети тренить на ней.
И машина работает как медленно.

Скрипт который запускал для теста. github.com/…​/cifar10/cifar10_train.py

Вот показатели загруженности системы:
i.imgur.com/ErFuNYJ.png

Вопрос:
1. почему карта работает не на полную (показатель GPU-Util)?
2. Правильны ли мои догадки что процессор сдерживает ее потенциал?
3. Можно ли настроить tensorflow из коробки так что бы он меньше зависил от процессора и больше выжимал на карте?
4. Если поставить камень core i7 6850k (с соответвующей экосистмой)
будет ли карта тренировать сети быстрее?

LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

Утилизация маленькая потому что нейросеть небольшая, и сравнительно много времени тратится на перемещение данных в памяти GPU.

На всякий случая, для максимальной скорости, проверь что установлен CuDNN (www.nvidia.com/...sorflow-installation.html ).

Процессор не при чем, вот пример:
github.com/...arning/wiki/tf-benchmarks
Скорость в 1.5 раза выше чем у тебя — скорее всего из-за версии драйвера и CuDNN, а не из-за процессора.

Сергей спасибо Вам за советы.

# (tensorflow) alexandr@alexandr:~$ python
Python 2.7.12 (default, Nov 19 2016, 06:48:10)
[GCC 5.4.0 20160609] on linux2
Type „help”, „copyright”, „credits” or „license” for more information.
>>> import tensorflow as tf

I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcublas.so.8.0 locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcudnn.so.5 locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcufft.so.8.0 locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcuda.so.1 locally
I tensorflow/stream_executor/dso_loader.cc:135] successfully opened CUDA library libcurand.so.8.0 locally
>>>

Вроде все версии в норме. Хз. что не так. Все таки мне кажется что „мамка” 5 летней давности, не самая топовая по тем временам
+ core i3 — ark.intel.com/...ocessor-3M-Cache-3_30-GHz

Не вывозят более высокие показатели.
P.S. Буду пробывать ковырятся в коде что бы больше грузить карту а не проц.

Ну в играх 1080 ай3 не раскрывает, скорее всего с сетями все тоже

С GPU всё очень непросто с использованием. Там совсем не универсальный процессор и принципы работы с памятью и вычислениями там другие.
Но ты можешь потонуть в этой оптимизации — имей в виду.

Если будут конкретные вопросы тут Майк Горчак помочь может, он в этой области работает.

Подписаться на комментарии