Розробка · 4 серпня 2016, 18:32 274

Оптимізація Pandas data frame

Є data frame df, потрібно виділити його частину з умовою, щоб атрибут А==53432 і створити новий data frame df_sub:

df_sub=df[df['A']==53432].reset_index()

Ця процедура займає дуже багато машинного часу, порядку 0.5 сек. для data frame 70000×5. Як можна оптимізувати?

Теми: Pandas

👍ПодобаєтьсяСподобалось0

До обраногоВ обраному0

Facebook

Twitter

Схожі топіки

10 корисних порад обробки даних у Pandas

Ctrl + Enter

Костянтин Максимов Deep Learning (Computer Vision) Engineer в NDA 05.08.2016 21:37

Можно попробовать просто df_sub.index=range(len(df_sub)), если конечно индекс числовой и один. Просто такой способ меняет аттрибут индекс без добавления старого индекса как доп переменной.

Відповісти

Підтримати

Andri Elyiv DS 05.08.2016 12:55

Основний час забирає .reset_index()
Як можна обійтися без цього, щоб зчитувати потім елементи субфрейму df_sub ?

Відповісти

Підтримати

Sergiy Matusevych вечный чайник 05.08.2016 02:26

хм. а так?

df_sub = df[df.A == 53432]
df_sub.reset_index(drop=True, inplace=True)

Відповісти

Підтримати

Andri Elyiv DS 05.08.2016 12:50

Забирає в 2 рази більше часу

Відповісти

Підтримати

Sergiy Matusevych

Підписатись на коментарі

Ваша пошта

Не підписуватись

Оптимізація Pandas data frame

Схожі топіки

4 коментарі

Підписатись на коментарі

Новини