Interview questions: Data Engineer — Part 1

Иногда меня спрашивают о списке вопросов для DB/DWH/ETL разработчиков. В последнее время все чаще можно встретить описание этой же позиции как Data Engineer или даже BigData Engineer. Как бы там не было, в этой части я собрал вопросы для уровня junior и middle. Прошу прощения что на английском, у кого возникнут трудности с перводом могу подготовить перевод.

SQL basics
— Working with objects (CREATE|ALTER|DROP TABLE|INDEX|VIEW)
— Simple queries (SELECT FROM WHERE)
— Joins (INNER JOIN, FULL|LEFT|RIGHT OUTER JOIN, CROSS JOIN)
— Sorting and aggregation (GROUP BY, HAVING, OREDER BY, QUALIFY)
— Working with data sets (DISTINCT, UNION [ALL], [NOT] IN, [NOT] EXISTS)
— DML (INSERT, UPDATE, DELETE, MERGE)
— Build-in functions (columnar, scalar, string, date/time, etc)
— Table/view types
— ACID properties of transaction
— Transaction Isolation Levels

SQL advanced
— correlated sub queries
— „with” clause
— analytical functions
— Hierarchies
— SQL performance tuning

SQL Programming
— Procedures vs functions
— Data types (basic, user defined, row data type)
— Using Flow of Control Statements: Compound statements (ATOMIC and NOT ATOMIC), Conditional Statements (IF and CASE), Looping (FOR, WHILE, REPEAT, and LOOP), Transfer Control (GOTO, LEAVE, ITERATE, RETURN, COMMIT, and ROLLBACK ), Exception handling (TRY/CATCH)
— Working with temporary tables
— Cursors and Result Sets
— Condition Handling
— Performance optimization

DB General
— Tables, views and indexes
— Integrity rules
— Constraints
— Keys
— Normalization/denormalization, normal forms
— Partitioning
— Statistics, join methods

DWH Basics
— OLTP vs DSS, OLAP, ROLAP, MOLAP, HOLAP
— Approaches in building DWH (3NF, multidimensional) (Inmon vs. Kimball)
— Stages of DWH ( Archive layer, Staging area, Enterprise data warehouse, Data marts, Operational data store)
— Types of fact tables (aggregated, periodic snapshot, transactional)
— Conformed facts
— Slowly changing dimensions (SCD1, SCD2, SCD3 )
— Types of Dimensions: conformed, degenerate, junk, role-playing, stacked, inferred, shrunken, static
— Surrogate keys

ETL General
— Integration concepts (EII / ETL / EAI)
— ETL tools
— Stages of ETL process
— ETL vs ELT
— „Push” and „pull” ETL strategy
— Ways to handle incremental loads
— Change Data Capture
— ETL metadata
— ETL tuning strategy (how to identify bottlenecks, possible issues)

👍НравитсяПонравилось4
В избранноеВ избранном4
LinkedIn
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter
Допустимые теги: blockquote, a, pre, code, ul, ol, li, b, i, del.
Ctrl + Enter

А ці питання звідки взяті? Це їх вам ставили на співбесідах або ви їх питали?

Большая часть этих вопросов досталась мне от моего ментора когда я был еще молодым и неопытным. Потом я этот список обновлял несколько раз, учитывая свой опыт и требования к студентам из лабы.
Конечно все вопросы мы не спрашиваем, но даем рекомендации готовым списком если есть пробелы у кандидата. Это экономит время на обратную связь и выполняет роль справочника.

Есть еще справочник вопросов по AWS для AWS Data Engineer

Подписаться на комментарии