Співбесіда з Big Data Engineer. Понад 200 запитань, практична частина і задачі на логіку

💡 Усі статті, обговорення, новини для початківців — в одному місці. Приєднуйтесь до Junior спільноти!

Що мають знати Big Data інженери, аби влаштуватися в ІТ-компанію? DOU зібрав приклади реальних запитань від фахівців, які проводять співбесіди у цій галузі. У добірці є приклади для Big Data інженерів рівня Junior, Middle і Senior, а також кілька практичних задач і коментарі експертів.

Сподіваємося, цей матеріал доможе вам потренуватися перед інтерв’ю, відчути себе впевненіше й актуалізувати свої знання у галузі Big Data. Пам’ятайте: це лише орієнтир, а не повний чи вичерпний ґайд. Якщо ви проходите чи проводите співбесіди в цьому напрямі, будемо раді вашим доповненням в коментарях.

Попередні матеріали цієї рубрики читайте за тегом «100 техпитань».


🎓JUNIOR

    Загальні запитання

  1. Що таке Big Data і чим відрізняється від традиційних підходів до обробки даних?
  2. Що означає концепція 5V у контексті Big Data?
  3. Які інструменти для візуалізації даних вам відомі, які з них використовуєте у роботі?
  4. Що таке не структуровані, слабко структуровані та структуровані дані? У чому різниця? Наведіть приклади.
  5. Бази даних і SQL

  6. Що таке база даних і для чого вона використовується?
  7. Які типи баз даних вам відомі й чим вони відрізняються?
  8. Чи вмієте використовувати SQL для запитів до даних? Опишіть основні блоки SQL.
  9. Що таке DDL і DML? Які команди належать до кожного типу?
  10. Що таке первинний ключ (primary key) і зовнішній ключ (foreign key) у реляційних базах даних?
  11. Для чого потрібен RIGHT JOIN у базах даних, і чим він відрізняється від інших типів з’єднань?
  12. У чому різниця між PARTITION BY та GROUP BY у SQL?
  13. Які типи з’єднань (JOIN) існують у SQL і з яким ви працювали найчастіше?
  14. Як об’єднати дві таблиці, що не мають первинних ключів?
  15. У чому різниця між операторами UNION та UNION ALL?
  16. Що таке індекс у реляційних базах даних і як він покращує роботу з даними?
  17. Що таке віконні функції (Window Functions) у SQL і як вони відрізняються від агрегатних функцій?
  18. Для чого використовується HAVING, якщо є WHERE?
  19. Яке призначення SQL і які основні концепції він охоплює?
  20. Чи вмієте ви працювати з DDL для управління об’єктами бази даних (створення та зміна таблиць згідно зі схемою)?
  21. Що таке індекс для таблиць у базах даних і для чого він потрібен?
  22. Яке призначення і які типи з’єднань (JOIN) є у SQL?
  23. Чи маєте досвід роботи з TCL для початку, фіксації та відкату транзакцій?
  24. Ми хочемо дізнатися кількість унікальних користувачів, які купили будь-який товар у конкретному магазині за певний період. Чи правильно написаний цей запит?
  25. SELECT dates, count(user_id)
    
    FROM purchasers_tbl
    
    WHERE dates BETWEEN '2024-01-15' AND '2024-02-06' 
    
    HAVING amount > 0;
    
    
  26. Який результат поверне цей запит?
  27. SELECT now() FROM my_tbl WHERE Null = Null;
    
  28. Який порядок виконання команд у цьому SQL-запиті?
  29. SELECT dates, user_id, sum(amount_dep) amount_dep 
    
    FROM my_big_table 
    
    WHERE types = 'VIP' 
    
    GROUP BY dates, user_id
    
    LIMIT 100;
    

    Формати та сховища даних

  30. Що таке Data Lake і для чого використовується?
  31. Що таке Stage Zone і які завдання виконує в обробці даних?
  32. Що таке HDFS (Hadoop Distributed File System) і як забезпечує зберігання та обробку даних?
  33. Які формати даних вам відомі (JSON, CSV, Avro тощо) і як вони працюють?
  34. Які переваги та недоліки мають NoSQL бази даних при роботі з великими даними?
  35. Що таке партиціонування і як воно використовується в базах даних (SQL та NoSQL) або системах зберігання даних?
  36. Інтеграція, обробка, моделювання та оркестрація даних

  37. Що таке batch job і чому важливо розуміти принципи його роботи?
  38. У чому різниця між цілісністю даних (data integrity) та денормалізацією? Коли доцільно використовувати денормалізацію?
  39. Чим відрізняються dimension tables від fact tables?
  40. Що таке DAG (Directed Acyclic Graph) у контексті оркестрації даних і яка його роль у побудові конвеєрів обробки даних?
  41. Які типи тригерів використовують для запуску data pipelines?
  42. Що таке ідемпотентність та чому вона важлива для batch job? Наведіть приклади. А також наведіть приклади ідемпотентної та не ідемпотентної джоби.
  43. Вам потрібно написати джобу, яка заливає декілька файлів у папку. Як зробити її ідемпотентною?
  44. Вам потрібно вставити певну кількість даних у таблицю за допомогою SQL. Як зробити таку джобу ідемпотентною?
  45. Наведіть приклади форм нормалізації.
  46. Чим відрізняються dimension tables від fact tables?
  47. Чим відрізняються структуровані дані від неструктурованих? Наведіть приклади кожного типу.
  48. Python/Основи програмування

  49. Які особливості Python відрізняють її від інших мов програмування?
  50. Що таке PEP 8?
  51. Які основні типи даних у Python?
  52. Що таке лямбда-функції (lambda functions) у Python? Як вони працюють, у яких випадках доцільно їх використовувати?
  53. Що таке магічні методи (magic methods) у Python, для чого вони потрібні? Чи маєте досвід використання магічних (дабл-андер) методів у Python?
  54. Що таке comprehensions у Python? Наведіть приклади list comprehension і dict comprehension.
  55. Як створити список b, що містить квадрати значень зі списку a = [1, 2, 3], використовуючи list comprehension?
  56. Що таке context manager у Python, навіщо використовується? Чи можна створити власний context manager?
  57. Що таке декоратори у Python? Які бувають вбудовані декоратори та як створити власний? Наведіть приклади декораторів, з якими ви працювали.
  58. Що таке ітератори (iterators) і генератори (generators) у Python, чим вони відрізняються? Коли доцільно використовувати кожен з них?
  59. Чим відрізняються списки (list) від кортежів (tuple) у Python?
  60. Чи працювали з ключами у словниках (dict) в Python?
  61. Інструменти для роботи з Big Data

  62. Які основні компоненти входять до складу Hadoop?
  63. З яких компонентів складається Apache Spark?
  64. Що таке «ліниве обчислення» (lazy evaluation) у Spark, яку роль воно відіграє в оптимізації роботи?
  65. Що таке широкі та вузькі залежності (wide and narrow dependencies) у Spark? У чому їхні відмінності?
  66. Які операції в Spark називаються трансформаціями, а які — діями (actions)? У чому їхня різниця?
  67. Які формати даних підтримує Spark для обробки?
  68. Чи можете описати основні компоненти Spark, такі як Spark Core, Spark SQL, Spark Streaming, GraphX і Spark ML?
  69. Що таке партиція в Spark, як вона впливає на обробку даних?
  70. Що таке Job, Stage і Task у Spark, яку роль кожен з них відіграє у виконанні завдань?
  71. Як Spark обробляє дані в пам’яті (in-memory), які переваги це дає?
  72. Хмарні сервіси*

  73. Опишіть хмарні сервіси, з якими доводилось працювати найбільше.
  74. Яка роль Amazon S3 в AWS?
  75. Що таке EC2 і як його використовують?
  76. Що таке AWS Lambda і чим він відрізняється від EC2?
  77. * AWS використовується як приклад, Azure, GCP здебільшого ± ті самі запитання, але з їхніми аналогічними сервісами.

    Операційні процеси

  78. Що таке CI/CD і чому ці процеси важливі у розробці програмного забезпечення?
  79. Які основні етапи охоплює процес CI/CD?
  80. Чим відрізняються CI (безперервна інтеграція) та CD (безперервна доставка/розгортання)?
  81. Що таке Kubernetes і яка його основна роль у керуванні контейнерами?
  82. Як запустити простий контейнер за допомогою Docker?
  83. Що таке pod у Kubernetes і яке його призначення?

Ольга Томахіна, Senior Data Engineer:

«На інтерв’ю я не очікую, що кандидат знатиме відповіді на всі запитання. Ба більше, завжди додаю problem-solving задачі, які виходять за межі простих питань і які орієнтовані на потреби конкретного проєкту. Рівень складності залежить від позиції, але в кожному випадку важливий не тільки результат, а й процес мислення кандидата.

Особливо ціную, коли кандидат здатен легко розмірковувати під час інтерв’ю, чітко визнавати моменти, де він не має достатньої інформації, та висувати гіпотези про можливі підходи. Я також уточнюю глибину знань, коли кандидат щось озвучує, щоб оцінити його розуміння теми. На жаль, часто кандидат намагається вгадати відповідь, якщо не знає її точно. Це одразу великий мінус, адже набагато краще визнати «не знаю, не мав досвіду, але можу запропонувати ідею, як це могло б працювати».


🎩 MIDDLE

Бази даних і SQL

  1. Яка різниця між базами даних SQL і NoSQL? Які переваги та недоліки, особливості застосування кожного підходу?
  2. Що стверджує теорема CAP? У чому відмінність між концепціями AP та CP?
  3. Чи вмієте ви створювати та оптимізувати складні SQL-запити (підзапити, з’єднання, GROUP BY, HAVING) і працювати з аналітичними функціями?
  4. Як працюють індекси? У чому різниця між кластерними та некластерними індексами?
  5. Що таке ACID-властивості? Які проблеми вирішують різні рівні ізоляції транзакцій?
  6. У яких випадках варто використовувати CTE, а коли краще SQL-підзапити?
  7. Які методи ви застосовуєте для оптимізації SQL-запитів?
  8. Які основні переваги та недоліки індексування таблиць у реляційних базах даних?
  9. Як працюють команди DELETE, TRUNCATE та DROP у SQL? Наведіть приклади використання кожної з них.
  10. Що таке надлишковість даних (Data Redundancy)? Коли вона є доцільною, а коли — ні? Які методи для її уникнення?
  11. Що побачить інший користувач В після цієї дії користувачем А?
  12. USER A
    
    BEGIN; 
    
    INSERT INTO users (name) VALUES ('Sasha');
    
    USER B
    
    SELECT * FROM users where name = ‘Sasha’;
    
  13. Як відпрацює індекс у такому випадку?
  14. CREATE TABLE products (id, price VARCHAR(10));
    
    INSERT INTO products (price) VALUES ('10'), ('20'), ('30'), ('40'), ('50');
    
    SELECT * FROM products WHERE price = 30;
    

    Формати та зберігання великих даних

  15. Що таке Data Lake і Data Warehouse? Які основні відмінності між ними, коли доцільно використовувати кожне з рішень?
  16. Що таке дата-каталог, які приклади дата-каталогів знаєте?
  17. Чи ознайомлені ви з форматами сховищ Hudi, Iceberg, Delta Lake?
  18. Що таке колонкова база даних (columnar database) і в яких випадках вона використовується? Наведіть приклади.
  19. У чому полягає різниця між підходами schema-on-read та schema-on-write?
  20. З якими Data Warehouse-сховищами ви працювали (наприклад, Redshift, Snowflake, BigQuery)?
  21. Які формати даних використовують для зберігання колонкових файлів у Big Data проєктах (Parquet, ORC)?
  22. З якими форматами файлів і джерелами даних (data sources) ви працювали?
  23. Яка різниця між рядково-орієнтованими та колонково-орієнтованими форматами файлів? Наведіть приклади представників кожного формату.
  24. Опишіть формати JSON та CSV. В чому різниця? Які особливості? Коли краще застосовувати кожен з них, а коли не варто?
  25. Опишіть формати Avro та Parquet. Які особливості? Коли краще застосовувати кожен з них, а коли не варто?
  26. Опишіть багаторівневу стратегію зберігання архівованих даних.
  27. Робота з даними

    Інтеграція, обробка та оркестрація даних

  28. Чи маєте досвід роботи з Apache Spark? У чому полягає різниця між підходом Spark і MapReduce?
  29. Як ви організували б обробку великих потоків даних у реальному часі, використовуючи Apache Kafka або Apache Airflow?
  30. Як забезпечується паралельне виконання джобів у Spark або інших системах обробки даних?
  31. Що таке Change Data Capture (CDC)? Розкажіть про свій досвід застосування CDC для відстеження змін у даних.
  32. Які ключові завдання вирішує data catalog під час управління й організації даних у компанії? Що таке ETL та ELT, коли вони використовуються? Які інструменти для ETL найчастіше застосовуються у Big Data проєктах?
  33. Що таке data lineage, чому вона важлива у проєктах з обробки даних?
  34. Які підходи ви застосовуєте для налаштування інкрементального завантаження даних (incremental data loading)?
  35. Як забезпечуєте відповідність вимогам безпеки та стандартам (security and compliance) під час оркестрації робочих процесів?
  36. Які методи завантаження даних до MPP баз даних ви вважаєте найефективнішими?
  37. Моделювання даних

  38. У чому полягають ключові відмінності між star та snowflake схемами?
  39. Що означають поняття «факти» та «виміри» (facts and dimensions) у Data Warehouse?
  40. Які механізми використовуєте для відстеження історичних змін у даних?
  41. Як ви підтримуєте schema evolution у зоні підготовки даних (staging area), коли змінюються вихідні дані?
  42. Управління якістю, безпекою та консистентністю даних

  43. Які стратегії забезпечення якості даних використовуєте для Big Data? Як запобігаєте неконсистентності чи втраті даних під час ETL-процесів?
  44. Які інструменти застосовуєте для управління безпекою, якістю та доступом до даних?
  45. Які методи для якості даних в Data Warehouse застосовували?
  46. Що таке стратегія доступу до даних (data access strategy), чому вона важлива для сучасних платформ обробки даних?
  47. У чому різниця між статичним і динамічним маскуванням даних? У яких випадках доцільно застосовувати кожен з методів?
  48. Чи писали ви тести якості даних? Які фреймворки використовували для цього?
  49. Як налаштовуєте моніторинг і сповіщення про якість даних?
  50. Оптимізація даних

  51. Як би ви спроєктували стратегію індексування для таблиці з великим обсягом операцій читання і запису?
  52. Як працюють індекси і які їхні переваги та обмеження при роботі з великими обсягами даних?
  53. Чи є можливість будувати індекси в OLAP базах даних для великих даних? Обґрунтуйте відповідь.
  54. Які методи оптимізації SQL-запитів застосовуєте для ефективної роботи з великими обсягами даних?
  55. Які оптимізації у програмних рішеннях зазвичай реалізуєте для роботи з Big Data?
  56. Хмарні сервіси

  57. Що таке AWS Glue і як його можна використовувати для обробки даних?
  58. Як працюють AWS Glue Job Bookmarks та Glue Data Catalog? Які функції виконують Crawlers у Glue?
  59. Що таке Amazon Athena, як це використовують для аналітики в AWS?
  60. Поясніть, як працює AWS Lambda. Які обмеження є для серверлес-архітектури? Що таке Layers у Lambda, яку роль вони виконують?
  61. Як налаштувати Auto Scaling в Amazon EC2 для автоматичного масштабування ресурсів?
  62. Які переваги надає Amazon RDS для керування базами даних у хмарі?
  63. Що таке VPC (Virtual Private Cloud) в AWS, які можливості забезпечує VPC?
  64. Які методи безпеки рекомендують для захисту даних в AWS?
  65. Операційні процеси, CI/CD та контейнеризація

  66. Чи маєте досвід налаштування CI/CD пайплайнів? Які технології використовували для автоматизації цих процесів?
  67. Що таке контейнеризація, як вона пов’язана з CI/CD? Які переваги вона дає в розгортанні застосунків?
  68. Як CI/CD допомагає знизити ризики під час розгортання нових версій програмного забезпечення?
  69. Як створюється Dockerfile, яка його мета? Які ключові команди зазвичай використовують у Dockerfile?
  70. Що таке Service у Kubernetes, як він забезпечує доступ до подів?
  71. Як працює Docker Compose, у яких випадках доцільно його застосовувати?
  72. Інструменти для роботи з Big Data

  73. Що таке MapReduce і як він працює?
  74. Як працює Apache Spark, у яких випадках він краще підходить для обробки даних, ніж Hadoop?
  75. Чим відрізняються RDD, DataFrames та Datasets у Spark? Поясніть їх визначення, основні операції, переваги та недоліки.
  76. Які ключові концепції структурованого стримінгу у Spark? Розкажіть про джерела вхідних даних і вихідні канали з прикладами. У чому різниця між мікропакетною обробкою та безперервною обробкою?
  77. Опишіть процес відлагодження (дебагу) Spark-застосунків та основні методи, що використовуються для цього.
  78. Що таке Broadcast join у Spark, у яких випадках доцільно його застосовувати?
  79. Опишіть архітектуру Spark і основні компоненти роботи.
  80. Чи маєте досвід роботи з Delta Lake і Delta Engine, а також із концепцією lakehouse? Які операції підтримують Delta-таблиці?
  81. Чи працювали ви з батчевою та стримінговою обробкою даних? У чому особливості цих підходів?
  82. Як ви працюєте з обробкою даних у режимі реального часу за допомогою Apache Kafka, Apache Flink або інших стримінгових технологій? Які труднощі можуть виникати?
  83. Як у HDFS досягається fault tolerance? Поясніть роль Name Node та Data Node у цій системі.
  84. Який дефолтний розмір блока у HDFS? Які переваги та недоліки мають великий і малий розміри блоків?
  85. Як організувати масштабування обробки даних у розподілених системах? Які фактори треба враховувати при додаванні нових вузлів у кластер?
  86. Що таке оркестрація обробки даних? Які оркестратори ви знаєте та маєте досвід роботи?
  87. Чи маєте досвід роботи з Apache Airflow? Можете розказати про найкращі практики роботи з оркестратором?
  88. Що таке Operator і Hook в Airflow? Чи писали ви власні оператори та хуки?
  89. Чи доцільно використовувати Apache Airflow як не лише оркестратора, а й середовища для обробки даних? Обґрунтуйте відповідь.
  90. Python/Програмування

  91. Чи розумієте ви різницю між статичною та динамічною типізацією? Які переваги та недоліки кожного підходу? Який вид типізації використовується в Python?
  92. Що таке сувора та слабка типізація? Яку з цих видів типізацій реалізує Python?
  93. Що таке typing annotations в Python? Чи пропустить функція foo(x: str) на вхід сторокове значення? Для чого існують typing annotations та які переваги вони надають?
  94. У чому різниця між Tuple та NamedTuple?
  95. Чи використовували ви контекстні менеджери у Python? Як вони працюють і чи можете написати власний контекстний менеджер?
  96. Для чого існує модуль collections? Які обʼєкти з цього модулю використовували?
  97. Які основні шаблони проєктування (design patterns) ви знаєте? Які з них застосовували на практиці?
  98. Що таке PYTHONPATH і яку функцію він виконує?
  99. Що таке замикання (closure) у Python і як воно працює?
  100. Як реалізоване ООП у Python порівняно з іншими популярними мовами? Які унікальні можливості та відмінності є в Python?
  101. Чи може у класу бути два предки? В яких випадках це доцільно?
  102. Що таке MRO (Method Resolution Order) у Python і як він визначає порядок виклику методів?
  103. Як об’єднати Series чи DataFrames за допомогою бібліотеки Pandas?
  104. Які види автоматичних тестів ви знаєте? Які ви використовували?
  105. У чому різниця між юніт- та інтеграційними тестами?
  106. Які бібліотеки в Python використовують для написання тестів?
  107. Чи потрібно весь код покривати тестами? Як саме? Який відсоток модулів, класів, функцій має бути покритий тестами?
  108. Поясніть, як працює протокол HTTP. Які є види запитів? З чого складається тіло запиту?
  109. Що видасть цей код?
  110. x = 10 
    
    y = "5" 
    
    result = x + y 
    
    print(result)
    
    
  111. Що видасть цей код і чому?
  112. def add_numbers(a, b=[]): 
    
        b.append(a) 
    
        return b 
    
    print(add_numbers(5)) 
    
    print(add_numbers(10))
    

    Практичні задачі

  113. У вас є завдання зібрати дані з одного джерела та зберегти їх у Data Lake або Data Warehouse. Опишіть покроково, як ви це зробите, враховуючи етапи збору, обробки та завантаження даних.
  114. Що необхідно моніторити в процесах обробки даних та управлінні якістю даних (Data Quality)? Які показники чи події можуть свідчити про проблеми, на що слід реагувати?

Ростислав Фединишин, Head of Data and Analytics, Practice Leader (Intellias):

«На інтерв’ю важливо, як кандидати розуміють фундаментальні концепції та підходи до роботи з даними. Також потрібне глибоке знання інструментів Big Data та вміння застосовувати їх у реальних задачах. Необхідно звертати увагу на те, наскільки чітко кандидат може пояснити свої технічні рішення, а на рівні Senior — оцінювати лідерські якості, ухвалювати стратегічні рішення та керувати командою.

Кандидат може не підходити, якщо в нього поверхове розуміння концепцій або немає практичного досвіду, якого вимагає ця роль. Варто також переглянути свої проєкти й підготувати приклади з реальних ситуацій, які підкреслюють технічні та комунікаційні навички».


👑 SENIOR

    Загальні питання про Big Data

  1. Чим відрізняється MPP обробка даних від традиційних підходів?
  2. Які основні компоненти Lambda-архітектури?
  3. Опишіть типи тестування для систем великих даних.
  4. Бази даних і SQL

  5. Чи маєте ви досвід оптимізації продуктивності запитів у SQL? Які методи для цього використовуєте?
  6. Чи вмієте ви читати план виконання SQL-запиту, розуміти вплив різних частин запиту та приймати рішення на основі цього плану?
  7. Коли та як доцільно проводити денормалізацію бази даних?
  8. У чому різниця між командами TRUNCATE, DELETE та DROP у SQL?
  9. Що таке некорельовані (Noncorrelated) і корельовані (Correlated) підзапити? Чим вони відрізняються?
  10. Що таке нормалізація і які існують рівні нормалізації бази даних?
  11. Які типи баз даних краще використовувати для різних бізнес-задач і вимог (наприклад, реляційні бази, MongoDB, ElasticSearch, DynamoDB, Snowflake, AWS Redshift)?
  12. Які техніки оптимізації продуктивності запитів ви використовували при роботі з OLAP-базами даних для Bigdata? А які методи оптимізації для створення таблиць? Як прискорити пошук даних у такій системі?
  13. Робота з даними

  14. Як ви забезпечуєте ефективну реплікацію та синхронізацію даних між різними датацентрами або хмарними середовищами у проєктах з Big Data?
  15. Які підходи ви використовуєте для побудови конвеєрів ETL у Big Data? Як оптимізувати складні трансформації даних і знизити вплив на продуктивність?
  16. Як ви інтегруєте потоки даних з різних джерел у єдину аналітичну платформу? Які підходи до обробки даних у реальному часі ви використаєте?
  17. Які стратегії архівування та резервного копіювання даних ви впроваджуєте у Big Data-середовищі? Як вирішуєте питання зберігання історичних даних великих обсягів?
  18. Чи стикалися ви з ситуаціями, коли завдання (jobs) виконувалися довше, ніж очікувалося? Які методи оптимізації ви використовували для покращення швидкості?
  19. Що таке incremental data load і які основні типи цього завантаження ви знаєте?
  20. Які компоненти має містити якісний ETL-конвеєр (pipeline)?
  21. Як ви керуєте відмовами у потокових системах даних? Які механізми відмовостійкості (fault-tolerance) використовуєте?
  22. Що таке якість даних (Data Quality)?
  23. Які стратегії забезпечення якості даних (Data Quality) і моніторингу ви використовуєте у великих проєктах з Big Data? Як можна автоматизувати контроль якості даних?
  24. Які розмірності якості даних ви знаєте (Data quality dimensions)? Можете навести приклади?
  25. Що таке Data Governance і як його можна ефективно реалізувати в середовищі Big Data?
  26. Архітектура та моделювання даних

  27. Які основні архітектури даних є? Які їхні переваги та недоліки?
  28. У чому відмінність між таке Data Lake та Data warehouse? Чи можуть вони існувати одночасно в одній компанії?
  29. Чи може розподілена система зберігання відповідати вимогам ACID? Якщо так, то в яких умовах?
  30. Чи може бути база даних одночасно OLAP та OLTP? Якщо так, можете навести приклад?
  31. Чи кожна OLTP база даних є транзакційною в розумінні ACID?
  32. У чому полягає різниця між рядковими та колонковими форматами даних?
  33. Що таке сплітабл (splittable) та нон-сплітабл (non-splittable) формати файлів? У чому їхня різниця?
  34. Які типи NoSQL баз даних вам відомі? З якими з них ви працювали і які їхні переваги та недоліки?
  35. Наведіть приклади SQL і NoSQL баз даних. Поясніть сферу застосування кожної.
  36. Як ви масштабували б систему для обробки даних у реальному часі? Які підходи використовували б для забезпечення швидкодії та стабільності?
  37. Як забезпечити масштабованість у Big Data системах? Які фактори слід враховувати?
  38. З якими архітектурами даних (data architectures) вам доводилось працювати?
  39. Що таке медальна архітектура (medallion architecture)? У чому полягає її основна ідея?
  40. Що таке каталог даних? Чи потрібен він кожній компанії? Яких виробників каталогів даних ви знаєте? Наведіть приклад функціональності, яким має, на вашу думку, володіти корпоративний каталог даних?
  41. Як би ви організували контроль якості даних у великій компанії?
  42. Які методи моделювання сховища даних ви знаєте? Поясніть особливості.
  43. Який підхід ви застосовуєте до архітектурного планування системи для роботи з великими даними? Які інструменти та технології вибираєте для обробки та зберігання різних типів даних?
  44. Інструменти для роботи з Big Data

  45. Як за допомогою Apache Spark можна перевірити наявність певного ключового слова у великому текстовому файлі?
  46. Який інструмент найкраще підходить для створення data ingestion зони, здатної обробляти дані з різних джерел, включно з on-premise та cloud системами?
  47. Що таке спекулятивне виконання (speculative execution) у Spark і коли воно застосовується?
  48. Що таке адаптивне виконання (Adaptive Query Execution, AQE) у Spark і які його переваги?
  49. Чи можете ви описати архітектуру Apache Spark?
  50. Чи доводилося вам оптимізувати продуктивність застосунків на Spark? Які інструменти та методи для цього використовували?
  51. Як ви забезпечували безпеку та контроль доступу до даних у Data Lake? Які інструменти або методи використовували?
  52. Як забезпечити безпеку даних у розподілених системах Big Data?
  53. Які підходи ви використовуєте для оптимізації обробки великих даних з метою підвищення продуктивності?
  54. Які методи ви застосовуєте для зменшення часу обробки ETL-процесів?
  55. Поясніть, що таке Executor в Apache Airflow. Які вони бувають і яке їх застосування?
  56. Вам потрібно обробляти файли пакетним методом. Обсяг файлів до 1 ГБ. Яке середовище обробки таких файлів ви виберете залежно від того, чи це хмарна екосистема чи on-premise? Обґрунтуйте свою відповідь.
  57. Вам потрібно написати сервіс, що видаватиме дані через API з Big Data OLAP системи. Яке рішення ви запропонуєте? Чи будете напряму діставати дані за запитами? Запропонуйте декілька рішень.
  58. Хмарні сервіси

  59. Які обмеження на кількість партицій існують при використанні CTAS в AWS Athena?
  60. Чи доводилося вам використовувати доступ між обліковими записами (cross-account access)? Які практичні складнощі виникали і як їх вирішували?
  61. Яку роль відіграє Amazon CloudFormation в автоматизації розгортання інфраструктури? Які інші технології ви використовували для схожих завдань?
  62. У чому полягає різниця між Amazon EMR та Glue Jobs?
  63. Як оптимізувати щоденне зчитування терабайтів даних з іншого AWS-регіону?
  64. Які сервіси AWS ви використовували для моніторингу та підтримки продуктів?
  65. Які класи зберігання існують у S3? Які опції є для зміни класу зберігання об’єктів у S3?
  66. Які опції надає AWS для виконання Spark-застосунків?
  67. Операційні процеси

  68. Що таке blue-green деплоймент, як він реалізується в CI/CD?
  69. Які виклики та ризики можуть виникнути при впровадженні CI/CD у великих організаціях?
  70. Що таке статистичні аналізатори коду і яку користь вони приносять у процесі розробки?
  71. Як реалізувати безперервну інтеграцію та розгортання (CI/CD) з використанням Docker та Kubernetes?
  72. Як забезпечити стійкість і відмовостійкість контейнеризованих застосунків у Kubernetes?
  73. Які методи безпеки варто застосовувати в роботі з Docker і Kubernetes для захисту контейнерів і кластерів?
  74. Розкажіть про IaC-підхід. Які його недоліки та переваги? Які IaC-інструменти ви знаєте?


Додатковий блок для всіх рівнів: логічні запитання

  1. У вас є два джерела, що містять однакові дані (наприклад, кількість продажів за днями). В одному джерелі загальна сума становить 100 млн, а в іншому — 101 млн. Як ви можете визначити, якому джерелу даних можна довіряти?
  2. Дві годинникові стрілки на циферблаті показують 12:00. Скільки разів за добу хвилинна та годинна стрілки повністю збігаються одна з одною?
  3. Якщо в 10-поверховому офісі на кожному поверсі працюють 1=10 людей, 2=20 людей, 3=10 людей, 4=5 людей, 6-9=40 людей і на 10-му=80 людей, на яку кнопку поверху ліфта частіше всього натискають?
  4. Якщо ви пілот літака, який рухається від Києва до Стамбула зі швидкістю 1200 км/годину, при цьому в літаку перебувають 13 дівчат і 18 хлопців, середня вага пасажирів 68,52156 кг на людину. Також є вантаж у кількості 62 валізи, 12 ящиків води, 2 коробки сухого пайка, 5 котів у клітках і 6 собак в окремих вольєрах. Як звати пілота літака?

Цей матеріал підготували завдяки допомозі фахівців і підтримці спільноти Data Engineering UA. Дякуємо за надані запитання:

Окремо — подяка рецензентам:

👍ПодобаєтьсяСподобалось17
До обраногоВ обраному21
LinkedIn



6 коментарів

Підписатись на коментаріВідписатись від коментарів Коментарі можуть залишати тільки користувачі з підтвердженими акаунтами.

Щось мені не дуже подобається логічне запитання про літак — як звати пілота літака? Авжеж це полковник ФСБ Іванов Іван Іванович. Чому так? Тому що не літають літаки з Києва до Стамбулу з такими пасажирами — це ІПСО.

Якщо придивитися уважно — дуже багато питань між різними рівнями схожі одне на одного, а деякі взагалі однакові.
Висновок — якщо десь пройшли на джуніка, в іншому місці уже сіньор- помідор 🤫

Дуже складно оцінити питання по SQL в вакуумі, без зазначення конкретної БД, особливо на вищих рівнях. Десь є QUALIFY десь немає і так далі і тому подібне. Десь пишуть процедурки, а десь вже dbt модельки працюють.
Ніяких питань про побудову звітів з пропущеними датами, про parent-child звʼязки в одній таблиці і як з ними працювати.
Взагалі по інструментах роботи з БД немає питань- типу Flyway, dbt, SSIS.
Жодного питання про типи даних в БД і як вони впливають на загальний розмір таблиці/ БД. Умовно INT vs Float, Varchar(10) va Varchar(2000)

Жодного питання про дедуплікацію і SCD — невже ніхто не працює з ними? Так само про моніторинг витрат і бюджети , з помідора вже можуть спитати чого його новий кластер на 100500 у.о. В день спалює грошей.
По моделюванню — ніхто за Data Vault не чув? Кімбал вс Інмон — ну хоч імена почути бажано. EAV як анти паттерн моделювання

Баланс питань по generic Python/ PySpark / dedicated framework ( Pandas / Airflow) також виглядає дивно. Ще ж є специфіка роботи з Датабрікс/ Юпітер ноутбуками.

З Амазоном не працював, але по Ажуру там цілий питань був би конкретно по ресурсах на проекті. Підозрюю з Гуглом так само.

ПС
Одруківка в ІааС здається

Дякуємо за доповнення! IaC в цьому контексті означає Infrastructure as Code, тут немає помилки.

Думав по аналогії з IaaS, SaaS та PaaS що вони всюди з 2 а

Дуже круто. Дякую.

Підписатись на коментарі