Check Levi9 best QA positions to Backbase team!
×Закрыть
Lead Software Test Automation Engineer в EPAM
  • Тестирование Big Data: вызов принят

    На псевдо-коді якось так:

     
    Scenario: Check Beta feed 
    	Given I check Beta passName field is correct 
    	And I check Beta views field is correct 
    ...
    	When Beta channelDate field is with current date
    	Then Beta reportDate field contains correct time range
    
    Поддержал: AlexTa
  • Тестирование Big Data: вызов принят

    Спасибо за комментарий. Если вкратце, то:

    1) Что привнесли BigData технологии в мир тестирования? Какие сложности и вызовы?

    Новые интересные проекты, в которых тестами нужно покрывать обработку данных, сами данные и тд. Один из основных вызовов состоит в том, что это отличается от тестирования API, Mobile и UI. Как использованием других подходов, так и намного более разнообразной архитектурой самих приложений.

    2) В чем отличие тестирования BigData проекта от BI/DWH проекта?

    Тестирование BI/DWH в данном примере — это составная часть тестирования всего проекта.

    3) С помощью какого функционала (тулсета) выполняются разного рода вида тестирования на различных Cloud платформах?

    Для Unit/Integration-тестов можно легко использовать JUnit/TestNG (в случае Java-кода). Для Scala и GCP интересной альтернативой может быть библиотека Scio от того же Spotify.

    Для функциональных тестов в нашем случае оптимальной была связка Kotlin + Spring + Cucumber BDD.

    Для AWS и GCP вполне рабочий вариант. В случае Python и R, используются уже другие библиотеки соответственно.

    4) Есть ли Best Practice от Cloud провайдеров, как лучше организовать тестирование?

    Да, полный ответ будет очень большим. Самый простой пример — GCP предлагает использовать замоканные PubSub, BigQuery и т.д.

    5) Как тестировать данные реально на больших объемах?

    Такой подход работал примерно на 1 Pb. Мне кажется, это уже достаточно большой объем.

    6) Есть ли смысл применять мануальное тестирование? Если да, то каким образом?

    И да и нет. И смысл его применения будет таким же как и на проекте без Big Data. По моему мнению, здесь все зависит уже от конкретного случая. По моему опыту, допустим, визулизацию в Tableau логичнее проверять мануально. Ну и как и везде, бывают части функционала, затраты на автоматизацию которых никогда не покроются ее выгодой в сравнении с мануальным тестированием.

  • Тестирование Big Data: вызов принят

    Спасибо за комментарий. Постараюсь вкратце ответить на вопросы.

    Чтобы определиться, что же такое big data, используем Google и находим следующие объяснения:

    это просто много данных (> 10 Тбайт);
    это настолько большие таблицы, что их невозможно открыть и проанализировать в Excel;
    это неструктурированные данные из разных источников, разного объема, которые показывают, как ведут себя наши кастомеры и т. д.

    — Это то, что можно прочитать в Гугле вбив в поиск «Big Data». На практике, конечно же, все индивидуально. И 9Тб данных тоже можно назвать Big data. Все зависит еще и от Variety и Velocity. Особенно, если учесть, что их очень скоро, скорее всего, станет уже 10 Тб.

    — На 1 Гб Excel открывает часть файла. И этого не хватает для нормальной работы. И, соответственно, в интернете можно встретить такое определение понятия Big data. Так сказать, в сравнении со знакомым большинству Excel. В принципе, почему бы и нет?

    — По данным от кастомеров аналогично. Одно из объяснений самого концепта.

    По поводу перформанса — это отдельная большая тема, которая тянет на отдельную статью. И которая имеет очень много интересных аспектов именно в клауде, когда у нас динамически меняется количество нод и прочее.

    Поддержал: AlexTa
  • Тестирование Big Data: вызов принят

    В статье в общем описал, как конкретно можно проводить тестирование подобных проектов. В комментарии ниже отписал какой подход именно мы использовали.

  • Тестирование Big Data: вызов принят

    Дякую за коментар.

    — На практиці ми реалізували підхід названий

    Микс двух подходов

    і відповідно частина перевірок Data Validation та Accuracy покривалася unit та integration тестами

    Для Unit/Integration-тестов можно легко использовать JUnit/TestNG (в случае Java-кода). Для Scala и GCP интересной альтернативой может быть библиотека Scio от того же Spotify.

    частина функціональними на

    Kotlin + Spring + Cucumber BDD

    — Для порівняння даних в різних місцях пайплайна використовували або Kotlin код і напряму працювали з даними або SQL, коли порівнювали дані з таблиць, вьюшок і т.д.

  • Как подготовиться и сдать сертификацию GCP Professional Data Engineer

    Дякую. З відгуків колег, вони теж стикалися з подібною ситуацією з udemy. В екзамені використовуються цифри з офіційної документації. Як в посиланні, що ви вказали. Бажаю успішної здачі.