LVIV.COM

Sci-bro feat. EPAM: як пояснити твоїй бабці, що таке Big Data?

Ділись, Бро

Sci-bro feat. EPAM: як пояснити твоїй бабці, що таке Big Data?
Sci-bro

Якщо досі не знаєш, як поговорити з бабцею про Big Data, та ще й так, щоб плавно зачепити тему ГМО ось тобі історія про те, як львівські розробники допомагають рятувати світ від голоду. І про генетику поговорите, і технології не оминете.


Партнерська публікація з EPAM

Знайомся, це Володимир Федорчук, Project Manager в EPAM. З компанією співпрацює вже сім років, взагалі в ІТ 16, не враховуючи аспірантури. Починав як системний інженер, розробник, а з 2012 став Delivery Manager’ом у Big Data. Останні кілька років Володимир працює на генетичних проєктах.

Sci-bro feat. EPAM: як пояснити твоїй бабці, що таке Big Data?

Big Data набір технологій, які дозволяють обробляти великі (просто величезні!) об‘єми даних. Їх застосовують для різноманітних завдань: аналізу суспільної думки, проєктування міст, виявлення надзвичайних ситуацій, запобігання розвитку хвороби і (окрім ще купи всього) навіть порятунку людства від голоду!

Нагодувати усіх

Людям треба їсти, проте їжі вистачає не всім. Цю проблему вирішують різними шляхами. У 1940-1970 рр.. у країнах, що розвиваються, запроваджували сучасну агротехніку, створювали високоврожайні сорти сільськогосподарських культур, розширювали застосування добрив, пестицидів та сучасної техніки. Весь цей комплекс змін у сільському господарстві називався зеленою революцією й зачепив такі країни як Індія, Мексика, Філіппіни, Пакистан, Перу, Колумбія та Нігерія. 

Що було далі? Селекція, наукові основи якої заклав ще Чарльз Дарвін. Завдяки їй людство навчилося вирощувати велику кількість сортів сільськогосподарських рослин та порід свійських тварин з потрібними якостями. 

Здавалося б, проблемі поступово настає кінець, but no. Навіть сьогодні, за даними Всесвітньої організації охорони здоров’я, близько 820 мільйонам людей у всьому світі не вистачає їжі. 

БЕЗ ГМО (не обійтись)

І поки твоя бабця, вибираючи продукти в супермаркеті, уважно вивчає етикетки й шукає ті, котрі “без ГМО”, вчені покладають на генетичну модифікацію великі надії.

лллллл

Ця технологія дозволяє впроваджувати в структуру рослини гени, здатні протистояти несприятливому клімату, підвищити врожайність, збільшити терміни зберігання.

Однією з переваг ГМО є також зниження потреби в пестицидах. Не обов’язково поливати картоплю рідиною, яка вбиває комах, якщо є можливість виростити таку, яку комахи не їстимуть. При цьому, можна підібрати комбінацію, яка буде шкідливою для комахи, але не для людини.

“У країнах, що розвиваються, є величезна проблема дефіцит вітаміну А. Мільйони дітей помирають, не досягнувши 5-річного віку, а навіть ті, котрі виживають, часто сліпі. Для розв'язання цієї проблеми вчені розробили золотий рис”. 

Золотий рис генетично модифікований сорт рису, в зернах якого міститься багато бета-каротину. У приготовленому вигляді містить вітамін А.

Над схожими проєктами працюють і в EPAM, та щоб зрозуміти, з якими даними розробники мають справу, зануримось трохи у генетику. 

Я програма, і ти програма

У кожній клітині живого організму є хромосоми, які зберігають дезоксирибонуклеїнову кислоту, тобто ДНК. У ній міститься генетичний код, який каже нам, як розвиватися й функціонувати, а також передається нащадкам. ДНК має вигляд подвійної спіралі, що складається з нуклеотидів. А ген це послідовність нуклеотидів, що кодують певну ознаку (наприклад, колір очей). Нуклеотиди складаються з азотистих основ, їх є чотири: аденін, гуанін, цитозин і тимін (А, Т, Г, Ц). Це і є код, яким написане усе живе в природі. 

Sci-bro feat. EPAM: як пояснити твоїй бабці, що таке Big Data?

“ДНК програмне забезпечення живих істот. Програми на комп’ютері складаються із двійкового коду: нулів і одиничок. Тут маємо чотири літери: А, Т, Г, Ц”.

Програмний код записується у вигляді архівів, генетичний компресується у хромосомах, що фактично є жорсткими дисками інформації. В природі існує й таке явище, як горизонтальне перенесення генів, притаманне бактеріям, що можна вважати аналогом open source. До того ж, і тут, і там не без вірусів. Коли вірус потрапляє до клітини, він вводить їй свій код, й клітина починає робити те, що йому заманеться (а не те, що вона досі спокійно собі виконувала). 

ДНК можна повністю оцифрувати, ще й з доволі високою точністю (99,9%). Та треба знати, куди впихати такі величезні обсяги даних. Адже для роботи з десятками хромосом, тисячами генів та мільярдами нуклеотидів звичайними інструментами не обійдешся. 

ДНК на моїй флешці

Проєкти EPAM’у стосуються секвенування геному рослин та обробки цієї інформації з допомогою Big Data. 

Sci-bro feat. EPAM: як пояснити твоїй бабці, що таке Big Data?

Секвенування ДНК встановлення послідовності нуклеотидних основ ДНК (А, Т, Г, Ц). Нуклеотиди маркують різними кольорами й копіюють ці фрагменти через секвенсор. З допомогою спеціального софта вчені можуть їх проаналізувати. 

“Ми отримуємо дані від секвенс-машин і завантажуємо їх в базу. Існує багато різних форматів, їх можна сконвертувати. Далі ці дані треба очистити, адже не всі з них нам підходять для роботи. Основні наші завдання — завантажити дані й віддати їх у такому вигляді, щоб науковці могли з ними працювати.”

Більш мінорні завдання стосуються паралелізації даних, тобто розробки таких алгоритмів, щоб одне завантаження не заважало іншому. Дані треба провалідувати наскільки вони коректні. Далі вже з ними працює користувач: вилучає з них ті ділянки, які йому потрібні та ідентифікує гени. 

Інформація зберігається в хабах чи дата лейках (data lakes), і це найбільш вдале рішення для даних такого типу.

“Врожай збирають двічі на рік. Щоб все це обробити потрібні великі потужності. Чим добрі клауди: ми запустили дві сотні комп’ютерів, вони ці дані обробили й поклали їх на хмарні середовища. Це значно дешевше рішення для епізодичних обчислень, адже не потребує постійно використовуваних серверів”. 

Щодня data lake завантажує дані з різних систем. Завантаження триває 3-4 години, ще 5 годин дані обробляються. Оскільки інформації дуже багато, клієнт може використовувати машинне навчання для роботи з ними. Так можна передбачати, які рослини краще схрещувати між собою, аби вони добре проростали в наперед заданих умовах — таких як температура, вологість, земля. 

Це не покладе край проблемам з голодом моментально, та виглядає правильним й найбільш оптимальним рішенням. Без використання технологій Big Data робота з даними такого типу відбувалася б дуже повільно й вимагала би багато часу та ресурсів. 

А даних, до того ж, стає все більше й більше... 

Того наступного разу, як твоя ба прийде з супермаркету, розкажи їй, які величезні масиви даних обробили та як виводили нові сорти, перш ніж ці рум’яні соковиті яблучка з’явились на полиці. 

Зараз читають