Третья фаза big data революции

Третья фаза big data революции
Mr. Pixel
Mr. Pixel
7 мая
0
266

Представьте, что мы вернулись в эпоху до рождества интернета, когда Земля полнилась компьютерными энтузиастами и исследователями сникернета – сети, в которой данные переносятся с машины на машину вручную. С появлением больших данных прошлое снова становится настоящим.

bigstock-Big-data-concept-in-word-tag-c-49922318

Талли Сомек, генеральный директор AppSoma, стартапа, разрабатывающего data science платформу для нужд вычислительной биологии, недавно озвучил проблему, которая волнует многих. Некоторые из наборов данных настолько велики, что их просто физически невозможно переместить в облако. И действительно, некоторые из крупнейших технологических компаний постоянно перемещают целые системы хранения данных из одного места в другое только для того, чтобы осуществить передачу этих данных.

big-data-graphic-iceberg-690

Спрос на емкостные и эффективные системы ведет нас к третьей фазе революции больших данных. Первый этап был ознаменован появлением программных технологий, таких как NoSQL и Hadoop, которые обеспечили обработку больших объемов данных. И этот этап, конечно же, ни в коем случае нельзя назвать законченным.

dark-data-graphic

Вторая фаза началась с быстрого увеличения количества надежных и экономичных датчиков и других устройств для сбора так называемых real-world data – данных из реального мира. К этой же категории относятся и так называемые «темные данные», без которых невозможно существование самого понятия «большие данные».

«Темные данные» («dark data»), согласно определению исследовательской и консалтинговой компании Gartner, представляют собой информационные активы компании, которые собираются, обрабатываются и хранятся в течение всей бизнес-активности, но, как правило, не используются. Подобно темной материи в физике, «темные данные» часто составляют вселенную большинства информационных активов, которые накапливаются в лог-файлах и архивах. Несмотря на то, что эти данные практически никогда не используются, ни одна компания не избавляется от них, опираясь на гипотетическую вероятность того, что эти сведения когда-то могут пригодиться.

Во время третьей фазы все будет сосредоточено на инфраструктуре. Проще говоря, нам нужны новые аппаратные средства, программное обеспечение, нетворкинг и информационные центры, предназначенные для управления ошеломляющими объемами данных, которые были сгенерированы и проанализировали во время первых двух этапов. Именно гипермасштабные центры обработки данных, программное сетевое взаимодействие и новые технологии хранения информации будут теми первыми шагами, с которых начнется грандиозный инновационный цикл.

0617_big_data_Cog

Исторически так сложилось, что новым идеям всегда нужна новая инфраструктура. Возьмем в качестве примера хотя бы автомобили. Они коренным образом изменили жизнь современного человека. Но при этом нам пришлось построить заправочные станции и сотни тысяч километров автострад и тротуаров.

Большие данные сулят большие преимущества. Человечество просто не сможет не совершить прорыв в сфере сбора и хранения данных. Подумайте о камерах видеонаблюдения, которые используют, скажем, службы безопасности аэропортов. Руководители подразделений безопасности начинают обсуждать возможность модернизации своих систем наблюдения до разрешающей способности UltraHD или 4K. С таким разрешением сегодняшние зернистые изображения будут заменены точными и подробными видеозаписями, которые значительно уменьшат риски, связанные с безопасностью.

Digital_video_resolutions_(VCD_to_4K)

Но для 4K нужен невероятно крепкий «позвоночник». Одна минута 4K-видео занимает около 5,3 гигабайт. К примеру, 7 тысяч камер видеонаблюдения в Лондоне будут ежедневно записывать порядка 52 петабайт видео (1 петабайт = 1 млн гигабайт). Для сравнения, Google каждый день обрабатывает около 24 петабайт данных.

url11

Команды физиков, работающие на Большом адронном коллайдере в женевской лаборатории CERN, разработали распределительную систему, чтобы обеспечить научно-исследовательским центрам по всему миру доступ к набору данных объемом примерно 170 петабайт. Эти вычислительные системы имеют возможность передавать данные с диска на диск через глобальную сеть на скорости 100G и позволяет физикам осуществлять анализ информации со скоростью 73 Гб в секунду. Это позволяет ученым обнаруживать новые частицы и объяснять состав Вселенной.

urlfsaerdgsdgf

Науки о жизни могут быть самым большим вызовом с точки зрения больших данных. Для хранения данных, содержащихся всего лишь об одном-единственном геноме человека, требуется около 200 гигабайт. Таким образом, речь идет о 200 петабайтах для хранения информации о миллионе геномов. Но все познается в сравнении. В 2014 году Facebook загружал всего 600 терабайт данных в день. Иными словами, для загрузки сведений о миллионе человеческих геномов компании Facebook, являющейся владельцем одной из самых мощных в мире инфраструктур для сбора и хранения данных, понадобится ровно год. И это только сырые данные, которые нуждаются в более глубоком последующем анализе.

Традиционные решения для хранения данных могут обеспечить надежную производительность, но часто их эксплуатация связана с более высокой стоимостью инфраструктуры и конструкционной сложностью. Чтобы облегчить задачу, некоторые компании обращаются к виртуализации, которая значительно улучшила рентабельность и упростила использование серверной инфраструктуры. Но даже в самых высокоэффективных облачных системах от 20 до 50 процентов вычислительных циклов по-прежнему пропадают зря, потому что процессор не может получить доступ к данным достаточно быстро. Это называется латентность системы. И большинству современных центров обработки данных эта латентность может стоить миллионы или даже миллиарды долларов в год, которые теряются в результате замедления операций.

bigdata2

Традиционные технологии и архитектуры центров обработки данных просто не созданы для тех масштабов и скорости, которые необходимы для решения новых проблем, связанных с большими данными.

Попытки решить проблему технологий жестких дисков могут привести не только к финансовой, но и к экологической катастрофе. Совет по охране природных ресурсов подсчитал, что центры обработки данных в США потребляют около 100 млрд киловатт-часов в год. А это в два раза больше, чем все домохозяйства громадины Нью-Йорка. Решением вопроса могут быть твердотельные накопители, которые на 90% уменьшают объем пространства, занимаемого программным обеспечением, и в 20 раз увеличивают скорость ввода/вывода информации.

Большие данные – действительно одно из магических понятий нашей эры. Big data позволяют нам лучше понять окружающий нас мир и увеличивают наши шансы на создание лучшего общества. Но, кроме всего прочего, большие данные требуют от нас огромных усилий. Ведь нам нужно создать решения, которые помогут сделать хранилища информации компактными, экономически эффективными, надежными и экологичными.

При подготовке статьи были использованы материалы re/code, 4kshooters.net, Medium.com, Forbes, Gartner, AppSoma

Комментарии к статье (0)