Большие данные из ИС подземки
"Московский метрополитен" готов потратить 400 млн руб. на программно-аппаратный комплекс (ПАК) для обработки неструктурированных данных, которые собирают различные автоматизированные информсистемы столичной подземки. Именно такая сумма заявлена стартовой ценой контракта в объявленном "Метрополитеном" тендере на поставку ПАКа и предоставление прав на используемое в нем ПО.
Заявки от претендентов на контракт будут приниматься до 22 января 2018 г. Аукционные торги намечены на 1 февраля 2018 г. Победителю предстоит выполнить все работы в течение 60 дней с даты подписания договора.
За счет работы с большими данными "Метрополитен" рассчитывает оптимизировать распределение потоков пассажиров, оперативно их информировать об изменениях в работе станций и линий, увеличить доходность поездок, повысить лояльность пользователей. Также благодаря анализу метаданных в подземке намерены получить сводную статистическую отчетность потребительских запросов и оптимизировать маршрутные карты пассажиров.
На момент выхода материала в пресс-службе метро не смогли подтвердить CNews, что в последнем случае подразумеваются карточки по оплате проезда, и не ответили, какого рода изменения их могут коснуться. Также остался без ответа вопрос, планируется ли в ближайшее время ввести некую зональную оплату поездок, которая принята во многих странах мира, или, и вовсе, оплату по факту — от точки до точки?
Состав и свойства ПАКа
Как следует из документов, размещенных на сайте госзакупок, в состав поставляемого ПАКа войдет единая система хранения данных, а также ряд подсистем: резервного копирования, архивирования данных, аналитики, статистической отчетности и передачи данных (включая сеть хранения данных).
Серверная платформа ПАКа должна иметь модульную архитектуру, состоящую из шасси, вычислительных модулей, модулей хранения и коммутации. Для виртуализированных приложений шасси серверной платформы должно вмещать не менее 12 вычислительных модулей. Из них 10 модулей должны иметь не менее 24 процессорных ядер с частотой работы 2,6 ГГц, 48 ГБ оперативной памяти, два накопителя SSD объемом 240 ГБ, два конвергентных сетевых интерфейса со скоростью подключения 20 Гбит/с.
Оставшиеся два вычислительных модуля должны иметь не менее процессорных ядер с частотой 2,5 ГГц, 384 ГБ оперативной памяти, два накопителя SSD объемом 240 ГБ, два конвергентных сетевых интерфейса со скоростью подключения 20 Гбит/с.
В техзадании пропиано, что ПАК должен поддерживать любые типы источников и приемников данных. В частности в перечне баз данных указаны Oracle (включая Exadata), MS SQLServer, IBM DB2, SAP Sybase, Teradata, GrenPlum, IBM Netezza, Amazon Redshift, HP Vertica, IBM Informix, SAPHANA, MySQL, MS Access, MS Excel, SAP SybaseIQ, MongoDB, Cassandra. Завершается этот список пометкой "другие виды баз данных".
Кроме того, ПАК должен быть способен поддерживать так называемые плоские файлы, бинарные, сложноструктурированные и неструктурированные файлы, XML-файлы, очереди сообщений и шины данных, веб-сервисы. Также он должен опционально поддерживать почтовые сервисы, системы Hadoop и LDAP, бизнес-приложения SAP, Oracle PeopleSoft, Oracle Hyperion, Oracle Siebel и др., облачные приложения "и другие информационные и аналитические системы, построенные на базе крупных промышленных решений".