Создание умных сервисов для Московского инновационного кластера с использованием ИИ

Решение: Поисково-аналитическая платформа для развития умных рекомендательных сервисов цифровой платформы Московского инновационного кластера (i.moscow) на основе семантического анализа языковых и статистических данных, с применением искусственного интеллекта и машинного обучения.

Московский инновационный кластер (МИК) — это площадка для предпринимателей с инновационными идеями или уже состоявшимися проектами, с помощью которой они могут найти нужные сервисы, ресурсы и сделать свой бизнес более успешным. Работу цифровой платформы обеспечивает Фонд «Московский инновационный кластер» (Фонд МИК), учрежденный Правительством Москвы.

О МИК

Сегодня МИК обеспечивает работу собственной «умной» платформы, разработанной для взаимодействия организаций, компаний и людей, ищущих возможность создать новый продукт или услугу, или партнёров для запуска высокотехнологичных проектов. Платформа призвана объединить существующие технопарки, ВУЗы, научные институты, стартапы и бизнес-инкубаторы Москвы и России в целом, предоставив им доступ к услугам и мерам поддержки.

Кроме того, платформа помогает выстраивать взаимодействие между участниками. На базе МИК можно найти инвестора или партнера для проекта, площадку для запуска пилота, подобрать помещение для съема в аренду и оставить заявку на господдержку. Также платформа обладает собственным новостным порталом, освещающим актуальные технологические тренды и новости.

Малому и среднему бизнесу информационно-сервисная платформа МИК помогает привлекать заказы и партнеров, внедрять в бизнес-процессы новые разработки.

Госкорпорации совместно с кластером могут гибко загружать мощности дочерних компаний, привлекать малый бизнес, и, таким образом, диверсифицировать свои портфели.

Научным институтам МИК дает возможность переводить разработки в коммерческий сектор и получать финансирование, в то время как образовательные организации на базе кластера могут быстро запускать новые курсы и кафедры, развивать программы стажировок с инновационными компаниями.

Задачи МИК

Для предоставления всего спектра различных «умных» услуг по подбору партнеров, подрядчиков, программ и т.д., МИК было необходимо создать на портале мощный поисковый движок на принципах семантического анализа данных и машинного обучения. Среди таких услуг:

  • рекомендации потенциальных партнеров
  • рекомендации поставщиков/заказчиков
  • рекомендации помещений
  • рекомендации инвесторов
  • рекомендации закупок
  • рекомендации по мерам государственной поддержки
  • сервис поиска компаний по набору компетенций
  • сервис оценки статуса предприятия на рынке
  • сервис выявления лидеров рынка по отраслям развития
  • сервис построения прогнозов развития предприятий
  • сервис визуализации связей предприятий на рынке

Отсутствие ключевого поискового и аналитического функционала ограничивало другие сервисы, и поэтому данная задача должна была быть решена в короткие сроки и максимально эффективно.

Для компаний-участников Московского инновационного кластера все сервисы станут доступными до конца 2021 года.

Решение

Для решения задач МИК специалисты группы компаний «Программного Продукта» приступили к созданию поисково-аналитической платформы с семантическим ядром и гибкими возможностями обучения на основе ИИ. Поисковая платформа предназначена для анализа больших объемов языковых данных и определения их взаимосвязей, управления качеством первичных данных и их очисткой, управления потоками данных, а также для использования алгоритмов построения трендов развития предприятий, разработанных с применением механизмов машинного обучения.

Цифровая платформа МИК работает как с использованием собственных разработанных интерфейсов, так и с использованием REST API, которое можно интегрировать в любую систему и использовать все функциональные возможности платформы.

Платформа позволяет производить распознавание естественного языка. На базе этой возможности также работает динамическое обучение, построение гипотез и сопоставлений, платформа умеет разделять определенные высказывания на естественном языке и находить связи между этими высказываниями.

Разработанная платформа также является подсистемой «трансформации данных», которая, в свою очередь, входит в состав ИС РПП (Информационная система развития предпринимательства и промышленности).

Платформа имеет сложную архитектуру и подразделяется на два модуля.

В рамках модуля анализа данных специалисты реализовали функции накопления, очистки и хранения текстовых данных о компаниях, зарегистрированных на цифровой платформе Московского инновационного кластера.

В рамках модуля «Цепочки развития» платформа, используя накопленные данные, применяет методы машинного обучения для построения рекомендаций и трендов развития компаний. Этот сервис работает как по запросу пользователей портала I.moscow, так и в режиме автоматических рекомендаций, построенных на информации о компании (или проекте), указанной в личном профиле компании-участника на портале.

Таким образом, на основе семантического профиля компании можно увидеть, чем она занимается, и, к примеру, автоматически рекомендовать смежные сегменты для партнерства. Например, если компания занимается деревообработкой, то портал сможет предлагать ей поставщиков или покупателей пиломатериалов.

Или, если компания из образовательного сегмента, платформа сможет предложить опции господдержки для ВУЗов или создателей курсов.

Все рекомендательные сервисы сегментированы в рамках следующих категорий:

  • Продукция;
  • Услуги;
  • Патенты;
  • Партнеры;
  • Инвесторы;
  • Меры поддержки;
  • Имущественный комплекс.

В рамках сегментов «Продукты и услуги», участникам МИК рекомендуются партнеры, которые могут помогать выпускать или улучшать продукцию. Партнеры также подбираются на основе анализов патентов компании.

К примеру: у компании есть патент на производство подшипников, но сама она занимается лизингом. Запросив услугу по подбору партнера, участник МИК получит от платформы предложение посотрудничать с компанией, нуждающейся в подшипниках — так, участник, занимающийся лизингом, сможет возобновить свою деятельность по производству подшипников, или же продать этой компании патент, который больше ей не нужен.

Большим плюсом разработанной поисково-аналитической системы является то, что она работает не как сервис, а как on-premise (локальное) решение, размещаемое на мощностях самой цифровой платформы МИК, что гарантирует скорость и стабильность работы.

Особенности решения

В рамках разработки решения, специалистами применялись передовые технологии искусственного интеллекта (ИИ) в области лингвистики:

    • Векторные модели

      Векторные модели используются для преобразования отдельных слов, терминов или текстов в элементы семантически-значимого векторного пространства. Эти операции позволяют производить над векторами слов и текстов математические операции сравнения, выбора ближайших похожих векторов, кластеризации и т.д.

      Так как векторные пространства имеют семантическую природу, то все математические операции над этим векторным пространством тоже осмыслены с точки зрения семантики.

      Для этого использовались как массивные модели, обученные на больших корпусах текстах русского языка (Национальный корпус русского языка и русскоязычная Википедия), так и модели, обученные на наборах текстовых данных с информацией по компаниям, представленным в кластере.

    • Частотные преобразования / частотные словари

      Выбор значимых терминов и словосочетаний на основе частотного анализа по упоминаемости конкретного термина (или сочетания терминов) в одном документе (например, информации о компании) по отношению к корпусу информации о всех компаниях.

      Такой метод используется в модуле оценки статуса предприятия, при подготовке данных о компании-участника МИК, а также при выделении важных терминов и компетенций в текстах портала.

    • Статистические алгоритмы для выделения важных терминов из описаний

      Это алгоритмы, выделяющие важные термины из текстов на основе статистического анализа. Такие алгоритмы используются при предобработке новой информации о компании, при выделении данных о ключевых компетенциях компании из текстов.

    • Массивные нейросетевые русскоязычные языковые модели

      Массивные нейросетевые модели с глубокими архитектурами, реализующими механизмы повторяемости и внимания — в проекте использовались как один из механизмов предобработки текстов для выделения компетенций компании.

    • Нейросетевые модели для классификации текстов и компаний

      Нейросетевые модели используются для рубрикации текстовых данных на портале в различных классификаторах. Такие модели берут на входе информацию о компаниях в текстовом виде, и выдают распределение вероятностей по классам — укрупненным предметным группам.

      Они используются для доразметки набора данных, для разметки новых компаний в системе цифровой платформы МИК. А распределение вероятностей дает возможности для комплексной оценки компаний в модуле «Оценка статуса предприятия».

Архитектура системы:

Вызовы

Проект был очень сложным как с точки зрения архитектуры и разработки, так и с точки зрения управления проектом. Команда специалистов «Программного Продукта» реализовала контракт за рекордные 90 дней.

Каждый из сервисов, над которым работали в рамках задач МИК можно назвать «нестандартной задачей»: много структурированных и неструктурированных данных, которые нужно было вначале классифицировать, структурировать и обучить с их помощью нейросетевые модели.

Основной сложностью проекта были очень сжатые сроки реализации. На втором месте — документальное сопровождение проекта. На третьем — управление большой распределенной командой.

Этапы реализации проекта были поделены между небольшими независимыми командами:

      • Основная команда разработки нейронных сетей: занимались проверкой ml-гипотез, проведением препроцессинга данных и разработкой основных алгоритмов.
      • Дополнительная команда разработки нейронных сетей и графа связей: внешняя команда, которая помогала в выполнении поставленных целей, а именно решении ml-задач и разработки графа связей компаний.
      • Проектный офис: команда занималась документальным сопровождением и непосредственно управлением проекта.
      • Консультационная команда: курировала работу в рамках архитектуры решения, а также помогала в разработке интерфейсов рекомендательных сервисов.
      • Команда дизайнеров: в сжатые сроки подготовила дизайн-макеты сервисов.

Результат

В результате создания поисково-аналитической платформы, участники Московского инновационного кластера теперь могут быстро и удобно подбирать поставщиков и покупателей своей продукции или услуг, находить помещения для производства/офиса, подбирать арендодателей, потенциальных партнеров или подходящих технологий. Научные организации могут искать патенты и инвесторов, а крупные компании — диверсифицировать свои портфели перспективными стартапами.

Платформа предлагает участникам МИК различные рекомендации, основанные на истории запросов и рекомендации по мерам финансовой поддержки. В систему также заложена возможность формировать предварительную персональную выборку интересных опций, основанную на размещенных в профиле компании данных, в разных категориях (продукты/услуги/ партнеры/инвесторы/ и т.д.).

Сегодня на платформе Московского инновационного кластера «Программный продукт» сформировал дата-сеты от 1,5 млн компаний, причем не только по Москве, но и по всей России. В рамках каждой из этих компаний-участников поисково-аналитическая система формирует семантическое ядро (из открытых и закрытых источников информации), что позволяет рубрицировать огромный объем информации, обеспечивать работу рекомендательных сервисов кластера и совершать кросс-референсный поиск по всему порталу.

В планах заказчика — дальнейшее развитие проекта, в первую очередь создание масштабного дерева знаний по имеющемуся дата-сету, которое, среди прочего, будет вести историю взаимодействий компаний и каталогизировать их продукты.