Аспирант Омского политеха упростил работу составителям образовательных программ

08.12.2020

Мы живем во время, когда объемы производимой человечеством информации больше, чем когда-либо, и количество этих данных растет с каждым днем. Однако значительную пользу из этой информации можно извлечь лишь при правильной обработке и анализе этих данных. Другими словами, могут ли люди общаться с компьютерами на их естественном языке? Ведь им нужны структурированные данные, а человеческая речь неструктурирована и часто неоднозначна по своей природе. Аспирант Омского политеха Иван Шарун разработал алгоритм обработки естественного языка, который поможет упростить работу составителям образовательных программ. Расскажем подробнее о проекте.

Иван Шарун, аспирант третьего года обучения, молодой и перспективный преподаватель на кафедре «Прикладная математика и фундаментальная информатика» ОмГТУ:

«Компьютеры не понимают речь. Совсем. Гораздо лучше им удается работать с числами, считать их по формулам. Но человеку каждый день нужно работать с языком: говорить, читать, писать. Не всегда человеческие возможности сопоставимы с объемами информации, поэтому на помощь приходят компьютеры. На данный момент мы работаем над созданием моделей и алгоритмов для перевода нашего обычного языка, на котором мы говорим, в понятный для компьютера формат. Это необходимо для того, чтобы он мог не только хранить текст на обычном языке, но и извлекать из него факты, полезную информацию, делать логические выводы. Сейчас это делается с помощью построения больших искусственных нейронных сетей. Мы хотим создать инструментарий для выполнения этих задач, но уже без недостатков присущих искусственным нейронным сетям.

Изначально наше направление исследования родилось из желания упростить работу составителям образовательных программ. Если говорить грубо, то образовательная программа это набор документов, регламентирующих основные характеристики образования: содержание, объем, форма аттестации и т.д. Хотелось с минимальными затратами сил и времени реагировать на меняющиеся образовательные стандарты и потребности рынка труда. А чтобы это сделать, нужно обработать много объектов: образовательные стандарты, профессиональные стандарты, объявления о вакансиях с популярных порталов по поиску работы, профессиональную литературу и статьи.

Основной особенностью этих объектов является то, что они заданы на естественном языке, и их структуру мы редко когда можем знать заранее (если она вообще есть). Мы принялись за создание моделей и алгоритмов, которые бы смогли помочь нам в анализе этих объектов. Первым этапом работы стала разработка модели для представления этих объектов в одном пространстве, в котором мы бы смогли сравнивать эти объекты, т.е. понимать насколько одна сущность далека по смыслу от другой. Следующим этапом стала разработка более сложных и интересующих нас алгоритмов. Что нас интересует в первую очередь: мы хотим посмотреть на какие кластеры разбиваются эти объекты, посмотреть через какие объекты выражаются другими.

В чем они могут нам помочь? В большом количестве современных задач по работе с естественным языком: создание вопросно-ответных систем, систем извлечения знаний, систем автореферирования и т.д. Когда я рассказываю своим знакомым о своей работе, то они обычно шутят: «Теперь можно не писать курсовые?». Да, это очень близко к нашей цели. Мы делаем инструмент для упрощения создания поисковиков, чат-ботов и т.д.: все, что связано с обработкой большого объема текстов.

На сегодняшний момент наша команда студентов и аспирантов ОмГТУ начала разработку высокопроизводительной библиотеки для обработки естественного языка с использованием современных методов машинного обучения, анализа данных, наших моделей и алгоритмов. В ней переплелось многое: глубокое обучение, высокопроизводительные вычисления, обработка больших данных, топология, алгебра и методы оптимизации. Она необходима для реализации проектов, связанных с обработкой языка, у нас накопилось много алгоритмов, моделей, и мы решили создать на основе нашего опыта и экспертизы такой инструмент. Есть очень много примеров, когда удачно спроектированный и реализованный инструмент становился популярным за пределами своей академической среды. Надеемся, что и наш окажется полезным, мы видим в нем потенциал.

Дальнейшим развитием этих идей является то, что мы можем применять полученный инструментарий не только к образовательной сфере, но и к любой интересующей, где находится место неструктурированным или слабоструктурированным данным на естественном языке, к примеру, поиск информации, создание чат-ботов и другие».

Пожелаем Ивану плодотворной работы, успехов в начинаниях и реализации намеченных планов!

Возврат к списку