Библиотеки для выявления интернационализированных интернет-идентификаторов и их преобразования в гиперссылки
Проект Поддерживаю.РФ и Координационный центр доменов .RU/.РФ как партнер Московского авиационного института (МАИ) предоставили практический кейс «Обработка текстовых данных на основе ИИ для выявления интернационализированных интернет-идентификаторов и их преобразования в гиперссылки». Кейс был использован в качестве выпускного задания для обучающихся «цифровой кафедры» МАИ по программам переподготовки «Прикладные задачи и фреймворки машинного обучения и анализа больших данных» и «Интеллектуальные технические системы». Программами предусмотрены практическая подготовка обучающихся и решение ими актуальных задач в области информационных технологий.
На программах переподготовки «цифровой кафедры» МАИ обучаются студенты инженерных и информационных направлений, участвовать в программах можно начиная со второго курса по основным образовательным программам бакалавриата, магистратуры и специалитета. Основной целью данных программ является развитие цифровых компетенций и углубленная подготовка студентов МАИ в области современных информационных технологий.
Для решения кейса студенты должны были разработать прикладные решения с использованием технологий искусственного интеллекта и учесть в них особенности работы с кириллическими доменными именами и адресами электронной почты. В результате командной работы студентов МАИ были успешно разработаны библиотеки для выявления интернационализированных интернет-идентификаторов и их преобразования в гиперссылки. В процессе работы под руководством экспертов Поддерживаю.РФ студенты разработали программные продукты, позволяющие, с использованием алгоритмов машинного обучения, определить в массиве текстовой информации доменные имена, URL, адреса электронной почты, никнеймы социальных сетей, телефоны, идентификаторы пользователей в мессенджерах и т.д. даже при наличии в них ошибок или опечаток, а потом преобразовывать их в гиперссылки. Всего в решении кейса участвовал 41 студент МАИ, все ребята успешно защитились.
«Это был очень интересный опыт и для нас, и для самих студентов. В итоге мы получили программные продукты, которые после небольших доработок могут быть использованы для решения актуальных практических проблем универсального принятия интернационализированных интернет-идентификаторов во всех информационных экосистемах. Во многом свою роль сыграл свежий взгляд на проблему, который есть у молодых людей, специализирующихся в области информационных технологий. Мы планируем и в дальнейшем участвовать в подобных программах и привлекать к решению практических задач студентов и молодых специалистов», – рассказала куратор проекта со стороны КЦ и руководитель проекта Поддерживаю.РФ Мария Колесникова.
Разработанные библиотеки для выявления интернационализированных интернет-идентификаторов и их преобразования в гиперссылки доступны по ссылкам:
https://github.com/DanFakey/HyperLink_identifier
https://github.com/Trezor52/Highlight-Hyperlinks.git
https://github.com/akihiko47/MAI-CK-Kiberzhabki
Команды студентов МАИ, работающие над кейсом, планируют продолжить доработку своих прикладных решений и заниматься их развитием.