Исследование и разработка семантических методов построения «Индекса контекстного научного цитирования»

16-07-00756
Исследование и разработка семантических методов построения «Индекса контекстного научного цитирования»
Руководитель проекта - Шарнин М.М. 


Проект направлен на решение фундаментальной научной проблемы семантического моделирования, в рамках которой разрабатывается методика оценки качества научных статей на основе вероятностной модели влияния (impact) научной статьи на ссылки и идеи в последующих статьях, а также на основе модели представления идеи в виде множества похожих по смыслу фраз. 
В настоящее время необходимость дополнения стандартных наукометрических и библиометрических показателей вычислительным семантическим анализом оцениваемых публикаций является практически общепризнанной. Учитывая остроту проблемы оценивания научной продукции актуальность предложенного исследования не вызывает сомнения.
Многие существующие методы оценки влияния и качества научных статей основаны на использовании Индекса Научного Цитирования (ИНЦ), который рассчитывается по количеству прямых библиографических ссылок на статью и поэтому не работает для новых статей с нулевым цитированием. 
Предлагаемая методика использует новый показатель качества научной статьи - Индекс Контекстного Научного Цитирования (ИКНЦ), который рассчитывается автоматически по неявным контекстным ссылкам на статью и связан со статистической вероятностью ожидаемого появления прямых библиографических ссылок. ИКНЦ обладает прогнозными свойствами и высокой чувствительностью, позволяющей делить новые статьи на группы и ранжировать их по качеству.
Неявные ссылки в статье – это упоминания чужих идей и их авторов. Неявные ссылки выявляются с помощью лингвистических методов и метода релевантных фраз, который находит похожие по смыслу фразы в других статьях и в документах из Интернета. 
Похожесть смысла определяется с помощью грамматических трансформаций, программ перевода и замен синонимов, а также с помощью ассоциативных связей и методики построения ассоциативного портрета предметной области, разработанной авторским коллективом.
Вероятностная модель зависимости количества прямых цитирований от количества неявных ссылок и их параметров строится на основе лингвистического процессора, выявляющего неявные сссылки, который настраивается с помощью метода машинного обучения так, чтобы корреляция между индексами ИНЦ и ИКНЦ была максимальной.
Исследование основано на гипотезе о том, что статьи с новыми идеями, на которые много неявных ссылок, имеют повышенную вероятность прямого цитирования, а также что учет неявных ссылок из открытых документов в Иинтернете повышает корреляцию индексов ИКНЦ и ИНЦ.
Решение проблемы строится на основе комплексного подхода, сочетающего методы статистики, корпусной лингвистики и дистрибутивной семантики, и реализуется в технологии, которая предполагает разработку лингво-статистических механизмов формирования ИКНЦ.
Подобная методика позволяет решать широкий класс задач, как в области когнитивной семантики, так и информационно-поисковых, например, поиск идей, оценка качества научных статей, составление рейтинга сайтов. Дополнительно проект затрагивает следующие задачи: мониторинг новых идей и оценка их перспективности по частоте упоминания в различные периоды времени; анализ преемственности научных идей; создание архитектуры идей в предметной области; развитие интеллектуальных Интернет-технологий; автоматизированное формирование интерактивных предметно-ориентированных энциклопедий.


Ċ
Michael Charnine,
25 янв. 2018 г., 10:14
Ċ
Michael Charnine,
25 янв. 2018 г., 10:26
Ċ
Michael Charnine,
25 янв. 2018 г., 10:32
Ċ
Michael Charnine,
25 янв. 2018 г., 10:39
Ċ
Michael Charnine,
25 янв. 2018 г., 10:40
Ċ
Michael Charnine,
25 янв. 2018 г., 10:45
Ċ
Michael Charnine,
25 янв. 2018 г., 10:10
Comments