Современная биомедицинская наука характеризуется беспрецедентным ростом объема данных. Врачи и исследователи сталкиваются с необходимостью не только постоянно анализировать новую информацию, но и оперативно публиковать результаты собственных клинических наблюдений и экспериментальных работ. Однако существующая система научной коммуникации испытывает перегрузки. Традиционный процесс рецензирования (peer-review), являясь золотым стандартом контроля качества, часто становится «узким горлышком», задерживающим распространение критически важных медицинских знаний.
Проблема длительности публикационного цикла стоит особенно остро. По данным систематических обзоров, средний срок от подачи статьи до ее принятия (acceptance) в биомедицинских журналах варьируется в широком диапазоне – от 50 до 276 дней, при этом медианные значения составляют от 21 до 248 дней [1]. Период от начала до завершения рецензирования занимает от 10 до 75 дней (медиана 29–87 дней), а коммуникация между рецензентом и автором по внесению правок требует еще от 24 до 73 дней [1, 2].
В контексте глобальных вызовов, таких как пандемия COVID-19, научное сообщество продемонстрировало способность ускорять процессы: время «от подачи до публикации» сократилось на 49% по сравнению с доковидным периодом для статей по соответствующей тематике [3]. Однако для работ по другим специальностям (кардиология, онкология, телемедицина) сроки остаются значительными.
Ключевой гипотезой данного исследования является предположение, что значительная часть задержек вызвана не отсутствием научной ценности работ, а формальными недостатками рукописей, которые могут быть устранены автоматически еще до этапа подачи в журнал.
Целью работы является описание методологии и функционала AI-инструмента (на примере разрабатываемой системы Ptolemaea), предназначенного для автоматизированного аудита научных препринтов.
Анализ причин возврата рукописей авторам или их отклонения (rejection) выявляет доминирование технических и методологических недочетов над концептуальными. Согласно библиометрическим исследованиям, до 93,2% ошибок в рукописях исходят непосредственно от авторов [4]. Спектр этих ошибок варьируется от банальных опечаток до серьезных методологических нарушений.
К наиболее частотным проблемам, препятствующим быстрой публикации, относятся:
Факторы, влияющие на скорость публикации, многогранны. Исследования показывают корреляцию между скоростью принятия статьи и такими параметрами, как конфликт интересов (члены редакции публикуются быстрее), география авторов (авторы из развитых стран имеют преимущество) и формат публикации (Open Access часто быстрее традиционной модели) [6, 7]. Тем не менее, качество подготовки рукописи остается единственным фактором, на который автор может повлиять напрямую и гарантированно.
В основу предлагаемого решения положена научная база Data-Centric AI, наукометрии и компьютерной лингвистики. Проект, получивший название Ptolemaea, реализуется на базе Цифровой кафедры Первого МГМУ им. И.М. Сеченова [8].
В отличие от генеративных моделей (таких как GPT), задача которых – создание нового контента, в данном исследовании применяются NLP-модели (Natural Language Processing) для глубокого аналитического разбора текста. Подход можно охарактеризовать как «экспертная система на базе ИИ».
Процесс автоматизированного анализа препринта включает следующие этапы:
Эффективность разрабатываемой модели оценивается путем сравнения результатов автоматического анализа с рецензиями экспертовлюдей. Тестовая выборка включает препринты, размещенные в открытых репозиториях (arXiv, bioRxiv, medRxiv), что позволяет обучать модель на реальных данных, содержащих типичные ошибки [9].
Внедрение системы автоматизированного анализа препринтов позволяет трансформировать процесс подготовки статьи. Технология помогает авторам заранее, до подачи в редакцию, увидеть и исправить ошибки, экономя время и повышая шансы на успешную публикацию (acceptance rate).
Сравнительный анализ функционала разрабатываемой системы Ptolemaea с существующими зарубежными аналогами (Penelope.ai (Великобритания), Stat Reviewer (США/Aries System), Manuscript Manager (США)) и отечественными решениями (НейроАссистент научного издательства, НЭИКОН) демонстрирует конкурентные преимущества предлагаемого подхода (табл. 1).
Внедрение системы автоматизированного анализа препринтов позволяет трансформировать процесс подготовки статьи. Технология помогает авторам заранее, до подачи в редакцию, увидеть и исправить ошибки, экономя время и повышая шансы на успешную публикацию (acceptance rate).
Сравнительный анализ функционала разрабатываемой системы Ptolemaea с существующими зарубежными аналогами (Penelope.ai (Великобритания), Stat Reviewer (США/Aries System), Manuscript Manager (США)) и отечественными решениями (НейроАссистент научного издательства, НЭИКОН) демонстрирует конкурентные преимущества предлагаемого подхода (табл. 1).
Ключевым отличием системы Ptolemaea является комплексный подход, включающий проверку статистической корректности, что реализовано лишь в единичных зарубежных продуктах (Stat Reviewer), доступ к которым для российских исследователей может быть ограничен.
Для образовательных и научных учреждений внедрение подобных систем несет прямой экономический эффект. По данным статистического сборника «Индикаторы науки: 2025», в России насчитывается более 800 институтов и университетов и 338 тысяч авторов, а финансирование науки превышает 1,6 трлн рублей [10]. При этом до 30% отчетов по грантам требуют существенной доработки, что влечет административные и финансовые издержки.
Внедрение AI-анализа препринтов позволяет:
| Функция | Ptolemaea (РФ) | Penelope.ai (UK) | Stat Reviewer (USA) | Manuscript Manager (USA) | НейроАссистент (РФ) |
|---|---|---|---|---|---|
| Оценка формальных параметров (структура, объем, рисунки) | + | + | – | + | + |
| Оценка статистической части(методы, p-value) | + | – | + | – | – |
| Система рекомендаций по улучшению | + | – | – | – | + |
| Подбор журнала для публикации | + | – | – | + | + |
| Проверка на антиплагиат и цитирование | + | + | – | + | + |
Потенциальный рынок (SAM) в России оценивается в 875 млн рублей в год с возможностью достижения выручки более 80 млн рублей к третьему году реализации проекта при охвате около 10% рынка.
Традиционная модель закрытого рецензирования подвергается критике из-за длительности, предвзятости и неспособности выявить все ошибки. В ответ на это возникают новые модели:
Использование AI-инструментов гармонично вписывается в парадигму Publish–Review– Curate и развития препринт-серверов. Активность российских авторов на платформе arXiv в 2024 году выросла на 12%, что подтверждает готовность сообщества к новым форматам коммуникации. AI-валидация выступает первичным фильтром качества, гарантирующим, что препринт соответствует базовым стандартам научности перед тем, как он попадет к экспертамлюдям.
Важно подчеркнуть, что AI-инструменты, такие как Ptolemaea, не заменяют научного рецензента. Искусственный интеллект на текущем этапе развития не способен оценить истинную клиническую значимость, новизну идеи или этичность проведенного эксперимента над пациентами. Задача AI – взять на себя функцию «технического редактора» и «статистического контролера». Для врача-клинициста использование такого инструмента означает возможность сосредоточиться на медицине, а не на борьбе с требованиями к оформлению списка литературы. Это практический инструмент, снижающий риск отказа по формальным признакам, который особенно демотивирует авторов.
Автоматизированный анализ препринтов с использованием технологий Data-centric AI и NLP представляет собой перспективное направление в области медицинской информатики и наукометрии. Проект Ptolemaea демонстрирует возможность создания комплексного отечественного решения, превосходящего по ряду параметров зарубежные аналоги, в частности, за счет модуля статистического аудита.
Внедрение данной технологии позволит:
Дальнейшее развитие проекта предполагает расширение датасетов для обучения моделей, интеграцию с редакционными системами российских журналов и совершенствование алгоритмов проверки семантической связности текста.
| Attachment | Size |
|---|---|
| Скачать файл | 271.41 KB |