Наукометрическая интеллектуальная измерительная система по данным РИНЦ на основе АСК-анализа и системы "Эйдос" Текст научной статьи по специальности «Компьютерные и информационные науки»
Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Луценко Евгений Вениаминович, Орлов Александр Иванович, Глухов Виктор Алексеевич
Адекватная и технологичная оценка результативности, эффективности и качества научной деятельности конкретных ученых и научных коллективов является актуальной проблемой для информационного общества и общества, основанного на знаниях. Решение этой проблемы является предметом наукометрии и ее целью. Современный этап развития наукометрии существенно отличается от предыдущих появлением в открытом, а также платном on-line доступе огромного объема детализированных данных по большому числу показателей как об отдельных авторах, так и о научных организациях и вузах. В мире, это известные библиографические базы данных: Web of Science, Scopus, Astrophysics Data System, PubMed, MathSciNet, zbMATH, Chemical Abstracts, Springer, Agris или GeoRef. В России это прежде всего Российский индекс научного цитирования (РИНЦ). РИНЦ это национальная информационно-аналитическая система, аккумулирующая более 9 миллионов публикаций российских ученых, а также информацию о цитировании этих публикаций из более 6000 российских журналов. Данных очень много, это так называемые «Большие данные» ("Big Data"). Но проблема состоит в том, чтобы осмыслить эти большие данные, точнее, выявить смысл значений наукометрических показателей) и тем самым преобразовать их в большую информацию («great information»), а затем применить эту информацию для достижения цели наукометрии, т.е. преобразовать ее в большие знания («great knowledge») о конкретных ученых и научных коллективах. Решение этой проблемы предлагается путем создания «Наукометрической интеллектуальной измерительной системы» на основе применения автоматизированного системно-когнитивного анализа и его программного инструментария интеллектуальную систему «Эйдос». Приводится численный пример создания и применения Наукометрической интеллектуальной измерительной системы, на основе небольшого объема реальных наукометрических данных, находящихся в открытом бесплатном on-line доступе в РИНЦ
Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Луценко Евгений Вениаминович, Орлов Александр Иванович, Глухов Виктор Алексеевич
Adequate and effective assessment of the efficiency, effectiveness and the quality of scientific activities of specific scientists and research teams is crucial for any information society and a society based on knowledge. The solution to this problem is the subject of scientometrics and its purpose. The current stage of development scientometrics differs greatly from his previous appearance in the open as well as paid on-line access to huge amount of detailed data on a large number of indicators on individual authors and on scientific organizations and universities. The world has well-known bibliographic databases: Web of Science, Scopus, Astrophysics Data System, PubMed, MathSciNet, zbMATH, Chemical Abstracts, Springer, Agris, or GeoRef. In Russia, it is primarily the Russian scientific citing index (RSCI). RSCI is a national information-analytical system, accumulating more than 9 million publications of Russian scientists, as well as the information about citation of these publications from more than 6,000 Russian journals. There is too much information; it is so-called "Big data". But the problem is how to make sense of these large data, more precisely, to identify the meaning of scientometric indicators) and thus to convert them into great information ("great information"), and then apply this information to achieve the objective of scientometrics, i.e. to transform it into a lot of knowledge ("great knowledge") about the specific scientists and research teams. The solution to this problem is creating a "Scientific smart metering system" based on the use of the automated system-cognitive analysis and its software tools an intellectual system called "Eidos". The article provides a numerical example of the creation and application of Scientometric intelligent measurement system based on a small amount of real scientific data that are publicly available using free on-line access to the RSCI
Текст научной работы на тему «Наукометрическая интеллектуальная измерительная система по данным РИНЦ на основе АСК-анализа и системы "Эйдос"»
01.00.00 Физико-математические науки
НАУКОМЕТРИЧЕСКАЯ ИНТЕЛЛЕКТУАЛЬНАЯ ИЗМЕРИТЕЛЬНАЯ СИСТЕМА ПО ДАННЫМ РИНЦ НА ОСНОВЕ АСК-АНАЛИЗА И СИСТЕМЫ "ЭЙДОС"
Луценко Евгений Вениаминович д.э.н., к.т.н., профессор РИНЦ БР1К-код: 9523-7101 prof.lыtsenko@gmail. com
Кубанский государственный аграрный университет имени И.Т.Трубилина, Краснодар, Россия
Орлов Александр Иванович д.э.н., д.т.н., к.ф.-м.н., профессор РИНЦ БРШ-код: 4342-4994
Московский государственный технический университет им. Н.Э. Баумана, Россия, 105005, Москва, 2-я Бауманская ул., 5, рго^ог^@,таП.гы
Глухов Виктор Алексеевич
к.т.н., зам. директора по научной работе ИНИОН РАН, руководитель Фундаментальной библиотеки, заместитель генерального директора НЭБ, г. Москва, Россия
Physics and mathematical sciences
A SCIENTOMETRIC INTELLIGENT MEASURING SYSTEM OF RSCI DATA BASED UPON THE ASK ANALYSIS AND EIDOS SYSTEM
Lutsenko Eugeny Veniaminovich Dr.Sci.Econ., Cand.Tech.Sci., professor RSCI SPIN-code: 9523-7101 prof.lutsenko@gmail. com
Kuban State Agrarian University, Krasnodar, Russia
Orlov Alexander Ivanovich
Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci.,
Bauman Moscow State Technical University, Moscow, Russia
Glukhov Viktor Alekseevich Cand.Tech.Sci., Deputy Director for scientific work of the Institute of RAS, head of Fundamental library, Deputy Director General NEB, Moscow, Russia
Адекватная и технологичная оценка результативности, эффективности и качества научной деятельности конкретных ученых и научных коллективов является актуальной проблемой для информационного общества и общества, основанного на знаниях. Решение этой проблемы является предметом наукометрии и ее целью. Современный этап развития наукометрии существенно отличается от предыдущих появлением в открытом, а также платном on-line доступе огромного объема детализированных данных по большому числу показателей как об отдельных авторах, так и о научных организациях и вузах. В мире, это известные библиографические базы данных: Web of Science, Scopus, Astrophysics Data System, PubMed, MathSciNet, zbMATH, Chemical Abstracts, Springer, Agris или GeoRef. В России это прежде всего Российский индекс научного цитирования (РИНЦ). РИНЦ - это национальная информационно-аналитическая система, аккумулирующая более 9 миллионов публикаций российских ученых, а также информацию о цитировании этих публикаций из более 6000 российских журналов. Данных очень много, это так называемые «Большие данные» ("Big Data"). Но проблема состоит в том, чтобы осмыслить эти большие данные, точнее, выявить смысл значений наукометрических показателей) и тем самым преобразовать их в большую информацию («great information»), а затем применить эту информацию для достижения цели наукометрии,
Adequate and effective assessment of the efficiency, effectiveness and the quality of scientific activities of specific scientists and research teams is crucial for any information society and a society based on knowledge. The solution to this problem is the subject of scientometrics and its purpose. The current stage of development scientometrics differs greatly from his previous appearance in the open as well as paid on-line access to huge amount of detailed data on a large number of indicators on individual authors and on scientific organizations and universities. The world has well-known bibliographic databases: Web of Science, Scopus, Astrophysics Data System, PubMed, MathSciNet, zbMATH, Chemical Abstracts, Springer, Agris, or GeoRef. In Russia, it is primarily the Russian scientific citing index (RSCI). RSCI is a national information-analytical system, accumulating more than 9 million publications of Russian scientists, as well as the information about citation of these publications from more than 6,000 Russian journals. There is too much information; it is so-called "Big data". But the problem is how to make sense of these large data, more precisely, to identify the meaning of scien-tometric indicators) and thus to convert them into great information ("great information"), and then apply this information to achieve the objective of scientometrics, i.e. to transform it into a lot of knowledge ("great knowledge") about the specific scientists and research teams. The solution to this
т.е. преобразовать ее в большие знания («great knowledge») о конкретных ученых и научных коллективах. Решение этой проблемы предлагается путем создания «Наукометрической интеллектуальной измерительной системы» на основе применения автоматизированного системно-когнитивного анализа и его программного инструментария - интеллектуальную систему «Эйдос». Приводится численный пример создания и применения Наукометрической интеллектуальной измерительной системы, на основе небольшого объема реальных наукометрических данных, находящихся в открытом бесплатном on-line доступе в РИНЦ
Ключевые слова: КОЛИЧЕСТВЕННАЯ ОЦЕНКА, СТЕПЕНЬ МАНИПУЛИРОВАНИЯ, ИНДЕКС ХИРША, МОДИФИКАЦИЯ, УСТОЙЧИВАЯ, НЕЧУВСТВИТЕЛЬНАЯ
1. ФОРМУЛИРОВКА ПРОБЛЕМЫ. 2
2. ТРЕБОВАНИЯ К МЕТОДУ РЕШЕНИЯ ПРОБЛЕМЫ И НЕДОСТАТКИ ТРАДИЦИОННЫХ МЕТОДОВ. 4
3. ИДЕЯ РЕШЕНИЯ ПРОБЛЕМЫ С ПРИМЕНЕНИЕМ НАУКОМЕТРИЧЕСКОЙ ИНТЕЛЛЕКТУАЛЬНОЙ ИЗМЕРИТЕЛЬНОЙ СИСТЕМЫ. 5
4. КРАТКОЕ ОПИСАНИЕ АСК-АНАЛИЗА, КАК МЕТОДА РЕШЕНИЯ ПРОБЛЕМЫ. 7
4.1. Кратко об АСК-анализе. 7
4.2. Истоки АСК-анализа. 8
4.3. Методика АСК-анализа. 8
4.4. Некоторые результаты применения АСК-анализа в различных предметных областях. 14
5. ЧИСЛЕННЫЙ ПРИМЕР СИНТЕЗА И ПРИМЕНЕНИЯ НАУКОМЕТРИЧЕСКОЙ ИНТЕЛЛЕКТУАЛЬНОЙ ИЗМЕРИТЕЛЬНОЙ СИСТЕМЫ. 15
5.1. Когнитивно-целевая структуризация предметной области. 16
5.2. Формализация предметной области. 16
5.3. Синтез и верификация модели. 26
5.4. Решение наукометрических задач с помощью модели. 33
6. ВЫВОДЫ, ПЕРСПЕКТИВЫ И РЕКОМЕНДАЦИИ. 46
«Индекс Хирша - это такой наукометрический показатель, который отражает степень понимания автором того, что такое индекс Хирша»
1. Формулировка проблемы
Адекватная и технологичная оценка результативности, эффективности и качества научной деятельности конкретных ученых и научных коллективов была важной всегда, но особенно актуальной она стала в информационном обществе и обществе, основанном на знаниях.
problem is creating a " Scientific smart metering system" based on the use of the automated system-cognitive analysis and its software tools - an intellectual system called "Eidos". The article provides a numerical example of the creation and application of Scientometric intelligent measurement system based on a small amount of real scientific data that are publicly available using free on-line access to the RSCI
Keywords: QUANTITATIVE ASSESSMENT, DEGREE OF MANIPULATION, H-INDEX, MODIFICATION, RESISTANT, INSENSITIVE
Однако реализация этой оценки на практике является как научной, так и чисто технологической проблемой, не решенной и в настоящее время [1].
Решение этой проблемы является предметом наукометрии и ее целью. В современной наукометрии огромное количество проблем и нерешенных вопросов, по которым идет интенсивная очень содержательная и богатая идеями научная дискуссия [1]. По мнению авторов источником подавляющего большинства этих проблем является принципиально новая особенность современной наукометрии, существенно качественно отличающая ее от предыдущих этапов ее развития, которая заключается в появлении в открытом (а также платном) on-line доступе огромного объема детализированных данных по большому числу накометрических показателей как об отдельных авторах, так и о научных организациях и вузах.
В мире наукометрические данные содержатся в известных библиографических базах данных: Web of Science, Scopus, Astrophysics Data System, PubMed, MathSciNet, zbMATH, Chemical Abstracts, Springer, Agris, GeoRef и др. В России также есть много библиографических баз данных из которых выделяется Российский индекс научного цитирования (РИНЦ) (http://elibrary.ru/).
Так что исходных наукометрических данных уже очень и очень много, это так называемые «Большие данные» ("Big Data"). А большие данные [34] - это само по себе большие проблемы, которые «часто разделяют на три основные группы: объем, скорость, неоднородность (так называемые «3 V»: Volume, Velocity, Variety1) [2]». Первые две из этих проблем скорее относятся к аппаратному обеспечению поддержки больших данных и обеспечения доступа к ним, но третья проблема касается уже научно-методологических, математических, алгоритмических и программных (инструментальных) средств обработки больших данных.
В работе [2] третья проблема характеризуется следующим образом: «проблема неоднородности состоит в том, что данные зачастую происходят из разных источников и бывают в разных форматах и разного качества. Их невозможно просто сложить вместе и обработать - требуются сложная работа, чтобы привести их в пригодный для анализа вид».
Здесь говорится о малопригодности этих данных для анализа в сыром виде, но ничего не говорится о цели этого анализа и его методах и способах. Поэтому авторы предлагают разбить третью проблему на две части: в первой части конкретнее описать технические причины малопригодности сырых больших данных для обработки; а во второй части описать цель этой обработки.
Авторская формулировка третьей проблемы обработки больших наукометрических данных («Big scientometric data»):
1 См., например: http://blogs.gartner.com/doug-laney/deia-vvvue-others-claiming-gartners-volume-velocity-variety -construct-for-bi g-data/
- наукометрические показатели, содержащиеся в библиографических базах данных, зашумлены, фрагментированы (не полны), представлены в разных типах измерительных шкал (номинальных, порядковых и количественных) и в разных единицах измерения, зависят друг от друга, т.е. описывают нечисловые [35] и/или нелинейные объекты, вследствие чего не подчиняются нормальному распределению [36];
- цель обработки больших наукометрических данных состоит в том, чтобы осмыслить эти зашумленные, фрагментированные взаимозависимые большие данные, измеряемые в разных типах шкал и в разных единицах измерения, точнее, выявить смысл в значениях наукометрических показателей, и тем самым преобразовать их в большую информацию («great information»), а затем применить эту информацию для достижения цели наукометрии, т.е. преобразовать ее в большие знания («great knowledge») о результатах, эффективности и качестве научной деятельности конкретных ученых и научных коллективов.
2. Требования к методу решения проблемы и недостатки традиционных методов
Из вышеприведенной авторской формулировки проблемы обработки больших наукометрических данных вытекают следующие требования к методу их обработки, также состоящие из двух частей, обеспечивающих соответственно решение технических аспектов проблемы и достижение цели обработки. Этот метод должен обеспечивать:
- корректную сопоставимую обработку числовых и нечисловых данных, представленных в разных типах измерительных шкал и разных единицах измерения и являться устойчивым к шуму в исходных данных непараметрическим методом, обеспечивающим создание моделей больших размерностей при неполных и зашумленных исходных данных о сложном нелинейном динамическом объекте моделирования, имеющим программный инструментарий;
- преобразование данных в информацию, а ее в знания о результатах, эффективности и качестве научной деятельности конкретных ученых и научных коллективов и решение на этой основе задач многопараметрической типизации и системной идентификации, а также задач исследования моделируемого объекта путем создания и анализа его модели.
Факторный анализ - один из наиболее популярных методов выявления причинно-следственных зависимостей в исходных данных [37]. Он является параметрическим методом, требующим абсолютно точных исходных данных, полных повторностей всех возможных сочетаний значений независимых друг от друга факторов, которых должно быть не более 5-6, измеряемых в числовых шкалах и одних единицах измерения. Факторный
анализ не обеспечивает преобразование исходных данных в информацию, а ее в знания и решение задач многопараметрической типизации и системной идентификации, а также исследования моделируемого объекта путем исследования его модели. Таким образом, факторный анализ не удовлетворяет практически ни одному из требований, предъявляемы к методу обработки.
3. Идея решения проблемы с применением Наукометрической интеллектуальной измерительной системы
Всем обоснованным выше требованиям к методу решения поставленной проблемы соответствует автоматизированный системно-когнитивный анализ (АСК-анализ) [13] и его программного инструментарий - интеллектуальная система «Эйдос» [14].
Метод АСК-анализа является устойчивым к шуму и неполноте в исходных данных непараметрическим методом и обеспечивает создание моделей больших размерностей сложных нелинейных объектов моделирования на основе корректной сопоставимой обработки числовых и нечисловых данных о них, представленных в различных типах измерительных шкал и разных единицах измерения [15] и имеет программный инструментарий - интеллектуальную систему «Эйдос». Этот метод обеспечивает преобразование данных в информацию, а ее в знания о результатах, эффективности и качестве научной деятельности конкретных ученых и научных коллективах и решение на этой основе задач многопараметрической типизации и системной идентификации, а также исследования моделируемого объекта путем исследования его модели.
Поэтому метод АСК-анализа и будет использован для решения поставленной в статье проблемы.
по сути проблема состоит в поиске или разработке адекватных частных критериев результатов научной деятельности и методов интеграции этих частных критериев для оценки результатов как отдельных ученых, так и научных коллективов. В настоящее время практика наукометрии, или, может быть, даже точнее сказать «псевдонаукометрии», сильно опережает теорию, так как и сами частные критерии, и методы их интеграции и применения вызывают большую и хорошо обоснованную критику [1, 3-11].
Ясно, что разные значения частных наукометрических критериев характеризует разное качество результатов научной деятельности, что и заложено в наукометрических методиках. Но не понятно, откуда их разработчики этих методик взяли именно сами эти значения. Скорее всего они сделали это на основе экспертных оценок, т.е. на основе интуиции, опыта и профессиональной компетенции.
Конечно, разработчики частных наукометрических критериев старались сконструировать их таким образом, чтобы они адекватно отражали определенные признаки степени успешности научной деятельности. Но возникает закономерный и существенный вопрос о том, на сколько или в какой степени это действительно удалось им сделать. Это вопрос о том, на сколько те или иные частные наукометрические критерии действительно «работают» и выполняют свою функцию индикаторов результатов научной деятельности.
Какими способами это можно проверить и кто это проверял?
По-видимому, способом проверки адекватности частных наукометрических критериев является сравнение результатов оценки результатов научной деятельности ученых по этим частным критериям с экспертными оценками этих же результатов. Если эти оценки совпадают, то критерии адекватны, если же нет, то значит они не работают и не пригодны для тех целей, для которых были разработаны.
Мысли о подобной проверке высказывались (см., например, [55]), но никто не осуществлял попыток такой проверки. В данной работе фактически впервые это также будет сделано.
Но даже если частные наукометрические критерии не выполняют своей функции, которая планировалась при их конструировании, то можно узнать в количественной форме, какую функцию они фактически выполняют и использовать их в этом качестве. Это же касается и критериев, которые работают. Что имеется в виду?
Авторы предлагают на основе экспертных оценок оценивать не сами частные критерии, а значения интегральных критериев для различных категорий авторов, отличающихся результативностью научной деятельности, и на основе этого строить модель, определяющую смысл различных значений частных критериев, т.е. количество информации в их значениях о различных результатах научной деятельности.
Суть предлагаемого подхода в том, что частные наукометрические критерии рассматриваются не сами по себе, как это обычно делается, а сначала на основе эмпирических данных об общих наукометрических показателях различных ученых (в нашем случае данных РИНЦ) и экспертных оценок результатов их деятельности создается и верифицируется модель, в которой рассчитывается, какое количество информации содержится в частных критериях о значениях интегральных критериев (результативности деятельности ученого), а затем эта модель применяется для оценки результатов деятельности других ученых, данные о которых не входили в обучающую выборку. Естественно, эти другие ученые должны входить в генеральную совокупность, по отношению к которой обучающая выборка репрезентативна, для чего они, например, должны относиться к тому же направлению науки. Для оценки результатов дея-
тельности ученого с помощью модели рассчитывается суммарное количество информации, которое содержится в его наукометрических показателях о различных результатах деятельности, и считается, что у него скорее всего наиболее ценны те результаты, о которых в его наукометрических показателях содержится наибольшее суммарное количество информации. Эта оценка с помощью аддитивного интегрального критерия является сопоставимой количественной оценкой результатов научной деятельности различных ученых. В идеале наукометрическая интеллектуальная измерительная система должна оценивать ученых на основе их наукометрических показателей и модели так же, как эксперты на основе своей интуиции, опыта и профессиональной компетенции.
В этом и состоит суть предлагаемой наукометрической интеллектуальной измерительной системы [12], в которой значения частных наукометрических критериев будут рассчитываться непосредственно на основе эмпирических данных и экспертных оценок значений интегральных критериев по научно обоснованной методике на основе применения АСК-анализа [13] и системы «Эйдос» [14].
4. Краткое описание АСК-анализа, как метода решения проблемы
4.1. Кратко об АСК-анализе
Системный анализ представляет собой современный метод научного познания, общепризнанный метод решения проблем [13, 16, 19, 20]. Однако возможности практического применения системного анализа ограничиваются отсутствием программного инструментария, обеспечивающего его автоматизацию. Существуют разнородные программные системы, автоматизирующие отдельные этапы или функции системного анализа в различных конкретных предметных областях.
Автоматизированный системно-когнитивный анализ (АСК-анализ) представляет собой системный анализ, структурированный по базовым когнитивным операциям (БКО), благодаря чему удалось разработать для него математическую модель, методику численных расчетов (структуры данных и алгоритмы их обработки), а также реализующую их программную систему - систему «Эйдос» [13, 16, 17]. Система «Эйдос» разработана в постановке, не зависящей от предметной области, и имеет ряд программных интерфейсов с внешними данными различных типов [17]. АСК-анализ может быть применен как инструмент, многократно усиливающий возможности естественного интеллекта во всех областях, где используется естественный интеллект. АСК-анализ был
успешно применен для решения задач идентификации, прогнозирования, принятия решений и исследования моделируемого объекта путем исследования его модели во многих предметных областях, в частности в экономике, технике, социологии, педагогике, психологии, медицине, экологии, ампелографии, геофизике, энтомологии, криминалистике и многих других [13, 14]2.
4.2. Истоки АСК-анализа
Известно, что системный анализ является одним из общепризнанных в науке методов решения проблем и многими учеными рассматривается вообще как метод научного познания. Однако, как впервые заметил еще в 1984 году проф. И.П. Стабин, на практике применение системного анализа наталкивается на проблему [24]. Суть этой проблемы в том, что обычно системный анализ успешно применяется в сравнительно простых случаях, в которых в принципе можно обойтись и без него, тогда как в действительно сложных ситуациях, когда он действительно чрезвычайно востребован и у него нет альтернатив, сделать это удается гораздо реже. Проф. И.П. Стабин предложил и путь решения этой проблемы, который он видел в автоматизации системного анализа [24].
Однако путь от идеи до создания программной системы долог и сложен, т.к. включает ряд этапов:
- выбор теоретического математического метода;
- разработка методики численных расчетов, включающей структуры данных в оперативной памяти и внешних баз данных (даталогическую и инфологическую модели) и алгоритмы обработки этих данных;
- разработка программной системы, реализующей эти математические методы и методики численных расчетов.
4.3. Методика АСК-анализа
3.3.1. Предпосылки решения проблемы
Перегудов Ф.И. и Тарасенко Ф.П. в своих основополагающих работах 1989 и 1997 годов [19, 20] подробно рассмотрели математические методы, которые в принципе могли бы быть применены для автоматизации отдельных этапов системного анализа. Однако даже самые лучшие математические методы не могут быть применены на практике без реализующих их программных систем, а путь от математического метода к программной системе долог и сложен. Для этого необходимо разработать численные методы или методики численных расчетов (алгоритмы и структуры данных), реализующие математический метод, а затем разработать программную реализацию системы, основанной на этом численном методе.
2 См., например: Ыр://е1 .kubagro.ru/a7viewaut. asp?id= 11 http://lc.kubagro.ru/aidos/index.htm
В числе первых попыток реальной автоматизации системного анализа следует отметить докторскую диссертацию проф. Симанкова В. С. (2001) [25]. Эта попытка была основана на высокой детализации этапов системного анализа и подборе уже существующих программных систем, автоматизирующих эти этапы. Идея была в том, что чем выше детализация системного анализа, чем мельче этапы, тем проще их автоматизировать. Эта попытка была реализована, однако, лишь для специального случая исследования в области возобновляемой энергетики, т.к. системы оказались различных разработчиков, созданные с помощью различного инструментария и не имеющие программных интерфейсов друг с другом, т.е. не образующие единой автоматизированной системы. Эта попытка, безусловно, явилась большим шагом по пути, предложенному проф. И.П. Стабиным, но и ее нельзя признать обеспечившей достижение поставленной цели, сформулированной Стабиным И.П. (т.е. создание автоматизированного системного анализа), т.к. она не привела к созданию единой универсальной программной системы, автоматизирующий системный анализ, которую можно было бы применять в различных предметных областях.
Необходимо отметить работы Дж. Клира по системологии и автоматизации решения системных задач, которые внесли большой вклад в автоматизацию системного анализа путем создания и применения универсального решателя системных задач (УРСЗ), реализованного в рамках оригинальной экспертной системы [26, 27]. Однако в экспертной системе применяется продукционная модель знаний, для получения которых от эксперта необходимо участие инженера по знаниям (когнитолога). Этим обусловлены следующие недостатки экспертных систем:
- они генерируют знания каждый раз, когда они необходимы для решения задач, и это может занимать значительно большее время, чем при использовании декларативной формы представления знаний;
- продукционные модели обычно построены на бинарной логике (if then else), что вызывает возможность логического конфликта продукций в процесс логического вывода, что приводит к необратимому останову логического процесса при противоречивых исходных данных;
- эксперты - люди чаще всего заслуженные и их время и знания стоят очень дорого; поэтому привлечение экспертов для извлечения готовых знаний на длительное время проблематично и обычно эксперт просто физически не может сообщить очень большой объем знаний, а иногда и не хочет этого делать по тем или иным причинам («ноу-хау», нарушение морально-этических норм или даже ГК или УК, конфликт интересов) и сознательно сообщает неадекватные знания;
- чаще всего эксперты формулируют свои знания неформализуемым путем на основе своей интуиции, опыта и профессиональной компетенции, т.е. не могут сформулировать свои знания в количественной форме, а пользуются для их формализации порядковыми или даже номинальными шкалами, поэтому экспертные знания являются не очень точными и для их формализации необходим инженер по знаниям (когнитолог).
3.3.2. АСК-анализ как решение проблемы
Автоматизированный системно-когнитивный анализ разработан профессором Е.В. Луценко и предложен в 2002 году [13], хотя разработан он был значительно раньше, причем с программным инструментарием: системой «Эйдос» [17]. Основная идея, позволившая сделать это, состоит в рассмотрении системного анализа как метода познания (отсюда и «когнитивный» от «cognitio» - знание, познание, лат.). Эта идея позволила структурировать системный анализ не по этапам, как пытались сделать ранее, а по базовым когнитивным операциям системного анализа (БКОСА), т.е. таким операциям, к комбинациям которых сводятся остальные. Эти операции образуют минимальную систему, достаточную для описания системного анализа, как метода познания, т.е. конфигуратор. Понятие конфигуратора предложено В.А. Лефевром [28]. В 2002 году Е.В. Лу-ценко был предложен когнитивный конфигуратор [13], включающий 10 базовых когнитивных операций.
1) присвоение имен;
2) восприятие (описание конкретных объектов в форме онтологий, т.е. их признаками и принадлежностью к обобщающим категориям - классам);
3) обобщение (синтез, индукция);
5) оценка адекватности модели;
6) сравнение, идентификация и прогнозирование;
7) дедукция и абдукция;
8) классификация и генерация конструктов;
9) содержательное сравнение;
10) планирование и поддержка принятия управленческих решений.
Каждая из этих операций оказалась достаточно элементарна для
формализации и программной реализации.
- формализуемая когнитивная концепция и следующий из нее когнитивный конфигуратор;
- теоретические основы, методология, технология и методика АСК-анализа;
- математическая модель АСК-анализа, основанная на системном обобщении теории информации;
- методика численных расчетов, в универсальной форме реализующая математическую модель АСК-анализа, включающая иерархическую структуру данных и 24 детальных алгоритма 10 БКОСА;
- специальное инструментальное программное обеспечение, реализующее математическую модель и численный метод АСК-анализа - Универсальная когнитивная аналитическая система "Эйдос".
1) когнитивно-целевая структуризация предметной области;
2) формализация предметной области (конструирование классификационных и описательных шкал и градаций и подготовка обучающей выборки);
3) синтез системы моделей предметной области (в настоящее время система «Эйдос» поддерживает 3 статистические модели и 7 системно-когнитивных моделей (моделей знаний);
4) верификация (оценка достоверности) системы моделей предметной области;
5) повышение качества системы моделей;
6) решение задач идентификации, прогнозирования и поддержки принятия решений;
7) исследование моделируемого объекта путем исследования его моделей является корректным, если модель верно отражает моделируемый объект и включает: кластерно-конструктивный анализ классов и факторов; содержательное сравнение классов и факторов; изучение системы детерминации состояний моделируемого объекта; нелокальные нейроны и интерпретируемые нейронные сети прямого счета; классические когнитивные модели (когнитивные карты); интегральные когнитивные модели (интегральные когнитивные карты), прямые обратные 8ШОТ-диаграммы; когнитивные функции и т.д.
Суть метода АСК-анализа состоит в последовательном повышении степени формализации модели и преобразовании данных в информацию, а ее в знания и решении на основе этих знаний задач идентификации (распознавания, классификации и прогнозирования), поддержки принятия решений и исследования моделируемой предметной области (рисунки 1 и 2):
О соотношении содержания понятий: «Данные», «Информация» и «Знания»
Рисунок 1. О соотношении содержания понятий: «данные», «информация» и «знания» в АСК-анализе
Последовательность обработки данных, информации и знаний в системе «Эйдос-Х++»
Когнитивно-целевая структуризация предметной области (неавтоматизированный в системе «Эйдос-Х++» этап АСК-анализа)
Формализация предметной области
Средства кодирования исходных данных
Классификационные шкалы и градации
Описательные шкалы и градации
Матрица условных и безусловных процентных распределений, расчитанная по числу признаков классов >
Матрица абсолютных частот (матрица сопряженности, корреляционная матрица)
Матрица условных и безусловных процентных распределений,расчитанная по числу объектов классов
Решение задач распознавания системной идентификации и прогнозирования
Решение задач управления (поддержки принятия решений)
Решение задач исследования предметной области путем исследования ее модели
Рисунок 2. Последовательность преобразования данных в информацию, а ее в знания и решения задач в АСК-анализе и системе «Эйдос»
Математические аспекты АСК-анализа
Математическая модель АСК-анализ основана на теории информации, точнее на системной теории информации (СТИ), предложенной Е.В.
Луценко [13, 16] . Это значит, что в АСК-анализе все факторы рассматриваются с одной единственной точки зрения: сколько информации содержится в их значениях о переходе объекта, на который они действуют, в определенное состояние, и при этом сила и направление влияния всех значений факторов на объект измеряется в одних общих для всех факторов единицах измерения: единицах количества информации [8, 9].
Это напоминает подход Дугласа Хаббарда [15], но, в отличие от него, имеет открытый универсальный программный инструментарий (систему «Эйдос»), разработанный в постановке, не зависящей от предметной области [13, 14]. К тому же на систему «Эйдос» уже в 1994 году было три патента РФ [13, 144], а первые акты ее внедрения датируются 1987 годом [13, 14]5, тогда как основная работа Дугласа Хаббарда [29] появилась лишь в 2009 году. Это означает, что идеи АСК-анализа не только появились, но и были доведены до программной реализации в универсальной форме и применены в различных предметных областях на 22 с лишним года раньше появления работ Дугласа Хаббарда.
Поэтому АСК-анализ обеспечивает корректную сопоставимую обработку числовых и нечисловых данных, представленных в разных типах измерительных шкал и разных единицах измерения [13, 23]. Метод АСК-анализа является устойчивым непараметрическим методом, обеспечивающим создание моделей больших размерностей при неполных и зашумлен-ных исходных данных о сложном нелинейном динамичном объекте управления. Этот метод является чуть ли не единственным на данный момент, обеспечивающим многопараметрическую типизацию и системную идентификацию методов, инструментарий которого (интеллектуальная система «Эйдос») находится в полном открытом бесплатном доступе [13, 14]6.
Система Эйдос обеспечивает:
1. Многопараметрическую типизацию, т.е. формирование обобщенных образов классов на основе конкретных примеров объектов, которые к ним относятся.
2. Системную идентификацию, т.е. определение степени сходства образа конкретного объекта с обобщенными образами классов (сравнение конкретных объектов с обобщенными образами классов).
3. Формирование кластеров классов (сравнение обобщенных образов классов друг с другом).
3 Математическая модель АСК-анализа описана в ряде работ: http://elibrary.ru/author items.asp?authorid= 123162
4 См., например: http://lc.kubagro.ru/aidos/index.htm
6 http://lc.kubagro.ru/aidos/ Aidos-X.htm
4. Формирование конструктов кластеров (сравнение кластеров друг с другом и формирование конструктов).
5. Исследование моделируемой предметной области путем исследования ее модели.
4.4. Некоторые результаты применения АСК-анализа в различных предметных областях
Метод системно-когнитивного анализа и его программный инструментарий интеллектуальная система "Эйдос" были успешно применены при проведении 6 докторских и 7 кандидатских диссертационных работ в ряде различных предметных областей по экономическим, техническим, психологическим и медицинским наукам.
АСК-анализ был успешно применены при выполнении десятка грантов РФФИ и РГНФ различной направленности за длительный период - с 2002 года по настоящее время (2016 год).
По проблематике АСК-анализа издано 22 монографии, получено 29 патентов на системы искусственного интеллекта, их подсистемы, режимы и приложения, опубликовано более 200 статей в изданиях, входящих в Перечень ВАК РФ (по данным РИНЦ). В одном только Научном журнале КубГАУ (входит в Перечень ВАК РФ с 26-го марта 2010 года) автором АСК-анализа Луценко Е.В. опубликовано 186 статей общим объёмом 321,559 у.п. л., в среднем 1,729 у.п.л. на одну статью.
По этим публикациям, грантам и диссертационным работам видно, что АСК-анализ уже был успешно применен в следующих предметных областях и научных направлениях: экономика (региональная, отраслевая, предприятий, прогнозирование фондовых рынков), социология, эконометрика, биометрия, педагогика (создание педагогических измерительных инструментов и их применение), психология (личности, экстремальных ситуаций, профессиональных и учебных достижений, разработка и применение профессиограмм), сельское хозяйство (прогнозирование результатов применения агротехнологий, принятие решений по выбору рациональных аг-ротехнологий и микрозон выращивания), экология, ампелография, геофизика (глобальное и локальное прогнозирование землетрясений, параметров магнитного поля Земли, движения полюсов Земли), климатология (прогнозирование Эль-Ниньо и Ла-Нинья), возобновляемая энергетика, мелиорация и управление мелиоративными системами, криминалистика, энтомология и ряд других областей.
АСК-анализ вызывает большой интерес во всем мире. Сайт автора АСК-анализа [16] посетило около 500 тыс. посетителей с уникальными IP-адресами со всего мира. Еще около 500 тыс. посетителей открывали статьи по АСК-анализу в Научном журнале КубГАУ.
Необходимо отметить, что в развитии различных теоретических основ и практических аспектов АСК-анализа приняли участие многие ученые: д.э.н., к.т.н., проф. Луценко Е.В., Засл. деятель науки РФ, д.т.н., проф. Лойко В.И., к.ф.-м.н., Ph.D., проф., Трунев А.П. (Канада), д.э.н., д.т.н., к.ф.-м.н., проф. Орлов А.И., к.т.н., доц. Коржаков В.Е., д.э.н., проф. Барановская Т.П., д.э.н., к.т.н., проф. Ермоленко В.В., к.пс.н. Наприев И.Л., к.пс.н., доц. Некрасов С.Д., к.т.н., доц. Лаптев В.Н., к.пс.н, доц. Третьяк В.Г., к.пс.н., Щукин Т.Н., д.т.н., проф. Симанков В.С., д.э.н., проф. Ткачев А.Н., д.т.н., проф. Сафронова Т.И., д.э.н., доц. Горпинченко К.Н., к.э.н., доц. Ма-каревич О.А., к.э.н., доц. Макаревич Л.О., к.м.н. Сергеева Е.В. (Фомина Е.В.), Бандык Д.К. (Белоруссия), Чередниченко Н.А., к.ф.-м.н. Артемов А.А., д.э.н., проф. Крохмаль В.В., д.т.н., проф. Рябцев В.Г., к.т.н., доц. Марченко А.Ю., д.т.н., проф. Фролов В.Ю., д.ю.н, проф. Швец С.В., Засл. деятель науки Кубани, д.б.н., проф. Трошин Л.П., Засл. изобр. РФ, д.т.н., проф. Серга Г.В., Сергеев А.С., д.б.н., проф. Стрельников В.В. и другие.
В заключение отметим, что программный инструментарий АСК-анализа - интеллектуальная система «Эйдос» находится в полном открытом бесплатном доступе на сайте автора (вместе с исходными текстами) по адресу: http://lc.kubagro.ru/aidos/ Aidos-X.htm.
5. Численный пример синтеза и применения наукометрической интеллектуальной измерительной системы
Рассмотрим численный пример решения поставленной проблемы в соответствии с приведенными выше в разделе 3.3.2 и на рисунке 2 этапами АСК-анализа:
1) когнитивно-целевая структуризация предметной области;
2) формализация предметной области (конструирование классификационных и описательных шкал и градаций и подготовка обучающей выборки);
3) синтез системы моделей предметной области (в настоящее время система «Эйдос» поддерживает 3 статистические модели и 7 системно-когнитивных моделей (моделей знаний);
4) верификация (оценка достоверности) системы моделей предметной области;
5) повышение качества системы моделей;
6) решение задач идентификации, прогнозирования и поддержки принятия решений;
7) исследование моделируемой предметной области путем исследования ее модели.
5.1. Когнитивно-целевая структуризация предметной области
Содержание этого этапа АСК-анализа, единственного неформализованного и не реализованного в системе «Эйдос», состоит в том, что необходимо определиться что мы будем рассматривать в качестве факторов, а что в качестве результатов их влияния.
В данном случае ясно, что на основе значений общих наукометрических показателей авторов необходимо оценивать результаты их научной деятельности.
Таким образом данный этап выполнен.
5.2. Формализация предметной области
На этом этапе АСК-анализа создаются классификационные и описательные шкалы и градации, а затем с их использованием кодируются исходные данные и в результате чего формируются база событий и обучающая выборка (рис. 2). По сути этап формализации предметной области является нормализацией базы исходных данных, в результате чего степень формализации исходных данных возрастает до уровня, необходимого и достаточного для их обработки на компьютере в программной системе.
5.2.1. Исходные данные по авторам
Источник исходных данных
Исходные данные любезно предоставлены в удобной для проведения исследования форме Глуховым Виктором Алексеевичем, - к.т.н., зам. директора по научной работе ИНИОН РАН, руководителем Фундаментальной библиотеки, г. Москва. Необходимо отметить, что все эти исходные данные находятся в полном открытом бесплатном доступе на сайте РИНЦ http://elibrary.ru/ в авторском указателе и представляют собой ни что иное, как «Общие показатели» по каждому автору.
Форма представления исходных данных
Исходные данные представляются в форме Excel-таблицы, в которой каждая строка описывает один объект обучающей выборки. В первой колонке этой таблицы содержится идентифицирующая информация об объекте обучающей выборки, затем идут колонки, являющиеся классификационными шкалами, а затем колонки, являющиеся описательными шкалами.
Классификационные и описательные шкалы могут быть текстового и числового типа. Если они текстового типа, то значениями градаций шкал являются уникальные текстовые наименования в них. Если шкалы число-
вого типа, то в них ищется минимальное и максимальное числовое значение, а затем диапазон изменения числовой величины делится на заданное пользователем (в диалоге) число интервальных числовых значений, которые и являются градациями шкал. Градации классификационных шкал являются классами и по ним проводится группировка строк базы исходных данных и обобщение. Градации описательных шкал являются значениями факторов, характеризующих объекты обучающей выборки. Требования к файлу исходных данных приведены на рис. 3:_
Помощь по режиму 2.3.2.2 для случая Ехсе(-файлов исходных данных
Режим 2.3.2.2: Универсальный программный интерфейс импорта данных из внешней базы данных ■lnp_data.xls" в систему ■Эйдос-х+ + " и формализации предметной области.
- Данный программный интерфейс обеспечивает автоматическое Формирование классификационных и описательных шкал и градаций, а также обучающей и распознаваемой выборки, т. е. формализацию предметной области, на основеXLS или XLSX-файла с исходными данными приведенного ниже стандарта.
- Файл исходных данных должен иметь имя: INP_DATA.XLS или INF'JDATA.XLSX и может быть получен в Ехсе1-2003(2007-2010), а Файл распознаваемой выборки имя: IN P_RASP.XLS или INF_RASP,XLSX. Файлы INP_DATA.XLS (INP_DATA.XLSX) и INP_RASP.XLS или INP_RASP. XLSX) должны находиться в Папке /'AIDUS-X/АID_DАТА/1nр_dа\а/ и имеют совершенно Одинаковую структуру.
-1 -я строка этого файла должна содержать наименования колонок на любом языке, в т. ч. и русском. Эти наименования должны быть во всех колонка:-. при этом объединение ячеек и переносы слов не допускаются. Желательно, чтобы эти наименования были не очень длинными, т.к. к ним еще будут добавляться интервальные числовые или текстовые значения.
- Каждая строка этого Файла, начиная со 2-й, содержит данные об одном объекте обучающей выборки. Если Excel-2003, в листе может быть до G5536 строк и до 256 колонок. В листе Ехсе1-2007(2010) возможно до 1 048 576 строк и 16 384 колонок.
- Столбцы, начиная со 2-го, являются классификационными и описательными шкалами и могут быть текстового (номинального) или числового типа (с десятичными знаками после запятой),
- Столбцу присваивается числовой тип, если все значения его ячеек числового типа. Если хотя бы одно значение является текстовым (не числом, в т.ч. пробелом], то столбцу присваивается текстовый тип, Это означает, что нули должны быть указаны нулями, а не пробелами.
- 1-й столбец содержит наименование источника данных длиной до 255 символов, но желательно, чтобы эти наименования были не очень длинными.
- Столбцы со 2-го по N-й являются классификационными шкалами (выходными параметрами] и содержат данные о классах (будущих состояниях объекта управления), к которым принадлежат объекты обучающей выборки.
- Столбцы с N+1 по последний являются описательными шкалами (факторами) и содержат данные о признаках (значениях факторов), характеризующим объекты обучающей выборки.
- В результате работы режима Формируется Файл INF_NAME.TXT стандарта MS DOS (кириллица), в котором наименования классификационных и описательных шкал являются СТРОКАМИ. Система формирует классификационные и описательные шкалы и градации. Для этого в каждом числовом столбце система находит минимальное и максимальное числовые значения и формирует заданное количество числовых интервалов, после чего числовые значения заменяются их интервальными значениями. В текстовых столбцах система находит уникальные текстовые значения. Каждое УНИКАЛЬНОЕ интервальное числовое или текстовое значение считается градацией классификационной или описательной шкалы, характеризующей объект. С их использованием генерируется обучающая выборка, каждый объект которой соответствует одной строке Файла исходных данных NF'_DATA и содержит коды классов, соответствующие Фактам совпадения числовых или уникальных текстовых значений классов с градациями классификационных шкал и коды признаков, соответствующие Фактам совпадения числовых или уникальных текстовых значений признаков с градациями описательных шкал.
- Распознаваемая выборка Формируется на основе Файла INP_RASP аналогично, за исключением того, что классификационные и описательные шкалы и градации не создаются, а используются ранее созданные в модели, и базы распознаваемой выборки могут не включать коды классов., если столбцы классов в Файле INF_RASP были пустыми. Структура Файла INF'_RASP должна бытьтакая же, как INP_DATA,T.e. они должны ПОЛНОСТЬЮ совпадать по столбцам, но могут иметь разное количество строк.
Принцип организации таблицы исходных данных:
Наименование объекта обучающей выборки Наименование 1-й классификационной шкалы Наименование 2-й классификационной шкапы Наименование 1-й описательной шкалы Наименование 2-й описательной шкалы
1-й объект обучающей выборки Значение показателя Значение показателя Значение показателя Значение Показателя
2-й объект обучающей выборки Значение показателя Значение показателя Значение показателя Значение показателя
Рисунок 3. Требования к файлу исходных данных
Сами исходные данные приведены в таблице 1.
Таблица 1 - Исходные данные
Примечание: Изображения таблицы исходных данных представлены с разрешением 600 dpi и при увеличении изображения хорошо читабельны.
Организация группы экспертов и методика взвешивания экспертных оценок
В соответствии с идеей решения проблемы, поставленной в данном исследовании, исходные данные, представленные в таблице 1 дополняются экспертными оценками результативности научной деятельности авторов.
Выбор ученых для исследования был осуществлен по нескольким направлениям науки («Экономика», "Математика", "Технические науки" и др.) таким образом, чтобы в выборку попали и очень известные ученые, известные своими научными результатами, и менее известные.
В качестве экспертов выступали сотрудники ведущих НИИ и вузов страны. Имена экспертов не сообщаются из этических соображений.
Взвешивание экспертных оценок производилось с учетом «научного веса» эксперта, соответствующего его ученой степени и научному званию.
Первичные и расчетные показатели
Все показатели в таблице исходных данных делятся на первичные и расчетные на их основе. Обычно эти расчетные показатели даются в процентах.
5.2.2. Классификационные и описательные шкалы и градации
Классификационные и описательные шкалы и градации приведены в таблицах 2 и 3: