Интеллектуальный анализ данных является одним из приоритетных направлений исследований в области искусственного интеллекта. Его возможности в области представления данных и знаний, создания методов обнаружения новых знаний и извлечения закономерностей особенно востребованы в областях с обширными массивами исходных фактов, нуждающихся в структурировании, упорядочении и систематизации. Широкое распространение качественных методов анализа социологических данных в сочетании с отсутствием развитых инструментов преобразования плохо структурированных данных в знания свидетельствуют о назревшей потребности интеллектуализации исследовательских эвристик, принятых в этой области, с последующей реализацией в современных компьютерных системах. Этим и определяется актуальность работы.
Развитие социологии как эмпирической науки неотделимо от перманентных дискуссий о соотношении теоретического, концептуального подхода к изучению социальных явлений и феноменологической составляющей этого процесса. Стремление придать социальным исследованиям по возможности объективный характер и распространявшееся долгое время представление об общности естественнонаучного и социально-исторического познания отразилось в намерении ряда исследователей использовать методы, обладающие достаточно развитым формальным аппаратом и принятые в естественных науках. Массовый характер многих социальных явлений и очевидные трудности учёта множества влияющих на них факторов привели к тотальному доминированию количественных и, прежде всего, статистических методов изучения социальной действительности.
Однако представление о единстве теоретико-методологических моделей естествознания социальных наук и соответствующее ему отношение к субъекту поведения как обезличенной типической модели трудно совместимо с интересом к изучению взаимодействия мотивированных, целенаправленно действующих, учитывающих важные для них факторы индивидуумов. Отсюда естественно возникает восприятие социологии как науки, «.стремящейся, истолковывая, понять социальное действие и тем самым каузально объяснить его процесс и воздействие"1, а социального действия — как осмысленного, соотносящегося с действием других людей и ориентирующегося на него.
Стремление к развитию «понимающей» социологии (не просто воспринимающей и описывающей непосредственно эмпирические явления, но и объясняющей смысловые связи в этих явлениях), анализу форм человеческих взаимодействий, не являющихся простым проявлением воздействия социальной структуры, привело к развитию качественных — в противоположность количественным — методов, концентрирующихся на.
1 М Вебер. Избранное: протестантская этика и дух капитализма. М.: РОССПЭН, 2006, с. 453. социальных взаимодействиях, личностном повседневном опыте действующего субъекта. Фундаментальной слабостью качественного анализа, рассматриваемого широко как исследование, не использующее формальных средств, оказалась прямая зависимость от способностей, здравого смысла и воображения исследователя, а порождаемые эмпирические теории заслужили статус уникальных и невоспроизводимых. С развитием компьютерной техники объективизация качественных исследований первоначально пошла по пути усовершенствования обработки, структурирования и управления данными, и здесь возможности современной генерации пакетов CAQDAS2 (Computer-Assisted Qualitative Data Analysis Software) выглядят достаточно впечатляющими.
Вызванный этим сдвиг стандартов в качественном анализе в сторону строгости заставил социологов обратиться к специалистам в области искусственного интеллекта (ИИ) с призывом к развитию средств, формализующих аналитические индуктивные стратегии создания теорий и связанные с этим когнитивные процессы абдукции. С точки зрения эпистемологического содержания качественный анализ видится как «восходящая» стратегия «доказательного и последовательного» построения теории на основе эмпирических фактов. Таким образом, речь идёт о получении нового знания из эмпирического материала. Формализация этой стратегии — формализованный качественный анализ социологических данных (ФКАСД) — предполагает создание инструмента для анализа нечисловых отношений и установление причин эффектов на основе этого анализа. Использование методов искусственного интеллекта (ИИ) в этом процессе позволяет говорить об интеллектуальном анализе социологических данных (ИАСД, knowledge discovery в социологии).
Целью диссертационной работы является создание логических средств для формализованного качественного анализа социологических данных с использованием методов искусственного интеллекта, а также разработка понятийного и логического аппарата для поддержки социологических исследований. Это означает, в частности, формализацию эвристик качественного анализа социологических данных для решения задач когнитивной социологии — направления в современной социологии, использующего когнитивные средства анализа данных, — и их реализацию средствами современных компьютерных интеллектуальных систем.
Вдохновляющим основанием для такой постановки является фундаментальный тезис об основной задаче интеллектуальных систем (ИС) как задаче конструктивной имитации и усиления (возможно, лишь до некоторой степени) познавательных способностей человека3. Реализация таких способностей в ИС предполагает наличие средств извлечения знаний.
2 Lewins A., Silver С. Using Software in Qualitative Research: A Step by Step Guide. London: Sage Publications, 2007.
3 См. Финн В. К. К структурной когнитологии: феноменология сознания с точки зрения искусственного интеллекта // Вопросы философии, 2009, № 1, с. 4 — 20. из баз фактов (БФ), автоматического порождения гипотез и объяснения имеющихся фактов на основании порожденных гипотез, а также способность осуществлять дедуктивный вывод из исходных и полученных знаний (баз знаний, БЗ).
Таким образом, интеллектуальный анализ социологических данных (ИАСД) — автоматическое извлечение интерпретируемых зависимостей, неявно содержащихся в массивах эмпирических данных, между различными факторами — позволяет говорить о возможности построения теории на основе эмпирических фактов средствами формализованных познавательных процедур в компьютерных системах высокого уровня. Такой анализ требует более высокого, чем это принято в качественном анализе, уровня формализации изучаемых психосоциальных явлений и нуждается в первичном структурировании данных и знаний и формировании системы отношений для них. Следующим шагом оказывается выбор адекватных предложенному представлению формальных средств анализа. В совокупности это означает создание формального языка с дескриптивной и аргументативной функциями — для представления данных и знаний (с возможностью определения их сходства) и формализации рассуждений (и выдвижения гипотез), соответственно.
Для реализации этих целей в диссертации решены следующие задачи: первичная структуризация данных и знаний о социальном субъекте и его поведении (действиях, поведенческих установках, мнениях) — разработка логических и понятийных средств для формализации правдоподобных рассуждений в базах эмпирических социологических фактов с нечисловыми параметрамилогическая формализация принципа влияния ситуации на поведение, позволяющая включать контекст поведения в структуру анализазадание формальной структуры закрытых опросов — теоретической основы для представления предсказательных опросовформулирование логических принципов анализа рациональности мненийсоздание архитектуры интеллектуальной системы типа ДСМ для формализованного качественного анализа социологических данных, включающей средства распознавания рациональности мнений.
Научная новизна работы состоит в формализации исследовательских эвристик социолога современными логическими средствами, позволяющими осуществлять каузальный анализ социального действия, решая, тем самым, задачи классической «понимающей социологии». Основным инструментом такого анализа является ДСМ-метод автоматического порождения гипотез, являющийся синтезом познавательных процедур4 — эмпирической индукции (формальных расширений и уточнений индуктивных методов Д.С. Милля),.
4 Финн В. К. Синтез познавательных процедур и проблема индукции // НТИ, Сер.2, 1999, № 1−2, с. 8−45. структурной аналогии и абдукции (принятия гипотез на основе объяснения исходных данных) Ч. С. Пирса. Источником детерминаций поведения при этом является сходство субъектов поведения. Формализация и уточнение указанных процедур для использования их при анализе эмпирических социологических данных является пионерской и не имеет прецедентов в современной практике — как социологической, так и в области исследований Искусственный интеллект. Заметим, что в качественном анализе социологических данных встречается неформальное использование методов Д. С. Милля. При этом очевидной подразумевается невозможность их формализации, а даже минимальное использование логических средств (булевой алгебры) в таком анализе воспринимается как «революция"5.
Расширение класса социологических задач — рассмотрение такой специфической формы поведения как мнение — потребовало адекватного расширения языка представления данных о мнениях индивидуумов и создания процедур для рассуждения «от причины — к следствию» (от сходства мнений — к сходству индивидуумов) — обратного ДСМ-метода. Включение ситуационных параметров реализации поведения также потребовало создания новых формальных средств их адекватного представления и учёта — ситуационной версии ДСМ-метода.
Существенным расширением имеющихся логических средств является реализация познавательной активности «анализ данных — предсказаниеобъяснение» в форме эвристики «алгебра логики — аналогия — абдукция» с использованием булевой алгебры для порождения гипотез о причинных зависимостях. При этом предлагаемые средства значительно превосходят по своим познавательным возможностям известный в мировой социологический практике инструмент качественного анализа данных — Качественный Сравнительный Анализ (Qualitative Comparative Analysis6, QCA) американского социолога Ч. Рейджина, где используется лишь одна составляющая предлагаемой схемы: анализ сходства примеров социальных явлений средствами алгебры логики.
Другим новым направлением является точное определение закрытых опросов посредством задания формальной структуры. Предлагаемая теоретическая концепция предусматривает использование средств многозначных логик аргументации, формализующих шкалы оценок результатов опросов. В рамках этой структуры создаются логические и процедурные средства распознавания и предсказания рациональности результатов опроса, понимаемой как выбор вариантов ответов на основе аргументационной схемы. Использование средств формальной аргументации для автоматического формирования мнений меняет традиционную опросную схему и позволяет объективизировать социологические данные, являющиеся.
5 Vaisey S. QCA 3.0: The «Ragin Revolution» Continues // Contemporary Sociology: A Journal of Reviews, 2009, vol.38, No 4, p. 308−312.
6 Rihoux B., Ragin C.C. (eds). Configurational Comparative Methods. Qualitative Comparative Analysis (QCA) and related techniques (Applied Social Research Methods). Thousand Oaks. CA and London: SAGE Publications, Inc. 2009. исходными для формализованных процедур рассуждений. Интеллектуальный анализ данных осуществляется, таким образом, для целого класса закрытых опросов со стабилизированным множеством ответов (при расширении множества респондентов новые варианты ответов не появляются) и формализацией когнитивных рассуждений.
Развитые теоретические принципы и логический аппарат формализации закрытых опросов позволяют охарактеризовать идеальный тип опроса, выражающий концептуализацию технологии анализа и прогнозирования мнений. Идеальный тип составляет каркас новой технологии социологического опроса — с использованием аргументационной семантики и логической структуры опроса, — допускающий реальные технологические приближения.
Наконец, формализация качественного анализа средствами ИИ, т. е. интеллектуальный анализ социологических данных, может рассматриваться как новый когнитивный инструмент — формализованная оболочка для решения проблем когнитивной социологии, — который реализуется в современных интеллектуальных системах (ИС типа ДСМ).
Теоретическая и практическая значимость работы.
Теоретическая значимость работы состоит в разработке средств представления и объективизации фактов (результатов эмпирических наблюдений) и знаний (результатов применения когнитивных процедур) о социальном поведении и мнении, создании концептуального и логического аппарата формализованного качественного анализа социологических данных, использующего правдоподобные (нестатистические) рассуждения — ДСМ-метод автоматического порождения гипотез. Формальный аппарат может служить не только логическим средством анализа эмпирических социологических данных о поведении социальных субъектов (как индивидов, так и социальных общностей), но и даёт возможность приближения к логической реконструкции идей классической «понимающей» социологии, в частности построения формальной теории каузального объяснения социального поведения. Разработка теоретических принципов и логического аппарата для формализации закрытых опросов, анализа мнений и логических средств распознавания рациональности мнений, включающих средства формальной аргументации, также имеет несомненную ценность для развития объективных подходов в субъективной области социальных исследований.
Практическая ценность работы заключается в разработке научных основ технологии интеллектуального анализа социологических данных, в частности технологии социологического опроса и нестатистического изучения мнений. Для реализации технологий такого рода предусмотрена специальная архитектура Интеллектуальной системы типа ДСМ, включающей как средства предварительной обработки эмпирических социологических данных, так и специфические процедуры для их анализа. Система дополняется инструментами анализа рациональности мнений на основе аргументационной семантики и ДСМ-рассуждений. Предложенные подходы могут быть использованы для анализа и предсказания результатов реальных опросов.
Достоверность и обоснованность результатов определяется использованием комплекса методов математической логики и интеллектуального анализа данных — ДСМ-метода автоматического порождения гипотез, прежде всего. Подтверждением этого являются практические исследования — изучение поведения рабочих на конфликтных предприятиях (совместно с Институтом социологии РАН), а также анализ электоральных предпочтений и рациональности электорального выбора студентов (совместно с РГГУ).
Структура диссертации и краткая характеристика ее содержания.
В Первой главе рассматривается процесс развития подходов к качественному анализу социологических данных — от качественного анализа как такового до использования компьютерных инструментов. Эволюция последних означает переход от простой компьютерной обработки данных к современному интеллектуальному анализу данных.
В главе представлен обзор современных средств компьютерной поддержки качественных исследований — САСЮАЭ. Если суммировать возможности последней генерации пакетов САСЮАБ, можно утверждать, что главные достижения этих инструментов лежат в области обработки, структурирования и управления данными (текстами, графическими объектами, аудио-, видео-), но никак не в области анализа — извлечения нового знания из имеющихся данных.
Использование компьютера способствует реабилитации качественного анализа в глазах «жёстких» позитивистов и более широкому его распространению, в особенности там, где слабости количественного подхода очевидны. Но САС? ОА8 не заменяет аналитика, а лишь усиливает возможности исследователя по кодированию текстов и упорядочиванию данных. К сожалению, часто при работе с САСЮАЭ эксплуатируется лишь возможность управления данными, а более продвинутые опции остаются невостребованными.
Разумеется, эффективное усиление познавательной деятельности возможно лишь там, где выбор инструмента соотносится, прежде всего, с природой задачи и потребностями исследования. Это составляет первый принцип.
С момента появления «Системы логики» английского философа и логика п.
Д. С. Ми л ля теоретическую социологическую мысль прельщала возможность использования индуктивных правил для анализа социологических данных, хотя и сам Д. С. Милль, и Э. Дюркгейм, и др. отмечали ограниченность их возможностей в этой области. Современные исследователи готовы числить методы Милля инструментальным.
7 Последнее издание на русском языке: Милль Д. С. Система логики силлогистической и индуктивной. М.: ЛЕН АНД, 2011. воплощением приёмов экспериментальной социологии, но в неформальном виде — ввиду отсутствия в их распоряжении формализаций этих методов.
Для реализации этих устремлений, для решения проблем качественной социологии в качестве инструмента современного интеллектуального анализа социологических данных предлагается ДСМ-метод автоматического порождения гипотез, реализующий формализованный качественный анализ социологических данных — формальный анализ нечисловых отношений.
Глава 2 посвящена построению формальных оснований для поиска закономерностей социального поведения. Предлагаются подходы к решению проблемы логической систематизации социологических знаний, т. е. выделения исходных отношений и установления зависимостей между ними, разрабатывается логический язык для представления данных и знаний о субъекте и поведении, а также формализации рассуждений о фактах социальной действительности. Описываются формальные средства ДСМ-метода автоматического порождения гипотез (ДСМ-метода АПГ), предназначенные для автоматического извлечения интерпретируемых зависимостей из имеющегося эмпирического материала. ДСМ-метод представляет собой специальный класс рассуждений (ДСМ-рассуждения), реализующий синтез познавательных процедур — эмпирической индукции (формальных расширений и уточнений индуктивных методов Д. С. Милля, в честь которого и назван метод), структурной аналогии (переносе гипотез о причинах на случаи с неопределенным исходом) и абдуктивного рассуждения Ч. С. Пирса как средства принятия гипотез на основе объяснения начальных данных. Будучи методом интеллектуального анализа данных, в приложении к анализу нечисловых социологических данных ДСМ-метод оказывается современным инструментом формализованного качественного анализа социологических данных (ФКАСД).
Рассматривается два класса задач: анализ социального поведения, реализующий рассуждение типа «от причины — к следствию» — прямой ДСМ-метод, — и анализ мнений, где реализуется тип рассуждений «от следствия — к причине», обратный ДСМ-метод. Соответственно, описываются предикаты и правила правдоподобного вывода (п.п.в.) для прямого и обратного методов.
Фундаментальным принципом качественного анализа данных является принцип «сходство фактов влечет наличие (отсутствие) изучаемого эффекта и его повторяемость». Конкретизируя его для реализации идеи причинности, можно сказать, что в рамках качественного анализа исследуется тип каузальности «структура — эффект» (а не «явление — явление»). Гипотетические причины представляются в виде сходств фактов, имеющих определенную структуру, т. е. «сходство» в этой схеме является нестатистическим и может анализироваться посредством логико-алгебраического подхода (С>СА) и средств интеллектуального анализа данных, включающих формализацию индуктивных процедура (ДСМ-метод АПГ). Подчеркнем, что порождение причинно-следственных зависимостей на основе структурного сходства позволяет анализировать небольшие массивы данных (например, малые группы), что является несомненным преимуществом качественного анализа по сравнению с количественным при решении ряда проблем.
Этим проблемам соответствует круг задач формализованного качественного анализа. Соответственно, интеллектуальный анализ социологических данных (ИАСД) и реализующая его интеллектуальная система предполагают возможность.
— исследования индивидуального поведения, порождения детерминант поведения и типологизации социума на их основе;
— анализа и прогнозирования мнений респондентов как варианта поведения;
— выяснения влияния ситуации на поведение индивидуума;
— анализа рациональности мнений (в т.ч. степени рациональности мнений данной социальной общности).
Основой структурированного представления знаний о субъекте поведения является так называемый «постулат поведения» — один из основных принципов формирования БЗ в ИАСД. Пусть имеются три множества характеристик, входящих в описание субъекта поведения: признаки, представляющие социальный характер субъекта (^С) — индивидуальные черты личности (1Р) — биографические данные (ВП). Поведение В субъекта С определяется подмножеством характеристик таким, что Эег = Г^и/)^^^, где (?>е*3с (Ш))), причем хотя бы одно Ие^ * 0, / = 1, 2, 3. Таким образом, индивидуальные характеристики социального субъекта являются информативным основанием для порождения детерминант социального поведения и, соответственно, материалом для построения возможных моделей социальной структуры с использованием установленных детерминант поведения.
Важнейшим принципом ИАСД является принцип адекватности методов анализа природе задачи, в соответствии с тремя типами предметных областей: (а) факты, образующие систему случайных событий, должны изучаться статистическими средствами- (Ь) причинно-обусловленным явлениям отвечают детерминистские методы анализа- © области, где детерминациям сопутствуют случайные возмущения, требуют смешанных инструментов. «Понимающая» социология относит социальные взаимодействия к каузально обусловленным явлениям, следовательно, здесь востребованы средства формализации правдоподобных рассуждений.
Для успешного применения ДСМ-метода необходимо выполнение ряда условий: формализуемость отношения сходства между позитивными (+) — и негативными (-)-фактами (далее иногда — (±-)-фактами) мира (социума), наличие в БФ позитивных и негативных примеров изучаемого эффекта поведения и предполагаемая (±-)-квазисимметрия причин (существенных влияний) проявления этих эффектов. Эти условия описывают класс задач, для решения которых создаются различные ИС, реализующие один тип формализованных эвристик: «индукция — аналогия — абдукция».
Абдуктивное принятие порождаемых гипотез реализует принцип объяснения результатов правдоподобного рассуждения в ИАСД.
ДСМ-метод состоит из: описанных условий применимостиправдоподобных ДСМ-рассуждений (синтеза трех познавательных процедур), представленных в формальном языке с дескриптивной и аргументативной функциямиквазиаксиоматических теорий КАТ для представления и систематизации открытого множества знаний о предметной областидедуктивной имитации правдоподобных рассуждений в КАТ (гарантирующей корректность их результатов) — интеллектуальных систем с Рассуждателем, реализующим ДСМ-рассуждения (ИС-ДСМ), и базой знаний БЗ, представленной соответствующей КАТ. Это означает реализацию в ИС-ДСМ главного принципа ИАСД — имитации познавательной деятельности «анализ данных — предсказание — объяснение» средствами формального языка с дескриптивной и аргументативной функцией.
В Главе 2 представлены формальные средства ДСМ-метода автоматического порождения гипотез — прямого («от причины — к следствию», сходство субъектов поведения влечёт сходство их поведения) и обратного («от следствия — к причине», сходство мнений означает сходство индивидуумов, выражающих эти мнения) типов рассуждения.
Для формализации ДСМ-рассуждений формулируется язык представления знаний (ДСМ-язык), включающий переменные и константы для объектов (субъектов поведения) и их свойств (эффектов поведения). Предикатные символы языка =>ь =>2, з<= соответствуют отношениям в БФ и БЗпомимо связок двузначной логики —&, v, —язык включает унарные логические связки — J-операторы Россера-Тюркетта J-, где V— (v, п) или v = т, п), v е {1, -1, 0}, п = 0, 1,2, .- 1, -1, 0, т — типы истинностных значений «фактическая истина», «фактическая ложь», «фактическое противоречие» и «неопределенность», соответственно. Термы и формулы языка определяются стандартным образом, но с добавлением формул переменной длины для отображения сходства конечного, но заранее не определённого числа примеров.
Структуризация фактов и знаний о социуме состоит в задании двух булевых алгебр — (2и<>, 0, U (1), —, n, u) (U (1) — множество характеристик социальных субъектов) и = (2U<), 0, U (2), —, n, u) (U (2) — множество эффектов их поведения, т. е. действий, установок, мнений) и предикатов =>:
2 х 2 Vw, =>2: 2×2 Уш, 2×2 где Vin множество «внутренних» (эмпирических) истинностных значений. V («= {(v, п) | (ve{l, -1, 0})&(леАО}и{(т, п) | neN}, N — множество натуральных чисел. 1, -1, 0, т — типы истинностных значений- (v, п) — истинностные значения (пих степень правдоподобия, выражающая число применений правил правдоподобного вывода) — (т, и) = {(1, п+1>,(-1, «+1>,(0, и+1)}и (т, п+1), ср
Внешние" истинностные значения Уех= {?,/}, где / и/- истинностные значения двузначной логики «истина» и «ложь», соответственно. Внутренние истинностные значения используются для представления фактов и гипотез, внешние — для представления высказываний о фактах (фактов с оценками) и п.п.в. /уф = если у[ф] = V, = / если у[ф] Ф V, где у[ф] - функция п оценки. У (у> &bdquo-)ф = V ¿-(у, «>ф.
I = 1.
Массив начальных данных содержит высказывания типа «высказывание «субъект С обладает эффектом поведения имеет истинностное значение (у, п)» (или (х, п)), что представляется формулой -&bdquo-)(С =>1 С£) (или &bdquo-)(С :=>! С))) в ДСМ-языке. Здесь -1, 0, т} - типы фактических истинностных значений, и-номер шага вычислений, отражающий степень правдоподобия истинностного значения. Высказывания вида, о>(С =>1 СО суть факты, /(у, &bdquo->(С =>у О) (/ = 1, 2) и /(Уп)(С' 3<= СП, п>О, — гипотезы.
В результате применения правил индуктивного вывода п.п.в.-1 (правил правдоподобного вывода 1-го рода) порождаются гипотезы вида У (у, П)(С' =>2 С>) или &bdquo-)(С' 3<= С*') (в зависимости от используемой стратегии анализа данных), п>0. &bdquo-)(С' =>2 означает, что «высказывание «подмножество характеристик субъекта С' есть причина эффекта поведения имеет истинностное значение (V, «>» «. Соответственно, &bdquo->(С' 3<= Q') означает, что «высказывание «эффект поведения С)' предполагает наличие характеристик субъекта С» ' имеет истинностное значение (у, п) г>. Иными словами, предикаты V =>2 и з<= V представляют порожденное из предиката Х=>, У отношение причинности. Таким образом, в этом процессе в автоматическом режиме формируются фрагменты базы знаний (БЗ) интеллектуальной системы типа ДСМ, поскольку гипотезы о причинах, представляющие сходство фактов, являются обобщением знания. ДСМ-рассуждение формализуется средствами бесконечнозначной логики предикатов (1-го порядка для конечных моделей и слабой логики предикатов 2-го порядка для бесконечных моделей).
Для формализации индукции определяются предикаты простого прямого сходства М?"(У, ае{+, -}, где п — параметр, отображающий число применений правил правдоподобного вывода к БФ. Возможна и иная стратегия индуктивного анализа, определяющая обратный метод сходства, когда реализуется принцип «сходство эффектов поведения определяет сходство самих субъектов поведения». Для этого варианта с некоторыми модификациями определяются предикаты простого обратного сходства (сте{+, -}), которые содержат подформулы, описывающие условия, подобные условиям М°п{У, У). Собственно гипотезы о причинах есть результат применения правил правдоподобного вывода 1-го рода (1)ст и (Т)а (сте{+, -, 0, т}), включающих предикаты Маап (У, Щ и Маа"(У, ?) (сте{+, -}), соответственно, в качестве посылок. Таким образом, отношение, представленное в БФ предикатом Х^У, посредством (1)° и (1)а (ае{+, О, т}) порождает отношения =>2* и *3<=, соответственно. Эти отношения представлены множеством гипотез Нь являющимся фрагментом БЗ — части КАТ.
Предикаты сходства — как прямого, так и обратного — могут быть дополнены условиями, повышающими правдоподобие порождаемых гипотез и носящими название «усиливающих добавок». Построение множества индуктивных предикатов позволяет формировать различные стратегии порождения гипотез о причинах включением различающихся по силе предикатов в посылки правил правдоподобного рода п.п. в. -1 для обратного и п.п.в.-1 для прямого методов.
Следующий шаг ДСМ-рассуждения — вывод по аналогии для уточнения неопределённостей 7(т5и)(У=>^) из БФ — выполняется посредством правил правдоподобного вывода 2-го рода (п.п.в.-2 (П)а для прямого и п.п. в.-2 (II)а для обратного, (сте{+, 0, т}). Для посылок этих правил для прямого ДСМ-метода АПГ формулируются предикаты И°п (V, У) с использованием гипотез о причинах о/(У")(Х=>2^), ve{l, -1, 0, т}. Для обратного метода формулируются предикаты П^ (V, W) с использованием гипотез.
7(у «)(Уз<=Х). Гипотезы, порожденные посредством (11)° и (II)а, образуют множество Н2, составляющее часть БЗ.
ДСМ-рассуждение состоит из последовательного применения правил правдоподобного вывода 1-го и 2-го рода до стабилизации множества порождаемых гипотез. Этот этап ДСМ-рассуждения образует цикл применения двух познавательных процедур — индукции и аналогии. Вторым этапом ДСМ-рассуждения является абдуктивное объяснение начального состояния БФ, т. е. принятие порожденных гипотез первого и второго рода посредством рассуждения, формализующего абдукцию Ч. С. Пирса.
Реализация отношения объяснения БФ порожденными гипотезами о причинах Н1 формализуется посредством аксиом каузальной полноты (АКП (±-) для прямого метода и, А К П (±-) для обратного) предметной области (социума) ?(±): «всякий эффект социального поведения У субъекта X имеет причины VI, ., Ук, его вызывающие».
А К П (±-) и АКП (±-) являются критерием достаточного основания для принятия гипотез. Если эти аксиомы выполняются для БФ, то порожденные гипотезы принимаются на достаточном основании. В противном случае БФ расширяется для всех тех фактов, которые не объясняются — АКП (±-) или АКП (±-) (в зависимости от принятой стратегии рассуждений — прямой или обратной) ложны относительно соответствующих пар (С, С>), где С — объект, армножество его свойств. После расширения БФ ДСМ-рассуждение продолжается до достижения некоторого заранее заданного порогового значения степени каузальной полноты — отношения числа объяснённых фактов из БФ к общему числу фактов в БФ.
Формализованный качественный анализ социологических данных средствами ДСМ-метода автоматического порождения гипотез позволяет решать задачи социологии и социальной психологии. Первый тип задач предполагает исследование индивидуального поведения, порождение детерминант поведения и типологизацию социума на их основе. Проблемы как собственно социологии, так и социальной психологии решаются в рамках анализа и предсказания мнений (также с выявлением детерминаций и возможного определения структуры социума на их основе), дополняемого определением рациональности этих мнений специально созданными средствами.
Задача первого типа решалась на примере изучения солидарного поведения рабочих на конфликтных предприятиях (в частности, участия или неучастия в забастовке). Поскольку информативность представления субъекта в этом случае превосходит информативность описания его действий, в качестве стратегии анализа был выбран прямой ДСМ-метод АПГ.
Эмпирической базой эксперимента были данные, полученные сотрудниками лаборатории проф. В. А. Ядова Института социологии РАН при изучении рабочих двух предприятий: завода «Арсенал» в Санкт-Петербурге и Завода тракторных гидроагрегатов в г. Ельце.
В результате анализа имеющихся данных средствами ДСМ-метода автоматического порождения гипотез были выявлены детерминанты различных видов поведения и на основе этих детерминант социологами определены различные поведенческие типы, т. е. сформированы эмпирические социологические понятия.
Для решения второго типа задач ФКАСД — анализа и прогнозирования мнений — была выбрана стратегия обратного ДСМ-метода АПГ, поскольку информативность представления мнений значительно превосходит представление характеристик индивидуума. Реализация этой стратегии возможна лишь при наличии адекватной структуризации мнений и представлении их в виде, отвечающем условиям применимости ДСМ-метода (подобно тому, как было структурировано описание индивидуумов на основании постулата поведения). Это составляет один из разделов Главы 3. Здесь же представлены формализации т-значных закрытых социологических опросов средствами специально созданных многозначных Уш-логик. Описываются критерии рациональности результатов опроса — степень непротиворечивости, степень близости к «идеальному мнению», степень согласованности. Предложенные характеристики уточняются для предсказательных опросов, когда средствами выбранной формальной эвристики порождаются возможные ответы респондентов. Принцип классификации различных структур опросов в ИАСД является теоретической и практической основой подхода к формированию баз социологических фактов.
Семантика ДСМ-метода для анализа и прогнозирования мнений описывается следующим образом. Пусть задана некоторая тема опроса Т, характеризующаяся утверждениями из множества Р = {рь ., р&bdquo-}. Задана функция оценки у[р-] с областью значений {1,-1, 0, т}. Каждому элементу р7 = 1, ., п) каркаса Р соответствует вопрос? р7 — «Какова оценка V корня вопроса pJ ?», у е {1, -1, 0, т}, ответом на который является высказывание Ля,-ЛР/ = если у[р,] = у- ^^ =/ если у[р,] Ф у.
Ответом у'-го респондента по теме Т будем назвать максимальную КОНЪЮНКЦИЮ фу = -/о>Р1&.&•/<,> ри (вид мнения), где ф7 — метасимвол, «=» предикат графического равенства формул, у^[р-] = у,^, у^ е{±-1, 0, т}, г = 1, ., пу = 1, ., 4″. Такой ответ представляет собой понимание у-м респондентом темы Т. Множество членов этой конъюнкции обозначим [ф,]={ J и) рь .,</ ыр&bdquo-} и будем назвать составом мнения.
Предлагаемая семантика позволяет формализовать анализ мнений средствами ДСМ-метода АПГ в соответствии со следующей стратегией. Формулируется тема мнения, пригодная для построения модели социальной структуры. Затем задается система вопросов, раскрывающих содержание темы — каркас темы. Оценка эмпирического отношения С =>1 0 («субъектмнение») есть оценка отношения к теме в целом, — состав мнения субъекта С ((2 = [ф]). Задача изучения мнений сводится к изучению высказываний из БФ /д (С,=>х[ф7]) — «субъект С, имеет мнение фу». В результате применения правил индуктивного вывода обратного ДСМ-метода (п.п.в.-1) порождаются гипотезы вида Уд ([ф^] 3<= С — «мнение ф7 определяет наличие характеристик субъекта С’у». Порожденные детерминанты мнений в дальнейшем используются для прогнозирования мнений с помощью правил вывода по аналогии (п.п.в.-2), а также служат основанием для построения модели структуры изучаемого социума. Здесь Су, С'7, [ф7], [|/у] - константы, Су,.
С) е 2и (', [ф,], [\fjl е 2и°, = {¡-ир Г) — истинностное значение, полученное применением ДСМ-метода АПГ, где //7е{±-1, 0}, или Т1] = (т, Г), I — число применений ДСМ-правил правдоподобного вывода.
Социологический опрос не случайно представляется на уровне обыденного сознания «визитной карточкой» социологии. Формальное представление структуры опроса обеспечивает унификацию процедур проведения опроса и позволяет упорядочить некоторые результаты опроса на основании численных критериев рациональности для различных социальных общностей.
Рассмотрим общий случай т-значного (т> 2) закрытого социологического опроса: респонденту предлагается выбрать один из т предложенных ответов. Логическими средствами формализации т-значного опроса являются т-значные логики Зт и исчисление эквивалентных формул ИЭФ-ЛД Ответом на вопрос «Какова оценка у корня вопроса ру ?» для элементов ру (/ — 1, ., п) каркаса Р, как и выше, является высказывание Лр7, однако в этом случае УбУт. Понимание /-м респондентом темы Т.
8 Finn V.K., Mikheyenkova M.A. Plausible Reasoning for the Problems of Cognitive Sociology // Logic and Logical Philosophy, Vol. 20 (2011), pp. 113 — 139. отображается в его ответе С, = Jvi, 1p]&.&Jvlnpn, представляющем 3максимальную конъюнкцию логики Зт.
Пусть при опросе респондентов получено стабилизированное множество ответов К’сК, которое не изменяется при расширении множества опрашиваемых. Стабилизированному множеству ответов К соответствует множество респондентов Я = {Ъ, ., Ъг}, Я = {X | ЗфЗу^У-0>(Х=>1[ф])&(фе/Г)&(уеУот)}. Тогда множество респондентов Я можно считать качественным аналогом репрезентативной выборки статистического анализа.
Итак, простой эмпирический т-значный социологический опрос (т>2) От по теме Т со шкалой оценок Ут = {0, 1} реализуется средствами дедуктивной га-значной логики и может быть представлен в виде От = (Ут, Р, К', Я, Х=^>]У>, причем К' задается исследователем-социологом в результате эмпирического получения стабилизированного множества ответов. Анализ результатов такого опроса производится средствами ДСМ-метода автоматического порождения гипотез.
Средства логики и ИЭФ-Л, позволяют дополнить это описание. Рассмотрим непротиворечивое множество Х={|/ь ., ц/у} формул |/ь ., логик выражающих логические зависимости между элементами каркаса Р — корнями вопросов? рь ., ?р&bdquo-. Указанные зависимости задаются исследователем и, таким образом, представляют имплицитное экспертное знание относительно темы Т.
Введение
множества И позволяет определить простой расширенный эмпирический опрос Оет = {Зт, Р, И, К', Я, Х=>1У).
Описанная семантика ДСМ-метода АПГ для анализа мнений включает возможность описания и анализа аргументированных мнений, представляющих вариант рациональных мнений. Предположим, что у респондентов имеется некоторое множество, А аргументов и контраргументов, которое используется для определения функций выбора аргументов §-,+(р7) и контраргументов § Г (Р/) ¿—го субъекта. Здесь Р = {рь ., ри} - каркас (содержание) темы опроса Т, р7 — атомарные высказывания, характеризующие Т, а? ЛР/ - вопросительный терм: «верно ли, что у[р-] = V?», где V е{1, -1, 0, т}, V — функция оценки (например, у[ру] = 1 если и только если gi+(p/) ^ 0 и вГ (Р/) = 0 для г-го респондентааналогично определяются оценки -1, 0, т).
Опрос, в котором формирование оценок осуществляется на основании аргументационного выбора, называется аргументационным: 0° = </т, Р, К', Я, Х=>]У, А, {<5,} 1<�г<|к|Х Расширенный аргументационный опрос Оате = (Л?, Р, Е, К', Я, Х=>1 У, А, {С,} 1<,<|я|>.
Одной из важнейших характеристик рациональности мнения является его непротиворечивость. Степень непротиворечивости результатов опроса может задаваться функцией 5(К, А) = 1 -|/ГпЛ| I К. Здесь К и КгАчисла элементов множеств 1С и 1СглА, соответственно, А — множество всех возможных мнений такое, что для любого ере, А? и{ф} противоречиво. Для вычисления функции Ь (1С, А) используется метод аналитических таблиц для логик /А2, ./А3, /А4 и Ж5 (2-х, 3-х, 4-х и 5-значных логик с аргументационной семантикой, соответственно).
Для рассматриваемой социальной общности (респондентов опроса) может быть сформировано «описание состояния рациональности» — с помощью специально определенных предикатов Р^К) (Ь= 1,2,3- в е {0, х, 1}). Предикат Р^А7) для в = 0, х, 1, соответственно, определяется следующим образом: 5(1С, А) = 0, 3х (Ь (К', А) = х&0<�х<1), Ь (К', А) = 1 (1Спеременная, А фиксировано, поскольку фиксировано множество ?). Этот предикат представляет собой 1-й критерий рациональности результатов опроса — степень его непротиворечивости.
Можно определить также предикаты Р2^1С) и Р30(/Г) (0 е {0, х, 1}, 0<х<1), представляющие специфические для электорального поведения критерии рациональности. Р2^(Ф') характеризует степень близости мнения респондентов из электората /-той партии к «идеальному мнению» сторонника этой партии, представленному принятием программных положений партии. Рз ¿-1С) представляет согласованность (однородность) мнений электората /той партии.
Эмпирическое исследование второго типа задач ИАСД — анализ и прогнозирование мнений респондентов, а также анализ рациональности мнений — было осуществлено на массиве данных об электоральных предпочтениях студентов старших курсов РГГУ на выборах в Государственную Думу 2003 и 2007 гг. В работе принимали участие сотрудники, студенты и аспиранты Социологического факультета РГГУ, а также студенты и аспиранты Отделения интеллектуальных систем в гуманитарной сфере Института лингвистики РГГУ.
В результате применения обратного ДСМ-метода были порождены гипотезы о комплексах характеристик, соответствующих тому или иному отношению к программным положениям партий (среди представителей электоральных общностей).
Для анализа рациональности в качестве элементов И были выбраны формулы вида (х->Ф)> которые характеризовали логические связи между относящимися к одним и тем же темам пунктами программ различных партий. В обоих экспериментальных исследованиях для сторонников различных партий были вычислены значения описанных выше критериев рациональности, определено отношение частичного порядка =< для полученных значений критериев и построена диаграмма этого отношения.
Нетривиальной особенностью описанного формализованного качественного анализа социологических данных является пополнение базы знаний доопределенными посредством вывода по аналогии примерами отношения =>]*, а также возможность расширения базы фактов БФ на основе абдуктивного принятия (непринятия) гипотез. Множество респондентов, участвующих в опросе пополняется гипотезами о наличии у заранее не определившихся со своими мнениями респондентов тех или иных вариантов ответов, полученными средствами ДСМ-метода. Это означает реализацию предсказательного опроса. Предсказательные опросы могут быть представлены следующими структурами.
Простой эмпирический предсказательный опрос Opmrx = (Jm, J^ Р, К', R,.
X=>iY, V 3<=W), где Уш (оо) — множество «внутренних» (эмпирических) истинностных значений бесконечнозначной ДСМ-логики. Уш (со) = «v, п) (ve{1, -1, 0})&(«eiV)}u{(x, ri)| neN}, N-множество натуральных чисел.
ОО,&trade- = (Jm, Jco, Р, ?, К', R, X=>jY, V 3<=W> - расширенный эмпирический предсказательный опрос. о: г-: — = (Jm, J^ Р, I, К', R, X=>, Y, V 3<^W, A, {G,}^,) — расширенный аргументационный предсказательный опрос.
В Четвёртой главе предлагается рассмотрение двух подходов к реализации познавательной схемы «анализ данных — предсказаниеобъяснение». Первый, конкретизирующий уточнение этой схемы синтезом познавательных процедур «индукция — аналогия — абдукция» и представляющий класс когнитивных рассуждений, реализован в ДСМ-методе автоматического порождения гипотез. Второй восходит к Качественному сравнительному анализу (QCA) американского социолога Ч. Рейджина и использует для поиска сходства социологических объектов аппарат булевой алгебры. Дополнение логико-алгебраических процедур поиска сходства QCA адекватными процедурами вывода по аналогии и абдуктивного объяснения позволило говорить о реализации общей эвристической схемы «сходство-аналогия — абдукция» (AlAnAb).
Для ./&bdquo-¡—логик, являющихся средством формализации m-значного опроса, верна теорема о представимости всякой не эквивалентной 0 формулы ф логики высказываний Jm посредством совершенной дизъюнктивной нормальной формы Лг-СДНФ (Jm-СЗф) и притом единственным образом. Формулируется обобщение алгоритма Куайна для перевода Ут-СДНФ в сокращенные-ДНФ. Применяя последовательно, пока это возможно, «обобщенное склеивание» и поглощение к формуле ф логики Jm (в нашем случае-к дизъюнкции мнений ф, = J <�" pi&.& J ," р&bdquo-, v^fpj = vj-l у/г)еУт, у' 1, ., п, i = 1, ., тп из начального состояния БФ), получим Эф-сокращенную ДНФ формулы ф. Полученные импликанты используются для определения отношения причинности.
Каждый из представленных вариантов формализованных когнитивных эвристик «сходство — аналогия — абдукция» обладает своими возможностями. Гипотезы о причинах, порождаемые в алгебраическом подходе, являются максимальными по числу использовавшихся при их порождении примеров (что, соответственно, повышает степень их правдоподобия), однако число таких гипотез меньше числа ДСМ-гипотез. При этом по самой процедуре построения множества гипотез о каузальных зависимостях в этом подходе степень каузальной полноты, как правило, превышает аналогичный показатель для ДСМ-метода.
Эти различия обусловлены, в первую очередь, исходными онтологическими предпосылками, характеризующими области применимости обоих подходов. ДСМ-метод изначально ориентирован на открытые предметные области, где эмпирические данные и знания неполны, процедуры извлечения знаний из фактов включают правдоподобные рассуждения, а данные и знания могут пополняться не только за счет порожденных гипотез, но и внешним образом, на основании признания недостаточности полученных результатов. ДСМ-метод есть инструмент машинного (индуктивного) обучения. Алгебраический же подход создавался для анализа имеющихся данных в предположении, что ничем иным исследователь не располагает (к примеру, когда число примеров заведомо ограничено или провести новый эксперимент, опрос не представляется возможным). Это лишний раз напоминает о необходимости выбора средств анализа, адекватных природе исследуемой области.
В Главе 5 описываются формальные средства ситуационного расширения ДСМ-метода автоматического порождения гипотез — прямого и обратного типов рассуждения. Учёт параметров ситуации, в которой реализуется поведение, составляет один из принципов ИАСД.
Необходимость включения контекста поведения в систему анализа означает переход от изучения отношения «субъект=>поведение» к отношению «(субъект, ситуация) => поведение», которому соответствует исходный предикат Р (Х, У,8), интерпретируемый как «субъект X обладает (не обладает) множеством свойств У в ситуации Б». В результате индуктивного анализа порождается предикат причинности /?,((У, 8'), У) — «пара (подмножество характеристик V и фрагмент ситуации 8') есть причина наличия (отсутствия) множества свойств Я, (/=1, 2, 3, 4) характеризует структуру мира — насколько в ней существенны сам объект и ситуация проявления свойств. Пусть соответствует условию.
У*0&-8'=0), Я2 — условию (У*0&-8'*0), Д3 — условию (У=0&-8'*0), Я4=Я.
Изучение влияния ситуаций на поведение потребовало расширения ДСМ-языка включением переменных 8, 8Ь., 8″. и констант.
8,81,., 8/? .3-го сорта для ситуаций, а также задания булевой алгебры ситуаций ^ = (2и (>, 0, и (3), —, п, и), где и (3) — множество ситуационных параметров.
Решающий предикат тернарного положительного сходства-2.
2М*п (У, У,8оЛ)> непараметрический вариант которого используется в индуктивных п.п.в.-1, имеет структуру, сходную со структурой предиката простого сходства. Индекс «2» указывает на реализацию причинной зависимости Я2, где существенными детерминирующими факторами являются как особенности личности, так и внешние обстоятельства (У0&-80). Предикат тернарного отрицательного сходства формулируется аналогично. Для анализа исходных фактов вида У (0> пуР (С, А, 8), представляющих примеры противоречивых фактов, формулируется предикат тернарного конфликтного сходства-2 2М°ап (У,¥-, 80,/:). Это приводит к изменению правил правдоподобного вывода 1-го рода п.п.в.-1 (1)°2, предназначенных для конструктивного порождения оценки «фактическое противоречие» и позволяющих осуществлять логический анализ модели конфликта. Соответственно, формулируются правила правдоподобного вывода по аналогии п.п.в.-2 для прямого ситуационного метода и п.п. в.-2 для обратного, а также аксиомы каузальной полноты АКП (±-) и, А К П (±-), соответственно.
Глава 6 представляет результат исследований как создание инструмента для решения задач нового направления когнитивной социологии — изучения как собственно познавательной деятельности в исследовании социальных явлений, так и влияния познавательной активности индивидуумов на поведение. Предложенные средства предполагают совместное использование стандартных эвристик формирования массива данных (т.е. предварительной содержательной работы социолога) и формализованных эвристик анализа данных для решения социологических проблем на основе эмпирического материала. Эвристики формализуются средствами ДСМ-метода автоматического порождения гипотез в Интеллектуальных системах типа ДСМ.
Архитектура интеллектуальной системы (ИС), предназначенной для приближенного отображения познавательной деятельности «анализ данныхпредсказание — объяснение» представляется следующим образом9: ИС = Решатель задач + Информационная среда (БФ+БЗ) + Интеллектуальный интерфейс. Решатель реализует познавательные процедуры и включает Рассуждатель, Вычислитель и Синтезатор. В ИС-ДСМ Рассуждатель реализует процедуры ДСМ-метода автоматического порождения гипотез, формализующие соответствующую эвристику анализа данных. Вычислитель обеспечивает потребности количественного анализа (который может оказаться востребованным для некоторых видов социологических данных), сюда же можно отнести вычисление предложенных в работе критериев рациональности мнений. Синтезатор регулирует взаимодействие Рассуждателя и Вычислителя. В результате работы соответствующих ИС из данных порождаются гипотезы о закономерностях, которые обнаруживаются в расширяемых (вследствие потребностей абдуктивного объяснения имеющихся фактов) последовательностях БФ.
Особенностью реализации предложенной технологии анализа социологических данных в ИС-ДСМ является имитация ряда познавательных способностей естественного интеллекта — как в автоматическом, так и в интерактивном режиме. Рассмотренная технология опроса позволяет также.
9 Арский Ю. М., Финн В. К. Принципы конструирования интеллектуальных систем // Информационные технологии и вычислительные системы, 2008, № 4, с. 4 — 36. зафиксировать явным образом влияние когнитивных эффектов на формирование мнений. Это отображается в некоммутативности различных вариантов проведения опроса относительно рационального восприятия элементов опроса, что было отмечено в реальном эксперименте.
Основная часть Решателя ДСМ-системы — Рассуждатель — реализует процедуры ДСМ-метода автоматического порождения гипотез, формализующие соответствующую эвристику анализа данных. Интеллектуальная система для анализа эмпирических социологических данных должна обеспечивать выбор стратегий исследования в зависимости от структуры предикатов и правил — прямой или обратный методы, ситуационный вариант ДСМ-метода, рассмотрение противоречивых примеров из исходной БФ («анализ конфликта»). В рамках выбранной стратегии необходимо иметь возможность реализации усиливающих добавок к решающим предикатам и формирования правил правдоподобного вывода первого рода из различных по силе методов разного знака. Важной составляющей такой системы является подсистема обнаружения эмпирических законов и тенденций на основе выявления взаимной непротиворечивости стратегий.
Интеллектуальная система способна полноценно реализовать познавательный процесс при наличии развитых инструментов накопления знаний (Информационная среда), а также восприятия и отображения (Интеллектуальный интерфейс). ИС эффективно решает задачи ФКАСД, если при наличии описанной структуры превращается в автоматизированное рабочее место социолога, обеспечивающее проведение качественного исследования.
Примерами реализации Интеллектуальных систем для анализа социологических данных на основе изложенных принципов являются созданные под руководством автора диссертации Обучающая ДСМ-система для анализа социологических данных (дипломная работа студентки Отделения интеллектуальных систем РГГУ Феофановой Т.Л.) и Интеллектуальная система Socio Magic для формализованного качественного анализа социологических данных (кандидатская диссертация аспирантки ВИНИТИ РАН Бурковской Ж.И.).
В Заключении сформулированы основные результаты работы и обсуждаются открытые проблемы.
Заключение
.
Разработанные средства формализованного анализа качественных (неколичественных) данных могут быть использованы в предметных областях со сложно структурированными данными и плохо формализованными знаниями, к которым относятся науки о жизни и социальном поведении. Методы искусственного интеллекта позволяют формализовать соответствующие исследовательские эвристики, решая задачу усиления и имитации познавательной деятельности типа «анализ данныхпредсказание — объяснение».
Создание в рамках диссертационного исследования логического и концептуального аппарата интеллектуального анализа социологических данных составляет научную основу современных информационных технологий для такого анализа и определяет теоретическую значимость работы, в процессе которой получены следующие основные результаты: разработаны средства представления и объективизации фактов и знаний о социальном поведении и мнении в ИС для решения задач социологии и социальной психологииразвит концептуальный и логический аппарат формализованного качественного анализа мненийпредложено формальное представление синтеза познавательных процедур, использующих алгебру логики для порождения гипотез о причинных зависимостяхразвиты новые логические средства для порождения гипотез о причинно-следственных зависимостях с учётом контекста социального поведения — ситуационного ДСМ-методапредставлена формальная структура закрытых га-значных (т>2) опросов и предсказательных опросовсозданы логические и процедурные средства распознавания рациональности результатов опросапредложена новая технология опроса (с учётом некоммутативности различных видов опросов) с использованием средств многозначных логик аргументации, формализующих шкалы оценок результатов опросовописана архитектура ИС с новыми когнитивными инструментами — ИС-ДСМ для формализованного качественного анализа социологических данных, формализованной оболочки для решения проблем когнитивной социологии (с предварительной содержательной работой социолога) — под руководством автора диссертации создана интеллектуальная система, обучающая социолога анализу данных средствами ДСМ-метода автоматического порождения гипотез.
Реализация предложенных технологий в интеллектуальных системах типа ДСМ специально разработанной архитектуры обеспечивает практическую значимость работы. Плодотворность предложенного подхода для анализа эмпирических социологических данных подтверждена экспериментальными исследованиями. Совместно с Институтом социологии РАН с использованием ИС-ДСМ был проведён анализ солидарного поведения рабочих на конфликтных предприятиях, в ходе которого были выявлены детерминанты различных видов поведения и на основании полученных детерминант построена типологизация социума. Совместно с факультетом Социологии РГГУ и Отделением интеллектуальных систем Института лингвистики РГГУ был проведён анализ электоральных предпочтений студентов старших курсов. В результате были не только выделены общие характеристики сторонников различных партий, но и вычислены значения критериев рациональности электорального выбора.
Разработка логических средств интеллектуального анализа социологических данных осуществлялась на основании следующих принципов.
I. Средства анализа эмпирических данных должны быть адекватны исследуемой предметной области. Анализ случайных событий (например, массовое поведение) должен осуществляться статистическими средствами, для выявления причинных связей (анализ индивидуального поведения) необходимо применение детерминистских методов. Для смешанных предметных областей, когда причинно-обусловленные явления подвержены случайным влияниям, требуется использование ИС с Рассуждателем и Вычислителем, способными, соответственно, выявлять причины и строить статистические модели.
II. Представление данных и знаний о субъекте и его поведении основывается на «постулате поведения» Р1: поведение детерминировано системой дифференциальных признаков, включающих описание социального характера, индивидуальных особенностей и детали биографии субъекта.
III. Для анализа рационального поведения (в частности, мнений) и отклонений от него должны быть в явном виде использованы знания об аргументации субъекта. Логическое представление мнений обеспечивает возможность использования логик с аргументационной семантикой для анализа рациональности мнений.
IV. Анализ детерминаций поведения предполагает включение ситуационных параметров, позволяющих учесть контекст реализации поведения.
V. Представление структуры объектов, системы отношений и рассуждений о них возможно лишь на основе специально созданного формального языка представления данных и знаний с дескриптивной и аргументативной функциями. В социологических исследованиях не только не используются языки такого рода, но даже не осознаётся потребность в их создании (см. Главу 1). Понимание важности развития формальных языков в гуманитарных областях пришло с проникновением в них методов искусственного интеллекта и развитием когнитивных наук.
VI. Интеллектуальный анализ данных предполагает извлечение интерпретируемых зависимостей между различными факторами, неявно содержащимися в массивах данных. Это означает обнаружение в базах эмпирических фактов нового знания и извлечение его средствами интеллектуальных систем. Таким образом, речь идёт о формализации исследовательских эвристик «анализ данных — предсказаниеобъяснение». Это соответствует решению одной из задач когнитивной социологии — имитации познавательной деятельности в социальных исследованиях.
VII. Основой предлагаемой формализации таких эвристик является принцип «сходство фактов влечет наличие (отсутствие) изучаемого эффекта и его повторяемость», позволяющий анализировать тип каузальности «структура — эффект».
VIII. Особенностью использования идеи причинности в предлагаемом варианте формализованного качественного анализа является применение принципа аргументации: аргументами при принятии тех или иных гипотез о ранее неопределённых фактах предметной области (предсказании поведения, мнений) являются порождённые на основе анализа имеющихся фактов (±-)-гипотезы о причинах (поведения, мнений).
IX. Достаточным основанием для принятия индуктивных гипотез и гипотез, полученных в результате вывода по аналогии, является абдуктивное объяснение БФ на основе проверки выполнимости аксиом каузальной полноты. Усилением критерия достаточного основания принятия гипотез является обнаружение абдуктивной сходимости процесса ДСМ-рассуждений при расширении БФ.
X. Практической и теоретической основой подхода к формированию баз социологических фактов является классификация различных структур опросов, в том числе — формальное представление предсказательного опроса.
В результате работы созданы основания для применения методов современного интеллектуального анализа данных для решения задач когнитивной социологии — формализации самого процесса порождения нового знания из качественных эмпирических социологических данных и анализа влияния когнитивных особенностей индивидуумов на социальное поведение. Формализация исследовательских эвристик качественного анализа социологических данных может служить не только целям анализа эмпирических социологических данных о поведении социальных субъектов (как индивидов, так и социальных общностей), но и приближения к логической реконструкции идей классической «понимающей» социологии, в частности построения формальной теории каузального объяснения социального поведения.
Разработанные теоретические принципы и логический аппарат формального представления закрытых и предсказательных опросов предоставляют возможности для решения задач анализа и предсказания результатов реальных опросов. Развитие средств формальной аргументации объективизирует субъективные социологические данные, в результате чего они оказываются основой дальнейшего анализа средствами правдоподобных рассуждений. Аргументационная семантика для формирования оценок результатов опросов включается в общую структуру логического аппарата распознавания и предсказания рациональности мнений. Использование числовых характеристик рациональности является реализацией идеи содержательного отображения отношений в измеряемые параметры.
Предлагаемые средства интеллектуального анализа социологических данных не могут заменить содержательной работы исследователя-социолога, а представляют собой лишь формализованную оболочку для решения некоторых социологических задач. Необходим диалог профессионального (сциентистского) применения исследовательских процедур и глубокого (гуманистического) понимания сущности изучаемых социальных проблем. Подобное содружество представляет собой ответ на вызов потребностей формализации качественного анализа социологических данных и расширяет возможности обработки эмпирических социологических данных. Стандартные эвристики формирования массива данных должны предшествовать формализованным эвристикам анализа данных. Разумеется, полезные результаты могут быть получены лишь при условии подготовки данных, соответствующих условиям применимости формальных средств (в нашем случае — ДСМ-метода автоматического порождения гипотез и соответствующих интеллектуальных систем).
Широкое распространение качественных методов анализа социологических данных, превосходящих количественные методы относительно возможности отображения и исследования индивидуальных особенностей социальных процессов и явлений, в сочетании с преимущественно субъективными методами исследования, свидетельствует о назревшей потребности интеллектуализации такого анализа средствами современных компьютерных интеллектуальных систем. Использование интеллектуального анализа социологических данных расширяет возможности обработки эмпирических социологических данных, способствует объективизации социологических исследований, развитию логики и методологии социальных наук. С другой стороны, потребности формализации качественного анализа данных в социологии стимулируют развитие компьютерной их поддержки и, как следствие, оказываются центром кристаллизации новых идей интеллектуального анализа данных как такового, способствуя развитию новых информационных технологий. Взаимодействие идей классической социологии и методов интеллектуального анализа социологических данных позволяет говорить о возникающем соответствующем разделе современной когнитивной социологии.