Обобщение информации
Смотреть что такое «Обобщение информации» в других словарях:
обобщение информации — Преобразование информации о наличии множества простых частных событий в информацию о наличии некоего события более высокого уровня, в которое эти частные события входят как отдельные его элементы [http://www.rol.ru/files/dict/internet/#N].… … Справочник технического переводчика
Обобщение информации/INFORMATION GENERALISATION — преобразование информации о наличии множества простых частных событий в информацию о наличии некоего события более высокого уровня, в которое эти частные события входят как отдельные его элементы … Толковый словарь по информационному обществу и новой экономике
обобщение данных — Технологическая операция, в результате которой из исходных данных получают новые данные уменьшенного объема. [ГОСТ Р 51170 98 ] Тематики качество служебной информации … Справочник технического переводчика
обобщение — 3.34 обобщение (generalization): Особое понятие, измененное для большей степени обобщения, использования или цели, либо акт исключения или изменения деталей в рамках особого понятия (концепции) для получения его обобщения. Примечание Обобщение… … Словарь-справочник терминов нормативно-технической документации
обобщение данных — 3.1.8 обобщение данных: Технологическая операция, в результате которой из исходных данных получают новые данные уменьшенного объема Источник: ГОСТ Р 51170 98: Качество служебной информации. Термины и определения оригинал документа … Словарь-справочник терминов нормативно-технической документации
ОБОБЩЕНИЕ ДАННЫХ — согласно ГОСТ Р 51170–98 «Качество служебной информации. Термины и определения», – технологическая операция, в результате которой из исходных данных получают новые данные уменьшенного объема … Делопроизводство и архивное дело в терминах и определениях
ГОСТ Р 51170-98: Качество служебной информации. Термины и определения — Терминология ГОСТ Р 51170 98: Качество служебной информации. Термины и определения оригинал документа: 3.2.1 безошибочность данных: Свойство данных не иметь скрытых случайных ошибок (составляющая свойства достоверности) Определения термина из… … Словарь-справочник терминов нормативно-технической документации
обработка данных (контроль данных; обобщение данных) — Технологические операции элементарные акты технологического процесса переработки данных, выделяемые в моделях ТППД для решения задач обеспечения качества служебной информации. Перечисленные типы технологических операций переработки данных… … Справочник технического переводчика
ТЕОРИЯ ИНФОРМАЦИИ — теория, изучающая законы и способы измерения, преобразования, передачи, использования и хранения информации. В Т. и. и ее технич. приложениях центральными являются понятия количества информации и его меры. Эти понятия в известной степени… … Философская энциклопедия
ГОСТ 7.0-99: Система стандартов по информации, библиотечному и издательскому делу. Информационно- библиотечная деятельность, библиография. Термины и определения — Терминология ГОСТ 7.0 99: Система стандартов по информации, библиотечному и издательскому делу. Информационно библиотечная деятельность, библиография. Термины и определения оригинал документа: 3.2.2.23. абонент библиотеки: Физическое или… … Словарь-справочник терминов нормативно-технической документации
Обобщение и систематизация информации
Вы будете перенаправлены на Автор24
Обобщение и систематизация информации — это выход на более высокий уровень абстракции за счёт определения общих информационных признаков и организация информационных данных в стройную систему на базе некоторых принципиальных положений.
Общие сведения
Начиная работу с информационными данными, следует сформулировать конечную цель этой процедуры. Цель указывает, в каком направлении и где следует вести поиск информации, а также определяет способы её нахождения, форматы и методы её анализа перераспределения. Целями работы с информацией почти всегда являются получение и распространение данных, которые требуются для выполнения определённых мероприятий, влияющих на решение конкретных проблем. То, для каких операций или решения каких проблем требуется информация, влияет на область необходимых информационных данных и откуда она может быть получена.
Процесс сбора информации
Эта операция заключается в сборе уже существующих и формировании новых информационных данных. Для правильной ориентации в информационном поле и сокращении затрат времени, необходимо определить общий вектор поиска, соответствующий намеченной цели работ. Целевые ориентиры помогают выработать главные элементы требуемой информации, ширину охвата информационных массивов, уровень детализации и степень глубинных проработок. Есть много методов, чтобы получить информацию, основные из них:
Системы поиска информации делятся на:
Готовые работы на аналогичную тему
Следуя предположениям о структуре необходимых информационных данных, можно выявить потенциальные источники и методы получения информации.
При планировании процедуры поиска информации, необходимо помнить, что источник по своему типу должен соответствовать основным характеристикам искомой информации.
Источник информации должен обладать следующими свойствами:
Автоматизация методов поиска информации
Автоматизация информационного поиска представляется как многоуровневый процесс, который связан с обнаружением необходимых ресурсных источников компьютерных сетей. Чтобы найти нужную информацию в массивах данных, проектируются и реализуются специальные информационные поисковые системы, которые выполняют процедуру поиска по запросам пользователя.
По типу предоставляемой информации такие системы подразделяются на два вида:
Обработка информации
Методы обработки информационных данных имеют различную специфику для каждого конкретного случая. Используемые способы обобщения (обработки) часто предопределяют некоторые особенности этапа сбора информации. К примеру, для использования методов статистики, как правило, требуется заданный объём исходной информации, ниже которого эти методы недостоверны. При обобщении, анализе и обработке информации могут быть выявлены и ошибки, сделанные при её сборе. Можно выделить следующие виды обработки информации:
Техническая обработка. Существуют информационные данные, которым необходима специальная процедура обработки (например, количественная статистика). Информация после обработки выступает как исходная для дальнейшего интерпретационного анализа.
Научная обработка информации. Состоит из:
Систематизация информации
Под систематизацией информации понимается преобразование её в удобную для использования, сохранения и последующего применения форму.
Например, возможно создание компьютерной информационной базы данных, которая содержит итоги исследований. По завершению этой процедуры информация представляется в таком формате, что возможно обращение к ней через любые промежутки времени. Когда это представляется возможным, систематизацию необходимо начинать одновременно с информационным сбором. Оптимальная систематизация информации имеет очень большое значение при формировании информационных массивов общего пользования (использование обширной группой пользователей с самыми разными целями).
Обобщение (интерпретация) информации
Это финальный этап работы с информацией. Задачей интерпретации является формирование основного смыслового значения собранного информационного набора. Иначе данный информационный массив не станет базой для выработки необходимых решений, направления реальный действий, работ.
Обобщенная информация и принятие решений
Известно, что составить краткое и сжатое описание содержания первичных документов намного сложнее, чем пространное описание, где нужная информация теряется в избыточной, и на ее поиск и осмысление тратится значительное время. Часто причина избыточности информации — неумелое использование различных видов иллюстраций—схем, графиков, диаграмм или их полное отсутствие. Следовательно, для разработки аналитических информационных продуктов с повышенной информативностью целесообразно применение принципов консолидированной информации. Графическая информация особенно эффективна для информирования о новых изделиях и продуктах, новых и реконструированных промышленных объектах, технологиях, производственных инсталляциях и др., а также для отражения технологических новостей отдельных предприятий, фирм, организаций и отраслей. Преимущество графической информации состоит прежде всего в ее способности передавать информацию оперативно, точно, без искажений и информационного шума, в результате чего она легко воспринимается и запоминается. Круговые и колонные графики особенно рекомендуются для систематизации и обобщения данных о потреблении (сырья, продуктов, изделий, энергии и т. д.). Круговые графики наилучшим образом отражают процентное соотношение данных, относящихся к потреблению по странам, отраслям, продуктам; колонные графики — сопоставление экономических данных, например, темпов роста (по годам, продуктам, странам и т. д.), так как позволяют наглядно представить как положительные, так и отрицательные темпы развития.
Консолидированная информация может быть представлена также в виде таблиц, для этого необходимо выполнение следующих условий:
обобщение данных в таблице — данные, включенные в таблицу, должны отражать наиболее важные и значимые результаты (излишнее количество цифр загромождает таблицу и снижает эффективность представления информации). Лучше всего найти оптимальны вариант, включающий необходимые характеристики в достаточном объеме, но без избыточности;
точность представления данных — необходима проверка всех приводимых в таблице данных, во избежание фактологических и технических ошибок. Поэтому следует проверить возможные опечатки, а если некоторые данные вызывают сомнение, то уточнить их по другим источникам;
идентификация — обязательна последовательная нумерация таблиц, их названия должны в максимальной степени соответствовать содержанию.
В виде таблиц могут быть представлены не только цифровые, но и обобщенные данные в словесном виде, например, о фирмах — производителях определенного вида продукции; о процессах, протекающих при различных условиях; о целевых факторах и т. д. Таблицы часто используются для обобщения и сопоставления различных экономических показателей как в течение года, так и по сравнению с предыдущим годом или с более продолжительным периодом. В некоторых случаях при обобщении данных по продуктам и по годам можно выбирать, представить ли их в виде таблиц или в виде графиков.
Другая возможность представления информации в консолидированной фирме — метод графического оптимизирования. Он заключается в составлении графика и нанесении данных по нескольким ординатам к одной и той же абсциссе. Оси координат соответствуют различным показателям, причем они улучшаются по высоте соответствующей оси, несмотря на то, что это может быть связано с повышением или снижением их стоимости (например, механические показатели продуктов и изделий будут увеличиваться по высоте оси, так как лучшей является более низкая цена). Этот метод особенно эффективен, когда необходимо сделать сравнение и сопоставление между различными продуктами, изделиями, технологическими показателями и т. д. Путем соединения точек, соответствующих стоимостям показателей для каждого объекта, получаются кривые, характеризующие этот объект (продукт, изделие, аппарат, производственную инсталляцию и др.).
В соответствии с методом графического оптимизирования (оптимизирование стоимостей показателей по высоте оси), наиболее высоко расположенная кривая будет представлять объект с наилучшими показателями. Этот метод может быть использован для быстрого и наглядного сопоставления, если необходимо показать технологический уровень или выбирать оптимальный вариант между однотипными продуктами и изделиями различных фирм-производителей.

Применение принципов обобщенной (консолидированной) информации при подготовке аналитических информационных продуктов (рефератов, аналитических обзоров, информационных анализов) позволяет передать в ясном и доступном виде значимую информацию и одновременно снизить до минимума количество избыточной информации. Аналитические информационные продукты на основе консолидированной информации в максимальной степени соответствуют информационным потребностям руководящих работников и поэтому они очень важны в информационном обеспечении управленческих решений. Основными принципами, которые необходимо соблюдать при подготовке вторичных информационных продуктов на; основе консолидированной информации, могут быть следующие:
отсутствие избыточной информации;
обобщение данных в виде таблиц и графиков;
логичность и последовательность изложения;
языковая корректность и терминологическая точность;
сжатое и ясное изложение.
Аналитические информационные продукты на основе консолидированной информации представляют собой высокоинтеллектуальные продукты, для подготовки которых требуется высокий профессионализм, способности к отбору, анализу и сопоставлению данных, а также к их обобщению и представлению в максимально наглядном и пригодном для восприятия виде. Они позволяют делать аргументированные выводы, определять тенденции, находить варианты решения, выявлять комплексные и многоаспектные оценки, т. е. создавать предпосылки для обоснованных управленческих решений.
Анализ и обобщение информации в практических работах
Анализ и обобщение информации в практических работах
Требования Федерального государственного образовательного стандарта направлены на формирование у студентов определенных профессиональных компетенций, которые способствуют внедрению молодого специалиста в процесс производства без особых нравственных и моральных травм.
На современном практическом занятии
-преодаватель выполняет роль консультанта для тех кому нужна помощь
-организовывает работу студентов: по постановке учебной задачи, по поиску и обработке информации, обобщению способов деятельности. Тем самым повышается уровень самостоятельности студентов
Актуализация деятельности студентов определяется через формулировку заданий.
Традиционная деятельность- 93% заданий репродуктивные-назовите решите, спишите, сравните найдите, выпишите, выполните….
7%-с формулировкой исследуйте, проанализируйте,(чаще только для самых сильных)
Деятельность преподавателя, работающего по ФГОС третьего поколения
Эвристический/творческий не менее 70%
(ПЕРЕД СТУДЕНТОМ СТАВИТСЯ ЗАДАЧА)После обработки собранных данных наступает самый сложный и ответственный этап: анализ и обобщение информации.
Анализ информации (от греч. analysis: разложение) – это расчленение предмета исследования на структурные компоненты, позволяющее получить знания об особенностях функционирования каждой составляющей его части в отдельности и о структуре объекта в целом. Анализ предполагает его вторую сторону – синтез (от греч. synthesis: соединение) – воссоздание целого из частей, дающее возможность представить предмет исследования в целом. Иначе говоря, расчленив целое на части, мы получаем возможность изучения каждой части в отдельности (анализ). Затем, обогащенные новыми знаниями о структурных компонентах целого, можем представить объект исследования в целом, на более высоком научном уровне (синтез). Наряду со словом «анализ» в социологическом исследовании используют понятие « обобщение ».
Обобщение информации – это логический переход от информации о конкретных, единичных, частных фактах к знанию большей степени общности на уровне предмета исследования в целом.
Конечная цель анализа и обобщения информации – получение новых теоретических или прикладных знаний и связанная с этим возможность формулирования конкретных мероприятий, которые обеспечат оптимизацию социальных процессов в рамках данного объекта исследования.
Методы анализа и обобщения информации:
1. Структурно-функциональный (системный) метод;(описание и объяснение систем,при которых исследуются их элементы)
2. Индуктивный (дедуктивный) метод;(от общего к частному или наоборот)
3. Метод классификации (типологизации);(выделяются классы, объект попадает в один из классов)
4. Методы аналогии и формализации;(на основе сходства объектов в одном из признаков)
5. Методы моделирования и эксперимента.( метод исследования, состоящий в создании и изучении модели, заменяющей исследуемый объект (оригинал), с последующим переносом полученной информации на оригинал)
Основные этапы анализа и обобщения информации можно назвать следующие:
1) упорядочивание, группировка, классификация, «сжатие» информации путем вычисления средних и других удобных для обобщения величин;
2) сопоставление информации с гипотезами исследования, поиски подтверждения их истинности или ложности;
3) описание результатов в разрезе каждой из составных частей объекта исследования;
4) обобщение полученных характеристик, формулирование предварительных выводов, частных оценок;
5) разработка конкретных выводов и практических рекомендаций.
а) разработке программы исследования не предшествовал сбор необходимых предварительных сведений об объекте исследования, поэтому она не отражает специфику изучаемого объекта и особенности условий, в которых он функционирует;
б) инструментарий составлялся торопливо, опережая разработку теоретической части программы, что привело к его поверхностному содержанию, не отвечающему требованиям задач исследований;
г) вопросы, не позволяющие установить причины исследуемых явлений, выходящие за рамки ранее сформулированных гипотез;
е) не проводились пробные (пилотажные), исследования, что привело к трудностям обработке информации;
ж) не проводилась стандартизация исследовательских ситуаций, каждый сотрудник использовал свои подходы к сбору данных, из-за чего возникла проблема несравнимости информации;
к) время, отведенное на исследование, не соответствовало реальному объему работ, предусмотренному программой, что вызвало поспешный, а, следовательно, некачественный сбор информации.
Названные выше и другие подобные им просчеты предупреждаются за счет более детального и всестороннего обоснования программы исследования, пилотажных (пробных, тренировочных) исследований, обучения и детального инструктирования членов исследовательской группы.
В помощь студенту можно предложить конструктор построения обобщения работы
-На основании вышесказанного мы можем констатировать ;
-Подводя итоги необходимо подчеркнуть ….
-На основании (. )логично предположить… .
-В ходе проведенного исследования было выявлено…
-Найденные,проведенные,проанализированные нами примеры позволяют выявить следующую закономерность
2. Перспективы исследования
-На наш взгляд было-бы интересно изучить
-Работа рассматривает лишь один из аспектов проблемы.
Работа может быть полезна учащимся,которые увлекаются ….,интересуются…
Работа может представлять интерес для…
Работа может быть использованна для проведения дальнейших исследований..
Практическая значимость заключается в том…
4. Что дала работа самому исследователю:
В процессе написания работы я узнал,открыл для себя,выяснил…
В процессе работы над исследованием я приобрел опыт,думаю.что полученные знания помогут избежать ошибок
Логика сознания. Часть 10. Задача обобщения

Взаимодействие с окружающим миром приводит к накоплению опыта. Если в этом опыте есть какие-либо закономерности, то они могут быть выделены и впоследствии использованы. Наличие закономерностей можно интерпретировать, как присутствие чего-то общего в воспоминаниях, составляющих опыт. Соответственно, выделение таких общих сущностей принято называть обобщением.
Задача обобщения – это ключевая задача во всех дисциплинах, которые хоть как-то связаны с анализом данных. Математическая статистика, машинное обучение, нейронные сети – все это вращается вокруг задачи обобщения. Естественно, что и мозг не остался в стороне и как мы можем иногда наблюдать на собственном опыте, тоже порой неплохо справляется с обобщением.
Несмотря на то, что обобщение возникает всегда и везде сама задача обобщения, если рассматривать ее в общем виде, остается достаточно туманной. В зависимости от конкретной ситуации в которой требуется выполнить обобщение постановка задачи обобщения может меняться в очень широком диапазоне. Различные постановки задачи порождают очень разные и порой совсем непохожие друг на друга методы решения.
Многообразие подходов к обобщению создает ощущение, что процедура обобщения – это нечто собирательное и что универсальной процедуры обобщения, видимо, не существовует. Однако, мне кажется, что универсальное обобщение возможно и именно оно и свойственно нашему мозгу. В рамках описываемого в этом цикле подхода удалось придумать удивительно красивый (по крайней мере мне он кажется таким) алгоритм, который включает в себя все классические вариации задачи обобщения. Этот алгоритм не только хорошо работает, но и самое удивительное — он идеально ложится на архитектуру биологических нейронных сетей, что заставляет верить, что, действительно, где-то так работает и реальный мозг.
Перед тем как описывать алгоритм такого универсального обобщения попробуем разобраться с тем какие формы обобщения принято выделять и, соответственно, что и почему должен включать в себя универсальный подход.
Философско-семантический подход к обобщению понятий
Философия имеет дело с семантическими конструкциями. Проще говоря, выражает и записывает свои утверждения фразами на естественном языке. Философско-семантический подход к обобщению заключается в следующем. Имея понятия, объединенные неким видовым признаком, требуется перейти к новому понятию, которое дает более широкое, но менее конкретное толкование, свободное от видового признака.
Например, имеется понятие «наручные часы», которое описывается как: «указатель времени, закрепленный на руке с помощью ремешка или браслета». Если мы избавимся от видового признака «закрепленный на руке…», то получим обобщенное понятие «часы», как любой инструмент, определяющий время.
В примере с часами в самом названии наручных часов содержалась подсказка для обобщения. Достаточно было отбросить лишнее слово и получалось требуемое понятие. Но это не закономерность, а следствие семантики, построенной «от обратного», когда нам уже известен результат обобщения.
Задача чистого обобщения
В формулировке Френка Розенблатта задача чистого обобщения звучит так: «В эксперименте по «чистому обобщению» от модели мозга или персептрона требуется перейти от избирательной реакции на один стимул (допустим, квадрат, находящийся в левой части сетчатки) к подобному ему стимулу, который не активирует ни одного из тех же сенсорных окончаний (квадрат в правой части сетчатки)» (Rosenblatt, 1962).
Акцент на «чистое» обобщение подразумевает отсутствие «подсказок». Если бы нам предварительно показали квадрат во всех возможных позициях сетчатки и дали возможность все это запомнить, то узнавание кадрата стало бы тривиальным. Но по условию квадрат нам показали в одном месте, а узнать мы должны его совсем в другом. Сверточные сети решают эту задачу за счет того, что в них изначально заложены правила «перетаскивания» любой фигуры по всему пространству сетчатки. За счет знания того как «перемещать» изображение они могут взять квадрат, увиденный в одном месте и «примерить» его ко всем возможным позициям на сетчатке.
Поиск паттерна в форме буквы «T» в разных позициях изображения (Fukushima K., 2013)
Ту же задачу мы в нашей модели решаем за счет создания пространства контекстов. Отличие от сверточных сетей в том, кто к кому идет — «гора к Магомеду» или «Магомед к горе». В сверточных сетях при анализе новой картинки каждый предварительно известный образ варьируется по всем возможным позициям и «примеряется» к анализируемой картинке. В контекстной модели каждый контекст трансформирует (перемешает, поворачивает, масштабирует) анализируемую картинку так как ему предписывают его правила, а затем «сдвинутая» картинка сравнивается с «неподвижными» заранее известными образами. Эта, на первый взгляд, небольшая разница дает последующее очень сильное различее в подходах и их возможностях.
Родственна задаче чистого обобщения задача инвариантного представления. Имея явление, предстающее перед нами в разных формах, требуется инвариантно описать эти представления с целью узнавания явления в любых его проявлениях.
Задача классификации
Есть множество объектов. Есть предварительно заданные классы. Есть обучающая выборка – набор объектов, про которые известно к каким классам они относятся. Требуется построить алгоритм, который обоснованно отнесет любые объекты из исходного множества к одному из классов. В математической статистике задачи классификации относят к задачам дискриминантного анализа.
В машинном обучении задача классификации считается задачей обучения с учителем. Есть обучающая выборка, про которую известно: какой стимул на входе приводит к какой реакции на выходе. Предполагается, что реакция не случайна, а определяется некой закономерностью. Требуется построить алгоритм, который наиболее точно воспроизведет эту закономерность.
Алгоритм решение задачи классификации зависит от характера входных данных и типов получаемых классов. О том, как решается задача классификации в нейронных сетях и как происходит обучение с учителем в нашей модели мы говорили в предыдущей части.
Задача кластеризации
Предположим у нас есть множество объектов и нам известна степень похожести их друг на друга, заданная матрицей расстояний. Требуется разбить это множество на подмножества, называемые кластерами, так, чтобы каждый кластер объединял схожие объекты, а объекты разных кластеров сильно отличались друг от друга. Вместо матрицы расстояний могут быть заданы описания этих объектов и указан способ, как искать расстояние между объектами по этим описаниям.
В машинном обучении, кластеризация попадает под обучение без учителя.
Кластеризация – очень соблазнительная процедура. Удобно разбить множество объектов на относительное небольшое количество классов и впоследствии использовать не исходные, возможно громоздкие описания, а описания через классы. Если при разбиении заранее известно какие признаки важны для решаемой задачи, то кластеризация может «делать акцент» на эти признаки и получать классы удобные для последующего принятия решений.
Однако, в общем случае ответ на вопрос о важности признаков лежит за пределами задачи кластеризации. Последующее обучение, называемое обучением с подкреплением, должно само, исходя из анализа того насколько удачно или нет оказалось поведение ученика, определить какие признаки важны, а какие нет. При этом «самыми удачными» признаками могут оказаться не признаки из исходных описаний, а уже обобщенные классы, взятые как признаки. Но для определения важности признаков надо, чтобы эти признаки уже присутствовали в описании на момент работы обучения с подкреплеием. То есть получается, что заранее неизвестно какие признаки могут оказаться важными, но понять это можно только уже имея эти признаки.
Другими словами, в зависимости от того какие признаки исходного описания использовать, а какие игнорировать при проведении кластеризации получаются различные системы классов. Одни из них оказываются более полезными для последующих целей, другие менее. В общем случае выходит, что хорошо бы перебрать все возможные варианты кластеризаций, чтобы понять какие из них наиболее удачны для решения конкретной задачи. Причем для решения другой задачи может оказаться удачной совсем другая система кластеризации.
Даже если мы решим на что стоит сделать акцент при кластеризации все равно останется вопрос об оптимальной детализации. Дело в том, что в общем случае нет априорной информации о том на сколько классов надо поделить исходное множество объектов.
Вместо знания о количестве классов можно использовать критерий, указывающий на то насколько точно должны все объекты соответствовать созданным классам. В этом случае можно начинать кластеризацию с некого начального количества классов и добавлять новые классы если остаются объекты, для которых ни один класс не подходит достаточно хорошо. Но процедура с добавлением не снимает вопроса оптимальности детализации. При задании низкого порога соответствия объекта классу получаются большие классы, отражающие основные закономерности. При выборе высокого порога получается много классов с небольшим числом объектов. Эти классы учитывают мелкие детали, но за деревьями становится не видно леса.
Факторный анализ
Предположим, что мы имеем множество объектов в котором все объекты снабжены признаковыми описаниями. Такие описания можно записать соответствующими векторами. Далее предположим, что признаки имеют количественную природу.
Удобно центрировать описания, то есть рассчитать среднее для каждого признака и скорректировать признаки на их среднее значение. Это равносильно переносу начала координат в «центр масс». Можно посчитать корреляции между признаками. Если записать корреляционную матрицу признаков и найти ее собственные вектора, то эти вектора будут являться новым ортогональным базисом, в котором можно описать исходное множество объектов.
В базисе из исходных признаков за счет их возможной коррелированности линейные закономерности были «размазаны» между признаками. При переходе к ортогональному базису начинает четче проступать внутренняя структура закономерностей. Так как ортогональный базис определен с точностью до вращения, то можно так повернуть базис из собственных векторов, чтобы направления осей наилучшим образом соответствовали тем направлениям, вдоль которых данные имеют наибольший разброс.
Собственные числа, соответствующие собственным векторам, показывают какой процент от общей дисперсии приходится на какой собственный вектор. Собственные вектора, на которые приходится наиболее существенный процент дисперсии называют главными компонентами. Часто бывает удобно перейти от описания в исходных признаках к описанию в главных компонентах.
Так как главные компоненты отражают наиболее существенные линейные закономерности, свойственные исходному множеству, то они могут называться определенным обобщением исходных данных.
Замечательное свойство факторного анализа — это то, что факторы могут не только напоминать исходные признаки, но и могут оказаться новыми ненаблюдаемыми сущностями.
Если сравнивать обобщения, которые получаются через классы и которые получаются через факторы, то условно можно сказать, что классы выделяют «области», а факторы – «направления».
Часто для отнесения объекта к классу смотрят не столько на близость объекта к центру класса, а на соответствие объекта параметрам распределения, свойственным классу (на этом, например, построен EM алгоритм). То есть если в пригороде города стоит тюрьма, то человек которого вы встретите рядом с тюрьмой скорее всего горожанин, а не заключенный, хотя расстояние до центра города значительно выше чем до центра тюрьмы. «Области» стоит понимать с учетом этого замечания.
Ниже приведена картинка, по которой можно приблизительно соотнести обобщение классами и факторами.
Графики распределения роста и веса игроков американской футбольной лиги (NFL). Сверху игроки защиты, снизу игроки нападения. Цветами выделены позиции игроков (Dr. Craig M. Booth).
Все множество игроков можно разбить на классы по их роли на поле. По параметрам «вес — рост» можно выделить глобальные факторы (не показаны) или факторы для каждого из классов.
Цветные линии соответствуют первому главному фактору в каждом из классов. Этот фактор можно интерпретировать как «размер игрока». Он определяется как проекция точки игрока на эту ось. Значение проекции дает значение, которое отбрасывает «не идеальность» игрока. Если к первой оси провести вторую ортогональную, то она будет описывать второй фактор «тип телосложения», проще говоря, худой игрок или толстый.
При всей красоте и удобстве факторов есть с ними и сложности. Так же, как и с классами всегда стоит вопрос сколько и каких факторов стоит выделять и использовать. Конечно, удобно, когда несколько первых главных компонент несут почти всю информацию, но на практике такое бывает нечасто. Например, возьмем 10 000 наиболее популярных фильмов, несколько миллионов человек и проанализируем оценки, которые они поставили тем фильмам, что посмотрели. Несложно составить корреляционную матрицу для фильмов. Положительная корреляция между двумя фильмами говорит о том, что люди, которые оценивают один фильм выше среднего скорее всего выше среднего оценивают и другой.
Проведем факторный анализ корреляционной матрицы и затем вращение осей для удобной интерпретации факторов. Окажется, что существенную роль играют первые пять-шесть факторов. Они соответствуют наиболее общим закономерностям. Это, конечно, жанры фильмов: «боевик», «комедия», «мелодрама». Кроме того, выделятся факторы: «русское кино» (если люди будут из России) и «авторское кино». Последующие факторы тоже можно интерпретировать, но их вклад в объяснение дисперсии будет все меньше и меньше.
Первые пять самых существенных факторов объясняют порядка 30 процентов общей дисперсии. Это не особо много, учитывая, что дисперсия – это квадрат среднеквадратического отклонения. Соответственно, основные факторы объясняют всего 17 процентов общего разброса оценок. Если посмотреть на остальные факторы, то многие из них объясняют всего лишь десятые или сотые доли процента общей дисперсии и вроде бы несущественны.
Но каждый мелкий фактор, как правило, соответствует некой локальной закономерности. Он объединяет фильмы одного режиссера, одного сценариста или одного актера. Оказывается, что когда мы хотим что-либо понять про конкретный фильм, то основные факторы объясняют свои 30 процентов дисперсии и при этом процентов 40-50 дисперсии объясняют один-два мелких фактора, которые несущественны для общей массы, но оказываются чрезвычайно важны именно для этого фильма.
Принято говорить, что «дьявол в деталях». Это относится именно к тому, что практически нет факторов, которыми можно пренебречь. Каждая мелочь может оказаться решающей в определенной ситуации.
Формирование понятий
Результатом обобщения может являться формирование понятий с использованием которых строятся последующие описания. Есть разные мнения относительно того, что является основным принципом, по которому человек выделяет те или иные понятия. Собственно, все пункты настоящего перечисления имеют к этому непосредственное отношение.
Задача идеализации
В процессе обобщения мы получаем понятия, которые по неким признакам объединяют множество явлений, с которыми мы ранее сталкивались. Выделение того общего, что есть в этих явлениях приводит к тому, что мы можем описать свойства неких идеальных понятий, свободных от индивидуальных деталей отдельных явлений.
Именно идеальные понятия лежат в основе математики. Точка, прямая, плоскость, число, множество – это идеализации объектов из нашего повседневного опыта. Математика вводит для этих понятий формальную систему правил, которая позволяет строить утверждения, преобразовывать эти утверждения, доказывать или опровергать их истинность. Но если для самой математики базовые понятия первичны, то для человека они связаны с опытом их использования. Это позволяет математикам не использовать полный перебор при поисках доказательств, а осуществлять более целенаправленный поиск, основанный на опыте, лежащем за идеальными понятиями.
Логическая индукция
Логическая индукция подразумевает получение общего закона по множеству частных случаев.
Разделяют полную индукцию:
И неполную индукцию:
Неполная индукция имеет дело с вероятностью и может быть ошибочной (проблема индукции).
Индукция связана с обобщением в двух моментах. Во-первых, когда говорится о множестве объектов, то подразумевается, что предварительно что-то послужило основанием объединить эти объекты в единое множество. То есть нашлись какие-то механизмы, которые позволили сделать предварительное обобщение.
Во-вторых, если мы методом индукции обнаруживаем некий признак, который свойственен элементам некой группы, которая описывает определенное понятие, то мы можем использовать этот признак, как характеризующий для отнесения к этой группе.
Например, мы обнаруживаем, что существуют механические приборы с характерным циферблатом и стрелками. По внешнему сходству мы делаем обобщение и относим их к классу часы, и формируем соответствующее понятие.
Далее мы замечаем, что часы могут определять время. Это позволяет нам сделать неполную индукцию. Мы заключаем, что свойство всех часов – способность определять время.
Теперь мы можем сделать следующий шаг обобщения. Мы можем сказать, что к «часам» можно отнести вообще все, что позволяет следить за временем. Теперь часами мы можем назвать и солнце, которое отмеряет сутки и школьные звонки, отсчитывающие уроки.
Логическая индукция имеет много общего с семантическим обобщением понятий. Но семантическое обобщение делает несколько иной акцент. Семантический подход говорит о признаках, которые составляют описание понятия, и возможности отбрасывания их части для получения более общей формулировки. При этом остается открытым вопрос — откуда должны взяться такие определения понятий, которые позволят выполнить переход к обобщению «через отбрасывание». Неполная логическая индукция как раз и показывает путь формирования таких описательных признаков.
Задача дискретизации
Имея дело с непрерывными величинами, часто требуется перейти к их описанию в дискретных значениях. Для каждой непрерывной величины выбор шага квантования определяется той точностью описания, которую требуется сохранить. Получившиеся в результате интервалы дробления объединяют различные значения непрерывной величины, ставя им в соответствие определенные дискретные понятия. Такую процедуру можно отнести к обобщению по тому факту, что объединение значений происходит, исходя из их попадания в интервал квантования, что говорит об их определенной общности.
Соотнесение понятий
Осуществляя обобщение любым из возможных способов, мы можем представить результат обобщения через систему понятий. При этом обобщенные понятия не просто образуют набор независимых друг от друга элементов, а приобретают внутреннюю структуру взаимоотношений.
Например, классы, получаемые в результате кластеризации, образуют некую пространственную структуру, в которой какие-то классы оказываются ближе друг к другу, какие-то дальше.
При использовании описания чего-либо через факторы используют набор факторных весов. Факторные веса принимают вещественные значения. Эти значения можно аппроксимировать набором дискретных понятий. При этом для этих дискретных понятий будет характерна система отношений «больше – меньше».
Таким образом, нас каждый раз интересует не просто выделение обобщений, но и формирование некой системы, в которой будет понятно, как эти обобщения соотносятся со всеми остальными обобщениями.
Чем-то похожая ситуация возникает при анализе естественного языка. Слова языка имеют определенные взаимосвязи. Природа этих связей может быть различна. Можно говорить о частоте совместного проявления слов в реальных текстах. Можно говорить о похожести их смыслов. Можно строить систему отношений, основанную на переходах к более общему содержанию. Подобные построения приводят к семантическим сетям разного вида.
Пример семантической сети (Автор: Знанибус — собственная работа, CC BY-SA 3.0, commons.wikimedia.org/w/index.php?curid=11912245)
Говорят, что в правильной постановке задачи содержится три четверти верного ответа. Очень похоже, что это справедливо и для задачи обобщения. Что мы хотим видеть результатом обобщения? Устойчивые классы? Но где границы этих классов? Факторы? Какие и сколько? Закономерности? Редкие, но сильные совпадения или нечеткие, но подкрепленные большим числом примеров зависимости? Если мы накопили данные и провели обобщения, то как из множества возможных понятий выбрать те, что лучше всего подходят для описания конкретной ситуации? Что вообще есть обобщения? Как выглядит система соотнесения обобщений между собой?
Далее я попробую дать и «правильную» постановку задачи, и возможный ответ, подкрепленный работающим кодом. Но это будет через статью. Пока же, в следующей части, нам предстоит познакомиться с одной очень важной биологической подсказкой, дающей, пожалуй, главный ключ к пониманию механизма обобщения.

