Методы статистического анализа текста

Вид работы:

Реферат
Предмет:

Английский
Язык:

Русский
,
Формат файла:
MS Word

168,90 kb
Опубликовано:

2011-09-28

Все рефераты по английскому

Скачать реферат Читать текст online Заказать реферат
*Помощь в написании! Посмотреть все рефераты

Вы можете узнать стоимость помощи в написании студенческой работы.

Методы статистического анализа текста

Министерство образования науки Российской Федерации

Федеральное агентство по образованию

ФГАОУ ВПО «Уральский федеральный университет имени первого Президента России Б. Н. Ельцина»

Институт образовательных информационных технологий

Секция информатизации библиотечного дела

Специальность «Библиотечно-информационная деятельность»

Реферат на тему

МЕТОДЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ТЕКСТА

по дисциплине «Аналитика текста»

Выполнил: Щеглова А., гр. ИТ-47021

Преподаватель: Гришина С. М.

Екатеринбург

Оглавление

Введение

. Частотный анализ

. Ранжирование данных

. Закон Бредфорда - Ципфа0

. Контент-анализ

.1 Определение контент-анализа

.2 История появления контент-анализа

.3 Процедура контент-анализа

.4 Виды контент-анализа

.5 Применение контент-анализа

Заключение

Список использованной литературы

Введение

В традиционной литературе текст исследуется в основном в рамках лингвистики, герменевтики, семиотики, культурологии и является одним из основных понятий культуры ХIХ-ХХ вв. В основном текст рассматривается как отрасль филологии, литературоведческая дисциплина, изучающая произведения письменности в целях установления их особой организации, отношение между текстом и культурным контекстом, как система высказываний, обладающих единым смыслом и как форма передача информации.

Нередко текст рассматривают как дискурсивное единство, т.е. специфический способ и правила организации речевой деятельности, независимо письменной или устной, обладающее многообразной смысловой структурой, порождающей новые смыслы и т.д.

Но можно подойти к тексту принципиально с иной стороны. И тогда текст, прежде всего, будет рассматриваться как формально-логическое образование, которое можно исследовать некоторыми формализованными методами. Методологической основой такого исследования будет выступать статистический принцип частотного распределения признака (признаков), которые во взаимосвязи образуют новые смыслы.

Именно такой подход организован в методах статистического анализа текста - частотном анализе, ранжировании данных, законе Бредфорда-Ципфа, контент-анализе.

Цель данного реферата: охарактеризовать основные методы статистического анализа текста.

1. Частотный анализ

Частотный анализ - это один из методов криптоанализа, основывающийся на предположении о существовании нетривиального статистического распределения отдельных символов и их последовательностей как в открытом тексте, так и шифрованном тексте, которое с точностью до замены символов будет сохраняться в процессе шифрования и дешифрования [10].

Кратко говоря, частотный анализ предполагает, что частота появления заданной буквы алфавита в достаточно длинных текстах одна и та же для разных текстов одного языка. При этом в случае моноалфавитного шифрования, если в шифрованном тексте будет символ с аналогичной вероятностью появления, то можно предположить, что он и является указанной зашифрованной буквой. Аналогичные рассуждения применяются к биграммам (двубуквенным последовательностям), триграммам в случае полиалфавитных шифров.

Метод частотного анализа известен с еще IX-го века и связан и именем Ал-Кинди. Но наиболее известным случаем применения такого анализа является дешифровка египетских иероглифов Ж.-Ф. Шампольоном в 1822 году.

Данный вид анализа основывается на том, что текст состоит из слов, а слова из букв. Количество различных букв в каждом языке ограничено и буквы могут быть просто перечислены. Важными характеристиками текста являются повторяемость букв, пар букв (биграмм) и вообще m-ок (m-грамм), сочетаемость букв друг с другом, чередование гласных и согласных и некоторые другие.

Идея состоит в подсчете чисел вхождений каждой nm возможных m-грамм в достаточно длинных открытых текстах T=t1t2…tl, составленных из букв алфавита {a1, a2, ..., an}. При этом просматриваются подряд идущие m-граммы текста:t2...tm, t2t3... tm+1, ..., ti-m+1tl-m+2...tl.

Если - число появлений m-граммы ai1ai2...aim в тексте T, а L - общее число подсчитанных m-грамм, то опыт показывает, что при достаточно больших L частоты

для данной m-граммы мало отличаются друг от друга.

В силу этого, относительную частоту считают приближением вероятности P (ai1ai2...aim) появления данной m-граммы в случайно выбранном месте текста (такой подход принят при статистическом определении вероятности).

В представленной ниже таблице приводятся частоты встречаемости букв в русском языке (в процентах):

Буква алфавита	Показатель частоты встречаемости
-	0,175
А	0,062
Б	0,014
В	0,038
Г	0,013
Д	0,025
Е, Ё	0,072
Ж	0,007
З	0,016
И	0,062
Й	0,010
К	0,028
Л	0,035	0,026
Н	0,053
О	0,090
П	0,023
Р	0,040
С	0,045
Т	0,053
У	0,021
Ф	0,002
Х	0,009
Ц	0,004
Ч	0,012
Ш	0,006
Щ	0,003
Ъ, Ь	0,014
Ы	0,016
Э	0,003
Ю	0,006
Я	0,018

Имеется мнемоническое правило запоминания десяти наиболее частых букв русского алфавита. Эти буквы составляют слово СЕНОВАЛИТР.

Устойчивыми являются также частотные характеристики биграмм, триграмм и четырехграмм осмысленных текстов. Существуют специальные таблицы с указанием частоты биграмм некоторых алфавитов. По результатам исследований с помощью таких таблиц ученые определили наиболее часто встречаемые биграммы и триграммы для русского алфавита:

СТ, НО, ЕН, ТО, НА, ОВ, НИ, РА, ВО, КО, СТО, ЕНО, НОВ, ТОВ, ОВО, ОВА.

Из таблиц биграмм можно также легко извлечь информацию о сочетаемости букв, т.е. о предпочтительных связях букв друг с другом.

Результатом таких исследований является таблица, в которой слева и справа от каждой буквы расположены наиболее предпочтительные «соседи» (в порядке убывания частоты соответствующих биграмм). В таких таблицах обычно указывается также доля гласных и согласных букв (в процентах), предшествующих (или следующих за) данной букве.

Г	С	Слева		Справа	Г	С
3	97	л, д, к, т, в, р, н	А	л, н, с, т, р, в, к, м	12	88
80	20	я, е, у, и, а, о	Б	о, ы, е, а, р, у	81	19
68	32	я, т, а, е, и, о	В	о, а, и, ы, с, н, л, р	60	40
78	р, у, а, и, е, о	Г	о, а, р, л, и, в	69	31
72	28	р, я, у, а, и, е, о	Д	е, а, и, о, н, у, р, в	68	32
19	81	м, и, л, д, т, р, н	Е	н, т, р, с, л, в, м, и	12	88
83	17	р, е, и, а, у, о	Ж	е, и, д, а, н	71	29
89	11	о, е, а, и	З	а, н, в, о, м, д	51	49
27	73	р, т, м, и, о, л, н	И	с, н, в, и, е, м, к, з	25	75
55	45	ь, в, е, о, а, и, с	К	о, а, и, р, у, т, л, е	73	27
77	23	г, в, ы, и, е, о, а	Л	и, е, о, а, ь, я, ю, у	75	25
80	20	я, ы, а, и, е, о	М	и, е, о, у, а, н, п, ы	73	27
55	45	д, ь, н, о	Н	о, а, и, е, ы, н, у	80	20
11	89	О	в, с, т, р, и, д, н, м	15	85
65	35	в, с, у, а, и, е, о	П	о, р, е, а, у, и, л	68	32
55	45	и, к, т, а, п, о, е	Р	а, е, о, и, у, я, ы, н	80	20
69	31	с, т, в, а, е, и, о	С	т, к, о, я, е, ь, с, н	32	68
57	43	ч, у, и, а, е, о, с	Т	о, а, е, и, ь, в, р, с	63	37
15	85	п, т, к, д, н, м, р	У	т, п, с, д, н, ю, ж	16	84
70	30	н, а, е, о, и	Ф	и, е, о, а, е, о, а	81	19
90	10	у, е, о, а, ы, и	Х	о, и, с, н, в, п, р	43	57
69	31	е, ю, н, а, и	Ц	и, е, а, ы	93	7
82	18	е, а, у, и, о	Ч	е, и, т, н	66	34
67	33	ь, у, ы, е, о, а, и, в	е, и, н, а, о, л	68	32
84	16	е, б, а, я, ю	Щ	е, и, а	97	3
0	100	м, р, т, с, б, в, н	Ы	л, х, е, м, и, в, с, н	56	44
0	100	н, с, т, л	Ь	н, к, в, п, с, е, о, и	24	76
14	86	с, ы, м, л, д, т,, р, н	Э	н, т, р, с, к	0	100
58	42	ь, о, а, и, л, у	Ю	д, т, щ, ц, н, п	11	89
43	57	о, н, р, л, а, и, с	Я	в, с, т, п, д, к, м, л	16	84

Наиболее частое применение частотных характеристик - криптография. Но помимо криптографии частотные характеристики открытых сообщений существенно используются и в других сферах. Например, клавиатура компьютера, пишущей машинки или линотипа - это воплощение идеи ускорения набора текста, связанное с оптимизацией расположения букв алфавита относительно друг друга в зависимости от частоты их применения.

2. Ранжирование данных

Существует несколько определений ранжирования. Прежде всего они связаны с областью, в которой применяется этот метод. В общем смысле «ранжирование» представляет собой расстановку элементов системы по рангу, по признакам значимости, масштабности; установление порядка расположения, места лиц, проблем, целей и задач в зависимости от их важности, весомости.

В большинстве случаев правила ранжирования изучают разработчики сайтов, для того чтобы занять лидирующие позиции, верхнюю строчку при запросе и привлечь как можно больше посетителей на свою страницу.

Ранжирование (от английского - ranking) - применительно к работе поисковой системы - это процесс выстраивания найденных по запросу пользователя страниц в порядке наибольшего соответствия искомому запросу [9].

Далее мы будем рассматривать метод ранжирования данных в рамках поисковой системы, поэтому необходимо дать краткое определение поисковой системе.

Поисковая система - это веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на просторах глобальной сети, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet.

Общая схема ранжирования сайта выглядит примерно так: по определенному запросу поисковик находит все входящие слова запроса на веб-страницу. Далее учитываются следующие факторы:

компактность ключевых слов (расположение друг от друга),

важность (наличие ключевых слов, а также близость слов к началу страницы),

порядок расположения, форма и т.д.

Исходя из всех этих параметров назначается общий вес (который иначе может наименоваться как позиция) страницы в результатах поиска.

Благодаря различным исследованиям были определены общие методы ранжирования, которые подходят для всех поисковых машин.

Цитата

Поисковая машина считает, что те страницы Интернета, в которых слова запроса идут рядом, в том же порядке и в той же форме как в запросе, более релевантны (от англ. relevant - применительно к результатам работы поисковой системы и экспертной системы - степень соответствия запроса и найденного, то есть уместность результата), чем другие страницы, на которых ключевые слова рассыпаны в произвольном порядке или имеют другую грамматическую форму.

Другими словами, стоит использовать в тексте страницы точные формулировки (цитаты) поисковых запросов, и тогда любой сайт начнет занимать верхние строчки.

При этом следует соблюдать и точную форму слов, использовать в тех же падежах и числах, как и в запросе, который является основной целью. Это даст значительное преимущество, ранжирование такой страницы повысится в несколько раз.

Вес ключевых слов запроса

Значительно влияет также наличие ключевых слов в самом тексте страницы и та страница, на которой вес ключевых слов будет выше, и которая, следовательно, будет оцениваться поисковиками как наиболее релевантная.

Но частота употребления ключевых слов должна держаться в определенных рамках, текст должен выглядеть как можно естественно. Та страница, на которой ключевое слово имеет вес 50%, будет признан неестественным, поисковые машины примут такую оптимизацию за поисковой спам и соответственно это сведет все усилия к нулю.

Близость ключевых слов к началу страницы

Как правило, наиболее ценная и важная информация размещается в начале страницы, и если слова запроса находятся на странице ближе к началу, данная страница будет ранжироваться лучше.

Подводя итоги можно резюмировать: для того чтобы правильно сформировать и подобрать ключевые слова нужно сперва провести аналитическую работу, а именно выявить какие именно запросы являются наиболее частыми. Важно не только какие именно пользователи сети ищут слова, а в каких именно падежах и числах они их употребляют.

Зная все вышеперечисленные правила можно создавать сайты, рейтинг которых по посещаемости будет гораздо выше конкурентов.

В конце 40-х годов прошлого столетия Дж. Ципф, собрав огромный статистический материал, попытался показать, что распределение слов естественного языка подчиняется одному простому закону, который можно сформулировать следующим образом. Если к какому-либо достаточно большому тексту составить список всех встретившихся в нем слов, затем расположить эти слова в порядке убывания частоты их встречаемости в данном тексте и пронумеровать в порядке от 1 (порядковый номер наиболее часто встречающегося слова) до R, то для любого слова произведение его порядкового номера (ранга) в таком списке и частоты его встречаемости в тексте будет величиной постоянной, имеющей примерно одинаковое значение для любого слова из этого списка. Аналитически закон Ципфа может быть выражен в виде:

= c,

где f - частота встречаемости слова в тексте;- ранг (порядковый номер) слова в списке;

с - эмпирическая постоянная величина.

Полученная зависимость графически выражается гиперболой. Исследовав таким образом самые разнообразные тексты и языки, в том числе языки тысячелетней давности, Дж. Ципф для каждого из них построил указанные зависимости, при этом все кривые имели одинаковую форму - форму «гиперболической лестницы», т.е. при замене одного текста другим общий характер распределения не изменялся.

Закон Ципфа был открыт экспериментально. Позднее Б. Мандельброт предложил его теоретическое обоснование. Он полагал, что можно сравнивать письменный язык с кодированием, причем все знаки должны иметь определенную «стоимость». Исходя из требований минимальной стоимости сообщений, Б. Мандельброт математическим путем пришел к аналогичной закону Ципфа зависимости

γ = c ,

где γ - величина (близкая к единице), которая может изменяться в зависимости от свойств текста.

Дж. Ципфом и другими исследователями было установлено, что такому распределению подчиняются не только все естественные языки мира, но и другие явления социального и биологического характера: распределения ученых по числу опубликованных ими статей (А. Лотка, 1926 г.), городов США по численности населения (Дж. Ципф, 1949 г.), населения по размерам дохода в капиталистических странах (В. Парето, 1897 г.), биологических родов по численности видов (Дж. Уиллис, 1922 г.) и др.

Самым важным для рассматриваемой проблемы является тот факт, что и документы внутри какой-либо отрасли знаний могут распределяться согласно этому закону. Частным случаем его является закон Бредфорда, непосредственно связанный уже не с распределением слов в тексте, а с распределением документов внутри какой-либо тематической области.

Английский химик и библиограф С. Бредфорд, исследуя статьи по прикладной геофизике и смазке, заметил, что распределения научных журналов, содержащих статьи по смазке, и журналов, содержащих статьи по прикладной геофизике, имеют общий вид. На основании установленного факта С. Бредфорд сформулировал закономерность распределения публикаций по изданиям.

Основной смысл закономерности состоит в следующем: если научные журналы расположить в порядке убывания числа статей по конкретному вопросу, то журналы в полученном списке можно разбить на три зоны таким образом, чтобы количество статей в каждой зоне по заданному предмету было одинаковым. При этом в первую зону, так называемую зону ядра, входят профильные журналы, непосредственно посвященные рассматриваемой тематике. Количество профильных журналов в зоне ядра невелико. Вторую зону образуют журналы, частично посвященные заданной области, причем число их существенно возрастает по сравнению с числом журналов в ядре. Третья зона, самая большая по количеству изданий, объединяет журналы, тематика которых весьма далека от рассматриваемого предмета.

Таким образом, при равном числе публикаций по определенной тематике в каждой зоне число наименований журналов резко возрастает при переходе от одной зоны к другой. С. Бредфорд установил, что количество журналов в третьей зоне будет примерно во столько раз больше, чем во второй зоне, во сколько раз число наименований во второй зоне больше, чем в первой. Если обозначить р1 как число журналов в 1-й зоне, р2 - во 2-й, р3 - число журналов в 3-й зоне. Если a - отношение количества журналов 2-й зоны к числу журналов 1-й зоны, то закономерность, вскрытая С. Бредфордом, может быть записана так:

: P2 : P3 = 1 : a : a2

или: P2 = P2 : P1 = a.

Эту зависимость называют законом Бредфорда.

Б. Викери уточнил модель С. Бредфорда. Он выяснил, что журналы, проранжированные (выстроенные) в порядке уменьшения в них статей по конкретному вопросу, можно разбить не на три зоны, а на любое нужное число зон. Если периодические издания расположить в порядке уменьшения в них количества статей по конкретному вопросу, то в полученном списке можно выделить ряд зон, каждая из которых содержит одинаковое количество статей. Примем следующие обозначения х - количество статей в каждой зоне. Тx - количество журналов, содержащих х статей, Т2x - количество журналов, содержащих 2х статей, т.е. сумма наименований журналов в 1-й и во 2-й зонах, Т3x - количество журналов, содержащих 3х статей, т.е. сумма наименований журналов в 1-й, 2-й и в 3-й зонах, Т4x - количество журналов, содержащих 4х статей.

Тогда эта закономерность будет иметь вид:

: T2x : T3x : T4x : ... = 1 : a : a2 : a3 : ...

Данное выражение называют законом Бредфорда в толковании Б. Викери.

Если закон Ципфа характеризует многие явления социального и биологического характера, то закон Бредфорда - это специфический случай распределения Ципфа для системы периодических изданий по науке и технике.

4. Контент-анализ

.1 Определение контент-анализа

Появление такого метода как контент-анализ среди других методов статистического анализа было обусловлено прежде всего тем, что возникла потребность в создании определенного объективного метода анализа текста, результаты которого не зависели бы ни от личности исследователя, ни от того где и когда проводятся эти исследования.

Контент-анализ является именно таким методом оценки текстов, при котором не появляется непонимания и разногласий между исследователями, дается возможность воспроизведения в любое время.

На сегодняшний день существует множество трактовок понятия контент-анализа, а так же взглядов на суть и содержание данного метода статистического анализа текста. Рассмотрим наиболее часто употребляемые определения.

Во-первых, самым распространенным является перевод контент-анализа как анализа содержания, от английского «contents» - содержание (содержимое). При таком толковании получается, что под контент-анализом нужно понимать лишь содержательный анализ текстов. Но это в корне не верно, ведь данный анализ текста задумывался как строгий метод оценки текстов. Контент-анализ не занимается выявлением смысла, он занимается исключительно частотным распределением смысловых единиц в тексте.

Во-вторых, контент-анализ легко путают с реферированием текстов, а также с поисков информации в текстовых базах данных. Данное понимание так же не соответствует истинному назначению контент-анализа.

В-третьих, существует более научное определение контент-анализа заключающееся в том, что контент-анализ определяется как количественный анализ текстов и текстовых массивов с целью последующей содержательной интерпретации выявленных числовых закономерностей.

Философский смысл контент-анализа, как исследовательского метода, состоит в восхождении от многообразия текстового материала к абстрактной модели содержания текста. В указанном смысле, контент-анализ является одной из номотетических исследовательских процедур, используемых в сфере применения идеографических методов.

Кратко перечислим еще одни из известных определений:

· Контент-анализ - это методика объективного качественного и систематического изучения содержания средств коммуникации (Д. Джери, Дж. Джери)

· Контент-анализ - это систематическая числовая обработка, оценка и интерпретация формы и содержания информационного источника (Д. Мангейм, Р. Рич)

· Контент-анализ - это качественно-количественный метод изучения документов, который характеризуется объективностью выводов и строгостью процедуры и состоит в квантификационной обработке текста с дальнейшей интерпретацией результатов (В. Иванов)

· Контент-анализ состоит в нахождении в тексте определенных содержательных понятий (единиц анализа), выявлении частоты их встречаемости и соотношения с содержанием всего документа (Б. Краснов).

· Контент-анализ - это исследовательская техника для получения результатов путем анализа содержания текста о состоянии и свойствах социальной действительности (Е. Таршис)

Но наиболее доступным и приемлемым определением данного метода является следующее.

Контент-анализом называют метод сбора количественных данных об изучаемом явлении или процессе, содержащихся в документах. В данном случае под документом понимается не только официальный текст, а все написанное или произнесенное, т.е. все, что стало коммуникацией.

Контент-анализу подвергаются книги, газетные или журнальные статьи, объявления, телевизионные выступления, кино- и видеозаписи, фотографии, лозунги, этикетки, рисунки, другие произведения искусства, а также, разумеется, и официальные документы.

.2 История появления контент-анализа

Известно, что методика контент-анализа нашла широкое применение именно в информационную эпоху, переживая второе рождение вместе с развитием Интернета. Однако, стоит помнить, что появился данный метод задолго до создания глобальной сети.

Ученые считают, что контент-анализ наиболее ранний систематический подход к изучению теста. В Швеции в XVIII веке был проведен анализ сборника из 90 церковных гимнов, прошедших государственную цензуру, которые после приобрели популярность, но все же были их обвиняли в несоответствии религиозным догматам.

Именно этот труд считается первым упоминаемым в литературе контент-аналитическим опытом. Для того чтобы определить соответствие догматам производился подсчет в текстах количества религиозных символов, а после сравнивался с другими религиозными текстами. Получается, что частота появления в тексте книги определенных тем служила критерием ее еретичности [13].

Все это было лишь началом для развития контент-анализа, его первыми зачатками. Если же рассматривать контент-анализ уже как полноценную методику, то следует обратиться к первым контент-аналитическим исследованиям, которые прошли в конце XIX начале XX века в Соединенных Штатах Америки. Объектом исследования авторов были тексты массовой информации, а мотивом продемонстрировать появление «желтой процессы» в Нью-Йорке.

Сам термин «content-analysis» впервые начали применять американские журналисты Б. Мэтью, А. Тенни, Д.Спиид, Д.Уипкинс. Так же следует отметить, что у истоков становления методологии контент-анализа стоял французский журналист Ж. Кайзер.

Что касается политической сферы, то в 1930-1940-е годы американский исследователь средств коммуникации Гарольд Лассвелл (Harold Lasswell) проводил исследования, которые на сегодняшний день признаны классикой контент-анализа. Лассвелл занимался анализом пропагандистских материалов периода Второй мировой войны. В 1960-е годы, во время так называемого «методологического взрыва» исследования с применением методики контент-анализа особенно активизировались.

В 1943 году Абрахам Каплан (Abraham Kaplan) увеличил фокус контент-анализа от статистической семантики политических дискуссий до анализа семиотики. Во время Второй мировой войны популярность семиотики привела к использованию качественно-ориентированного контент-анализа для изучения «идеологических» аспектов в таких жанрах, как телевизионные шоу и коммерческая реклама.

Это способствовало развитию методики, разнообразило её варианты. Именно в этот период начинается активное использование компьютерной техники в исследованиях.

Контент-анализ с момента своего появления и за все время своего развития, безусловно, претерпел существенные изменения. Но, самое главное в данном методе - способность получения объективной информации или знания по косвенным признакам, осталось неизменным.

.3 Процедура контент-анализа

Процедура контент-анализа различается в зависимости от источников информации и особенностей задач их анализа. В общем виде она описывается как набор следующих этапов.

Подготовительный этап

Включает отбор источников информации и массива текстов для анализа, определение категорий и единиц анализа, единиц счета, технологии обработки данных.

Определение совокупности изучаемых текстов производится с позиций определенных критериев отбора, соответствующих задаче или гипотезе контент-анализа. Избирается канал (пресса, телевидение, радио, Интернет-материалы), разновидность текстов (статьи, авторефераты диссертаций, рекламные общения и пр.). Устанавливается сопоставимый размер текстов, репрезентативность выборки. Иногда - способ, частота и время появления сообщений. Отбор единиц анализа основывается на семантических (смысловых) критериях и зависит от исходных текстов и целей их анализа.

Заключительной задачей подготовительного этапа является разработка инструментов - форматов таблиц. Систем кодирования, условных сокращений, инструкций аналитику и др. В число обязательных инструментов входят:

1. Классификатор контент-анализа, по которым понимается общая таблица, в которую сведены все категории и подкатегории анализа и единицы анализа. Она создается в первую очередь для того, чтобы предельно четко зафиксировать те единицы, в которых выражается каждая категория, используемая в исследовании.

2. Протокол (бланк) контент-анализа содержит: сведения о документе (его авторе, времени издания, объеме и т.п.); итоги его анализа (количество случаев употребления в нем определенных единиц анализа и следующие отсюда выводы относительно категорий анализа). Протоколы заполняются, как правило, в закодированном виде, чтобы уместить всю информацию на одном листе, но если в исследовании осуществляется контент-анализ малого числа документов, то можно обойтись без кодирования и заполнять протоколы в открыто-содержательном виде.

. Регистрационная карточка представляет собой кодировальную матрицу, в которой отмечается количество единиц счета, характеризующее единицы анализа. Протокол контент-анализа каждого конкретного документа заполняется на основе подсчета данных всех регистрационных карт, относящихся к этому документу.

. Инструкция аналитику (кодировщику) - система правил и пояснений для исполнителей по сбору эмпирической информации, регистрации заданных единиц анализа. В инструкции излагается алгоритм действий, дается операциональное определение категорий и единиц анализа, правила их кодирования, приводятся конкретные примеры из текстов, являющихся объектом исследования, оговаривается, как следует поступать в спорных ситуациях, и пр.

Сбор и первичная обработка данных контент-анализа

На этом этапе производится процедура подсчета семантических единиц разного уровня обобщения. Фиксация данных обычно осуществляется с помощью простых анкет, в которых фиксируется каждое появление в анализируемом тексте искомой единицы.

Составляются счетные таблицы по отдельным текстам, а также сводные таблицы по отдельным темам. Используются электронные таблицы, формулы суммирования по столбцам и строкам или прикладные компьютерные программы для статистических расчетов.

Завершение этапа сбора данных контролируется фиксацией просмотренных текстов, подсчетом частот по строкам и столбцам исходных таблиц, иногда - кратким отчетом группы исполнителей с указанием трудозатрат, сложных случаев и пересмотренных исходных правил.

Интерпретация и синтезирование результатов

Интерпретация полученных результатов осуществляется в соответствии с задачами конкретного исследования. Результаты контент-анализа чаще всего представляются графиками, рядами диаграмм. Для отображения отношений между единицами контент-анализа применяются также стандартные средства отображения структур, различные графы.

Помимо анализа частотного распределения, используется анализ коэффициентов корреляции между переменными, кластерный анализ с корректным их применением. Выявляются итоги работы. Сравниваются ожидаемые и полученные данные.

текст буква встречаемость биграмма

4.4 Виды контент-анализа

В научной литературе принято выделять следующие основные виды контент-анализа [12]:

· Количественный контент-анализ, который в первую очередь интересуется частотой появления в тексте определенных характеристик (переменных) содержания;

Количественный контент-анализ

Количественный контент-анализ (также именуется содержательным) основывается на исследовании слов, тем и сообщений, сосредоточивая внимание исследователя на содержании сообщения. Таким образом, собираясь подвергнуть анализу выбранные элементы, нужно уметь предвидеть их смысл и определять каждый возможный результат наблюдения в соответствии с ожиданиями исследователя.

На деле это означает, что в качестве первого шага при проведении контент-анализа этого типа исследователь должен создать своего рода словарь, в котором каждое наблюдение получит определение и будет отнесено к соответствующему классу.

Проблема состоит в том, что исследователь должен предвидеть не только упоминания, которые могут встретиться, но и элементы их контекстуального употребления, а для этого должна быть разработана детальная система правил оценки каждого случая употребления.

Эта задача обычно решается посредством пилотажа подлежащей анализу совокупности сообщений (то есть с помощью выявления на материале небольшой выборки сообщений тех типов ключевых упоминаний, которые с наибольшей вероятностью могут встретиться в последующем, более полном анализе) в сочетании с арбитражными оценками контекстов и способов употребления терминов.

Предпочтительнее иметь дело с наблюдениями не одного, а нескольких исследователей.

Более трудной является задача, заключающаяся в необходимости приписывания ключевым упоминаниям конкретных оценок, - когда мы должны решить, приводится ли данное упоминание в позитивном или негативном смысле, «за» или «против» интересующего нас объекта и т. д., а также когда нам надо ранжировать ряд упоминаний соответственно силе их оценок (т.е. в соответствии с тем, какое из них самое положительное, какое следующее за ним по положительности и т. д.).

При этом исследователь нуждается в показателях достаточно тонких, которыми можно было бы измерять не только настроения политических субъектов, но и силу этих настроений.

Особенно трудным выполнение этой задачи является в исторических, историко-философских и психологических исследованиях, поскольку предполагает высокий уровень гуманитарной подготовки специалистов, использующих методику контент-анализа.

Существует множество методов, облегчающих принятие такого решения. В некоторых случаях они опираются на суждения группы арбитров (экспертов) о значении или силе (интенсивности) некоторого термина.

В качестве примера таких приемов можно привести метод Q-сортировки и шкалирование методом парного сравнения. На рубеже XX-XXI вв. специалисты по применению математических методов в исторических исследованиях много внимания уделяли разработке специальных компьютерных экспертных систем (в рамках идеологии Искусственного Интеллекта).

Метод Q-сортировки

При Q-сортировке используется шкала жесткого распределения из девяти пунктов: пункт 1 соответствует минимальной степени интенсивности измеряемого признака (например, наименьшей степени одобрения), а пункт 9 - максимальной степени интенсивности (например, наивысшей степени одобрения).

Цель здесь состоит в том, чтобы просто ранжировать (упорядочить) все суждения вдоль единой оценочной оси. Арбитру дается определенная жесткая квота на каждую категорию шкалы (то есть ожидаемое число слов или фраз, которые должны быть им отнесены к данной категории), а затем ему предлагается распределить заданный набор терминов так, чтобы установленные квоты не нарушались.

Квоты основаны на предположении (не обязательно верном), что колебания в интенсивности слов и фраз должны укладываться в рамки нормального распределения (когда изучаемые случаи максимально сосредоточены в средней части шкалы, а по мере продвижения к ее полюсам их число равномерно убывает).

Арбитры, таким образом, вынуждены давать относительные оценки конкретным словам и фразам (случаям), относя их к определенным категориям шкалы.

После того как арбитры завершили свою работу, вычисляется средняя арифметическая оценка шкалы для каждого случая, а затем полученные средние оценки соответствующим образом ранжируются.

Далее результаты этого ранжирования случаев по интенсивности используются для приписывания анализируемым текстам кодов, обусловленных встречаемостью в них слов или тем, получивших нашу оценку. Произвольность оценки одного исследователя компенсируется, таким образом, наличием других мнений.

Шкалирование методом парного сравнения

Шкалирование методом парного сравнения имеет те же цели, что и предыдущий метод, но с другой техникой. Каждый случай, подлежащий оценке, последовательно сравнивается попарно со всеми другими случаями, при этом каждый арбитр должен решить, какое из слов (или фраз) в каждой паре «сильнее» (или интенсивнее) другого. Так, если надо сравнить пять утверждений (случаев), то каждый арбитр будет последовательно сравнивать сначала 1-е из них со 2-м, с 3-м, 4-м, 5-м, потом 2-е с 3-м, 4-м, 5-м и т. д., всякий раз при этом отмечая, какое из двух более интенсивно.

Подсчитав, сколько раз каждый случай оказался в оценке всех арбитров «сильнее» других, и разделив полученное число на число арбитров (то есть вычислив среднюю оценку, вынесенную группой арбитров каждому утверждению), мы получаем возможность осуществить количественное ранжирование всех случаев по степени их интенсивности. Чем выше средняя оценка некоторого утверждения, тем оно, по мнению арбитров, «сильнее».

Следует отметить, что с методами Q-сортировки и парного сравнения связаны по меньшей мере две сложности. Во-первых, в обоих этих случаях исследователь полагается полностью на решения арбитров, критерии оценки которых могут быть, а могут и не быть правомерными. В экспертизе такого рода стандарты не всегда ясны или, во всяком случае, не всегда ясно определены, и вследствие этого сами оценки носят дискуссионный характер.

Встречаются случаи, когда один и тот же арбитр выставляет различные оценки одному и тому же утверждению в серии идентичных испытаний. Кроме того, отбор арбитров в высшей степени произволен.

Следовательно, и надежность результатов, полученных при опоре на таких арбитров, весьма относительна. Поэтому к данные процедуры следует использовать, делая скидку на «человеческий фактор».

Качественный контент-анализ

Помимо слов, тем и других элементов, обозначающих содержательную сторону сообщений, существуют и иные единицы, позволяющие проводить качественный или, как он еще называется, структурный контент-анализ. В этом случае исследователя интересует не столько что говорится, сколько как говорится.

Например, может ставиться задача выяснить, сколько времени или печатного пространства уделено интересующему предмету в том или ином источнике или сколько слов или газетных столбцов было уделено каждому из кандидатов во время определенной избирательной кампании.

С другой стороны, могут браться в расчет и другие, возможно, более тонкие вопросы, относящиеся к форме сообщения: сопровождается ли конкретное газетное сообщение фотографией или какой-либо иллюстрацией, каковы размеры заголовка данного газетного сообщения, напечатано ли оно на первой полосе или же помещено среди многочисленных рекламных сообщений.

При ответе на подобные вопросы внимание исследователя фокусируется не на тонкостях содержания, а на способе презентации сообщения. Основным вопросом здесь является факт наличия или отсутствия материала по теме, степень его выделенности, его размеры, а не нюансы его содержания.

В результате такого анализа часто получаются с куда более надежные измерения, чем в случае исследования, ориентированного на содержание (поскольку формальным показателям в меньшей степени присуща неоднозначность), но зато, как следствие, и куда менее значимый.

Измерения в параметрах, исследуемых в ходе качественного контент-анализа, поверхностно затрагивают само содержание каждого сообщения в отличие от детального и внимательного обследования, необходимого при количественном анализе.

В результате качественный контент-анализ обычно более прост в разработке и проведении, а потому и более дешев и надежен, чем содержательный контент-анализ. И хотя его результаты, возможно, удовлетворят в меньшей степени, ибо они дают скорее набросок, чем законченную картину сообщения, но при ответе на конкретный исследовательский вопрос они могут зачастую оказаться вполне адекватными.

4.5 Назначение контент-анализа

Конкретные прикладные цели контент-анализа варьируются в широких пределах. Так, в 1952 г. американский исследователь Б. Берелсон сформулировал 17 целей [4, С. 245]:

· Описание тенденций в изменении содержания коммуникативных процессов;

· Описание различий в содержании коммуникативных процессов в различных странах;

· Сравнение отдельных СМИ;

· Выявление используемых пропагандистских приемов;

· Определение намерений и иных характеристик участников коммуникации;

· Определение психологического состояния индивидов и/или групп;

· Выявление установок, интересов и ценностей различных групп населения и общественных институтов;

· Выявление фокусов внимания индивидов, групп и социальных институтов

· и др.

Приведенный перечень ориентирован лишь на нужды социальных наук социологии, политологии, социальных коммуникаций.

Но и в информационно-аналитической деятельности контент-анализ используется непрерывно, практически при выполнении любых запросов пользователей.

Заключение

На сегодняшний день существует несколько методов статистического анализа текста. Среди них выделяют процедуры количественных исследований, частотный анализ, контент-анализ, ранжирование данных, закон Бредфорда-Ципфа. Данные методы используют для социологических, антропологических и исторических исследований. Их результаты так же важны при комплектовании библиотечных фондов, и поиска информации по узкой тематике. Способ ранжирования в большинстве случаев применяется для упорядочивания информационных массивов в глобальной сети Интернет, а именно для работы поисковых систем.

Библиографический список

1. Аверьянов Л. Я. Введение в текстологию / Л. Я. Аверьянов // Безопасность Евразии. - 2008. - № 3 - С. 397-408.

2. Аверьянов Л. Я. Статистический анализ текста / Л. Я. Аверьянов // Безопасность Евразии. - 2008. - № 3 - С. 299-327.

. Анализ текстов [Электронный ресурс] - Режим доступа: http://www.statsoft.ru/home/portal/exchange/textanalysis.htm (дата обращения: 20.10.2010).

. Гордукалова Г. Ф. Анализ информации: технологии, методы, организация : учеб.-практ. Пособие / Г. Ф. Гордукалова. - СПб. : Профессия, 2009. - 512 с. - (Серия «Библиотека»).

. Григорьев С. И. Проведение контент-анализа [Электронный ресурс] / С. И. Григорьев. - Режим доступа: http://psyfactor.org/lib/k-a2.htm (дата обращения: 28.10.2010).

. Дмитриев И. Контент-анализ: сущность, задачи, процедуры [Электронный ресурс] / И. Дмитрев. - Режим доступа: http://psyfactor.org/lib/k-a.htm (дата обращения: 28.10.2010).

. Манаев О. Т. Контент-анализ как метод исследования [Электронный ресурс] / О. Т. Манаев. - Режим доступа: http://psyfactor.org/lib/kontent.htm (дата обращения: 28.10.2010).

. Паршин П. Контент-анализ [Электронный ресурс] / П. Паршин. - Режим доступа: http://www.krugosvet.ru/enc/gumanitarnye_nauki/lingvistika/KONTENT-ANALIZ.html (дата обращения: 28.10.2010).

. Ранжирование [Электронный ресурс] - Режим доступа: http://ru.wikipedia.org/wiki/Ранжирование (дата обращения: 20.10.2010).

. Частотный анализ [Электронный ресурс] - Режим доступа: http://ru.wikipedia.org/wiki/Частотный_анализ (дата обращения: 20.10.2010).

. Чурсин Н. Н. Популярная информатика / Н. Н. Чурсин. - Киев : Техника, 1982. - 202 с.

. Шалак В. И. Контент-анализ [Электронный ресурс] / В. И. Шалак. - Режим доступа: http://www.vaal.ru/cont/content.php (дата обращения: 28.11.2010).

. Шалак В. И. Контент-анализ (история метода) [Электронный ресурс] / В. И. Шалак. - Режим доступа: http://www.it2b.ru/it2b2.view3.page163.html (дата обращения: 28.10.2010).

Методы статистического анализа текста

Методы статистического анализа текста

Похожие работы на - Методы статистического анализа текста