Об алгоритмах сегментации

Краткая справка

(Выдержка из бакалаврской работы)

В настоящее время предъявляются все более жесткие требования в отношении качества и надежности обработки массивов данных. Для решения этих целей широко используются программные средства анализа информации в массивах данных на основе математических средств теории вероятностей. Как известно, данные математические средства не используют информацию о взаимном расположении элементов или групп элементов в массивах. Исследования и разработки, проводимые на кафедре ИВТ под руководством доцента А. С. Гуменюка, основаны на новом подходе, при котором описание и анализ массивов данных произвольной природы осуществляется с использованием, прежде всего, позиционной информации. Данная работа посвящена количественному и структурному описанию и анализу массивов данных особого класса – текстов стихотворений русского языка. В данной работе представлена методологическая основа, элементы формального аппарата и полученные с его помощью результаты исследования полных строений стихотворных текстов. Тут следует заметить, что любой анализ (в том числе — неформальный, экспертный) становится практически невозможным и весьма субъективным, когда затруднено выделение первичных элементов в сложных структурно-организованных объектах, какими, в частности, являются тексты. Из-за неочевидности элементной основы для чтения текстов применяются неформальные процедуры, в работе которых роль участия человека велика. Полностью формализовать и автоматизировать же процесс чтения текстов чрезвычайно сложно. При этом для выделения элементов зачастую приходится применять специальную процедуру. Примерами таких объектов являются литературные и музыкальные тексты, для которых в настоящее время разработаны некоторые процедуры сегментации, но однозначный выбор в пользу одной из них сделать не легко. Выделяются четыре фактора, определяющие необходимость разработки адекватного аппарата для исследования строения лингвистических текстов любой природы:
- возрастающей потребностью (компьютерной) обработки, хранения и передачи очень больших объемов числовой и знаковой информации;

- наличием методов и средств для анализа, в основном, локальной структуры знаковых последовательностей, не позволяющих изучать их полные строения;>

- спецификой организации текстов, являющихся одним из наиболее формализованных продуктов человеческой деятельности;

- скрытостью конкретной структуры (в дальнейшем — строения) любого текста, которая обычно «заслонена, укрыта» от читателя или писателя его содержанием - смыслом; на построение слов в тексте обращают внимание обычно во вторую очередь, то есть после того, когда оказывается непонятным содержание.

Методы исследования построения текстов

На важность изучения текстов впервые указал советский литературовед М.М. Бахтин, который, в частности, отмечал следующее: «Гуманитарные науки — это науки о человеке, о его специфике, а не о безгласной вещи и естественном явлении. Человек в его человеческой специфике всегда выражает себя (говорит), то есть создает текст (хотя бы и потенциальный). Там, где человек изучается вне текста и независимо от него, это уже не гуманитарные науки (анатомия, физиология человека и др.)» [1]. «Текст — первичная данность (реальность) и исходная точка всякой гуманитарной дисциплины»[1]. Опираясь на особую структурную организацию текстов, можно предположить, что любая человеческая деятельность по своей природе является текстовой, то есть состоит из последовательности отдельных и различимых действий-знаков. Однако, слабым местом гуманитарных наук, определенных по Бахтину, является практически полное отсутствие количественных способов описания, так как неизвестно, что и каким образом следует измерять в текстах. В настоящее время для количественной оценки и сравнения жанров и авторских стилей текстов в основном используются вероятностно-статистический и энтропийный подходы, при которых учитываются, в основном, алфавиты (словари), числа (частоты) вхождения элементов в состав текста и корреляционные связи знаков в словах. Первым прорывом в исследовании текстов стали работы Эсту, Кондона, Ципфа, Мандельброта, в результате которых было открыто статистическое распределение, в котором в качестве «случайной» величины выступал ранг или номер слова в ряду разных слов, расположенных по убыванию частот их вхождения. В предположении о том, что ранговое распределение слов является законом языка, Мандельброт, используя гипотезу об оптимальном кодировании словами, разработал уточненную аналитическую зависимость для «статистического» рангового распределения слов, в котором частоты их появления определялись двумя параметрами текста: частотой самого частого слова и длиной текста. Этот закон представлен следующими формулами:

   	p_i = K/(b+i)^y    (1) K,b,y - const

    	K = 1/ln F₁    (2)

 	V = K*Z - b    (3)

где

p₁, p_i - частоты, соответственно, i-ого, и 1-ого по рангу слов,

 F₁ - число вхождений самого частого слова,

 V - теоретический объем собственного словаря текста длиной Z.

Однако оказалось, что закон Мандельброта не был тем «пределом», к которому сходится по вероятности ранговое распределение слов даже очень длинного конкретного текста (то есть не выполнялся статистический закон больших чисел). Кроме того, на разных текстовых выборках слова не сохраняли вероятности вхождения. Таким образом, гипотеза Мандельброта о законе языка в форме рангового распределения не подтвердилась. Существенный прорыв в исследовании структуры текста произошел в семидесятых годах XX века, когда советский ученый-кибернетик Ю.К. Орлов с помощью средств вероятностно-статистического и энтропийного подходов открыл феномен целостности художественного литературного и музыкального произведений, который проявлялся в хорошем совпадении реального рангового распределения слов завершенного текста с законом Мандельброта. Для фрагментов и конгломератов текстов такого совпадения не наблюдалось. Таким образом, было количественно установлено, что завершенный текст имеет особую структуру, в которой его словарь, длина и числа вхождений одинаковых слов связаны законом Мандельброта. Однако в работах Ю. Орлова почти не затрагивалась проблема однозначной сегментации текста на слова. По этому поводу он пишет следующее [5]: «Любое произведение — это сложно организованное целое, состоящее из множества сравнительно простых элементов. В литературе — это слова, в музыке звуки, в живописи краски. За редким исключением один элемент легко отделяется от другого ...». На практике, однако, при отделении и различении элементов текста друг от друга возникают известные трудности, в особенности, когда эту работу требуется полностью формализовать и автоматизировать. Так, даже различение слов, отделенных друг от друга пробелами, не удается осуществлять в полностью автоматическом режиме. Необходимо обратить внимание на существование проблемы однозначной сегментации даже для очевидно завершенных текстов на элементарные информационные единицы. В качестве объектов исследования были рассмотрены стихотворения русской литературы. Если говорить о стихотворениях, то в таких небольших литературных текстах число употреблений слов, среди которых практически нет одинаковых, почти всегда совпадает с объемом их словаря. Поэтому, с точки зрения Ю. Орлова, слово не может выступать в качестве элемента стихотворения и, очевидно, возникает проблема сегментации стихотворения на более мелкие единицы. В настоящее время разработан алгоритм решающий следующую задачу: для очевидно завершенного текста попытаться установить однозначную сегментацию на элементы стихотворения. Набор признаков, на основании которых производится формальная идентификация «завершенного» текста, назван по имени ученого, открывшего феномен целостности (завершенности) художественного произведения, критерием Орлова [3]. В состав данного критерия входят следующие по приоритету факторы:

- точность совпадения теоретического и фактического объемов алфавита элементов;

- степень совпадения фактического рангового распределения с законом Мандельброта, которая может быть количественно представлена

- максимальным относительным отклонением частоты элемента от его вероятности;

- средним относительным отклонением фактических от теоретических частот вхождения элементов.

Важнейшим результатом исследований Орлова было открытие феномена целостно-завершенного текста, который проявлялся в том, что состав его элементарных компонентов (слов и т.п.) является весьма специфичным (описывается законом Ципфа-Мандельброта). Открытие Орлова косвенно характеризует особую структуру (построение, взаимное расположение компонентов завершенного текста).

Подробнее об идеях Ю. Орлова

Алгоритм сегментации

Об алгоритмах сегментации

Краткая справка

Методы исследования построения текстов

Просмотры

Персональные инструменты

Навигация

Поиск

Инструменты