Измерение информации
(→Измерение информации) |
(→Измерение информации) |
||
Строка 151: | Строка 151: | ||
{---------------------------Грязновой Евгении------------------------------------------------} | {---------------------------Грязновой Евгении------------------------------------------------} | ||
{---------------------------Поммер Артема----------------------------------------------------} | {---------------------------Поммер Артема----------------------------------------------------} | ||
− | [[ | + | Какое [[количество информации]] содержится, к примеру, в тексте романа "Война и |
мир", во фресках Рафаэля или в генетическом коде человека? Ответа на эти вопросы наука | мир", во фресках Рафаэля или в генетическом коде человека? Ответа на эти вопросы наука | ||
не даёт и, по всей вероятности, даст не скоро. А возможно ли объективно измерить | не даёт и, по всей вероятности, даст не скоро. А возможно ли объективно измерить |
Версия 09:31, 7 мая 2008
Измерение информации
Вопрос «как измерить информацию?» очень непростой. Ответ на него зависит от того, что понимать под информацией. Но поскольку определять информацию можно по-разному, то и способы измерения могут быть разными. Существует три подхода к измерению количества информации. При этом разные подходы к измерению информации применяются в быту, технике и в теории информации.
Измерение информации в быту
Предположим, что Вы получили какое-то сообщение. ( например прочитали статью в любимом журнале). В этом сообщение содержится какое-то количество информации. Как оценить какое количество информаци вы получили? Другими словами, как измерить информацию?
Можно ли сказать , что чем больше статья, тем больше информации она содержит? Разные люди, получившие одно и то же сообщение по разному оценивают количество информации, содержащееся в нем. Это происходит оттого, что знания людей об этих событиях , явлениях до получения сообщения были различны. Поэтому те, кто знал об этом мало, сочтут, что получили много информации, те же, кто знал больше, чем написано в статье, скажут, что не получили информации вообще. Таким образом можно сказать , что количество информации зависит от того насколько новой является эта информация для получателя .
При таком подходе непонятно, по каким критериям можно ввести единицу измерения информации. Следовательно, с точки зрения информации как новизны мы не можем оценить количество информации, содержащейся в научном открытии, новой теории общественого развития.
Измерение информации в технике
В технике информацией считается любая хранящаяся , обрабатываемая или передаваемая последовательность символов. Часто используют простой и грубый способ определения количества информации, который может быть назван обьемным. Он основан на подсчете количества символов в сообщении, т. е. связан с его длиной и не учитывает содержания.
Длина сообщения зависит от числа различных символов, употребляемых для записи сообщения. В вычислительной технике применяются две стандартные единицы измерения: бит ( двоичный знак двоичного алфавита {0,1}) - минимальная единица измерения информации и байт - (равен восьми битам, представляет собой один символ, т.е. при вводе с клавиатуры этого символа машине передается 1 байт информации).
Измерение информации в теории информации (информация, как снятая неопределенность).
Пылкий влюбленный, находясь в разлуке, с обьектом своей любви, посылает телеграмму; “Любишь?”. В ответ приходит не менее лаконичная телеграмма: “Да!”. Сколько информации несет ответная телеграмма? Альтернатив здесь две- либо “Да”, либо “нет”.Их можно обозначить знаками двоичного кода - 1 и 0. Таким образом, ответную телеграмму можно было бы закодировать всего одним двоичным символом. содержащееся Можно ли сказать, что ответная телеграмма несет одну единицу информации? Получение информации ( ее увеличение ) одновременно означает увеличение знания или уменьшение информационной неопределенности.
Книга лежит на одной из двух полок - верхней или нижней. Сообщение о том, что книга лежит на верхней полке уменьшает неопределенность в два раза.
В простейшем случае выбор одного из двух сообщений ("да" или "нет", 0 или 1) принимают за единицу информации. Она названа "бит" или двоичная цифра. Вопрос ценности этой информации для получателя - это уже из иной области.
Сообщение о том, как упала монета- "орлом" или "решкой" несет один бит информации.
Известно, что Иванов живет на улице Весенней. Сообщение о том, что номер его дома четный, уменьшило неопределенность вдвое, мы стали знать больше, но информационная неопределенность осталась. Почему в этом случае мы не можем сказать, что информационная неопределенность уменьшилась вдвое? Если вы затрудняетесь ответить на этот вопрос, представьте себе улицу, на четной стороне которой, например, четыре дома, а на нечетной - двадцать. Такие улицы не такая уж большая редкость.
Очень приближенно можно сказать, что количество информации в сообщении о каком-то событии совпадает с количеством вопросов, которые необходимо задать, чтобы получить ту же информацию, ответ на эти вопросы может быть лишь "да" или "нет".
В теории информации количеством информации называют числовую характеристику сигнала, не зависящую от его формы и содержания и характеризующую неопределенность, которая исчезает после получения сообщения в виде данного сигнала. В этом случае количество информации зависит от вероятности получения сообщения о том или ином событии.
Для абсолютно достоверного события (событие обязательно произойдет, поэтому его вероятность равна 1) количество вероятности в сообщении о нем равно 0. Чем невероятнее событие, тем большую информацию о нем несет сообщение. Лишь при равновероятных ответах ответ "да" или "нет" несет 1 бит информации.
Оценка информации, так же как вещества или энергии, может быть субъективной и объективной. В первом случае главное - смысл информации, а во втором - её измеримость.
Смысл информации для машины, обрабатывающей её - это абсурд. Субъективная оценка информации не является универсальной.
При объективной оценке информации следует отрешиться от содержания её человеческой "важности" для кого бы то ни было. Измеримость информации достигается использованием искусственных органов чувств - устройств, приборов, датчиков и т. д. Они не только расширяют пределы слышимого и видимого, но и могут обрабатывать сигналы, не доступные органам чувств человека.
Информацию измеряют так же, как измеряют вещество и энергию, приняв некоторую единицу измерения за эталон. Что же принять за эталон? Компьютерная техника, как известно, работает, “питаясь” электрическим током – явлением с двумя состояниями. Если обозначить эти состояния (ведь смысл самого явления не важен!), получится алфавит из двух символов или двоичный алфавит.
Количество информации, которое содержит символ двоичного алфавита, принято за единицу измерения информации.
Так как речь идет о единицах и количестве, то в качестве символов используются цифры. Исторически случилось так, что этими цифрами стали 0 и 1.
Единица измерения количества информации называется БИТ (от англ. bit, сокращенно от binary digit – двоичная цифра).
Бит - самое короткое слово двоичного алфавита и самая маленькая единица измерения информации, причем символы 0 и 1 равноправны. Для удобства введена более крупная единица измерения количества информации, принятая Международной системой СИ за основную, - БАЙТ (англ. byte).
1 байт (b) = 8 бит
Производные единицы измерения информации:
1 килобайт, Kb (K) = 1024 b (210 b)
1 мегабайт, Mb (M) = 1024 Kb (210 Kb) = 220 b
1 гигабайт, Gb (G) = 1024 Mb (210 Мb) = 230 b
Первый способ измерения информации отражает вероятностный (содержательный) подход. Этот метод называется субъективным
Информация - сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний.
Точнее раскрыть суть определения помогает понять то, какие задачи помогает решить информация (а не то, что собой она представляет).
Информация устраняет неопределенность, предоставляет человеку сделать выбор в пользу какого-либо варианта исхода некоторого события. Таким образом, информация начинает играть роль в том случае, если, во-первых, имеется некоторый выбор вариантов и, во-вторых, если эти варианты требуется определенным способом оценить. Информация предоставляет человеку возможность дать такую оценку.
Рассмотрим равновероятностные варианты.
Подойдя к развилке дорог, человек, направляющийся в определенное место, неожиданно встает перед выбором, на какую же из них свернуть. Он выбирает ту дорогу, которая ведет к цели. Если он знает, по какой из дорог он доберется до места, то информация ему не нужна. С самого начала он способен оценить оба варианта. Если же вся обстановка совершенно незнакома и у него нет никаких исходных данных, то ему нужна информация. Объем информации, требующейся при полном отсутствии предварительных данных для выбора одного из двух равноценных и совершенно независимых вариантов, принято считать единицей информации и обозначать, как бит.
1 бит - количество информации, позволяющее выбрать один вариант из двух равноценных, независимых вариантов.
Чтобы иметь возможность сделать правильный выбор между четырьмя различными дорогами, требуется два бита информации. Поясним это на таком примере. Сначала две дороги делят на две группы по две дороги в каждой. Далее выбираем группу как один из двух равноценных вариантов, т. е. нам требуется один бит информации, После того, как будет выбрана группа, в ней опять делается выбор между двумя дорогами и нам требуется еще один бит. В сумме получаем два бита информации для выбора одного из четырех вариантов.
Если бы нам потребовалось сделать выбор из восьми вариантов, то нужно было бы три бита информации: один бит идет на выбор между двумя группами из четырех дорог, второй - в группе из четырех выбираем подгруппу, состоящую из двух дорог, третий бит - выбираем из двух дорог ту, по которой пойдем.
Для выбора одного варианта из 16 требуется четыре бита информации и т.д. Здесь уже прослеживается определенная закономерность: при n битах информации нужный вариант выбирается из 2n возможных.
И наоборот, указав один нужный вариант из 2n возможных и одинаково принимаемых в расчет, мы дадим информацию в n битов.
Количество информации n, содержащееся в сообщении о том, что произошло одно из N равновероятных событий, определяется из решения показательного уравнения: 2^n = N = > i = log2N (формула Хартли ).
Если события имеют разные вероятности, то применяется формула Шеннона, имеющая вид i= - Σ Pi log2 Pi = -(P1 log2 P1+ P2 log2 P 2 + ... + Pn log2 Pn), где i – количество информации, N – количество возможных событий, Pi – вероятность этих событий.
Тем самым мы получаем точное правило для определения объема информации, содержащейся в сведениях и сообщениях.
Алфавитный подход к измерению информации позволяет определить количество информации, заключенной в тексте. Алфавитный подход является объективным, т.е. он не зависит от субъекта (человека), воспринимающего текст.
Множество символов, используемых при записи текста, называется алфавитом. Полное количество символов в алфавите называется мощностью (размером) алфавита. Будем обозначать эту величину буквой N. Например, мощность алфавита из русских букв и дополнительных символов равна 54.
Представьте себе, что текст к вам поступает последовательно, по одному знаку, словно бумажная ленточка, выползающая из телеграфного аппарата. Предположим, что каждый появляющийся на ленте символ с одинаковой вероятностью может быть любым символом алфавита. (В действительности это не совсем так, но для упрощения примем такое предположение.)
Вот сколько информации несет один символ в русском тексте! А теперь для того, чтобы найти количество информации во всем тексте, нужно посчитать число символов в нем и умножить на i.
Возьмем с книжной полки какую-нибудь книгу и посчитаем количество информации на одной ее странице. Пусть страница содержит 50 строк. В каждой строке — 60 символов. Значит, на странице умещается 50*60 = 3000 знаков. Тогда объем информации будет равен: 5,755 х 3000 = 17265 бит.
Следовательно, при алфавитном подходе к измерению информации количество информации от содержания не зависит. Количество информации зависит от объема текста (то есть от числа знаков в тексте) и от мощности алфавита.
Отсюда следует, например, что нельзя сравнивать информационные объемы текстов, написанных на разных языках, только по объему. У них отличаются информационные веса одного символа, так как мощности алфавитов разных языков - различные.
В каждой очередной позиции текста может появиться любой из N символов. Каждый символ несет i бит информации; число i можно определить из уравнения:
2*i = N. Для N = 54, используя таблицу, получаем: i = 5,755 бит.
Но если книги написаны на одном языке, то понятно, что в толстой книге информации больше, чем в тонкой. При этом содержательная сторона книги в расчет не берется.
Сформулируем правило, как измерить информацию, используя для этого алфавитный подход.
Количество информации, содержащееся в символьном сообщении, равно К*i, где К— число символов в тексте сообщения, a i -информационный вес символа, который находится из уравнения 2^i = N , где N — мощность используемого алфавита.
Множество символов, используемых при записи текста, называется алфавитом. Полное количество символов в алфавите называется мощностью (размером) алфавита. Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ, вычисляется по формуле: i = log2N.
Применение алфавитного подхода удобно, прежде всего, при использовании технических средств работы с информацией. В этом случае теряют смысл понятия «новые - старые», «понятные - непонятные» сведения. Алфавитный подход является объективным способом измерения информации в отличие от субъективного, содержательного, подхода.
Прагматический подход к измерению информации позволяет определить количество новой информации по отношению ко всей. Прагматический подход - оценивается полезность сообщения
Однако, при таком подходе непонятно, по каким критериям можно ввести единицу измерения информации. Следовательно, с точки зрения информации как новизны мы не можем оценить количество информации, содержащейся в научном открытии, новой теории общественного развития.
Прагматический подход - оценивается полезность сообщения. I=log 2 (P1/P0), где P - вероятность решения задачи P0 до сообщения и P1 после сообщения.
Внешняя память компьютера используется для длительного хранения информации.
Устройства внешней памяти: магнитные диски и ленты, оптические (лазерные) диски, магнитооптические диски.
Дисководы — устройства чтения/записи информации на диски. Различают гибкие магнитные диски — дискеты и жесткие магнитные диски. Жесткие магнитные диски встроены в дисковод и в отличие от дискет являются несъемными.
Структура магнитного диска: одна или несколько сторон (магнитных поверхностей), разделенных на концентрические дорожки, каждая из которых, в свою очередь, поделена на сектора, состоящие из «клеточек» — байтов. Все секторы на одном диске имеют фиксированный размер. Вся работа по считыванию и записи данных на дисках производится только полными секторами. Полный объем памяти диска определяется формулой: ОБЪЕМ = СТОРОНЫ*ДОРОЖКИ*СЕКТОРА*БАЙТЫ, где СТОРОНЫ — количество сторон диска, ДОРОЖКИ — количество дорожек на стороне, СЕКТОРА — количество секторов на дорожке, БАЙТЫ — количество байт в секторе.
Информация на устройствах внешней памяти имеет файловую организацию. Файл — поименованная совокупность данных, хранящихся на внешнем носителе.
Файловая структура диска — это совокупность файлов на диске и взаимосвязей между ними.
Логический диск — это физический (реальный) диск или часть физического диска, которому присвоено собственное имя. Имена логических дисков задаются первыми буквами латинского алфавита с двоеточием: А:, В:, С: и т.д. Обычно с одним гибким магнитным диском связан один логический диск (А:, В), а жесткий диск делится на несколько логических (С:, D: и т.д.)
Каталог — это поименованная совокупность файлов и подкаталогов (т.е. вложенных каталогов). Каталог самого верхнего уровня иерархии называется корневым. Он не вложен ни в какие другие каталоги.
Путь к файлу — это последовательность, состоящая из имен каталогов (разделенных символом «\»), начиная от корневого и заканчивая тем, в котором непосредственно хранится файл.
Полное имя файла состоит из имени логического диска, пути к файлу и имени файла. В одном каталоге не может быть нескольких файлов и каталогов с одинаковыми именами. В разных каталогах это допустимо.
Дерево - графическое изображение иерархической файловой структуры диска. {----------------------------изменения-------------------------------------------------------} {---------------------------Грязновой Евгении------------------------------------------------} {---------------------------Поммер Артема----------------------------------------------------}
Какое количество информации содержится, к примеру, в тексте романа "Война и
мир", во фресках Рафаэля или в генетическом коде человека? Ответа на эти вопросы наука не даёт и, по всей вероятности, даст не скоро. А возможно ли объективно измерить количество информации? Важнейшим результатом теории информации является следующий вывод: В определенных, весьма широких условиях можно пренебречь качественными особенностями информации, выразить её количество числом, а также сравнить количество информации, содержащейся в различных группах данных.
В настоящее время получили распространение подходы к определению понятия
"количество информации", основанные на том, что информацию, содержащуюся в сообщении, можно нестрого трактовать в смысле её новизны или, иначе, уменьшения неопределённости наших знаний об объекте. Эти подходы используют математические понятия вероятности и логарифма.
Подходы к определению количества информации. Формулы Хартли и
Шеннона.
Американский инженер Р. Хартли в 1928 г. процесс получения информации
рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.
Формула Хартли: I = log2N Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле
Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 > 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.
Приведем другие примеры равновероятных сообщений: 1. при бросании монеты: "выпала решка", "выпал орел"; 2. на странице книги: "количество букв чётное", "количество букв нечётное". Определим теперь, являются ли равновероятными сообщения "первой выйдет из
дверей здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.
Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г.
другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.
Формула Шеннона: I = — ( p1log2 p1 + p2 log2 p2 + . . . + pN log2 pN), где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений. Легко заметить, что если вероятности p1, ..., pN равны, то каждая из них равна 1 / N, и
формула Шеннона превращается в формулу Хартли.
Помимо двух рассмотренных подходов к определению количества информации,
существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.
{--------------------------------------------------------------------------------------------} {--------------------------------------------------------------------------------------------} {--------------------------------------------------------------------------------------------}