Что такое мощность алфавита? как находить мощность алфавита: формула

Описание термина

Понятие мощности алфавита находится в основании изучения информатики. Алфавитом принято называть набор многочисленных символов. Сумма всех их в определённом языке и есть алфавитная мощность. Иными словами, это количество всех символов, входящих в конкретно взятый язык. Сюда входят не только буквы, но и прочие обозначения, в частности:

Что такое мощность алфавита? как находить мощность алфавита: формула

  • числа;
  • спецсимволы;
  • двоеточия;
  • пробел;
  • скобки;
  • запятые;
  • точки;
  • многоточия и прочее.

Это определение считается обобщённым и не принимает во внимание вычисления информационной составляющей сообщения. Она может содержать в себе числа, знаки препинания и прочее

В этом случае прибегают к использованию другого способа. Его суть основывается на том, что любая буква, цифра или знак обладают собственным информационным объемом данных. Компьютер работает с этим информационным кодом и распознает то, что было написано.

Основным постулатом в информатике является тот факт, что устройство разбирает введённую информацию исключительно в двоичном коде в форме нуля и единицы. В итоге получается, что абсолютно любой символ алфавита может быть успешно закодирован при помощи соответствующего подбора этих двух цифровых символов. Самая маленькая последовательность, применяемая при обозначении какой-либо цифры, буквы или другого знака, состоит из двух элементов.

Вопросы

1. Что такое алфавит?

  • Алфавит — это неограниченный набор символов, который можно использовать только для чтения информации.
  • Алфавит — это бесконечный набор символов, используемых для представления информации.
  • Алфавит – ограниченное множество символов, предназначенных для представления информации.
  • Алфавит — это ограниченный набор символов, используемых только для изменения информации.

2. Что определяет мощность алфавита?

  • общее количество символов в алфавите
  • общее количество символов в алфавите предложения
  • половина от общего количества символов в алфавите
  • общее количество символов в алфавите слова

3. Что такое информационный вес символа алфавита?

  • измеряется в битах
  • вес одного слова
  • зависит от количества знаков в алфавите
  • измеряется количеством
  • не зависит от количества знаков в алфавите
  • измеряется в байтах
  • вес одного символа

4. Как можно измерить информационный объем текста с помощью алфавитного подхода? (найдите ошибки в формуле и исправьте их)

K = N•Х

5. Какие формулы и величины используются при алфавитном подходе измерения информации?

  • N = 2х
  • N=2•k
  • I=K•x

6. Что такое байт, килобайт, мегабайт, гигабайт?

  • 1000 мегабайт
  • 8000 бит
  • 1000 байт
  • 8 мегабит
  • 8 гигабит
  • 8 килобит
  • 8000 килобит
  • 8 бит
  • 1000 килобайт
  • 8000 мегабит

Что такое мощность алфавита? как находить мощность алфавита: формула

Тағы да осы тақырып бойынша

Басқа іс-әрекеттер

  • Сілтемені көшіру
  • Қате туралы хабарлау

Измерение информационного объема

Однако это были всего лишь простейшие примеры, так сказать, для начального понимания того, что такое мощность алфавита. Перейдем непосредственно к практике.

Что такое мощность алфавита? как находить мощность алфавита: формула

На данном этапе развития компьютерной техники для набора текста с учетом заглавных, прописных и строчных букв, кириллических и латинских литер, знаков препинания, скобок, знаков арифметических действий и т.д. используется 256 символов. Исходя из того, что 256 это 28, нетрудно догадаться, что вес каждого символа в таком алфавите равен 8, то есть, 8 битам или 1 байту.

Если исходить из всех известных параметров, можно с легкостью получить нужное нам значение информационного объема любого текста. Например, у нас есть компьютерный текст, содержащий 30 страниц. На одной странице располагается 50 строк по 60 любых знаков или символов, включая и пробелы.

Таким образом, одна страница будет содержать 50 х 60= 3 000 байт информации, а весь текст – 3000 х 50=150000 байт. Как видим даже небольшие тексты измерять в байтах неудобно. А что говорить о целых библиотеках?

Что такое мощность алфавита? как находить мощность алфавита: формула

В данном случае лучше переводить объем в более мощные величины – килобайты, мегабайты, гигабайты и т.д. Исходя из того, что, например, 1 килобайт равен 1024 байта (210), а мегабайт – 210 килобайт (1024 килобайта), нетрудно посчитать, что объем текста в информационно-математическом выражении для нашего примера составит 150000/1024=146,484375 килобайт или приблизительно 0,14305 мегабайт.

Мощность алфавита и информационная емкость. Формула Хартли

Все множество символов, из которых состоит язык, можно традиционно назвать алфавитом. Как правило, под алфавитом понимаются только буквы, но кроме них при написании текстов используются знаки препинания, цифры, скобки, пробелы, их тоже, в свою очередь, можно включить в алфавит.

Таким образом, алфавит — это множество символов, используемых при записи текста.

Мощность (размер) алфавита — это полное количество символов в алфавите.

Мощность алфавита обозначается буквой $N$.

Например:

  • мощность алфавита, состоящего из русских букв (кириллицы), равна $33$;

  • мощность алфавита, состоящего из латинских букв — $26$;

  • мощность алфавита текста набранного с клавиатуры компьютера равна $256$ (строчные и прописные латинские и русские буквы, цифры, знаки арифметических операций, скобки, знаки препинания и т.д.);

  • мощность двоичного алфавита равна $2$.

При алфавитном подходе считают, что каждый символ текста несет в себе определенную информационную емкость, которая, в свою очередь, зависит от мощности алфавита.

Алфавит, с помощью которого записывается сообщение, состоит из $N$ знаков. В самом простом случае при длине кода сообщения, равной одному знаку, отправитель может послать одно из $N$ возможных сообщений, которое будет нести количество информации, равное $I$, согласно формуле:

$N = 2^I$ ,

где $N$ — количество знаков в алфавите знаковой системы,

$I$ — количество информации, которое несет каждый знак.

Данную формулу вывел Р. Хартли, который в $20$-е годы прошлого столетия заложил основы теории информации, в которой определялась мера количества информации при решении некоторых задач.

Хартли утверждал, что на количество информации, содержащейся в сообщении, может влиять фактор неожиданности, который, в свою очередь, зависит от вероятности получения сообщения. Если эта вероятность получения сообщения высокая, а неожиданность при этом низкая, то сообщение будет содержать мало полезной для человека информации.

Замечание 1

Однако при создании своей формулы Р.Хартли полностью исключил фактор неожиданности. Формула Хартли работает только в том случае, когда появление символов равновероятно и они статистически независимы.

Например, с помощью приведенной формулы можно определить количество информации, которое несет знак в двоичной системе счисления:

Что такое мощность алфавита? как находить мощность алфавита: формулаРисунок 1.

Информационная емкость знака двоичной системы составляет 1 бит.

Пример 1

Необходимо определить информационную емкость буквы русского алфавита (без учета буквы «ё»).

Решение:

Представим себе, что текст к нам поступает последовательно, по одному знаку, словно бумажная лента, выползающая из телеграфного аппарата. Предположим, что каждый символ, который появляется на ленте, с равной вероятностью может быть любым символом алфавита. В действительности это не совсем так, но для упрощения примем такое предположение.

В каждой очередной позиции текста может появиться любой из $N$ символов. Тогда, согласно известной нам формуле, каждый такой символ несет количество информации равное $I$ бит, которое можно определить из решения уравнения:

Что такое мощность алфавита? как находить мощность алфавита: формулаРисунок 2.

Информационная емкость буквы русского алфавита составляет $5$ бит информации.

Таким образом, формула определения $N$ связывает между собой количество возможных событий и количество информации, которое содержит в себе полученное сообщение. В рассматриваемой выше задаче $N$ — это количество знаков в русском алфавите, а $I$ — количество информации, которое несёт одна буква.

Сообщение состоит из последовательности знаков, каждый из которых несет определенное количество информации.

Количество информации в сообщении можно определить, используя формулу:

$I_c = K \cdot I$,

где $I_c$ — количество информации, содержащееся в сообщении;

$I$ — количество информации, которое несет один знак (информационная емкость);

$K$ — количество знаков в сообщении.

Единицы измерения информации

Ограничений максимального размера алфавита теоретически не существует. Однако существует алфавит, который можно назвать достаточным. Он используется при работе с компьютером. Мощность этого алфавита — $256$ символов. Он включает в себя практически все необходимые символы: латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания.

Поскольку $256 = 2^8$, то отсюда следует, что $1$ символ этого алфавита содержит $8$ бит информации. Эта величина лежит в основе использования вычислительной технике и носит название — байт.

$1$ байт = $8$ бит

Используя данный алфавит, который еще называется таблицей ASCII-кодов, можно легко подсчитать объем информации в тексте. В данном случае $1$ символ алфавита содержит в себе $1$ байт информации, поэтому необходимо просто определить количество символов, то число, которое получим в результате, и будет выражать информационный объем текста в байтах.

Допустим небольшая книга, распечатанная на принтере, содержит $50$ страниц, при этом на каждой странице расположено $50$ строк, в каждой строке — $60$ символов.

Проведем несложный расчет и получим, что страница содержит:

$50 \cdot 60 = 3000$ байт информации.

Объем же информации, содержащейся в книге:

$3000 \cdot 50 = 150 \ 000$ байт.

Любая система единиц измерения содержит основные единицы и производные от них.

При измерении больших объемов информации на практике широко используются следующие производные от байта единицы, которые приведены в таблице:

Что такое мощность алфавита? как находить мощность алфавита: формулаРисунок 3.

Определение информационного объёма в тексте

Почти всегда при наборе текста на компьютерах и других электронных устройствах приходится сталкиваться с написанием различных символов. К ним следует отнести:

  • заглавные и жирные буквы;
  • курсив;
  • скобки;
  • знаки препинания;
  • вычислительные операции и прочее.

Что такое мощность алфавита? как находить мощность алфавита: формула

Размер любой напечатанной фразы может быть вычислен по формуле V=K ⋅ log2N. В этом случае N обозначает количество всех символов в алфавите, а K — это численность знаков непосредственно в напечатанной фразе. Так, например, имеется произвольный текст объёмом в 25 листов. На каждом из них расположено по 45 строчек текста, содержащих по 58 символов.

Исходя из этого, на любой отдельной странице будет 45*58 = 2610 байт информации. В целом же по всему тексту этот объём будет равен 2610*25 = 65250 байт. Для обозначения мощности алфавита в информатике общепринятым вариантом является буква N из формулы Хартли. Именно ее чаще всего указывают в большинстве учебников и профессиональной литературе.

В кодовой таблице ASCII используют восьмибитную кодировку текстовых сообщений. Она позволяет полностью вместить основной набор символов кириллического и латинского алфавитов как в строчном, так и в прописном вариантах. Также с её помощью можно отобразить знаки препинания, цифры и прочие базовые знаки. Часто пользователям приходится иметь дело с более крупными объёмами, состоящими из триллионов байтов.

Поскольку один отдельный символ состоит из 8 битов, то устанавливать их кодировку целиком не представляется возможным. Вместо этого предпочтительнее образовать кодировку трёхбитовых комбинаций. Расчёт этого действия проводится по формуле Хартли, где n-ная степень будет равняться трём. В результате получается N, равная 8.

При определении мощности чаще всего используют алфавитный подход. Он говорит о том, что объём информации, заложенной в тексте, зависит исключительно от мощности самого алфавита и размера сообщения (то есть количества символов, содержащихся в нём). Этот показатель не имеет никакой связи со смысловым наполнением для человека.

Рассчитываем мощность

Скорее всего, вам уже известно из школьного курса информатики, что в современных вычислительных системах, построенных на архитектуре фон Неймана, используется двоичная система кодировки информации. Так кодируются как программы, так и данные.

Для того чтобы представить текст в вычислительной системе, используют равномерный код из восьми разрядов. Равномерным код считается потому, что содержит фиксированный набор элементов — 0 и 1. Значения в таком коде задаются определенным порядком этих элементов. С помощью восьмиразрядного кода мы можем закодировать сообщения весом 256 бит, ведь по формуле Хартли: M8=28= 256 бит информации.

Такая ситуация с кодировкой символов двоичным кодом сложилась исторически. Но теоретически мы могли бы использовать и другие алфавиты для представления данных. Так, к примеру, в четырехзнаковом алфавите у каждого символа был бы вес не один, а два бита, в восьмизнаковом — 3 бита и так далее. Это рассчитывается с помощью двоичного логарифма, который был приведен выше (i = log2M).

Так как в алфавите мощностью 256 бит для обозначения одного символа отводится восемь двоичных разрядов, было решено ввести дополнительную меру информации — байт. Один байт содержит один символ кодовой таблицы ASCII и содержит в себе восемь бит.

Что такое мощность алфавита? как находить мощность алфавита: формула

Как определить объем информации в тексте?

Обычно всегда при наборе текста можно использовать жирные, заглавные, и буквы с курсивом, знаки препинания, разнообразные скобы, операции вычисления и т.д. По расчетам  получается, что мощность компьютерного алфавита — это 256 символов и вариантов. Следуя формуле Хартли, N=256, тогда масса каждого значка (i) в клавиатурном алфавите равна восьми битам, то есть один байт.

Размер напечатанной фразы нужно вычислять по формуле: V=K⋅log2N, N — это численность символов в алфавите, а количество знаков в напечатанной фразе – K.  Например, дан любой текст, который уместился на 30 страницах. На каждой из них расположено по 55 строчек, в них по 65 символов. Получается, что на странице будет 50 х 65= 3 575 байт информации.Что такое мощность алфавита? как находить мощность алфавита: формула

Принцип алфавитного подхода к оценке количества информации

Алфавитный подход строится на принципе, утверждающем, что любое сообщение можно представить в виде кодов с помощью конечной последовательности символов, содержащейся в любом алфавите. Носители информации содержат любые последовательности символов, которые могут храниться, передаваться и обрабатываться как с помощью человека, так и с помощью технических устройств, в частности компьютера. Этот подход описал А.Н. Колмогоров, согласно которому, информативность, заключающаяся в последовательности символов, не может зависеть от содержания самого сообщения, а может определяться лишь минимальным количеством символов, необходимых для ее кодирования. Подобный подход к оценке количества информации носит объективный характер, так как не зависит от получателя, принимающего сообщения. Смысл же сообщений может учитываться только на этапе выбора алфавита кодирования либо не учитываться совсем.

В основу принципа этого подхода лег подсчет числа символов в сообщении, таким образом, важна только длина сообщения и совсем не учитывается его содержание. Однако на длину сообщения может влиять мощность алфавита используемого языка.

Самый простой способ разобраться в этом — рассмотреть пример любого текста, написанного на каком-нибудь языке. Для нас, конечно же, удобным будет текст на русском языке.