МБОУ гимназия № 9
Творческая неделя «Я познаю мир»
Предмет: Информатика
Тема: Информационный анализ текста
Автор работы: Захарченко Вероника
8 Б класс
Учитель: Ледовская Галина Георгиевна,
учитель информатики
Невинномысск, 2016г.
СОДЕРЖАНИЕ:
Стр.
Введение 2
Числовая оценка текста 3
Выводы 6
Заключение 7
Список литературы 8
Приложения 9
Введение
Тема моей работы «Информационный анализ текста». Проблема особенностей стиля разных поэтов заинтересовала меня. Маяковский, Блок, Есенин… Вслушиваясь в строки их стихов сразу понимаешь чье поэтическое дарование создало замечательные шедевры. Но почему так происходит? Ученые-филологи ищут ответ на этот вопрос в стилистических особенностях поэтического или прозаического текста.
Цель моей работы: выяснить, чем отличается манера письма одного писателя от манеры письма другого писателя, используя числовые оценки поэтического текста.
Задача: попробовать решить эту проблему с помощью компьютерных технологий и математического анализа.
Актуальность. При информационном анализе тексту приписывается некоторая мера информативности, которая поддается измерению и может быть как первичной – характеризующей способность конкретного текста донести до читающего замысел, основное намерение его автора, так и вторичной – характеризующей способность конкретного текста служить источником тех сведений, которые ищет в нем читатель.
Часто отождествляют понятия количества и объема информации. Поясним на примере их различие. Пусть имеется большой энциклопедический словарь в 1400 страниц и такого же объема книга, на каждом листе которой все строки заполнены вопросительными знаками. Объем словаря и книги одинаков – 1400 страниц текста. Поэтому для хранения словаря и книги требуется одинаковый объем памяти. Количество же информации в словаре и книге существенно различается. Всю информацию книги можно записать одной фразой: «1400 страниц с вопросительными знаками». Но даже эта фраза имеет сомнительную ценность и для многих людей не несет никакой полезной информации.
Числовая оценка текста
Известно, что впервые числовые оценки поэтического текста выполнялись известным русским математиком А.А Марковым в начале XX столетия. Сущность этих оценок сводилась к следующему: составлялся список всех слов романа А.С. Пушкина «Евгений Онегин», например, начинающихся на букву «а», затем исходя из этого списка, подсчитывалась вероятность появления каждой буквы русского алфавита на втором месте после буквы «а», далее – на третьем месте и т.д. По такой же схеме анализировались списки слов с другими начальными буквами.
Вероятностный процесс появления букв алфавита в определенных позициях слова Марков назвал случайным процессом, начинающимся с некоторого начального состояния. В указанном случае начальное состояние – это список слов на начальную букву «а».
В настоящее время в теории массового обслуживания такие случайные процессы стали называться цепями Маркова.
После исследований Маркова интерес к информационным измерениям текстов естественного языка возобновился только с установлением К. Шенноном следующей формулы для приближенного вычисления количественной меры информации:
, где через pi обозначена вероятность или частота i-го события, а суммирование проводится по всем значениям pi.
Величина Н измеряется в битах, и ее часто называют энтропией информации (Информацио́нная энтропи́я — мера неопределённости или неопределённость появления какого-либо символа первичного алфавита). Формулу стали применять при анализе кодов, используемых при передаче сообщений, составленных на каком-либо естественном языке.
Различают естественные и искусственные (формальные) языки и их алфавиты. Естественные языки развивались веками и служат для общения людей между собой. Формальные языки разрабатываются для специальных применений.
Количество и графическое изображение символов в алфавитах естественных языков определяется характерными особенностями языка, историей его развития, традициями.
В информатике и вычислительной технике широко используется алфавит, имеющий два знака, две альтернативы, например, 1 и 0, да и нет, истина и ложь, включено и выключено. Такой алфавит называют двоичным. В соответствии с этим введена и наименьшая единица информации – бит.
Информационные измерения устанавливают числовые характеристики естественного языка, которые имеют непосредственное отношение к проблеме передачи информации по различным линиям связи.
Процедуру такого расчета с использованием программ Microsoft Word и Microsoft Excel пакета Microsoft Office XP продемонстрируем на примере текста стихотворения Николая Рубцова «Березы»:
Я люблю, когда шумят березы, Когда листья падают с берез. Слушаю – и набегают слезы На глаза, отвыкшие от слез. | Только чаще побеждает проза, Словно дунет ветер хмурых дней. Ведь шумит такая же береза Над могилой матери моей. |
Все очнется в памяти невольно, Отзовется в сердце и в крови. Станет как-то радостно и больно, Будто кто-то шепчет о любви. | На войне отца убила пуля, А у нас в деревне у оград С ветром и с дождем шумел, как улей, Вот такой же желтый листопад |
Русь моя, люблю твои березы!
С первых лет я с ними жил и рос.
Потому и набегают слезы
На глаза, отвыкшие от слез.
Для дальнейшей работы с текстом необходимо текст стихотворения расположить вертикально столбиком. Затем произвести автоматический выбор первых букв из всех слов текста. Теперь подсчитываю число слов, начинающихся на некоторую букву. В результате получится таблица 1.
Теперь строю график дискретной функции Рi = Рi(xi), где хi – порядковый номер буквы (Диаграмма 1).
Затем надо перестроить диаграмму 1 в порядке возрастания частоты появления букв. Сначала необходимо таблицу 1 пересортировать в порядке возрастания частоты появления букв. В результате получится таблица 2. затем строю диаграмму 2.
Теперь привожу гистограмму к виду нормальной кривой распределения. В результате получится таблица 3. затем строю график. Получившаяся гистограмма будет иметь вид нормальной кривой распределения (Диаграмма 3).
Таблица 1
Используя этот метод, мною были произведены расчеты над произведениями других авторов. Полученные результаты приведены в таблице и на диаграммах (Приложение).
Автор | Название (первая строка) | Н, бит |
Н. М. Рубцов | Березы | 5,867516 |
А. С. Пушкин | Зимний вечер | 3,890906 |
К морю | 4,152854 | |
С. Есенин | Хулиган | 4,100523 |
Эта улица… | 4,207777 |
Выводы
На основании проведенных мной исследований можно сделать следующие выводы:
Частота появления заданной буквы алфавита в достаточно длинных текстах одна и та же для разных текстов одного языка.
Сравнительный анализ творчества различных поэтов, основывающийся только на количестве носимой информации не дает полной идентификации автора. Нужны дополнительные данные, учитывающие другие особенности языка автора: частота появления частей речи, членов предложения и других элементов языка.
Рассматривая график нормальной кривой распределения и клавиатуру, я заметила закономерность, наиболее часто используемые буквы располагаются в основном ряду клавиатуры, т. е. в центре клавиатуре.
Наименее часто используемые буквы располагаются во 2, 3 ряду клавиатуре.
Заключение
Рассматривая произведения различных авторов одной тематической направленности, но принадлежащих разной временной эпохе, можно судить о развитии языка изложения по количеству носимой информации, хотя, может быть, гениальность А.С. Пушкина, в какой-то мере, и состоит в его умении описания событий, используя минимальный набор слов.
Рассматривая произведения одного автора, но разные по тематике, можно судить о его предрасположенности к тем или иным темам изложения. Так, основываясь на количественных методах исследования, можно отнести С. Есенина к поэтам-лирикам (при написании стихотворений о природе он гораздо полнее использует возможности языка, чем при написании стихотворений городского цикла).
Литература:
1. Бубнов В.А., Карпушкин Н.А. Частотный анализ слов по начальной букве.
2. Есипов А.С. Информатика. СПб. 2001г.
3. http://www.newsociolog.ru. Информационный анализ текстов, потенциально содержащих искомые индикатумы.
4. http://ru.wikipedia.org Википедия.
Приложение
Таблица 1
хулиган | х | № п/п | Буква | Кол-во | Рi | Pi*Log(Pi;2) |
дождик | д | 1 | а | 1 | 0,006802721 | 0,048977363 |
мокрыми | м | 2 | б | 3 | 0,020408163 | 0,114585915 |
метлами | м | 3 | в | 14 | 0,095238095 | 0,32307785 |
чистит | ч | 4 | г | 5 | 0,034013605 | 0,165909668 |
ивняковый | и | 5 | д | 2 | 0,013605442 | 0,084349284 |
помет | п | 6 | е | 1 | 0,006802721 | 0,048977363 |
по | п | 7 | ё | 0 | 0 | 0 |
лугам | л | 8 | ж | 5 | 0,034013605 | 0,165909668 |
плюйся | п | 9 | з | 4 | 0,027210884 | 0,141487683 |
ветер | в | 10 | и | 5 | 0,034013605 | 0,165909668 |
охапками | о | 11 | й | 0 | 0 | 0 |
листьев | л | 12 | к | 19 | 0,129251701 | 0,381518039 |
я | я | 13 | л | 7 | 0,047619048 | 0,209157973 |
такой | т | 14 | м | 12 | 0,081632653 | 0,295078355 |
же | ж | 15 | н | 5 | 0,034013605 | 0,165909668 |
как | к | 16 | о | 4 | 0,027210884 | 0,141487683 |
ты | т | 17 | п | 14 | 0,095238095 | 0,32307785 |
хулиган | х | 18 | р | 7 | 0,047619048 | 0,209157973 |
я | я | 19 | с | 15 | 0,102040816 | 0,335998138 |
люблю | л | 20 | т | 5 | 0,034013605 | 0,165909668 |
когда | к | 21 | у | 1 | 0,006802721 | 0,048977363 |
синие | с | 22 | ф | 0 | 0 | 0 |
чащи | ч | 23 | х | 6 | 0,040816327 | 0,188355504 |
как | к | 24 | ц | 0 | 0 | 0 |
с | с | 25 | ч | 6 | 0,040816327 | 0,188355504 |
тяжелой | т | 26 | ш | 0 | 0 | 0 |
походкой | п | 27 | щ | 0 | 0 | 0 |
волы | в | 28 | ъ | 0 | 0 | 0 |
животами | ж | 29 | ы | 0 | 0 | 0 |
листвой | л | 30 | ь | 0 | 0 | 0 |
хрипящими | х | 31 | э | 0 | 0 | 0 |
по | п | 32 | ю | 0 | 0 | 0 |
коленам | к | 33 | я | 6 | 0,040816327 | 0,188355504 |
марают | м |
| N= | 147 | H= | 4,100523683 |
Таблица 2
Таблица 3
№ п/п | Буква | Кол-во | Рi |
1 | е | 0 | 0 |
2 | з | 0 | 0 |
3 | ф | 0 | 0 |
4 | щ | 0 | 0 |
5 | ы | 0 | 0 |
6 | э | 0 | 0 |
7 | а | 1 | 0,00952381 |
8 | ч | 1 | 0,00952381 |
9 | я | 2 | 0,019047619 |
10 | д | 4 | 0,038095238 |
11 | м | 4 | 0,038095238 |
12 | у | 4 | 0,038095238 |
13 | и | 6 | 0,057142857 |
14 | л | 6 | 0,057142857 |
15 | п | 7 | 0,066666667 |
16 | о | 9 | 0,085714286 |
17 | с | 11 | 0,104761905 |
18 | с | 11 | 0,104761905 |
19 | о | 9 | 0,085714286 |
20 | п | 7 | 0,066666667 |
21 | л | 6 | 0,057142857 |
22 | и | 6 | 0,057142857 |
23 | у | 4 | 0,038095238 |
24 | м | 4 | 0,038095238 |
25 | д | 4 | 0,038095238 |
26 | я | 2 | 0,019047619 |
27 | ч | 1 | 0,00952381 |
28 | а | 1 | 0,00952381 |
29 | э | 0 | 0 |
30 | ы | 0 | 0 |
31 | щ | 0 | 0 |
32 | ф | 0 | 0 |
33 | з | 0 | 0 |
№ п/п | Буква | Кол-во | Рi |
1 | е | 0 | 0 |
2 | ё | 0 | 0 |
3 | з | 0 | 0 |
4 | й | 0 | 0 |
5 | ф | 0 | 0 |
6 | ц | 0 | 0 |
7 | щ | 0 | 0 |
8 | ъ | 0 | 0 |
9 | ы | 0 | 0 |
10 | ь | 0 | 0 |
11 | э | 0 | 0 |
12 | ю | 0 | 0 |
13 | а | 1 | 0,00952381 |
14 | х | 1 | 0,00952381 |
15 | ч | 1 | 0,00952381 |
16 | г | 2 | 0,019047619 |
17 | я | 2 | 0,019047619 |
18 | р | 3 | 0,028571429 |
19 | д | 4 | 0,038095238 |
20 | ж | 4 | 0,038095238 |
21 | м | 4 | 0,038095238 |
22 | т | 4 | 0,038095238 |
23 | у | 4 | 0,038095238 |
24 | ш | 4 | 0,038095238 |
25 | и | 6 | 0,057142857 |
26 | к | 6 | 0,057142857 |
27 | л | 6 | 0,057142857 |
28 | б | 7 | 0,066666667 |
29 | п | 7 | 0,066666667 |
30 | н | 9 | 0,085714286 |
31 | о | 9 | 0,085714286 |
32 | в | 10 | 0,095238095 |
33 | с | 11 | 0,104761905 |
Диаграмма 1
Диаграмма 2
Диаграмма 3
14