Меню
Разработки
Разработки  /  Информатика  /  Разное  /  8 класс  /  Информационный анализ текста

Информационный анализ текста

Чем отличается манера письма одного писателя от манеры другого писателя? Ученые-филологи ищут ответ на этот вопрос в стилистических особенностях поэтического или прозаического текста. Решить эту проблему автор попробовал с помощью компьютерных технологий и математического анализа. В работе проведен информационный анализа текстов разных поэтов (Пушкинк, Есенин, Рубцов) с целью выяснить, чем отличается манера письма одного писателя от манеры письма другого писателя, используя числовые оценки поэтического текста.

19.09.2018

Содержимое разработки


МБОУ гимназия № 9

Творческая неделя «Я познаю мир»




Предмет: Информатика





Тема: Информационный анализ текста






Автор работы: Захарченко Вероника

8 Б класс


Учитель: Ледовская Галина Георгиевна,

учитель информатики














Невинномысск, 2016г.

СОДЕРЖАНИЕ:


Стр.

  1. Введение 2

  2. Числовая оценка текста 3

  3. Выводы 6

  4. Заключение 7

  5. Список литературы 8

  6. Приложения 9



























Введение


Тема моей работы «Информационный анализ текста». Проблема особенностей стиля разных поэтов заинтересовала меня. Маяковский, Блок, Есенин… Вслушиваясь в строки их стихов сразу понимаешь чье поэтическое дарование создало замечательные шедевры. Но почему так происходит? Ученые-филологи ищут ответ на этот вопрос в стилистических особенностях поэтического или прозаического текста.

Цель моей работы: выяснить, чем отличается манера письма одного писателя от манеры письма другого писателя, используя числовые оценки поэтического текста.

Задача: попробовать решить эту проблему с помощью компьютерных технологий и математического анализа.

Актуальность. При информационном анализе тексту приписывается некоторая мера информативности, которая поддается измерению и может быть как первичной – характеризующей способность конкретного текста донести до читающего замысел, основное намерение его автора, так и вторичной – характеризующей способность конкретного тек­ста служить источником тех сведений, которые ищет в нем читатель.

Часто отождествляют понятия количества и объема информации. Поясним на примере их различие. Пусть имеется большой энциклопедический словарь в 1400 страниц и такого же объема книга, на каждом листе которой все строки заполнены вопросительными знаками. Объем словаря и книги одинаков – 1400 страниц текста. Поэтому для хранения словаря и книги требуется одинаковый объем памяти. Количество же информации в словаре и книге существенно различается. Всю информацию книги можно записать одной фразой: «1400 страниц с вопросительными знаками». Но даже эта фраза имеет сомнительную ценность и для многих людей не несет никакой полезной информации.


Числовая оценка текста

Известно, что впервые числовые оценки поэтического текста выполнялись известным русским математиком А.А Марковым в начале XX столетия. Сущность этих оценок сводилась к следующему: составлялся список всех слов романа А.С. Пушкина «Евгений Онегин», например, начинающихся на букву «а», затем исходя из этого списка, подсчитывалась вероятность появления каждой буквы русского алфавита на втором месте после буквы «а», далее – на третьем месте и т.д. По такой же схеме анализировались списки слов с другими начальными буквами.

Вероятностный процесс появления букв алфавита в определенных позициях слова Марков назвал случайным процессом, начинающимся с некоторого начального состояния. В указанном случае начальное состояние – это список слов на начальную букву «а».

В настоящее время в теории массового обслуживания такие случайные процессы стали называться цепями Маркова.

После исследований Маркова интерес к информационным измерениям текстов естественного языка возобновился только с установлением К. Шенноном следующей формулы для приближенного вычисления количественной меры информации:

, где через pi обозначена вероятность или частота i-го события, а суммирование проводится по всем значениям pi.

Величина Н измеряется в битах, и ее часто называют энтропией информации (Информацио́нная энтропи́я — мера неопределённости или неопределённость появления какого-либо символа первичного алфавита). Формулу стали применять при анализе кодов, используемых при передаче сообщений, составленных на каком-либо естественном языке.

Различают естественные и искусственные (формальные) языки и их алфавиты. Естественные языки развивались веками и служат для общения людей между собой. Формальные языки разрабатываются для специальных применений.

Количество и графическое изображение символов в алфавитах естественных языков определяется характерными особенностями языка, историей его развития, традициями.

В информатике и вычислительной технике широко используется алфавит, имеющий два знака, две альтернативы, например, 1 и 0, да и нет, истина и ложь, включено и выключено. Такой алфавит называют двоичным. В соответствии с этим введена и наименьшая единица информации – бит.

Информационные измерения устанавливают числовые характеристики естественного языка, которые имеют непосредственное отношение к проблеме передачи информации по различным линиям связи.

Процедуру такого расчета с использованием программ Microsoft Word и Microsoft Excel пакета Microsoft Office XP продемонстрируем на примере текста стихотворения Николая Рубцова «Березы»:

Я люблю, когда шумят березы,

Когда листья падают с берез.

Слушаю – и набегают слезы

На глаза, отвыкшие от слез.

Только чаще побеждает проза,

Словно дунет ветер хмурых дней.

Ведь шумит такая же береза

Над могилой матери моей.

Все очнется в памяти невольно,

Отзовется в сердце и в крови.

Станет как-то радостно и больно,

Будто кто-то шепчет о любви.

На войне отца убила пуля,

А у нас в деревне у оград

С ветром и с дождем шумел, как улей,

Вот такой же желтый листопад

Русь моя, люблю твои березы!

С первых лет я с ними жил и рос.

Потому и набегают слезы

На глаза, отвыкшие от слез.

Для дальнейшей работы с текстом необходимо текст стихотворения расположить вертикально столбиком. Затем произвести автоматический выбор первых букв из всех слов текста. Теперь подсчитываю число слов, начинающихся на некоторую букву. В результате получится таблица 1.

Теперь строю график дискретной функции Рi = Рi(xi), где хi – порядковый номер буквы (Диаграмма 1).

Затем надо перестроить диаграмму 1 в порядке возрастания частоты появления букв. Сначала необходимо таблицу 1 пересортировать в порядке возрастания частоты появления букв. В результате получится таблица 2. затем строю диаграмму 2.

Теперь привожу гистограмму к виду нормальной кривой распределения. В результате получится таблица 3. затем строю график. Получившаяся гистограмма будет иметь вид нормальной кривой распределения (Диаграмма 3).

Таблица 1

Используя этот метод, мною были произведены расчеты над произведениями других авторов. Полученные результаты приведены в таблице и на диаграммах (Приложение).


Автор

Название

(первая строка)

Н, бит

Н. М. Рубцов

Березы

5,867516

А. С. Пушкин

Зимний вечер

3,890906

К морю

4,152854

С. Есенин

Хулиган

4,100523

Эта улица…

4,207777








Выводы


На основании проведенных мной исследований можно сделать следующие выводы:

  1. Частота появления заданной буквы алфавита в достаточно длинных текстах одна и та же для разных текстов одного языка. 

  2. Сравнительный анализ творчества различных поэтов, основывающийся только на количестве носимой информации не дает полной идентификации автора. Нужны дополнительные данные, учитывающие другие особенности языка автора: частота появления частей речи, членов предложения и других элементов языка.

  3. Рассматривая график нормальной кривой распределения и клавиатуру, я заметила закономерность, наиболее часто используемые буквы располагаются в основном ряду клавиатуры, т. е. в центре клавиатуре.

Наименее часто используемые буквы располагаются во 2, 3 ряду клавиатуре.














Заключение


Рассматривая произведения различных авторов одной тематической направленности, но принадлежащих разной временной эпохе, можно судить о развитии языка изложения по количеству носимой информации, хотя, может быть, гениальность А.С. Пушкина, в какой-то мере, и состоит в его умении описания событий, используя минимальный набор слов.

Рассматривая произведения одного автора, но разные по тематике, можно судить о его предрасположенности к тем или иным темам изложения. Так, основываясь на количественных методах исследования, можно отнести С. Есенина к поэтам-лирикам (при написании стихотворений о природе он гораздо полнее использует возможности языка, чем при написании стихотворений городского цикла).

















Литература:



1. Бубнов В.А., Карпушкин Н.А. Частотный анализ слов по начальной букве.

2. Есипов А.С. Информатика. СПб. 2001г.

3. http://www.newsociolog.ru. Информационный анализ текстов, потенциально содержащих искомые индикатумы.

4. http://ru.wikipedia.org Википедия.

Приложение

Таблица 1

хулиган

х

№ п/п

Буква

Кол-во

Рi

Pi*Log(Pi;2)

дождик

д

1

а

1

0,006802721

0,048977363

мокрыми

м

2

б

3

0,020408163

0,114585915

метлами

м

3

в

14

0,095238095

0,32307785

чистит

ч

4

г

5

0,034013605

0,165909668

ивняковый

и

5

д

2

0,013605442

0,084349284

помет

п

6

е

1

0,006802721

0,048977363

по

п

7

ё

0

0

0

лугам

л

8

ж

5

0,034013605

0,165909668

плюйся

п

9

з

4

0,027210884

0,141487683

ветер

в

10

и

5

0,034013605

0,165909668

охапками

о

11

й

0

0

0

листьев

л

12

к

19

0,129251701

0,381518039

я

я

13

л

7

0,047619048

0,209157973

такой

т

14

м

12

0,081632653

0,295078355

же

ж

15

н

5

0,034013605

0,165909668

как

к

16

о

4

0,027210884

0,141487683

ты

т

17

п

14

0,095238095

0,32307785

хулиган

х

18

р

7

0,047619048

0,209157973

я

я

19

с

15

0,102040816

0,335998138

люблю

л

20

т

5

0,034013605

0,165909668

когда

к

21

у

1

0,006802721

0,048977363

синие

с

22

ф

0

0

0

чащи

ч

23

х

6

0,040816327

0,188355504

как

к

24

ц

0

0

0

с

с

25

ч

6

0,040816327

0,188355504

тяжелой

т

26

ш

0

0

0

походкой

п

27

щ

0

0

0

волы

в

28

ъ

0

0

0

животами

ж

29

ы

0

0

0

листвой

л

30

ь

0

0

0

хрипящими

х

31

э

0

0

0

по

п

32

ю

0

0

0

коленам

к

33

я

6

0,040816327

0,188355504

марают

м


N=

147

H=

4,100523683





Таблица 2

Таблица 3


№ п/п

Буква

Кол-во

Рi

1

е

0

0

2

з

0

0

3

ф

0

0

4

щ

0

0

5

ы

0

0

6

э

0

0

7

а

1

0,00952381

8

ч

1

0,00952381

9

я

2

0,019047619

10

д

4

0,038095238

11

м

4

0,038095238

12

у

4

0,038095238

13

и

6

0,057142857

14

л

6

0,057142857

15

п

7

0,066666667

16

о

9

0,085714286

17

с

11

0,104761905

18

с

11

0,104761905

19

о

9

0,085714286

20

п

7

0,066666667

21

л

6

0,057142857

22

и

6

0,057142857

23

у

4

0,038095238

24

м

4

0,038095238

25

д

4

0,038095238

26

я

2

0,019047619

27

ч

1

0,00952381

28

а

1

0,00952381

29

э

0

0

30

ы

0

0

31

щ

0

0

32

ф

0

0

33

з

0

0






№ п/п

Буква

Кол-во

Рi

1

е

0

0

2

ё

0

0

3

з

0

0

4

й

0

0

5

ф

0

0

6

ц

0

0

7

щ

0

0

8

ъ

0

0

9

ы

0

0

10

ь

0

0

11

э

0

0

12

ю

0

0

13

а

1

0,00952381

14

х

1

0,00952381

15

ч

1

0,00952381

16

г

2

0,019047619

17

я

2

0,019047619

18

р

3

0,028571429

19

д

4

0,038095238

20

ж

4

0,038095238

21

м

4

0,038095238

22

т

4

0,038095238

23

у

4

0,038095238

24

ш

4

0,038095238

25

и

6

0,057142857

26

к

6

0,057142857

27

л

6

0,057142857

28

б

7

0,066666667

29

п

7

0,066666667

30

н

9

0,085714286

31

о

9

0,085714286

32

в

10

0,095238095

33

с

11

0,104761905





























Диаграмма 1



Диаграмма 2



Диаграмма 3












14


-80%
Курсы повышения квалификации

Компьютерная грамотность для учителей

Продолжительность 72 часа
Документ: Удостоверение о повышении квалификации
4000 руб.
800 руб.
Подробнее
Скачать разработку
Сохранить у себя:
Информационный анализ текста (450 KB)

Комментарии 0

Чтобы добавить комментарий зарегистрируйтесь или на сайт