Меню
Разработки
Разработки  /  Русский язык  /  Разное  /  Прочее  /  Лингвостатистический метод

Лингвостатистический метод

27.07.2021

Содержимое разработки

ТРЯМ-11

Ратникова Д.

Лингвостатистический метод и методы социолингвистики

Для современного лингвистического исследования актуальным остается философское положение о том, что предмет, не отра­женный в аспекте количества, не может считаться конкретно познанным и что наука вообще достигает совершенства лишь там и в той мере, в какой ей удается взять на вооружение математику.

Категория количества в языке связана с установлением количе­ственных изменений, вызывающих качественные преобразования языковых явлений. Именно действие в языке закона перехода ко­личественных изменений в качественные служит важнейшим ус­ловием выявления в нем его закономерностей. В связи с этим ос­новной задачей количественного метода в языкознании является раскрытие закономерностей функционирования единиц языка и речи, а также установление закономерностей построения текста. Теоретическое обоснование этого метода и создание алгоритмов его практического применения в языкознании — предмет особой отрасли науки о языке, получившей название лингвостатистики.

Возможность применения лингвостатистического метода в нашей науке обусловлена природой и сущностью языка.

1.Язык как система представляет собой совокупность взаимо­связанных дискретных (членимых) единиц, обладающих ко­личественными характеристиками. Этот фактор в скрытом виде признается всеми языковедами, традиционно использующи­ми такие количественные понятия, как «часто», «редко», «мно­гочисленные», «наиболее употребительные», «редко употреб­ляемые» и т.п.

2. Количественные характеристики языковых единиц (и их эле­ментов) одного уровня формируют качественное своеобразие единиц другого уровня. Так, язык с десятью фонемами обра­зует иное количество звуковых «оболочек» морфем и слов, чем язык с пятьюдесятью фонемами.

3. Язык имеет вероятностный характер. Так, для образования слов используется незначительная часть возможных комбинаций фонем и морфем. В этом выражается действие вероятностных ограничений в сочетании фонем и морфем.



Речь, как известно, — область реализации языковой системы. Применение к ее исследованию лингвостатистического метода пред­определяется: а) множественностью языковых единиц, б) их по­вторяемостью в речи и в) избирательностью языковых единиц (элементов) из ряда однородных (возможностью выбора соответ­ствующей замыслу высказывания единицы).

Итак, Лингвостатистический метод применим для изучения как языка, так и речи. Однако следует помнить, что количествен­ные характеристики в системе языка не тождественны их количе­ственным отношениям в речи. Дело в том, что на речь влияют не только законы языка (и, прежде всего, закономерности строения языковых единиц, закономерности их речевой реализации), но и законы сочетаемости языковых единиц в речи, законы жанра, тема высказывания, идиостилистические особенности речи и т.п. Характер воздействия этих факторов предсказать сложно.

Количественные и качественные методы должны допол­нять друг друга. Следовательно, лингвостатистический метод, как и матема­тизация языкознания, «не отменяет и не умаляет значимости ка­чественных методов».

Шире всего количественные методики используются при описании лексического уровня языковой системы. Лингвисты убеждены, что лексемный ярус системен, но его системность осо­бого рода. В лексике целостность и устойчивость системы соче­тается с автономностью частей (подсистем). В ней заметна мас­совость и случайность и одновременно господствует необходи­мость. Всё это характерно для вероятностных систем.

Единицами и уровнями квантитативного анализа являются сло­воформы, лексема и словоупотребление [Тулдава 1987]. Практическим результатом статистического изучения лек­сики являются частотные словари, отличающиеся от обычных лингвистических (толковых, орфографических и других) тем, что словарные единицы располагаются в них не только в ал­фавитном порядке, но и в порядке убывающей частотности. В первом случае это будет алфавитный частотный словарь, а во втором — ранговый частотный словарь. Частотные слова­ри характеризуются следующими параметрами: объём тек­ста (число словоупотреблений), объём словаря словоформ, объём словаря лексем. Первым частотным словарём был словарь Кединга (1898). За девяносто лет XX столетия было составлено несколько сот частотных словарей и частотных списков для нескольких де­сятков языков. Первым частотным словарём русского языка был словарь Г. Йоссельсона (США, Детройт, 1953). В нашей стране первый частотный словарь русского языка был состав­лен Э. Штейнфельд (1963). Интересны материалы к частот­ному словарю языка Пушкина (1963). В 1977 г. вышел в свет «Частотный словарь русского языка» под редакцией Л.Н. За-сориной. Создавался он на основе выборки в один миллион словоупотреблений из четырёх жанров (художественная про­за, драматургия, научная публицистика, газетно-журнальные материалы). В нём около 40 тыс. слов. Самое частотное слово — предлог в (во) далее идут служебные слова и местоимения (и, не, на, я, быть, что, он, с, а, как, это}. Самое частотное суще­ствительное — год. В 90-х гг. XX в. в Швеции вышел в свет «Частотный сло­варь современного русского языка» (Уппсала, 1993). Идея частотных словарей возникла из практической по­требности решения ряда вопросов: 1) создание рациональной методики изучения родного и иностранного языков; 2) усо­вершенствование различных кодовых систем; 3) выявление специфики разных стилей литературных памятников или языка отдельных авторов. Вслед за частотными списками слов появляются словари, отражающие частоты морфем и грам­матических форм. Частотные словари позволили обнаружить целый ряд ко­личественных закономерностей в лексическом составе язы­ка. Первые 1500 слов частотного словаря для любого языка составляют примерно 80% всех словоупотреблений. Причём 12 самых частотных слов — артикли и предлоги — из 20 тыс. слов (словарь Эсту) составляют примерно 40% всех словоу­потреблений. По Г. Йоссельсону, в русском языке наречия, предлоги, союзы, частицы составляют 13,9% всего текста. Сделан общий вывод, что первые 50 слов охватывают грам­матический словарь любого языка. Нет сомнения, что частотные словари окажутся мощным инструментом теоретического и практического языкознания. Они могут дать корректные в научном смысле выводы о струк­туре общенародной лексики и количественном соотношении её различных пластов, помогут решить проблему языковой нормы и строго определить понятие функционального стиля.

Частотные словари задали новые стимулы для развития лингвистической типологии.

Количественные характеристики словарного состава в разных стилевых и авторских разновидностях речи в настоящее время широко используются в лексикологии и стилистике. Количественными парамет­рами обладают такие явления, как ритм и рифма. С примене­нием статистики увеличивается надежность типологических разысканий. С помощью статистических методов устанавли­вается мера генетической близости между славянскими язы­ками, сохраняемой, по данным праславянской лексики, каж­дым из них [Журавлев 1994].

С помощью формально-количественных методов изучает­ся авторский идиостиль, под которым В.П. Григорьев пони­мает взаимосвязь между языковыми средствами и особенно­стями творческой позиции писателя, его взгляда на мир, на окружающую действительность [Баранов 1998: 121]. Замече­но, например, что частицы разве и неужели по-разному рас­пределены в романах М. Булгакова «Мастер и Маргарита» и «Белая гвардия». В первом романе значительно чаще встре­чается частица разве, значение которой предполагает более активную, действенную позицию говорящего, подвергающе­го сомнению некоторое положение дел. В «Белой гвардии» чаще исп&льзуется частица неужели, которая указывает на то, что некоторое положение дел практически принимается го­ворящим и он лишь недоумевает, почему оно имеет место. Исследователь видит пассивное «изумление», «удивление» автора в «Белой гвардии» и активное восприятие в «Мастере и Маргарите» [Баранов 1998: 121].

Количественная методика стала более эффективной с по­явлением вычислительной техники. Определение авторства с помощью формально-количе­ственных и статистических методов стимулировало поиск и выявление характерных структур авторского языка. На этом строятся многообразные методики, представленные в книге «От Нестора до Фонвизина. Новые методы определения ав­торства» (М., 1994). В многолетний спор по поводу того, кто является истин­ным автором романа «Тихий Дон», в свое время включились скандинавские ученые, норвежско-шведский коллектив под руководством Г. Хьетсо. Они взяли тексты, бесспорно при­надлежащие М. Шолохову, и тексты донского писателя Ф. Крюкова, которому приписывалось авторство великого романа, и проанализировали их, выявляя особенности писательс­кой манеры каждого. Учёные сравнили длину предложений, распределения длины предложений по количеству слов, распре­деление частей речи, сочетание частей речи в начале и в конце предложения, частоту применения союзов в начале предложе­ний, лексические спектры, повторяемость словарного запаса по богатству. Естественно, сделать это оказалось возможным толь­ко с помощью мощной вычислительной техники. Математи­ческая статистика при контрольной выборке на ЭВМ 12 тыс. фраз при 164 637 словах представлена в 250 таблицах, форму­лах и графиках [Книжное обозрение. — 1999. № 18—19. С. б]. Вывод однозначен: из двух претендентов на авторство «Ти­хого Дона» Крюков явно обладает наименьшим правом. «...Применение математической статистики позволяет нам исключить возможность того, что роман написан Крюковым, тогда как авторство Шолохова исключить невозможно».

В Эдинбурге (Англия) разработан аналитический метод, основывающийся на учёте зависимости частоты употребляе­мого слова и длины предложения, в котором оно появляется. Этот метод получил название «диаграммы накапливающих­ся сумм». С его помощью установлено, что каждому человеку свойствен прочно укоренившийся, неизменный стиль, кото­рый не поддаётся имитации. Например, стиль Т. Харди в «Руке Этельберты» (1876) убедительно совпадает со стилем «Джуда Неизвестного». Анализ показал, что авторы приобретают и сохраняют постоянный стиль, как бы ни сложилась их жизнь. Например, стиль В. Скотта в «Антикварии» (1816) полностью совпадает с его стилем в «Замке опасностей», написанном после того, как знаменитый английский писатель перенёс три инсульта, один из которых лишил его речи и нарушил двига­тельные способности.

Метод выявляет в тексте инородные вставки, обнаруживает попытки подделать авторский стиль.



Количествен­ное описание подъязыков науки и техники используется для ав­томатической обработки языковой информации (создания инфор­мационно-поисковых систем и программ для машинного рефе­рирования текстов), а также в методике преподавания языков.

Основные понятия лингвостатистики

Согласно философской категории всеобщей связи, между явле­ниями языка и речи существуют определенные связи и зависимо­сти. Обычно различают два вида зависимости — функциональную (динамическую) и статистическую. Функциональная зависимость состоит в том, что одному языковому явлению соответствует другое определенное явление. Такого рода зависимость присуща мно­гим физическим явлениям. Повышение температуры - жидкое состояние воды; понижение температуры — ее кристаллизация. функциональные зависимости дают точные определения установ­ленным закономерностям, т.е. могут быть сформулированы как закон. В нашем случае он имеет всем известную формулу: «Вода при температуре ниже О'С превращается в лед». При статистической (вероятностной) зависимости одному явлению или свойству языка могут соответствовать несколько явлений или свойств. Так, уже можно считать аксиомой: между числом значений слова в словаре и частотой его употребления в речи (тексте) существует определенная статистическая зависи­мость. Это значит, что выявленному числу значений того или иного слова не обязательно соответствует строго определенная частота употребления этого слова (М.В. Арапов). Такие нестрогие соответствия между качественной и количе­ственной характеристикой языкового явления получили назва­ние корреляций.

Термин корреляция имеет два значения: 1) обще­научное — «соотношение, соответствие, взаимосвязь, взаимоза­висимость явлений» и 2) в лингвистической статистике — «такая связь между языковыми явлениями, при которой одно из явле­ний входит в число причин, определяющих другие, или когда имеются общие причины, воздействующие на эти явления».

В лингвистике обычно используют линейную корреляцию, согласно которой возрастание значений одного признака сопро­вождается возрастанием или убыванием значений другого при­знака. В такой линейной корреляции могут находиться, напри­мер, лексико-семантические варианты слова и частота встречае­мости слова в речи (в тексте). Если при возрастании значений одного признака возрастают значения другого, то устанавливает­ся так называемая положительная корреляция. Если же при возра­стании значений одного признака значения другого признака убы­вают, то налицо отрицательная корреляция. Число, показывающее степень тесноты корреляции, называ­йся коэффициентом корреляции (это число находится между -1 и 1). Иными словами, коэффициент корреляции за-^ючается от нуля до единицы со знаком «плюс» или «минус»: ~1 +1. Если между исследуемыми признаками нет никакой статистической эависимосги, величина коэффициента будет равна нулю.

Для описания и исследования лингвистических фактов привлекаются различные разделы математики: алгебра, тео­рия множеств, математическая логика, теория информации, теория вероятностей и математическая статистика.

В силу этого математическая лингвистика стала развиваться в не­скольких направлениях — алгебраическая лингвистика, ком­бинаторная лингвистика, которая опирается на разделы «не­количественной» математики (теория множеств, математи­ческая логика, теория алгоритмов), и квантитативная лингвистика, которая изучает лингвистические явления с по­мощью «количественной» математики (математическая ста­тистика, теория вероятностей, теория информации и др.). Квантитативная лингвистика отличается от математичес­кой лингвистики большим вниманием к языковой специфи­ке, которая стоит за количественными отношениями. Глав­ная её задача — поиск связи между количественными и каче­ственными сторонами языка: между употребительностью и возрастом слов, длиной слова и его употребительностью, по­лисемией и употребительностью; делается попытка выявить объективный критерий таких лингвистических категорий, как продуктивность классов слов, однородность и регуляр­ность отношений между единицами словаря.

Пока наиболее перспективным представляется исследо­вание сущностных характеристик языка при помощи аппа­рата теории вероятностей и математической статистики — квантитативная лингвистика. Собственно говоря, связь ма­тематики с языкознанием началась с попыток установить ста­тистические свойства речи, поскольку языку присущи объек­тивные количественные характеристики. Благодаря вероят­ностной природе языковой структуры, она легко поддается изучению математическим аппаратом теории вероятностей и математической статистики, Основа тому — регулярность, упорядоченность языковых явлений. Уже существует боль­шая специальная литература, отразившая результаты приме­нения статистических методик в исследовании различных ярусов языковой системы. Статистически исследуется фонетика, закладываются ос­новы статистического изучения морфемного состава слова и морфологических категорий. В частности, установлена связь между числом фонем и средней длиной морфемы, стало из­вестно, что количество фонем отражается на качестве морфем и слов, а количество морфем на качестве слов. Интересна по­пытка количественно выразить степень силы управления. Намечается статистическая классификация синтаксических конструкций, обследуются закономерности связи размера предложения с характером текста. Выявлено, что с XI до XX в. вероятность использования предлогов увеличилась с 0,096 (XI—XIII вв.) до 0,123 (XX в.), а союзов уменьшилась с 0,126 (XI—XIII вв.) до 0,085 (XX в.).



Математические методы обладают следу­ющими возможностями:

  • делают точными суждения, основанные на количествен­но-частотных соображениях;

  • указывают на такие обстоятельства функционирования языка или диалекта, которые иными способами не обнаружи­ваются;

  • позволяют глубже и всесторонне понять причины и результаты языковой эволюции, длительность эволюционных процессов и их хронологию, и даже прогнозировать будущее языковое развитие;

  • расширяют сферу прикладного использования языкоз­нания.



Методы социолингвистики

Связь истории языка с историей общества находит свое отражение уже в работах В. фон Гумбольдта, И. А. Бодуэна де Куртенэ, Ф. И Буслаева, Ф. де Соссюра и многих других языковедов. Почву для современной социолингвистики подготовили также труды французской социологической школы (А. Мейе, Ж. Вандриес, Э. Бенвенист и др.), женевской школы (Ш. Балли, А. Сеше), пражской лингвистической школы (В. Матезиус, Б. Гавранек и др.), работы американских этнолингвистов (Э. Сепир и др.), лингвосоциологические исследования Л. П. Якубинского, В. В. Виноградова, Б. А. Ларина, В.М. Жирмунского, Е. Д. Поливанова и других ученых.

Социолингвистика представляет собой научную дисциплину, возникшую на стыке языкознания, социологии, социальной психологии и этнографии. Она изучает широкий комплекс проблем, связанных социальной природой языка, его общественными функциями, с той ролью, которую играет язык в жизни общества, поэтому методы социолингвистики представляют собой синтез социологических и лингвистических процедур. Социолингвистические методы изучения языка подразделяют на методы

полевого исследования и методы социолингвистического анализа языкового материала.

Методы полевого исследования включают в себя анкетирование, интервьюирование, непосредственное наблюдение. При анкетировании используются опросники в виде заранее подготовленных анкет с определенным характером и числом вопросов, определяемых задачей анкетирования – получить сведения о самих информантах и тех или иных особенностях их речи. При интервьюировании большое внимание уделяется предварительному составлению программы и разработке техники интервью. С целью получения достоверных данных о влиянии ситуативных параметров на речь информантов при полевом исследовании тщательно контролируют речевую ситуацию, стимулируя либо естественно-непринужденную речь, либо сознательную ориентацию на престижный эталон. Наблюдения над речью информантов строятся таким образом, чтобы свести до минимума или исключить влияние наблюдателя на их речевое поведение. Иногда проводится так называемое включенное наблюдение, при котором наблюдатель выступает не в роли интервьюера, а в качестве участника коммуникативного акта.

Обработка данных полевых наблюдений производится с помощью разновидностей корреляционного анализа. Классификации социальных вариантов языка производятся с точки зрения его стратификационной, ситуативной и коммуникативной вариантности.

При стратификационной классификации исходят из соотношения вариантов языка с определенными социальными группами: выделяют профессиональные варианты, жаргоны, социальные диалекты, варианты игрового характера и т.д.

Ситуативная классификация определяет варианты языка в зависимости от конкретных социальных ситуаций его употребления: обстановки и места речевого события (университетская аудитория, выступление в суде, официальные переговоры, семейная беседа и т.д.).

Коммуникативная классификация предполагает характеристику вариативности языка в зависимости от структуры и форм речи: диалог или монолог, устная или письменная речь, жанр и стиль речи и т.д.

Социолингвистике свойственны корреляции, в которых в качестве независимых переменных выступают те или иные социальные параметры: социальный статус говорящего или слушающего, аудитория, обстановка и т.д., а в качестве зависимых от них – языковые явления. По каждому отдельному социальному параметру функциональная зависимость языковых явлений может быть как полной, так и частичной. Зависимости описываются отдельно по каждому выделенному социальному параметру и подвергаются содержательной интерпретации, часто для этого используются таблицы или графики зависимостей.

Одним из ключевых в социолингвистике выступает понятие языковой ситуации. Под языковой ситуацией понимают функциональную общность языков и их вариантов, обслуживающих некоторый социум: этническую общность, государство, политико-территориальное объединение. Характер языковой ситуации в том или ином социуме определяется, прежде всего, официальным статусом языков, а также их ролью в жизни языкового приводит к попыткам создания функциональной классификации языков.










-75%
Курсы повышения квалификации

Синтаксис современного русского языка

Продолжительность 72 часа
Документ: Удостоверение о повышении квалификации
4000 руб.
1000 руб.
Подробнее
Скачать разработку
Сохранить у себя:
Лингвостатистический метод (35.59 KB)

Комментарии 0

Чтобы добавить комментарий зарегистрируйтесь или на сайт