Среднее число словоупотреблений табуированной лексики (в одном сообщении и на 1000 словоупотреблений)

22195

знаков

таблица

изображений

Опыт стилистической диагностики текстовых источников Интернета

10. Среднее число словоупотреблений табуированной лексики (в одном сообщении и на 1000 словоупотреблений).

Несмотря на то, что подсчет распространенности каждой из четырех категорий лексики был проведен по двум параметрам (на 1 сообщение и на 1000 словоупотреблений), этого недостаточно. Предположим, что в нашей выборке 100 сообщений: 99 – коротких, но без ошибок, а последнее – длинное и со 100 ошибками. Опираясь только на первые два параметра, мы получим среднее число ошибок – 1 на сообщение, из чего, вероятно, составим неверное представление о грамотности в среде пользователей того или иного сервиса. Между тем, в такой выборке грамотность будет весьма высока. В связи с возможностью такой неверной интерпретации введем еще один числовой критерий – отношение числа сообщений, содержащих ошибки, к общему числу сообщений (репрезентативных). Назовем этот критерий встречаемостью.

Приведем некоторые комментарии к перечню параметров.

Параметры 1–2 показывают количество проанализированных структурных единиц текста (являющихся в целом нестандартными). Это, соответственно, отдельные сообщения в веблогах и веб-конференциях.

Параметр 3 характеризует величину выборки и является стандартным в большинстве подобных исследований.

Параметры 4–6 иллюстрируют объем сообщения и длину предложений внутри него, которая в общем случае коррелирует с их распространенностью.

Параметры 7–10 имеют непосредственное отношение к стилистике текста, причем логично предположить, что чем выше значение каждого параметра, тем более рассматриваемый текст является «неформальным», т.е. в рамках существующей системы приближенным к разговорному стилю.

Заметим, что 12 тыс. словоупотреблений – достаточно небольшая выборка, особенно по сравнению с национальными корпусами, однако «повседневные линейные языковые явления распределяются в текстах сравнительно стабильно, и их можно достоверно установить в относительно коротких текстовых сегментах (уже в объеме 1000 слов)» [Шимкова 2004].

В отношении орфографических ошибок, упрощений, сленговых и табуированных выражений автор в основном руководствовался собственным знанием русского языка и четырехлетним опытом веб-коммуникации, в сложных случаях прибегая к помощи русского орфографического словаря РАН под ред. В.В. Лопатина.

5. Результаты исследования

Практические результаты анализа представлены в следующей таблице:

	Веблоги	Форумы
	Веблоги	в целом	spbgu.ru	ixbt.com
Объем выборки, сообщений	100	231	120	111
из них репрезентативно	73	230	119	111
Словоупотреблений	6040	5973	3014	2959
Среднее число предложений	9,973	3,070	3,017	3,126
Среднее число слов	82,740	25,970	25,328	26,658
Средняя длина предложения	8,296	8,459	8,395	8,528
На 1 сообщение:
ошибок	0,507	0,243	0,277	0,207
упрощений	0,384	0,083	0,084	0,081
словоупотреблений сленга	1,438	0,287	0,303	0,270
табуированной лексики	0,521	0,009	0,008	0,009
На 1000 словоупотреблений:
ошибок	6,126	9,376	10,949	7,773
упрощений	4,636	3,181	3,318	3,042
словоупотреблений сленга	17,384	11,050	11,944	10,139
табуированной лексики	6,291	0,335	0,332	0,338
Встречаемость:
ошибок	0,219	0,143	0,193	0,090
упрощений	0,192	0,057	0,059	0,054
словоупотреблений сленга	0,521	0,222	0,218	0,225
табуированной лексики	0,164	0,009	0,008	0,009

6. Некоторые комментарии к результатам исследования

Все значительные расхождения в значениях параметров между веблогами и форумами, на наш взгляд, продиктованы следующими причинами.

1. Сообщение в веблоге единично и представляет собой письменный монолог одного автора, в то время как совокупность сообщений в одном топике веб-конференции – диалог (полилог). Этим объясняется большее (в 3 раза) число предложений на 1 сообщение блога и, соответственно, среднее количество слов в нем. При этом значительного различия в длине предложений нет.

Помимо этого, языковая личность в диалоге ведет себя иначе, нежели в монологе. Осознанно или неосознанно, но коммуникант стремится создать определенное впечатление о себе (скорее всего, положительное) у партнера по коммуникации. Иными словами, мы считаем, что в письменном диалоге человек более склонен следить за речью, чем в письменном же монологе, и именно поэтому онлайн-дневники в 1,5 раза и более превосходят форумы по количеству упрощений, словоупотреблений сленга и табуированной лексики.

2. Веб-конференции модерируются, т.е. сообщение, содержащее в том числе запрещенную лексику, удаляется (хотя необязательно), а к его автору могут применяться санкции в виде запрета на размещение сообщений в конференцию или отдельные ее разделы на некоторое время. В связи с этим табуированная лексика в нашей выборке из форумов (оба из которых – модерируемые) практически отсутствует. Веблоги, как известно, в этом смысле предоставляют полную свободу слова.

3. Влияние технологий, типичных для блогов. В частности, результаты онлайн-тестов в сообщениях снижают репрезентативность выборки.

4. Влияние сложившихся традиций. Так, в веб-конференции не принято размещать сообщения, содержащие только изображения. При необходимости чаще дается внешняя ссылка.

Небезынтересна ситуация с грамотностью. Видно, что у веблогов выше встречаемость ошибок, а у конференций больше их частотность на 1000 словоупотреблений. Интерпретировать это можно следующим образом: грамотных людей на форумах больше, но если уж человек делает ошибки, то делает их много.

Также любопытно, что форум Санкт-Петербургского государственного университета заметно превосходит по числу ошибок форум iXBT.com. При этом значения остальных параметров, отнесенных нами к релевантным для стилистики, для этих двух конференций примерно одинаковы.

Заключение

Стилистическая диагностика Интернет-источников представляется работой безусловно важной как с фундаментальной, так и с прикладной точки зрения, и довольно сложной. Как уже говорилось, новизна и разнообразие материала открывают массу возможностей для исследователя. В рамках данного исследования сделаны некоторые шаги к разработке эффективной методики создания текстовых выборок для анализа, что само по себе являлось одной из его задач. Далее, мы попытались выбрать некие критерии, по которым можно проводить собственно анализ. Можно говорить о том, что эти критерии были частично субъективны, но важнее то, что оценивалась (пусть и не абсолютно объективно) вся выборка одинаково. В дальнейшем, очевидно, имеет смысл прибегнуть к несколько иному набору параметров, например: соотношение частей речи, распределение падежных форм, частотность тех или иных синтаксических конструкций и т.п. Могут обнаружиться какие-либо уникальные для стилистической диагностики критерии[1], противопоставляющие тексты Интернета всем остальным. Таким образом, планируется продолжать работу в этой области с учетом накопленного опыта.

Научная Литература

1. Сичинава Д.В. Об одном лингвистическом параметре типологии текстов: коэффициент под/над. – Научно-техническая информация, серия 2, № 10, 2003, 27-35. – URL: http://mitrius.narod.ru/Ling/Corpling/podnad.zip

2. Трофимова Г.Н. Языковой вкус Интернет-эпохи в России (функционирование русского языка в Интернете: концептуально-сущностные доминанты): Монография. – 2005. – URL: http://planeta.gramota.ru/gnt.html

3. Функциональные стили и формы речи. / Под ред. проф. О.Б. Сиротининой. – Издательство Саратовского университета, 1993.

4. Шимкова М. Репрезентативность корпуса как лингвистическая проблема. // Сборник: Труды Международной конференции MegaLing-2005: Прикладная лингвистика в поиске новых путей. – СПб., 2005.

электронные источники

1. «Живой журнал». – URL: http://www.livejournal.com

2. Конференция iXBT.com. – URL: http://forum.ixbt.com

3. Форум СПбГУ. – URL: http://www.spbgu.ru/forums/index.php

4. Yandex. Поиск по блогам. – URL: http://blogs.yandex.ru

СЛОВАРИ

1. Русский орфографический словарь Российской академии наук. / Отв. ред. В.В. Лопатин. Электронная версия. – 2002. – URL: http://slovari.gramota.ru/portal_sl.html#lop

[1] Такие, например, как частотность конкретных слов: данная проблема затрагивается в статье [Сичинава 2003].

Опыт стилистической диагностики текстовых источников Интернета

Раздел: Иностранный язык
Количество знаков с пробелами: 22195
Количество таблиц: 1
Количество изображений: 0

Скачать

... «Следует отметить, что для гендерных исследований актуально изучение в языке определенных, уже сложившихся стереотипов, а также их динамики, окружающей изменения в традиционной полоролевой дифференциации общества» [Кирилина 1999,13] семантическая стилистическая синонимия 1.1.3 Автороведение и интернет-коммуникация (гендерный аспект) Под судебным речеведением мы вслед за Р. К. Потаповой, Е. ...

Скачать

... для систематизации последних существенное значение имеет объем объекта исследования, отображающего ФДК навыков. Чем больше этот объект, тем больше возможности отображения в нем свойств ФДК. Некоторые виды ФДК могут быть средством идентификации личности лишь при условии достаточного их объема. Существенным обстоятельством для изучения закономерностей свойств, отображаемых признаками, являются ...

Скачать

... интерфеса и интерфейса локольной сети · Предложение о выборе вариантов загрузки При этом возможен вариант запгрузки как с SCSI устройства (диск, CDROM, лента, …) так и через локальную сеть. Загрузочный диск должен быть предварительно сконфигурирован. Так как обьем Boot ROM не может быть большим, в его задачи входит загрузка вторичного загрузчика ...

Скачать

... , графику, видеофрагменты, звук. 1.3 Подготовка и реализация в электронном виде материала для пособия Так как перед нами стоит задача не создания электронного учебного пособия полностью, а подготовка текстового и наглядного материала для фрагмента учебника (в частности, двух глав), мы пользовались средствами программ Microsoft Word и Microsoft PowerPoint основного пакета MS Office. Основной ...

Главная Новости Рефераты Статьи Вузы

О проекте Соглашение

Наверх

Войти на сайт

Навигация

Среднее число словоупотреблений табуированной лексики (в одном сообщении и на 1000 словоупотреблений)

Похожие работы

0 комментариев

Разделы

Инфо

Следите за новостями