Ниже приводится подробное описание тагсета MSD-Ru.
- Каждый тег представляет из себя последовательность граммем, значение каждой граммемы представляет из себя один символ.
- Начальный символ тега определяет часть речи.
- За каждой грамматической категорией в тагсете закреплён свой порядковый номер, для разных частей речи множество категорий различно.
- Нерелевантные для сочетания других признаков категории в грамматической метке заменяются на прочерк (-).
- В некоторых случаях, когда значение категории может быть принципиально неопределимо из контекста, допускается использование звёздочки вместо значения категории (*).
- Для тех или иных задач в случае необходимости исследователи могут использовать упрощённые модификации стандарта MSD-Ru, заменив значения не используемых ими категорий на знак (+).
- Процесс стандартизации продолжается. Отдельные небольшие изменения возможны в дальнейшем. Мы будем сообщать обо всех поправках, улучшениях и уточнениях.
Выделяемые части речи:
- N — Существительное (Noun)
- A — Прилагательное (Adjective)
- V — Глагол (Verb)
- R — Наречие (Adverb)
- W — Предикатив (Predicate)
- P — Местоимение (Pronoun)
- M — Числительное (Numeral)
- S — Предлог (Adposition)
- C — Союз (Conjunction)
- H — Вводная конструкция (Parenthesis)
- I — Междометие (Interjection)
- Q — Частица (Particle)
- X — Остальное (Residual)
Общие категории:
- A1, R1 — Степень сравнения:
p : positive — позитивная
c : comparative — сравнительная
s : superlative — превосходная - N2, A2, V2, P2, M2 — Род:
m : masculine — мужской
f : feminine — женский
n : neuter — средний
c : common — общий (для некоторых существительных)
— : undefined - N3, A3, V3, P3, M3 — Число:
s : singular — единственное
p : plural — множественное
i : invariable — неизменяемое существительное или прилагательное
— : undefined - N4, A4, V4, P4, M4, S4 — Падеж:
n : nominative — именительный
g : genitive — родительный
d : dative — дательный
a : accusative — винительный
i : instrumental — творительный
l : locative — предложный
v : vocative — звательный (только у существительных)
— : undefined - V5, P5 — Лицо:
1 : first — 1-е
2 : second — 2-е
3 : third — 3-е
— : undefined
Категории по частям речи и их значения:
Существительное (N)
- N1 — Тип:
c : common — нарицательное
p : proper — нарицательное - N2 — Род: m/f/n/c/-
Род не определён для pluralia tantum и N3=i (неизм. сущ). - N3 — Число: s/p/i
- N4 — Падеж: n/g/d/a/i/l/v/-
Падеж не определён для N3=i (неизм. сущ). - N5 — Дополнительный падеж:
p : partitive — второй родительный (партитив)
l : locative — второй предложный (локатив)
— : регулярная форма - N6 — Одушевленность:
n : no — неодушевленное
y : yes — одушевенное
Прилагательное (A)
- A1 — Степень сравнения: p/c/s
- A2 — Род: m/f/n/-
Род не определён для A1=c, A3=p или A3=i (неизменяемое). - A3 — Число: s/p/i/-
Число не определено для A1=c. - A4 — Падеж: n/g/d/a/i/l/-
Падеж не определён для A1=c, A3=i или A5=s. - A5 — Форма:
s : short-art — краткая
f : full-art — полная
— : undefined (для A1=c)
Глагол (V)
- V1 — Грамматический тип:
i : indicative — изъявительное наклонение
m : imperative — повелительное наклонение
n : infinitive — инфинитив
g : gerund — деепричастие
p : participle — причастие
x : глагол «нет» - V2 — Род: m/f/n/-
- V3 — Число: s/p/-
- V4 — Падеж причастия: n/g/d/a/i/l/-
Падеж определён только для причастий в полной форме. - V5 — Лицо: 1/2/3/-
- V6 — Время:
s : past — прошедшее
p : present — настоящее
f : future — будущее
— : undefined (для V2=n или V2=m)
* : настоящее или будущее, неопределимо (для двувидовых и некоторых парных глаголов) - V7 — Переходность:
n : no — непереходный
y : yes — переходный - V8 — Залог:
a : active — активный
p : passive — пассивный
s : залог на -ся. - V9 — Вид:
p : perfective — совершенный
i : imperfective — несовершенный
* : неопределимо (для некоторых парных и двувидовых глаголов) - V10 — Парность:
m : monoaspectual — парный или моноаспектуальный
b : biaspectual — двувидовой - V11 — Форма причастия:
s : short-art — краткая
f : full-art — полная
— : undefined
Причастия могут быть разобраны как прилагательные с леммой ед.ч. муж.р. им.п. и характеризуются признаками числа, падежа, рода, формы.
Наречие (R)
- R1 — Степень сравнения: p/c/s
Предикатив (W)
- Категории отсутствуют.
Местоимение (P)
- P1 — Разряд:
p : personal — личное
d : demonstrative — указательное
i : indefinite — неопределенное
s : possessive — посессивное
q : interrogative — вопросительное
x : reflexive — возвратное
z : negative — отрицательное
n : attributive — аттрибутивное - P2 — Род: m/f/n/-
- P3 — Число: s/p/-
- P4 — Падеж: n/g/d/a/i/l
- P5 — Лицо: 1/2/3/-
- P6 — Синтаксический тип:
n : nominal
a : adjectival
p: predicative («всяк», «каков», «таков»)
r : adverbial
Числительное (M)
- M1 — Разряд:
c : cardinal — количественное
l : collect — собирательное
o : ordinal — порядковое
* : для чисел, записанных арабскими цифрами - M2 — Род: m/f/n/-
- M3 — Число: s/p/-
- M4 — Падеж: n/g/d/a/i/l/-
Падеж не определён для M5=d или M5=r - M5 — Форма записи:
l : letter — буквенная
d : digit — арабскими цифрами
r : roman — римскими цифрами
Предлог (S)
- S1 — Тип:
p : preposition — предлог
t : postposition — послелог («назад», «тому_назад») - S2 — Структура:
s : simple — простой
с : compound — составной («невзирая», «несмотря») - S3 — категория зарезервирована
- S4 — Падеж управления: n/g/d/a/i/l/-
Падеж не определён для S2=c.
Падеж ‘n’ приписывается в случае второго винительного падежа
Некоторые предлоги управляют номинативом (второй винительный падеж): такие выражения, как «добавиться в друзья», «пойти в гости» и др.
Для предлогов, которые могут употребляться и в позиции предлога, и в позиции послелога, S1 = p.
Союз (C)
- Категории отсутствуют.
Вводная конструкция (H)
- Категории отсутствуют.
Междометие (I)
- Категории отсутствуют.
Частица (Q)
- Категории отсутствуют.
Остальное (X)
Сюда попадают несловарные вхождения (имена собственные, неологизмы, иностранные слова и т.д.), части композитов и разнообразный «мусор», не подлежащий морфологическому анализу, но и не являющийся знаками пунктуации.
- Xu — неизвестное слово или название
- Xd — дата
- Xc — время
- Xp — начальные части композитов
- Xf — некоторые присоединения, такие как «-на-Дону», «-кво», «нон_грата»
- Xz — finalizers («и_т._п.», «и_т._д.», «и_пр.», «во_языцех»)
- Xr — reference (значки ссылок, ™, ®, ©, *, ***)
- Xs — separator (выражение, которое можно рассматривать как разделитель)
- Xg — sign (плюс, минус, ‘+’)
- Xt — trash (выражения, не подлежащие разбору)
- X- — некоторые ошибки разбора, которые будут исправлены в будущем.
Более подробно:
Селегей Д.В., Шаврина Т.О., Селегей В.П., Шаров С.А. (2016) Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной конференции Диалог, Москва.
Различия между нынешней и старыми версиями:
См. хронологию версий и изменений.
Поделитесь с коллегами!