Генеральный Интернет-корпус Русского Языка (ГИКРЯ) – мегакорпус (более 20 млрд. слов), созданный при помощи полностью автоматической технологии сбора и разметки текстов из Рунета и основанный на современных достижениях компьютерной лингвистики.
Проект осуществляется при технологической и организационной поддержке A4 Technology.
По состоянию на осень 2021 года существует две версии корпуса: функциональная версия 1.0, которая содержит материалы соц. сети ВКонтакте, блогов Живого Журнала и тексты Журнального Зала, и версия 2.0, которая находится в стадии разработки.
Чтобы получить доступ к версии 1.0, можете написать нам письмо: geekrya@gmail.com.
Проект имеет статус учебно-научного, в его реализации принимают участие студенты кафедр компьютерной лингвистики РГГУ и МФТИ, а также сотрудники этих кафедр, специалисты МГУ и университета г. Лидса (Великобритания).
Проект является открытым для внешних исследователей (на данный момент с некоторыми ограничениями, связанными с тем, что проект находится в состоянии активной разработки и тестирования).
Узнать технические детали о сборке корпуса и его составе можно по ссылке ниже: