рефераты конспекты курсовые дипломные лекции шпоры

Реферат Курсовая Конспект

Корпусы в сети Интернет

Корпусы в сети Интернет - раздел Лингвистика, В.П. Захаров Корпусная лингвистика Приведем Сетевые Адреса И Краткие Сведения О Некоторых Корпусах. В Интернете ...

Приведем сетевые адреса и краткие сведения о некоторых корпусах. В Интернете можно получить доступ и найти списки самых различных корпусов — см., например, D. Lee. Bookmarks for Corpus-based Linguists (http://devoted.to/corpora), веб-страницы М. Барбера (Manuel Barbera) (http://www.bmanuel.org/index.html) или М. Барлоу (Michael Barlow) (http://www.athel.com/corpus.html), сайт Language and Speech Resources (http://www.elsnet.org/resources.html) и др.

Национальный корпус русского языка http://ruscorpora.ru 70 млн слов[1] См. поисковые формы и образцы выдачи на рис. 1, 2, 5–7.
Компьютерный корпус текстов русских газет конца ХХ-го века http://www.philol.msu.ru/~lex/corpus 200 тыс. слов Система поиска по корпусу временно недоступна
Корпус русского языка ХАНКО (Хельсинский университет) http://www.ling.helsinki.fi/projects/hanco/ 100 тыс. слов Ручная морфологическая разметка
Корпуса русских текстов на сайте Университета в Лидсе, Великобритания http://corpus.leeds.ac.uk  
Русские корпуса Тюбингенского Университета http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html  
Словарь-корпус языка А.С. Грибоедова http://www.inforeg.ru/electron/concord/concord.htm 120 тыс. слов
Уппсальский корпус русских текстов Доступен для поиска на сайте http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html 1 млн слов 600 текстов (публицистика 1985-1989; литературные произведения 1960-1988).
Банк английского языка (Bank of English) http://www.collins.co.uk/books.aspx?group=153 Свободный доступ: http://www.collins.co.uk/Corpus/CorpusSearch.aspx 524 млн слов, 56 млн в свободном доступе (The Collins Wordbanks Online English corpus: 36 млн – брит. англ., 10 млн – амер. англ., 10 млн – брит. разговорн. англ.) См. образец выдачи на рис. 4.
Британский национальный корпус http://www.natcorp.ox.ac.uk/ или http://sara.natcorp.ox.ac.uk/ 100 млн слов Корпусные менеджеры SARA и XAIRA (http://www.xaira.org)
Венгерский национальный корпус http://corpus.nytud.hu/mnsz/ 100 млн слов
Корпус испанского языка (исторический) http://www.corpusdelespanol.org/ 100 млн слов, тексты 13–20 вв. Создан в Иллинойском университете, США
Корпус латинских текстов «Персей» http://www.perseus.tufts.edu  
Корпус современного датского языка http://www.korpus2000.dk/ 50 млн слов Тексты 1998–2002 гг.
Корпус современного итальянского языка CORIS/CODIS http://www.cilta.unibo.it/ricerca.htm 100 млн Слов
Корпус современного китайского языка (LIVAC Synchronous Corpus) http://www.rcl.cityu.edu.hk/livac/ 720 млн слов (150 млн иероглифов)
Мангеймский корпус немецкого языка (Institut für Deutsche Sprache, Mannheim, Germany) http://corpora.ids-mannheim.de/~cosmas/ 1610 млн слов Корпусный менеджер COSMAS
Национальный корпус словенского языка http://www.fida.net/eng/ Более 100 млн слов
Польский национальный корпус http://korpus.ia.uni.lodz.pl/ 93 млн слов
Словацкий национальный корпус http://korpus.juls.savba.sk 180 млн слов Используется корпусный менеджер Manatee/Bonito.
Хорватский национальный корпус http://www.hnk.ffzg.hr/ 53 млн слов Корпусный менеджер Manatee/Bonito.
Чешский национальный корпус http://ucnk.ff.cuni.cz 100 млн слов + 100 млн нового корпуса современной лексики Корпусный менеджер Manatee/Bonito. См. образец выдачи на рис. 3.
Эстонский корпус http://test.cl.ut.ee/korpused/baaskorpus/1980/index.html.en  

 

 

Рис. 1. Запросная форма НКРЯ для поиска по морфологическим признакам.


Слово 1: словоnom&pl
расстояние между словами: 1
Слово 2: слово

------------------------------------------------------------------------------------------------------

 

Область поиска: основной корпус (со снятой и неснятой омонимией)


Найдено документов: 59, контекстов: 69

1. ЕСЛИ ЧИНОВНИКИ НАЧАЛИ БОРЬБУ С КОРРУПЦИЕЙ — БЕРЕГИ КАРМАНЫ // «Красноярский рабочий», 2003.01.01 [омонимия не снята] Все контексты(1)

Слова, слова, слова... [ЕСЛИ ЧИНОВНИКИ НАЧАЛИ БОРЬБУ С КОРРУПЦИЕЙ — БЕРЕГИ КАРМАНЫ // «Красноярский рабочий», 2003.01.01]

 

2. Юлия Рахаева. Две трети Аполлона Григорьева. Единственная профессиональная литературная премия назвала лауреатов // «Известия», 2003.01.26 [омонимия не снята] Все контексты(1)

Потом уже были слова, слова, слова... [Юлия Рахаева. Две трети Аполлона Григорьева. Единственная профессиональная литературная премия назвала лауреатов // «Известия», 2003.01.26]

 

3. Евгений Ясин. ИНТЕРЕСНЫЙ ВОПРОС // «Известия», 2003.07.08 [омонимия не снята] Все контексты(1)

Что это: слова словами, а команда пока не дана? [Евгений Ясин. ИНТЕРЕСНЫЙ ВОПРОС // «Известия», 2003.07.08]

…………………………………………………………………..

Страницы: ← 1 2 3 4 5 6 →

 

Поиск осуществлен системой Яndex.Server
При цитировании примеров просим ссылаться на Национальный корпус русского языка

Рис. 2. Образец выдачи в НКРЯ


1. Поиск словоупотреблений слова holubí (голубиный).

(...)

(...)

2. Поиск словосочетания «holubí vejce» (голубиное яйцо) в любой форме и в любом написании (строчные и прописные)

[lemma="holubí"] [lemma="vejce"]

(...)

(...)

– Конец работы –

Эта тема принадлежит разделу:

В.П. Захаров Корпусная лингвистика

Филологический факультет... Кафедра математической лингвистики... В П Захаров Корпусная лингвистика...

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ: Корпусы в сети Интернет

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Захаров В.П.
З-38Корпусная лингвистика: Учебно-метод. пособие. – СПб., 2005. – 48 с.   Предлагаемое пособие содержит описание предмета и основного содержания корпусной лингвистики – новог

ББК 81.1
      ã В.П. Захаров, 2005

Репрезентативность
Задача создателей корпуса – собрать как можно большее количество текстов, относящихся к тому подмножеству языка, для изучения которого корпус создается. Но главное не только и не столько в количест

Разметка
Для решения различных лингвистических задач мало лишь наличия массива текстов. Требуется также, чтобы тексты содержали в себе явным образом разного рода дополнительную лингвистическую и экстралингв

Технология создания корпусов
Технологический процесс создания корпуса можно представить в виде следующих шагов или этапов. 1. Определение перечня источников. 2. Оцифровка текстов (преобразование в компьютерну

Автоматическая разметка
Фактически, корпус в его современном понимании – это всегда компьютерная база данных, и в процессе его создания естественно использование специальных программ. Среди этих программ особое место зани

Исправление ошибок и снятие неоднозначности
Однако автоматический анализ естественного языка небезошибо­чен и многозначен – он, как правило, дает несколько вариантов анализа для одной лексической единицы (слова, словосочетания, предложения).

Форматы данных и стандартизация
Корпусы, как правило, предназначены для многократного использования многими пользователями, соответственно, и их разметка, и их программное обеспечение должны быть определенным образом унифицирован

Корпусные менеджеры
Работа пользователей с корпусом осуществляется с помощью специализированных программных средств – корпусных менеджеров, предоставляющих разнообразные возможности по получению из корпуса необ

Пользователи и способы использования корпусов
Пользователей корпусов, как правило, интересует не содержание конкретных текстов, а их метатекстовая информация и примеры употребления тех или иных языковых элементов и конструкций. Это, в первую о

Типы корпусов
Несмотря на разнообразие корпусов, можно выделить два основных способа деления корпусов на классы: 1) это противопоставление корпусов, относящихся ко всему языку (часто к языку определенного период

Терминология
Терминология корпусной лингвистики еще не установилась. Во-первых, это естественно, учитывая ее недавнее происхождение. Во-вторых, корпусная лингвистика как отдельная ветвь лингвистики сложилась в

Поиск всех прилагательных (A) в краткой форме (C), мужского рода (Y), единственного числа (S)
[tag="ACYS.*"] (...) (...)

Жанр текста
нежанровая проза

Тип текста
автобиографическая проза

Фрагмент словаря-тезауруса по корпусной лингвистике
В структуре словарных статей выделяются поля, которые помечены следующими метками: Term –англоязычный термин;Trans –русскоязычный термин; Def –опр

Хотите получать на электронную почту самые свежие новости?
Education Insider Sample
Подпишитесь на Нашу рассылку
Наша политика приватности обеспечивает 100% безопасность и анонимность Ваших E-Mail
Реклама
Соответствующий теме материал
  • Похожее
  • Популярное
  • Облако тегов
  • Здесь
  • Временно
  • Пусто
Теги