Лого на страниците (малко). Система Orphus
Ако забележите грешка, маркирайте израза с мишката и натиснете Control+Enter. Благодаря!
Препратки към други страници
 
Препратките са подредени в четири раздела по азбучен ред на заглавката, като латинските заглавки са преди кирилските. Използвайте и търсене (с Ctrl+F) на дума или израз, за да намирате по-лесно, каквото ви е необходимо.
В променливия свят на интернет списък с препратки се поддържа трудно. Ще съм благодарен за всяка забележка, поправка или допълнение.
А. И.
Общ раздел
BACL (Българска асоциация за компютърна лингвистика). Достъпна е програмата за автоматична корекция „Ita est“ (за Microsoft Office 2000, XP и 2003). Като комерсиален проект се разработва синтезатор за реч — има демонстрация. Заявено е съществуване на корпус от един милион „думи“ и на честотен речник на българските словоформи, но не са достъпни.
bezmonitor.com — Страницата на Виктор Любенов. До преди известно време тук се намираше богата българска електронна библиотека. Даже за нея Виктор Любенов получи наградата на Министерството на културата „Христо Г. Данов“ през 2005 г. После, поради нашенски простотии, Виктор свали по-голяма част от библиотеката си. Достъпен е обаче текстът на Библията (изданието от 1992 г.) като изключително внимателно редактиран и форматиран текстов файл. Има разнообразни програмки за DOS, полезни както за зрящи, така и за незрящи — прекодиращи програми, синтезатор за реч, екранен четец. За работата с много от тях Виктор Любенов е написал хубави обяснения.
bgoffice — Инициатива с отворен код, развивана най-вече от Радостин Раднев. В раздела „Офис помощник“ има програма за речникови справки и няколко речника. Останалата част от инициативата осигурява речници за автоматична проверка на правописа и за пренасяне на части от думите на следващия ред (в частност, и за OpenOffice.org). За филолога изследовател може да бъде много интересен разделът „Граматика“, където фактически е разработена програма за определяне на думите като част на речта. Всяка филологическа помощ към тази инициатива ще бъде много полезна. Вижте и Словоред.
BG Speech. Сайт за българската разговорна реч. Похвална инициатива на преподаватели от Софийския университет. В раздела „Ресурси“ има текстове (транскрибирани записи на разговорна реч), а в раздела „Публикации“ — литература по темата.
Bibliotheca Slavica — Библиотека за българска славистика към Софийския университет, инициатива на Университетската библиотека и Факултета по славянски филологии.
Bookmarks for Corpus-based Linguists — Богата на информация страница на David Lee с много анотирани препратки.
Deutsche Digitale Bibliotek — Мащабен проект за достъп до ресурсите на всички немски културни и научни институции — засега се обхванати повече от 1800.
Digitální knihovna Filozofické fakulty Masarykovy univerzity — Препратки към редица периодични издания в областта на хуманитаристиката — съдържание на изданието, резюмета на статиите. Препратки към сборници и монографи, издания на факултета. Трудовете на факултета са достъпни по раздели от 1952 до 2008 г. като PDF. Сред тях, например, има и няколко статии на Светомир Иванчев.
disserCat — Научная электронная библиотека диссертаций и авторефератов. Съдържа над 750 хиляди единици; добро представяне на работите и достъп срещу не много високо заплащане до ръкописите във формат PDF и DOC (MSWord).
ebook.pl — Полски комерсиален сървър за електронни книги (във формат PDF и ePUB). Много голямо разнообразие от литература, включително научна, при умерени цени.
Gbooks — Сборен руски сървър с препратки към издания от XIX и началото на XX век, най-често във формат PDF. Има редки или трудно достъпни издания.
Grzegorz Jagodziński — Język polski — Ewolucjonizm — Учебна полска граматика, граматически таблици, езикови статии и бележки.
Gutenberg (Project Gutenberg) — Тази най-стара електронна библиотека надали се нуждае от представяне. И все пак… Инициативата е започната още през 1971 г. от Майкъл Харт (Michael Stern Hart почина на 6 септември 2011 г.) и днес съдържа близо 40 хиляди произведения на много езици, дори на български. Текстовете са представени в различни формати: като текстови файлове или като HTML, PDF, аудио, а сега вече и във формати за мобилни четящи устройства. В библиотеката може да се търси по език, по автор или заглавие, а може да се търси дори и израз в текста. Предвидлива черта на проекта е, че каталогът се представя и като отделен файл. Затова са създадени много програми-четячки на Gutenberg. Работата с тях следва обикновено такъв ред: от настройките определяте някой от огледалните сървъри, където се съхранява библиотеката; програмата сваля каталога на вашия диск (това може да отнеме известно време) и ви предоставя възможност за избор; избраното произведение се сваля на вашия компютър и може да си го четете вече без връзка с интернет. Подобни възможности има и за мобилните устройства. Каталогът се обновява редовно, така че и вие го обновявайте от време на време. За филолога изследовател е особено полезно това, че произведенията могат да се изтеглят като текстови файлове. Те се нуждаят от малко преработка за работа, но не много.
IDI Spell Checker — Правописна проверка за Windows (freeware) — български език.
«ImWerden» — Некоммерческая электронная библиотека. В раздела „Езикознание“ има, например, А. Х. Востоков. Грамматика церковно-словенскаго языка изложенная по древнейшим онаго письменным памятникам, 1863.
Internetowy warsztat badawczy filologa (przewodnik netograficzny) — много богата на препратки страница, разположена на сървъра Staropolska. Посочват се библиотеки и каталози на библиотеки, електронни библиотеки, списания, езикови корпуси, речници, справочници, факултети и институти по полски език и пр.
Język a kultura — [Забележка от април 2013 г.: Изглежда е сменена политиката на изданието и архивът с по-старите броеве не е достъпен; пренасочвам препратката към страницата на изданието.]
Серия научни сборници, издавани от Института за полска филология към Вроцлавския университет от 1991 г. насам с обща тема лингвистична антропология. Достъпни са (като отделни статии във формат PDF с много добро качество) броевете от първи до шестнадесети включително.
Kulturalna Polska — полска страница с литературни разработки за студенти и ученици; привеждат се много цитати, а понякога и цели произведения.
lib.ru — Библиотеката на Максим Мошков, която работи от 1994 г. и е вероятно най-голямата библиотека с текстове на руски език. За филолога изследовател това е източник на руски писмени текстове, подобен на Gutenberg за английските. „С 1994 года библиотека не меняла дизайн. И не планирует“ казва създателят й. Така че търсенето в този огромен текстов корпус става най-лесно през Яндекс или Google.
Linguistik — Portal für Sprachwissenschaft — Портал за търсене на библиографска информация. В раздела Kataloge се виждат източниците.
Lingvisto — Языковая энциклопедия — Инициатива на Дмитрий Ловерман, който си поставя за цел да дава сведения за езици, за които е трудно да се намерят учебни материали в интернет.
LiterNet — Електронно издателство. През раздела „Издателство LiterNet“ са достъпни публикациите. В раздела „Библиотека“ има каталог и препратки към други страници. Частично е достъпно сп. Български език и литература.
Littera et Lingua — Електронно списание за хуманитаристика. Инициатива на Факултета за славянски филологии към Софийския университет „Св. Климент Охридски“.
Mediävistik / Altgermanistik im Internet — Много богата с материали и препратки по темата страница.
Middle English Compendium (MEC) — Страница на Мичиганския университет, посветена на средноанглийския (1100–1500 г.); съдържа материали от 75-годишна работа върху Речник на средноанглийския език (печатното издание е частично достъпно на Google Books): текстов корпус, речник, много подробна документация и обяснения, изключително развита система за търсене — по заглавка, в речниковата статия и в източниците. Текстовият корпус е една от стотината колекции на University of Michigan Digital Library Text Collections.
MIT OpenCourseWare Ми да, Масачузетският технологичен институт е направил достъпни материалите по почти всички курсове, които се водят и са се водели в близките петнадесетина години. Дали не трябва така да изглежда образованието днес?
Naše řeč — издание на Института за чешки език към Академията на науките на Чешката република. Броевете на списанието от 1917 насам са достъпни на страницата (раздел Archiv).
mirknig.com — Сборен сървър за списания и книги. Ежедневно се обогатява с няколко десетки заглавия. Между любовните романи и списанията за плетиво се намират наистина ценни и трудно достъпни книги. Изданията се предоставят предимно във формат PDF и DJVU, рядко като DOC. През раздела „Подробнее“ получавате достъп до един или няколко файлови сървъра, от които може да изтеглите книгата. Файловите сървъри работят в два режима — предплатен и свободен. Свободният достъп е ограничен и обикновено трябва да изчакате (например, 60 секунди), за да получите достъп до файла. Някои сървъри изискват да отворите и рекламна страница. Проверявайте свалените архиви за вируси.
Този сървър вече не работи. В една или друга степен функциите му са поети от mirknig.su и mirknig.ws
On-line books about Macedonia — много богата на информация страница на Васил Карлуковски; историческа и филологическа литература, посветена най-вече на Македония.
philology.ru — Руска електронна библиотека с множество публикации в областта на езикознанието и литературознанието. Активно се обновява.
Planet Translation — В дълбините на тази страница, посветена на превода, е скрит и списък с препратки към едноезични тълковни речници на много езици — Unilingual On-Line Dictionaries and Glossaries.
Serbski Institut/Sorbisches Institut — Институт за лужишки езици; страницате е достъпна на немски, горнолужишки и долнолужишки; библиография, речници, публикации. Корпуси на долнолужишки и на горнолужишки.
University of Adelaide: Digital Library — Университетската библиотека предлага близо 80 000 заглавия във формат PDF (препратката тук е направо към търсещата машина, защото е малко трудно да се намери). Тук, например, открих Fisher, R. A, F. Yates. Statistical tables for biological, agricultural and medical research, трудно достъпна у нас книга, макар да има шест редакции и сигурно толкова репринта.
University of Oslo: Bulgarian language and literature. Тази страница, поддържана от професор Kjetil Rå Hauge, има от известно време нов адрес — ако сте си я запомнили, обновете си записа. Тук са достъпни: корпусът от записи на разговорна реч на Красимира Алексова; половината от текста (малко повече от 50 000 словоформи), върху който е изработен Цв. Николова. Честотен речник на българската разговорна реч. София, 1987 (текстът е „възстановен“ по материалите на Цв. Николова от Цветомира Венкова); извадка (около 20 000 словоформи) от парламентарни дебати (1990 г.), транскрибирана от Иванка Мавродиева, и любопитна извадка от българска „chat“ стая (2001 г.), предоставена от Марина Джонова. Има раздел „Дисертации, автореферати“, учебни материали и речници и интересен раздел с препратки.
БЕЛБ — Българска електронна лингвистична библиотека: Авторите, които предоставят трудовете си чрез тази библиотека, може да намерите в раздела „Каталог“ — присъединете се към тях. В раздела „Обмен“ има малка, но интересна колекция от други текстове, а в „Лингвистика онлайн“ — почти пълен опис на наличните български ресурси и много препратки към руски, английски, немски и френски страници. В раздела „Връзки“ има препратки към официални и комерсиални страници. Много ще е хубаво, ако Търновският университет не остави тази инициатива да си отиде…
Забележка (15.VI.2014): Поддръжката на страницата изглежда е възстановена.
Библиотека Матице српске — дигитализирания отдел на библиотеката. Много интересни издания, включително „Додатъкът“ на Вук Караджич. Страницата е малко тежка, но си заслужава търпението.
Библиотека Фронтистеса — Съставителят на тези страници се интересува предимно от историята на езика, осигурен е достъп до старобългарски и староруски паметници, има множество препратки, а в раздела „Електронни книги“ са достъпни много и интересни издания по славистика и не само по славистика.
Болгарская русистика — Электронная версия журнала „Болгарская русистика“ — печатного органа Общества русистов Болгарии.
Българистика — „Бюлетинът Българистика е замислен като информационно издание на Българската академия на науките и се осъществява от Съвета за чуждестранна българистика с помощта на Централна библиотека на БАН“. Достъпни са броевете от 1. (2000 г.) до 22. (2011 г.) във формат PDF.
Български език — Издание на Института за български език „Проф. Любомир Андрейчин“, БАН.
Български език и литература — Двумесечно научни-методическо списание. Издание на Министерството на образованието и науката.
Вавилонская Башня (The Tower of Babel) — Инициатива на Сергей Анатолиевич Старостин. Много богати на ресурси и литература страници — бази от етимологически данни за много езици, шрифтове и програмно осигуряване, достъп до тълковния речник на С. И. Ожегов, до граматическия речник на руския език на А. А. Зализняк, до етимологическия речник на М. Фасмер. Работи програмно осигуряване, разпознаващо руска словоформа съобразно с класификацията по граматическия речник и създаващо парадигма (включително с акцентния модел, с ударенията). Въпреки кончината на Сергей Анатолевич (2005 г.) проектът за международна етимологическа база от данни продължава да се развива.
Все для студента — Много богата на информация страница, развиваща се от 2009 г. В раздела Языки и языкознание има много полезни за филолога неща, а в раздела Болгарский язык — учебници, речници и граматики, включително Котова Н., М. Янакиев. Грамматика болгарского языка для владеющих русским языком.
Дзяло. Сайт за хуманитаристика и извори — Инициатива на Секцията за история на българския език в Института за български език. Има раздел Списание (3 броя до септември 2014), Рецензии, а в раздела Депо е публикувано електронното издание Речник-индекс на Синайския евхологий на Пиринка Пенкова като поредица от PDF-файлове с възможност за търсене из тях. В брой първи на списанието Татяна Илиева е посветила статията си Статистическата методика и старобългарската лексикография на деветдесетгодишнината от рождението на проф. Мирослав Янакиев.
Египтологический изборник — Материали по египтология: публикации, граматики, речници, карти, хронологически таблици, антични източници за Египет, архитектура, библиография, редки книги, препратки. Към страницата има и форум.
Изучение языков в интернете — Инициатор: Шломо Громан. Многобройни и интересни четива, множество препратки. Все пак, авторът и съставител на страниците е журналист, а не езиковед, нито преподавател по чужд език — имайте предвид това.
Институт за български език „Проф. Любомир Андрейчин“ — Вижте и Секцията по компютърна лингвистика.
Историчка. Доклады и рефераты по истории — Страница, поддържана от Антон Клесс. Има раздел „Библиотека“, но най-интересните неща са в раздела „FTP“ — например, сбирка на „Вопросы языкознания“ (от 1952 г. до кн. 1 от 2013), 30-те тома на периодичния сборник „Этомология“, първите 34 тома на „Этимологический словарь славянских языков. Праславянский лексический фонд“, различни други филологически и исторически издания, някои — трудно достъпни.
Карта на диалектната делитба на българския език — Прекрасна разработка на Института за български език. Към всеки говор има кратко текстово описание, а към някои от говорите — и това е най-хубавото! — звукови записи. Горещо моля създателите на тази хубава страница да продължат да я обогатяват със звукови записи.
Категория:Автори по азбучен ред — Още една българска библиотека (на Уикиизточник), не много богата, но с доста разнообразни текстове.
Культура письменной речи — Страница за езикова култура. Справочна система, търсене в речници, езикови справки, актуална информация.
Моята библиотека — „Читанката“ на Борислав Манолов, най-добре организираната и най-интензивно развиващата се българска библиотека. Погледнете раздела „Ателие“, ако искате да помогнете. Текстовете са обикновено грижливо редактирани, та за филолога изследовател тази страница е като златна мина.
Мультиязыковой проект Ильи Франка — Успоредни текстове на оригиналния език и в руски превод.
Нигма — интеллектуальная поисковая система — Руска търсачка за интернет. Много добра — за страници на руски език май няма конкуренция.
Общежитие — The World Wide Web portal for the study of Cyrillic and Glagolitic manuscripts and early printed books — сборна страница на комисията за компютърна обработка на средновековни славянски ръкописи към Комитета на славистите.
Правила русской орфографии и пунктуации — Има и препратка към правилата на стария, предреволюционния руски правопис.
Православие — Добре направен портал, който редовно се обновява. Има раздел Читалня, има раздел Книги, има раздел Православни речници, погледнете ги.
Пројекат Растко. Библиотека српске културе — Сръбски сборен сървър на електронни библиотеки: изкуство и хуманитаристика. Осъществено е сътрудничество с много европейски страни, включително с България (Проект Растко — България, в който участва LiterNet).
Родопски старини — Сборна страница, на която се намират много интересни издания (най-вече представени от Scribd), някои представляват филологическа, етнографска или историческа класика, но има и съвсем съвременни публикации. Има препратки към видеоклипове (от YouTube, например) с автентичен или авторизиран фолклор и на звукови файлове.
Словото — „Българската виртуална библиотека“. Създателите й си поставят за цел да отразят „всички значими произведения на българската литература“. Има известен брой материали по езикова култура, малко повече литературна критика.
Справочно-информационный портал ГРАМОТА.РУ — русский язык для всех — Тук работи безплатна справочна служба по руски език.
Съпоставително езикознание — Списание на Софийския университет „Св. Климент Охридски“.
Фундаментальная электронная библиотека „Русская литература и фольклор“ (ФЭБ) — Предимно библиографска информация, множество препратки.
Интернетски речници
classes.ru — Сборен обучителен сървър с лесен достъп до много речници — тълковни речници на руския език, етимологичния речник на Фасмер, двуезични речници и политехнически речник. Множество препратки.
Dict.org. The DICT Development Group — Голям набор от английски едноезични и двуезични речници.
Dictionary.com — Своден английски речник: тълковна, енциклопедична информация и цитати. Има обучаващи модули и преводач на много езици, като специално внимание е обърнато на испански.
Glossword.info — Руски сървър с голямо количество енциклопедии, справочници и речници (включително Русский фразеологический словарь).
Elektroniczny słownik języka polskiego XVII i XVIII wieku — речников сървър към Института за полски език на ПАН. Над тридесет хиляди речникови статии, илюстрирани с над седемдесет и седем хиляди примера за употреба от близо хиляда източника. При флективните думи се посочват словоформите. Има близо три хиляди етимологични справки. Сводна информация към съществуващи речници, като се отбелязва в кои думата е включена, и в кои – не. Активно (всекидневно) се обновява. Отбелязва се авторът на всяка речникова статия.
Hyperdictionary — Общ английски речник и няколко терминологични — на компютърните термини, на медицинските термини и на термините във видеоиндустрията.
IDI Dictionary — Английско-български речник за Windows (freeware).
Le Trésor de la Langue Française Informatisé — Голям тълковен речник на френския език — примери, източници, фонетична транскрипция, произношение. Разработка на Jacques Dendien.
LingvoSoft — На този комерсиален сървър се продава разнообразен езиков софтуер; има радел Free Online Dicitionaries, където са достъпни около 40 двуезични речника. Програмката OpenDict облекчава достъпа до речниците на този сървър; ако използвате линукс (Debian или Ubuntu), OpenDict е в хранилището.
Middle Eglish Dictionary — Речник на средноанглийския език (вж. Middle English Conpendium)
Němsko-serbski a prawopisny słownik — Немско-лужишки речник, лужишко-немски речник и правописен речник.
Nostratic Dictionary — Това е предварителна публикация на Aharon Dolgopolsky. Nostratic Dictionary — изданието се подготвя в McDonald Institute for Archaeological Research, University of Cambridge. Достъпен е в PDF формат на части или целия том (над 3100 с. и над 3000 статии).
Online Etymology Dictionary — Английски етимологичен речник.
Online преводач — автоматичен превод от много езици на много езици; на страницата създателите й честно предупреждават да не използвате превода за каквито и да било сериозни цели, но като преводач на думи, тоест като семпъл речник може да се използва.
OnlineRechnik — Хубав български тълковен речник, българско-английски речник и синоними. Има правописен речник, но той не разпознава грешно изписани думи и не дава правилното изписване.
ROMLEX — Лексикална база от думи на ромските диалекти в Европа — представени са и софийските ерлии. Има интересни възможности за търсене, превод на английски и на езика домакин.
sensAgent — Речников сървър и преводач за десетки езици.
Silva Rhetoricae — Около 430 термина на английски език по реторика и стилистика с етимология, примери и препратки.
The Dictionary of Old English — Речник на староанглийския език (600–1150 г.), разработка на университета в Торонто. Платен достъп, засега от A до G.
The Online Dictionary of Language Terminology (ODLT) — Близо 2000 лингвистични заглавки с кратки дефиниции; включени са и собствени имена.
Unilingual On-Line Dictionaries and Glossaries — Множество препратки към тълковни и терминологични речници на много езици, а сървърът, на който е разположена тази страница, е специализиран за преводачи.
Urban Dictionary — Речник на съвременния английски език, който се попълва от читателите си, та съдържа думи, изрази и съкращения, които трудно могат да бъдат намерени в „официалните“ лексикографски източници.
Woodhouse, S. C. English-Greek Dictionary. A Vocabulary of the Attic Language. 1910. — Страница на библиотеката на Чикагския университет. Търсенето из речника е по заглавна дума (на английски) или по страница. Резултатът е факсимиле от страницата с много добро качество.
Wprdnik — Речник и лексикографски сървър за съвременния английски език в САЩ. Използват се различни източници — проекта Gutenberg, електронни издания, блогове, архиви на интернет и сътрудници доброволци. Думите се разясняват с дефиниции от различни тълковни речници, илюстрират се с множество примери в контекст, показват се връзки — езикови и логически — с други думи. След регистрация потребителят има възможност да създава система от собствени класификационни маркери, както и да създава списъци от думи, подбрани по избран критерий. През март 2007 година инициаторът на този сървър Ерин МакКийн (Erin McKean) прави блестящо представяне на идеите си за съвременната лексикография: „The joy of lexicography“.
Большая Советская Энциклопедия (БСЭ) — Свободен достъп до статиите на енциклопедията на сървъра sci-lib (Большая научная ибиблиотека). Бъдете търпеливи — връзката понякога е затруднена.
Большая Советская Энциклопедия (БСЭ) — Друг сървър, на който е достъпна енциклопедията. Има хубава система за търсене из текста, но липсват илюстрациите. Дава допълнителна възможност за търсене в още седем речника.
Вокабулар — Сръбски тълковен речник. Работи с кирилица и латиница; към речника има форум, където се обсъждат доста разнообразни теми.
Гответе с мен — Кулинарна страница, ама има раздел „Енциклопедия“, където има разяснения за подправки, продукти и един общ речник. Като се знае колко слабо е отразена ’кухнята’ в българската лексикография, тази страница никак не е лоша входна точка при търсене.
Мир словарей — Руски сървър с много голяма колекция от енциклопедични, тълковни, специални и многоезични речници.
Онлайн речник — Двуезични речници, не особено богати засега, но се твърди, че се допълват.
Полиграфически речник — На страниците на тази комерсиална фирма се поддържа полиграфически речник. Добър-лош — друг май няма.
Речник на българския език — Твърде интересна инициатива на Борислав Манолов. Лексикографът има какво да научи оттук, а най-добре е да се хване да помага, че това не е работа за един човек.
Речник на думите в българския език — Популярен речник в стил Facebook, който, изглежда, в голяма степен се обогатява от потребителите си. Съдържа и изрази, а не само думи, както е обявено в заглавието. Създателите му имат стремеж да поставят и ударенията, което е много хубаво. Понякога предоставя парадигмата на думата, а по често — английския превод. Ако въведете дума на английски, получавате превода на български.
Словари и энциклопедии на Академике — Достъп до десетки речници: енциклопедични, тълковни, преводни и специални.
Словоред — Инициативата предоставя преводни речници, предимно между английски и български, както и някои специализирани речници (например, медицински). В раздела „Граматика“ работи разпознавател на словоформи — показва основната форма и изгражда парадигмата. В раздела „Ударения“ може да въведете израз и програмата му поставя ударенията. Не ми е известно да е създавана друга такава програма за български и не й придиряйте, че бърка (и филолозите бъркат), а помагайте. Само че, за да помагаме, съставителят (съставителите?) на страницата би трябвало да отворят инициативата.
Энциклопедии & Словари — Голям сървър с рускоезични справочници, подредени по тематика.
Яндекс. Словори — Голяма колекция от руски (и двуезични) речници и енциклопедии на руската интернетска компания Яндекс. Използвайте препратките Все энциклопедии и Все словари, за да видите всичките.
Корпуси
American National Corpus (ANC) — Американски национален корпус. В LDC е предоставена готовата дотук част от корпуса (22 милиона лекси), а свободно достъпна е част от 15 милиона лекси (OANC — Open ANC). Крайната цел е корпусът да достигне 100 милиона лекси и да бъде съпоставим с британския национален корпус. Създателите на корпуса не наблягат на количеството, а на качественото анотиране на текстовете с оглед на бъдещи изследвания. Значителна е и частта на разговорните текстове.
An Crúbadán — Corpus Building for Minority Languages — Разработка на Kevin Scannell от Saint Louis University, USA. Целта е била да се съберат текстови статистически данни за езици, които се говорят от по-малко хора, но работата очевидно се е разраснала, защото са включени и английски, и руски. Събрани са текстове (през интернет) за повече от 2000 езика, достъпни са източниците (интернетските адреси), от които са извличани текстовете за всеки език, рангов речник (първите 50 000 лекси), рангов списък на трибуквени съчетания и рангов списък на съчетания от две „думи“. Посочва се броят на текстовете, които са обработвани от даден език, и количеството „думи“. Съставителят на страницата ясно посочва, че данните се събират в помощ на специалистите по информатика, но филологът също може да извлече от тях количествени данни. Само трябва малко по-внимателно да оценява типа текст, от който те са извлечени.
British National Corpus (BNC) — Това е първият „национален“ корпус, създаден в периода 1991–1994 г. и отразяващ британския английски от втората половина на XX век. Оттогава насам не се добавят нови текстове, а се усъвършенства структурата на корпуса, та вече има три издания. Размерът на корпуса е 100 милиона лекси, като 10 процента от нега са записи на разговорни текстове. Важно е да се обърне внимание върху един от принципите, залегнали при изграждането на този корпус — да го наречем извадков принцип. Всеки тип текст влиза в корпуса с точно определена по размер извадка от 45 000 лекси. Такава структура на корпуса изключително много облекчава както извеждането на информация от корпуса, така и съпоставките между текстове от различен тип. Корпусът е частично достъпен чрез интернет и срещу заплащане в две верии (пълна и учебна).
BulTreeBank — HPSG-based Syntactic Treebank of Bulgarian: Тук е създаден най-големият корпус от български монологични текстове (повече от 72 милиона словоформи). Достъпен е рангов списък на словоформите с честота над 22 (малко повече от 100 000 словоформи). Корпусът е създаден за синтактични изследвания (методиката е изложена в Осенова, П. К, Симов. Формална граматика на българския език. Институт по паралелна обработка на информацията — БАН. София, 18. 12. 2007 г.). Част от текстовете на корпуса са достъпни, достъпна е и програмата CLaRK, с която се обработва корпусът (има помощна информация за нея), както и демонстрационна извадка от корпуса. Тук е включена и инициативата „Електронен архив на българските диалекти“ с резултатите от изследване върху Веда Словена.
CCMH: Corpus Cyrillo-Methodianum Helsingiense — Старобългарски паметници като текстови файлове, транскрибирани с латиница.
Corpora — Institut für deutsche Sprache und Linguistik — преглед на десетки корпуси и текстови ресурси, представен е дори корпус на шумерската литература (The Electronic Text Corpus of Sumerian Literature).
Corpus Albaruthenicum — Малък корпус (350 хиляди лекси) на белоруски научни текстове.
CORPUS.BYU.EDU — Популярен сборен сървър, където Марк Дейвис (Mark Davies) от университета Brigham Young (Юта, САЩ) е създал и поддържа набор от корпуси: Corpus of Contemporary American English (COCA) — 425 милиона лекси от 1990 г. насам; Corpus of Historical American English (COHA) — 400 милона лекси от 1810 до 2009 г.; TIME Magazine Corpus of American English — 100 милиона лекси за периода 1923–2006 г.; Corpus del Español — 100 миилона лекси за период от XIII до XX век и Corpus do Português — 45 милиона лекси за периода XIV–XX век. Има вход към британския национален корпус и към комбинаторния речник на Google Book.
Corpus Eye — Сборен сървър, даващ бърз достъп до десетки корпуси на различни езици. Някои от тези корпуси са с ограничен достъп и изискват регистрация.
Corpus of American Soap Operas — Сравнително нов корпус (от юли 2012 г.), създаден от Mark Davies (от Brigham Young University), който съдържа 100 млн. лекси от диалозите на 10 популярни телевизионни сериала в периода 2001–2012 година. Идеята, че тези диалози са най-доброто приближение до съвременния разговорен американски английски, изглежда твърде находчива. Създателят му го разглежда като допълнение към другите корпуси на съвременния американски английски и има връзки към тях. Интересни възможности за търсене и съвременен удобен интерфейс.
Český národní korpus (ČNK) — Чешки национален корпус. Достъпен е след регистрация (изисква се попълване на регистрационна карта). Освен общия корпус (с внушителния размер от 1 300 милиона лекси), достъпни са и корпуси на публицистични текстове, на лична кореспонденция, на лингвистични текстове. Има корпус на разговорна реч със социолингвистична информация (1 милион лекси). Специален интерес могат да представляват два по-стари корпуса на разговорна реч — от Прага и от Бърно. Има и два диахронни корпуса, както и корпус с успоредни текстове, разработен в инициативата Intercorp.
Cyrillomethodiana — Страница на Софийския университет с голям текстов корпус на старобългарски, среднобългарски и новобългарски текстове. Отбелязани са разночетенията и коментара към изданията. Достъп до старобългарския речник (Т. I, 1999; Т. II, 2009). Хронограф и исторически речник. Има препратка към системата за електронно обучение e-Mediavalia, където пък е достъпен средновековен гръцко-български речник.
Dolnoserbski tekstowy korpus/Hornjoserbski tekstowy korpus — Двата корпуса са достъпни на страницата на Sorbski institut/Sorbisches Institut.
FIDAPLUS — korpus slovenskega jezika — Корпус на словенския език; достъпен е само с регистрация.
Hellenic National Corpus (HNC) — Гръцки национален корпус на писмени текстове (страницата е двуезична); 47 милиона лекси, като създателите му продължават да го развиват. Освен стандартното търсене има възможност за извеждане на известна статистическа информация.
Hrvatski nacionalni korpus — Хърватски национален корпус. Съдържа малко повече от 100 милиона лекси, извлечени от писмени текстове, и продължава да се развива. Има исторически подкорпус Klasici, който покрива литература от XVI до XX век. Достъпен е, но няма интернетски достъп; съставителите обещават да го направят. Засега е необходимо да се инсталира специална програма (Bonito) — има описание как се инсталира и как се работи с нея. За щастие, програмата работи на всички популярни операционни системи.
Hungarian National Corpus — Унгарски национален корпус (страницата е двуезична, препратката е към английската версия). Корпусът съдържа 187,6 милиона определени по части на речта лекси от писмени текстове, като преобладават текстове от пресата (84,5 милиона). Достъпът е след регистрация.
Korpus IPI PAN — Корпус на писмени текстове, създаден в Института по информатика на ПАН. 250 милиона лекси („сегменти“ ги наричат създателите на корпуса), анотирани като части на речта. Корпусът е публичен и може да се изтегли в пълния си вариант (около 1,2G) или като съкратен вариант от 30 милиона лекси. Необходимо е още да се свали обработващата програма Poliqarp. Има фреквентен речник във формат XML. Има достъп до корпуса и през интернет. Институтът участва в Националния корпус на полския език.
Korpus Języka Polskiego Wydawnictwa Naukowego PWN — Този корпус от 40 милиона лекси е комерсиален и е достъпна само малка демонстрационна част. И в него преобладават писмени текстове. Интересното е, че са включени и 84 „разговорни текста“, но не се обявява нито размерът им, нито дали са достъпни отделно. Издателството участва в изработването на Националния корпус на полския език.
Linguistic Data Consortium — Основан в 1992 г., консорциумът съхранява и предоставя стотици корпуси от най-различен характер. Достъпът до корпусите обикновено е платен или е безплатен за достатъчно отдавнашни членове на консорциума. Корпусите са с подробни описания, понякога имат и демонстративни части.
Narodowy Korpus Języka Polskiego (NKJP) — Национален корпус на полския език. Разработва се съвместно от четири институции, всяка с опит в корпусната лингвистика, та не е чудно, че пълният корпус съдържа 1 800 милиона анотирани лекси. Има пълно описание на източниците, почти всички теоретични публикации са достъпни, а до данните в корпуса има достъп чрез интернет, дори по два различни начина. Това е малко изненадващо, но се оказва полезно — при единия вход може лесно да се запише резултатът от търсенето в удобна за работа форма; при другия всяка лексема може да се види в текста, където е регистрирана (има и пълно описание на изходния текст).
Nova beseda — Корпус на словенския език, разработван от Института за словенски език; 318 милиона лекси от писмени текстове. Добре развита система за търсене с много възможности. Преводът на английски на страниците е остарял.
Perseus Digital Library — Текстова колекция на Tufts University, MA, ръководена от Gregory R. Crane. Гръцки и латински текстове (над 68 милиона лекси), арабски текстове (над 5,5 милиона лекси), италианска ренесансова поезия на латински език (2,8 млн. лекси), старогермански текстове (малко под един милион лекси), ренесансови текстове на английски език (от ранния период на новоанглийския език) — близо осем милиона лекси, и около 80 милиона лекси текстове на американски английски език от XIX век. Изключително удобен интерфейс с много интересни решения. За всяка дума от текста може да се направи веднага лексикографска справка, като по този начин е осъществен достъп до множество речници. Дава се известна количествена информация за лексите. Всички текстови корпуси, както и обработващият ги софтуер са достъпни за изтегляне. Разделът Art & Archaeology Artifact Browser дава достъп до описания и снимки на антични монети, съдове, статуи, сгради.
Slovenský národný korpus — Словашки национален корпус. В последната си реализация 5. съдържа близо 720 милиона лекси, от които 73% са публицистични текстове; корпус на разговорната реч (643 хиляди лекси); терминологичен корпус, пет корпуса с успоредни текстове, а в дълбините на страницата е скрит и малък корпус, около 400 хиляди лекси, на езика на кримските татари. Английският превод на страницата не е обновяван много отдавна, гледайте словашкия. Ограничен достъп без регистрация; пълен достъп след регистрацията.
TITUS — Корпус на множество стари и съвременни текстове на индоевропейски езици. Създадена във Франкфуртския университе през 1996 г. от Йост Гиперт (Jost Gippert), това е една от първите страници, разработени на Unicode; затова има множество разяснения за Unicode, има и собствени шрифтове, които може да изтеглите. Страницата има доста неудобен „рамков“ дизайн, но си струва усилието да се ориентирате в нея.
Türkçe Ulusal Derlemi — Проект за национален корпус на турския език; завършва сега (октомври 2011 г.). По замисъл корпусът трябва да съдържа 50 милиона лекси, 5% от които ще са от разговорна реч, събрани на извадков принцип (по 15 000 лекси); замислената структура е доста близка до BNC. Засега няма достъп. [Забележка от април 2013: Корпусът е завършен, има демонстрационна версия, достъпна след регистрация.]
The Oslo Corpus of Bosnian Texts (Korpus bosanskih tekstova na Univerzitetu u Oslu) — Корпус от 1,5 милиона лекси върху писмени текстове на автори от Босна и Херцеговина, събрани около 1990 г. За достъп до корпуса се изисква регистрация.
Wortschatz (Universität Leipzig) — Амбициозен проект на Факултета по информатика към университета за автоматично създаване на текстови корпуси (с контекст едно изречение) на много езици: 158 засега, включително български. Текстовете са събирани в периода 2007–2011 година предимно от новинарски сайтове, като за щастие са събирани и читателските коментари, та лексиката е представена доста пълно. Корпусите са достъпни, има добра документация, достъпни са и помощни програми.
Корпус української мови — Корпусът е достъпен на страницата Лінгвістичний портал MOVA.info. От корпуса може да се извличат рангови и фреквентни речници, както по лекси, така и по основна форма. Могат да се обработват и отделни текстове. Интересни възможности за извличане на честотни речници по морфеми и по морфемната структура на дума. Работи се върху синтактичен подкорпус, който е достъпен за експерименти.
Национальный корпус русского языка — Съдържа повече от 300 милиона лекси от писмени, разговорни и диалектни текстове и продължава да се обогатява. Изключително развита система за търсене по разнообразни критерии, включително с възможност да се прави срез от корпуса по години — много полезно, като се вземе предвид, че в корпуса влизат текстове от XVIII век насам. Страницата на корпуса е много богата на информация и удобно структурирана. Има подробна инструкция за работа с корпуса (книжка от 84 страници, PDF) и към нея е първата препратка. Има подробен списък с публикации, повечето от които са достъпни във формат PDF, и богата страница с препратки към други корпуси. А това, което не съм виждал другаде, е възможността да посочите грешка в корпуса (има си форма за това). От разясненията там става ясно, че корпусът се редактира и преподрежда на всеки шест месеца.
Работни инструменти
Anaconda — Голям набор от работни инструмени за научни изследвания и за работа с големи количества данни (Big Data), организирани около интерпретатора на Python, та я определят понякога като Python Distrubution. Всички работни средства са с отворен код и са свободно достъпни за операционните ситеми Windows, MacOS и Linux, като са под лиценз, който разрешава и използването им за комерсиални цели. Предоставя се облачна структура (Anaconda Cloud) за съвместна разработка. Има галерия с множество примери, които могат да бъдат изтеглени и разглеждани интерактивно. Цялата сглобка по подразбиране е доста голяма — заема около два GB на диска, но има и вариант Miniconda, който инсталира само интерпретатора на Python и пакетния менажер conda. Защото се предоставя и софтуерно хранилище (репозиториум) с над 700 пакета. Чрез conda могат да се създават и да се управляват виртуални работни среди, което е твърде полезно при програмиране с Python. В редица случаи Minicondaconda) са най-простият начин да се инсталира Python и необходимите ви модули, без значение на каква операционна система сте.
cream — Cream е набор от сценарии (програмки), написани на Vimscript — интерпретаторния език, вграден в редактора vim/gvim. Работата е там, че vim е наследник на традиционния за UNIX текстов редактор vi (създаден още в 1976 г.) и по тази причина има странен и необичаен набор от команди дори за придвижване на курсора из текста. Cream въвежда удобния (тоест — обичайния днес) набор от команди, като възможностите на vim/gvim се запазват. И се оказва, че без да излиза от текстовия редактор, филологът може да извлича от текста каквито си поиска данни, да прави речници — фреквентни, рангови, обратни (a tergo), конкорданс и пр. И всичко това работи на всякакви операционни системи, защото е с отворен код. По-нататък, да е живот и здраве, ще публикувам в Четива малко разяснения как се правят тези неща. Направено е, вижте cream в режим „expert“.
cygwin — Пакетът от програми cygwin (с отворен код и безплатно достъпни, ако не ги използвате комерсиално) дава възможност на работещите в Windows да имат достъп до полезни системни програми като sort, uniq, rev, nl, gawk и пр., твърде необходими за филолога изследовател. Освен това пакетът дава възможност да се създават (компилират) и да се изпълняват програми за линукс в Windows. И най-накрая, пакетът дава възможност на работещите под Windows програмисти да създават преносими програми — това ще рече, програми, които могат да се изпълняват в различни операционни системи. Инсталирането на пакета е просто — трябва да изтеглите файла setup.exe и да го стартирате. Този файл стартира интерфейс, чрез който по интернет можа да инсталирате, да обновявате или да премахвате програми. Създава се и временна (буферна) директория — за нейно име се използва интернетският адрес на сървъра, от който сте изтеглили пакета, така че не се чудете, че името й започва с http и продължава с разни „маймуни“ (символи в интернетска кодировка, които започват с %). Не я премахвайте, не премахвайте и setup.exe, докато работите с този пакет от програми. Иначе ще се лишите от възможността да добавяте или да премахвате програми. Създава се обикновено и една икона препратка Cygwin Terminal — тя стартита конзола и bash — командният интерпретатор на линукс. За да имате достъп до системните програми филтри, например, от cream, трябва да прибавите пътя (обикновено C:\cygwin\bin) в PATH. Впишете го в първа позиция — така ще изпълнявате sort от cygwin вместо уиндоуската програма sort. Не инсталирайте всичко от този пакет! Той е огромен, над 12 Гбайта; инсталирайте само подразбиращата се част и необходимите ви програми — вероятно ще се съберете под 1 Мбайт дисково пространство. Ако искате да минете още по-тънко, хвърлете поглед на MinGW и GnuWin.
EXMARaLDA — Набор от свободно достъпни програми за обработка, създаване и поддръжка на корпуси с разговорна реч. Активно се поддържа от Hamburger Zentrum für Sprachkorpora към Хамбургския университет. Разработени на Java, програмите работят на всички популярни операционни системи. Програмата Partitur Editor е редактор със забалежителни възможности да се свързва транскрипцията с аудио- или видеофайл. Поддържат се няколко вида траскрипция; данните могат да се изнасят във формат за работа с други подобни системи и към стандартни формати за публикуване на текст и данни. Страницата е достъпна на три езика (немски, английски и френски) и е богата на информация. Центърът прави и обучаващи курсове. Има демонстрационен корпус.
Free speech analysis software — Списък със свободен или достъпен софтуер за експериментална фонетика. Тези програми не просто заменят сонаграфа, но дават и възможности, за които експерименталната фонетика не можеше и да мечтае до преди две-три десетилетия. Особено големи са възможностите на Praat — програма с отворен код, създадена и поддържана от Paul Boersma и David Weenink от Университета в Амстердам. Програмата работи на всякакви операционни системи; може да използвате модули от нея или да създавате допълнителни модули за нея — тъй де, нали затова е с отворен код.
Natural Language Software Registry — Препратки към много програми за работа с естествен език. Инициатива на Асоциацията за компютърна лингвистика (Association for Computational Linguistics — ACL).
NLTK (Natural Language Toolkit) — Инициатива с отворен код, която се развива от 2001 г. (водещи разработчици: Edward Loper, Ewan Klein, Steven Bird) и която събира все повече участници. Инициативата разработва модули на програмния език пайтън (Python) за разнообразни обработки на текстове на естествен език, като най-същественото е, че осигурява еднотипен достъп до множество различни по организация текстови корпуси. Провеждат се обучителни курсове, издадена е книга Steven Birg, Ewan Klein & Edward Loper. Natural Language Processing with Python, O'Reilly, 2009, която представлява едновременно увод в пайтън и въведение в корпусната лингвистика с много примери. Голяма част от съдържанието на книгата е достъпна на страницата на инициативата. Излезе също така и книгата Jacob Perkins. Python Text Processing with NLTK 2.0 Cookbook. Packt Publishing, 2010. След като инсталирате пакета NLTK, може да свалите и работни материали (над 700 MB), които илюстрират устройството на множество текстови корпуси. Дори само заради тази инициатива си струва човек да понаучи малко пайтън, ако се интересува от корпусна и компютърна лингвистика.
[Забележка от април 2013: Усилено се работи върху прехвърлянето на пакета към Python3. Вече е достъпна версията NLTK 3.0a1 — както посочва номерът на версията, това все пак е пробна (alpha) версия.]
[Забележка от януари 2017: Версията на Python3 вече е официална, пакетът NLTK е достъпен и през хранилището на Anaconda, а данните са вече над 10 GB, та може би не е разумно да сваляте всичко.]
Online Font Converter — конвертиране на компютърни шрифтове в различни формати..
SIL Software Catalog — Списък на предоставяния от SIL International (Summer Institute of Linguistics) софтуер. Повечето програми изискват Windows, някои работят и на Macintosh.
Sumatra PDF — Четец за книги в Windows. Инициатива с отворен код. Разчита много файлови формати, между които PDF, DJVU, ePub, CHM.
TreeTagger — В англоезичната терминология tagger се нарича програма, която поставя някакви класификационни маркери (англ. tags) в текста. Най-често това са морфо-синтактични маркери към думите; казано по-просто — определянето им като „части на речта“. TreeTagger е създадена от Helmut Schmid (Щутгарт), а е „tree“, защото използва „дърво на решенията“ (достъпни са публикациите на проф. Шмид). Файлът за работа с български език е създаден от Julien Nioche върху данни от BulTreeBank (за системата от маркери вижте Kiril Simov, Petya Osenova and Milena Slavcheva. BTB-TR03: BulTreeBank Morphosyntactic Tagset. BulTreeBank Project Technical Report № 03. 2004). Програмата е достъпна в подобни на UNIX системи (Linux и MacОС X) и в Windows. Без затруднения се интегрира с cream (vim/gvim). Вижте още прегледа на Атанас Чанев в BulTreeBank.
W3C Quality Assurance Tools — Набор от инструменти на World Wide Web Consortium (W3C) за проверка на интернетски страници.
Универсален дешифратор за кирилица — Интернетска страница, на която работи програма, създадена от Петко Йотов, която се опитва да разгадае объркана кодировка на кирилица. Програмата обработва да 100 Кбайта текст, което е предостатъчно. Най-често този проблем възниква, когато сървър на електронната поща погрешно е прекодира кирилския текст на писмото — тогава вместо кирилски букви виждате „маймуни“. Може да използвате тази страница и за прекодиране на неголеми текстове, мака че системната програма iconv (в линукс и cygwin), както и по-удобната piconv (написана на Perl), вършат тази работа по-добре и без ограничения в размера на текста. Може да изпробвате дешифратора с текста от страницата Обратен речник, например. Поне докато не я поправят.