Александър Иванов
cream в режим „expert“
HTML или какво все пак прави командата :%s:<[^>]\+>::g
Тази команда аз споменах в раздела Пак търсене и заместване — регулярни изрази. Казах там, че е съвсем работоспособна, сега ще обясня за какво служи.
Ако си харесате текст от страница в интернет и си го запишете на диска през менюто на браузъра File > Save Page as… или нещо подобно, той пристига в интернетския формат HTML и разширението на файла обикновено е .htm или .html. Това си е текстов файл, но в него има много служебна информация — за ошрифтяване, за препратки и за всички останали интернетски хубости. За щастие всичката тази информация е винаги заключена между ъглести скоби. Командата просто трие всичко това.
Тя търси първо отваряща ъглеста скоба <, после търси един или повече символи, различни от затваряща ъглеста скоба > и най-накрая търси затваряща ъглеста скоба. Всичкото това се маркира и се изтрива.
Е, резултатът не е прекрасен — ще останат много празни редове, шпации и табулатори, може да остане и малко служебна информация, например ключови думи или заглавие на интернетската страница. Но вие вече знаете как да се отървете от всичко това.
Забележка: Възможно е някои символи в текста също да бъдат в странен вид, например:
> и < — съответно, > и <;
— „твърда“ шпация (non-breaking space);
– или — — голямо тире;
„ или “ — кавички.
За останалите — потърсете в интернет „специални символи в HTML“. Има множество справочни страници.