Регулярные выражения php может быть или не. Регулярные выражения PHP. Удаление повторяющейся пунктуации

Вы здесь: Гаджеты

Чаще всего регулярные выражения используются в Perl в операторах поиска и замены, таких как s// , m/ , операторах связки =~ или != и т.д. Как правило все эти операторы имеют схожие опции такие как:

Обычно все эти опции обозначают как "/x". Их можно использовать даже внутри шаблонов, используя новую конструкцию (?...)

Регулярные выражения или шаблоны (pattern) то же самое, что и regexp процедуры в Unix. Выражения и синтаксис заимствованы из свободно распространяемых процедур V8 Генри Спенсера (Henry Spencer), там же они подробно и описаны.

В шаблонах используются следующие метасимволы (символы обозначающие группы других символов) часто называемые egrep - стандартом:

Метасимволы имеют модификаторы (пишутся после метасимвола):

Во все других случаях фигурные скобки считаются обычными (регулярными) символами. Таким образом "*" эквивалентна {0,} , "+" - {1,} и "?" - {0,1}. n и m не могут быть больше 65536.

По умолчанию действие метасимволов "жадно" (greedy). Совпадение распространяется столько раз, сколько возможно, не учитывая результат действия следующих метасимволов. Если вы хотите "уменьшить их аппетит", то используйте символ "?". Это не изменяет значение метасимволов, просто уменьшает распространение. Таким образом:

Шаблоны работают так же, как и двойные кавычки, поэтому в них можно использовать `\` - символы (бэкслэш-символы):

\t	- символ табуляции
\n	- новая строка
\r	- перевод каретки
\а	- перевод формата
\v	- вертикальная табуляция
\a	- звонок
\e	- escape
\033	- восьмеричная запись символа
\x1A	- шестнадцатеричная
\c[	- control символ
\l	- нижний регистр следующего символа
\u	- верхний регистр -//-
\L	- все символы в нижнем регистре до \E
\U	- в верхнем -//-
\E	- ограничитель смены регистра
\Q	- отмена действия как метасимвола

Дополнительно в Perl добавлены следующие метасимволы:

Обратите внимание, что все это "один" символ. Для обозначения последовательности применяйте модификаторы. Так:

Кроме того существуют мнимые метасимволы. Обозначающие не существующие символы в месте смены значения. Такие как:

Граница слова (\b) - это мнимая точка между символами \w и \W. Внутри класса символов "\b" обозначает символ backspace (стирания). Метасимволы \A и \Z - аналогичны "^" и "$", но если начало строки "^" и конец строки "$" действуют для каждой строки в многострочной строке, то \A и \Z обозначают начало и конец всей многострочной строки.

Если внутри шаблона применяется группировка (круглые скобки), то номер подстроки группы обозначается как "\цифра". Заметьте, что за шаблоном в пределах выражения или блока эти группы обозначаются как "$цифра". Кроме этого существуют дополнительные переменные:

Пример:

$s = "Один 1 два 2 и три 3"; if ($s =~ /(\d+)\D+(\d+)/) { print "$1\n"; # Результат "1" print "$2\n"; # "2" print "$+\n"; # "2" print "$&\n"; # "1 два 2" print "$`\n"; # "Один " print "$"\n"; # " и три 3" }

Perl версии 5 содержит дополнительные конструкции шаблонов:

Пример:

$s = "1+2-3*4"; if ($s =~ /(\d)(?=-)/) # Найти цифру за которой стоит "-" { print "$1\n"; # Результат "2" } else { print "ошибка поиска\n"; }

(?!шаблон)- "заглядывание" вперед по отрицанию:

Пример:

$s = "1+2-3*4"; if ($s =~ /(\d)(?!\+)/) # Найти цифру за которой не стоит "+" { print "$1\n"; # Результат "2" } else { print "ошибка поиска\n"; }

(?ismx) - "внутренние" модификаторы. Удобно применять в шаблонах, где например нужно внутри шаблона указать модификатор.

Правила регулярного выражения. (regex)

Любой символ обозначает себя самого, если это не метасимвол. Если вам нужно отменить действие метасимвола, то поставьте перед ним "\".
Строка символов обозначает строку этих символов.
Множество возможных символов (класс) заключается в квадратные скобки "", это значит, что в данном месте может стоять один из указанных в скобках символов. Если первый символ в скобках это "^" - значит ни один из указанных символов не может стоять в данном месте выражения. Внутри класса можно употреблять символ "-", обозначающий диапазон символов. Например, a-z - один из малых букв латинского алфавита, 0-9 - цифра и т.д.

форум портала PHP . SU

Регулярные выражения, это очень мощный, но в то же время сложный для понимания, инструмент обработки строк. Опишу основные моменты. Регулярное выражение это шаблон строки. По этому шаблону можно искать вхождения, производить замену, проверять на соответствие шаблону.

Правила составление шаблона (pattern)

Границы шаблона должны обозначаться определенными символами, часто используют "/ ", но я предпочитаю использовать "# " потому, что от обилия прямых/обратных слешей может в глазах зарябить, а "решетки" обычно больше нигде не используются. Итак: "#ТутТелоРегулярногоВыражения# "

Внутри регулярного выражения используются скобки - это подвыражения, с которыми можно производить манипуляции, пример:

#^/catalog/(+)/(+)\.html.*#

Это выражение предназначено для получения параметров в строке URL . В начале строки идет спецсимвол "^ " - это означает начало строки. Далее идет "/catalog/ " - тут нет спецсимволов, это просто текст, который должен содержатся в строке. Затем встретили круглые скобки, т.е. дошли до первого подвыражения. В квадратных скобках обозначаются множество символов, которые могут быть в строке в этом месте. Знак "- " означает перечисление. Знак "\ " экранирует специальные символы. Таким образом, в первом подвыражении у нас могут идти БОЛЬШИЕ и маленькие буквы латинского алфавита, цифры от 0 до 9, знак подчеркивания, тире и точка. Тире и точка - это спецсимволы, но здесь они экранированы, поэтому здесь это просто символы. После квадратных скобок идет знак "+ " - это значит предыдущий символ (а у нас это множество символов заданное в квадратных скобках) может идти 1 или больше раз. Затем идет "/ " - это просто символ, и аналогичное второе подвыражение. Затем идет "\.html ", что означает текст ".html ". А затем спец символы ".* " точка означает любой символ, а звездочка любое количество предыдущего символа. Т.е. после ".html " может идти все что угодно.

Указание количества, квантификаторы

Выше мы уже рассмотрели такие символы, указывающие количество предыдущих символов, как + и * . Приведем все возможности указания количества:

Спецсимволы

Для некоторых групп символов есть специальные сокращения:

"Жадность"

Рассмотрим понятие жадности регулярного выражения. Например есть строка:

#()#

Читаем: подвыражение:

Вроди все верно, подвыражение подходит под:

Но оно также подходит под:

Его то мы и получим, т.к. регулярные выражения по умолчанию "жадные". Снять жадность можно с помощью модификатора "U ", вот так:

#()#U

Модификаторы

После регулярного выражения могут идти модификаторы: "#ТутТелоРегулярногоВыражения#ТутМодификаторы " Виды модификаторов:

i	Включает режим case-insensitive, т.е. большие и маленькие буквы в выражении не различаются.
m	Указывает на то, что текст, по которому ведется поиск, должен рассматриваться как состоящий из нескольких строк. По умолчанию механизм регулярных выражений рассматривает текст как одну строку вне зависимости от того, чем она является на самом деле. Соответственно метасимволы "^" и "$" указывают на начало и конец всего текста. Если же этот модификатор указан, то они будут указывать соответственно на начало и конец каждой строки текста.
s	По умолчанию метасимвол ". " не включает в свое определение символ перевода строки. Указание этого модификатора снимает это ограничение.
U	Снимает жадность регулярного выражения
u	Включает работу регулярных выражений с кириллицей в UTF-8 , иначе работает не корректно.

php Функции для работы с регулярными выражениями

preg_replace

Поиск и замена:

Preg_replace (mixed $pattern , mixed $replacement , mixed $subject [, int $limit = -1 [, int &$count ]]);

Каждое значение может быть строкой или массивом, в случае, если $subject массив - возвращается массив, иначе строка

preg_split

Разбивает строку по регулярному выражению:

Preg_split (string $pattern , string $subject [, int $limit = -1 [, int $flags = 0 ]]);

Возвращает массив, состоящий из подстрок заданной строки subject , которая разбита по границам, соответствующим шаблону pattern .

Регулярные выражения – это очень полезный инструмент для разработчиков. С их помощью можно находить, определять или заменять текст, слова или любые другие символы. В сегодняшней статье собраны 15 наиболее полезных регулярных выражений, которые пригодятся любому веб-разработчику.

Введение в регулярные выражения

Многим начинающим разработчикам кажется, что регулярные выражения очень сложны для понимания и использования. На самом деле, все не так уж сложно, как может показаться. Прежде чем мы непосредственно перейдем к регулярным выражениям, с их полезным и универсальным кодом, давайте взглянем на основы:

Синтаксис регулярных выражений

Регулярное выражение	Означает
foo	Строка “foo”
^foo	Строка начинается с “foo”
foo$	Строка заканчивается на “foo”
^foo$	«foo» встречается в строке только один раз
	a, b, или c
	любой символ в нижнем регистре
[^A-Z]	любой символ, не находящийся в верхнем регистре
(gif\|jpg)	Означает как «gif” так и “jpeg”
+	Один или более символов нижнего регистра
	Любая цифра, точка или знак минус
^{1,}$	Любое слово, хотя бы одна буква, число или _
()()	wy, wz, xy, или xz
(^A-Za-z0-9)	Любой символ (не число и не буква)
({3}\|{4})	Означает три буквы или 4 цифры

PHP-функции для регулярных выражений

Функция	Описание
preg_match()	Функция preg_match() ищет строку по заданному шаблону, возвращает true, если строка находится и false, в остальных случаях
preg_match_all()	Функция preg_match_all() находит все вхождения строки, заданной по шаблону
preg_replace()	Функция preg_replace(), действует по тому же принципу, что и ereg_replace(), за исключением того, что регулярные выражения можно использовать как для задания шаблона поиска, так и для строки, на которую следует заменить, найденное значение.
preg_split()	Функция preg_split(), действует так же как split(), за исключением того, что регулярное выражение можно использовать в качестве параметра для шаблона поиска.
preg_grep()	Функция preg_grep() ищет все элементы входного массива, возвращая все элементы, соответствующие шаблону регулярного выражения.
preg_quote()	Экранирует символы регулярного выражения

Проверка доменного имени

Проверяем, является ли строка правильным доменным именем

$url = "http://komunitasweb.com/"; if (preg_match("/^(http|https|ftp)://(*(?:.*)+):?(d+)?/?/i", $url)) { echo "Your url is ok."; } else { echo "Wrong url."; }

Подсветка слова в тексте

Это очень полезное регулярное выражение, с его помощью вы можете найти нужное слово и подсветить его. Особенно полезно для отображения результатов поиска.

$text = "Sample sentence from KomunitasWeb, regex has become popular in web programming. Now we learn regex. According to wikipedia, Regular expressions (abbreviated as regex or regexp, with plural forms regexes, regexps, or regexen) are written in a formal language that can be interpreted by a regular expression processor"; $text = preg_replace("/b(regex)b/i", "1", $text); echo $text;

Подсветка результатов поиска в WordPress блоге

Как уже говорилось в предыдущем примере, этот пример кода, удобно использовать в выдаче поисковых результатов и есть отличный способ внедрить эту функцию в wordpress-блог.

Откройте ваш файл search.php, и найдите функцию the_title(). Замените ее следующим кодом:

Echo $title;

Теперь, выше этой строки, добавьте этот код:

\0", $title); ?>

Сохраните файл search.php, и откройте style.css. Добавьте следующую строку:

Strong.search-excerpt { background: yellow; }

Получение всех картинок из HTML-документа

Если вам когда-нибудь требовалось получить все картинки с веб-страницы, этот код должен быть Вы легко сможете создать загрузчик изображений с помощью возможностей cURL

$images = array(); preg_match_all("/(img|src)=("|\")[^"\">]+/i", $data, $media); unset($data); $data = preg_replace("/(img|src)("|\"|="|=\")(.*)/i", "$3", $media); foreach ($data as $url) { $info = pathinfo($url); if (isset($info["extension"])) { if (($info["extension"] == "jpg") || ($info["extension"] == "jpeg") || ($info["extension"] == "gif") || ($info["extension"] == "png")) array_push($images, $url); } }

Удаление повторяющихся слов (не чувствителен к регистру)

Во время печатания, часто повторяются слова? Поможет это регулярное выражение.

$text = preg_replace("/s(w+s)1/i", "$1", $text);

Удаление повторяющейся пунктуации

То же самое, только для пунктуации. Попрощайтесь с двойными запятыми.

$text = preg_replace("/.+/i", ".", $text);

Поиск XML/HTML тэгов

Эта простая функция, принимает два аргумента. Первый – это тэг, который вам нужно найти, и второй – это переменная, содержащая XML или HTML. Повторюсь, эту функцию очень удобно использовать вместе с cURL.

Function get_tag($tag, $xml) { $tag = preg_quote($tag); preg_match_all("{<".$tag."[^>]*>(.*?)."}", $xml, $matches, PREG_PATTERN_ORDER); return $matches; }

Поиск XHTML/XML тэгов с определенным значением атрибута

Эта функция очень похожа на предыдущую, за исключением того, что вы можете задать тегу нужный атрибут. Например, вы легко сможете найти

Выбор редакции

Как работает невидимка в Одноклассниках, что дает?

Социальная сеть «Одноклассники» отличается тем, что владелец аккаунта всегда узнает, кто был у него в гостях и кто из друзей сейчас...

Скачать драйвера атол Драйвер атол 8

Драйвера АТОЛ – это специальная программа, необходимая для взаимодействия кассового аппарата с компьютером. Данное программное...

Ведение спора на АлиЭкспресс

А также изменился интерфейс страницы спора. По этой причине у многих покупателей возникло много вопросов: как отрыть спор по новым...

Как отключить брандмауэр - подробная инструкция Удаленное отключение брандмауэра windows 7

Немецкое слово брандмауэр (нем. Brandmauer, от Brand - пожар и Mauer - стена) плотно вошло в обиход пользователей операционной системы...

Как конвертировать графический файл BMP в JPG и наоборот JPG в BMP?

Существует множество различных способов конвертирования различных форматов изображений. Сегодня мы с вами рассмотрим несколько из них,...

Возможные нарушения в работе кнопки «Пуск» и основного меню

С переходом к десятой модификации операционной системы Windows большинство пользователей очень обрадовалось тому, что в интерфейсе...

Включаем будильник на компьютере

Для некоторых людей подъем по утрам – очень сложная задача. Хорошо, когда не нужно никуда спешить, но если Вы боитесь опоздать на работу,...

Комментарии в инстаграме

В «Инстаграме» самыми популярными объектами являются, естественно, фотографии. Конечно, снимки с комментариями будут смотреться намного...

Нюансы изменения шрифта на телефоне Xiaomi Стандартный шрифт miui 8

Аппараты на ОС Андроид отличаются возможностью изменить практически все в интерфейсе пользователя. Китайская модификация прошивки – miui,...

Новое

Метасимволы для задания специальных символов
()	Скобки. Определяют вложенные выражения.
\|	Метасимвол выбора
^	Метасимвол начала строки
$	Метасимвол конца строки
\n	Символ перевода строки (шестнадцатеричный код 0x0A)
\r	Символ возврата каретки (шестнадцатеричный код 0x0D)
\t	Символ табуляции (шестнадцатеричный код 0x09)
\xhh	Вставка символа с шестнадцатиричным кодом 0xhh, например \x42 вставит латинскую букву "B"
Метасимволы для задания групп символов
.	Точка. Любой символ.
\d	Цифра (0-9)
\D	Не цифра (любой символ кроме символов 0-9)
\s	Пустой символ (обычно пробел и символ табуляции)
\S	Непустой символ (все, кроме символов, определяемых метасимволом \s)
\w	"Словарный" символ (символ, который используется в словах. Обычно все буквы, все цифры и знак подчеркивания ("_"))
\W	Все, кроме символов, определяемых метасимволом \w

i	Включает режим case-insensitive, т.е. большие и маленькие буквы в выражении не различаются.
m	Указывает на то, что текст, по которому ведется поиск, должен рассматриваться как состоящий из нескольких строк. По умолчанию механизм регулярных выражений рассматривает текст как одну строку вне зависимости от того, чем она является на самом деле. Соответственно метасимволы "^" и "$" указывают на начало и конец всего текста. Если же этот модификатор указан, то они будут указывать соответственно на начало и конец каждой строки текста.
s	По умолчанию метасимвол "." не включает в свое определение символ перевода строки. Т.е. для многострочного текста выражение /.+/ вернет только первую строку, а не весь текст, как ожидается. Указание этого модификатора снимает это ограничение.
U	Делает все количественные метасимволы "не жадными" по умолчанию. В некоторых модификациях языка (в частности в PHP) вместо "U" используется символ "g", более соответствующий смыслу ("g" - сокращение от английского "greedy", "жадный").

Метасимвол	Описание	Пример
.	Обозначает любой единичный символ, кроме символа новой строки.	/./ — все, что содержит один символ.
^	Обозначает начало строки, не включая символ /.	/^PH/ — любая строка, которая начинается с PH.
$	Обозначает шаблон в конце строки.	/com$/ — guru99.com,yahoo.com и т.д.
*	Обозначает любое количество символов, ноль или больше.	/com*/ — computer, communication и т.д.
+	Требуется вхождение перед метасимволом символа (ов) хотя бы один раз.	/yah+oo/ — yahoo.
	Символ экранирования.	/yahoo+.com/ — воспринимает точку, как дословное значение.
[…]	Класс символов.	// — abc.
a-z	Обозначает строчные буквы.	/a-z/ — cool, happy и т.д.
A-Z	Обозначает заглавные буквы.	/A-Z/ — WHAT, HOW, WHY и т.д.
0-9	Обозначает любые цифры от 0 до 9.	/0-4/ — 0,1,2,3,4.

Пояснение шаблона «+@+.{2,5}$/] «

Правила составление шаблона (pattern)

Указание количества, квантификаторы

Спецсимволы

"Жадность"

Модификаторы

php Функции для работы с регулярными выражениями

preg_replace

preg_split

Введение в регулярные выражения

Проверка доменного имени

Подсветка слова в тексте

Подсветка результатов поиска в WordPress блоге

Получение всех картинок из HTML-документа

Удаление повторяющихся слов (не чувствителен к регистру)

Удаление повторяющейся пунктуации

Поиск XML/HTML тэгов

Поиск XHTML/XML тэгов с определенным значением атрибута

Поиск шестнадцатеричных значений цветов

Поиск заголовка статьи

Парсинг логов Apache

Замена двойных кавычек “умными” кавычками

Комплексная проверка пароля

WordPress: Использование регулярного выражения для получения картинок из записи

Генерация автоматических смайлов

Регулярные выражения в PHP.

Регулярные выражения в PHP

Preg_match

Preg_split

Preg_replace

Метасимволы