Синтаксис поисковых запросов

СТОП-СЛОВА

В естественом языке словосочетания строятся с использованием как значимых, так и служебных слов. Например, в составе словосочетания «отдых на море» присутствуют два значимых слова (существительные «отдых» и «море») и одно служебное (предлог «на»).

Служебные слова (предлоги, союзы, частицы) в машинной интерпретации поискового запроса считаются стоп-словами и опускаются при непосредственном поиске в базе ключевых слов.

В приведенном примере предлог «на» является стоп-словом, поэтому он не будет частью машинного поискового запроса, хотя он и присутствует в поисковой фразе, которую ввел пользователь.

Это сделано потому, что они несут незначительную смысловую нагрузку, и в базе могут найтись релевантные комбинации значимых поисковых слов без введенных стоп-слов, что скорее всего имеет смысл для пользователя.

Таким образом, в результатах поиска по умолчанию будут присутствовать как словосочетания с введенными служебными словами (стоп-словами), так и без них.

В сервисе поддерживаются следующие стоп-слова (служебные части речи - предлоги, союзы, частицы):

а, бы, в, во, вот, для, до, если, же, за, и, из, или, к, ко, между, на, над, но, о, об, около, от, ото, по, под, подо, при, про, с, со, среди, то, у, чтобы.

Таким образом, при вводе поисковой фразы «отдых в Хорватии» программа будет искать словосочетания, которые включают слова «отдых» и «Хорватии», т.е. в итоговой выборке появятся не только фразы, содержащие предлог «в», например, «отдых в Хорватии и Черногории», «отдых в Хорватии для детей», но и фразы, не содержащие предлога «в», например: «отдых на побережье Хорватии» или «отдых на островах Хорватии».

С помощью дополнительного оператора - знака плюс перед словом - стоп-слова можно принудительно преобразовать в поисковые слова, присутствующие в машинном запросе.

ОПЕРАТОРЫ И МОДИФИКАТОРЫ ПОИСКОВЫХ ЗАПРОСОВ

По умолчанию поиск вхождений с введенными пользователем словами прозводится с учетом словоформ и стоп слов.

Это значит, что в качестве результатов будут отбираться не только введенные слова, но и их измененные варианты в пределах части речи. Например, существительные изменяются по падежам и числам, поэтому это будут падежные формы единственного и множественного числа; качественные прилагательные имеют полную и краткую форму, положительную, сравнительную и превосходную степени сравнения, единственное или множественное число, род (если в единственном числе) и падеж.

Это также значит, что стоп-слова будут по умолчанию пропускаться в машинном запросе.

Вместе с тем, запросы по умолчанию можно изменить, используя дополнительные операторы и модификаторы поисковых запросов.

Операторы - знаки «минус» и «плюс» - позволяют исключать из найденных результатов или принудительно включать фразы, содержащие поисковые слова. Звездочка заменяет один или несколько символов.

Модификаторы - знак восклицания и знак тильды - инвертируют условия поиска по умолчанию для отдельных слов.

Знак «минус»

Для удаления из результатов поиска нерелевантных для пользователя словосочетаний можно воспользоваться словами-исключениями. Для этого в поисковую строку через пробел после поискового слова вводится слово с оператором - знаком «-». Знак «-» примыкает к исключемому слову, т.е. в этом случае пробела нет.

Можно ввести несколько слов-исключений.

Пример:

агенство недвижимости -Москва -Санкт-Петербург -Астрахань

Знак «плюс»

Если вам нужно, чтобы стоп слово обязательно участовало в поиске, то поставьте перед ним оператор - знак «+».

Пример:

отдых +в Хорватии

В этом случае будут отобраны только такие словосочетания, в которых есть предлог «в». Словосочетания, в которых предлога «в» нет, в выборку не войдут.

Восклицательный знак

Применение этого модификатора имеет смысл, если поиск по умолчанию производится с учетом словоформ.

Этот тип поиска установлен, если пользователь вообще не менял «Настройки сервисов», и если в «Настройках сервисов» выбрана опция «искать с учетом словоформ».

Таким образом, когда вы ищете, например, «туры в Хорватию» в результатах поиска будут и другие формы слов «тур» и «Хорватия», например, «бронирование туров в Хорватию», «экскурсионный тур по Хорватии» и т.п.

Если вы хотите, чтобы прозводился поиск словосочетаний только с той формой слова, которую вы ввели в качестве поискового слова, поставьте перед ней восклицательный знак.

Пример:

!туры в Хорватию

В результатах этого примера не будет других форм поискового слова «туры».

Модификатор «Восклицательный знак» можно применять не только к поисковым словам, но и к словам- исключениям.

Пример:

детское мыло -!мой -!моет -!мою -!моя -!мыть -!моют -!мойте -!мыли -!моем -!моешь -!моете

Это хороший пример ситуации, когда многозначность словоформы может существенно ухудшить качество выборки.

Словоформа «мыло» относится к двум разным словам - к имени существительному «мыло» (существительное среднего рода единственного числа в именительном падеже) и к глаголу «мыло» (глагол действительного залога, прошедшего времени, единственного числа, среднего рода с базовой формой «мыть»). А среди словоформ глагола «мыть» есть такие многозначные и часто употребительные в нецелевых значениях словоформы как «мой», «моя», «мою», «моем» и др.

Результаты этого примера будут очищены от нецелевых значений, привнесенных словоформами глагола «мыть».

Знак тильды

Применение этого модификатора имеет смысл, если поиск по умолчанию производится без учета словоформ.

Этот тип поиска установлен, если пользователь изменил «Настройки сервисов» по умолчанию, выбрав опцию «искать без учета словоформ».

Модификатор поиска «тильда» перед словом без пробела включает поиск словоформ для этого слова в том случае, если по умолчанию применяется поиск точных словоформ.

Пример:

~лабрадор ~щенок

В выборке будут присутствовать словосочетания не только с теми формами слов, которые введены в качестве поисковых слов, но и словоформы этих слов.

Если нужно исключить из результатов поиска точной словоформы нецелевые слова, которые могут быть в разных словоформах, то перед исключаемыми словами нужно поставить -~.

Пример:

лабрадор -~камень -~минерал -~гибралтар -~полуостров -~география -~окна

Маска со звёздочкой

Сервис позволяет произвести поиск по маске с заменой одного или нескольких символов звёздочкой, например:

Примеры:

разблокиров* телефон

*готовить рагу

майн* биткоин

Поиск по маске производится в двух вариантах: 1) звездочка ставится в начале слова и 2) звездочка ставится в конце слова. В поисковом слове может присутствовать только одна звездочка.

Это удобно в тех случах, когда недостаточно используемой по умолчанию поддержки словоформ (словоформы даются для той части речи, которую вы ищете), и нужно, чтобы при поиске выдавались разные части речи, например, в случае использования поисковой фразы «разблокиров* телефон» в результаты попадут словосочетания, включающие «раблокирование телефона», «разблокировка телефона», «разблокировать телефон», «разблокированный телефон».

Также это удобно, если у слова может быть несколько приставок, которые могут быть одинаково релевантными для поиска, например, в случае использования поисковой фразы «*готовить рагу» в результаты попадут словосочетания, включающие «готовить рагу», «приготовить рагу», «подготовить ингредиенты для рагу».

Эту маску можно использовать как с поисковыми слова, так и со словами-исключениями.

Пример:

онлайн курс английского -бесплатн*

Из результатов поиска будут исключены фразы как со словоформами прилагательного «бесплатный» , так и с наречием «бесплатно» .

Сложные запросы с группировкой слов

В Простом и в Расширенном подборе ключевых слов есть возможность использовать операторы группировки слов при запросе, когда с помощью одного запроса можно задать несколько частично пересекающихся запросов: (слово1|слово2) (слово3|слово4|слово5). Яндекс определяет эти операторы как группирующие слова при сложных запросах.

Например, с помощью одного сгруппированного запроса «аренда (квартиры|студии) (долгосрочно|долгосрочная|посуточно|посуточная)» Букварикс фактически получит и будет обрабатывать такие восемь запросов: «аренда квартиры долгосрочно», «аренда квартиры долгосрочная», «аренда квартиры посуточно», «аренда квартиры посуточная», «аренда студии долгосрочно» «аренда студии долгосрочная» «аренда студии посуточно» и «аренда студии посуточная».

аренда (квартиры|студии) (долгосрочно|долгосрочная|посуточно|посуточная)

В сложных запросах с группировкой слов должны быть соблюдены правила использования синтаксиса группировки. Во-первых, группируются только отдельные слова, а не словосочетания. Если нужно группировать словосочетания, подумайте, как переформулировать запрос. Во-вторых, слова в группе разделяются вертикальными чертами без пробелов, и вся группа слов также заключается в круглые скобки без пробелов. В-третьих, группы слов в круглых скобках и отдельные слова в запросе разделяются пробелами.

Внутри групп в скобках допускается модификация словоформ (использование "!" и "~" перед словом для изменения настройки поиска с учетом словоформ и без учета). Внутри групп в скобках не допускается использование знака "-" перед словом для исключения, хотя вообще в поисковой строке (и в столбце для исключения расширенного поиска) негативные слова можно использовать.

Например, правильное применение минус-слов в запросах с использованием группирующих операторов:

телевизоры (samsung|самсунг) (ремонт|обслуживание) -москва -спб -краснодар -саратов.

или

телевизоры (samsung|самсунг) (!ремонт|!обслуживание) -москва -спб -краснодар -саратов.

Неправильное применение минус-слов: телевизоры (samsung|самсунг) (ремонт|обслуживание) (-москва|-спб|-краснодар|-саратов).

Примечание:

Все вышеописанные операторы и модификаторы должны примыкать к слову, запрос которого модифицируется, т.е. в этом случае пробела между словом и знаком не должно быть. Если слово вводится с пробелом после любого из операторов, то такой оператор игнорируется, и слово считается поисковым.

© 2019 Букварикс