Синтаксис поисковых запросов

СТОП-СЛОВА

В естественом языке словосочетания строятся с использованием как значимых, так и служебных слов. Например, в составе словосочетания «отдых на море» присутствуют два значимых слова (существительные «отдых» и «море») и одно служебное (предлог «на»).

Служебные слова (предлоги, союзы, частицы) в машинной интерпретации поискового запроса считаются стоп-словами и опускаются при непосредственном поиске в базе ключевых слов.

В приведенном примере предлог «на» является стоп-словом, поэтому он не будет частью машинного поискового запроса, хотя он и присутствует в поисковой фразе, которую ввел пользователь.

Это сделано потому, что они несут незначительную смысловую нагрузку, и в базе могут найтись релевантные комбинации значимых поисковых слов без введенных стоп-слов, что скорее всего имеет смысл для пользователя.

Таким образом, в результатах поиска по умолчанию будут присутствовать как словосочетания с введенными служебными словами (стоп-словами), так и без них.

В сервисе поддерживаются следующие стоп-слова (служебные части речи - предлоги, союзы, частицы):

а, бы, в, во, вот, для, до, если, же, за, и, из, или, к, ко, между, на, над, но, о, об, около, от, ото, по, под, подо, при, про, с, со, среди, то, у, чтобы.

Таким образом, при вводе поисковой фразы «отдых в Хорватии» программа будет искать словосочетания, которые включают слова «отдых» и «Хорватии», т.е. в итоговой выборке появятся не только фразы, содержащие предлог «в», например, «отдых в Хорватии и Черногории», «отдых в Хорватии для детей», но и фразы, не содержащие предлога «в», например: «отдых на побережье Хорватии» или «отдых на островах Хорватии».

С помощью дополнительного оператора - знака плюс перед словом - стоп-слова можно принудительно преобразовать в поисковые слова, присутствующие в машинном запросе.

ОПЕРАТОРЫ И МОДИФИКАТОРЫ ПОИСКОВЫХ ЗАПРОСОВ

По умолчанию поиск вхождений с введенными пользователем словами прозводится с учетом словоформ и стоп слов.

Это значит, что в качестве результатов будут отбираться не только введенные слова, но и их измененные варианты в пределах части речи. Например, существительные изменяются по падежам и числам, поэтому это будут падежные формы единственного и множественного числа; качественные прилагательные имеют полную и краткую форму, положительную, сравнительную и превосходную степени сравнения, единственное или множественное число, род (если в единственном числе) и падеж.

Это также значит, что стоп-слова будут по умолчанию пропускаться в машинном запросе.

Вместе с тем, запросы по умолчанию можно изменить, используя дополнительные операторы и модификаторы поисковых запросов.

Операторы - знаки «минус» и «плюс» - позволяют исключать из найденных результатов или принудительно включать фразы, содержащие поисковые слова. Звездочка заменяет один или несколько символов.

Модификаторы - знак восклицания и знак тильды - инвертируют условия поиска по умолчанию для отдельных слов.

Знак «минус»

Для удаления из результатов поиска нерелевантных для пользователя словосочетаний можно воспользоваться словами-исключениями. Для этого в поисковую строку через пробел после поискового слова вводится слово с оператором - знаком «-». Знак «-» примыкает к исключемому слову, т.е. в этом случае пробела нет.

Можно ввести несколько слов-исключений.

Пример:

агенство недвижимости -Москва -Санкт-Петербург -Астрахань

Знак «плюс»

Если вам нужно, чтобы стоп слово обязательно участовало в поиске, то поставьте перед ним оператор - знак «+».

Пример:

отдых +в Хорватии

В этом случае будут отобраны только такие словосочетания, в которых есть предлог «в». Словосочетания, в которых предлога «в» нет, в выборку не войдут.

Восклицательный знак

Применение этого модификатора имеет смысл, если поиск по умолчанию производится с учетом словоформ.

Этот тип поиска установлен, если пользователь вообще не менял «Настройки поиска», и если в «Настройках поиска» выбрана опция «искать с учетом словоформ».

Таким образом, когда вы ищете, например, «туры в Хорватию» в результатах поиска будут и другие формы слов «тур» и «Хорватия», например, «бронирование туров в Хорватию», «экскурсионный тур по Хорватии» и т.п.

Если вы хотите, чтобы прозводился поиск словосочетаний только с той формой слова, которую вы ввели в качестве поискового слова, поставьте перед ней восклицательный знак.

Пример:

!туры в Хорватию

В результатах этого примера не будет других форм поискового слова «туры».

Модификатор «Восклицательный знак» можно применять не только к поисковым словам, но и к словам- исключениям.

Пример:

детское мыло -!мой -!моет -!мою -!моя -!мыть -!моют -!мойте -!мыли -!моем -!моешь -!моете

Это хороший пример ситуации, когда многозначность словоформы может существенно ухудшить качество выборки.

Словоформа «мыло» относится к двум разным словам - к имени существительному «мыло» (существительное среднего рода единственного числа в именительном падеже) и к глаголу «мыло» (глагол действительного залога, прошедшего времени, единственного числа, среднего рода с базовой формой «мыть»). А среди словоформ глагола «мыть» есть такие многозначные и часто употребительные в нецелевых значениях словоформы как «мой», «моя», «мою», «моем» и др.

Результаты этого примера будут очищены от нецелевых значений, привнесенных словоформами глагола «мыть».

Знак тильды

Применение этого модификатора имеет смысл, если поиск по умолчанию производится без учета словоформ.

Этот тип поиска установлен, если пользователь изменил «Настройки поиска» по умолчанию, выбрав опцию «искать без учета словоформ».

Модификатор поиска «тильда» перед словом без пробела включает поиск словоформ для этого слова в том случае, если по умолчанию применяется поиск точных словоформ.

Пример:

~лабрадор ~щенок

В выборке будут присутствовать словосочетания не только с теми формами слов, которые введены в качестве поисковых слов, но и словоформы этих слов.

Если нужно исключить из результатов поиска точной словоформы нецелевые слова, которые могут быть в разных словоформах, то перед исключаемыми словами нужно поставить -~.

Пример:

лабрадор -~камень -~минерал -~гибралтар -~полуостров -~география -~окна

Маска со звёздочкой

Сервис позволяет произвести поиск по маске с заменой одного или нескольких символов звёздочкой, например:

Примеры:

разблокиров* телефон

*готовить рагу

майн* биткоин

Поиск по маске производится в двух вариантах: 1) звездочка ставится в начале слова и 2) звездочка ставится в конце слова. В поисковом слове может присутствовать только одна звездочка.

Это удобно в тех случах, когда недостаточно используемой по умолчанию поддержки словоформ (словоформы даются для той части речи, которую вы ищете), и нужно, чтобы при поиске выдавались разные части речи, например, в случае использования поисковой фразы «разблокиров* телефон» в результаты попадут словосочетания, включающие «раблокирование телефона», «разблокировка телефона», «разблокировать телефон», «разблокированный телефон».

Также это удобно, если у слова может быть несколько приставок, которые могут быть одинаково релевантными для поиска, например, в случае использования поисковой фразы «*готовить рагу» в результаты попадут словосочетания, включающие «готовить рагу», «приготовить рагу», «подготовить ингредиенты для рагу».

Эту маску можно использовать как с поисковыми слова, так и со словами-исключениями.

Пример:

онлайн курс английского -бесплатн*

Из результатов поиска будут исключены фразы как со словоформами прилагательного «бесплатный» , так и с наречием «бесплатно» .

Примечание:

Все вышеописанные операторы и модификаторы должны примыкать к слову, запрос которого модифицируется, т.е. в этом случае пробела между словом и знаком не должно быть. Если слово вводится с пробелом после любого из операторов, то такой оператор игнорируется, и слово считается поисковым.

© 2018 Букварикс