При поиске по слову или списку слов Букварикс по умолчанию использует список служебных частей речи (предлоги, союзы, частицы), которые он игнорирует, если находит в поисковых словах, т.е. запрашивает словосочетание без служебных слов. Это отключаемая настройка (Настройки -> Настройка поиска -> Игнорировать слова при поиске). Тем не менее, в подавляющем большинстве случаев от использования стоп-слов пользователь выигрывает - ведь ему не нужно корректировать фразы, построенные по правилам естественного языка, выбрасывая из них предлоги, а список полученных результатов будет включать намного больше целевых словосочетаний. Например, во фразе «отпуск на море» есть стоп-слово – предлог «на». Если предлог игнорируется, то в выборке будут встречаться также словосочетания «отпуск у моря», «в отпуск к морю» и т.д.
Мы решили улучшить и дополнить список наших стоп-слов, проанализировав стоп-слова Яндекса, т.е. те слова, которые Яндекс игнорирует при поиске. Выглядит это таким образом, что когда вы запрашиваете Вордстат, введя словосочетание со стоп-словом и затем его же, но без стоп-слова, то Вордстат покажет одинаковое количество просмотров этого словосочетания в обоих случаях. Мы составили список уникальных слов своей базы и запросили частотности для этих слов, затем отсортировали по количеству употреблений и выделили те слова, которые часто встречаются в различных фразах, но при этом широкая частотность в Вордстате у них равна нулю.
Полученный список включает как слова русского языка, так и английские, украинские, немецкие, болгарские и турецкие слова. На основе этих данных мы уточнили свой текущий краткий список стоп-слов русского языка, а также составили расширенный список, включающий краткий, также для русского языка.
При этом в кратком списке мы использовали некоторые дополнительные слова, которые Яндекс не считает стоп-словами («среди», «между», «под», «над»), и также исключали слова, которые Яндекс считает стоп-словами («не» «нет»).
Также и в расширенный список, который мы составили на основе данных Вордстата, включены некоторые дополнительные по сравнению с Вордстатом слова, отсутствие которых нам кажется нелогичным. Например, в соответствии с Вордстатом слово «сам» является стоп-словом, но при этом «сама», «само», «самой», «самому» и пр. формы стоп-словами не считаются. Также из основных словоформ глагола «быть» почему-то не является стоп-словом форма 2 лица множественного числа будущего времени «будете», хотя при этом формы «будем», «будешь», «будет» и др. являются стоп-словами. Притяжательные местоимения «мой», «наш», «его», «её», «их» с соответствующими словоформами - это стоп-слова, а «твой» и «ваш» (с их словоформами) стоп-словами не являются. В предложенном нами списке эти нелогичности исправлены.
Еще мы даем вам списки стоп-слов русского языка, которые получены с помощью анализа Вордстата без каких-либо наших дополнений. Таким образом, мы сформировали четыре списка стоп-слов, которые предлагаем вашему вниманию.
© 2014 - 2018 Букварикс