Как сделать поисковую систему: Sorry, this page can't be found.

Содержание

Поисковик своими руками / Хабр

Мне всегда не дает покоя идея поисковых машин, особенно то, что создатели в начале даже не подозревали о необыкновенных перспективах данной технологии.

Я решил на практике изучить, что же это такое – поисковый движок. Назвал его

nanorit.com

. Но для экспериментов я не брал никакие известные API от Google, а решил создать свой.

Для начала я загрузил базу доменов, получилось около 70000 уникальных сайтов. Далее разработал поискового робота, который подключался поочередно к одному сайту и загружал все ссылки с главной страницы, которые относятся к данному сайту. Такое ограничение я сделал, чтобы робот не погряз в дебрях большого сайта, или раскрученного форума. Но, думаю, в дальнейшем оптимизировать алгоритм. Далее я ставлю метку для проиндексированного сайта с датой индексации и перехожу к следующему сайту.

Чего я добился на данный момент – в базе находится сейчас около 1.5 млн. документов, причем загружаю я только заголовки, потому что тело документа грузить весьма накладно по ресурсам. База уже занимает 500 Мб на диске, а размещаюсь на простом хостинге, без выделенного сервера.

Далее я рассказал про свою идею знакомому кандидату наук, вместе учились. Он мне рассказал про лингвистический анализ. Я решил разбить все заголовки на отдельные слова и составить реестр данных слов и связанную таблицу – в которой для каждого заголовка идет перечисление идентификаторов слов. В итоге получилось слов в индексе 139000, а связок для заголовков 2,184,204. Далее я сделал алгоритм поиска по данному индексу, но результат оказался хуже, чем если просто искать через like ‘%keyword%’, поэтому я решил пока не развивать алгоритм в эту сторону.

Потом я решил проверить интерес пользователей, и добавил рейтинг поисковых запросов, для каждого запроса считаю количество обращений. Самое интересное, что поисковые машины тоже начали «кликать», есть опасность что забанят, но яндекс пока индексирует.

Сейчас я добавил функцию добавления своего сайта в индекс, и также пользователи проявили интерес и регулярно добавляют свои сайты.

Какие выводы я получил – не боги горшки обжигают. Вот главный вывод. Думаю сейчас развить идею и приобрести выделенный сервер для поисковика. Ну а далее в планах изучить архитектуру кластерной обработки данных и оптимизировать скорость обработки запросов – сейчас честно говоря, по сравнению с гуглом очень медленно ищет.

Поисковые технологии или в чем загвоздка написать свой поисковик / Хабр

Когда-то давно взбрела мне в голову идея: написать свой собственный поисковик. Было это очень давно, тогда я еще учился в ВУЗе, мало чего знал про технологии разработки больших проектов, зато отлично владел парой десятков языков программирования и протоколов, да и сайтов своих к тому времени было понаделано много.

Ну есть у меня тяга к монструозным проектам, да…

В то время про то, как они работают было известно мало. Статьи на английском и очень скудные. Некоторые мои знакомые, которые были тогда в курсе моих поисков, на основе нарытых и мной и ими документов и идей, в том числе тех, которые родились в процессе наших споров, сейчас делают неплохие курсы, придумывают новые технологии поиска, в общем, эта тема дала развитие довольно интересным работам. Эти работы привели в том числе к новым разработкам разных крупных компаний, в том числе Google, но я лично прямого отношения к этому не имею.

На данный момент у меня есть собственный, обучающийся поисковик от и до, со многими нюансами – подсчетом PR, сбором статистик-тематик, обучающейся функцией ранжирования, ноу хау в виде отрезания несущественного контента страницы типа меню и рекламы. Скорость индексации примерно полмиллиона страниц в сутки. Все это крутится на двух моих домашних серверах, и в данный момент я занимаюсь масштабированием системы на примерно 5 свободных серверов, к которым у меня есть доступ.

Здесь я в первый раз, публично, опишу то, что было сделано лично мной. Думаю, многим будет интересно как же работают Яндекс, Google и почти все мне известные поисковики изнутри.

Есть много задач при построении таких систем, которые почти нереально решить в общем случае, однако с помощью некоторых ухищрений, придумок и хорошего понимания как работает железячная часть Вашего компьютера можно серьезно упростить. Как пример – пересчет PR, который в случае нескольких десятков миллионов страниц уже невозможно поместить в самой большой оперативной памяти, особенно если Вы, как и я, жадны до информации, и хотите кроме 1 цифры хранить еще много полезностей. Другая задача – хранение и обновление индекса, как минимум двумерной базы данных, в которой конкретному слову сопоставляется список документов, на которых оно встречается.

Просто вдумайтесь, Google хранит, по одной из оценок, более 500 миллиардов страниц в индексе. Если бы каждое слово встречалось на 1 странице только 1 раз, и на хранение этого надо было 1 байт – что невозможно, т.к. надо хранить хотя бы id страницы – уже от 4 байт, так вот тогда объем индекса бы был 500гб. В реальности одно слово встречается на странице в среднем до 10 раз, объем информации на вхождение редко когда меньше 30-50 байт, весь индекс увеличивается в тысячи раз… Ну и как прикажите это хранить? А обновлять?

Ну вот, как это все устроено и работает, я буду рассказывать планомерно, так же как и про то как считать PR быстро и инкрементально, про то как хранить миллионы и миллиарды текстов страниц, их адреса и быстро искать по адресам, как организованы разные части моей базы данных, как инкрементально обновлять индекс на много сотен гигов, ну и наверное расскажу как сделать обучающийся алгоритм ранжирования.

На сегодня объем только индекса, по которому происходит поиск — 57Gb, увеличивается каждый день примерно на 1Gb. Объем сжатых текстов – 25Gb, ну и я храню кучу другой полезной инфы, объем которой очень трудно посчитать из-за ее обилия.

Вот полный список статей которые относятся к моему проекту и описаны здесь:
0. Поисковые технологии или в чем загвоздка написать свой поисковик

1. С чего начинается поисковик, или несколько мыслей про crawler
2. Общие слова про устройство поиска в Web
3. Dataflow работы поисковой машины
4. Про удаление малозначимых частей страниц при индексации сайта
5. Методы оптимизации производительности приложения при работе с РБД
6. Немного про проектирование баз данных для поисковой машины
7. AVL деревья и широта их применения
8. Работа с URL и их хранение
9. Построение индекса для поисковой машины

Создание поисковой системы в интернете

Я всегда был заинтересован в разработке веб-поисковой системы. Что хорошее место, чтобы начать? Я слышал о Lucene, но я не большой Java парень. Какие-нибудь другие хорошие ресурсы или проекты с открытым исходным кодом?

Я понимаю, что это огромная недооценка, но это часть привлекательности. Я не собираюсь создавать следующий Google, просто что-то, что я могу использовать для поиска подмножества сайтов, которые меня могут заинтересовать.

search search-engine
Поделиться Источник Aseem 21 сентября 2008 в 21:35
9 ответов
Архитектура Мета-Поисковой Системы
Вопрос был недостаточно ясен, я думаю; вот обновленный вопрос прямо к делу: Каковы общие архитектуры, используемые при построении мета-поисковой системы, и существуют ли какие-либо библиотеки для создания такого типа поисковой системы? Я рассматриваю создание поисковой системы типа enterprise, где…
Блок-схема парсера поисковой системы
Ребята, вы не знаете, где я могу найти схему дизайна парсера поисковой системы? Мне нужно понять, как он обрабатывает пользовательский ввод. какие функции / алгоритмы используются? условия. и т.д. Это не обязательно должен быть Google. Обновленный вопрос к парсеру поисковой системы

57

Поисковая система состоит из нескольких частей. Вообще говоря, в безнадежно общей манере (люди, не стесняйтесь редактировать , если вы чувствуете, что можете добавить лучшие описания, ссылки и т. д.):
Программа-обходчик . Это та часть, которая проходит через интернет, захватывает страницы и хранит информацию о них в каком-то Центральном хранилище данных. В дополнение к самому тексту вам понадобятся такие вещи, как время доступа к нему и т. д. Искатель должен быть достаточно умен, чтобы знать, как часто попадать в определенные Домены,соблюдать соглашение robots.txt и т. д.
Парсер . Это считывает данные, извлеченные искателем, анализирует их, сохраняет любые метаданные, которые ему нужны, выбрасывает мусор и, возможно, дает предложения искателю о том, что нужно извлечь в следующий раз.

Индексатор . Читает материал, который парсер проанализировал, и создает инвертированные индексы в терминах, найденных на веб-страницах. Он может быть таким умным, каким вы хотите его видеть-применять методы NLP для составления индексов понятий, перекрестных ссылок, подбрасывания синонимов и т. д.
Механизм ранжирования . Учитывая несколько тысяч URLs совпадающих «apple», как вы решаете, какой результат является лучшим? Но индекс не дает вам такой информации. Вам нужно проанализировать текст, структуру ссылок и любые другие фрагменты, на которые вы хотите посмотреть, и создать некоторые оценки. Это может быть сделано полностью на лету (это действительно трудно) или на основе некоторых предварительно вычисленных понятий «experts» (см. PageRank и т. д.).
Передний конец . Что-то должно получать запросы пользователей, попадать в центральный движок и отвечать; это что-то должно быть умным в кэшировании результатов, возможно, смешивании результатов из других источников и т. д. У него есть свой набор проблем.

Мой совет-выберите, какой из них вас больше всего интересует, загрузите Lucene или Xapian или любой другой проект с открытым исходным кодом, вытащите бит, который выполняет одну из вышеперечисленных задач, и попробуйте заменить его. Надеюсь, с чем-нибудь получше: -).
Некоторые ссылки, которые могут оказаться полезными: «Agile web-crawler», статья из Эстонии (на английском языке) Поисковая система Sphinx, индексация и поиск api. Предназначен для больших DBs,но модульный и открытый. «Информационный поиск, учебник о IR от Manning et al. Хороший обзор того, как строятся индексы, различные возникающие вопросы, а также некоторые обсуждения обхода и т. д. Бесплатная онлайн-версия (на данный момент)!
Поделиться SquareCog 21 сентября 2008 в 22:24

Создание поисковой системы базы данных, такой как Google
Я новичок в создании websites.I’m создание поисковой системы телефонного справочника.(Используя скрипты PostgreSql,CGI).В моей базе данных есть имя, Tel.No,City, штат, адрес. До сих пор я создал поле поиска типа google, где я могу дать любую из вышеперечисленных записей базы данных и выполнить…
Скрыть сайт от видимости поисковой системы
Я сделал веб-портал для внутреннего офисного использования. Поскольку это внутреннее приложение, нам не нужно открывать его публично, у нас уже есть система входа. Поскольку нам нужно подключить все наши офисы по всей стране, мы должны разместить это в интернете. Мой вопрос в том, как скрыть этот…

6

Посмотрите на nutch, он написан тем же парнем, который создал Lucene ( Doug Cutting ).
Поделиться Mauricio Scheffer 28 сентября 2008 в 23:44

6

Xapian -это еще один вариант для вас. Я слышал, что он масштабируется лучше, чем некоторые реализации Lucene.
Поделиться Oli 21 сентября 2008 в 21:40

5

Мне кажется, что самая большая часть-это индексация сайтов. Создание ботов для рыскания в интернете и анализа их содержимого.
Мы с другом говорили о том, как удивительно, что Google и другие поисковые системы должны быть под капотом. Миллионы результатов менее чем за полсекунды? Сумасшедший. Я думаю,что они могли бы заранее настроить Результаты поиска для часто используемых элементов.
редактировать: Этот сайт выглядит довольно интересно.
Поделиться Joel 21 сентября 2008 в 21:40

4

Я бы начал с существующего проекта, такого как поисковая система с открытым исходным кодом от Wikia.
[Насколько я понимаю, поисковый проект Wikia закончился. Однако я думаю, что участие в существующем проекте с открытым исходным кодом-это хороший способ облегчить задачу такого масштаба.]
http://re.search.wikia.com/о/get_involved.html
Поделиться bmb 21 сентября 2008 в 22:01

1

Меня тоже интересует Поисковая система. Я рекомендовал как Apache Hadoop MapReduce, так и Apache Lucene. Лучший способ-ускорить работу с кластером Hadoop.
Поделиться klainfo 07 февраля 2010 в 09:55

1

Если вам интересно узнать о теории поиска информации и некоторых технических деталях внедрения поисковых систем, я могу порекомендовать книгу » Управление гигабайтами » Яна Виттена, Алистера Моффата и Тима C. Колокол. (Раскрытие: Алистер Моффат был моим университетским руководителем.) Хотя сейчас она немного устарела (первое издание вышло в 1994 году, а второе-в 1999-м-что такого сложного в управлении гигабайтами сейчас?), лежащая в ее основе теория все еще здрава, и это отличное введение как в индексацию, так и в использование сжатия в системах индексирования и поиска.
Поделиться TimB 29 сентября 2008 в 00:06
Поделиться Oli 21 сентября 2008 в 21:37

0

Вот несколько иной подход, если вы не столько заинтересованы в его программировании,сколько больше заинтересованы в результатах: подумайте о его создании с помощью пользовательского поиска Google Engine API.
Преимущества:
Google делает всю тяжелую работу за вас
Знакомые UI и поведение для ваших пользователей
Может иметь что-то вверх и работает в течение нескольких минут
Множество возможностей настройки
Недостатки:
Вы не пишете код, так что никакой возможности для обучения нет
Все, что вы хотите найти, должно быть public & уже в индексе Google
Ваш результат привязан к Google
Поделиться Tim Farley 24 сентября 2008 в 00:47
Похожие вопросы:

создание безопасной поисковой системы для детей?
мой проект в этом году : создание безопасной поисковой системы для детей поэтому мне нужна некоторая информация о : 1-где найти некоторые исследования, статьи на эту тему ? 2-Как использовать…

Создание поисковой системы в разных таблицах
Что бы вы мне посоветовали, чтобы использовать для поиска в разных таблицах для поисковой системы ? Каждая таблица отличается от другой, столбцы различны и количество строк различно.

Использование поисковой системы изображений
можно ли создать экземпляр использования поисковой системы изображений в приложении? У меня есть идея включить поисковые системы изображений с фотографиями, которые можно сделать с помощью камеры, а…

Архитектура Мета-Поисковой Системы
Вопрос был недостаточно ясен, я думаю; вот обновленный вопрос прямо к делу: Каковы общие архитектуры, используемые при построении мета-поисковой системы, и существуют ли какие-либо библиотеки для…

Блок-схема парсера поисковой системы
Ребята, вы не знаете, где я могу найти схему дизайна парсера поисковой системы? Мне нужно понять, как он обрабатывает пользовательский ввод. какие функции / алгоритмы используются? условия. и т.д….

Создание поисковой системы базы данных, такой как Google
Я новичок в создании websites.I’m создание поисковой системы телефонного справочника.(Используя скрипты PostgreSql,CGI).В моей базе данных есть имя, Tel.No,City, штат, адрес. До сих пор я создал…

Скрыть сайт от видимости поисковой системы
Я сделал веб-портал для внутреннего офисного использования. Поскольку это внутреннее приложение, нам не нужно открывать его публично, у нас уже есть система входа. Поскольку нам нужно подключить все…

Создание GUi для поисковой системы
Я пытаюсь создать поисковое приложение, которое можно разместить в интернете. В настоящее время у меня есть код python для поисковой системы (используя свист , если кто-то знаком с ним). FOr это мы…

Время отклика поисковой системы google
Кто нибудь знает, Мне нужно сравнить время отклика моей поисковой системы с google, для моей собственной поисковой системы я мог бы рассчитать время отклика с помощью кодов JavaScript, но для google…

Измерения для оценки веб-поисковой системы
В настоящее время я разрабатываю небольшую поисковую систему в интернете, но не знаю, как ее оценить. Я понимаю, что поисковая система может быть оценена по ее точности и отзывчивости. В более…
Сделайте Google основной поисковой системой – Google
Your shiny new Windows 8 operating system has tiles and apps on a Start Screen, and it has the original desktop that looks like the Windows you’re used to.
To make Google your default search engine, you just need to switch from apps to the desktop.
Here two options to help you switch to the desktop:
The quick way: If you see a black bar at the bottom of the screen saying “The site www.google.com uses add-ons that require Internet Explorer on the desktop”, click the blue Open button to switch to desktop mode.
You can also get to the desktop manually. First, make the URL bar show by hovering at the bottom of the page, or by swiping from the bottom on a touch screen. Then click on the white wrench icon and select “View on Desktop.”

Now the button to make Google your search provider should work. Aww yeah.
Выберите первый вариант
Нажмите «Добавить»
Выберите первый вариант
Нажмите «Да»
Готово?
Войдите в аккаунт и пользуйтесь поиском.
Войти в Google
Выберите первый вариант
Нажмите «Добавить»
Готово?
Войдите в аккаунт и пользуйтесь поиском.
Войти в Google
Google Поиск установлен, но не сделан поиском по умолчанию. Чтобы сделать Google поиском по умолчанию, выполните следующие действия:
Нажмите на значок инструментов в правой верхней части окна браузера.
Выберите пункт Свойства обозревателя.
В разделе Поиск вкладки Общие нажмите Параметры.
Выберите Google.
Нажмите По умолчанию и Закрыть.
Шаг 1. Откройте «Свойства обозревателя»
Выберите Сервис в меню в верхней части окна браузера.
Затем выберите Свойства обозревателя.
Шаг 2. Сделайте Google стартовой страницей
In the top section called Home page, delete the highlighted text next to Address. Then type www.google.ru in that box.
Шаг 3. Сохраните изменения
Нажмите ОК, чтобы сохранить изменения.
Шаг 1. Откройте настройки браузера
Нажмите на значок настроек в правом верхнем углу и выберите Настройки.
Откроется новая вкладка.
Шаг 2. Сделайте Google поиском по умолчанию
В разделе «Поиск» в раскрывающемся меню выберите Google.
Шаг 3. Сделайте Google стартовой страницей
В разделе «Начальная группа» выберите «Следующие страницы:» и нажмите Добавить.
В появившееся поле введите www.google.ru. Нажмите ОК.
Закройте вкладку настроек. Изменения будут сохранены автоматически.
Подробнее…
Шаг 1. Откройте настройки браузера
Нажмите на значок настроек в правом верхнем углу и выберите Настройки.
Откроется новая вкладка.
Шаг 2. Сделайте Google поиском по умолчанию
В разделе «Поиск» в раскрывающемся меню выберите Google.
Шаг 3. Сделайте Google стартовой страницей
В разделе «Начальная группа» выберите «Следующие страницы:» и нажмите Добавить.
В появившееся поле введите www.google.ru. Нажмите ОК.
Закройте вкладку настроек. Изменения будут сохранены автоматически.
Подробнее…
Сделайте Google поиском по умолчанию
Нажмите стрелку вниз в левой части окна поиска.
Выберите Google в раскрывающемся меню.
Ещё: сделайте Google стартовой страницей
С помощью мыши перетащите значок Google синего цвета, показанный ниже, на значок домашней страницы, расположенный в правом верхнем углу вашего браузера.
Затем во всплывающем окне нажмите Да.
…или измените стартовую страницу вручную
Click on Firefox in the top left corner, then select Options, and then click on Options in the right menu.
Click on the General button in the top menu with the picture of a switch.
Next to When Firefox starts, open the drop down menu and select Show my home page.
Type www.google.ru in the Home Page box, and click OK to save.
Подробнее…
Шаг 1. Сделайте Google поиском по умолчанию
Нажмите стрелку вниз в левой части окна поиска.
Выберите Google в раскрывающемся меню.
Ещё: сделайте Google стартовой страницей
С помощью мыши перетащите значок Google синего цвета, показанный ниже, на значок домашней страницы, расположенный в правом верхнем углу вашего браузера.
Затем во всплывающем окне нажмите Да.
…или измените стартовую страницу вручную
Select Firefox from the menu bar, then click on Preferences.
Type www.google.ru in the Home Page box, and close the Preferences window to save.
Подробнее…
Шаг 1. Откройте настройки браузера
Нажмите Safari в меню Apple и выберите Настройки.
Шаг 2. Сделайте Google поиском по умолчанию
В раскрывающемся меню Основная поисковая машина выберите Google.
Шаг 3. Сделайте Google стартовой страницей
Next to New windows open with, open the drop down menu and select Homepage. Open the next drop down menu and select Homepage to see your homepage in new tabs.
Then type www.google.ru into the box next to Homepage.
Your changes are saved.
Подробнее…
Шаг 1. Откройте настройки браузера
Нажмите Opera в верхнем меню и выберите пункт Настройки, а затем Общие настройки.
Шаг 2. Измените настройки поиска
Нажмите кнопку Поиск в верхней части окна «Настройки».
Выберите из списка Google, а затем нажмите кнопку Изменить… справа.
Шаг 3. Сделайте Google поиском по умолчанию
Нажмите кнопку Подробнее и установите флажки Использовать как службу поиска по умолчанию и Использовать как поиск Экспресс-панели.
Нажмите кнопку ОК, а затем нажмите кнопку ОК в окне настроек, чтобы сохранить изменения.
Видите значок Google в правом верхнем углу? Получилось!
Измените настройки или параметры, чтобы сделать Google поиском по умолчанию
К сожалению, мы не можем определить браузер, чтобы показать нужные инструкции. Попробуйте нажать название вашего браузера в главном меню, а затем выбрать Предпочтения, Настройки или Параметры. Если в главном меню есть пункт Сервис, нажмите на него и выберите Свойства обозревателя.
Наш совет: загрузите Google Chrome, быстрый и бесплатный браузер. Google Chrome молниеносно открывает веб-страницы и приложения.
Теперь вы можете искать в Google, находясь на любом сайте.
Удобный доступ к Google Поиску
Удобный доступ к Google Поиску с любого сайта. Просто введите запрос в адресной строке.
Персональные подсказки
Войдите в аккаунт Google и получайте персональные подсказки на любых устройствах.
Нажмите Открыть, перейдите в режим рабочего стола и добавьте Google в настройках браузера.
Как изменить поисковую систему в браузере Опера
Все современные интернет-браузеры первого эшелона представляют собой гибкую настраиваемую систему из множества компонентов для веб-серфинга, работы с документами и мультимедийным контентом, и других задач узкой направленности. Чистый, только что установленный браузер можно сравнить с бруском пластилина, из которого предстоит собрать универсальный инструмент, отвечающий вашим требованиям. Одним из таких настраиваемых элементов в обозревателе является поисковая система, а точнее — строка поиска главного окна. В этой статье мы объясним не только, как изменить поисковую систему в Опере, но и ряд других связанных операций.
Инструкция
Сначала пойдет речь именно о ручной настройке сервиса для поиска в браузере на конкретном примере. А затем мы предложим вам актуальный способ по скрытию ключевых элементов Яндекса из Opera.
Случай №1: Настройка поисковой системы
Чтобы попасть на нужную страницу настроек, достаточно кликнуть ПКМ по адресной строке интернет-обозревателя и выбрать последний пункт.Здесь и проводятся основные манипуляции.
Например, можно сделать Яндекс или другой присутствующий сервис поиском по умолчанию в Опере. Для этого щелкните ЛКМ по значку с тремя вертикальными точками напротив его названия.А в отобразившемся контекстном меню выберите опцию «Установить по умолчанию».
Также пользователю доступно добавление поисковой системы Google в Оперу. Делается это следующим образом:
На открытой ранее странице настроек кликните ЛКМ на кнопку «Добавить».
В первую графу впишите удобное название, например, «Гугл» или Google. Оно ни на что в техническом плане не влияет.
Для второй графы придумайте какую-нибудь букву или слово (регистр влияет при вводе) – это нужно для быстрого вызова поисковика. Мы, к примеру, возьмем букву g.
В третью графу вставьте текст http://www.google.com/search?q=%s.
Нажмите на «Сохранить».
Теперь вы можете воспользоваться поисковиком Google:
Кликните ЛКМ по адресной строке.
Введите заданную ранее букву или слово во вторую графу и поставьте символ проблема.
Пропечатайте запрос для поиска.
Нажмите на самый верхний пункт в отобразившемся перечне или на кнопку Enter.
Случай №2: Удаление основных элементов Яндекса
Многие пользователи сталкиваются с тем, что вся главная страница веб-браузера забита различным контентом от данного поисковика. К счастью, его можно скрыть. Чтобы убрать Яндекс из Оперы, выполните следующие действия:
Сначала смените поисковик по умолчанию на любой другой, например, Google, по предложенной выше инструкции.
Откройте новую вкладку в обозревателе. Удобно это делать с помощью комбинации Ctrl + T.
Чуть пролистайте страницу до белого блока с жирной надписью «Будь в курсе!».
Щелкните ЛКМ на кнопку «Настройки».
Откроется раздел «Начальная страница» на странице параметров интернет-обозревателя.
На ней включите опцию «Скрыть поле поиска».
Далее, найдите пункт «Показывать новости…».
Либо полностью отключите его, либо активируйте режим «Новости Opera».
Далее, перейдите на страницу расширений. Для этого используйте сочетание клавиш Ctrl + Shift + E.
Удалите каждый плагин, связанный с Yandex. Наведите на него курсор мыши, щелкните ЛКМ по появившемуся крестику и подтвердите выполнение процедуры.
В конце перезапустите программу.
Поиск — Opera Help
Объединенная строка поиска и адресная строка
Объединенная строка поиска и адресная строка позволяет отправлять запросы в поисковые системы и вводить веб-адреса интересующих вас страниц в интернете.
Если вы не знаете адреса страницы или хотите увидеть результаты поисковиков, чтобы найти нужную информацию, пользуйтесь для поиска в интернете объединенной строкой. По умолчанию Opera отправляет запросы в поисковую систему.
Для поиска в Интернете выполните следующие действия:
Нажмите в поле Search or enter address (Введите запрос для поиска или веб-адрес).
Введите ключевые слова для информации, которую вы хотите найти. Например, введите фильмы.
Нажмите один из вариантов, предложенных системой предиктивного поиска, нажмите клавишуВвод.
Предложения системы предиктивного поиска появляются по мере ввода вами текста. Если вы хотите просмотреть результаты из другой поисковой системы, например, Yahoo!, Amazon или Bing, нажмите соответствующую вкладку в нижней правой части окна с вариантами, предлагаемыми системой предиктивного поиска.
Если вы знаете адрес нужной страницы, введите адрес прямо в объединенной адресной строке и строке поиска и нажмите клавишуEnter Ввод, чтобы перейти на эту страницу. Например, введите www.opera.com и нажмите клавишу Enter Ввод, чтобы перейти на домашнюю страницу Opera Software.
Изменение поисковой системы по умолчанию
По умолчанию Opera использует поисковую систему Yandex или Google, но вы также можете выбрать Yahoo!, DuckDuckGo, Amazon или Wikipedia. Чтобы изменить поисковую систему по умолчанию, выполните следующие действия:
Перейдите в Settings (Настройки) (Preferences (Настройки) на Mac).
Нажмите Basic (Основные) на боковой панели.
В разделе Search engine (Служба поиска) выберите из выпадающего меню предпочтительную поисковую систему.
Настройка других поисковых систем
Вы можете использовать не только поисковые системы Opera по умолчанию, но и настроить другие системы в объединенной адресной строке и строке поиска. Для этого выполните следующие действия:
Удерживая Ctrl,нажмите левой кнопкой мыши (Mac) или правой кнопкой мыши (Win/Lin) строку поиска сайта и выберите Edit Search Engine… (Редактировать поисковые системы…).
В разделе Other search engines (Другие поисковые системы) нажмите Add (Добавить).
Задайте имя и ключевое слово для поисковой системы.
Нажмите OK.
Чтобы посмотреть результаты в настроенной вами поисковой системе, нажмите новую вкладку в объединенной адресной строке и строке поиска в браузере Opera. Или введите установленное для вашей поисковой системы ключевое слово, затем пробел и поисковый запрос.
Редактировать ключевые слова, управлять поисковыми системами и удалять их можно со страницы настроек.
Перейдите в Settings (Настройки) (Preferences (Настройки) на Mac).
Нажмите Basic (Основные) на боковой панели.
В разделе Search engine (Служба поиска) нажмите кнопку Manage Search Engine (Управление поисковыми системами).
Всплывающее окно поиска
Всплывающее окно поиска – это небольшая панель инструментов Opera, которая позволяет вам искать, копировать или отправить в Мой Flow текст выделенный вами на веб-странице. Всего одним нажатием можно запустить поиск выделенного текста в новой вкладке с использованием поисковой системы по умолчанию. Вы также можете копировать текст в буфер обмена, чтобы использовать его позже.
Этот инструмент также конвертирует незнакомые валюты, единицы измерения и часовые пояса при их выделении в выбранные вами единицы. Если вы хотите знать, сколько будет $44.50 в евро, 2.05 метра в футах или какому времени соответствует 7:00pm MST в Центральной Европе, всплывающее окно поиска Opera подскажет вам нужные ответы. Подробнее о конверторах можно прочитать здесь.
Как пользоваться всплывающим окном поиска:
Выделите текст на странице.
Над выделенным текстом появится всплывающий текст, включающий доступные функции Search (Поиск) и Copy (Копировать) и Send to My Flow (Отправить в Мой Flow). Если выделена валюта, единица измерения или часовой пояс, во всплывающем окне будет отображено конвертированное значение.
Нажмите Search (Поиск) для запуска поиска выделенного текста с использованием поисковой системы по умолчанию.
Нажмите Copy (Копировать), чтобы копировать выделенный текст в буфер обмена.
Нажмите Send to My Flow (Отправить в Мой Flow) чтобы отправить сайт или нужные данные при помощи сервира Flow.
При наличии во всплывающем окне конвертированного значения нажмите на это значение, чтобы копировать его в буфер обмена.
Чтобы отключить всплывающее окно поиска и все его функции, выполните следующие действия:
Перейдите в Settings (Настройки) (Preferences (Настройки) на Mac).
Нажмите Browser (Браузер) на боковой панели.
В разделе User interface (Интерфейс пользователя) снимите флажок Enable search pop-up when selecting text (Включить всплывающее окно поиска при выборе текста).
Сделайте Google стартовой страницей – Google
Выберите первый вариант
Нажмите «Да»
Выберите первый вариант
Нажмите «Добавить»
Готово?
Войдите в аккаунт и пользуйтесь поиском.
Войти в Google
Выберите первый вариант
Нажмите «Да»
Готово?
Войдите в аккаунт и пользуйтесь поиском.
Войти в Google
Google Поиск установлен, но не сделан поиском по умолчанию. Чтобы сделать Google поиском по умолчанию, выполните следующие действия:
Нажмите на значок инструментов в правой верхней части окна браузера.
Выберите пункт Свойства обозревателя.
В разделе Поиск вкладки Общие нажмите Параметры.
Выберите Google.
Нажмите По умолчанию и Закрыть.
Шаг 1. Откройте «Свойства обозревателя»
Выберите Сервис в меню в верхней части окна браузера.
Затем выберите Свойства обозревателя.
Шаг 2. Сделайте Google стартовой страницей
В верхнем разделе Домашняя страница удалите текст в поле Адрес. Затем введите в этом поле www.google.ru.
Шаг 3. Сохраните изменения
Нажмите ОК, чтобы сохранить изменения.
Шаг 1. Откройте настройки браузера
Нажмите на значок настроек в правом верхнем углу и выберите Настройки.
Откроется новая вкладка.
Шаг 2. Сделайте Google стартовой страницей
В разделе Внешний вид установите флажок Показывать кнопку «Главная страница», а затем нажмите на ссылку Изменить синего цвета.
Удалите содержимое поля (about:blank или другой сайт). Введите в этом поле www.google.ru.
Чтобы сохранить изменения, нажмите ОК.
Шаг 3. Синхронизируйте настройки
Чтобы синхронизировать вкладки, закладки, приложения, темы и многое другое на всех устройствах, нажмите кнопку Войти в Chrome, расположенную вверху страницы Настройки.
Войдите в аккаунт Google, а затем нажмите Да, синхронизировать все или перейдите по ссылке Дополнительно, чтобы настроить параметры синхронизации.
Подробнее…
Шаг 1. Нажмите на значок настроек
Нажмите на значок настроек в правом верхнем углу окна браузера и выберите пункт Настройки. Откроется новая вкладка.
Шаг 2. Сделайте Google стартовой страницей
В разделе «Внешний вид» установите флажок Показывать кнопку «Главная страница».
Чтобы настроить стартовую страницу, нажмите Изменить.
Выберите Следующая страница: и введите в поле адрес www.google.ru. Нажмите ОК.
Шаг 3. Синхронизируйте настройки
Чтобы синхронизировать вкладки, закладки, приложения, темы и многое другое на всех устройствах, нажмите кнопку Войти в Chrome, расположенную вверху страницы Настройки.
Войдите в аккаунт Google, а затем нажмите Да, синхронизировать все или перейдите по ссылке Дополнительно, чтобы настроить параметры синхронизации.
Подробнее…
Вариант 1. Перетащите значок Google
Перетащите значок Google синего цвета, показанный ниже, на значок домашней страницы, расположенный в правом верхнем углу браузера.
Во всплывающем окне нажмите Да.
Вариант 2. Измените настройки вручную
В левом верхнем углу нажмите Firefox, выберите Настройки и нажмите Настройки в меню справа.
В верхнем меню нажмите кнопку Основные со значком выключателя.
В раскрывающемся меню При запуске Firefox выберите Показать домашнюю страницу.
В поле Домашняя страница введите www.google.ru и нажмите ОК, чтобы сохранить изменения.
Ещё: сделайте Google поиском по умолчанию
Нажмите стрелку вниз слева от окна поиска.
В раскрывающемся меню выберите Google.
Подробнее…
Вариант 1. Перетащите значок Google
С помощью мыши перетащите значок Google синего цвета, показанный ниже, на значок домашней страницы, расположенный в правом верхнем углу вашего браузера.
Затем во всплывающем окне нажмите Да.
Вариант 2. Измените настройки вручную
Выберите Firefox в строке меню, а затем нажмите Настройки.
Введите www.google.ru в поле Домашняя страница и закройте окно настроек, чтобы сохранить изменения.
Ещё: сделайте Google поиском по умолчанию
Нажмите стрелку вниз слева от окна поиска.
В раскрывающемся меню выберите Google.
Подробнее…
Шаг 1. Откройте настройки браузера
Нажмите Safari в строке меню Apple и выберите Настройки.
Шаг 2. Сделайте Google стартовой страницей
В раскрывающемся меню В новых окнах открывать выберите вариант Домашнюю страницу.
Также выберите вариант Домашнюю страницу в меню В новых вкладках открывать.
Введите www.google.ru в поле Домашняя страница.
Шаг 3. Сделайте Google поиском по умолчанию
Выберите Google в раскрывающемся меню Основная поисковая машина.
Изменения будут сохранены автоматически.
Подробнее…
Шаг 1. Откройте настройки браузера
Нажмите Opera в верхнем меню и выберите пункт Настройки, а затем Общие настройки.
Шаг 2. Сделайте Google стартовой страницей
В раскрывающемся меню При запуске выберите Начать с домашней страницы, чтобы страница Google открывалась при запуске браузера.
Затем введите www.google.ru в поле Домашняя.
Шаг 3. Сохраните изменения
Нажмите кнопку ОК, чтобы сохранить изменения.
Измените настройки или параметры, чтобы сделать Google стартовой страницей
К сожалению, мы не можем определить браузер, чтобы показать нужные инструкции. Попробуйте нажать название вашего браузера в главном меню, а затем выбрать Предпочтения, Настройки или Параметры. Если в верхнем меню есть пункт Сервис, нажмите на него и выберите Свойства обозревателя.
Наш совет: загрузите Google Chrome, быстрый и бесплатный браузер. Google Chrome молниеносно открывает веб-страницы и приложения.
Теперь вы готовы к поиску в Google, на каком бы сайте вы ни оказались.
Узнавайте о новых дудлах
Вспомните свои самые любимые дудлы – от картинок до инструментов и игр.
Мгновенно получайте ответы
Вы можете видеть результаты уже при вводе запроса и сразу менять условия поиска.
Мне повезёт!
Откройте для себя самые популярные поисковые запросы, известные произведения искусства, местные рестораны и многое другое.
Создание программируемой поисковой системы | Разработчики Google
Есть два способа создания программируемой поисковой системы:
Самый простой способ начать работу с программируемой поисковой системой — это создать базовую поисковую систему с помощью панели управления. Затем вы можете загрузить XML-файлы движка и изменить их, чтобы добавить дополнительные настройки. Поскольку вы экспериментируете и выясняете некоторые основные концепции, потратите всего пару минут на создание своей первой поисковой системы.Делайте это просто, чтобы вы могли следить за тем, что происходит, когда начнете его тестировать. Вы всегда можете изменить это позже.
Определение программируемой поисковой системы в панели управления
Для создания программируемой поисковой системы:
Войдите в панель управления, используя свою учетную запись Google (получите учетную запись, если у вас ее нет).
В разделе Сайты для поиска добавьте страницы, которые хотите включить в свою поисковую систему. Вы можете включать любые сайты, а не только те, которые принадлежат вам.Вы можете включить URL-адреса всего сайта или URL-адреса отдельных страниц. Вы также можете использовать шаблоны URL.
Имя вашей поисковой системы будет автоматически сгенерировано на основе выбранных вами URL. Вы можете изменить это имя в любой момент.
Выберите язык вашей поисковой системы. Это определяет язык кнопок и других элементов дизайна вашей поисковой системы, но не влияет на фактические результаты поиска.
Щелкните Создать .
Ваша основная поисковая система готова к использованию! Чтобы увидеть больше параметров конфигурации, перейдите в Панель управления.Панель управления также имеет окно предварительного просмотра, которое позволяет вам тестировать и настраивать результаты поиска.
Чтобы узнать больше о параметрах, доступных в панели управления, посетите Справочный центр программируемой поисковой системы. Чтобы добавить дополнительные параметры (например, фильтрацию или порядок результатов) и дополнительно настроить поисковую систему с помощью файлов конфигурации XML, см. Руководство разработчика.
Использование двигателя
После того, как вы определили свою поисковую систему, к ней можно будет получить доступ двумя способами:
Домашняя страница программируемой поисковой системы, размещенная в Google — вы можете найти общедоступный URL-адрес своего домашняя страница движка на вкладке Setup > Public URL section Панели управления и поделитесь им со своими пользователями.
Окно поиска на вашем веб-сайте. Если вы встроите окно поиска на свою веб-страницу, ваш пользователи могут выполнять поиск с вашего веб-сайта.
Далее …
Перейти к окну поиска.
Создадим поисковую систему
Как работает поисковая машина? Давайте узнаем —
, построив один!
Поисковые системы стали воротами в современный Интернет. Как часто вы точно знаете, какую страницу хотите, но все равно ищете ее, а не вводите URL-адрес в свой веб-браузер?
Как и у многих других великих машин, простой интерфейс поисковой системы — единое поле ввода — скрывает мир технических фокусов.Когда вы думаете об этом, есть несколько серьезных проблем, которые необходимо преодолеть. Как собрать все действующие URL-адреса? Как угадать, чего хочет пользователь, и вернуть только соответствующие страницы в разумном порядке? И как сделать это на 130 триллионов страниц быстрее, чем время реакции человека?
Я буду немного ближе к пониманию этих проблем, когда создам для себя поисковую систему. Я буду использовать только Python (даже для пользовательского интерфейса), и мой код будет достаточно простым, чтобы его можно было включить в этот пост в блоге.
Вы можете скопировать окончательную версию, опробовать ее и самостоятельно создать на ее основе:
Здесь будет три части.
Во-первых, я собираюсь создать базовую поисковую систему, которая загружает страницы и соответствует вашим поисковый запрос по их содержанию. (Это этот пост)
Затем я собираюсь внедрить алгоритм Google PageRank, чтобы улучшить результаты. (См. Часть 2)
Наконец, я поиграю с одним из мощных инструментов информатики — индексированием — чтобы ускорить поиск и повысить рейтинг. даже лучше.(См. Часть 3)
Сбор URL-адресов
Давайте начнем создавать машину, которая может загружать всю сеть.
Я собираюсь создать веб-сканер, который итеративно прокладывает себе путь через Интернет, например:
Начать с известного URL
Скачать страницу
Запишите все URL-адреса, которые он содержит.
GOTO 1 (для новых URL-адресов, которые я нашел)
Для начала мне нужен известный URL. Я разрешаю веб-мастерам и другим добропорядочным гражданам отправлять URL-адреса, о которых они знают.Я буду хранить их в базе данных (я использую таблицы данных Anvil), и если я уже знаю URL, я не буду хранить его дважды.
@ anvil.server.callable def submit_url (url): url = url.rstrip ('/') # URL с косой чертой и без нее эквивалентны если не app_tables.urls.get (url = url): app_tables.urls.add_row (url = url)
Я также сделал возможным отправлять карты сайта, которые содержат списки многих URL-адресов (см. Наш учебник по фоновым задачам для более подробной информации.) Я использую BeautifulSoup для синтаксического анализа XML.
из BS4 импорт BeautifulSoup @ anvil.server.callable def submit_sitemap (sitemap_url): response = anvil.http.request (sitemap_url) soup = BeautifulSoup (response.get_bytes ()) для loc в soup.find_all ('loc'): submit_url (loc.string)
Если я отправлю карту сайта Anvil, моя таблица будет заполнена URL-адресами:
Я нахожусь в хорошей компании, позволяя людям отправлять URL-адреса и карты сайта для сканирования — это делает Google Search Console. Это один из способов избежать того, чтобы мой поисковый робот застрял в локальной части сети, которая не связана ни с чем другим.
Беззастенчиво воруя из Google Search Console, я создал консоль для веб-мастеров с кнопками «отправить», которые вызовите мои функции submit_url и submit_sitemap :
def button_sitemap_submit_click (self, ** event_args): "" "Этот метод вызывается при нажатии кнопки" "" self.label_sitemap_requested.visible = Ложь anvil.server.call ('submit_sitemap', self.text_box_sitemap.text) self.label_sitemap_requested.visible = Истина def button_url_submit_click (self, ** event_args): "" "Этот метод вызывается при нажатии кнопки" "" себя.label_url_requested.visible = Ложь anvil.server.call ('submit_url', self.text_box_url.text) self.label_url_requested.visible = True
Ползание
Теперь, когда я знаю некоторые URL-адреса, я могу загрузить страницы, на которые они указывают. Я создам фоновую задачу, которая будет перебирать мой список URL обращений:
@ anvil.server.background_task def crawl (): для URL-адреса в app_tables.urls.search (): # Получить страницу пытаться: response = anvil.http.request (url) html = ответ.get_bytes (). декодировать ('utf-8') Кроме: # Если выборка не удалась, просто попробуйте другие URL Продолжить row = app_tables.pages.get (url = url) или app_tables.pages.add_row (url = url) row ['html'] = html
Поскольку это фоновая задача, я могу запустить сканер и загрузить все известные мне страницы в фоновом режиме. без блокировки взаимодействия пользователя с моим веб-приложением.
Это все хорошо, но еще не просканирует . У веб-краулера главное преимущество — это то, как он следует по ссылкам между страницами.Сеть представляет собой ориентированный граф — другими словами, он состоит из страниц с односторонними ссылками между ними. Вот почему это такое замечательное хранилище информации — если вас интересует тематика одной страницы, вас, скорее всего, заинтересует тематика страниц, на которые она ссылается. Если вы когда-нибудь просыпались до рассвета в тисках сафари в Википедии, вы поймете, о чем я говорю.
Итак, мне нужно найти URL-адреса на страницах, которые я загружаю, и добавить их в свой список. BeautifulSoup, великолепный синтаксический анализатор HTML / XML, снова помогает мне в этом.
Я также записываю, какие URL-адреса я нашел на каждой странице — это пригодится, когда я использую PageRank.
из BS4 импорт BeautifulSoup soup = BeautifulSoup (HTML) # Разбираем URL-адреса для a в soup.find_all ('a', href = True): submit_url (a ['href']) # Запишите URL-адреса для этой страницы страница ['forward_links'] + = a ['href']
Пока я занимаюсь этим, я беру название страницы, чтобы сделать результаты поиска более удобочитаемыми:
# Разбираем заголовок со страницы title = str (суп.find ('title'). string) или 'No Title'
Сканер стал больше похож на классического осла, преследующего морковку: чем дальше он спускается по списку URL-адресов, чем больше URL-адресов он найдет, тем больше работы ему придется проделать. Я визуализировал это, построив длину списка URL-адресов. наряду с количеством обработанных URL-адресов.
Сначала список растет, но поисковый робот в конечном итоге находит все URL-адреса. и линии сходятся. Он сходится, потому что я ограничил его https://anvil.works (я не хотите случайно отказать в обслуживании чьему-либо сайту.) Если бы он сканировал открытую сеть, я бы представил строки будет расходиться навсегда — страницы, вероятно, добавляются быстрее, чем мой сканер может их сканировать.
К тому времени, когда он закончится, в таблице страниц меня ждет хороший урожай данных о страницах.
Осуществляем поиск
Пора заняться поиском. Я собрал классический пользовательский интерфейс «поле ввода и кнопка» с помощью редактора перетаскивания. Также есть таблица данных для перечисления результатов, которая дает мне бесплатную разбивку на страницы.Каждый результат будет содержать заголовок страницы и ссылку.
Самый простой алгоритм поиска просто разбивает запрос на слова и возвращает страницы, содержащие любое из этих слов. Это совершенно бесполезно, и я сразу могу поправиться.
Я удалю слишком распространенные слова. Допустим, пользователь вводит «как создать веб-приложение». Если страница содержит в точности текст «как создать веб-приложение», он будет возвращен. Но они также получали страницы с текстом «как кормить ягненка».
Я уберу такие слова, как «как» и «к». На жаргоне они называются стоп-словами.
Я добавлю , чтобы включить слов, которые тесно связаны со словами в запросе. Поиск по запросу «как создать веб-приложение» вероятно, должен возвращать страницы со словом «построитель приложений», даже если ни одно из этих слов точно не входит в запрос.
На жаргоне это называется стеммингом.
Оба эти требования удовлетворяет оператор Anvil full_text_match , поэтому я могу сразу же запустить эффективный поиск:
# На сервере: @anvil.server.callable def basic_search (запрос): вернуть app_tables.pages.search (html = q.full_text_match (query))
# На клиенте: def button_search_click (self, ** event_args): "" "Этот метод вызывается при нажатии кнопки" "" self.repeating_panel_1.items = anvil.server.call ('basic_search', self.text_box_query.text)
Позже мы поговорим об индексировании и токенизации, которые дойдут до основ оптимизации поиска. Но пока у меня есть работающая поисковая машина.Попробуем несколько запросов.
Тестовые запросы
Для каждого этапа разработки я собираюсь запустить три запроса, чтобы увидеть, как улучшаются результаты по мере повышения моего рейтинга. система. Каждый запрос выбирается, чтобы отразить другой тип поисковой задачи.
Я посмотрю только на первую страницу из десяти результатов. Никто никогда не просматривает первую страницу!
(Если вам интересно, почему все результаты получены с одного и того же сайта, имейте в виду, что я ограничил свой поисковый робот https: // anvil.работает чтобы мой IP-адрес не был вполне законно заблокирован анти-DoS программным обеспечением, и чтобы мой тестовый набор данных оставался в управляемом размере.)
«Сюжеты»
«Графики» — довольно общее слово, которое можно ожидать повсюду в технических письмах. Соревнование состоит в том, чтобы возвращать страницы, которые специально посвящены графику, а не те, которые просто используют это слово мимоходом.
Когда я ищу «участки», я получаю следующее:
Первый результат — использование Matplotlib с Anvil, что определенно актуально.Тогда есть справочные документы, в которых есть раздел о компоненте Plot. И результат номер девять исходное объявление, относящееся к тому моменту, когда мы сделали Plotly доступным в клиентском коде Python.
Но здесь также много довольно общих страниц. Они, вероятно, упоминают слово «заговор» один или два раза, но они не совсем то, что я ищу, когда ищу «сюжеты».
«Восходящий канал»
«Аплинк» отличается от «участков», поскольку маловероятно, что он будет использован случайно.Это название конкретной особенности наковальни. и это не очень распространенное слово в обычном использовании. Если это страница, то она почти наверняка Говоря о восходящем канале наковальни.
Если вы не знакомы с этим, Uplink позволяет вам anvil.server.call вызывать функции в любой среде Python за пределами Anvil. Так что я ожидал, что руководство «Использование кода вне наковальни» окажется на вершине списка результатов. Он появляется на четвертой позиции.
Я также получаю аварийные люки и выталкивающие сиденья, в которых восходящий канал упоминается как один из мест наковальни. «Спасательные люки».И под номером 10 у нас есть панель дистанционного управления, которая использует восходящий канал для запуска набора тестов на удаленная машина.
Хорошо, что появились все три из них, но было бы лучше, если бы они занимали более высокий рейтинг. Остальные результаты, вероятно, как-то говорят о восходящем канале, но восходящий канал не является их основной темой.
«Создайте приборную панель на Python»
Это включено как пример запроса, состоящего из нескольких слов. Я ожидал, что поисковой системе будет сложнее справиться с этим, поскольку слова «build» и «Python» будут часто использоваться на сайте Anvil, но пользователь, вводящий их, будет особенно интересовался приборной панелью Python .
Я ожидал увидеть здесь две страницы: создание бизнес-панели на Python и панель мониторинга Python. цех. Ни то, ни другое не отображается в результатах.
Некоторые страницы косвенно связаны с построением приборной панели, но в целом сигнал, похоже, был подавлен шумом, создаваемым словами «build» и «Python».
Итак, как это произошло?
Базовая поисковая система, которую я собрал, действительно позволяет получать релевантные результаты по запросам из одного слова.Пользователь Чтобы найти то, что они ищут, нужно просмотреть несколько первых результатов, но основные интересующие страницы где-то уже есть.
Его путают запросы, состоящие из нескольких слов. Он не может очень хорошо отличить слова, которые имеют значение, от тех, которые не имеют значения. Anvil full_text_match удаляет такие слова, как «a» и «in», но, очевидно, не угадает, что «build» менее важно. чем «приборная панель» в данной конкретной ситуации.
Следующие шаги
Я собираюсь внести два улучшения, чтобы попытаться решить эти проблемы.Во-первых, я постараюсь составить более интересный рейтинг. страницы повыше. У Google есть алгоритм под названием PageRank, который оценивает важность каждой страницы, и я всегда хотел узнать, как это работает, так что сейчас, наверное, хорошее время! Я исследую это и реализую в следующем посте.
Во-вторых, я учту, сколько раз каждое слово появляется на странице. Это поможет с «построением панель инструментов в запросе Python », потому что страницы, на которых случайно упоминается слово« строительство », сделают это один или два раза, тогда как страницы о строительных панелях мониторинга будут часто использовать эти слова.Это дает мне повод изучить два простых но мощные концепции из информатики — токенизация и индексирование, которые я реализовал в последнем посте.
Итак, я копаюсь в PageRank Google. Это на удивление просто; можно даже сказать, что это «Красиво элегантно». Прочтите об этом:
Или зарегистрируйтесь бесплатно и откройте приложение нашей поисковой системы в редакторе Anvil:
Создание собственной поисковой системы: 7 вещей, которые нужно знать перед запуском
Итак, вы хотите создать свою собственную поисковую систему.Мы бы хотели избавить вас от неприятностей. И это беда, как вы, несомненно, знаете.
Конечно, можно сделать самодельный проект поисковой системы. Существуют мощные стартовые комплекты — например, Solr. Вы можете создать хорошую поисковую систему с помощью Solr, если у вас есть нужные люди, достаточно времени и денег.
Да, и терпимость к риску и упущенным возможностям. Создание собственного поиска по сайту требует времени, а это означает, что вы, вероятно, теряете доход, когда проектируете, создаете и настраиваете свою поисковую систему.
По мере того, как вы работаете над ошибками и по мере того, как система, которую вы создали, вероятно, будет некачественным, что означает неудовлетворенных клиентов и необходимость вернуть их обратно, как только ваша поисковая система заработает на приемлемом уровне. уровень.
Вкратце, 7 вещей, которые вам нужно знать , прежде чем создавать свою собственную поисковую систему:
Создание мозга поисковой системы вручную требует времени
Можно подумать о создании собственной поисковой системы по сайту, подумав о том, что вы получаете с Solr из коробки.Конечно, его можно масштабировать прямо с полки. Это также проверенный исполнитель.
Но подумайте о поиске и о том, что нужно для получения релевантных и персонализированных результатов вплоть до однозначного. Для достижения оптимального уровня качества обслуживания клиентов требуется:
Вы знаете, что вы не найдете на дне вашей большой новой коробки Solr? Сложные алгоритмы, огромные объемы данных и инфраструктура, необходимые для создания мощной поисковой системы по сайту.
Фактически, разработка алгоритмов, сбор данных и проектирование системы для их эффективного использования с целью предвидения намерений потребителей цифровых услуг — вот что ставит «делай» в поисковую систему Solr для самостоятельной работы.
Solr сам по себе не оптимизирован для ранжирования по доходу. Он не может ранжироваться с использованием персонализации, основанной на намерениях, поведении и симпатиях клиентов. Он не предназначен для предоставления дополнительных сведений, помимо поиска по сайту. Он не содержит данных о продуктах, синонимах и намерениях покупателя. Он не может извлекать контент. Фактически, будет справедливо сказать, что готовый к использованию Solr предоставит вам около 20% пути туда, где вам нужно быть, чтобы правильно выполнять поиск.
Если вы хотите, чтобы поисковая система по сайту Solr выполняла все необходимые функции — ранжирование по доходу, персонализацию, достижение семантического понимания, понимание поведения пользователей — вам нужно указать ей, как это сделать.Вам нужно построить мозг двигателя. Или, что более вероятно, команде людей нужно построить мозг двигателя.
И это с алгоритмами. Создание мозга поисковой системы вручную требует времени. Много времени — много строить, пробовать и тестировать.
Создание поисковой системы вручную может быстро исчерпать все ваши ресурсы
Возьмем, к примеру, синонимы. Очевидно, что надежный тезаурус синонимов является ключом к поиску по сайту. Когда потребитель набирает «малиновое, до колен, спандекс, праздничное платье» в поле поиска по сайту, системе необходимо знать, что для этого человека бандажное платье Herve Leger с тонкими бретельками и кожаным ремнем безопасности с ремешками является одним из продукты, которые могут быть очень интересны покупателю.
Фактически, когда мы попросили потребителей описать то самое платье Herve Leger, 500 человек придумали ошеломляющую серию комбинаций, которые включали 129 слов, обозначающих «красный», 275 различных описаний пояса, 105 описаний длины и 216 слов, чтобы назвать случай, когда нужно надеть платье.
И вы знаете, как поисковая система Solr знает это? Вы это скажите. Или команда людей, которых вы нанимаете, обучает машину тому, что «глубокий румянец» может означать красный, а «корсетный пояс» может означать кожаный ремень с ремешками.
Неважно, что людям не хватает часов в сутках, чтобы придумывать сотни вариантов полдюжины или около того слов, которые потребители могут использовать для описания платья — разве вы не предпочли бы, чтобы они делали что-то лучше со своим временем ?
Так и думал.
Персонализированные результаты поиска — ключ к успеху
Solr — это впечатляющая масштабируемая платформа для поиска по сайту — насколько это возможно. Проблема с его использованием в качестве основы для поисковой системы по сайту, которую можно сделать своими руками, заключается в том, что он не заходит достаточно далеко.
В частности, Solr «из коробки» не включает алгоритмы, данные и инфраструктуру, необходимые для создания того типа поиска, который востребован сегодня потребителями. Современные потребители цифровых технологий хотят получать персонализированные и релевантные результаты поиска. Они ожидают, что на каждом сайте будет работать Google: введите то, что вы ищете, используя свои собственные слова, чтобы описать то, что можно описать миллионами различных способов, и готово — именно то, что вы искали.
А теперь давайте взглянем на данные, которые необходимы лучшей в своем классе поисковой системе, чтобы обеспечить такое обслуживание клиентов, которого ожидают потребители.
В более раннем отчете Интернет-магазина было обнаружено, что проблема номер один, с которой сталкивается текущий поиск по сайту, заключалась в том, что «клиенты часто видят нерелевантные результаты или результаты в неправильном порядке», а «Персонализированные результаты» указывались в качестве основной функции, необходимой в современном поисковом решении.

Чтобы предоставить каждому отдельному пользователю персонализированные и релевантные результаты, поисковой системе необходимо понимать намерения пользователя, данные о продукте и поведение пользователя. Лучшие поисковые системы приходят к этому пониманию путем постоянного обучения на основе данных в каждой из этих трех категорий.
Поисковая система должна понимать синонимы, потому что потребители используют разные слова для описания одного и того же, и они часто используют слова, которые отличаются от описаний продуктов розничных продавцов. Например, обувь может быть «ботинками с низким вырезом» или «кроссовками с высоким берцем».
Механизм должен знать, что основы слов могут иметь всевозможные присоединения — «ing», «ed», «s» — которые могут резко изменить их значения или нет. Например, «постельное белье» — это не два «полотна». По сути, белье — это продукт, а белье — атрибут продукта.Он также должен понимать все способы поиска ваших клиентов, включая числовой поиск.
А как насчет сокращений, сленга, орфографических ошибок и слов, определения которых зависят от контекста? Вы ищете «платье», «классическую рубашку» или «платье-рубашку», которое также пишется как «платье-рубашка»?
Это подводит нас к важности данных о продуктах. В готовом виде Solr не особо разбирается в брендах, цветах и размерах. Когда покупатель ищет «красное платье валентино», является ли красный цвет? Валентино — это стиль? Или Red Valentino — это бренд?
Это имеет значение.
И, учитывая ценовой диапазон продуктов Red Valentino, вы хотите, чтобы ваша поисковая система знала, что это бренд.
Вот почему. По данным Econsultancy, потребители, использующие поиск по сайту, особенно те, которые ищут Red Valentino, являются одними из самых ценных клиентов предприятия. Но они не останутся без дела, если будут разочарованы плохим поиском по сайту, — говорится в отчете RealDecoy «Endeca против Bloomreach: вывод поиска по сайту на новый уровень».
В отчете цитируется исследование Forrester, которое показало, что 90 процентов посетителей сайта не читают результаты после первой страницы, и что поисковики часто просто сдаются, если их разочаровывают плохие результаты.
Прочтите следующее: Отчет 2019 по персонализации в Интернете в электронной коммерции
Вам нужен самообучающийся поиск по сайту
Даже если поисковая система по сайту задействует данные о намерениях пользователей и данные о продуктах, вы все равно не приблизитесь, если только ваша поисковая система не будет обрабатывать поведенческие данные, которые позволяют получить представление об эффективности продукта и персонализации опыта.
Знание того, как посетители взаимодействуют с вашим сайтом, имеет решающее значение для понимания того, как им лучше всего обслуживать.Они просматривают или используют поиск по сайту? Как они вообще попали на ваш сайт? Какие поисковые запросы они используют? На какие продукты они смотрят? Какие еще продукты они просматривают во время этого сеанса? Что они добавляют в свои тележки? Что они покупают?
Ответы на эти вопросы создают массу информации, например:
Самые популярные запросы — на вашем сайте, в Интернете, на мобильных устройствах и в социальных сетях.
Самые популярные товары, снова с разбивкой по каналам.
Эффективность каждого отдельного продукта на ваших цифровых ресурсах.
Способ, которым продукт выполняет данный запрос.
Список похожих друг на друга товаров. Это помогает сайту предоставлять рекомендации, в том числе продукты, которые слишком новы для того, чтобы иметь цифровую репутацию.
Товары, популярные в определенных категориях.
Наиболее часто переписываемые запросы.
Самые популярные ссылки на сайте.
Без возможности собирать и обрабатывать данные, которые предоставляют такую подробную информацию, ваша поисковая система не сможет постоянно учиться и постоянно улучшаться. Признайтесь, никому не нужна тупая поисковая машина.
Прочтите следующее: Как Watsco стала персональной и превратила поиск по сайту в механизм получения доходов, управляемый искусственным интеллектом [История успеха]
Улучшенный поиск по сайту требует улучшенной инфраструктуры
В некотором смысле в этом блоге мы немного жестко высказались по поводу Solr, говоря о том, что лучше: создать или купить, когда дело доходит до преобразования поиска по вашему сайту в современную цифровую эпоху.
Solr никогда не задумывался как поисковая машина по сайту — по крайней мере, без большой работы и ряда дополнительных модулей. В чем, если задуматься, как раз и является суть первой и второй частей этой серии.
Понимаете, поисковая машина по сайту живет не только с помощью Solr.
Ранее мы говорили о необходимости добавления алгоритмов и данных в ваш новый готовый Solr. Еще один важный элемент в создании поисковой системы по сайту, которая будет радовать ваших клиентов и возвращать их.
Ладно, это не самая сексуальная вещь на свете. Но это жизненно важно, если ваша система Solr будет успешной. Solr — это поисковый сервер. Таким образом, это ключевая часть поисковой системы с упором на отдельные части.
Подумайте о Solr в готовом виде как об элегантном и красиво оформленном доме — без основных систем и завершающих штрихов. В доме нужны комнаты — кухня, санузлы, спальни. Может быть, вы из учебы, винного погреба или домашнего кинотеатра. Если да, то они ему тоже понадобятся.
Если отбросить ваш уровень роскоши, то дело в том, что точно так же, как в этом сказочно оформленном доме нужны комнаты, так и для готового Solr требуются модули.
Корпоративный поиск требует гораздо большего, чем предлагает только Solr. Solr сам по себе не является системой управления кластером. Это не система управления конфигурацией. Он не обеспечивает базовой релевантности «из коробки».
Прочтите следующее: Как Torrid помогает клиентам находить то, что им нужно, с помощью самообучающегося поиска по сайту [История успеха]
Solr не поставляется с аналитикой мерчандайзинга
Solr не предоставляет интерфейс для увеличения и уменьшения количества продуктов — меры, которые предпринимают мерчандайзеры, полагаясь на свои знания, опыт и интуицию.В Solr нет аналитики по мерчандайзингу.
Все эти функции необходимо спроектировать и создать. В случае создания собственного Solr вам потребуются эксперты, разбирающиеся в инфраструктуре — эксперты, которые понимают, что Solr требует значительного управления для масштабирования.
Прочтите следующее: Как сделать покупки более удобными с помощью поиска по сайту и мерчендайзинга [блог]
Вам нужна команда инженеров для создания модулей для перемещения, хранения и обработки всех данных, о которых мы говорили ранее.
Один из способов подумать о необходимых модулях — это разбить их функции на три основные области:
Data Science: Поисковая система по сайту не может учиться, не полагаясь на аналитику. Поисковые системы полагаются на данные и модели поведения пользователей. Когда пользователи ищут «обувь», действительно ли они ищут сандалии или, может быть, туфли?
Движку требуются модели обработки естественного языка, чтобы он мог понять бизнес, в котором находится сайт, и понять поток продуктов, с которыми он работает.Помимо Solr, требуется ряд машин для хранения и обработки всей этой, казалось бы, случайной, но жизненно важной информации.
Чтобы понять намерения пользователей и создать сайт, который может реагировать на это намерение, требуется способ фиксировать активность посетителей в реальном времени. И никакие данные бесполезны, если нет эффективного способа загрузить их в систему, чтобы система могла учиться на них.
Команды мерчандайзинга нуждаются в инструментах для действий
Мерчандайзинг: Команды, ответственные за продвижение конверсий на цифровом сайте, нуждаются в инструментах для претворения своих стратегий в жизнь.Им нужна система для написания динамических бизнес-правил, которые они могут быстро изменить при необходимости. Им нужны тестовые платформы, которые помогут им определить, правильны ли их шаги. Им нужны диагностические инструменты для мониторинга производительности сайта и определения основной причины проблем и тенденций
Системы
должны быть созданы для управления колебаниями посещаемости сайта. Представьте себе сайт электронной коммерции во время сезона праздничных покупок. Инфраструктура, поддерживающая цифровые сайты, должна иметь возможность быстро масштабироваться и уменьшаться, когда дополнительная емкость больше не требуется.
Inventory: Solr сама по себе нуждается в ETL — системе извлечения, преобразования и загрузки — для сбора данных, скажем, из каталога розничного продавца, и ввода их в поисковую систему в процессе, называемом загрузкой каналов. Также потребуется масштабируемая система хранения данных, способная справляться с постоянно меняющимися потоками данных из-за постоянно меняющихся каталогов.
Это должна быть распределенная система, которая может автоматически обрабатывать потребности динамичного рынка, на котором, например, розничный торговец может внезапно обнаружить, что ему нужно утроить размер своего каталога в одночасье.
Поисковой системе по сайту также нужна система индексирования, которая может работать на максимальной скорости. Природа коммерции сегодня означает, что детали продукта — например, цены и сами запасы — постоянно меняются. Чтобы не отставать от потребителей и конкурентов, сайт должен иметь возможность быстро реагировать на изменение запасов, чтобы оставаться актуальным.
Создать такую систему можно, но это непростая задача. По нашим расчетам, среднему и крупному ритейлеру для создания собственной высококачественной поисковой системы на основе Solr потребуется от 30 до 40 инженеров в течение двух лет.
Конечно, это требует огромных затрат времени и денег. Но это также представляет собой огромную альтернативную стоимость. Пока продолжается работа по созданию качественной поисковой системы, клиенты компании страдают от некачественного поиска. И поисковая система не может полностью учиться на взаимодействиях с клиентами, пока она не будет запущена.
Ничего из этого нетривиального. По данным eConsultancy, до 30 процентов потребителей используют поиск по сайту.И эти потребители входят в число самых ценных клиентов предприятия, учитывая их более высокую склонность к конверсии. С другой стороны, клиенты, которые не получают результатов по поисковым запросам, в три раза чаще покидают сайт, чем другие.
Неудивительно, что группы, ответственные за продажу продуктов и предоставление контента в Интернете, мучаются из-за серьезных изменений в поиске по сайту — и особенно из-за решения строить или покупать, когда приходит время капитального ремонта.
Прочтите следующее: Disney: творческое использование данных для более эффективного мерчандайзинга [блог]
Как создать программное обеспечение поисковой системы для вашего бизнеса?
Шаг 4.Определение структуры индекса
При создании программного обеспечения поисковой системы вы должны определить структуру индекса. Несмотря на то, что это своего рода база данных, важно помнить, что это не основное хранилище данных и не реляционная база данных. Структура индекса должна быть организована таким образом, чтобы это было удобно для поиска. Хранящиеся там данные также должны быть единственными, необходимыми для поиска.
Шаг 5. Настройка обновления данных
Важно отправлять обновленную информацию из базы данных в поисковую систему.Некоторые движки получают эту информацию непосредственно из базы данных, тогда как в других случаях вам нужно добавить специальный код, который выполняет эту задачу. Поисковая система более эффективна, когда обновления редки. Итак, если в минуту выполняется несколько десятков запросов, лучше установить обновление индекса раз в несколько минут. Это позволит отправлять множество обновлений вместе.
Разработчики, работающие с Elastic и использующие Python, могут использовать службу Github и Celery для планирования обновления индекса.
Шаг 6.Начните делать запросы
На этом этапе ваша поисковая система работает нормально и может не потребовать дополнительной работы. Таким образом, вы можете начать делать запросы.
Вы можете использовать различные алгоритмы ранжирования, которые применяют данные о частоте употребления слова в текстах, и система знает, что, например, основным словом в запросе «кардиологические услуги» является кардиология. Вы можете использовать различные алгоритмы ранжирования, которые применяют данные о частоте слов в текстах. Итак, во фразе «кардиологические услуги» движок может выделить слово «кардиология» как основное.Следовательно, результаты, соответствующие обоим словам, идут первыми. Затем будут те, которые соответствуют «кардиологии», а другие — «услугам».
При работе с Elastic мы предпочитаем Elastic DSL. Причин несколько:
Может автоматически строить индекс, что очень удобно на этапе прототипирования.
Его api на основе http удобен для пользователя и позволяет кодировать на любом языке программирования.
Доступно множество инструментов, таких как Kibana и Logstash.
Amazon предлагает Elastic как услугу, которая упрощает запуск и администрирование поисковой системы.
На этом заканчивается первый этап создания дизайна поисковой системы и начинается второй.
Второй этап
На этом этапе рассматриваются другие процессы, которые помогают повысить эффективность вашей поисковой системы.
Шаг 7. Назначьте ответственного за сбор данных
Прежде всего, вам необходимо нанять специалиста, специализирующегося на базах данных.Несмотря на то, что настройка поиска является технической задачей, технический специалист может не понять, какие данные нужны пользователям и почему. Это когда приходит на помощь специалист по данным.
Шаг 8. Просмотр истории поиска пользователей
Важно выяснить, подходят ли результаты вашей поисковой системы для определенных запросов. Это можно сделать, проверив историю поиска пользователей, выбрав десять самых популярных запросов по популярности и позволив эксперту проверить их актуальность.
Шаг 9. Сформулируйте, какие документы ожидаются в результате
Затем вы должны сформулировать, какие документы необходимы в результате. Это когда вам нужно подумать о том, как вы, как человек, будете обрабатывать такие запросы. Например, вы работаете над научными статьями и в результате можете получить следующее:
Совпадения в названии статьи важнее совпадений в тексте.
Совпадения в тексте важнее совпадений в ссылках.
Соответствие имени автора важнее совпадения в тексте и в списке цитат.
Имя и фамилию следует искать вместе, а не по отдельности.
Слово «вакцина» обычно пишется с ошибкой как «вакцина», и этот запрос также необходимо обработать.
Шаг 10. Определите источник проблем
Последний шаг — выяснить, почему возникают проблемы, если они есть. Может оказаться полезным чтение информации о том, как построен поисковый движок и о методах устранения неполадок.Иногда вам может потребоваться изменить основные принципы, чтобы найти проблему. Однако рано или поздно возникнут проблемы, требующие режима отладки и детального анализа.
В зависимости от правил вашей поисковой системы вам могут потребоваться различные способы исправления запроса, которые всегда будут интерактивными. Итак, определите проблемы, разберитесь с ними и постарайтесь получить удовольствие от процесса.
Если вы работаете с Elastic, есть несколько советов, которые помогут вам создать программное обеспечение для поисковой системы для вашего бизнеса:
Прочтите обо всех анализаторах. Обычно используются только два или три из них, но вам нужно знать о других.
Понять, как работают составные запросы, особенно запрос Bool. Вы можете найти больше информации об этом здесь.
Используйте соответствующие веса и бонусы. Есть отличная книга Дуга Тернбулла и Джона Берримана «Соответствующий поиск с приложениями для Solr и Elasticsearch», которая может оказаться полезной.
Сколько стоит разработка поисковой системы в 2021 году
Сегодня мы затронем еще одну интересную тему: как построить поисковую систему и сколько это стоит? В Azati мы разрабатываем и поставляем коммерческие поисковые системы.Эти движки полностью отличаются от обычных, таких как Google, Yahoo, Bing, Baidu и других. Многие факты о коммерческих поисковых машинах неочевидны и их довольно сложно понять без диплома специалиста по информатике.
В этой статье мы собираемся дать точную информацию о типах коммерческих поисковых систем и о том, сколько стоит их создать.
Опишем несколько основных аспектов, влияющих на конечную цену:
— Типы поисковых систем и чем они отличаются
— Вам не стоит беспокоиться о стоимости разработки
— Средние затраты на разработку поисковых систем
Заинтересованы? Прочтите, чтобы узнать подробности!
КАК ПОИСКОВЫЕ ДВИГАТЕЛИ ОТЛИЧАЮТ ОДИН ОТ ДРУГОГО
Вы не удивитесь, обнаружив, что поисковые системы сегодня похожи на те, что были в 1990-х годах.Фактически, существует робот-паук, который сканирует веб-страницы и оценивает контент по нескольким факторам, таким как ключевые слова, плотность ключевых слов, метатеги, изображения, время загрузки страницы и так далее. Есть десятки различных факторов, которые действительно определяют качество страницы. Кстати, поисковому роботу Google (или роботу Google) требуется 20 секунд, чтобы обработать всю страницу.
Как работают современные поисковые системы (упрощенно)
Коммерческие поисковые системы отличаются от общедоступных (Google, Yahoo, Bing и другие).Конечно, их сканеры каким-то образом ранжируют контент, но весь процесс немного сложнее. Коммерческие поисковые системы имеют дело с обширной и сложной обработкой данных. Их алгоритмы поиска по-прежнему ищут шаблоны, которые могут описать единицу данных, но они делают это по-другому.
Как указывалось ранее, мы разработали и оптимизировали несколько поисковых систем, и мы можем объяснить, как обрабатываются данные. Давайте сначала опишем «традиционный поисковый подход». Лучший способ объяснить это — посмотреть на самые популярные поисковые запросы Google по запросу «Как создать поисковую систему для веб-сайта».
Предположим, у нас есть типичный веб-сайт с блогом, содержащим триста HTML-страниц. HTML — это своего рода понятный текстовый формат, который можно быстро проанализировать с помощью любого текстового процессора. Для простоты мы называем любой файл документом.
Чтобы найти в документе данные, относящиеся к запросу пользователя, мы должны:
— Определить шаблон
— Скачать страницу из базы
— Анализировать страницу (в поисках шаблона)
— Создание страницы результатов поисковой системы (также известной как SERP)
Здесь есть два узких места, и оба связаны с размером страницы:
— Загрузка страницы (документа) может занять некоторое время
— Обычно поиск шаблона занимает много времени, если вы используете стандартный поиск, приближается к
Обычно для обработки документа (HTML-страницы) веб-сайта WordPress (написанного на PHP) требуется 2 мс.Например, у нас около 200 страниц. Они обрабатываются в течение 400 мс или полсекунды. Вроде достаточно быстро.
А теперь представьте, что мы имеем дело с библиотекой электронных книг, в которой хранятся миллионы (!) Книг с сотнями страниц. Удивительно, но на его обработку уходит мало времени, так как нам не нужно загружать одну страницу из базы данных — мы загружаем всю электронную книгу сразу.
Итак, когда вы это знаете, вот еще один факт: есть много документов, которые поисковая система не может быстро обработать — изображения, видео, зашифрованные форматы и т. Д.
Вы могли подумать: «Почему Google не может показать нам все, что мы хотим? Может ли он найти соответствующую информацию? » Да, на самом деле может. С каждым годом алгоритм поисковой выдачи становится точнее. Хотя качество поиска улучшается, остается много файлов, которые невозможно обработать даже сегодня. Следовательно, как общедоступные, так и коммерческие поисковые системы требуют более тщательного изучения алгоритмов пользовательского поиска, которые они используют для поиска релевантных данных.
Кстати, у нас есть впечатляющий пример — мы улучшили поисковую систему для системы привлечения талантов, настроив их алгоритм поиска.
ЦЕНА НА РАЗРАБОТКУ — НЕ ЕДИНСТВЕННОЕ, ЧТО ВАМ СЛЕДУЕТ ЗАНИМАТЬСЯ О
С нашей точки зрения, стоимость разработки, вероятно, не первое, о чем следует заботиться клиентам при расчете окончательной стоимости. Следует учитывать еще один аспект — техническое обслуживание.
Если мы посмотрим на старшего брата — Google, — мы увидим, что существует множество серверов (возможно, сотни тысяч), обрабатывающих данные в режиме реального времени и, более того, одновременно.
Почему они так поступают? Всемирная паутина — это быстро меняющаяся среда. Существуют как статические, так и динамические страницы, и все эти страницы необходимо повторно сканировать несколько раз, чтобы отслеживать изменения данных (если они есть). Таким образом, Google обрабатывает одни и те же данные снова и снова, чтобы поисковая система соответствовала запросу пользователя. Это лучший и самый эффективный способ отслеживать изменения, особенно если доступны секстиллионы страниц.
Интернет растет невероятно быстро!
Крупные поисковые компании используют сложные алгоритмы для поиска «следов» в документе.Например, нам не нужно собирать все данные о книге, когда мы можем выделить ключевой тезис в ее резюме. Таким образом, мы распознаем вышеупомянутый след, который содержит необходимые данные: автор, заголовки, резюме, краткое описание, ключевые слова, данные публикации и т. Д. — и добавляем этот след в отдельную базу данных.
Когда пользователь дает команду Google найти что-то, поисковая система сначала ищет шаблон в базе данных следа. Если не удается найти подходящий ответ, выполняется глубокий поиск.В этом случае страницы создаются медленнее. Вы можете проверить это сами — составьте сложный запрос и сравните время генерации SERP для разных страниц (обычно первая страница появляется намного быстрее, чем тридцатая).
Если для выполнения поиска нужны сотни тысяч серверов — сколько это будет стоить? Что ж, точных оценок никто не знает. Единственное, что мы знаем наверняка — много. Сейчас Google устанавливает новые мощные серверы для более быстрой, точной и безопасной обработки данных.Таким образом, даже самые сложные и глубокие запросы будут выполнены мгновенно и сгенерируют точные результаты.
Мы узнали, как работает Google. Теперь давайте посмотрим, как коммерческие поисковые системы обрабатывают данные.
Мы можем использовать два подхода:
— Разработайте молниеносную поисковую систему, основанную на глубоких математических знаниях, современных базах данных, SSD-накопителе и написанную на быстром языке программирования, таком как C ++
.
— Разработка базы данных «след»
Эти два подхода влияют на затраты на разработку поисковых систем.Клиенты обычно предпочитают первый, так как он более точен, но немного дороже.
СРЕДНИЕ РАСХОДЫ НА РАЗРАБОТКУ ПОИСКОВОГО ДВИГАТЕЛЯ
Если вы хотите, например, создать поисковую систему с нуля на Python или PHP , вы можете сделать это бесплатно после прохождения некоторых курсов в Udemy или EDX. Однако для этого требуются некоторые навыки программирования. В случае платных курсов это обойдется вам до 100 долларов.
Если вы, , хотите создать поисковую систему, подобную Google (с приличным качеством поиска), мы бы сказали, что это может стоить вам около 100 миллионов долларов (для прототипа) , включая затраты на серверы, пропускную способность, колокацию, электричество и скоро.Затраты на обслуживание существующего кластера могут достигать 25 миллионов долларов в год.
Если вы хотите создать коммерческую поисковую систему для своего бизнеса — будь то страховая, биоинформатическая, медицинская, электронная коммерция или другая компания — затраты на разработку поисковой системы могут варьироваться от 10 000 до 60 000 долларов , при низком уровне плата за обслуживание.
Сводка
Итак, как вы видите, при построении поисковой системы необходимо учитывать несколько аспектов, помимо стоимости.Ответ на вопрос «как сделать поисковую систему» охватывает различные нюансы, которые полностью зависят от ваших потребностей, бюджета и основной цели: хотите ли вы создать свою собственную поисковую систему или построить поисковую систему, такую как Google, тратя много денег. и время, так как это довольно дорогостоящая задача.
Как создать собственную поисковую систему Google для ваших учеников
Как создать собственную поисковую систему Google для ваших учеников
by TeachThought Staff
В то время как многие учителя принимают хаос цифровых исследований, другие настраивают учеников Свободный поиск в Google — это рецепт исследовательского проекта, набитого ответами вики и другими неидеальными источниками информации.
Поскольку оценка достоверности информации является важной частью любого исследовательского проекта, предоставление вашим студентам надлежащих инструментов для выполнения сложной когнитивной работы имеет решающее значение, особенно в обучении на основе запросов .
К счастью, Google дает вам возможность настроить поиск учащихся так, чтобы привязать их к определенным разделам Интернета или мягко выделить другие. (Фактически, вы даже можете попросить студентов создать свою собственную систему пользовательского поиска как часть самого проекта.)
Ниже приводится обзор шагов, от наименования поисковой системы и выбора сайтов, из которых учащиеся должны выбирать, до настройки функций поиска и предоставления студентам ссылки.
Как создать систему пользовательского поиска для ваших студентов
1. Нажмите Google Custom Search
2. Нажмите «Новая поисковая система»
3. Добавьте желаемые сайты студенты, из которых можно выполнять поиск. Для начала мы добавили TeachThought и Britannica.
4. Затем настройте параметры поиска в соответствии с вашими потребностями — внешний вид, хотите ли вы, чтобы учащиеся могли искать только те сайты, которые вы указали, или если вы хотите, чтобы алгоритм поиска Google просто сделать акцент на этих сайтах больше, чем на других. Вы даже можете исключить определенные сайты (мы смотрим на вас, Yahoo! Answers).
Параметры для вашей системы пользовательского поиска Google
Что вы можете настроить при создании поисковой системы?
1.Внешний вид: макет, форматирование и темы
2. Функции поиска
3. Статистика и журналы
В то время как «макет» более важен для издателей, использующих поиск Google, «функции поиска» — вот где все полезные учителя.
Вы можете не только создать поисковую систему, использующую определенные источники (а не Интернет в целом), но и настроить ее поведение. Например, можно отдавать предпочтение определенным источникам над другими, помечая сайты.Как вы решите это сделать, зависит от ваших целей. Вы можете маркировать сайты по уровню чтения, типу источника (например, книги, лекции, необработанные данные и т. Д.) Или по любому другому фактору, имеющему отношение к вашему классу.
Вы также можете включить и выключить автозаполнение (это большое).
Хотите добавить синонимы к определенным словам / фразам, чтобы помочь учащимся работать с ограниченным количеством ресурсов (помните, теперь они ищут на нескольких сайтах, а не на десятках миллионов)? Выполнено. Ограничить по контенту, стране или языку? Несколько кликов — и все готово.
Вы можете добавить другие особые уточнения в соответствии с потребностями вашего исследовательского проекта, и Google может время от времени изменять то, что здесь доступно. (Мы постараемся обновить этот пост на предмет любых серьезных изменений.) Обратите внимание, что вам, возможно, придется настроить формулу, пока не получите желаемые результаты. Обязательно протестируйте его, прежде чем давать ученикам возможность использовать его!
5. После присвоения имени вашей системе пользовательского поиска и настройки функций щелкните «общедоступный URL-адрес» и поделитесь им со своими учениками по электронной почте, в социальных сетях или даже напишите его на раздаточном материале — или всеми тремя способами, чтобы сохранить рассудок когда студенты снова и снова просят у вас ссылку.:)
Вы также можете встроить поисковую систему в / на свой веб-сайт / блог, если он у вас есть.
Создание собственной поисковой системы — один из наиболее недооцененных инструментов, предоставляемых Google. В то время как Google Диск, Документы и Класс привлекают всю прессу, для запросов, исследований и других проектов поиска / анализа / оценки это очень и очень круто.
Как создать пользовательскую поисковую систему Google для ваших студентов; Атрибуция изображения Пользователь flickr davidortez
Как работают поисковые системы? Руководство для начинающих
Прежде чем мы перейдем к техническим вопросам, давайте сначала убедимся, что мы понимаем, что такое поисковые системы на самом деле, почему они существуют и почему все это имеет значение.
Что такое поисковые системы?
Поисковые системы — это инструменты, которые находят и ранжируют веб-контент, соответствующий поисковому запросу пользователя.
Каждая поисковая система состоит из двух основных частей:
Поисковый индекс. Электронная библиотека информации о веб-страницах.
Алгоритмы поиска. Компьютерная программа (ы), которая ранжирует результаты сопоставления из поискового индекса.
Примеры популярных поисковых систем: Google, Bing и DuckDuckGo.
Какова цель поисковых систем?
Каждая поисковая система нацелена на предоставление пользователям наилучших и наиболее релевантных результатов. Именно так они получают или удерживают долю рынка — по крайней мере, теоретически.
Как поисковые системы зарабатывают деньги?
Поисковые системы имеют два типа результатов поиска:
Обычные результаты из поискового индекса. Вы не можете платить, чтобы быть здесь.
Оплаченные результаты от рекламодателей. Вы можете заплатить, чтобы быть здесь.
Каждый раз, когда кто-то нажимает на платный результат поиска, рекламодатель платит поисковой системе.Это называется рекламой с оплатой за клик (PPC).
Вот почему доля рынка имеет значение. Больше пользователей означает больше кликов по рекламе и больший доход.
Почему вам должно быть важно, как работают поисковые системы?
Понимание того, как поисковые системы находят, индексируют и ранжируют контент, поможет вам повысить рейтинг вашего сайта в обычных результатах поиска по релевантным и популярным ключевым словам.
Если вы сможете занять высокие позиции по этим запросам, вы получите больше кликов и органический трафик для вашего контента.
Какая поисковая система самая популярная?
Google.Доля рынка составляет 92%.
Google — это поисковая система, о которой заботится большинство специалистов по SEO и владельцев веб-сайтов, потому что она способна направить больше трафика, чем любая другая поисковая система.
Большинство известных поисковых систем, таких как Google и Bing, содержат триллионы страниц в своих поисковых индексах. Итак, прежде чем говорить об алгоритмах ранжирования, давайте подробнее рассмотрим механизмы, используемые для создания и поддержки веб-индекса.
Вот основной процесс, любезно предоставленный Google:
Давайте разберем его, шаг за шагом:
URL-адреса
Сканирование
Обработка и рендеринг
Индексирование
Примечание.
Приведенный ниже процесс применяется конкретно к Google, но, скорее всего, он очень похож на другие поисковые системы, такие как Bing. Существуют и другие типы поисковых систем, такие как Amazon, YouTube и Wikipedia, которые показывают результаты только со своих веб-сайтов.
Шаг 1. URL-адреса
Все начинается с известного списка URL-адресов. Google обнаруживает их с помощью различных процессов, но наиболее распространенными из них являются:
По обратным ссылкам
У Google уже есть индекс, содержащий триллионы веб-страниц.Если кто-то добавит ссылку на одну из ваших страниц с одной из этих веб-страниц, он сможет найти ее оттуда.
Вы можете бесплатно просматривать обратные ссылки своего веб-сайта с помощью Site Explorer с Инструментами для веб-мастеров Ahrefs.
Зарегистрируйтесь для получения бесплатной учетной записи Ahrefs Webmaster Tools
Вставьте свой домен в Site Explorer
Перейдите к отчету Обратные ссылки .
Наш сканер является вторым по активности после Google, поэтому вы должны увидеть здесь достаточно полное представление о своих обратных ссылках.
Из карт сайта
В файлах Sitemap перечислены все важные страницы вашего веб-сайта. Если вы отправите карту сайта в Google, это может помочь им быстрее обнаружить ваш сайт.
Из представленных URL-адресов
Google также позволяет отправлять отдельные URL-адреса через консоль поиска Google.
Шаг 2. Сканирование
Сканирование — это когда компьютерный бот, называемый пауком (например, робот Google), посещает и загружает обнаруженные страницы.
Важно отметить, что Google не всегда сканирует страницы в том порядке, в котором они их обнаруживают.
Google ставит URL в очередь для сканирования на основе нескольких факторов, в том числе:
PageRank URL
частоты изменения URL
независимо от того, новый он или нет
Это важно, потому что это означает, что поисковые системы могут сканировать и индексировать одни страницы раньше других. Если у вас большой веб-сайт, поисковым системам может потребоваться некоторое время, чтобы полностью его просканировать.
Шаг 3. Обработка
Обработка — это то, где Google работает, чтобы понять и извлечь ключевую информацию из просканированных страниц.Никто, кроме Google, не знает всех подробностей об этом процессе, но важными частями для нашего понимания являются извлечение ссылок и сохранение контента для индексации.
Google должен обрабатывать страницы, чтобы полностью их обработать. Именно здесь Google запускает код страницы, чтобы понять, как она выглядит для пользователей.
При этом некоторая обработка происходит до и после рендеринга, как вы можете видеть на диаграмме.
Шаг 4. Индексирование
Индексирование — это когда обработанная информация с просканированных страниц добавляется в большую базу данных, называемую поисковым индексом.По сути, это цифровая библиотека из триллионов веб-страниц, с которых поступают результаты поиска Google.
Это важный момент. Когда вы вводите запрос в поисковую систему, вы напрямую не ищете в Интернете соответствующие результаты. Вы выполняете поиск в индексе веб-страниц поисковой системы. Если веб-страница отсутствует в поисковом индексе, пользователи поисковых систем не найдут ее. Вот почему так важно проиндексировать ваш сайт в основных поисковых системах, таких как Google и Bing.
Обнаружение, сканирование и индексирование контента — это лишь первая часть головоломки.Поисковым системам также необходим способ ранжирования результатов соответствия, когда пользователь выполняет поиск. Это работа алгоритмов поисковых систем.
Каждая поисковая система имеет уникальные алгоритмы ранжирования веб-страниц. Но поскольку Google является наиболее широко используемой поисковой системой (по крайней мере, в западном мире), именно на ней мы сосредоточимся в оставшейся части этого руководства.
У Google более 200 факторов ранжирования.
Никто не знает, каковы все эти факторы ранжирования, но мы знаем о ключевых.
Давайте обсудим некоторые из них.
Обратные ссылки
Актуальность
Свежесть
Актуальный авторитет
Скорость страницы
Удобство для мобильных устройств
Обратные ссылки
Обратные ссылки являются одним из наиболее важных факторов ранжирования Google.
Андрей Липатцев, старший стратег Google по качеству поиска, подтвердил это во время вебинара в 2016 году. Когда его спросили о двух наиболее важных факторах ранжирования , он ответил просто: контента и ссылок.
Совершенно верно. Я могу сказать вам, каковы они [два главных фактора ранжирования]. Это доволен. И это ссылки, указывающие на ваш сайт.
Ссылки были важным фактором ранжирования в Google с 1997 года, когда они представили PageRank, формулу для оценки ценности веб-страницы на основе количества и качества обратных ссылок, указывающих на нее.
Когда мы проанализировали более миллиарда страниц, мы обнаружили четкую корреляцию между количеством веб-сайтов, ссылающихся на страницу, и объемом органического трафика, который она получает от Google.
Однако дело не только в количестве, потому что не все обратные ссылки одинаковы. Страница с несколькими обратными ссылками высокого качества вполне может превзойти страницу с большим количеством обратных ссылок более низкого качества.
Есть шесть ключевых атрибутов хорошей обратной ссылки.
Давайте подробнее рассмотрим, пожалуй, два самых важных: авторитет и релевантность .
Авторитет ссылок
Обратные ссылки с авторитетных страниц и веб-сайтов обычно имеют наибольшее влияние на рейтинг.
Как вы определяете власть? В контексте SEO авторитетные страницы и веб-сайты — это те, которые имеют много обратных ссылок или «голосов».
В Ahrefs у нас есть две метрики для оценки относительного авторитета веб-сайтов и страниц:
Рейтинг домена (DR) : относительный авторитет веб-сайта по шкале от 0 до 100.
Рейтинг URL (UR) : относительный авторитет страницы по шкале от 0 до 100.
Вы можете проверить авторитетность любого веб-сайта или веб-страницы в проводнике сайта Ahrefs.
Релевантность ссылки
Ссылки с соответствующих веб-сайтов и веб-страниц обычно являются наиболее ценными.
Google говорит о релевантности в контексте ранжирования полезных страниц на своей странице о том, как работает поиск.
Если другие известные веб-сайты по теме ссылаются на страницу, это хороший признак высокого качества информации.
Если вам интересно, почему важна релевантность, подумайте, как все работает в реальном мире. При поиске лучшего итальянского ресторана вы, вероятно, доверились бы совету друга-шеф-повара, а не совету друга-ветеринара.Но если бы вы искали рекомендации по кормлению кошек, было бы наоборот.
Релевантность
У Google есть много способов определения релевантности страницы.
На самом базовом уровне он ищет страницы, содержащие те же ключевые слова, что и поисковый запрос.
Но релевантность выходит далеко за рамки соответствия ключевых слов.
Google также использует данные взаимодействия, чтобы оценить, соответствуют ли результаты поиска запросам. Другими словами, находят ли пользователи эту страницу полезной?
Отчасти поэтому все лучшие результаты по запросу «яблоко» относятся к технологической компании, а не к фруктам.Google знает из данных о взаимодействии, что большинство поисковиков ищут информацию о первом, а не втором.
Однако данные о взаимодействии — далеко не единственный способ, которым Google это делает.
Google инвестировал во множество технологий, чтобы помочь понять отношения между такими сущностями, как люди, места и предметы. Сеть знаний — одна из таких технологий, которая, по сути, представляет собой огромную базу знаний об объектах и отношениях между ними.
И яблоко (фрукты), и Apple (технологическая компания) являются объектами в Сети знаний.
Google использует отношения между объектами, чтобы лучше понять релевантность страницы. Соответствующий результат для слова «яблоко», в котором говорится об апельсинах и бананах, явно относится к фруктам. Но тот, в котором говорится об iPhone, iPad и iOS, явно относится к технологической компании.
Отчасти благодаря сети знаний Google может выйти за рамки сопоставления ключевых слов.
Иногда вы можете даже увидеть результаты поиска, в которых не упоминаются, казалось бы, важные ключевые слова из запроса.Например, возьмем второй результат для «приложение для бумаги для яблока», в котором нигде на странице не упоминается слово «яблоко».
Google может сказать, что это релевантный результат, отчасти потому, что он упоминает такие объекты, как iPhone и iPad, которые, несомненно, тесно связаны с Apple в Сети знаний.
Примечание.
Данные взаимодействия и сеть знаний — не единственные технологии, которые Google использует для определения релевантности страницы поисковому запросу. Большая часть работы выполняется с использованием технологий, позволяющих понять смысл и цель самого запроса, таких как BERT и RankBrain.Google даже иногда незаметно переписывает запросы, чтобы предоставлять более релевантные результаты.
Свежесть
Свежесть — это фактор ранжирования, зависящий от запроса, что означает, что для одних результатов он имеет большее значение, чем для других.
Для такого запроса, как «что нового на Amazon Prime», важна свежесть, потому что поисковики хотят знать о недавно добавленных фильмах и телешоу. Вероятно, поэтому Google ставит недавно опубликованные или обновленные результаты поиска выше.
Для таких запросов, как «лучшие наушники», свежесть имеет значение, но не так много.Технологии наушников развиваются быстро, поэтому результаты 2015 года не принесут много пользы, но сообщение, опубликованное 2–3 месяца назад, по-прежнему будет полезно.
Google знает об этом и показывает результаты, которые были обновлены или опубликованы за последние несколько месяцев.
Есть также запросы, по которым актуальность результатов в основном не имеет значения, например, «как связать ничью». В этом процессе ничего не изменилось за десятилетия, поэтому не имеет значения, были ли результаты поиска за вчерашний день или за 1998 год. Google знает это и не сомневается в ранжировании публикаций, опубликованных много лет назад.
Актуальный авторитет
Google хочет ранжировать контент с веб-сайтов, авторитетных по данной теме. Это означает, что Google может рассматривать веб-сайт как хороший источник результатов для запросов по одной теме, но не по другой.
Google говорит об этом в одном из своих патентов:
Считает ли поисковая система сайт авторитетным, обычно зависит от запроса. […] Поисковая система может рассматривать сайт Центров по контролю за заболеваниями, «cdc.gov», как авторитетный сайт для запроса «CDC против укусов комаров», но не может считать тот же сайт авторитетным для запрос «рекомендации ресторана».
Хотя это лишь один из многих патентов, поданных Google, мы видим доказательства того, что «актуальный авторитет» имеет значение в результатах поиска по многим запросам.
Достаточно взглянуть на результаты по запросу «вакуумный упаковщик sous vide».
Здесь мы видим два небольших нишевых сайта о приготовлении пищи в су-видео, которые превосходят New York Times.
Хотя здесь, несомненно, играют роль и другие факторы, кажется вероятным, что «актуальный авторитет» является одной из причин, по которым эти сайты занимают такое место.
Вероятно, поэтому руководство Google для начинающих по поисковой оптимизации говорит владельцам веб-сайтов:
Создавать репутацию благодаря опыту и надежности в определенной области.
Скорость страницы
Никто не любит ждать загрузки страниц, и Google это знает. Вот почему они сделали скорость страницы фактором ранжирования для поиска на компьютере в 2010 году и для мобильного поиска в 2018 году.
Многие люди зацикливаются на скорости страницы, поэтому стоит отметить, что ваши страницы не должны быть молниеносными, чтобы классифицировать. Google заявляет, что скорость загрузки страниц является проблемой только для страниц, которые «обеспечивают самую медленную работу пользователей».
Другими словами, сокращение на несколько миллисекунд и без того быстрого сайта вряд ли повысит рейтинг.Просто он должен быть достаточно быстрым, чтобы не повлиять на пользователей.
Вы можете проверить скорость любой веб-страницы в PageSpeed Insights, который также генерирует предложения по ускорению страницы.
PageSpeed Insights также показывает, как выглядит ваша страница, когда дело доходит до Core Web Vitals.
Core Web Vitals состоят из трех показателей, которые оценивают производительность загрузки, интерактивность и визуальную стабильность ваших веб-страниц. Google подтвердил, что Core Web Vitals станет сигналом ранжирования с июня 2021 года.
Вы можете увидеть эффективность всех страниц своего веб-сайта с помощью отчета Core Web Vitals в Google Search Console.
Если многие URL-адреса работают плохо или нуждаются в улучшении, обратитесь к разработчику.
Удобство для мобильных устройств
65% поисковых запросов в Google выполняется на мобильных устройствах. Вот почему удобство для мобильных устройств с 2015 года является важным фактором для мобильных устройств.
С 2019 года удобство для мобильных устройств также является фактором ранжирования для поиска на компьютерах благодаря переходу Google на индексацию с ориентацией на мобильные устройства.Это означает, что Google «преимущественно использует мобильную версию контента для индексации и ранжирования» на всех устройствах.
Другими словами, отсутствие поддержки мобильных устройств может повлиять на ранжирование — везде.
Вы можете проверить мобильность любой веб-страницы с помощью инструмента Google Mobile-Friendly Test или в отчете Mobile Usability в Google Search Console.
Поисковые системы понимают, что разные результаты нравятся разным людям. Вот почему они адаптируют свои результаты для каждого пользователя.
Если вы когда-либо искали одно и то же на нескольких устройствах или в разных браузерах, вы, вероятно, заметили эффект этой персонализации. Результаты часто отображаются в разных положениях в зависимости от различных факторов.
Именно из-за этой персонализации, если вы занимаетесь поисковой оптимизацией, вам лучше использовать специальный инструмент, например Rank Tracker от Ahrefs, для отслеживания позиций в рейтинге. Заявленные позиции в этих инструментах, вероятно, будут ближе к истине, потому что они просматривают Интернет таким образом, чтобы поисковые системы не получали много полезной информации для персонализации.
Как поисковые системы персонализируют результаты?
Google заявляет, что «такая информация, как ваше местоположение, история прошлого поиска и настройки поиска, помогает [нам] адаптировать ваши результаты к тому, что является наиболее полезным и актуальным для вас в данный момент».
Давайте подробнее рассмотрим эти три вещи.
1. Местоположение
Если вы ищете что-то вроде «итальянский ресторан», все результаты в пакете карт будут местными ресторанами.
Google делает это, потому что вряд ли вы полетите полмира на обед.
Но Google также использует ваше местоположение для персонализации результатов поиска за пределами пакета карт. Если мы прокрутим наш поиск по запросу «итальянский ресторан», даже результаты TripAdvisor будут персонализированными, и мы увидим, что многие из лучших результатов — это веб-сайты местных ресторанов.
Аналогичная история с запросом типа «купить дом». Google возвращает страницы с местными данными вместо национальных, потому что вы, вероятно, не хотите переезжать в другую страну.
Ваше местоположение настолько сильно влияет на результаты локальных запросов, что при поиске одного и того же объекта из двух разных мест практически не происходит совпадения.
2. Язык
Google знает, что нет смысла показывать результаты на английском испанским пользователям. Вот почему Google оценивает английскую версию нашего руководства по поисковой оптимизации YouTube для поиска на английском языке и испанскую версию для поиска на испанском языке.
Однако Google в некоторой степени полагается на владельцев веб-сайтов. Если у вас есть страницы на нескольких языках, Google может не понять этого, пока вы им не расскажете.
Это можно сделать с помощью HTML-атрибута hreflang.
Hreflang немного сложен и выходит за рамки этого руководства, но в основном это небольшой фрагмент кода, указывающий на взаимосвязь между несколькими версиями одной и той же страницы на разных языках.
3. История поиска
Возможно, наиболее очевидным примером использования Google истории поиска для персонализации результатов является «ранжирование» ранее полученного результата выше при следующем запуске того же поиска.
Это случается не всегда, но кажется довольно частым, особенно если вы нажимаете или посещаете страницу несколько раз за короткий промежуток времени.