Извлечение терминов из релевантных web-страниц

Одним из источников низкочастотных терминов являются web-страницы, имеющие хороший рейтинг в результатах таких операций поиска, которые релевантны для вашего целевого рынка.

Вот основы процесса поиска таких страниц и извлечения из них такой информации:

1. Возьмите от 10 до 50 самых часто используемых поисковых фраз (из головной части графика распределения ваших ключевых слов).

2. Сделайте поиск в Google, Yahoo! и Bing по каждому из них.

3. С каждой из страниц, занимающих верхние 10–30 позиций, извлеките пригодный для использования уникальный текст.

4. Удалите стоп-слова и отфильтруйте по размеру фразы.

5. Удалите уже имеющиеся (в вашей базе данных) термины/фразы.

6. Выберите сначала самые часто встречающиеся термины и продолжайте прочесывание до тех пор, пока это кажется вам целесообразным.

Во время этого процесса вы по существу прорабатываете релевантные документы по теме вашей отрасли/услуг/товаров в поиске таких терминов, которые имеют приемлемую степень релевантности, хотя и находятся в нижней части поиска. При использовании такого подхода нужно обязательно прочитать извлеченные данные глазами, чтобы они соответствовали здравому смыслу. Вы можете даже найти дополнительные термины в головной части графика распределения ключевых слов.

Этот метод можно расширить следующими способами:

• поискать релевантные результаты в Technorati или Delicious;

• чтобы сфокусировать ваши усилия по нахождению ключевых слов, используйте документы строго из результатов определенных типов (местные, академические);

• поищите в форумах по вашей тематике. Чтобы найти разговорные ключевые слова, при поиске можно использовать даже inurl: forum.

Эта методика имеет высокую эффективность. Результаты этого исследования будут напрямую соответствовать количеству затраченных на него усилий (и его глубине).