По данным компании Gartner, неструктурированные документы составляют более 80% корпоративных данных, а количество внешних источников (интернет-ресурсов, блогов, форумов, СМИ) исчисляется миллионами. В них содержится гигантское количество данных, которые могут обеспечить компании существенное конкурентное преимущество. Основной вопрос — эффективность и скорость извлечения и анализа ценной информации.
Data Mining - "добыча" или "раскопка данных". Data Mining предназначены для решения задач интеллектуального анализа данных, что позволяет повысить эффективность принятия решений.
Data Mining - это процесс обнаружения в сырых данных:
1) ранее неизвестных и нетривиальных
2) практически полезных и доступных интерпретации знаний,
3) необходимых для принятия решений в различных сферах человеческой деятельности.
На рисунке 14 представлены уровни знаний, извлекаемых из данных.