Data Mining dient zur Identifikation von Mustern in Datenbanken mithilfe von Softwarewerkzeugen. Dies erfolgt im Gegensatz zur gerichteten Auswertung von Datenbeständen hinsichtlich konkreter Fragestellungen (»Wie hoch war der Umsatz für Produkt x im Januar 2001 ?“) oder der Überprüfung von Hypothesen („Führte eine Umsatzabweichung in Filiale y zur Verringerung des Umsatzes für Produkt x?“).
Das auch als ungerichtete Datenanalyse bezeichnete Vorgehen des Data Mining soll es ermöglichen, bislang unentdeckte Zusammenhänge aus großen Datenbanken weitgehend automatisiert zu extrahieren und dem Unternehmen offen zu legen („Immer wenn Produkt z im Fernsehen beworben wird, sinkt der Umsatz von Produkt x innerhalb von zwei Wochen“). Erreicht wird dies durch Softwarewerkzeuge, die verschiedene Data Mining-Methoden zur Verfügung stellen und damit bestehende Data Warehouse- und OLAP-Lösungen (On-Line Analytical Processing) erweitern.
Die Herkunft der Methoden des Data Mining liegt vor allem in der Statistik, den Neuronalen Netzen sowie dem maschinellen Lernen. In diesen Gebieten entwickelte Vorgehensweisen und Algorithmen werden für die drei Hauptaufgaben des Data Mining eingesetzt: der Segmentierung, Klassifizierung und Assoziierung von Daten.
Bei der Segmentierung werden Gruppen im Datenbestand gebildet, deren Gruppenmitglieder möglichst ähnliche Eigenschaften aufweisen, jedoch möglichst unterschiedlich von den Mitgliedern anderer Gruppen sind. So können beispielsweise Gruppen von Kunden mit ähnlichen Bedürfnissen identifiziert werden.
Die Klassifizierung teilt neue Datensätze einer vorhandenen Klasse zu. So werden beispielsweise Kreditanträge bei Banken direkt nach Eingabe aller relevanten Daten einer der beiden Klassen „Rückzahlung wahrscheinlich“ bzw. „Rückzahlung unwahrscheinlich“ zugeordnet, so dass aus der Erfahrung historischer Fälle eine mit einer Wahrscheinlichkeit versehene Vorhersage zum aktuellen Fall gemacht wird.
Die Assoziierung stellt Abhängigkeiten zwischen Elementen dar. Besonders bei der Warenkorbanalyse z.B. bei Einzelhändlern können so Aussagen getroffen werden wie: „Wenn Produkt A gekauft wird, wird in 75% aller Fälle Produkt B mitgekauft“.
Data Mining nimmt die zentrale Position in einem Erkenntnisgewinnungsprozess ein, der mit der Datenvorbereitung beginnt, sich im Anwenden der Data Mining-Methoden fortsetzt und schließlich in der Visualisierung und Interpretation der gefundenen Ergebnisse mündet. Die Generierung von gültigen und nützlichen Aussagen durch Data Mining-Methoden erfordert i.d.R. einen geübten Anwender mit statistischen Kenntnissen.