KDD vs adatbányászat
A KDD (Knowledge Discovery in Databases) a számítástechnika területe, amely magában foglalja azokat az eszközöket és elméleteket, amelyek segítséget nyújtanak az embereknek hasznos és korábban ismeretlen információk (azaz ismeretek) kinyerésében digitalizált adatok nagy gyűjteményeiből. A KDD több lépésből áll, és az egyik a Data Mining. Az adatbányászat egy adott algoritmus alkalmazása annak érdekében, hogy mintákat vonjon ki az adatokból. Ennek ellenére a KDD-t és az adatbányászatot felcserélhető módon használják.
Mi az a KDD?
Mint fent említettük, a KDD a számítástechnika területe, amely korábban ismeretlen és érdekes információk nyers adatokból történő kinyerésével foglalkozik. A KDD az az egész folyamat, amelynek során az adatok értelmezhetővé válnak megfelelő módszerek vagy technikák kifejlesztésével. Ez a folyamat az alacsony szintű adatok más formákba történő leképezésével foglalkozik, amelyek kompaktabbak, elvontabbak és hasznosabbak. Ezt rövid jelentések készítésével, az adatok előállításának folyamatának modellezésével és a jövőbeni eseteket előrejelző prediktív modellek kidolgozásával érhetjük el. Az adatok exponenciális növekedése miatt, különösen olyan területeken, mint például az üzleti élet, a KDD nagyon fontos folyamat lett, hogy ezt a nagy adattárat üzleti intelligenciává alakítsa át, mivel a minták kézi kinyerése látszólag lehetetlenné vált az elmúlt évtizedekben. Például,Jelenleg különféle alkalmazásokhoz használják, például közösségi hálózatok elemzéséhez, csalások felderítéséhez, tudományhoz, beruházásokhoz, gyártáshoz, telekommunikációhoz, adattisztításhoz, sporthoz, információ-visszakereséshez és főleg marketinghez. A KDD-t általában olyan kérdések megválaszolására használják, mint melyek azok a fő termékek, amelyek elősegíthetik a magas profit elérését a következő évben a Wal-Mart-ban? Ennek a folyamatnak több lépése van. Először az alkalmazás tartományának és a célnak a megértésével foglalkozik, majd létrehoz egy cél adatkészletet. Ezt követi az adatok tisztítása, előfeldolgozása, kicsinyítése és kivetítése. A következő lépés az adatbányászat (az alábbiakban kifejtve) használata a minta azonosításához. Végül a felfedezett tudás vizualizációval és / vagy értelmezéssel konszolidálódik.sport, információ-visszakeresés és nagyrészt marketing célokra. A KDD-t általában olyan kérdések megválaszolására használják, mint melyek azok a fő termékek, amelyek elősegíthetik a magas profit elérését a következő évben a Wal-Mart-ban? Ennek a folyamatnak több lépése van. Először az alkalmazás tartományának és a célnak a megértésének fejlesztésével, majd a cél adatkészlet létrehozásával kezdődik. Ezt követi az adatok tisztítása, előfeldolgozása, kicsinyítése és kivetítése. A következő lépés az adatbányászat (az alábbiakban kifejtve) használata a minta azonosításához. Végül a felfedezett tudás vizualizációval és / vagy értelmezéssel konszolidálódik.sport, információ-visszakeresés és nagyrészt marketing célokra. A KDD-t általában olyan kérdések megválaszolására használják, mint amelyek a legfontosabb termékek, amelyek elősegíthetik a magas profit elérését a következő évben a Wal-Mart-ban? Ennek a folyamatnak több lépése van. Először az alkalmazás tartományának és a célnak a megértésének fejlesztésével, majd a cél adatkészlet létrehozásával kezdődik. Ezt követi az adatok tisztítása, előfeldolgozása, kicsinyítése és kivetítése. A következő lépés az adatbányászat (az alábbiakban kifejtve) használata a minta azonosításához. Végül a felfedezett tudás vizualizációval és / vagy értelmezéssel konszolidálódik. Először az alkalmazás tartományának és a célnak a megértésével foglalkozik, majd létrehoz egy cél adatkészletet. Ezt követi az adatok tisztítása, előfeldolgozása, kicsinyítése és kivetítése. A következő lépés az adatbányászat (az alábbiakban kifejtve) használata a minta azonosításához. Végül a felfedezett tudás vizualizációval és / vagy értelmezéssel konszolidálódik. Először az alkalmazás tartományának és a célnak a megértésének fejlesztésével, majd a cél adatkészlet létrehozásával kezdődik. Ezt követi az adatok tisztítása, előfeldolgozása, kicsinyítése és kivetítése. A következő lépés az adatbányászat (az alábbiakban kifejtve) használata a minta azonosításához. Végül a felfedezett tudás vizualizációval és / vagy értelmezéssel konszolidálódik.
Mi az adatbányászat?
Mint fent említettük, az adatbányászat csak egy lépés a teljes KDD folyamaton belül. Az alkalmazás célja által meghatározott két fő adatbányászati cél van, nevezetesen az ellenőrzés vagy a felfedezés. Az ellenőrzés a felhasználó adatokkal kapcsolatos hipotézisének igazolása, míg a felfedezés automatikusan érdekes mintákat talál. Négy fő adatbányászati feladat van: klaszterezés, osztályozás, regresszió és társítás (összefoglalás). A fürtözés a strukturálatlan adatokból azonosít hasonló csoportokat. Az osztályozás olyan tanulási szabályok, amelyek új adatokra alkalmazhatók. A regresszió olyan funkciók megtalálása, amelyek minimális hibát jelentenek az adatok modellezéséhez. Az asszociáció pedig a változók közötti kapcsolatokat keresi. Ezután ki kell választani a konkrét adatbányászati algoritmust. A céltól függően különböző algoritmusok, például lineáris regresszió, logisztikai regresszió,döntési fák és Naiv Bayes választható. Ezután egy vagy több reprezentációs formában keresik az érdeklődési mintákat. Végül a modelleket a prediktív pontosság vagy az érthetőség alapján értékelik.
Mi a különbség a KDD és az adatbányászat között?
Bár a KDD és az adatbányászat két fogalmát felcserélhető módon használják, két kapcsolódó, mégis kissé eltérő fogalomra utalnak. A KDD az ismeretek kinyerése az adatokból, míg az adatbányászat egy lépés a KDD folyamat belsejében, amely az adatok mintáinak azonosításával foglalkozik. Más szavakkal, az adatbányászat csak egy meghatározott algoritmus alkalmazása, amely a KDD folyamat általános célján alapul.