Andmete kaevandamine: partiimport vs konksupõhine omandamine

Kas teie andmete kaevandamise strateegia jaoks sobib kõige paremini partiimport või konksupõhine hankimine?

Välistest allikatest andmete kaevandamisel võib metoodikat tuvastada kas partii- või konksupõhisena. Need on tohutult erinevad ja neil on oma plussid. Kasutagem näidet selle lihtsustamiseks. Meie näitena on see teave lennuandmete kohta, mis on seotud õhusõiduki asukohaga igal ajal. Seetõttu peaks meil olema järgmine põhiteave:

  1. Liikumise olek (paigal või liikumisel)
  2. Laiuskraad
  3. Pikkuskraad
  4. Kõrgus
  5. Päritolu (praeguse või järgmise lennu)
  6. Sihtkoht (praeguse või järgmise lennu)
  7. Aeg (millisekundi täpsus)

Selles näites peaksime olema võimelised ülaltoodud andmeid kasutades ekstrapoleerima enamiku õhusõidukitega seotud teavet. Analüüsime kahte andmete importimise meetodit.

Partii import

Partii import toimub ajakava alusel ja see kogub teavet allikast korduva intervalliga. Meie ülaltoodud lennuandmete näite abil saab seda rakendada järgmiselt:

  1. Tunni kaupa impordime partiide kaupa kõiki selle õhusõidukiga seotud lennuandmeid alates viimasest astmest. Kutsume seda partii ajaks, mis võib olla 10: 00: 00 000 (kell 10, millisekundi täpsusega).
  2. See server töötleb neid andmeid (edukalt imporditud).
  3. Uuendame partii aja värskeima kirje ajani. Seetõttu, isegi kui partii aeg 1. etapis oli 10: 00 000, kui viimane rekord oli 9: 59: 52,915, saab sellest uus partii aeg.

Miks rakendame partiide ajastamist sel viisil?

  1. Uuendame pakkimisaega, kuna tunnine pakk võib ebaõnnestuda. See annab meile kindluse, et isegi kui partii ebaõnnestub, impordime järgmisel juhul kogu teabe pärast viimast partiid.
  2. Salvestame paketiaja ka kõige uuema lennuregistri ajal, kuna serverite vaheline aeglane erinevus võib põhjustada järgmiste andmete impordi. Selle erinevaks selgitamiseks; kui meie server on lennuandmete esitamisest 5 sekundit ees ja peaksime viimase partii aja salvestama kui meie serveri aeg, siis järgmise impordi ajal kaotame need 5 sekundit andmeid. Selle asemel kasutame lennuandmete viimast salvestatud aega, et tagada, et partiid koguksid kõiki andmeid.

Konksul põhinev import

Konksupõhine import on puhas reaalajas andmete hankimise meetod. Konks arvutikasutamisel viitab protsessile, mille korral väline süsteem (näiteks lennuandmete lahendus) saadab sündmuse toimumisel teie serverile teate (sisaldab andmeid). Konksipõhise impordi näite saab teostada järgmiselt:

  1. Uus teave salvestatakse lennuandmeserverisse kogu teabega (liikumisseisund, laius, pikkus, kõrgus jne).
  2. Algab konks, mis saadab andmed automaatselt teie serverisse.
  3. Teie server töötleb neid andmeid (edukalt imporditud).

Järeldus

Kuigi konksupõhiseid impordimeetodeid eelistatakse reaalajas vaadatuna, pakuvad need kahte peamist riski:

  1. Peate juurdepääsu oma serverile välisest asukohast lahti hoidma. See tekitab küberturvalisuse riski, isegi kui seda õigesti teha.
  2. Kui konksu andmeid ei edastata (näiteks kui teie server ei olnud juurdepääsetav), on nende andmete hankimine välise platvormi terviklikkusele tuginedes uskumatult tülikas.

Selle vältimiseks kipume igal võimalusel kasutama partiide importimist. Kui vajate ajakohasema teabe saamiseks, siis lühemate intervallidega.