Mis on suurandmed: kogusime suurandmete kohta kõik olulisemad asjad. Mis on suurandmed: omadused, klassifikatsioon, näited

Mõiste suurandmed viitab tavaliselt mis tahes hulgale struktureeritud, poolstruktureeritud ja struktureerimata andmetele. Teise ja kolmanda saab ja tuleb aga tellida hilisemaks infoanalüüsiks. Suurandmed ei võrdu ühegi tegeliku mahuga, kuid suurandmetest rääkides peame enamasti silmas terabaite, petabaite ja isegi ekstrabaite infot. Iga ettevõte võib koguda sellise hulga andmeid aja jooksul või juhul, kui ettevõte peab saama palju teavet, siis reaalajas.

Suurandmete analüüs

Big Data analüüsist rääkides peame eelkõige silmas erinevatest allikatest info kogumist ja talletamist. Näiteks andmed ostnud klientide kohta, nende omadused, teave käivitatud reklaamikampaaniate kohta ja nende tõhususe hindamine, kontaktikeskuse andmed. Jah, kogu seda teavet saab võrrelda ja analüüsida. See on võimalik ja vajalik. Kuid selleks peate looma süsteemi, mis võimaldab teil koguda ja muuta teavet ilma seda moonutamata, salvestada ja lõpuks visualiseerida. Nõus, suurandmete puhul on mitme tuhande lehekülje peale trükitud tabelitest äriotsuste tegemisel vähe abi.

1. Suurandmete saabumine

Enamik teenuseid, mis koguvad teavet kasutaja toimingute kohta, saavad eksportida. Et tagada nende jõudmine ettevõttesse struktureeritud kujul, kasutatakse erinevaid süsteeme, näiteks Alteryx. See tarkvara võimaldab teil teavet automaatselt vastu võtta, seda töödelda, kuid mis kõige tähtsam, teisendada see soovitud kujule ja vormingusse ilma seda moonutamata.

2. Suurandmete säilitamine ja töötlemine

Peaaegu alati tekib suurte teabekoguste kogumisel selle salvestamise probleem. Kõigist uuritud platvormidest eelistab meie ettevõte Verticat. Erinevalt teistest toodetest suudab Vertica endasse salvestatud teabe kiiresti “tagasi anda”. Miinustest võib välja tuua pika salvestamise, kuid suurandmete analüüsimisel tuleb esile tagasituleku kiirus. Näiteks kui me räägime kompileerimisest petabaidi teabe abil, on üleslaadimise kiirus üks olulisemaid omadusi.

3. Suurandmete visualiseerimine

Ja lõpuks, suurte andmemahtude analüüsimise kolmas etapp on . Selleks vajate platvormi, mis suudab visuaalselt kajastada kogu saadud teavet mugaval kujul. Meie arvates saab ülesandega hakkama ainult üks tarkvaratoode - Tableau. Loomulikult on tänapäeval üks parimaid lahendusi, mis suudab visuaalselt näidata igasugust teavet, muutes ettevõtte töö kolmemõõtmeliseks mudeliks, koondades kõigi osakondade tegevused ühtsesse üksteisest sõltuvasse ahelasse (täpsemalt saate lugeda Tableau võimaluste kohta).

Selle asemel pangem tähele, et peaaegu iga ettevõte saab nüüd luua oma suurandmeid. Suurandmete analüüs ei ole enam keeruline ja kulukas protsess. Nüüd on ettevõtte juhtkonnal kohustus kogutud teabele küsimused õigesti sõnastada, samas kui nähtamatud hallid alad praktiliselt ei jää.

Laadige alla Tableau

Laadige alla Tableau Desktopi täisversioon 14 päeva jooksul TASUTA ja saate KINGITUSEKS Tableau ärianalüütika koolitusmaterjale

Igal tööstusrevolutsioonil oli oma sümbolid: malm ja aur, teras ja masstootmine, polümeerid ja elektroonika ning järgmine revolutsioon toimub komposiitmaterjalide ja andmete märgi all. Big Data – vale jälg või tööstuse tulevik?

20.12.2011 Leonid Tšernyak

Esimese tööstusrevolutsiooni sümbolid olid malm ja aur, teine ​​- terase ja voolutootmine, kolmanda - polümeermaterjalid, alumiinium ja elektroonika ning järgmine revolutsioon toimub komposiitmaterjalide ja andmete märgi all. Kas suurandmed on vale jälg või tööstuse tulevik?

Juba üle kolme aasta on nad sellest palju rääkinud ja kirjutanud Suured andmed(Big Data) kombineerituna sõnaga “probleem”, lisades teema salapära. Selle aja jooksul on “probleem” sattunud valdava enamuse suurtootjate tähelepanu keskmesse, lootuses sellele lahendust leida luuakse palju startuppe ning kõik juhtivad valdkonnaanalüütikud trumbavad, kui oluline on töövõime. suure andmemahuga on nüüd konkurentsivõime tagamine. Selline, mitte väga hästi põhjendatud massitegelane kutsub esile eriarvamusi ja samal teemal võib kohata palju skeptilisi väiteid ning mõnikord kasutatakse Big Data puhul isegi epiteeti "punane heeringas" (tõlkes "suitsuheeringas" - vale). jälg, punane heeringas).

Mis on siis suurandmed? Lihtsaim viis on kujutleda suurandmeid kui andmete laviini, mis iseeneslikult kokku kukkus ja eikusagilt tulnud, või taandada probleem uutele tehnoloogiatele, mis muudavad infokeskkonda radikaalselt või võib-olla kogeme koos Big Dataga järgmist etappi. tehnoloogilises revolutsioonis? Tõenäoliselt nii see kui ka teine ​​ja kolmas ja midagi veel teadmata. On märkimisväärne, et enam kui neljast miljonist veebilehest, mis sisaldab fraasi Big Data, on miljonil ka sõna definitsioon – vähemalt veerand suurandmetest kirjutajatest püüab anda oma definitsiooni. Selline massihuvi viitab sellele, et suure tõenäosusega on suurandmetes kvalitatiivselt midagi muud kui see, mille poole tavateadvus trügib.

Taust

Eksitav võib olla asjaolu, et valdav enamus viiteid Big Datale on ühel või teisel viisil seotud ettevõtlusega. Tegelikult ei sündinud see termin korporatiivses keskkonnas, vaid selle laenasid analüütikud teadusväljaannetest. Big Data on üks väheseid nimesid, millel on täiesti usaldusväärne sünniaeg – 3. september 2008, mil ilmus Briti vanima teadusajakirja Nature erinumber, mis oli pühendatud vastuse leidmisele küsimusele „Kuidas saavad avaneda tehnoloogiad kas suurte mahtudega töötamise võimalus mõjutab teaduse tulevikku?” andmed? Eriväljaanne võtab kokku varasemad arutelud andmete rollist teaduses laiemalt ja eriti elektroonilises teaduses (e-teaduses).

Andmete roll teaduses on olnud kõneaineks väga pikka aega – esimesena kirjutas andmetöötlusest juba 18. sajandil inglise astronoom Thomas Simpson oma töös “Numbrite kasutamise eelistest astronoomilistes vaatlustes” , kuid alles eelmise sajandi lõpus muutus huvi selle teema vastu tuntavalt aktuaalseks ja Andmetöötlus tõusis esiplaanile eelmise sajandi lõpus, kui avastati, et arvutimeetodeid saab kasutada peaaegu kõigis teadustes alates arheoloogiast. tuumafüüsikasse. Selle tulemusena muutuvad teaduslikud meetodid ise märgatavalt. Pole juhus, et ilmus neologismi raamatukogu, mis on moodustatud sõnadest raamatukogu (raamatukogu) ja labor (labor), mis peegeldab muutusi idees, mida võib pidada uurimistöö tulemuseks. Seni esitati kolleegide hinnangul ainult saadud lõpptulemused, mitte toored eksperimentaalsed andmed, ja nüüd, kui mitmesuguseid andmeid saab "digitaalseks" teisendada, kui on olemas erinevad digitaalsed meediumid, siis on objektiks avaldamine võib olla mitmesuguseid mõõdetud andmeid ja eriti oluline on võimalus raamatukogus varem kogutud andmeid uuesti töödelda. Ja siis tekib positiivne tagasiside, mille tõttu teadusandmete kogumise protsess pidevalt kiireneb. Seetõttu pakkus Nature väljaande toimetaja Clifford Lynch eelseisvate muudatuste ulatust mõistes uuele paradigmale erinimetuse Big Data, mille ta valis analoogia põhjal selliste metafooridega nagu Big Oil, Big Ore, jne, peegeldades mitte niivõrd millegi kvantiteeti, kui palju on üleminek kvantiteedilt kvaliteedile?

Suurandmed ja äri

Vähem kui aasta on möödunud ajast, mil mõiste Big Data jõudis juhtivate äriväljaannete lehekülgedele, mis aga kasutasid hoopis teistsuguseid metafoore. Big Datat võrreldakse maavaradega – uus nafta, kullapalavik, andmekaeve, mis rõhutab andmete rolli varjatud info allikana; looduskatastroofidega - andmetornaado (andmete orkaan), andmeuputus (andmete üleujutus), andmete tõusulaine (andmete üleujutus), nende nägemine ohuna; tööstusliku tootmisega seose tabamine - andmete väljalaskmine (andmete väljastamine), tuletõrjevoolik (andmevoolik), tööstusrevolutsioon (tööstusrevolutsioon). Ettevõtluses, nagu ka teaduses, ei ole suured andmemahud midagi täiesti uut – vajadusest töötada suurte andmemahtudega on juba ammu räägitud näiteks seoses raadiosagedustuvastuse (RFID) levikuga ja sotsiaalse võrgustikud ja nagu ka teaduses, oli puudu vaid elav metafoor toimuva määratlemiseks. Seetõttu ilmusid 2010. aastal esimesed tooted, mis pretendeerisid Big Data kategooriasse – juba olemasolevatele asjadele leiti sobiv nimi. On märkimisväärne, et uute tehnoloogiate seisu ja väljavaateid iseloomustavas Hype Cycle'i 2011. aasta versioonis võtsid Gartneri analüütikud kasutusele veel ühe positsiooni Big Data and Extreme Information Processing and Management, mille hinnangul on asjakohaste lahenduste massilise juurutamise periood alates aastast kaks kuni viis aastat.

Miks on Big Data muutunud probleemiks?

Suurandmete mõiste ilmumisest on möödas kolm aastat, kuid kui teaduses on kõik enam-vähem selge, jääb suurandmete koht ettevõtluses ebaselgeks. Pole juhus, et nii sageli räägitakse “Big Data probleemist”. mitte ainult probleemi, vaid ka kõige muu kohta on samuti halvasti määratletud. Probleemi on sageli lihtsustatud, tõlgendatud nagu Moore'i seadust, ainsa erinevusega, et antud juhul on tegemist nähtusega, mis kahekordistab aastas andmemahu või liialdatakse sellega, esitledes seda peaaegu looduskatastroofina, mis vajab kiiresti kuidagi käsitleda. Andmeid on tõepoolest aina rohkem, kuid selle kõige juures kaotatakse silmist tõsiasi, et probleem pole sugugi väline, selle põhjuseks pole mitte niivõrd kokkuvarisenud andmemaht uskumatult palju, vaid vanade võimetus. meetodid uute mahtudega toimetulekuks ja mis kõige tähtsam – meie enda loodud. Tekib kummaline tasakaalustamatus – andmete genereerimise võime osutus tugevamaks kui võime neid töödelda. Selle tasakaalustamatuse põhjuseks on tõenäoliselt see, et 65-aastase arvutiajaloo jooksul pole me ikka veel aru saanud, mis on andmed ja kuidas need on seotud töötlemise tulemustega. Kummaline, matemaatikud on sajandeid tegelenud oma teaduse põhimõistetega, nagu arv ja arvusüsteemid, kaasates sellesse filosoofe ja meie puhul jäetakse tähelepanuta ja antakse üle andmed ja informatsioon, mis pole sugugi tühised asjad. intuitiivsele tajule. Nii selgus, et kõik need 65 aastat on andmetöötlustehnoloogia ise arenenud uskumatus tempos ning küberneetika ja infoteooria pole peaaegu üldse arenenud, jäädes 50ndate tasemele, mil vaakumtoruarvuteid kasutati eranditult arvutuste tegemiseks. Tõepoolest, praegune kära Big Data ümber tekitab tähelepanelikult vaadates skeptilise naeratuse.

Skaleerimine ja astmestamine

Pilved, suurandmed, analüütika – need kolm moodsa IT tegurit pole mitte ainult omavahel seotud, vaid tänapäeval ei saa nad enam üksteiseta eksisteerida. Suurandmetega töötamine on võimatu ilma pilvesalvestuse ja pilvandmetöötluseta – pilvetehnoloogiate esilekerkimine mitte ainult idee, vaid juba lõpetatud ja ellu viidud projektide näol sai ajendiks kasvuspiraali uue ringi käivitamiseks. huvi suurandmete analüütika vastu. Kui rääkida mõjust tööstusele tervikuna, siis tänaseks on muutunud ilmselgeks suurenenud nõuded salvestussüsteemide skaleerimisele. See on tõesti vajalik tingimus – on ju raske ette ennustada, millised analüütilised protsessid teatud andmeid nõuavad ja kui intensiivselt olemasolevat salvestusruumi laetakse. Lisaks muutuvad võrdselt oluliseks nii vertikaalse kui ka horisontaalse skaleerimise nõuded.

Oma uue põlvkonna salvestussüsteemides on Fujitsu pööranud suurt tähelepanu skaleerimise ja mitmetasandilise andmesalvestuse aspektidele. Praktika näitab, et tänapäeval peavad analüütiliste ülesannete täitmiseks süsteemid olema tugevalt koormatud, kuid äri nõuab, et kõik teenused, rakendused ja andmed ise oleksid alati kättesaadavad. Lisaks on nõuded analüütiliste uuringute tulemustele tänapäeval väga kõrged – asjatundlikult, korrektselt ja õigeaegselt läbi viidud analüüsiprotsessid võivad oluliselt parandada äritulemusi tervikuna.

Aleksander Jakovlev ([e-postiga kaitstud]), Fujitsu (Moskva) tooteturundusjuht.

Eirates andmete ja teabe rolli uurimisobjektina, rajati just see kaevandus, mis plahvatuslikult kasvas praegu, vajaduste muutumise ajal, mil arvutite arvutuskoormus osutus palju väiksemaks kui muud tüüpi andmetega tehtavad tööd. , ning nende toimingute eesmärk on saada olemasolevatest andmekogumitest uut teavet ja uusi teadmisi. Seetõttu on ahelas "andmed - teave - teadmised" seoseid taastamata mõttetu rääkida suurandmete probleemi lahendamisest. Andmeid töödeldakse, et toota teavet, mis on täpselt piisav, et inimene saaks need teadmiseks muuta.

Viimaste aastakümnete jooksul ei ole tehtud tõsist tööd toorandmete ja kasuliku teabe sidumiseks ning see, mida me tavaliselt kutsume Claude Shannoni teabeteooriaks, pole midagi muud kui signaali edastamise statistiline teooria ja sellel pole midagi pistmist tajutava teabega. inimesed. Eraldi vaatenurki kajastavaid üksikuid väljaandeid on palju, kuid täisväärtuslikku kaasaegset infoteooriat pole. Seetõttu ei tee valdav enamus spetsialiste andmetel infost üldse vahet. Kõik ümberringi väidavad lihtsalt, et andmeid on palju või palju, kuid kellelgi pole küpset ettekujutust sellest, mida täpselt seal palju on, kuidas tekkinud probleemi lahendada – ja seda kõike seetõttu, et andmetega töötamise tehnilised võimalused on selgelt ületanud nende kasutamise oskuste arengutaseme. Ainult ühel autoril, Web 2.0 ajakirja toimetaja Dion Hinchcliffe'il on suurandmete klassifikatsioon, mis võimaldab tehnoloogiaid korreleerida suurandmete töötlemisel oodatava tulemusega, kuid see pole kaugeltki rahuldav.

Hinchcliffe jagab Big Data lähenemisviisid kolme rühma: Fast Data, nende mahtu mõõdetakse terabaitides; Big Analytics – petabaitide andmed ja Deep Insight – eksabaidid, zettabaidid. Grupid erinevad üksteisest mitte ainult käsitletavate andmete hulga, vaid ka nende töötlemise lahenduse kvaliteedi poolest.

Kiirandmete töötlemine ei tähenda uute teadmiste omandamist, selle tulemused on korrelatsioonis a priori teadmistega ja võimaldavad hinnata, kuidas teatud protsessid kulgevad, see võimaldab paremini näha toimuvat ja täpsemalt mõnda kinnitada või ümber lükata. hüpoteesid. Fast Data probleemide lahendamiseks sobib vaid väike osa praegu olemasolevatest tehnoloogiatest, selles nimekirjas on mõned tehnoloogiad salvestusseadmetega töötamiseks (Greenplumi, Netezza, Oracle Exadata, Teradata, DBMS-i tooted nagu Verica ja kdb). Nende tehnoloogiate kiirus peab kasvama koos andmemahtude kasvuga.

Big Analyticsi tööriistadega lahendatavad probleemid on märgatavalt erinevad mitte ainult kvantitatiivselt, vaid ka kvalitatiivselt ning vastavad tehnoloogiad peaksid aitama uute teadmiste saamisel – nende eesmärk on muuta andmetesse salvestatud info uueks teadmiseks. Sellel keskmisel tasemel ei eeldata aga tehisintellekti olemasolu lahenduste või analüüsisüsteemi autonoomsete toimingute valimisel – see on üles ehitatud “supervised learning” põhimõttele. Teisisõnu, kogu tema analüütiline potentsiaal on temasse õppeprotsessi käigus sisse ehitatud. Kõige ilmsem näide on masin, mis mängib Jeopardy!. Sellise analüütika klassikalised esindajad on tooted MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache ja Mahout.

Kõrgeim tase, Deep Insight, hõlmab juhendamata õppimist ja kaasaegsete analüüsimeetodite ning erinevate visualiseerimismeetodite kasutamist. Sellel tasemel on võimalik avastada teadmisi ja mustreid, mis on a priori tundmatud.

Suurandmete analüüs

Aja jooksul muutuvad arvutirakendused reaalsele maailmale kogu selle mitmekesisuses lähemale, sellest tuleneb ka sisendandmete mahu kasv ja seega vajadus nende analüüsi järele ning reaalajale võimalikult lähedases režiimis. Nende kahe suundumuse lähenemine on viinud tekkeni Suurandmete analüüs(Big Data Analytics).

Watsoni arvuti võit oli hiilgav demonstratsioon Big Data Analyticsi võimekusest – astume huvitavasse ajastusse, mil arvutit ei kasutata esimest korda mitte niivõrd arvutuste kiirendamise vahendina, vaid abimehena, mis avardab. inimese võimed valida teavet ja teha otsuseid. Vannevar Bushi, Joseph Licklideri ja Doug Engelbarti näiliselt utoopilised plaanid hakkavad täituma, kuid see ei juhtu päris nii, nagu aastakümneid tagasi nähti – arvuti võimsus ei ole loogiliste võimete poolest inimesest paremus, mida teadlased eriti lootsid. jaoks, kuid oluliselt suuremate võimetega töödelda tohutuid andmehulki. Midagi sarnast juhtus ka Garri Kasparovi ja Deep Blue vastasseisus, arvuti ei olnud osavam mängija, kuid sai kiiremini rohkem valikuvõimalusi läbida.

Hiiglaslikud mahud koos suure kiirusega, mis eristavad Big Data Analyticsit teistest rakendustest, nõuavad sobivaid arvuteid ning tänapäeval pakuvad peaaegu kõik suuremad tootjad spetsiaalseid tarkvara- ja riistvarasüsteeme: SAP HANA, Oracle Big Data Appliance, Oracle Exadata Database Machine ja Oracle Exalytics Business Intelligence Machine. , Teradata Extreme Performance Appliance, NetApp E-seeria salvestustehnoloogia, IBM Netezza Data Appliance, EMC Greenplum, HP Converged Infrastructure'il põhinev Vertica Analyticsi platvorm. Lisaks on mängu astunud paljud väikesed ja idufirmad: Cloudera, DataStax, Northscale, Splunk, Palantir, Factual, Kognitio, Datameer, TellApart, Paraccel, Hortonworks.

Tagasiside

Kvalitatiivselt uued Big Data Analyticsi rakendused nõuavad lisaks uutele tehnoloogiatele ka kvalitatiivselt erinevat süsteemimõtlemise taset, kuid sellega on raskusi – Big Data Analyticsi lahenduste arendajad avastavad sageli 50ndatest tuntud tõdesid. Seetõttu käsitletakse analüütikat sageli lähteandmete ettevalmistamise vahenditest, visualiseerimisest ja muudest inimestele tulemuste pakkumiseks mõeldud tehnoloogiatest eraldatuna. Isegi selline lugupeetud organisatsioon nagu The Data Warehousing Institute vaatab analüütikat eraldiseisvalt: selle andmetel uurib 38% ettevõtetest juba Advanced Analyticsi kasutamist oma juhtimispraktikas ja veel 50% kavatseb seda teha järgmise kolme jooksul. aastat. Seda huvi põhjendatakse paljude ettevõtluse argumentidega, kuigi võib öelda ka lihtsamalt – ettevõtted nõuavad uutes tingimustes arenenumat juhtimissüsteemi ja selle loomist tuleb alustada tagasiside loomisest ehk süsteemist, mis aitab. otsuste tegemisel ja tulevikus ehk ehk õnnestub tegelikku otsustamist automatiseerida. Üllataval kombel sobib kõik eelnev juba 60ndatest tuntud tehnoloogiliste objektide automatiseeritud juhtimissüsteemide loomise metoodikasse.

Analüüsiks on vaja uusi tööriistu, sest andmeid pole lihtsalt rohkem kui varem, vaid rohkem väliseid ja sisemisi allikaid, nüüd on need keerukamad ja mitmekesisemad (struktureeritud, struktureerimata ja kvaasistruktureeritud), kasutatakse erinevaid indekseerimisskeeme (relatsiooniline, mitmemõõtmeline, NoSQL). Varasemate meetodite abil ei ole enam võimalik andmetega tegeleda – Big Data Analytics laieneb suurtele ja keerukatele massiividele, mistõttu kasutatakse ka termineid Discovery Analytics (discovery analytics) ja Exploratory Analytics (selgitav analüüs). Kuidas seda ka ei nimetada, olemus on sama – tagasiside, andes otsustajatele vastuvõetaval kujul teavet erinevate protsesside kohta.

Komponendid

Algandmete kogumiseks kasutatakse vastavaid riist- ja tarkvaratehnoloogiaid, millised sõltuvad juhtimisobjekti olemusest (RFID, sotsiaalvõrgustikest tulev info, erinevad tekstidokumendid jne). Need andmed lähevad analüütilise mootori sisendisse (regulaator tagasiside ahelas, kui jätkata analoogiat küberneetikaga). See kontroller põhineb riistvara-tarkvara platvormil, millel analüütiline tarkvara ise töötab; see ei paku automaatseks juhtimiseks piisavate juhtimistoimingute genereerimist, seega kaasatakse andmeteadlased või andmeinsenerid. Nende funktsiooni võib võrrelda rolliga, mida täidavad näiteks elektrotehnika valdkonna spetsialistid, kes kasutavad füüsikateadmisi elektrimasinate loomisel rakendatuna. Inseneride ülesanne on hallata andmete muutmise protsessi otsuste tegemiseks kasutatavaks teabeks – nad lõpetavad tagasisideahela. Big Data Analyticsi neljast komponendist huvitab meid antud juhul vaid üks – riist- ja tarkvaraplatvorm (sellist tüüpi süsteeme nimetatakse Analytic Appliance’iks või Data Warehouse Appliance’iks).

Mitu aastat oli ainsaks spetsialiseeritud analüütiliste masinate tootjaks Teradata, kuid see polnud esimene - 70ndate lõpus tegi Briti arvutitööstuse tollane juht ICL mitte eriti eduka katse luua sisu. -Addressable Data Store, mis põhines IDMS DBMS-il. Kuid Britton-Lee lõi 1983. aastal esimesena "andmebaasimasina", mis põhines Zilog Z80 protsessorite perekonna mitmeprotsessorilisel konfiguratsioonil. Britton-Lee omandas seejärel Teradata, mis on alates 1984. aastast tootnud MPP-arhitektuuriga arvuteid otsustustoetussüsteemide ja andmeladude jaoks. Ja selliste komplekside tarnijate uue põlvkonna esimene esindaja oli Netezza – selle Netezza Performance Serveri lahendus kasutas standardseid teraservereid koos spetsiaalsete Snippet Processing Unit teradega.

Analüütika DBMS-is

Analüütika on siin esikohal prognoos, või ennustav(Ennustav analüüs, RA). Enamikus olemasolevates rakendustes on RA-süsteemide lähteandmeteks varem andmeladudesse kogutud andmed. Analüüsiks viiakse andmed esmalt vahepealsetele poefassidele (Independent Data Mart, IDM), kus andmete esitamine ei sõltu seda kasutavatest rakendustest ning seejärel kantakse samad andmed üle spetsiaalsetele analüütilistele vitriinidele (Analytical Data Mart, ADM) , ja spetsialistid töötavad sellega , kasutades erinevaid arendustööriistu või andmekaevet (Data Mining). Selline mitmeastmeline mudel on suhteliselt väikeste andmemahtude puhul üsna vastuvõetav, kuid nende suurenedes ja tõhususe nõuete suurenedes ilmneb sellistel mudelitel mitmeid puudusi. Lisaks andmete teisaldamise vajadusele toob paljude sõltumatute ADM-ide olemasolu kaasa füüsilise ja loogilise infrastruktuuri keerukuse, kasutatavate modelleerimisvahendite hulk kasvab, erinevate analüütikute saadud tulemused on ebaühtlased ning arvutusvõimsus ja kanalid on ebaühtlased. kasutatakse kaugeltki mitte optimaalselt. Lisaks muudab salvestusruumi ja ADM-i eraldi olemasolu peaaegu reaalajas analüüsi praktiliselt võimatuks.

Lahenduseks võib olla lähenemine nimega In-Database Analytics või No-Copy Analytics, mis hõlmab andmete otse andmebaasis kasutamist analüütika eesmärgil. Selliseid DBMS-e nimetatakse mõnikord analüütiliseks ja paralleelseks. See lähenemine muutus eriti atraktiivseks MapReduce'i ja Hadoopi tehnoloogiate tulekuga. Uue põlvkonna In-Database Analytics rakendustes tehakse kogu andmetöötlus ja muu intensiivne töö otse laos olevate andmete peal. Ilmselgelt kiirendab see oluliselt protsesse ja võimaldab reaalajas teostada selliseid rakendusi nagu mustrituvastus, rühmitamine, regressioonanalüüs ja mitmesugused prognoosimise tüübid. Kiirendus ei saavutata mitte ainult laost poe esiküljele ülekandmise välistamisega, vaid peamiselt erinevate paralleelstamismeetodite, sealhulgas piiramatu skaleerimisega klastrisüsteemide kasutamisega. Lahendused nagu In-Database Analytics avavad võimaluse kasutada pilvetehnoloogiaid analüütikarakendustes. Järgmine samm võiks olla SAP HANA (High Performance Analytic Appliance) tehnoloogia, mille sisuks on andmete paigutamine analüüsimiseks RAM-i.

Peamised tarnijad...

Aastaks 2010 olid In-Database Analytics tarkvara peamised tarnijad Aster Data (Aster nCluster), Greenplum (Greenplum Database), IBM (InfoSphere Warehouse; IBM DB2), Microsoft (SQL Server 2008), Netezza (Netezza Performance System, PostGresSQL ), Oracle (Oracle Database 11g/10g, Oracle Exadata), SenSage (SenSage/columnar), Sybase (Sybase IQ), Teradata ja Vertica Systems (Vertica Analytic Database). Need on kõik tuntud ettevõtted, välja arvatud Silicon Valley idufirma SenSage. Tooted erinevad märkimisväärselt andmete tüübi, millega nad saavad töötada, funktsionaalsuse, liideste, kasutatava analüüsitarkvara ja pilves töötamise võime poolest. Lahenduste küpsuse osas on liider Teradata ja avangardi osas Aster Data. Analüütilise tarkvara pakkujate nimekiri on lühem – KXEN, SAS, SPSS ja TIBCO tooted võivad töötada kohalikes konfiguratsioonides ning pilvedes – Amazon, Cascading, Google, Yahoo! ja Cloudera.

2010. aasta oli ennustava analüütika valdkonnas pöördepunkt, mis on võrreldav 2007. aastaga, mil IBM omandas Cognose, SAP omandas Business Objecti ja Oracle omandas Hyperioni. Kõik sai alguse sellest, et EMC omandas Greenplumi, seejärel ostis IBM - Netezza, HP - Vertica, Teradata Aster Data ja SAP ostis Sybase'i.

...ja uusi võimalusi

Analüütiline paradigma avab põhimõtteliselt uusi võimalusi, mida edukalt tõestasid kaks Kölni inseneri, kes lõid ettevõtte ParStream (ametlik nimi empulse GmbH). Üheskoos õnnestus neil luua nii üldotstarbelistel protsessoritel kui ka graafikaprotsessoritel põhinev analüütiline platvorm, mis on eelkäijatega konkurentsivõimeline. Neli aastat tagasi said Michael Hummepl ja Jörg Bienert, varem Accenture'ist, Saksa reisifirmalt tellimuse, mis vajas süsteemi, et luua ringkäike, mis suudavad 100 millisekundi jooksul valida 20 parameetrit sisaldava kirje 6 miljardi kirjega andmebaasis. Ükski olemasolevatest lahendustest ei tule selle ülesandega toime, kuigi sarnaseid probleeme esineb kõikjal, kus on vaja väga suurte andmebaaside sisu operatiivset analüüsi. ParStream sündis eeldusest rakendada suure jõudlusega andmetöötlustehnoloogiaid Big Data Analyticsis. Hümmepl ja Bienert alustasid oma andmebaasi tuuma kirjutamisega, mis on loodud töötama x86 arhitektuuriklastris, mis toetab andmeoperatsioone paralleelsete voogude kujul, sellest ka nimi ParStream. Nad valisid algseadistusena töötada ainult struktureeritud andmetega, mis tegelikult avab võimaluse suhteliselt lihtsaks paralleelseks. Selle andmebaasi kujundus on lähemal Google'i uuele Dremeli projektile kui MapReduce'ile või Hadoopile, mis ei ole kohandatud reaalajas päringute jaoks. Alustades x86/Linuxi platvormil, jõudsid Hümmepl ja Bienert peagi veendumusele, et nende andmebaasi saavad toetada nVidia Fermi GPU-d.

Suurandmed ja andmetöötlus

Selleks, et mõista, mida on oodata nn suurandmetest, tuleks väljuda tänapäevase kitsa “IT” maailmapildi piiridest ja püüda näha toimuvat laiemas ajaloolises ja tehnoloogilises retrospektiivis, näiteks püüda leida analoogiaid tehnoloogiatega. millel on pikem ajalugu. Lõppude lõpuks, kui oleme oma tegevuse teemaks nimetanud tehnoloogiat, peame seda käsitlema kui tehnoloogiat. Peaaegu kõik teadaolevad materjalitehnoloogiad taanduvad kvalitatiivselt uute toodete saamiseks konkreetse tooraine või mõne muu komponendi töötlemisele, töötlemisele või komplekteerimisele – midagi on tehnoloogilise protsessi sisendis ja midagi väljundis.

Immateriaalsete infotehnoloogiate eripära on see, et tehnoloogiline ahel ei ole siin nii ilmne, pole selge, mis on tooraine, mis on tulemus, mis on sisend ja mis on väljund. Lihtsaim viis öelda, et sisend on algandmed ja väljund on kasulik teave. Üldiselt peaaegu tõsi, kuid suhe nende kahe üksuse vahel on äärmiselt keeruline; Kui jääme eluterve pragmatismi tasemele, siis saame piirduda järgmiste kaalutlustega. Andmed on erinevates vormides väljendatud töötlemata faktid, mis iseenesest ei kanna kasulikku tähendust enne, kui need on konteksti asetatud, korralikult organiseeritud ja töötlemise teel järjestatud. Informatsioon ilmneb töödeldud andmete inimliku analüüsi tulemusena, see analüüs annab andmetele tähenduse ja annab neile tarbijaomadusi. Andmed on korrastamata faktid, mis tuleb teabeks muuta. Kuni viimase ajani ideid selle kohta andmetöötlus(andmetöötlus) taandati algoritmiliste, loogiliste või statistiliste operatsioonide orgaaniliseks vahemikuks suhteliselt väikese andmehulgaga. Kui aga arvutitehnoloogia reaalmaailmale lähemale jõuab, suureneb vajadus reaalmaailmast pärit andmeid reaalmaailma puudutavaks informatsiooniks teisendada, töödeldavate andmete hulk suureneb ja nõuded töötlemise kiirusele suurenevad.

Loogiliselt võttes ei erine infotehnoloogiad materiaalsetest tehnoloogiatest palju, sisendiks on algandmed, väljund on struktureeritud, inimese tajumiseks mugavamal kujul, ammutades neist infot ja kasutades intelligentsuse jõudu teabe muutmisel kasulikuks teadmiseks. Arvuteid nimetati arvutiteks nende loendusvõime pärast, mäletan ENIACi esimest rakendust - relvade tuleandmete töötlemist ja nende muutmist suurtükitabeliteks. See tähendab, et arvuti töötles algandmeid, ekstraheeris kasulikud andmed ja kirjutas need kasutamiseks vastuvõetaval kujul üles. See, mis meie ees on, pole midagi muud kui tavaline tehnoloogiline protsess. Üldiselt tuleks väljakujunenud infotehnoloogia mõiste asemel sagedamini kasutada täpsemat andmetöötlust.

Infotehnoloogiad peaksid alluma üldistele mustritele, mille järgi arenevad kõik muud tehnoloogiad ja see on ennekõike töödeldud tooraine koguse suurenemine ja töötlemise kvaliteedi tõus. Seda juhtub igal pool, olenemata sellest, mis täpselt toorainena toimib ja mis on selle tulemus, olgu selleks metallurgia, naftakeemia, biotehnoloogia, pooljuhtide tehnoloogia jne. Üldine on ka see, et ükski tehnoloogiline valdkond ei arene monotoonselt, varakult või hetkeliselt kiirenenud areng ja hüpped tekivad hilja. Kiired üleminekud võivad tekkida siis, kui vajadus on väliselt ja tehnoloogial on võime seda sisemiselt rahuldada. Arvuteid ei saanud ehitada vaakumtorudele – ja tekkisid pooljuhid, autod vajasid palju bensiini – avastati pragunemisprotsess ja selliseid näiteid on palju. Seega peidab nimetus Big Data endas tekkivat kvalitatiivset üleminekut arvutitehnoloogias, mis võib kaasa tuua tõsiseid muutusi, pole juhus, et seda nimetatakse uueks tööstusrevolutsiooniks. Big Data on järjekordne tehniline revolutsioon koos kõigi sellest tulenevate tagajärgedega.

Esimene andmetöötluskogemus pärineb 4. aastatuhandest eKr, mil ilmus piktogrammiline kirjutamine. Sellest ajast peale on tekkinud mitu peamist andmetega töötamise valdkonda, millest võimsaim oli ja jääb tekstiliseks, esimestest savitahvlitest SSD-ni, esimese aastatuhande keskpaiga raamatukogudest eKr tänapäevaste raamatukogudeni, seejärel ilmusid mitmesugused matemaatilised numbrilised meetodid. papüürustest koos Pythagorase teoreemi tõestusega ja tabelitehnikatega, et lihtsustada arvutusi tänapäevastele arvutitele. Ühiskonna arenedes hakkasid kogunema mitmesugused tabeliandmed, millega töö automatiseerimine algas tabulaatoritega ning 19. ja 20. sajandil pakuti välja palju uusi meetodeid andmete loomiseks ja kogumiseks. Vajadust töötada suurte andmemahtudega mõisteti pikka aega, kuid raha polnud, seega utoopilised projektid nagu Paul Otleti “Libraarium” või fantastiline ilmaennustussüsteem, kasutades 60 tuhande inimese-kalkulaatori tööd.

Tänapäeval on arvutist saanud universaalne tööriist andmetega töötamiseks, kuigi see oli mõeldud ainult arvutuste automatiseerimiseks. Idee kasutada arvutit andmetöötluseks tekkis IBM-il kümme aastat pärast digitaalsete programmeeritavate arvutite leiutamist ja enne seda kasutati andmetöötluseks stantsimisseadmeid, nagu näiteks Herman Hollerithi leiutatud Unit Record. Neid nimetati Unit Record, see tähendab üks kirje - igal kaardil oli kogu kirje, mis oli seotud ühe objektiga. Esimesed arvutid ei suutnud Big Dataga töötada – alles ketta- ja lindisalvestusseadmete tulekuga suutsid nad konkureerida 60ndate lõpuni eksisteerinud masinarvutusjaamadega. Muide, Unit Record pärand on relatsiooniandmebaasides selgelt nähtav.

Lihtsus on edu võti

Toorandmete mahtude kasv koos vajadusega neid reaalajas analüüsida eeldab selliste tööriistade loomist ja juurutamist, mis suudavad tõhusalt lahendada nn Big Data Analyticsi probleemi. Infobuilderi tehnoloogiad võimaldavad teil töötada mis tahes allikast pärinevate andmetega reaalajas tänu paljudele erinevatele adapteritele ja Enterprise Service Busi arhitektuurile. WebFOCUS tööriist võimaldab teil andmeid käigu pealt analüüsida ja tulemusi kasutaja jaoks parimal viisil visualiseerida.

RSTAT-tehnoloogia põhjal on Information Builders loonud ennustava analüütikatoote, mis võimaldab prognoosida stsenaariume: "Mis juhtub, kui" ja "Milleks on vaja".

Ärianalüütika tehnoloogiad on jõudnud ka Venemaale, kuid ennustavat analüüsi kasutavad vaid vähesed Venemaa ettevõtted, mille põhjuseks on kodumaiste ettevõtete madal ärianalüütika kasutamise kultuur ja ärikasutajate raskusi olemasolevatest analüüsimeetoditest aru saada. Seda silmas pidades pakub Information Builders täna tooteid, mis on Gartneri hinnangul kõige hõlpsamini kasutatavad.

Mihhail Stroev([e-postiga kaitstud]), Venemaa ja SRÜ äriarenduse direktor ettevõttes InfoBuild CIS (Moskva).

Andmed on kõikjal

Kui arvutid muutusid järk-järgult arvutusseadmetest universaalseteks andmetöötlusmasinateks, hakkasid umbes 1970. aasta järel ilmuma uued mõisted: andmed kui tooted; tööriistad andmetega töötamiseks (andmetööriist); vastava organisatsiooni kaudu juurutatud rakendused (andmerakendus); andmeteadus; teadlased, kes töötavad andmetega (datateadlane) ja isegi ajakirjanikud, kes edastavad andmetes sisalduvat teavet laiemale avalikkusele (andmeajakirjanik).

Tänapäeval on laialt levinud andmerakenduste klassi rakendused, mis mitte ainult ei tee andmetega operatsioone, vaid ammutavad neist lisaväärtusi ja loovad tooteid andmete kujul. Üks esimesi seda tüüpi rakendusi on CDDB heliplaatide andmebaas, mis erinevalt traditsioonilistest andmebaasidest luuakse plaatidelt andmete ekstraheerimisel ja kombineerimisel metaandmetega (plaatide nimed, lugude nimed jne). See alus on Apple iTunes'i teenuse aluseks. Google'i äriedu üheks teguriks oli ka teadlikkus andmerakenduse rollist – andmete omamine võimaldab sellel ettevõttel palju “teada”, kasutades andmeid, mis asuvad väljaspool otsitavat lehte (PageRank algoritm). Google on õigekirjaprobleemi lahendanud üsna lihtsalt – selle jaoks on loodud vigade ja paranduste andmebaas ning kasutajale pakutakse parandusi, millega ta saab nõustuda või tagasi lükata. Sarnast lähenemist kasutatakse kõnesisendi tuvastamisel – see põhineb kogutud heliandmetel.

2009. aastal, seagripi puhangu ajal, võimaldas otsingumootoritesse tehtud päringute analüüs jälgida epideemia levikut. Paljud ettevõtted on järginud Google'i teed (Facebook, LinkedIn, Amazon jne), mitte ainult ei paku teenuseid, vaid kasutavad kogutud andmeid ka muudel eesmärkidel. Võimalus seda tüüpi andmeid töödelda andis tõuke teise rahvastikuteaduse – kodanikuteaduse – tekkele. Rahvastikuandmete tervikliku analüüsiga saadud tulemused võimaldavad saada inimeste kohta palju sügavamaid teadmisi ning teha teadlikumaid haldus- ja äriotsuseid. Andmete ja nendega töötamise tööriistade kogumit nimetatakse nüüd infovaraks.

Suur andmemasin

Andmelaod, veebipoed, arveldussüsteemid või mõni muu Big Data projektide alla liigitatav platvorm on reeglina unikaalse spetsiifikaga, mille kujundamisel on põhiline integratsioon tööstusandmetega, andmete kogumise protsesside tagamine, organiseerimine ja analüütika.

Oracle pakkus suurandmete töötlemise ahela toetamiseks integreeritud Oracle Big Data Appliance'i lahendust, mis koosneb optimeeritud riistvarast koos täieliku tarkvarapinuga ja 18 Sun X4270 M2 serveriga. Ühendus põhineb 40 Gbps Infinibandil ja 10 Gigabit Ethernetil. Oracle Big Data Appliance sisaldab nii Oracle'i avatud lähtekoodiga kui ka kohandatud tarkvara kombinatsiooni.

Võtmeväärtuste poode või NoSQL-i DBMS-e peetakse tänapäeval suurandmete maailma jaoks oluliseks ning need on optimeeritud andmete kiireks kogumiseks ja juurdepääsuks. Sellise Oracle Big Data Appliance'i DBMS-ina kasutatakse Oracle Berkley DB-l põhinevat DBMS-i, mis salvestab teavet salvestussüsteemi topoloogia kohta, jaotab andmeid ja mõistab, kuhu saab andmeid paigutada kõige väiksema ajaga.

Oracle Loader for Hadoop lahendus võimaldab kasutada MapReduce'i tehnoloogiat optimeeritud andmekogumite loomiseks Oracle 11g DBMS-i laadimiseks ja analüüsimiseks. Andmed genereeritakse Oracle DBMS-i "natiivses" vormingus, mis minimeerib süsteemiressursside kasutamist. Vormindatud andmeid töödeldakse klastris ja seejärel pääseb andmetele juurde tavapärastest RDBMS-i kasutaja töölaudadest, kasutades standardseid SQL-käske või ärianalüüsi tööriistu. Hadoopi ja Oracle DBMS-i andmete integreerimine toimub Oracle Data Integrator lahenduse abil.

Oracle Big Data Appliance'iga on kaasas Apache Hadoopi avatud distributsioon, sealhulgas HDFS-failisüsteem ja muud komponendid, R-statistikapaketi avatud distributsioon toorandmete analüüsimiseks ja Oracle Enterprise Linux 5.6. Ettevõtted, kes juba kasutavad Hadoopi, saavad integreerida HDFS-is hostitud andmed Oracle'i DBMS-i, kasutades väliste tabelite funktsioone ja pole vaja andmeid kohe DBMS-i laadida – välisandmeid saab kasutada koos Oracle'i andmebaasis olevate sisemiste andmetega, kasutades selleks SQL-käsud.

Ühenduvus Oracle Big Data Appliance'i ja Oracle Exadata vahel Infinibandi kaudu tagab kiire andmeedastuse paketttöötluseks või SQL-päringuteks. Oracle Exadata pakub jõudlust, mida vajate nii andmelao kui ka võrgutehingute töötlemise rakenduste jaoks.

Uut Oracle Exalyticsi toodet saab kasutada ärianalüütika probleemide lahendamiseks ja see on optimeeritud kasutamiseks koos mälusisese töötlemisega Oracle Business Intelligence Enterprise Editioniga.

Vladimir Demkin ([e-postiga kaitstud]), Oracle CIS (Moskva) Oracle Exadata suuna juhtiv konsultant.

Teadus ja spetsialistid

Raporti “Mis on andmeteadus?” autor (What is Data Science?), mis on avaldatud sarjas O'Reilly Radar Report, kirjutas Mike Loukidis: "Tulevik kuulub ettevõtetele ja inimestele, kes suudavad andmeid toodeteks muuta." See avaldus toob tahtmatult meelde Rothschildi kuulsad sõnad: "Kellele kuulub teave, sellele kuulub maailm", mille ta lausus, kui ta sai enne kedagi teist teada Napoleoni lüüasaamisest Waterloos ja korraldas väärtpaberipettuse. Tänapäeval väärib see aforism ümbersõnastamist: "Maailm kuulub neile, kellel on nende analüüsimiseks vajalikud andmed ja tehnoloogiad." Veidi hiljem elanud Karl Marx näitas, et tööstusrevolutsioon jagas inimesed kahte rühma – need, kes omasid tootmisvahendeid, ja need, kes nende heaks töötasid. Üldjoontes on midagi sarnast praegu toimumas, kuid praegu pole omandiõiguse ja funktsioonide jaotuse subjektiks mitte materiaalsete väärtuste tootmisvahendid, vaid andmete ja teabe tootmise vahendid. Ja siit tekivadki probleemid – selgub, et andmete omamine on palju keerulisem kui materiaalse vara omamine, esimesi on üsna lihtne korrata ja nende varguse tõenäosus on palju suurem kui materiaalsete esemete vargusel. Lisaks on olemas õigusluure tehnikad - piisava mahu ja sobivate analüüsimeetoditega saate "välja mõelda", mis on peidetud. Seetõttu pööratakse nüüd nii suurt tähelepanu Big Data Analyticsile (vt külgriba) ja selle eest kaitsmise vahenditele.

Andmeteaduseks nimetatakse mitmesuguseid andmetega seotud tegevusi ja eelkõige teabe hankimise meetodite valdamist, mis on vähemalt vene keelde tõlgituna mõnevõrra eksitav, kuna viitab pigem mitte mingile uuele akadeemilisele teadusele, vaid teadmiste ammutamiseks vajalike interdistsiplinaarsete teadmiste ja oskuste kogum. Sellise komplekti koosseis sõltub suuresti valdkonnast, kuid andmeteadlasteks kutsutavatele spetsialistidele saame tuvastada enam-vähem üldistatud kvalifikatsiooninõuded. Kõige paremini sai sellega hakkama Drew Conway, kes analüüsis varem ühes USA luureagentuuris terroriohtude andmeid. Tema väitekirja põhiteesid avaldati kord kvartalis ilmuvas ajakirjas IQT Quarterly, mida annab välja USA CIA ja teadusorganisatsioonide vaheline vahendaja In-Q-Tel.

Conway kujutas oma mudelit Venni diagrammi kujul (vt joonist), mis esindab kolme teadmiste ja oskuste valdkonda, mida tuleb omandada ja omandada, et saada andmeteadlaseks. Häkkimisoskust ei tohiks mõista pahatahtliku tegevusena, antud juhul teatud tööriistade valdamise kombinatsioonina erilise analüütilise meelega, nagu Hercule Poirot, või võib-olla seda võimet võib nimetada Sherlock Holmesi deduktiivseks meetodiks. Erinevalt suurtest detektiividest peate olema ka ekspert mitmes matemaatilises valdkonnas ja mõistma teemat. Masinõpe moodustub kahe esimese valdkonna ristumiskohas ning teise ja kolmanda ristumiskohas - traditsioonilised meetodid. Kolmas lõikumisala on spekulatiivsuse tõttu ohtlik, ilma matemaatiliste meetoditeta ei saa olla objektiivset nägemust. Kõigi kolme tsooni ristumiskohas asub andmeteadus.

Conway diagramm annab lihtsustatud pildi; esiteks ei paikne häkkerite ja matemaatikaringide ristumiskohas ainult masinõpe, teiseks on viimase ringi suurus palju suurem, tänapäeval hõlmab see paljusid erialasid ja tehnoloogiaid. Masinõpe viitab ainult ühele tehisintellekti valdkonnale, mis on seotud õppimisvõimeliste algoritmide konstrueerimisega; see jaguneb kaheks alamvaldkonnaks: pretsedent ehk induktiivne õpe, mis paljastab andmetes peidetud mustrid, ja deduktiivne, mille eesmärk on ekspertteadmiste vormistamine. . Masinõpe jaguneb ka juhendatud õppeks (Supervised Learning), kui uuritakse klassifitseerimismeetodeid, mis põhinevad eelnevalt ettevalmistatud koolitusandmete kogumitel, ja juhendamata õppimiseks (Unsupervised Learning), kui sisemustreid otsitakse klasteranalüüsi kaudu.

Niisiis, Big Data ei ole spekulatiivne mõtlemine, vaid mööduva tehnilise revolutsiooni sümbol. Vajadus suurandmetega analüütilise töö järele muudab oluliselt IT-tööstuse palet ning stimuleerib uute tarkvara- ja riistvaraplatvormide teket. Juba praegu kasutatakse suurte andmemahtude analüüsimiseks kõige arenenumaid meetodeid: tehisnärvivõrgud – bioloogiliste närvivõrkude organiseerimise ja toimimise põhimõttel üles ehitatud mudelid; ennustava analüütika, statistika ja loomuliku keele töötlemise meetodid (tehisintellekti ja matemaatilise lingvistika haru, mis uurib loomulike keelte arvutianalüüsi ja sünteesi probleeme). Kasutatakse ka inimeksperte kaasavaid meetodeid ehk crowdsourcing, A/B testimine, sentimentide analüüs jne. Tulemuste visualiseerimiseks kasutatakse tuntud meetodeid, näiteks sildipilved ja täiesti uus Clustergram, History Flow ja Spatial Information Flow. .

Big Data tehnoloogiate poolelt toetavad neid hajutatud failisüsteemid Google File System, Cassandra, HBase, Luster ja ZFS, tarkvarakonstruktorid MapReduce ja Hadoop ning paljud teised lahendused. Ekspertide, nagu McKinsey Instituut, hinnangul teevad Big Data mõjul suurima muutuse tootmise, tervishoiu, kaubanduse, haldusjuhtimise ja üksikute liikumiste jälgimise valdkonnad.



Ainult laisad ei räägi suurandmetest, kuid nad ei saa peaaegu aru, mis see on ja kuidas see töötab. Alustame kõige lihtsamast – terminoloogiast. Vene keeles öeldes on suurandmed erinevad tööriistad, lähenemisviisid ja meetodid nii struktureeritud kui ka struktureerimata andmete töötlemiseks, et neid konkreetsete ülesannete ja eesmärkide jaoks kasutada.

Struktureerimata andmed on teave, millel ei ole etteantud struktuuri või mis ei ole korraldatud kindlas järjekorras.

Mõiste "suured andmed" võttis ajakirja Nature toimetaja Clifford Lynch kasutusele juba 2008. aastal erinumbris, mis oli pühendatud maailma teabemahtude plahvatuslikule kasvule. Kuigi suurandmed ise olid muidugi varem olemas. Ekspertide sõnul hõlmab suurandmete kategooria enamikku andmevoogusid, mis on üle 100 GB päevas.

Loe ka:

Tänapäeval peidab see lihtne termin ainult kahte sõna – andmete salvestamine ja töötlemine.

Suured andmed – lihtsate sõnadega

Kaasaegses maailmas on suurandmed sotsiaal-majanduslik nähtus, mis on seotud sellega, et tohutu hulga andmete analüüsimiseks on tekkinud uued tehnoloogilised võimalused.

Loe ka:

Arusaadavuse hõlbustamiseks kujutage ette supermarketit, kus kõik kaubad pole teie harjumuspärases järjekorras. Puuvilja kõrvale leib, külmutatud pitsa kõrvale tomatipasta, tampooniresti ette süütevedelik, mis sisaldab muu hulgas avokaadosid, tofut või shiitake seeni. Big data paneb kõik oma kohale ja aitab leida pähklipiima, teada saada maksumuse ja aegumiskuupäeva ning ka seda, kes peale sinu seda piima ostab ja miks see lehmapiimast parem on.

Kenneth Cukier: Suured andmed on paremad andmed

Suurandmete tehnoloogia

Töödeldakse tohutuid andmemahtusid, et inimene saaks konkreetseid ja vajalikke tulemusi nende edasiseks efektiivseks kasutamiseks.

Loe ka:

Tegelikult on suurandmed probleemide lahendus ja alternatiiv traditsioonilistele andmehaldussüsteemidele.

McKinsey järgi suurandmetele rakendatavad analüüsitehnikad ja meetodid:

  • Rahvahulga hankimine;

    Andmete segamine ja integreerimine;

    Masinõpe;

    Kunstlikud närvivõrgud;

    Mustri tuvastamine;

    Ennustav analüütika;

    Simulatsiooni modelleerimine;

    Ruumianalüüs;

    Statistiline analüüs;

  • Analüütiliste andmete visualiseerimine.

Andmetöötlust võimaldav horisontaalne skaleeritavus on suurandmete töötlemise aluspõhimõte. Andmed jaotatakse arvutussõlmede vahel ja töötlemine toimub ilma jõudluse halvenemiseta. McKinsey hõlmas rakendatavuse konteksti ka relatsioonihaldussüsteemid ja äriteabe.

Tehnoloogiad:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • Riistvaralahendused.

Loe ka:

Suurandmete jaoks on traditsioonilised defineerivad omadused, mille Meta Group töötas välja juba 2001. aastal ja mida nimetatakse " Kolm V»:

  1. Helitugevus- füüsilise mahu suurus.
  2. Kiirus- kasvutempo ja kiire andmetöötluse vajadus tulemuste saamiseks.
  3. Mitmekesisus- võimalus töödelda samaaegselt erinevat tüüpi andmeid.

Suurandmed: rakendused ja võimalused

Heterogeense ja kiiresti saabuva digitaalse teabe mahtu on traditsiooniliste vahenditega võimatu töödelda. Andmete analüüs ise võimaldab näha teatud ja hoomamatuid mustreid, mida inimene ei näe. See võimaldab meil optimeerida kõiki oma eluvaldkondi – alates avalikust haldusest kuni tootmise ja telekommunikatsioonini.

Näiteks mõned ettevõtted kaitsesid paar aastat tagasi oma kliente pettuste eest ja kliendi raha eest hoolitsemine tähendab oma raha eest hoolitsemist.

Susan Etliger: Aga suurandmed?

Suurandmetel põhinevad lahendused: Sberbank, Beeline ja teised ettevõtted

Beeline'il on abonentide kohta tohutul hulgal andmeid, mida nad kasutavad mitte ainult nendega töötamiseks, vaid ka analüütiliste toodete loomiseks, näiteks väliskonsultatsiooniks või IPTV analüüsiks. Beeline segmenteeris andmebaasi ja kaitses kliente finantspettuste ja viiruste eest, kasutades talletamiseks HDFS-i ja Apache Sparki ning andmetöötluseks Rapidminerit ja Pythonit.

Loe ka:

Või meenutagem Sberbanki nende vana korpusega AS SAFI. See on süsteem, mis analüüsib fotosid, et tuvastada pangakliente ja vältida pettusi. Süsteem võeti kasutusele juba 2014. aastal, süsteem põhineb andmebaasist fotode võrdlemisel, mis tänu arvutinägemisele jõuavad sinna stendidelt veebikaameratest. Süsteemi aluseks on biomeetriline platvorm. Tänu sellele on pettuste juhtumid vähenenud 10 korda.

Suured andmed maailmas

Aastaks 2020 genereerib inimkond prognooside kohaselt 40–44 zetabaiti informatsiooni. Ja aastaks 2025 kasvab see 10 korda, selgub IDC analüütikute koostatud aruandest The Data Age 2025. Aruandes märgitakse, et suurema osa andmetest loovad ettevõtted ise, mitte tavatarbijad.

Teadusanalüütikud usuvad, et andmetest saab elutähtis vara ja turvalisusest saab elu kriitiline alus. Samuti on töö autorid kindlad, et tehnoloogia muudab majandusmaastikku ning tavakasutaja suhtleb ühendatud seadmetega umbes 4800 korda päevas.

Suur andmeturg Venemaal

Suurandmed pärinevad tavaliselt kolmest allikast:

  • Internet (sotsiaalvõrgustikud, foorumid, ajaveebid, meedia ja muud saidid);
  • Ettevõtte dokumentide arhiivid;
  • Andurite, instrumentide ja muude seadmete näidud.

Suured andmed pankades

Lisaks ülalkirjeldatud süsteemile sisaldab Sberbanki strateegia aastateks 2014–2018 järgmist: räägib superandmete analüüsimise tähtsusest kvaliteetse klienditeeninduse, riskijuhtimise ja kulude optimeerimise jaoks. Nüüd kasutab pank Big datat riskide maandamiseks, pettuste vastu võitlemiseks, klientide segmenteerimiseks ja krediidivõime hindamiseks, personalijuhtimiseks, kontorijärjekordade prognoosimiseks, töötajate preemiate arvutamiseks ja muudeks töödeks.

VTB24 kasutab suurandmeid klientide väljavoolu segmenteerimiseks ja haldamiseks, finantsaruandluse loomiseks ning arvustuste analüüsimiseks sotsiaalvõrgustikes ja foorumites. Selleks kasutab ta Teradata, SAS Visual Analyticsi ja SAS Marketing Optimizeri lahendusi.

HSE õpetajate veerg suurandmetega töötamise müütidest ja juhtumitest

Järjehoidjate juurde

Riikliku Teadusülikooli Kõrgema Majanduskooli uue meedia kooli õppejõud Konstantin Romanov ja Aleksander Pjatigorski, kes on ka Beeline'i digitransformatsiooni direktor, kirjutasid saidile veeru peamistest väärarusaamadest suurandmete kohta – näited kasutamisest. tehnoloogia ja tööriistad. Autorid soovitavad, et väljaanne aitab ettevõtete juhtidel seda kontseptsiooni mõista.

Müüdid ja väärarusaamad suurandmete kohta

Big Data ei ole turundus

Mõiste Big Data on muutunud väga moekaks – seda kasutatakse miljonites olukordades ja sadade erinevate tõlgendustega, mis pole sageli seotud sellega, mis see on. Mõisted on sageli inimeste peas asendatud ja suurandmed aetakse segamini turundustootega. Lisaks on mõnes ettevõttes Big Data turundusosakonna osa. Suurandmete analüüsi tulemus võib tõepoolest olla turundustegevuse allikas, aga ei midagi enamat. Vaatame, kuidas see toimib.

Kui tuvastasime nimekirja neist, kes ostsid meie poest kaks kuud tagasi rohkem kui kolme tuhande rubla väärtuses kaupu ja saatsid seejärel neile kasutajatele mingisuguse pakkumise, siis on see tüüpiline turundus. Tuletame struktuuriandmete põhjal selge mustri ja kasutame seda müügi suurendamiseks.

Kui aga kombineerida CRM-i andmed näiteks Instagramist voogedastusinfoga ja seda analüüsida, leiame mustri: inimene, kes on kolmapäeva õhtul aktiivsust vähendanud ja kelle viimasel fotol on kassipojad, peaks tegema kindla pakkumise. Sellest saab juba suurandmed. Leidsime päästiku, edastasime selle turundajatele ja nad kasutasid seda oma eesmärkidel.

Siit järeldub, et tehnoloogia töötab enamasti struktureerimata andmetega ja isegi kui andmed on struktureeritud, jätkab süsteem nendes peidetud mustrite otsimist, mida turundus ei tee.

Big Data ei ole IT

Selle loo teine ​​äärmus: Big Data aetakse sageli segi IT-ga. See on tingitud asjaolust, et Venemaa ettevõtetes on IT-spetsialistid reeglina kõigi tehnoloogiate, sealhulgas suurandmete eestvedajad. Seega, kui kõik selles osakonnas juhtub, jääb ettevõttele tervikuna mulje, et tegemist on mingi IT-tegevusega.

Tegelikult on siin põhimõtteline erinevus: Big Data on konkreetse toote hankimisele suunatud tegevus, mis pole IT-ga üldse seotud, kuigi ilma selleta tehnoloogia eksisteerida ei saa.

Big Data ei ole alati teabe kogumine ja analüüs

Big Data kohta on veel üks eksiarvamus. Kõik mõistavad, et see tehnoloogia hõlmab suuri andmemahtusid, kuid alati pole selge, milliseid andmeid mõeldakse. Igaüks saab teavet koguda ja kasutada; nüüd on see võimalik mitte ainult filmides, mis räägivad, vaid ka igas, isegi väga väikeses ettevõttes. Küsimus on vaid selles, mida täpselt koguda ja kuidas seda enda huvides ära kasutada.

Kuid tuleb mõista, et suurandmete tehnoloogia ei ole absoluutselt igasuguse teabe kogumine ja analüüsimine. Näiteks kui kogute sotsiaalvõrgustikes andmeid konkreetse inimese kohta, siis need ei ole Big Data.

Mis on suurandmed tegelikult?

Big Data koosneb kolmest elemendist:

  • andmed;
  • analüütika;
  • tehnoloogiaid.

Big Data ei ole ainult üks neist komponentidest, vaid kõigi kolme elemendi kombinatsioon. Inimesed asendavad sageli mõisteid: ühed usuvad, et suurandmed on lihtsalt andmed, teised aga, et see on tehnoloogia. Kuid tegelikult, hoolimata sellest, kui palju andmeid te kogute, ei saa te ilma õige tehnoloogia ja analüütikata nendega midagi peale hakata. Kui analüüs on hea, kuid andmeid pole, on see veelgi hullem.

Kui me räägime andmetest, siis see pole ainult tekstid, vaid ka kõik Instagrami postitatud fotod ja üldiselt kõik, mida saab analüüsida ja erinevatel eesmärkidel ja ülesannetes kasutada. Teisisõnu viitavad andmed tohutule hulgale erinevate struktuuride sise- ja välisandmetele.

Vaja on ka analüüsi, sest Big Data ülesanne on mingid mustrid üles ehitada. See tähendab, et analüütika on varjatud sõltuvuste tuvastamine ning uute küsimuste ja vastuste otsimine kogu heterogeensete andmete mahu analüüsi põhjal. Lisaks tekitab suurandmed küsimusi, mida ei saa nendest andmetest otseselt tuletada.

Kui rääkida piltidest, siis see, et postitate foto, millel on seljas sinine T-särk, ei tähenda midagi. Kui aga kasutada fotograafiat Big Data modelleerimiseks, võib selguda, et just praegu tasuks laenu pakkuda, sest sinu sotsiaalses grupis viitab selline käitumine teatud nähtusele tegevuses. Seetõttu ei ole "paljad" andmed ilma analüütikata, ilma varjatud ja mitteilmsete sõltuvuste tuvastamiseta suurandmed.

Nii et meil on suured andmed. Nende hulk on tohutu. Meil on ka analüütik. Kuidas aga tagada, et nende algandmete põhjal jõuame konkreetse lahenduseni? Selleks vajame tehnoloogiaid, mis võimaldavad meil mitte ainult neid salvestada (ja see oli varem võimatu), vaid ka analüüsida.

Lihtsamalt öeldes, kui teil on palju andmeid, vajate tehnoloogiaid, näiteks Hadoopi, mis võimaldavad salvestada kogu teabe esialgsel kujul hilisemaks analüüsiks. Selline tehnoloogia tekkis Interneti-hiiglastes, kuna nad olid esimesed, kes seisid silmitsi suure hulga andmete salvestamise ja nende analüüsimise probleemiga hilisemaks monetiseerimiseks.

Lisaks optimeeritud ja odavate andmete salvestamise tööriistadele on teil vaja analüütilisi tööriistu, aga ka kasutatava platvormi lisandmooduleid. Näiteks Hadoopi ümber on juba tekkinud terve ökosüsteem seotud projekte ja tehnoloogiaid. Siin on mõned neist:

  • Pig on deklaratiivne andmeanalüüsi keel.
  • Taru – andmete analüüs SQL-ile sarnase keele abil.
  • Oozie – Hadoopi töövoog.
  • Hbase on andmebaas (mitterelatsiooniline), mis sarnaneb Google'i suure tabeliga.
  • Mahout – masinõpe.
  • Sqoop - andmete edastamine RSDB-st Hadoopi ja vastupidi.
  • Flume - logide ülekandmine HDFS-i.
  • Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS ja nii edasi.

Kõik need tööriistad on kõigile tasuta kättesaadavad, kuid on ka mitmeid tasulisi lisandmooduleid.

Lisaks on vaja spetsialiste: arendajat ja analüütikut (nn Data Scientist). Vaja on ka juhti, kes saab aru, kuidas seda analüütikat konkreetse probleemi lahendamiseks rakendada, sest iseenesest on see täiesti mõttetu, kui see pole äriprotsessidesse integreeritud.

Kõik kolm töötajat peavad töötama meeskonnana. Juht, kes annab andmeteaduse spetsialistile ülesande leida teatud muster, peab mõistma, et ta ei leia alati täpselt seda, mida ta vajab. Sel juhul peaks juht tähelepanelikult kuulama, mida andmeteadlane leidis, sest sageli osutuvad tema leiud ettevõttele huvitavamaks ja kasulikumaks. Teie ülesanne on rakendada seda ettevõttes ja luua sellest toode.

Vaatamata sellele, et praegu on palju erinevaid masinaid ja tehnoloogiaid, jääb lõplik otsus alati inimese enda teha. Selleks tuleb info kuidagi visualiseerida. Selleks on üsna palju tööriistu.

Kõige ilmekam näide on geoanalüütilised aruanded. Ettevõte Beeline teeb palju koostööd erinevate linnade ja piirkondade valitsustega. Väga sageli tellivad need organisatsioonid selliseid aruandeid nagu „Liiklusummikud teatud asukohas”.

On selge, et selline aruanne peaks riigiasutusteni jõudma lihtsal ja arusaadaval kujul. Kui pakume neile tohutu ja täiesti arusaamatu tabeli (st teavet sellisel kujul, nagu me selle saame), ei osta nad tõenäoliselt sellist aruannet - see on täiesti kasutu, nad ei saa sellest teadmisi, nad tahtsid saada.

Seega, hoolimata sellest, kui head on andmeteadlased ja millised mustrid nad leiavad, ei saa te nende andmetega töötada ilma heade visualiseerimisvahenditeta.

Andmeallikad

Saadud andmete massiiv on väga suur, seega võib selle jagada mitmeks rühmaks.

Ettevõttesisesed andmed

Kuigi 80% kogutud andmetest kuulub sellesse rühma, ei kasutata seda allikat alati. Sageli on need andmed, mida pealtnäha keegi üldse ei vaja, näiteks logid. Kui aga vaadata neid teise nurga alt, võib vahel leida neist ootamatuid mustreid.

Jagamisvara allikad

See hõlmab andmeid sotsiaalvõrgustikest, Internetist ja kõigest, millele on tasuta juurdepääs. Miks on see jagamisvara tasuta? Ühest küljest on need andmed kõigile kättesaadavad, aga kui tegemist on suurettevõttega, siis pole nende hankimine kümnete tuhandete, sadade või miljonite klientidega tellijabaasi suuruses enam lihtne ülesanne. Seetõttu on turul nende andmete edastamiseks tasulisi teenuseid.

Tasulised allikad

See hõlmab ettevõtteid, mis müüvad andmeid raha eest. Need võivad olla telekommunikatsioonid, DMP-d, Interneti-ettevõtted, krediidibürood ja koondajad. Venemaal telekomid andmeid ei müü. Esiteks on see majanduslikult kahjumlik, teiseks on see seadusega keelatud. Seetõttu müüvad nad oma töötlemise tulemusi, näiteks geoanalüütilisi aruandeid.

Avatud andmed

Riik on ettevõtjatele vastutulelik ja annab neile võimaluse kogutud andmeid kasutada. Seda arendatakse suuremal määral läänes, kuid ka Venemaa käib selles osas ajaga kaasas. Näiteks on olemas Moskva valitsuse avaandmete portaal, kus avaldatakse teavet erinevate linnataristu objektide kohta.

Moskva elanike ja külaliste jaoks esitatakse andmed tabeli- ja kartograafilises vormis ning arendajatele spetsiaalsetes masinloetavates vormingutes. Kui projekt töötab piiratud režiimis, siis see areneb, mis tähendab, et see on ka andmeallikas, mida saate oma äriülesannete jaoks kasutada.

Uurimine

Nagu juba märgitud, on Big Data ülesanne leida muster. Tihti võivad kogu maailmas läbiviidud uuringud saada kindla mustri leidmise tugipunktiks – saad konkreetse tulemuse ja proovida sarnast loogikat enda eesmärkidel rakendada.

Big Data on valdkond, kus kõik matemaatika seadused ei kehti. Näiteks “1” + “1” ei ole “2”, vaid palju rohkem, sest andmeallikaid segades saab efekti oluliselt suurendada.

Tootenäited

Paljudele on tuttav muusikavalikuteenus Spotify. See on suurepärane, sest see ei küsi kasutajatelt, milline on nende tänane tuju, vaid pigem arvutab selle välja talle saadaolevate allikate põhjal. Ta teab alati, mida sa praegu vajad – džässi või hard rocki. See on peamine erinevus, mis pakub sellele fänne ja eristab seda teistest teenustest.

Selliseid tooteid nimetatakse tavaliselt meeletoodeteks – need, mis tunnevad oma kliente.

Big Data tehnoloogiat kasutatakse ka autotööstuses. Näiteks Tesla teeb seda – nende uusimal mudelil on autopiloot. Ettevõte püüab luua autot, mis viib reisija ise sinna, kuhu ta peab minema. Ilma Big Datata on see võimatu, sest kui me kasutame ainult neid andmeid, mida me otse saame, nagu inimene seda teeb, siis auto ei saa paremaks muutuda.

Kui sõidame ise autoga, kasutame oma neuroneid otsuste langetamiseks paljude tegurite põhjal, mida me isegi ei märka. Näiteks ei pruugi me aru saada, miks otsustasime rohelise tulega kohe mitte kiirendada, kuid siis selgub, et otsus oli õige – auto kihutas teist meeletu kiirusega mööda ja te vältisite õnnetust.

Võid tuua ka näite Big Data kasutamisest spordis. 2002. aastal otsustas Oakland Athleticsi pesapallimeeskonna peadirektor Billy Beane murda sportlaste värbamise paradigmat – ta valis ja treenis mängijaid "numbrite järgi".

Tavaliselt vaatavad juhid mängijate edukust, kuid antud juhul oli kõik teisiti - tulemuste saavutamiseks uuris juht, milliseid sportlaste kombinatsioone ta vajab, pöörates tähelepanu individuaalsetele omadustele. Veelgi enam, ta valis sportlased, kellel iseenesest polnud palju potentsiaali, kuid meeskond tervikuna osutus nii edukaks, et võitsid kakskümmend matši järjest.

Seejärel tegi režissöör Bennett Miller sellele loole pühendatud filmi - "Mees, kes muutis kõike" Brad Pittiga peaosas.

Big Data tehnoloogia on kasulik ka finantssektoris. Mitte ükski inimene maailmas ei suuda iseseisvalt ja täpselt kindlaks teha, kas tasub kellelegi laenu anda. Otsuse langetamiseks tehakse punktiarvestus ehk ehitatakse tõenäosusmudel, millest saab aru, kas see inimene tagastab raha või mitte. Lisaks rakendatakse punktiarvestust kõigil etappidel: saate näiteks arvutada, et teatud hetkel lõpetab inimene maksmise.

Suurandmed võimaldavad teil mitte ainult raha teenida, vaid ka seda säästa. Eelkõige aitas see tehnoloogia Saksamaa tööministeeriumil vähendada töötushüvitiste kulusid 10 miljardi euro võrra, kuna pärast teabe analüüsimist selgus, et 20% hüvitistest maksti teenimatult.

Tehnoloogiaid kasutatakse ka meditsiinis (see on eriti tüüpiline Iisraelile). Big Data abil saate teha palju täpsema analüüsi, kui seda suudab teha kolmekümneaastase staažiga arst.

Iga arst tugineb diagnoosi pannes ainult oma kogemustele. Kui masin seda teeb, tuleneb see tuhandete selliste arstide kogemusest ja kõigist olemasolevatest haiguslugudest. See võtab arvesse, mis materjalist on patsiendi maja tehtud, millises piirkonnas kannatanu elab, millist suitsu seal on jne. See tähendab, et see võtab arvesse paljusid tegureid, mida arstid ei võta arvesse.

Näiteks suurandmete kasutamisest tervishoius on projekt Artemis, mille elluviijaks oli Toronto lastehaigla. See on infosüsteem, mis kogub ja analüüsib andmeid beebide kohta reaalajas. Masin võimaldab igas sekundis analüüsida iga lapse 1260 tervisenäitajat. See projekt on suunatud lapse ebastabiilse seisundi ennustamisele ja laste haiguste ennetamisele.

Suurandmeid hakatakse kasutama ka Venemaal: näiteks Yandexil on suurandmete divisjon. Ettevõte käivitas koos AstraZeneca ja Venemaa Kliinilise Onkoloogia Seltsiga RUSSCO platvormi RAY, mis on mõeldud geneetikutele ja molekulaarbioloogidele. Projekt võimaldab meil täiustada vähi diagnoosimise ja vähi eelsoodumuse tuvastamise meetodeid. Platvorm käivitatakse 2016. aasta detsembris.

Teate seda kuulsat nalja, eks? Big Data on nagu seks enne 18:

  • kõik mõtlevad sellele;
  • kõik räägivad sellest;
  • igaüks arvab, et tema sõbrad teevad seda;
  • peaaegu keegi ei tee seda;
  • kes seda teeb, teeb seda halvasti;
  • kõik arvavad, et järgmisel korral õnnestub see paremini;
  • keegi ei võta turvameetmeid;
  • kellelgi on häbi tunnistada, et ta midagi ei tea;
  • kui kellelgi miski õnnestub, on sellest alati palju kära.

Aga olgem ausad, igasuguse hüppega jääb alati peale tavaline uudishimu: mis kisa seal on ja kas seal on midagi tõeliselt olulist? Ühesõnaga jah, on olemas. Üksikasjad on allpool. Oleme teie jaoks valinud Big Data tehnoloogiate kõige hämmastavamad ja huvitavamad rakendused. See väike turu-uuring, kasutades selgeid näiteid, seab meid silmitsi lihtsa tõsiasjaga: tulevikku ei tule, pole vaja "veel n aastat oodata ja maagia saab reaalsuseks". Ei, see on juba saabunud, kuid on endiselt silmale nähtamatu ja seetõttu pole singulaarsuse põlemine veel nii palju tööturu teatud punkti põletanud. Mine.

1 Kuidas suurandmete tehnoloogiaid rakendatakse seal, kus need tekkisid

Andmeteadus on alguse saanud just suurtest IT-ettevõtetest, seega on nende siseteadmised selles vallas kõige huvitavamad. Kampaania Google, paradigma Map Reduce sünnikoht, mille ainus eesmärk on koolitada oma programmeerijaid masinõppetehnoloogiate alal. Ja siin peitubki nende konkurentsieelis: pärast uute teadmiste omandamist juurutavad töötajad uusi meetodeid nendes Google’i projektides, kus nad pidevalt töötavad. Kujutage ette, kui suur on nimekiri valdkondadest, milles kampaania võib revolutsiooni teha. Üks näide: kasutatakse närvivõrke.

Ettevõte rakendab masinõpet kõigis oma toodetes. Selle eeliseks on suure ökosüsteemi olemasolu, mis hõlmab kõiki igapäevaelus kasutatavaid digiseadmeid. See võimaldab Apple'il jõuda võimatule tasemele: kampaanial on rohkem kasutajaandmeid kui ühelgi teisel. Samas on privaatsuspoliitika väga karm: korporatsioon on alati uhkeldanud, et ei kasuta klientide andmeid reklaamieesmärkidel. Sellest lähtuvalt on kasutajateave krüpteeritud, nii et Apple'i juristid või isegi volitatud FBI ei saa seda lugeda. Siit leiad suure ülevaate Apple’i arengutest AI vallas.

2 Big Data 4 rattal

Kaasaegne auto on teabehoidla: sinna koguneb kõik andmed juhi, keskkonna, ühendatud seadmete ja enda kohta. Varsti genereerib üks sellisesse võrku ühendatud sõiduk kuni 25 GB andmemahtu tunnis.

Autotootjad on sõidukite telemaatikat kasutanud juba aastaid, kuid nüüd tehakse lobitööd keerukama andmekogumismeetodi poole, mis kasutaks täielikult ära suurandmed. See tähendab, et tehnoloogia saab nüüd juhti halbade teeolude eest hoiatada, aktiveerides automaatselt mitteblokeeruvad piduri- ja veojõukontrollisüsteemid.

Teised ettevõtted, sealhulgas BMW, kasutavad Big Data tehnoloogiat koos testitavatelt prototüüpidelt kogutud teabe, sõidukisiseste veamälusüsteemide ja klientide kaebustega, et tuvastada mudeli nõrkused juba tootmise alguses. Andmete käsitsi hindamise asemel, mis võtab kuid aega, kasutatakse nüüd kaasaegset algoritmi. Vähenevad vead ja tõrkeotsingu kulud, mis kiirendab infoanalüüsi töövooge BMW-s.

Ekspertide hinnangul ulatub 2019. aastaks ühendatud autode turukäive 130 miljardi dollarini. See ei ole üllatav, arvestades sõidukite lahutamatuks osaks olevate tehnoloogiate integreerimise tempot autotootjate poolt.

Big Data kasutamine aitab muuta auto turvalisemaks ja funktsionaalsemaks. Seega Toyota infokommunikatsiooni mooduleid (DCM) integreerides. See suurandmete tööriist töötleb ja analüüsib DCM-i kogutud andmeid, et neist veelgi rohkem väärtust hankida.

3 Suurandmete rakendamine meditsiinis


Suurandmete tehnoloogiate rakendamine meditsiinivaldkonnas võimaldab arstidel haigust põhjalikumalt uurida ja valida konkreetse juhtumi jaoks tõhusa ravikuur. Tänu teabe analüüsile on tervishoiutöötajatel lihtsam ennustada ägenemisi ja võtta ennetavaid meetmeid. Tulemuseks on täpsem diagnoos ja paranenud ravimeetodid.

Uus tehnika võimaldas vaadelda patsientide probleeme teisest vaatenurgast, mis tõi kaasa senitundmatute probleemiallikate avastamise. Näiteks on mõnel rassil geneetiliselt suurem eelsoodumus südamehaiguste tekkeks kui teistel etnilistel rühmadel. Nüüd, kui patsient kaebab teatud haiguse üle, võtavad arstid arvesse andmeid tema rassi liikmete kohta, kes kaebasid sama probleemi üle. Andmete kogumine ja analüüs võimaldab meil patsientide kohta palju rohkem teada saada: alates toidueelistusest ja elustiilist kuni DNA ja rakkude, kudede ja elundite metaboliitide geneetilise struktuurini. Nii kasutab Kansas Citys asuv laste genoomimeditsiini keskus patsiente ja analüüsib vähki põhjustavaid mutatsioone geneetilises koodis. Individuaalne lähenemine igale patsiendile, võttes arvesse tema DNA-d, tõstab ravi efektiivsuse kvalitatiivselt erinevale tasemele.

Suurandmete kasutamise mõistmine on esimene ja väga oluline muutus meditsiinivaldkonnas. Kui patsient läbib ravi, võib haigla või muu tervishoiuasutus saada inimese kohta palju asjakohast teavet. Kogutud teavet kasutatakse haiguse kordumise ennustamiseks teatud täpsusega. Näiteks kui patsient on põdenud insulti, uurivad arstid teavet tserebrovaskulaarse õnnetuse toimumise aja kohta, analüüsivad eelnevate pretsedentide vahepealset perioodi (kui neid on), pöörates erilist tähelepanu stressiolukordadele ja raskele kehalisele koormusele patsiendi elus. Nende andmete põhjal koostavad haiglad patsiendile selge tegevuskava insuldi võimaluse ennetamiseks tulevikus.

Oma rolli mängivad ka kantavad seadmed, mis aitavad tuvastada terviseprobleeme ka siis, kui inimesel konkreetse haiguse ilmseid sümptomeid pole. Selle asemel, et hinnata patsiendi seisundit pika uuringute käigus, saab arst teha järeldusi fitnessjälgija või nutikella kogutud teabe põhjal.

Üks viimaseid näiteid on . Sel ajal, kui mehel kontrolliti unustatud ravimist põhjustatud uut krambihoogu, avastasid arstid, et mehel on palju tõsisem terviserike. See probleem osutus kodade virvenduseks. Diagnoos tehti tänu sellele, et osakonna töötajad said ligipääsu patsiendi telefonile, nimelt tema fitness-jälgijaga seotud rakendusele. Diagnoosi määramisel osutusid võtmeteguriks avalduse andmed, sest uuringu hetkel mehel südamehäireid ei tuvastatud.

See on vaid üks väheseid juhtumeid, mis näitab milleks kasutada suuri andmeid mängib tänapäeva meditsiinis nii olulist rolli.

4 Andmeanalüüsist on saanud juba jaekaubanduse tuum

Kasutajapäringute ja sihtimise mõistmine on Big Data tööriistade üks suuremaid ja enim avalikustatud rakendusvaldkondi. Big Data aitab analüüsida klientide harjumusi, et mõista paremini tarbijate vajadusi tulevikus. Ettevõtted soovivad laiendada traditsioonilist andmekogumit suhtlusvõrgustike ja brauseri otsinguajaloo teabega, et luua võimalikult terviklik kliendipilt. Mõnikord otsustavad suured organisatsioonid luua globaalse eesmärgina oma ennustamismudeli.

Näiteks Target kauplusekett suudab põhjalikku andmeanalüüsi ja oma prognoosisüsteemi kasutades määrata suure täpsusega - . Igale kliendile määratakse ID, mis omakorda seotakse krediitkaardi, nime või meiliaadressiga. Identifikaator toimib omamoodi ostukorvina, kuhu salvestatakse teave kõige kohta, mida inimene on kunagi ostnud. Võrgustiku spetsialistid on leidnud, et rasedad ostavad aktiivselt lõhnatuid tooteid enne raseduse teist trimestrit ning esimese 20 nädala jooksul toetuvad nad kaltsiumi, tsingi ja magneesiumi toidulisanditele. Saadud andmete põhjal saadab Target klientidele beebitoodete kuponge. Lastele endale mõeldud kaupade allahindlusi “lahjendatakse” teiste toodete kupongidega, et hälli või mähkmete ostupakkumised liiga pealetükkivad välja ei näeks.

Isegi valitsusasutused on leidnud viisi, kuidas kasutada suurandmete tehnoloogiaid valimiskampaaniate optimeerimiseks. Mõned arvavad, et Barack Obama võit 2012. aasta USA presidendivalimistel oli tingitud tema analüütikute meeskonna suurepärasest tööst, kes töötles tohutuid andmehulki õigel viisil.

5 Big Data kaitseb seadust ja korda


Õiguskaitseorganid on viimastel aastatel suutnud välja mõelda, kuidas ja millal suurandmeid kasutada. On üldteada tõsiasi, et Riiklik Julgeolekuagentuur kasutab suurandmete tehnoloogiaid terrorirünnakute ärahoidmiseks. Teised osakonnad kasutavad väiksemate kuritegude ärahoidmiseks täiustatud metoodikat.

Los Angelese politseijaoskond kasutab . Ta teeb seda, mida tavaliselt nimetatakse proaktiivseks politseitööks. Kasutades kuriteoteateid teatud aja jooksul, tuvastab algoritm piirkonnad, kus kuritegevuse toimumise tõenäosus on kõige suurem. Süsteem märgib sellised alad linnakaardile väikeste punaste ruutudega ja need andmed edastatakse koheselt patrullautodele.

Chicago politseinikud kasutada suurandmete tehnoloogiaid veidi teistmoodi. Tuulelinna korrakaitsjad teevad sama, kuid selle eesmärk on visandada "riskiring", mis koosneb inimestest, kes võivad olla relvastatud rünnaku ohver või osaline. The New York Timesi andmetel määrab see algoritm inimesele haavatavuse reitingu tema kriminaalse ajaloo põhjal (vahistamised ja tulistamistes osalemine, kuritegelikesse rühmitustesse kuulumine). Süsteemi arendaja ütleb, et kuigi süsteem uurib inimese kriminaalset ajalugu, ei võta see arvesse sekundaarseid tegureid, nagu inimese rass, sugu, etniline kuuluvus ja asukoht.

6 Kuidas Big Data tehnoloogiad aitavad linnadel areneda


Veniami tegevjuht Joao Barros näitab kaarti Porto busside Wi-Fi ruuterite jälgimise kohta

Andmeanalüüsi kasutatakse ka linnade ja riikide elu mitme aspekti parandamiseks. Näiteks teades täpselt, kuidas ja millal Big Data tehnoloogiaid kasutada, saate liiklusvooge optimeerida. Selleks võetakse arvesse autode liikumist internetis, analüüsitakse sotsiaalmeediat ja meteoroloogilisi andmeid. Tänaseks on mitmed linnad võtnud endale kohustuse kasutada andmeanalüütikat, et ühendada transpordi infrastruktuur muud tüüpi avalike teenustega üheks tervikuks. See on „targa“ linna kontseptsioon, kus bussid ootavad hilinevaid ronge ja foorid suudavad liiklusummikuid minimeerida.

Big Data tehnoloogiatele tuginedes kasutab Long Beach linn nutikaid veemõõtjaid, mida kasutatakse ebaseadusliku kastmise peatamiseks. Varem kasutati neid kodumajapidamiste veetarbimise vähendamiseks (maksimaalne tulemus oli vähenemine 80%). Värske vee säästmine on alati pakiline probleem. Eriti kui osariigis on läbi aegade suurim põud.

Suurandmete kasutajate nimekirjaga on liitunud Los Angelese transpordiministeeriumi esindajad. Liikluskaamerate anduritelt saadud andmete põhjal jälgivad ametiasutused fooride tööd, mis omakorda võimaldab liiklust reguleerida. Arvutisüsteem kontrollib umbes 4500 tuhat valgusfoori kogu linnas. Ametlikel andmetel aitas uus algoritm vähendada ummikuid 16%.

7 Edusammude mootor turunduses ja müügis


Turunduses võimaldavad Big Data tööriistad tuvastada, millised ideed on müügitsükli konkreetses etapis kõige tõhusamad. Andmeanalüüs määrab, kuidas investeeringud võivad parandada kliendisuhete juhtimist, millist strateegiat tuleks konversioonimäärade parandamiseks kasutada ja kuidas optimeerida kliendi elutsüklit. Pilveettevõtetes kasutatakse Big Data algoritme, et välja selgitada, kuidas minimeerida klientide hankimise kulusid ja pikendada kliendi elutsüklit.

Hinnastrateegiate diferentseerimine sõltuvalt kliendi süsteemisisesest tasemest on ehk peamine, milleks Big Datat turundusvaldkonnas kasutatakse. McKinsey leidis, et umbes 75% keskmise ettevõtte tulust pärineb põhitoodetest, millest 30% on valesti hinnatud. 1% hinnatõus toob kaasa 8,7% ärikasumi kasvu.

Forresteri uurimisrühm leidis, et andmeanalüütika võimaldab turundajatel keskenduda sellele, kuidas kliendisuhteid edukamaks muuta. Kliendi arendamise suunda uurides saavad spetsialistid hinnata oma lojaalsuse taset, samuti pikendada elutsüklit konkreetse ettevõtte kontekstis.

Müügistrateegiate optimeerimine ja uutele turgudele sisenemise etapid geoanalüütika abil kajastuvad biofarmaatsiatööstuses. McKinsey andmetel kulutavad ravimit tootvad ettevõtted administreerimisele ja müügile keskmiselt 20–30% kasumist. Kui ettevõtted muutuvad aktiivsemaks kasutada suurandmeid kõige kasumlikumate ja kiiremini kasvavate turgude väljaselgitamiseks vähendatakse kulusid kohe.

Andmeanalüütika on vahend ettevõtetele, et saada täielik ülevaade oma äritegevuse põhiaspektidest. Tulude suurendamine, kulude vähendamine ja käibekapitali vähendamine on kolm väljakutset, mida kaasaegsed ettevõtted analüütiliste vahendite abil lahendada püüavad.

Lõpuks väidavad 58% turundusdirektoritest, et Big Data tehnoloogiate juurutamist võib näha otsingumootoritele optimeerimises (SEO), e-posti ja mobiiliturunduses, kus turundusprogrammide kujunemisel on kõige olulisem roll andmeanalüüsil. Ja ainult 4% vähem vastajaid on kindlad, et suurandmetel on paljude aastate jooksul kõigis turundusstrateegiates oluline roll.

8 Globaalne andmete analüüs

Mitte vähem uudishimulik on ... Võimalik, et masinõpe on lõpuks ainus jõud, mis suudab õrna tasakaalu säilitada. Inimese mõju globaalsele soojenemisele tekitab endiselt palju poleemikat, mistõttu saavad täpse vastuse anda vaid usaldusväärsed, suurte andmemahtude analüüsil põhinevad ennustusmudelid. Lõppkokkuvõttes aitab heitkoguste vähendamine meid kõiki: kulutame vähem energiale.

Nüüd pole suurandmed abstraktne mõiste, mis võib paari aasta pärast rakendust leida. See on täiesti töötav tehnoloogiate komplekt, mis võib olla kasulik peaaegu kõigis inimtegevuse valdkondades: alates meditsiinist ja avalikust korrast kuni turunduse ja müügini. Just algas suurandmete aktiivse integreerimise etapp meie igapäevaellu ja kes teab, milline on suurandmete roll mõne aasta pärast?