Big Data - ทฤษฎีและการปฏิบัติใหม่ ข้อมูลใหญ่

คำว่า "Big Data" อาจเป็นที่รู้จักในปัจจุบัน แต่ก็ยังมีความสับสนเล็กน้อยเกี่ยวกับความหมายที่แท้จริง ในความเป็นจริง แนวคิดนี้มีการพัฒนาอย่างต่อเนื่องและได้รับการกำหนดใหม่ เนื่องจากยังคงเป็นแรงผลักดันเบื้องหลังการเปลี่ยนแปลงทางดิจิทัลที่เกิดขึ้นอย่างต่อเนื่อง รวมถึงปัญญาประดิษฐ์ วิทยาศาสตร์ข้อมูล และอินเทอร์เน็ตของสรรพสิ่ง แต่เทคโนโลยี Big-Data คืออะไร และมันเปลี่ยนแปลงโลกของเราอย่างไร? เรามาลองทำความเข้าใจแก่นแท้ของเทคโนโลยี Big Data และความหมายของคำง่ายๆ กัน

ทุกอย่างเริ่มต้นด้วยการระเบิดของปริมาณข้อมูลที่เราสร้างขึ้นตั้งแต่รุ่งอรุณของยุคดิจิทัล สาเหตุหลักมาจากการพัฒนาคอมพิวเตอร์ อินเทอร์เน็ต และเทคโนโลยีที่สามารถ "ฉกฉวย" ข้อมูลจากโลกรอบตัวเราได้ ข้อมูลในตัวเองไม่ใช่สิ่งประดิษฐ์ใหม่ แม้กระทั่งก่อนยุคของคอมพิวเตอร์และฐานข้อมูล เราใช้บันทึกธุรกรรมที่เป็นกระดาษ บันทึกลูกค้า และไฟล์เก็บถาวรที่ประกอบเป็นข้อมูล คอมพิวเตอร์ โดยเฉพาะสเปรดชีตและฐานข้อมูลทำให้เราจัดเก็บและจัดระเบียบข้อมูลในวงกว้างได้อย่างง่ายดาย ทันใดนั้นข้อมูลก็พร้อมใช้งานเพียงคลิกเดียว

อย่างไรก็ตาม เรามาไกลจากตารางและฐานข้อมูลดั้งเดิมมาก วันนี้ ทุกสองวันเราสร้างข้อมูลมากที่สุดเท่าที่เราได้รับตั้งแต่เริ่มต้นจนถึงปี 2000 ถูกต้องทุกสองวัน และปริมาณข้อมูลที่เราสร้างขึ้นยังคงเพิ่มขึ้นแบบทวีคูณ ภายในปี 2563 ปริมาณข้อมูลดิจิทัลที่มีอยู่จะเพิ่มขึ้นจากประมาณ 5 เซตตะไบต์เป็น 20 เซตตะไบต์

ทุกวันนี้ เกือบทุกการกระทำที่เราทำย่อมทิ้งร่องรอยไว้ เราสร้างข้อมูลทุกครั้งที่ออนไลน์ เมื่อเราพกพาสมาร์ทโฟนที่ติดตั้งเครื่องมือค้นหา เมื่อเราพูดคุยกับเพื่อนผ่านโซเชียลเน็ตเวิร์กหรือการแชท ฯลฯ นอกจากนี้ ปริมาณข้อมูลที่เครื่องสร้างขึ้นก็มีการเติบโตอย่างรวดเร็วเช่นกัน ข้อมูลถูกสร้างขึ้นและแบ่งปันเมื่ออุปกรณ์สมาร์ทโฮมของเราสื่อสารกันหรือกับโฮมเซิร์ฟเวอร์ของพวกเขา อุปกรณ์อุตสาหกรรมในโรงงานและโรงงานมีเซ็นเซอร์ที่สะสมและส่งข้อมูลเพิ่มมากขึ้น

คำว่า "ข้อมูลขนาดใหญ่" หมายถึงการรวบรวมข้อมูลทั้งหมดนี้และความสามารถของเราในการนำไปใช้ให้เกิดประโยชน์ในด้านต่างๆ มากมาย รวมถึงธุรกิจด้วย

เทคโนโลยี Big-Data ทำงานอย่างไร?

Big Data ทำงานบนหลักการ ยิ่งคุณรู้เกี่ยวกับหัวข้อหรือปรากฏการณ์เฉพาะมากเท่าไร คุณก็ยิ่งสามารถบรรลุความเข้าใจใหม่ๆ และคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคตได้อย่างน่าเชื่อถือมากขึ้นเท่านั้น เมื่อเราเปรียบเทียบจุดข้อมูลมากขึ้น ความสัมพันธ์ก็เกิดขึ้นซึ่งก่อนหน้านี้ถูกซ่อนไว้ และความสัมพันธ์เหล่านี้ช่วยให้เราเรียนรู้และตัดสินใจได้ดีขึ้น โดยส่วนใหญ่มักทำผ่านกระบวนการที่เกี่ยวข้องกับการสร้างแบบจำลองตามข้อมูลที่เราสามารถรวบรวมได้ จากนั้นจึงทำการจำลองที่ปรับแต่งค่าของจุดข้อมูลในแต่ละครั้ง และติดตามว่าจุดข้อมูลเหล่านั้นส่งผลต่อผลลัพธ์ของเราอย่างไร กระบวนการนี้เป็นแบบอัตโนมัติ เทคโนโลยีการวิเคราะห์สมัยใหม่จะจำลองสถานการณ์เหล่านี้นับล้าน โดยปรับแต่งตัวแปรที่เป็นไปได้ทั้งหมดจนกว่าจะพบแบบจำลองหรือแนวคิดที่ช่วยแก้ปัญหาที่พวกเขากำลังดำเนินการอยู่

Bill Gates แขวนเนื้อหาที่เป็นกระดาษในซีดีแผ่นเดียว

จนกระทั่งเมื่อไม่นานมานี้ ข้อมูลถูกจำกัดอยู่เพียงสเปรดชีตหรือฐานข้อมูล และทุกอย่างได้รับการจัดระเบียบและเรียบร้อยมาก สิ่งใดก็ตามที่ไม่สามารถจัดระเบียบเป็นแถวและคอลัมน์ได้ง่าย ๆ ถือว่าซับซ้อนเกินกว่าจะใช้งานและถูกละเลย อย่างไรก็ตาม ความก้าวหน้าในด้านการจัดเก็บและการวิเคราะห์หมายความว่าเราสามารถรวบรวม จัดเก็บ และประมวลผลข้อมูลประเภทต่างๆ จำนวนมากได้ ด้วยเหตุนี้ “ข้อมูล” ในปัจจุบันจึงหมายถึงอะไรก็ได้ตั้งแต่ฐานข้อมูลไปจนถึงภาพถ่าย วิดีโอ การบันทึกเสียง ข้อความที่เป็นลายลักษณ์อักษร และข้อมูลเซ็นเซอร์

เพื่อให้เข้าใจถึงข้อมูลที่ยุ่งเหยิงทั้งหมดนี้ โครงการที่ใช้ Big Data มักใช้การวิเคราะห์ที่ล้ำสมัยโดยใช้ปัญญาประดิษฐ์และการเรียนรู้ด้วยคอมพิวเตอร์ ด้วยการสอนเครื่องคอมพิวเตอร์เพื่อกำหนดว่าข้อมูลเฉพาะคืออะไร เช่น ผ่านการจดจำรูปแบบหรือการประมวลผลภาษาธรรมชาติ เราสามารถสอนให้พวกเขาระบุรูปแบบได้รวดเร็วและเชื่อถือได้มากกว่าที่เราสามารถทำได้

Big Data ถูกนำมาใช้อย่างไร?

ข้อมูลเซ็นเซอร์ ข้อความ เสียง รูปภาพ และวิดีโอที่เพิ่มมากขึ้นอย่างต่อเนื่อง หมายความว่าขณะนี้เราสามารถใช้ข้อมูลในลักษณะที่ไม่อาจจินตนาการได้เมื่อไม่กี่ปีที่ผ่านมา นี่คือการนำการเปลี่ยนแปลงเชิงปฏิวัติมาสู่โลกธุรกิจในเกือบทุกอุตสาหกรรม ปัจจุบัน บริษัทต่างๆ สามารถคาดการณ์ได้อย่างแม่นยำอย่างไม่น่าเชื่อว่าลูกค้าประเภทใดที่ต้องการจะซื้อและเมื่อใด Big Data ยังช่วยให้บริษัทต่างๆ ดำเนินกิจกรรมต่างๆ ได้อย่างมีประสิทธิภาพมากขึ้นอีกด้วย

แม้จะอยู่นอกธุรกิจ โครงการที่เกี่ยวข้องกับ Big Data กำลังช่วยเปลี่ยนแปลงโลกของเราในรูปแบบต่างๆ:

  • การปรับปรุงการดูแลสุขภาพ – ยาที่ขับเคลื่อนด้วยข้อมูลมีความสามารถในการวิเคราะห์ข้อมูลทางการแพทย์และรูปภาพจำนวนมหาศาลให้เป็นแบบจำลองที่สามารถช่วยตรวจหาโรคได้ตั้งแต่ระยะเริ่มแรก และพัฒนายาใหม่ๆ
  • การทำนายและการตอบสนองต่อภัยพิบัติทางธรรมชาติและที่มนุษย์สร้างขึ้น ข้อมูลเซ็นเซอร์สามารถวิเคราะห์เพื่อคาดการณ์บริเวณที่อาจเกิดแผ่นดินไหวได้ และรูปแบบพฤติกรรมของมนุษย์ก็ให้ข้อมูลเบาะแสที่ช่วยให้องค์กรต่างๆ สามารถให้ความช่วยเหลือผู้รอดชีวิตได้ เทคโนโลยี Big Data ยังใช้เพื่อติดตามและป้องกันการไหลเวียนของผู้ลี้ภัยจากเขตสงครามทั่วโลก
  • การป้องกันอาชญากรรม กองกำลังตำรวจกำลังใช้กลยุทธ์ที่ขับเคลื่อนด้วยข้อมูลมากขึ้นเรื่อยๆ ซึ่งรวมเอาข้อมูลข่าวกรองของตนเองและข้อมูลสาธารณะเพื่อใช้ทรัพยากรอย่างมีประสิทธิภาพมากขึ้นและดำเนินการป้องปรามเมื่อจำเป็น

หนังสือที่ดีที่สุดเกี่ยวกับเทคโนโลยี Big-Data

  • ทุกคนโกหก. โปรแกรมค้นหา Big Data และอินเทอร์เน็ตรู้ทุกอย่างเกี่ยวกับคุณ
  • ข้อมูลใหญ่. รวมเทคโนโลยีไว้ในเล่มเดียว
  • อุตสาหกรรมความสุข Big Data และเทคโนโลยีใหม่ๆ ช่วยเพิ่มอารมณ์ความรู้สึกให้กับสินค้าและบริการได้อย่างไร
  • การปฏิวัติด้านการวิเคราะห์ วิธีปรับปรุงธุรกิจของคุณในยุค Big Data โดยใช้การวิเคราะห์การดำเนินงาน

ปัญหาเกี่ยวกับข้อมูลขนาดใหญ่

Big Data ให้แนวคิดและโอกาสที่ไม่เคยมีมาก่อนแก่เรา แต่ยังก่อให้เกิดปัญหาและคำถามที่ต้องแก้ไข:

  • ความเป็นส่วนตัวของข้อมูล – Big Data ที่เราสร้างขึ้นในปัจจุบันประกอบด้วยข้อมูลมากมายเกี่ยวกับชีวิตส่วนตัวของเรา ซึ่งเป็นความเป็นส่วนตัวที่เรามีสิทธิ์ทุกประการ เรากำลังถูกขอให้รักษาสมดุลระหว่างปริมาณข้อมูลส่วนบุคคลที่เราเปิดเผยกับความสะดวกสบายที่แอปและบริการที่ใช้ Big Data นำเสนอมากขึ้นเรื่อยๆ
  • ความปลอดภัยของข้อมูล - แม้ว่าเราจะตัดสินใจว่าเราพอใจกับใครบางคนที่มีข้อมูลของเราเพื่อวัตถุประสงค์เฉพาะ แต่เราจะสามารถไว้วางใจให้พวกเขารักษาข้อมูลของเราให้ปลอดภัยได้หรือไม่?
  • การเลือกปฏิบัติด้านข้อมูล - เมื่อทราบข้อมูลทั้งหมดแล้ว การเลือกปฏิบัติต่อบุคคลโดยอาศัยข้อมูลจากชีวิตส่วนตัวของพวกเขาจะเป็นที่ยอมรับหรือไม่ เราใช้คะแนนเครดิตเพื่อตัดสินใจว่าใครสามารถกู้ยืมเงินได้อยู่แล้ว และการประกันภัยก็ขับเคลื่อนด้วยข้อมูลจำนวนมากเช่นกัน เราควรคาดหวังว่าจะได้รับการวิเคราะห์และประเมินในรายละเอียดมากขึ้น แต่ต้องระมัดระวังเพื่อให้แน่ใจว่าสิ่งนี้จะไม่ทำให้ชีวิตยากขึ้นสำหรับผู้ที่มีทรัพยากรน้อยลงและการเข้าถึงข้อมูลอย่างจำกัด

การปฏิบัติงานเหล่านี้เป็นองค์ประกอบสำคัญของ Big Data และต้องได้รับการแก้ไขโดยองค์กรที่ต้องการใช้ข้อมูลดังกล่าว การไม่ทำเช่นนี้อาจทำให้ธุรกิจมีความเสี่ยง ไม่เพียงแต่ในแง่ของชื่อเสียงเท่านั้น แต่ยังรวมถึงทางกฎหมายและทางการเงินด้วย

มองไปสู่อนาคต

ข้อมูลกำลังเปลี่ยนแปลงโลกและชีวิตของเราอย่างที่ไม่เคยเกิดขึ้นมาก่อน หาก Big Data มีความสามารถทั้งหมดนี้ในวันนี้ ลองจินตนาการดูว่าพรุ่งนี้จะมีความสามารถอะไรบ้าง ปริมาณข้อมูลที่เราสามารถใช้ได้จะเพิ่มขึ้นเท่านั้น และเทคโนโลยีการวิเคราะห์ก็จะก้าวหน้ายิ่งขึ้นไปอีก

สำหรับธุรกิจ ความสามารถในการประยุกต์ Big Data จะมีความสำคัญมากขึ้นในอีกไม่กี่ปีข้างหน้า เฉพาะบริษัทที่มองว่าข้อมูลเป็นสินทรัพย์เชิงกลยุทธ์เท่านั้นที่จะอยู่รอดและเจริญเติบโตได้ ผู้ที่เพิกเฉยต่อการปฏิวัติครั้งนี้ก็เสี่ยงที่จะถูกทิ้งไว้ข้างหลัง



คำว่า Big Data มักจะหมายถึงข้อมูลที่มีโครงสร้าง กึ่งโครงสร้าง และไม่มีโครงสร้างจำนวนเท่าใดก็ได้ อย่างไรก็ตาม รายการที่สองและสามสามารถและควรสั่งซื้อเพื่อการวิเคราะห์ข้อมูลในภายหลัง Big Data ไม่ได้เทียบเท่ากับปริมาณจริงใดๆ แต่เมื่อพูดถึง Big Data ในกรณีส่วนใหญ่ เราหมายถึงข้อมูลเทราไบต์ เพตาไบต์ และแม้แต่ไบต์พิเศษ ธุรกิจใดๆ ก็ตามสามารถสะสมข้อมูลจำนวนนี้ในช่วงเวลาหนึ่งได้ หรือในกรณีที่บริษัทต้องการรับข้อมูลจำนวนมากแบบเรียลไทม์

การวิเคราะห์ข้อมูลขนาดใหญ่

เมื่อพูดถึงการวิเคราะห์ Big Data เราหมายถึงการรวบรวมและจัดเก็บข้อมูลจากแหล่งต่างๆ เป็นหลัก ตัวอย่างเช่น ข้อมูลเกี่ยวกับลูกค้าที่ซื้อสินค้า คุณลักษณะของพวกเขา ข้อมูลเกี่ยวกับแคมเปญโฆษณาที่เปิดตัวและการประเมินประสิทธิผล ข้อมูลศูนย์ติดต่อ ใช่ ข้อมูลทั้งหมดนี้สามารถเปรียบเทียบและวิเคราะห์ได้ เป็นไปได้และจำเป็น แต่ในการทำเช่นนี้ คุณต้องตั้งค่าระบบที่ช่วยให้คุณสามารถรวบรวมและแปลงข้อมูลโดยไม่บิดเบือน จัดเก็บ และสุดท้ายก็แสดงภาพได้ เห็นด้วย เนื่องจากข้อมูลขนาดใหญ่ ตารางที่พิมพ์ลงบนหน้าหลายพันหน้าช่วยได้เพียงเล็กน้อยในการตัดสินใจทางธุรกิจ

1. การมาถึงของข้อมูลขนาดใหญ่

บริการส่วนใหญ่ที่รวบรวมข้อมูลเกี่ยวกับการกระทำของผู้ใช้มีความสามารถในการส่งออกได้ เพื่อให้แน่ใจว่าพวกเขาจะมาถึงบริษัทในรูปแบบที่มีโครงสร้าง จึงมีการใช้ระบบต่างๆ เช่น Alteryx ซอฟต์แวร์นี้ช่วยให้คุณรับข้อมูลและประมวลผลโดยอัตโนมัติ แต่ที่สำคัญที่สุดคือแปลงเป็นรูปแบบและรูปแบบที่ต้องการโดยไม่บิดเบือน

2. การจัดเก็บและการประมวลผลข้อมูลขนาดใหญ่

เกือบทุกครั้งเมื่อรวบรวมข้อมูลจำนวนมาก ปัญหาในการจัดเก็บข้อมูลก็เกิดขึ้น ในบรรดาแพลตฟอร์มทั้งหมดที่เราศึกษา บริษัทของฉันชอบ Vertica มากกว่า แตกต่างจากผลิตภัณฑ์อื่นๆ Vertica สามารถ "คืน" ข้อมูลที่จัดเก็บไว้ในผลิตภัณฑ์ได้อย่างรวดเร็ว ข้อเสียได้แก่ การบันทึกเป็นเวลานาน แต่เมื่อวิเคราะห์ข้อมูลขนาดใหญ่ ความเร็วของการส่งคืนจะมาเป็นอันดับแรก ตัวอย่างเช่น หากเรากำลังพูดถึงการคอมไพล์โดยใช้ข้อมูลขนาดเพตะไบต์ ความเร็วในการอัพโหลดก็เป็นหนึ่งในคุณสมบัติที่สำคัญที่สุด

3. การแสดงข้อมูลขนาดใหญ่

และสุดท้าย ขั้นตอนที่สามของการวิเคราะห์ข้อมูลจำนวนมากก็คือ ในการดำเนินการนี้ คุณต้องมีแพลตฟอร์มที่สามารถแสดงข้อมูลที่ได้รับทั้งหมดในรูปแบบภาพที่สะดวก ในความเห็นของเรา ผลิตภัณฑ์ซอฟต์แวร์เพียงตัวเดียวเท่านั้นที่สามารถรับมือกับงานนี้ได้ - Tableau แน่นอนว่าหนึ่งในโซลูชั่นที่ดีที่สุดในปัจจุบันที่สามารถแสดงข้อมูลใด ๆ ด้วยสายตา เปลี่ยนงานของบริษัทให้เป็นแบบจำลองสามมิติ รวบรวมการดำเนินการของทุกแผนกเป็นห่วงโซ่ที่พึ่งพาซึ่งกันและกัน (คุณสามารถอ่านเพิ่มเติมเกี่ยวกับความสามารถของ Tableau)

โปรดทราบว่าตอนนี้เกือบทุกบริษัทสามารถสร้าง Big Data ของตนเองได้ การวิเคราะห์ข้อมูลขนาดใหญ่ไม่ใช่กระบวนการที่ซับซ้อนและมีราคาแพงอีกต่อไป ขณะนี้ฝ่ายบริหารของบริษัทจำเป็นต้องกำหนดคำถามให้กับข้อมูลที่รวบรวมไว้อย่างถูกต้อง ขณะเดียวกันก็ไม่เหลือพื้นที่สีเทาที่มองไม่เห็นอีกต่อไป

ดาวน์โหลด Tableau

ดาวน์โหลด Tableau Desktop เวอร์ชันเต็มฟรี 14 วันและรับสื่อการฝึกอบรมการวิเคราะห์ธุรกิจ Tableau เป็นของขวัญ

คอลัมน์โดยครู HSE เกี่ยวกับมายาคติและกรณีต่างๆ ของการทำงานกับข้อมูลขนาดใหญ่

ไปที่บุ๊กมาร์ก

ครูที่ School of New Media ที่ National Research University Higher School of Economics Konstantin Romanov และ Alexander Pyatigorsky ซึ่งเป็นผู้อำนวยการด้านการเปลี่ยนแปลงทางดิจิทัลที่ Beeline ได้เขียนคอลัมน์สำหรับเว็บไซต์เกี่ยวกับความเข้าใจผิดหลักเกี่ยวกับ Big Data - ตัวอย่างการใช้งาน เทคโนโลยีและเครื่องมือ ผู้เขียนแนะนำว่าสิ่งพิมพ์จะช่วยให้ผู้จัดการบริษัทเข้าใจแนวคิดนี้

ตำนานและความเข้าใจผิดเกี่ยวกับ Big Data

Big Data ไม่ใช่การตลาด

คำว่า Big Data กลายเป็นคำที่ทันสมัยมาก โดยถูกใช้ในสถานการณ์นับล้านและมีการตีความที่แตกต่างกันหลายร้อยแบบ ซึ่งมักไม่เกี่ยวข้องกับสิ่งที่เป็นอยู่ แนวคิดมักถูกแทนที่ในหัวของผู้คน และ Big Data ก็สับสนกับผลิตภัณฑ์ทางการตลาด นอกจากนี้ในบางบริษัท Big Data ยังเป็นส่วนหนึ่งของแผนกการตลาดอีกด้วย ผลลัพธ์ของการวิเคราะห์ข้อมูลขนาดใหญ่สามารถเป็นแหล่งกิจกรรมทางการตลาดได้อย่างแน่นอน แต่ไม่มีอะไรมากไปกว่านั้น มาดูกันว่ามันทำงานอย่างไร

หากเราระบุรายชื่อผู้ที่ซื้อสินค้าที่มีมูลค่ามากกว่าสามพันรูเบิลในร้านของเราเมื่อสองเดือนที่แล้วแล้วส่งข้อเสนอบางอย่างให้กับผู้ใช้เหล่านี้แสดงว่านี่คือการตลาดโดยทั่วไป เราได้รูปแบบที่ชัดเจนจากข้อมูลเชิงโครงสร้างและใช้เพื่อเพิ่มยอดขาย

อย่างไรก็ตาม หากเรารวมข้อมูล CRM เข้ากับข้อมูลสตรีมมิ่งจาก เช่น Instagram แล้ววิเคราะห์ เราจะพบรูปแบบ: บุคคลที่ลดกิจกรรมของเขาในเย็นวันพุธและมีรูปถ่ายล่าสุดแสดงให้เห็นว่าลูกแมวควรยื่นข้อเสนอบางอย่าง นี่จะเป็น Big Data อยู่แล้ว เราพบตัวกระตุ้น ส่งต่อไปยังนักการตลาด และพวกเขาใช้มันเพื่อจุดประสงค์ของตนเอง

จากนี้ไปเทคโนโลยีมักจะทำงานกับข้อมูลที่ไม่มีโครงสร้าง และแม้ว่าข้อมูลจะมีโครงสร้างแล้ว ระบบก็ยังคงมองหารูปแบบที่ซ่อนอยู่ในข้อมูลนั้นต่อไป ซึ่งการตลาดไม่ได้ทำ

Big Data ไม่ใช่ไอที

สุดขั้วที่สองของเรื่องนี้: Big Data มักจะสับสนกับไอที เนื่องจากตามกฎแล้วในบริษัทรัสเซีย ผู้เชี่ยวชาญด้านไอทีเป็นผู้ขับเคลื่อนเทคโนโลยีทั้งหมด รวมถึงข้อมูลขนาดใหญ่ด้วย ดังนั้นหากทุกอย่างเกิดขึ้นในแผนกนี้ บริษัทโดยรวมจะรู้สึกว่านี่คือกิจกรรมไอทีบางประเภท

ในความเป็นจริงมีความแตกต่างพื้นฐานอยู่ที่นี่: Big Data เป็นกิจกรรมที่มุ่งเพื่อให้ได้มาซึ่งผลิตภัณฑ์เฉพาะซึ่งไม่เกี่ยวข้องกับไอทีเลย แม้ว่าเทคโนโลยีจะไม่สามารถดำรงอยู่ได้หากไม่มีมันก็ตาม

Big Data ไม่ใช่การรวบรวมและวิเคราะห์ข้อมูลเสมอไป

มีความเข้าใจผิดเกี่ยวกับ Big Data อีกประการหนึ่ง ทุกคนเข้าใจดีว่าเทคโนโลยีนี้เกี่ยวข้องกับข้อมูลจำนวนมาก แต่ประเภทของข้อมูลนั้นไม่ได้ชัดเจนเสมอไป ทุกคนสามารถรวบรวมและใช้ข้อมูลได้ ตอนนี้สิ่งนี้เป็นไปได้ไม่เพียงแต่ในภาพยนตร์เกี่ยวกับ แต่ยังรวมถึงในบริษัทเล็กๆ อีกด้วย คำถามเดียวคือต้องรวบรวมอะไรและจะใช้อย่างไรให้เป็นประโยชน์

แต่ควรเข้าใจว่าเทคโนโลยี Big Data จะไม่ใช่การรวบรวมและวิเคราะห์ข้อมูลใดๆ อย่างแน่นอน ตัวอย่างเช่น หากคุณรวบรวมข้อมูลเกี่ยวกับบุคคลใดบุคคลหนึ่งบนโซเชียลเน็ตเวิร์ก ก็จะไม่ใช่ Big Data

Big Data แท้จริงแล้วคืออะไร?

Big Data ประกอบด้วยสามองค์ประกอบ:

  • ข้อมูล;
  • การวิเคราะห์;
  • เทคโนโลยี

Big Data ไม่ได้เป็นเพียงองค์ประกอบหนึ่งเท่านั้น แต่ยังเป็นการผสมผสานองค์ประกอบทั้งสามเข้าด้วยกัน ผู้คนมักจะแทนที่แนวคิด: บางคนเชื่อว่า Big Data เป็นเพียงข้อมูล บางคนเชื่อว่ามันเป็นเทคโนโลยี แต่ในความเป็นจริง ไม่ว่าคุณจะรวบรวมข้อมูลได้มากเพียงใด คุณจะไม่สามารถทำอะไรกับมันได้หากไม่มีเทคโนโลยีและการวิเคราะห์ที่เหมาะสม หากมีการวิเคราะห์ที่ดี แต่ไม่มีข้อมูล ก็จะยิ่งแย่ลงไปอีก

ถ้าเราพูดถึงข้อมูล นี่ไม่ใช่แค่ข้อความเท่านั้น แต่ยังรวมถึงรูปภาพทั้งหมดที่โพสต์บน Instagram และโดยทั่วไปทุกอย่างที่สามารถวิเคราะห์และใช้เพื่อวัตถุประสงค์และงานที่แตกต่างกัน กล่าวอีกนัยหนึ่ง Data หมายถึงข้อมูลภายในและภายนอกจำนวนมหาศาลของโครงสร้างต่างๆ

การวิเคราะห์ก็เป็นสิ่งจำเป็นเช่นกัน เพราะหน้าที่ของ Big Data คือการสร้างรูปแบบบางอย่าง นั่นคือการวิเคราะห์คือการระบุการพึ่งพาที่ซ่อนอยู่และการค้นหาคำถามและคำตอบใหม่โดยอิงจากการวิเคราะห์ปริมาณข้อมูลที่แตกต่างกันทั้งหมด ยิ่งไปกว่านั้น Big Data ยังก่อให้เกิดคำถามที่ไม่สามารถได้มาจากข้อมูลนี้โดยตรง

เมื่อพูดถึงรูปภาพ การที่คุณโพสต์รูปถ่ายของตัวเองที่สวมเสื้อยืดสีน้ำเงินไม่ได้มีความหมายอะไรเลย แต่ถ้าคุณใช้การถ่ายภาพสำหรับการสร้างแบบจำลอง Big Data อาจกลายเป็นว่าตอนนี้คุณควรเสนอเงินกู้เพราะพฤติกรรมดังกล่าวในกลุ่มโซเชียลของคุณบ่งบอกถึงปรากฏการณ์บางอย่างในการดำเนินการ ดังนั้นข้อมูลที่ “เปล่า” ที่ไม่มีการวิเคราะห์ โดยไม่ระบุการพึ่งพาที่ซ่อนอยู่และไม่ชัดเจนจึงไม่ใช่ Big Data

ดังนั้นเราจึงมีข้อมูลขนาดใหญ่ อาร์เรย์ของพวกเขามีขนาดใหญ่มาก เรามีนักวิเคราะห์ด้วย แต่เราจะแน่ใจได้อย่างไรว่าจากข้อมูลดิบนี้ เราจะสามารถหาวิธีแก้ปัญหาเฉพาะได้ ในการทำเช่นนี้ เราจำเป็นต้องมีเทคโนโลยีที่ไม่เพียงแต่ช่วยให้เราจัดเก็บสิ่งเหล่านั้นได้ (และเมื่อก่อนนี้เป็นไปไม่ได้เลย) แต่ยังวิเคราะห์ได้ด้วย

พูดง่ายๆ ก็คือ หากคุณมีข้อมูลจำนวนมาก คุณจะต้องมีเทคโนโลยี เช่น Hadoop ซึ่งทำให้สามารถจัดเก็บข้อมูลทั้งหมดในรูปแบบดั้งเดิมเพื่อการวิเคราะห์ในภายหลัง เทคโนโลยีประเภทนี้เกิดขึ้นในยักษ์ใหญ่อินเทอร์เน็ต เนื่องจากพวกเขาเป็นคนแรกที่ประสบปัญหาในการจัดเก็บข้อมูลจำนวนมากและวิเคราะห์เพื่อสร้างรายได้ในภายหลัง

นอกจากเครื่องมือสำหรับการจัดเก็บข้อมูลที่ได้รับการปรับปรุงและราคาถูกแล้ว คุณต้องมีเครื่องมือวิเคราะห์ รวมถึงส่วนเสริมสำหรับแพลตฟอร์มที่ใช้ ตัวอย่างเช่น ระบบนิเวศทั้งหมดของโครงการและเทคโนโลยีที่เกี่ยวข้องได้ก่อตัวขึ้นรอบๆ Hadoop แล้ว นี่คือบางส่วนของพวกเขา:

  • Pig เป็นภาษาวิเคราะห์ข้อมูลเชิงประกาศ
  • Hive - การวิเคราะห์ข้อมูลโดยใช้ภาษาที่คล้ายกับ SQL
  • Oozie - เวิร์กโฟลว์ Hadoop
  • Hbase เป็นฐานข้อมูล (ไม่เกี่ยวข้อง) คล้ายกับ Google Big Table
  • ควาญช้าง - การเรียนรู้ของเครื่อง
  • Sqoop - ถ่ายโอนข้อมูลจาก RSDB ไปยัง Hadoop และในทางกลับกัน
  • Flume - ถ่ายโอนบันทึกไปยัง HDFS
  • Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS และอื่นๆ

เครื่องมือทั้งหมดนี้เปิดให้ทุกคนใช้งานได้ฟรี แต่ก็มีส่วนเสริมที่ต้องชำระเงินอีกมากมาย

นอกจากนี้ยังจำเป็นต้องมีผู้เชี่ยวชาญ: นักพัฒนาและนักวิเคราะห์ (ที่เรียกว่า Data Scientist) จำเป็นต้องมีผู้จัดการที่สามารถเข้าใจวิธีใช้การวิเคราะห์นี้เพื่อแก้ไขปัญหาเฉพาะได้ เนื่องจากในตัวมันเองแล้ว มันไม่มีความหมายเลยหากไม่ได้รวมเข้ากับกระบวนการทางธุรกิจ

พนักงานทั้งสามคนจะต้องทำงานเป็นทีม ผู้จัดการที่ให้ผู้เชี่ยวชาญด้าน Data Science ค้นหารูปแบบบางอย่างต้องเข้าใจว่าเขาจะไม่ได้พบสิ่งที่ต้องการเสมอไป ในกรณีนี้ ผู้จัดการควรรับฟังสิ่งที่ Data Scientist พบอย่างรอบคอบ เนื่องจากบ่อยครั้งการค้นพบของเขาจะน่าสนใจและเป็นประโยชน์ต่อธุรกิจมากกว่า งานของคุณคือนำสิ่งนี้ไปใช้กับธุรกิจและสร้างผลิตภัณฑ์ขึ้นมา

แม้ว่าปัจจุบันจะมีเครื่องจักรและเทคโนโลยีหลายประเภท แต่การตัดสินใจขั้นสุดท้ายก็ยังขึ้นอยู่กับบุคคลเสมอ เมื่อต้องการทำเช่นนี้ ข้อมูลจะต้องมีการแสดงภาพ มีเครื่องมือมากมายสำหรับสิ่งนี้

ตัวอย่างที่ชัดเจนที่สุดคือรายงานเชิงภูมิศาสตร์ บริษัท Beeline ทำงานร่วมกับรัฐบาลของเมืองและภูมิภาคต่างๆ เป็นอย่างมาก บ่อยครั้งที่องค์กรเหล่านี้สั่งรายงาน เช่น "การจราจรติดขัดในบางพื้นที่"

ชัดเจนว่ารายงานดังกล่าวควรส่งถึงหน่วยงานของรัฐในรูปแบบที่เรียบง่ายและเข้าใจได้ หากเราจัดเตรียมตารางขนาดใหญ่และไม่สามารถเข้าใจได้อย่างสมบูรณ์ให้พวกเขา (นั่นคือข้อมูลในรูปแบบที่เราได้รับ) พวกเขาไม่น่าจะซื้อรายงานดังกล่าว - มันจะไร้ประโยชน์โดยสิ้นเชิงพวกเขาจะไม่ได้รับความรู้จากมันว่า พวกเขาต้องการรับ

ดังนั้น ไม่ว่านักวิทยาศาสตร์ข้อมูลจะเก่งแค่ไหนและไม่ว่าพวกเขาจะพบรูปแบบใดก็ตาม คุณจะไม่สามารถทำงานกับข้อมูลนี้ได้หากไม่มีเครื่องมือสร้างภาพที่ดี

แหล่งข้อมูล

อาร์เรย์ของข้อมูลที่ได้รับมีขนาดใหญ่มาก จึงสามารถแบ่งออกเป็นหลายกลุ่มได้

ข้อมูลภายในบริษัท

แม้ว่า 80% ของข้อมูลที่รวบรวมจะเป็นของกลุ่มนี้ แต่แหล่งข้อมูลนี้ก็ไม่ได้ใช้เสมอไป บ่อยครั้งเป็นข้อมูลที่ดูเหมือนไม่มีใครต้องการเลย เช่น บันทึก แต่หากคุณมองจากมุมที่ต่างออกไป บางครั้งคุณอาจพบรูปแบบที่ไม่คาดคิดในตัวมัน

แหล่งที่มาของแชร์แวร์

ซึ่งรวมถึงข้อมูลจากโซเชียลเน็ตเวิร์ก อินเทอร์เน็ต และทุกสิ่งที่สามารถเข้าถึงได้ฟรี ทำไมแชร์แวร์ถึงฟรี? ในอีกด้านหนึ่ง ข้อมูลนี้ใช้ได้กับทุกคน แต่ถ้าคุณเป็นบริษัทขนาดใหญ่ การได้มาซึ่งข้อมูลดังกล่าวในขนาดฐานสมาชิกที่มีลูกค้านับหมื่น ร้อย หรือหลายล้านรายก็ไม่ใช่เรื่องง่ายอีกต่อไป ดังนั้นจึงมีบริการชำระเงินในตลาดเพื่อให้ข้อมูลนี้

แหล่งจ่าย

ซึ่งรวมถึงบริษัทที่ขายข้อมูลเพื่อเงินด้วย สิ่งเหล่านี้อาจเป็นโทรคมนาคม, DMP, บริษัทอินเทอร์เน็ต, สำนักงานข้อมูลเครดิต และผู้รวบรวมข้อมูล ในรัสเซีย โทรคมนาคมไม่ขายข้อมูล ประการแรก มันไม่ทำกำไรในเชิงเศรษฐกิจ และประการที่สอง เป็นสิ่งต้องห้ามตามกฎหมาย ดังนั้นพวกเขาจึงขายผลลัพธ์ของการประมวลผล เช่น รายงานเชิงภูมิศาสตร์

เปิดข้อมูล

รัฐกำลังอำนวยความสะดวกให้กับธุรกิจต่างๆ และเปิดโอกาสให้พวกเขาใช้ข้อมูลที่พวกเขารวบรวม สิ่งนี้ได้รับการพัฒนาในระดับตะวันตกมากขึ้น แต่รัสเซียในเรื่องนี้ก็ยังตามทันเวลาอยู่ ตัวอย่างเช่น มี Open Data Portal ของรัฐบาลมอสโกซึ่งมีการเผยแพร่ข้อมูลเกี่ยวกับสิ่งอำนวยความสะดวกโครงสร้างพื้นฐานในเมืองต่างๆ

สำหรับผู้พักอาศัยและแขกในมอสโก ข้อมูลจะถูกนำเสนอในรูปแบบตารางและการทำแผนที่ และสำหรับนักพัฒนา - ในรูปแบบพิเศษที่เครื่องอ่านได้ ในขณะที่โปรเจ็กต์กำลังทำงานในโหมดที่จำกัด โปรเจ็กต์กำลังพัฒนา ซึ่งหมายความว่ายังเป็นแหล่งข้อมูลที่คุณสามารถใช้สำหรับงานทางธุรกิจของคุณได้

วิจัย

ดังที่ได้กล่าวไปแล้ว หน้าที่ของ Big Data คือการค้นหารูปแบบ บ่อยครั้งที่การวิจัยที่ดำเนินการทั่วโลกอาจกลายเป็นจุดศูนย์กลางในการค้นหารูปแบบเฉพาะ คุณสามารถได้รับผลลัพธ์ที่เฉพาะเจาะจงและพยายามใช้ตรรกะที่คล้ายกันเพื่อวัตถุประสงค์ของคุณเอง

Big Data เป็นพื้นที่ที่กฎทางคณิตศาสตร์ไม่ได้ใช้ทั้งหมด ตัวอย่างเช่น “1” + “1” ไม่ใช่ “2” แต่มากกว่านั้นมาก เนื่องจากการผสมผสานแหล่งข้อมูลจะทำให้เอฟเฟกต์ได้รับการปรับปรุงอย่างมีนัยสำคัญ

ตัวอย่างสินค้า

หลายคนคุ้นเคยกับบริการเลือกเพลง Spotify เป็นเรื่องดีเพราะไม่ได้ถามผู้ใช้ว่าวันนี้อารมณ์ของพวกเขาเป็นอย่างไร แต่คำนวณตามแหล่งที่มาที่มีอยู่ เขารู้อยู่เสมอว่าคุณต้องการอะไรในตอนนี้ - แจ๊สหรือฮาร์ดร็อค นี่คือข้อแตกต่างหลักที่มอบให้กับแฟนๆ และแตกต่างจากบริการอื่นๆ

ผลิตภัณฑ์ดังกล่าวมักเรียกว่าผลิตภัณฑ์ที่ให้ความรู้สึก - ผลิตภัณฑ์ที่รู้สึกถึงลูกค้า

เทคโนโลยี Big Data ยังใช้ในอุตสาหกรรมยานยนต์อีกด้วย ตัวอย่างเช่น Tesla ทำเช่นนี้ - รุ่นล่าสุดมีระบบอัตโนมัติ บริษัทมุ่งมั่นที่จะสร้างรถยนต์ที่จะพาผู้โดยสารไปยังที่ที่เขาต้องการ หากไม่มี Big Data ก็เป็นไปไม่ได้ เพราะถ้าเราใช้เฉพาะข้อมูลที่เราได้รับโดยตรงแบบที่คนๆ หนึ่งทำ รถก็จะไม่สามารถปรับปรุงได้

เมื่อเราขับรถด้วยตัวเอง เราใช้เซลล์ประสาทในการตัดสินใจโดยพิจารณาจากปัจจัยหลายประการที่เราไม่ได้สังเกตเห็นด้วยซ้ำ ตัวอย่างเช่น เราอาจไม่รู้ว่าเหตุใดเราจึงตัดสินใจไม่เร่งความเร็วทันทีที่ไฟเขียว แต่ปรากฎว่าการตัดสินใจนั้นถูกต้อง - มีรถวิ่งผ่านคุณไปด้วยความเร็วที่อันตราย และคุณหลีกเลี่ยงอุบัติเหตุได้

คุณสามารถยกตัวอย่างการใช้ Big Data ในกีฬาได้ ในปี 2002 Billy Beane ผู้จัดการทั่วไปของทีมเบสบอล Oakland Athletics ตัดสินใจที่จะทำลายกระบวนทัศน์ในการรับสมัครนักกีฬา - เขาเลือกและฝึกฝนผู้เล่น "ตามจำนวน"

โดยปกติแล้วผู้จัดการจะพิจารณาถึงความสำเร็จของผู้เล่น แต่ในกรณีนี้ ทุกอย่างแตกต่างออกไป - เพื่อให้ได้ผลลัพธ์ ผู้จัดการได้ศึกษาว่าเขาต้องการนักกีฬาชุดใดโดยคำนึงถึงลักษณะเฉพาะของแต่ละบุคคล ยิ่งกว่านั้นเขาเลือกนักกีฬาที่ไม่มีศักยภาพในตัวเองมากนัก แต่โดยรวมทีมกลับประสบความสำเร็จอย่างมากจนชนะได้ 20 นัดติดต่อกัน

ต่อมาผู้กำกับเบนเน็ตต์ มิลเลอร์ได้สร้างภาพยนตร์เกี่ยวกับเรื่องนี้โดยเฉพาะเรื่อง “The Man Who Changed Everything” ที่นำแสดงโดยแบรด พิตต์

เทคโนโลยี Big Data ยังมีประโยชน์ในภาคการเงินอีกด้วย ไม่ใช่คนเดียวในโลกที่สามารถตัดสินใจได้อย่างอิสระและแม่นยำว่าควรให้เงินกู้แก่ใครบางคนหรือไม่ ในการตัดสินใจ จะมีการให้คะแนน นั่นคือ แบบจำลองความน่าจะเป็นถูกสร้างขึ้น ซึ่งสามารถเข้าใจได้ว่าบุคคลนี้จะคืนเงินหรือไม่ นอกจากนี้ การให้คะแนนจะถูกนำไปใช้ในทุกขั้นตอน: คุณสามารถคำนวณได้ว่าบุคคลหนึ่งจะหยุดจ่ายเงินในช่วงเวลาหนึ่ง

ข้อมูลขนาดใหญ่ช่วยให้คุณไม่เพียงแต่สร้างรายได้ แต่ยังช่วยประหยัดอีกด้วย โดยเฉพาะอย่างยิ่งเทคโนโลยีนี้ช่วยให้กระทรวงแรงงานของเยอรมนีลดต้นทุนสวัสดิการการว่างงานได้ 10 พันล้านยูโร เนื่องจากหลังจากการวิเคราะห์ข้อมูลเป็นที่ชัดเจนว่ามีการจ่ายผลประโยชน์ 20% โดยไม่สมควร

เทคโนโลยียังใช้ในการแพทย์ด้วย (นี่เป็นเรื่องปกติสำหรับอิสราเอล) ด้วยความช่วยเหลือของ Big Data คุณสามารถทำการวิเคราะห์ที่แม่นยำมากกว่าที่แพทย์ที่มีประสบการณ์สามสิบปีจะทำได้

แพทย์คนใดในการวินิจฉัยจะต้องอาศัยประสบการณ์ของตนเองเท่านั้น เมื่อเครื่องจักรทำเช่นนี้ ก็มาจากประสบการณ์ของแพทย์ดังกล่าวหลายพันคนและประวัติเคสที่มีอยู่ทั้งหมด โดยคำนึงถึงว่าบ้านของผู้ป่วยทำจากวัสดุอะไร เหยื่ออาศัยอยู่บริเวณไหน มีควันประเภทไหน และอื่นๆ นั่นคือคำนึงถึงปัจจัยหลายประการที่แพทย์ไม่ได้คำนึงถึง

ตัวอย่างของการใช้ Big Data ในการดูแลสุขภาพคือโครงการ Project Artemis ซึ่งดำเนินการโดยโรงพยาบาลเด็กโตรอนโต นี่คือระบบข้อมูลที่รวบรวมและวิเคราะห์ข้อมูลเกี่ยวกับเด็กทารกแบบเรียลไทม์ เครื่องช่วยให้คุณวิเคราะห์ตัวชี้วัดสุขภาพของเด็กแต่ละคนได้ 1,260 รายการทุกๆ วินาที โครงงานนี้มีวัตถุประสงค์เพื่อพยากรณ์ภาวะไม่แน่นอนของเด็กและการป้องกันโรคในเด็ก

รัสเซียเริ่มมีการใช้ Big Data เช่นกัน ตัวอย่างเช่น Yandex มีแผนกข้อมูลขนาดใหญ่ บริษัทร่วมกับ AstraZeneca และ Russian Society of Clinical Oncology RUSSCO ได้เปิดตัวแพลตฟอร์ม RAY ซึ่งมีไว้สำหรับนักพันธุศาสตร์และนักชีววิทยาระดับโมเลกุล โครงการนี้ช่วยให้เราสามารถปรับปรุงวิธีการวินิจฉัยโรคมะเร็งและระบุแนวโน้มที่จะเกิดมะเร็งได้ แพลตฟอร์มดังกล่าวจะเปิดตัวในเดือนธันวาคม 2559

การปฏิวัติอุตสาหกรรมแต่ละครั้งมีสัญลักษณ์ของตัวเอง: เหล็กหล่อและไอน้ำ เหล็กและการผลิตจำนวนมาก โพลีเมอร์และอิเล็กทรอนิกส์ และการปฏิวัติครั้งต่อไปจะอยู่ภายใต้สัญลักษณ์ของวัสดุคอมโพสิตและข้อมูล Big Data - เส้นทางที่ผิดพลาดหรืออนาคตของอุตสาหกรรม?

20/12/2011 ลีโอนิด เชอร์เนียค

สัญลักษณ์ของการปฏิวัติอุตสาหกรรมครั้งแรกคือเหล็กหล่อและไอน้ำ ครั้งที่สอง - การผลิตเหล็กและการไหล ประการที่สาม - วัสดุโพลีเมอร์ อลูมิเนียมและอิเล็กทรอนิกส์ และการปฏิวัติครั้งต่อไปจะอยู่ภายใต้สัญลักษณ์ของวัสดุคอมโพสิตและข้อมูล Big Data เป็นเส้นทางที่ผิดพลาดหรือเป็นอนาคตของอุตสาหกรรมหรือไม่?

เป็นเวลากว่าสามปีแล้วที่พวกเขาพูดคุยและเขียนเกี่ยวกับเรื่องนี้มากมาย ข้อมูลใหญ่(Big Data) บวกกับคำว่า “ปัญหา” เพิ่มความลึกลับให้กับหัวข้อ ในช่วงเวลานี้ “ปัญหา” ได้กลายเป็นจุดสนใจของผู้ผลิตรายใหญ่ส่วนใหญ่ มีสตาร์ทอัพจำนวนมากที่ถูกสร้างขึ้นโดยหวังว่าจะพบวิธีแก้ปัญหา และนักวิเคราะห์อุตสาหกรรมชั้นนำทั้งหมดต่างก็เป่าแตรว่าความสามารถในการทำงานมีความสำคัญเพียงใด ด้วยข้อมูลปริมาณมากตอนนี้จึงรับประกันความสามารถในการแข่งขัน ตัวละครจำนวนมากที่ไม่มีเหตุผลที่ดีนักกระตุ้นให้เกิดความขัดแย้งและเราสามารถเจอข้อความที่น่าสงสัยมากมายในหัวข้อเดียวกันและบางครั้งคำว่า "ปลาเฮอริ่งแดง" ก็ถูกนำไปใช้กับ Big Data ด้วยซ้ำ (จุดไฟว่า "ปลาแฮร์ริ่งรมควัน" - เป็นเท็จ ปลาเฮอริ่งแดง)

แล้ว Big Data คืออะไร? วิธีที่ง่ายที่สุดคือการจินตนาการถึง Big Data ว่าเป็นข้อมูลที่ล้นหลามซึ่งพังทลายลงเองและมาจากที่ไหนเลย หรือเพื่อลดปัญหาไปสู่เทคโนโลยีใหม่ๆ ที่เปลี่ยนแปลงสภาพแวดล้อมของข้อมูลอย่างรุนแรง หรือบางที ร่วมกับ Big Data เรากำลังประสบกับขั้นต่อไป ในการปฏิวัติทางเทคโนโลยี? เป็นไปได้มากว่าทั้งสิ่งนี้และอีกอย่างและหนึ่งในสามและยังมีบางสิ่งที่ยังไม่ทราบ เป็นสิ่งสำคัญที่หน้าเว็บมากกว่าสี่ล้านหน้าบนเว็บที่มีวลี Big Data มีหนึ่งล้านหน้าที่มีคำจำกัดความ - อย่างน้อยหนึ่งในสี่ของผู้ที่เขียนเกี่ยวกับ Big Data กำลังพยายามให้คำจำกัดความของตนเอง ความสนใจในวงกว้างดังกล่าวบ่งชี้ว่า มีบางสิ่งที่แตกต่างในเชิงคุณภาพใน Big Data มากกว่าที่จิตสำนึกทั่วไปกำลังผลักดันไปสู่

พื้นหลัง

ความจริงที่ว่าการอ้างอิงถึง Big Data ส่วนใหญ่เกี่ยวข้องกับธุรกิจไม่ทางใดก็ทางหนึ่งอาจทำให้เข้าใจผิดได้ ในความเป็นจริง คำนี้ไม่ได้เกิดในสภาพแวดล้อมขององค์กร แต่ถูกยืมโดยนักวิเคราะห์จากสิ่งพิมพ์ทางวิทยาศาสตร์ Big Data เป็นหนึ่งในไม่กี่ชื่อที่มีวันเกิดที่เชื่อถือได้อย่างสมบูรณ์ - 3 กันยายน 2551 เมื่อมีการตีพิมพ์วารสารวิทยาศาสตร์ที่เก่าแก่ที่สุดของอังกฤษ Nature ฉบับพิเศษซึ่งอุทิศให้กับการค้นหาคำตอบสำหรับคำถาม“ เทคโนโลยีที่เปิดได้อย่างไร เพิ่มความเป็นไปได้ในการทำงานกับปริมาณมากส่งผลต่ออนาคตของวิทยาศาสตร์?” ข้อมูล? ฉบับพิเศษสรุปการอภิปรายก่อนหน้านี้เกี่ยวกับบทบาทของข้อมูลในทางวิทยาศาสตร์โดยทั่วไปและในวิทยาศาสตร์อิเล็กทรอนิกส์ (e-science) โดยเฉพาะ

บทบาทของข้อมูลทางวิทยาศาสตร์เป็นหัวข้อสนทนามาเป็นเวลานาน - นักดาราศาสตร์ชาวอังกฤษ Thomas Simpson เป็นคนแรกที่เขียนเกี่ยวกับการประมวลผลข้อมูลย้อนกลับไปในศตวรรษที่ 18 ในงานของเขาเรื่อง "ข้อดีของการใช้ตัวเลขในการสังเกตทางดาราศาสตร์" แต่ในช่วงปลายศตวรรษที่ผ่านมาความสนใจในหัวข้อนี้ได้รับความเร่งด่วนอย่างเห็นได้ชัดและการประมวลผลข้อมูลก็มาถึงแถวหน้าเมื่อปลายศตวรรษที่ผ่านมาเมื่อมีการค้นพบว่าวิธีการทางคอมพิวเตอร์สามารถใช้ได้ในวิทยาศาสตร์เกือบทั้งหมดตั้งแต่โบราณคดี ไปจนถึงฟิสิกส์นิวเคลียร์ เป็นผลให้วิธีการทางวิทยาศาสตร์มีการเปลี่ยนแปลงอย่างเห็นได้ชัด ไม่ใช่เรื่องบังเอิญที่ห้องสมุด neologism เกิดขึ้นจากคำว่าห้องสมุด (ห้องสมุด) และห้องปฏิบัติการ (ห้องปฏิบัติการ) ซึ่งสะท้อนถึงการเปลี่ยนแปลงเกี่ยวกับแนวคิดของสิ่งที่ถือได้ว่าเป็นผลลัพธ์ของการวิจัย จนถึงขณะนี้มีเพียงผลลัพธ์สุดท้ายที่ได้รับเท่านั้นที่ถูกนำเสนอต่อการตัดสินใจของเพื่อนร่วมงาน และตอนนี้ เมื่อข้อมูลที่หลากหลายสามารถแปลงเป็น "ดิจิทัล" ได้ เมื่อมีสื่อดิจิทัลต่างๆ จึงมีจุดมุ่งหมายของ การตีพิมพ์อาจเป็นข้อมูลที่วัดได้หลายประเภท และสิ่งสำคัญอย่างยิ่งคือความสามารถในการประมวลผลข้อมูลที่สะสมไว้ก่อนหน้านี้ในห้องสมุดอีกครั้ง จากนั้นผลตอบรับเชิงบวกก็พัฒนาขึ้นเนื่องจากกระบวนการสะสมข้อมูลทางวิทยาศาสตร์กำลังเร่งตัวอยู่ตลอดเวลา นั่นคือเหตุผลที่เมื่อตระหนักถึงขนาดของการเปลี่ยนแปลงที่กำลังจะเกิดขึ้น บรรณาธิการของประเด็นเรื่องธรรมชาติ คลิฟฟอร์ด ลินช์ จึงเสนอชื่อพิเศษสำหรับกระบวนทัศน์ใหม่ นั่นคือ Big Data ที่เขาเลือกโดยการเปรียบเทียบกับคำอุปมาอุปมัยเช่น Big Oil, Big Ore ฯลฯ สะท้อนถึงปริมาณของสิ่งใดสิ่งหนึ่งไม่มากนัก การเปลี่ยนจากปริมาณไปสู่คุณภาพมีมากน้อยเพียงใด

ข้อมูลขนาดใหญ่และธุรกิจ

เวลาผ่านไปไม่ถึงหนึ่งปีนับตั้งแต่คำว่า Big Data ถูกเผยแพร่บนหน้าสิ่งพิมพ์ทางธุรกิจชั้นนำ ซึ่งอย่างไรก็ตาม ใช้คำอุปมาอุปมัยที่แตกต่างไปจากเดิมอย่างสิ้นเชิง Big Data เปรียบได้กับทรัพยากรแร่ เช่น น้ำมันชนิดใหม่ goldrush การทำเหมืองข้อมูล ซึ่งเน้นบทบาทของข้อมูลในฐานะแหล่งข้อมูลที่ซ่อนอยู่ กับภัยพิบัติทางธรรมชาติ - พายุทอร์นาโดข้อมูล (พายุเฮอริเคนข้อมูล) น้ำท่วมข้อมูล (น้ำท่วมข้อมูล) คลื่นข้อมูลคลื่น (น้ำท่วมข้อมูล) มองว่าเป็นภัยคุกคาม การจับความเชื่อมโยงกับการผลิตทางอุตสาหกรรม - ข้อมูลไอเสีย (การปล่อยข้อมูล), ท่อดับเพลิง (ท่อข้อมูล), การปฏิวัติอุตสาหกรรม (การปฏิวัติอุตสาหกรรม) ในธุรกิจเช่นเดียวกับในทางวิทยาศาสตร์ ข้อมูลจำนวนมากไม่ใช่สิ่งใหม่ทั้งหมด - ความจำเป็นในการทำงานกับข้อมูลจำนวนมากได้รับการพูดคุยกันมานานแล้ว เช่น เกี่ยวข้องกับการแพร่กระจายของการระบุความถี่วิทยุ (RFID) และสังคม เครือข่าย และเช่นเดียวกับในทางวิทยาศาสตร์ ทั้งหมดที่ขาดหายไป คือการอุปมาที่ชัดเจนในการนิยามสิ่งที่เกิดขึ้น นั่นคือเหตุผลที่ในปี 2010 ผลิตภัณฑ์แรกปรากฏขึ้นโดยอ้างว่าอยู่ในหมวดหมู่ Big Data - พบชื่อที่เหมาะสมสำหรับสิ่งที่มีอยู่แล้ว เป็นสิ่งสำคัญที่ใน Hype Cycle เวอร์ชันปี 2011 ซึ่งระบุลักษณะเฉพาะของสถานะและแนวโน้มของเทคโนโลยีใหม่ นักวิเคราะห์ของ Gartner ได้แนะนำตำแหน่งอื่น นั่นคือ Big Data และการประมวลผลและการจัดการข้อมูลขั้นสูง พร้อมการประมาณระยะเวลาสำหรับการนำโซลูชันที่เกี่ยวข้องไปใช้ในวงกว้างจาก สองถึงห้าปี

ทำไม Big Data ถึงกลายเป็นปัญหา?

ผ่านไป 3 ปีแล้วนับตั้งแต่คำว่า Big Data เกิดขึ้น แต่หากทุกอย่างชัดเจนในเชิงวิทยาศาสตร์ ตำแหน่งของ Big Data ในธุรกิจก็ยังไม่แน่นอน ไม่ใช่เรื่องบังเอิญที่มักจะพูดถึง “ปัญหา Big Data” บ่อยครั้ง และ ไม่ใช่แค่เกี่ยวกับปัญหาเท่านั้น แต่ยังรวมถึงทุกสิ่งทุกอย่างด้วยที่มีการกำหนดไว้ไม่ดีเช่นกัน ปัญหามักถูกทำให้ง่ายขึ้น โดยตีความเหมือนกฎของมัวร์ มีข้อแตกต่างเพียงอย่างเดียวคือในกรณีนี้ เรากำลังเผชิญกับปรากฏการณ์การเพิ่มปริมาณข้อมูลต่อปีเป็นสองเท่า หรือเกินจริงจนทำให้เกือบจะเป็นภัยพิบัติทางธรรมชาติที่ต้องแก้ไขอย่างเร่งด่วน จะได้รับการจัดการด้วยวิธีใดวิธีหนึ่ง มีข้อมูลเพิ่มมากขึ้นเรื่อยๆ แต่ทั้งหมดนี้ เรามองข้ามความจริงที่ว่าปัญหาไม่ได้เกิดขึ้นจากภายนอก มันไม่ได้เกิดจากข้อมูลจำนวนมหาศาลที่พังทลายลงอย่างเหลือเชื่อ แต่เกิดจากการไร้ความสามารถของข้อมูลเก่า วิธีการรับมือกับเล่มใหม่ และที่สำคัญที่สุดคือเราสร้างขึ้นเอง มีความไม่สมดุลที่แปลกประหลาด - ความสามารถในการสร้างข้อมูลนั้นแข็งแกร่งกว่าความสามารถในการประมวลผล สาเหตุของความไม่สมดุลนี้เป็นไปได้มากว่าในช่วง 65 ปีที่ผ่านมาของประวัติศาสตร์คอมพิวเตอร์ เรายังไม่เข้าใจว่าข้อมูลคืออะไรและเกี่ยวข้องกับผลลัพธ์ของการประมวลผลอย่างไร เป็นเรื่องน่าแปลกที่นักคณิตศาสตร์จัดการกับแนวคิดพื้นฐานของวิทยาศาสตร์มานานหลายศตวรรษ เช่น ระบบจำนวนและจำนวน ซึ่งเกี่ยวข้องกับนักปรัชญาในเรื่องนี้ และในกรณีของเรา ข้อมูลและข้อมูลต่างๆ ก็ไม่ได้หมายความว่าจะเป็นสิ่งเล็กๆ น้อยๆ ที่ถูกปล่อยทิ้งไว้โดยไม่มีใครดูแลและมอบให้ สู่การรับรู้ตามสัญชาตญาณ ปรากฎว่าตลอด 65 ปีที่ผ่านมาเทคโนโลยีการประมวลผลข้อมูลได้พัฒนาไปอย่างรวดเร็วอย่างไม่น่าเชื่อและไซเบอร์เนติกส์และทฤษฎีข้อมูลแทบจะไม่พัฒนาเลย โดยยังคงอยู่ในระดับ 50 เมื่อมีการใช้คอมพิวเตอร์หลอดสุญญากาศในการคำนวณโดยเฉพาะ แท้จริงแล้วความยุ่งยากในปัจจุบันเกี่ยวกับ Big Data หากคุณมองอย่างใกล้ชิด กระตุ้นให้เกิดรอยยิ้มที่น่าสงสัย

การปรับขนาดและการจัดระดับ

คลาวด์ ข้อมูลขนาดใหญ่ การวิเคราะห์ - ปัจจัยทั้งสามนี้ของไอทีสมัยใหม่ไม่เพียงแต่เชื่อมโยงถึงกันเท่านั้น แต่ในปัจจุบัน ปัจจัยเหล่านี้ไม่สามารถดำรงอยู่ได้อีกต่อไปหากไม่มีกันและกัน การทำงานกับ Big Data เป็นไปไม่ได้หากไม่มีที่เก็บข้อมูลบนคลาวด์และการประมวลผลแบบคลาวด์ - การเกิดขึ้นของเทคโนโลยีคลาวด์ไม่เพียง แต่ในรูปแบบของแนวคิดเท่านั้น แต่ยังอยู่ในรูปแบบของโครงการที่เสร็จสมบูรณ์และนำไปใช้แล้วกลายเป็นตัวกระตุ้นให้เกิดการเปิดตัวรอบใหม่ของเกลียวที่เพิ่มขึ้น ความสนใจในการวิเคราะห์ข้อมูลขนาดใหญ่ หากเราพูดถึงผลกระทบต่ออุตสาหกรรมโดยรวม ในปัจจุบัน ข้อกำหนดที่เพิ่มขึ้นสำหรับระบบการจัดเก็บข้อมูลที่ปรับขนาดได้ก็ชัดเจนขึ้น นี่เป็นเงื่อนไขที่จำเป็นอย่างแท้จริง ท้ายที่สุดแล้ว เป็นการยากที่จะคาดการณ์ล่วงหน้าว่ากระบวนการวิเคราะห์ใดจะต้องใช้ข้อมูลบางอย่าง และปริมาณที่จัดเก็บข้อมูลที่มีอยู่จะถูกโหลดในปริมาณมากเพียงใด นอกจากนี้ ข้อกำหนดในการปรับขนาดทั้งแนวตั้งและแนวนอนก็มีความสำคัญไม่แพ้กัน

ในระบบจัดเก็บข้อมูลเจเนอเรชั่นใหม่ ฟูจิตสึให้ความสนใจอย่างมากกับแง่มุมของการปรับขนาดและการจัดเก็บข้อมูลหลายระดับ การปฏิบัติแสดงให้เห็นว่าในปัจจุบัน เพื่อดำเนินการวิเคราะห์ ระบบจำเป็นต้องมีการโหลดจำนวนมาก แต่ธุรกิจต้องการให้บริการ แอปพลิเคชัน และข้อมูลทั้งหมดยังคงพร้อมใช้งานอยู่เสมอ นอกจากนี้ข้อกำหนดสำหรับผลการวิจัยเชิงวิเคราะห์ในปัจจุบันยังสูงมาก - กระบวนการวิเคราะห์ที่มีความสามารถ ถูกต้อง และทันเวลาสามารถปรับปรุงผลลัพธ์ทางธุรกิจโดยรวมได้อย่างมีนัยสำคัญ

อเล็กซานเดอร์ ยาโคฟเลฟ ([ป้องกันอีเมล]) ผู้จัดการฝ่ายการตลาดผลิตภัณฑ์ที่ฟูจิตสึ (มอสโก)

ด้วยการเพิกเฉยต่อบทบาทของข้อมูลและข้อมูลที่เป็นหัวข้อของการวิจัย เหมืองก็ถูกวางระเบิดในเวลาที่ความต้องการเปลี่ยนแปลงไป เมื่อภาระการประมวลผลบนคอมพิวเตอร์กลายเป็นน้อยกว่างานประเภทอื่น ๆ ที่ทำกับข้อมูลมาก และวัตถุประสงค์ของการดำเนินการเหล่านี้คือการได้รับข้อมูลใหม่และความรู้ใหม่จากชุดข้อมูลที่มีอยู่ นั่นคือเหตุผลที่หากไม่ฟื้นฟูการเชื่อมต่อในห่วงโซ่ "ข้อมูล - ข้อมูล - ความรู้" การพูดคุยเกี่ยวกับการแก้ปัญหา Big Data ก็ไร้ประโยชน์ ข้อมูลได้รับการประมวลผลเพื่อสร้างข้อมูลที่เพียงพอสำหรับบุคคลที่จะเปลี่ยนให้เป็นความรู้

ในช่วงหลายทศวรรษที่ผ่านมา ไม่มีการทำงานอย่างจริงจังเกี่ยวกับการเชื่อมโยงข้อมูลดิบกับข้อมูลที่เป็นประโยชน์ และสิ่งที่เรามักเรียกว่าทฤษฎีข้อมูลของ Claude Shannon นั้นไม่มีอะไรมากไปกว่าทฤษฎีทางสถิติของการส่งสัญญาณ และไม่เกี่ยวข้องกับข้อมูลที่รับรู้โดย มนุษย์ มีสิ่งพิมพ์หลายฉบับที่สะท้อนมุมมองส่วนตัว แต่ไม่มีทฤษฎีข้อมูลสมัยใหม่ที่ครบถ้วน เป็นผลให้ผู้เชี่ยวชาญส่วนใหญ่ไม่สามารถแยกความแตกต่างระหว่างข้อมูลและข้อมูลข่าวสารได้เลย คนรอบข้างก็แค่บอกว่ามีข้อมูลเยอะหรือเยอะแต่ไม่มีใครมีความคิดที่เป็นผู้ใหญ่ว่ามีอะไรมากมายจริงๆ ควรจะแก้ไขปัญหาที่เกิดขึ้นด้วยวิธีใด - และทั้งหมดเป็นเพราะ ความสามารถด้านเทคนิคในการทำงานกับข้อมูลมีระดับเหนือกว่าการพัฒนาความสามารถในการใช้งานอย่างเห็นได้ชัด มีผู้เขียนและเป็นบรรณาธิการของ Web 2.0 Journal Dion Hinchcliffe เพียงคนเดียวเท่านั้นที่มีการจำแนกประเภทของ Big Data ที่ช่วยให้ผู้ใช้สามารถเชื่อมโยงเทคโนโลยีกับผลลัพธ์ที่คาดหวังจากการประมวลผล Big Data ได้ แต่ก็ยังห่างไกลจากที่น่าพอใจ

Hinchcliffe แบ่งแนวทางสู่ Big Data ออกเป็นสามกลุ่ม ได้แก่ Fast Data ซึ่งปริมาตรมีหน่วยเป็นเทราไบต์ Big Analytics - ข้อมูลเพตาไบต์และ Deep Insight - เอ็กซาไบต์, เซตตาไบต์ กลุ่มต่างๆ จะแตกต่างกันไม่เพียงแต่ในด้านปริมาณข้อมูลที่จัดการเท่านั้น แต่ยังรวมถึงคุณภาพของโซลูชันสำหรับการประมวลผลด้วย

การประมวลผลข้อมูลที่รวดเร็วไม่ได้หมายความถึงการได้รับความรู้ใหม่ ผลลัพธ์ของมันสัมพันธ์กับความรู้เบื้องต้น และทำให้สามารถตัดสินได้ว่ากระบวนการบางอย่างดำเนินไปอย่างไร ช่วยให้คุณเห็นสิ่งที่เกิดขึ้นได้ดีขึ้นและละเอียดยิ่งขึ้น ยืนยันหรือปฏิเสธบางส่วน สมมติฐาน เทคโนโลยีที่มีอยู่ในปัจจุบันเพียงส่วนเล็ก ๆ เท่านั้นที่เหมาะสำหรับการแก้ปัญหา Fast Data รายการนี้รวมถึงเทคโนโลยีบางอย่างสำหรับการทำงานกับที่เก็บข้อมูล (ผลิตภัณฑ์ของ Greenplum, Netezza, Oracle Exadata, Teradata, DBMS เช่น Verica และ kdb) ความเร็วของเทคโนโลยีเหล่านี้จะต้องเพิ่มขึ้นควบคู่ไปกับการเติบโตของปริมาณข้อมูล

ปัญหาที่แก้ไขได้ด้วยเครื่องมือ Big Analytics นั้นแตกต่างกันอย่างเห็นได้ชัด ไม่เพียงแต่ในเชิงปริมาณเท่านั้น แต่ยังรวมถึงเชิงคุณภาพด้วย และเทคโนโลยีที่เกี่ยวข้องควรช่วยในการรับความรู้ใหม่ - พวกเขาทำหน้าที่ในการแปลงข้อมูลที่บันทึกไว้ในข้อมูลให้เป็นความรู้ใหม่ อย่างไรก็ตาม ในระดับเฉลี่ยนี้ การมีอยู่ของปัญญาประดิษฐ์จะไม่ถือว่าเมื่อเลือกโซลูชันหรือการดำเนินการอัตโนมัติใดๆ ของระบบการวิเคราะห์ - มันถูกสร้างขึ้นบนหลักการของ "การเรียนรู้แบบมีผู้สอน" กล่าวอีกนัยหนึ่ง ศักยภาพในการวิเคราะห์ทั้งหมดของเธอถูกสร้างขึ้นในตัวเธอในระหว่างกระบวนการเรียนรู้ ตัวอย่างที่ชัดเจนที่สุดคือเครื่องจักรที่เล่น Jeopardy! ตัวแทนคลาสสิกของการวิเคราะห์ดังกล่าว ได้แก่ ผลิตภัณฑ์ MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache และ Mahout

ระดับสูงสุดคือ Deep Insight เกี่ยวข้องกับการเรียนรู้แบบไม่มีผู้ดูแลและการใช้วิธีการวิเคราะห์สมัยใหม่ ตลอดจนวิธีการแสดงภาพต่างๆ ในระดับนี้เป็นไปได้ที่จะค้นพบความรู้และรูปแบบที่ไม่ทราบมาก่อน

การวิเคราะห์ข้อมูลขนาดใหญ่

เมื่อเวลาผ่านไป แอปพลิเคชันคอมพิวเตอร์เริ่มเข้าใกล้โลกแห่งความเป็นจริงมากขึ้นในทุกด้าน ดังนั้นปริมาณข้อมูลอินพุตจึงเพิ่มขึ้นและด้วยเหตุนี้จึงมีความจำเป็นในการวิเคราะห์ และอยู่ในโหมดที่ใกล้เคียงกับเรียลไทม์มากที่สุด การบรรจบกันของแนวโน้มทั้งสองนี้นำไปสู่การเกิดขึ้นของ การวิเคราะห์ข้อมูลขนาดใหญ่(การวิเคราะห์ข้อมูลขนาดใหญ่)

ชัยชนะของคอมพิวเตอร์ Watson เป็นการสาธิตความสามารถของ Big Data Analytics ที่ยอดเยี่ยม - เรากำลังเข้าสู่ยุคที่น่าสนใจเมื่อคอมพิวเตอร์ถูกใช้เป็นเครื่องมือในการเร่งความเร็วการคำนวณเป็นครั้งแรกไม่มากนัก แต่เป็นผู้ช่วยที่ขยายตัว ความสามารถของมนุษย์ในการเลือกข้อมูลและการตัดสินใจ แผนการยูโทเปียที่ดูเหมือนของ Vannevar Bush, Joseph Licklider และ Doug Engelbart เริ่มเป็นจริงแล้ว แต่สิ่งนี้ไม่ได้เกิดขึ้นอย่างที่เห็นเมื่อหลายสิบปีก่อน - พลังของคอมพิวเตอร์ไม่ได้เหนือกว่ามนุษย์ในด้านความสามารถเชิงตรรกะ ซึ่งนักวิทยาศาสตร์หวังเป็นพิเศษ สำหรับ แต่ด้วยความสามารถที่มากขึ้นอย่างมากในการประมวลผลข้อมูลจำนวนมหาศาล สิ่งที่คล้ายกันเกิดขึ้นในการเผชิญหน้าระหว่าง Garry Kasparov และ Deep Blue คอมพิวเตอร์ไม่ใช่ผู้เล่นที่มีทักษะมากนัก แต่สามารถผ่านตัวเลือกต่างๆ ได้เร็วขึ้น

ปริมาณข้อมูลขนาดมหึมาผสมผสานกับความเร็วสูงที่ทำให้ Big Data Analytics แตกต่างจากแอปพลิเคชันอื่น ๆ ต้องใช้คอมพิวเตอร์ที่เหมาะสม และในปัจจุบันผู้ผลิตรายใหญ่เกือบทั้งหมดนำเสนอระบบซอฟต์แวร์และฮาร์ดแวร์เฉพาะทาง: SAP HANA, Oracle Big Data Appliance, Oracle Exadata Database Machine และ Oracle Exalytics Business Intelligence Machine , Teradata Extreme Performance Appliance, เทคโนโลยีการจัดเก็บข้อมูล NetApp E-Series, IBM Netezza Data Appliance, EMC Greenplum, แพลตฟอร์ม Vertica Analytics ที่ใช้โครงสร้างพื้นฐาน HP Converged นอกจากนี้ บริษัทขนาดเล็กและบริษัทสตาร์ทอัพจำนวนมากได้เข้ามามีส่วนร่วมในเกม: Cloudera, DataStax, Northscale, Splunk, Palantir, Factual, Kognitio, Datameer, TellApart, Paraccel, Hortonworks

ข้อเสนอแนะ

แอปพลิเคชัน Big Data Analytics ใหม่เชิงคุณภาพไม่เพียงต้องการเทคโนโลยีใหม่เท่านั้น แต่ยังต้องใช้ระดับการคิดของระบบที่แตกต่างกันในเชิงคุณภาพด้วย แต่ยังมีปัญหาในเรื่องนี้ - ผู้พัฒนาโซลูชัน Big Data Analytics มักจะค้นพบความจริงที่รู้จักมาตั้งแต่ทศวรรษที่ 50 อีกครั้ง ด้วยเหตุนี้ การวิเคราะห์จึงมักถูกพิจารณาว่าแยกออกจากวิธีการจัดเตรียมข้อมูลต้นฉบับ การสร้างภาพ และเทคโนโลยีอื่นๆ เพื่อให้ผลลัพธ์แก่มนุษย์ แม้แต่องค์กรที่ได้รับการยอมรับอย่าง The Data Warehousing Institute ก็มองว่าการวิเคราะห์แยกจากกัน โดยจากข้อมูลขององค์กร 38% ขององค์กรกำลังสำรวจการใช้การวิเคราะห์ขั้นสูงในแนวทางการจัดการของตนอยู่แล้ว และอีก 50% ตั้งใจที่จะใช้ภายในสามปีถัดไป ปี. ความสนใจนี้ได้รับการพิสูจน์โดยการอ้างถึงข้อโต้แย้งมากมายจากธุรกิจแม้ว่าจะสามารถพูดได้ง่ายขึ้น - องค์กรในเงื่อนไขใหม่ต้องการระบบการจัดการขั้นสูงมากขึ้นและการสร้างจะต้องเริ่มต้นด้วยการสร้างข้อเสนอแนะนั่นคือด้วยระบบที่ช่วย ในการตัดสินใจและในอนาคตบางทีบางทีอาจจะเป็นไปได้ที่จะทำให้การตัดสินใจเกิดขึ้นจริงโดยอัตโนมัติ น่าแปลกที่สิ่งที่กล่าวมาทั้งหมดเหมาะสมกับวิธีการสร้างระบบควบคุมอัตโนมัติสำหรับวัตถุทางเทคโนโลยีที่รู้จักกันมาตั้งแต่ยุค 60

เครื่องมือใหม่สำหรับการวิเคราะห์เป็นสิ่งจำเป็นเนื่องจากไม่เพียงมีข้อมูลมากกว่าเดิม แต่ยังมีแหล่งข้อมูลภายนอกและภายในมากขึ้น ขณะนี้แหล่งข้อมูลเหล่านี้มีความซับซ้อนและหลากหลายมากขึ้น (มีโครงสร้าง ไม่มีโครงสร้าง และกึ่งมีโครงสร้าง) มีการใช้โครงร่างการจัดทำดัชนีต่างๆ (เชิงสัมพันธ์ หลายมิติ NoSQL) ไม่สามารถจัดการกับข้อมูลโดยใช้วิธีการก่อนหน้านี้ได้อีกต่อไป - Big Data Analytics ขยายไปสู่อาร์เรย์ขนาดใหญ่และซับซ้อน ซึ่งเป็นเหตุผลว่าทำไมจึงใช้คำว่า Discovery Analytics (การวิเคราะห์การค้นพบ) และ Exploratory Analytics (การวิเคราะห์เชิงอธิบาย) ไม่ว่าคุณจะเรียกมันว่าอะไร สิ่งสำคัญก็เหมือนกัน นั่นคือผลตอบรับ โดยให้ข้อมูลแก่ผู้มีอำนาจตัดสินใจเกี่ยวกับกระบวนการประเภทต่างๆ ในรูปแบบที่ยอมรับได้

ส่วนประกอบ

ในการรวบรวมข้อมูลดิบ จะมีการใช้เทคโนโลยีฮาร์ดแวร์และซอฟต์แวร์ที่เหมาะสม ซึ่งขึ้นอยู่กับลักษณะของวัตถุควบคุม (RFID ข้อมูลจากโซเชียลเน็ตเวิร์ก เอกสารข้อความต่างๆ ฯลฯ) ข้อมูลนี้ไปที่อินพุตของเครื่องมือวิเคราะห์ (ตัวควบคุมในวงจรป้อนกลับหากเราดำเนินการเปรียบเทียบกับไซเบอร์เนติกส์ต่อไป) ตัวควบคุมนี้ใช้แพลตฟอร์มฮาร์ดแวร์-ซอฟต์แวร์ที่ซอฟต์แวร์วิเคราะห์ทำงานอยู่ โดยไม่ได้ให้การสร้างการดำเนินการควบคุมที่เพียงพอสำหรับการควบคุมอัตโนมัติ ดังนั้นนักวิทยาศาสตร์ข้อมูลหรือวิศวกรข้อมูลจึงรวมอยู่ในลูป สามารถเปรียบเทียบหน้าที่กับบทบาทที่ได้รับ เช่น โดยผู้เชี่ยวชาญในสาขาวิศวกรรมไฟฟ้าที่ใช้ความรู้จากฟิสิกส์มาประยุกต์ใช้กับการสร้างเครื่องจักรไฟฟ้า งานของวิศวกรคือการจัดการกระบวนการแปลงข้อมูลให้เป็นข้อมูลที่ใช้สำหรับการตัดสินใจ โดยจะคอยทำให้วงจรป้อนกลับสมบูรณ์ จากสี่องค์ประกอบของ Big Data Analytics ในกรณีนี้เราสนใจเพียงองค์ประกอบเดียวเท่านั้น - แพลตฟอร์มฮาร์ดแวร์และซอฟต์แวร์ (ระบบประเภทนี้เรียกว่า Analytic Appliance หรือ Data Warehouse Appliance)

เป็นเวลาหลายปีที่ผู้ผลิตเครื่องวิเคราะห์เฉพาะทางเพียงรายเดียวคือ Teradata แต่ไม่ใช่รายแรก - ย้อนกลับไปในช่วงปลายทศวรรษที่ 70 ซึ่งเป็นผู้นำในอุตสาหกรรมคอมพิวเตอร์ของอังกฤษในขณะนั้น ICL ได้พยายามสร้างเนื้อหาที่ไม่ประสบความสำเร็จมากนัก -ที่เก็บข้อมูลที่อยู่ได้ซึ่งใช้ IDMS DBMS แต่ Britton-Lee เป็นคนแรกที่สร้าง "เครื่องฐานข้อมูล" ในปี 1983 โดยใช้การกำหนดค่ามัลติโปรเซสเซอร์ของตระกูลโปรเซสเซอร์ Zilog Z80 ต่อมา Britton-Lee ถูกซื้อกิจการโดย Teradata ซึ่งตั้งแต่ปี 1984 ได้ผลิตคอมพิวเตอร์สถาปัตยกรรม MPP สำหรับระบบสนับสนุนการตัดสินใจและคลังข้อมูล และตัวแทนคนแรกของซัพพลายเออร์รุ่นใหม่ของคอมเพล็กซ์ดังกล่าวคือ Netezza ซึ่งเป็นโซลูชัน Netezza Performance Server ที่ใช้เบลดเซิร์ฟเวอร์มาตรฐานพร้อมกับเบลดหน่วยประมวลผล Snippet เฉพาะทาง

การวิเคราะห์ใน DBMS

การวิเคราะห์มาก่อนที่นี่ พยากรณ์, หรือ คาดการณ์ได้(การวิเคราะห์เชิงทำนาย, RA) ในการใช้งานที่มีอยู่ส่วนใหญ่ ข้อมูลเริ่มต้นสำหรับระบบ RA คือข้อมูลที่สะสมไว้ก่อนหน้านี้ในคลังข้อมูล สำหรับการวิเคราะห์ ข้อมูลจะถูกย้ายไปยังหน้าร้านระดับกลางก่อน (Independent Data Mart, IDM) ซึ่งการนำเสนอข้อมูลไม่ได้ขึ้นอยู่กับแอปพลิเคชันที่ใช้งาน จากนั้นข้อมูลเดียวกันจะถูกถ่ายโอนไปยังหน้าร้านเชิงวิเคราะห์เฉพาะทาง (Analytical Data Mart, ADM) และผู้เชี่ยวชาญทำงานร่วมกับมันโดยใช้เครื่องมือการพัฒนาต่างๆ หรือการขุดข้อมูล (Data Mining) แบบจำลองหลายขั้นตอนดังกล่าวค่อนข้างยอมรับได้สำหรับข้อมูลปริมาณค่อนข้างน้อย แต่เมื่อแบบจำลองดังกล่าวเพิ่มขึ้นและเนื่องจากข้อกำหนดในการเพิ่มประสิทธิภาพ ข้อบกพร่องจำนวนหนึ่งก็ถูกเปิดเผยในแบบจำลองดังกล่าว นอกเหนือจากความจำเป็นในการย้ายข้อมูลแล้ว การมีอยู่ของ ADM อิสระจำนวนมากยังนำไปสู่ความซับซ้อนของโครงสร้างพื้นฐานทางกายภาพและลอจิคัล จำนวนเครื่องมือสร้างแบบจำลองที่ใช้เพิ่มขึ้น ผลลัพธ์ที่ได้รับจากนักวิเคราะห์ที่แตกต่างกันไม่สอดคล้องกัน และพลังการประมวลผลและช่องทางต่างๆ ใช้ห่างไกลจากความเหมาะสมที่สุด นอกจากนี้ การมีอยู่ของพื้นที่เก็บข้อมูลและ ADM ที่แยกจากกันทำให้การวิเคราะห์แบบเกือบเรียลไทม์แทบจะเป็นไปไม่ได้เลย

โซลูชันอาจเป็นแนวทางที่เรียกว่า In-Database Analytics หรือ No-Copy Analytics ซึ่งเกี่ยวข้องกับการใช้ข้อมูลโดยตรงในฐานข้อมูลเพื่อการวิเคราะห์ บางครั้งเรียกว่า DBMS เชิงวิเคราะห์และแบบขนาน แนวทางนี้มีความน่าสนใจเป็นพิเศษเมื่อมีการถือกำเนิดของเทคโนโลยี MapReduce และ Hadoop ในแอปพลิเคชัน In-Database Analytics รุ่นใหม่ วิศวกรรมข้อมูลและงานหนักอื่นๆ จะดำเนินการกับข้อมูลในคลังสินค้าโดยตรง แน่นอนว่าสิ่งนี้ช่วยเร่งกระบวนการได้อย่างมาก และช่วยให้แอปพลิเคชันต่างๆ เช่น การจดจำรูปแบบ การจัดกลุ่ม การวิเคราะห์การถดถอย และการคาดการณ์ประเภทต่างๆ ดำเนินการได้แบบเรียลไทม์ การเร่งความเร็วเกิดขึ้นได้ไม่เพียงแต่โดยการกำจัดการถ่ายโอนจากพื้นที่จัดเก็บข้อมูลไปยังหน้าร้านเท่านั้น แต่โดยการใช้วิธีการแบบขนานต่างๆ รวมถึงระบบคลัสเตอร์ที่มีการปรับขนาดแบบไม่จำกัด โซลูชันเช่นการวิเคราะห์ในฐานข้อมูลเปิดโอกาสให้ใช้เทคโนโลยีคลาวด์ในแอปพลิเคชันการวิเคราะห์ ขั้นตอนต่อไปอาจเป็นเทคโนโลยี SAP HANA (อุปกรณ์วิเคราะห์ประสิทธิภาพสูง) ซึ่งสาระสำคัญคือการวางข้อมูลเพื่อการวิเคราะห์ใน RAM

ซัพพลายเออร์หลัก...

ภายในปี 2010 ซัพพลายเออร์หลักของซอฟต์แวร์สำหรับการวิเคราะห์ในฐานข้อมูล ได้แก่ Aster Data (Aster nCluster), Greenplum (ฐานข้อมูล Greenplum), IBM (InfoSphere Warehouse; IBM DB2), Microsoft (SQL Server 2008), Netezza (Netezza Performance System, PostGresSQL ) , Oracle (Oracle Database 11g/10g, Oracle Exadata), SenSage (SenSage/คอลัมน์), Sybase (Sybase IQ), Teradata และ Vertica Systems (ฐานข้อมูล Vertica Analytic) บริษัทเหล่านี้ล้วนเป็นบริษัทที่มีชื่อเสียง ยกเว้น SenSage สตาร์ทอัพใน Silicon Valley ผลิตภัณฑ์มีความแตกต่างกันอย่างเห็นได้ชัดในด้านประเภทของข้อมูลที่สามารถทำงานได้ ฟังก์ชันการทำงาน อินเทอร์เฟซ ซอฟต์แวร์การวิเคราะห์ที่ใช้ และความสามารถในการทำงานในระบบคลาวด์ ผู้นำในแง่ของความสมบูรณ์ของโซลูชันคือ Teradata และในแง่ของเปรี้ยวจี๊ด - Aster Data รายชื่อผู้ให้บริการซอฟต์แวร์วิเคราะห์นั้นสั้นกว่า - ผลิตภัณฑ์จาก KXEN, SAS, SPSS และ TIBCO สามารถทำงานในการกำหนดค่าในเครื่องและในระบบคลาวด์ - Amazon, Cascading, Google, Yahoo! และคลาวเดอรา

ปี 2010 เป็นจุดเปลี่ยนในด้านการวิเคราะห์เชิงคาดการณ์ เทียบได้กับปี 2007 เมื่อ IBM เข้าซื้อกิจการ Cognos, SAP เข้าซื้อกิจการ Business Object และ Oracle เข้าซื้อกิจการ Hyperion ทุกอย่างเริ่มต้นจากการที่ EMC ซื้อกิจการ Greenplum จากนั้น IBM - Netezza, HP - Vertica, Teradata ซื้อ Aster Data และ SAP ซื้อ Sybase

...และโอกาสใหม่ๆ

กระบวนทัศน์การวิเคราะห์เปิดโอกาสใหม่โดยพื้นฐาน ซึ่งได้รับการพิสูจน์อย่างประสบความสำเร็จโดยวิศวกรสองคนจากโคโลญจน์ผู้สร้างบริษัท ParStream (ชื่ออย่างเป็นทางการ empulse GmbH) พวกเขาร่วมกันจัดการเพื่อสร้างแพลตฟอร์มการวิเคราะห์ที่ใช้ทั้งโปรเซสเซอร์อเนกประสงค์และโปรเซสเซอร์กราฟิก ซึ่งสามารถแข่งขันกับรุ่นก่อนได้ เมื่อสี่ปีที่แล้ว Michael Hummepl และ Jörg Bienert ซึ่งเดิมคือ Accenture ได้รับคำสั่งจากบริษัทท่องเที่ยวในเยอรมนีที่ต้องการระบบในการสร้างทัวร์ที่สามารถเลือกบันทึกที่มีพารามิเตอร์ 20 ตัวในฐานข้อมูล 6 พันล้านบันทึกใน 100 มิลลิวินาที ไม่มีโซลูชันที่มีอยู่ใดที่สามารถรับมือกับงานนี้ได้ แม้ว่าจะพบปัญหาที่คล้ายกันในทุกที่ที่จำเป็นต้องมีการวิเคราะห์การปฏิบัติงานของเนื้อหาของฐานข้อมูลขนาดใหญ่มาก ParStream เกิดขึ้นจากการใช้เทคโนโลยีคอมพิวเตอร์ประสิทธิภาพสูงกับ Big Data Analytics Hümmepl และ Bienert เริ่มต้นด้วยการเขียนเคอร์เนลฐานข้อมูลของตนเอง ซึ่งออกแบบมาเพื่อทำงานบนคลัสเตอร์สถาปัตยกรรม x86 ที่รองรับการดำเนินการข้อมูลในรูปแบบของสตรีมแบบขนาน จึงเป็นที่มาของชื่อ ParStream พวกเขาเลือกที่จะทำงานเฉพาะกับข้อมูลที่มีโครงสร้างเป็นการตั้งค่าเริ่มต้น ซึ่งจริงๆ แล้วเปิดความเป็นไปได้ของการทำคู่ขนานที่ค่อนข้างง่าย การออกแบบฐานข้อมูลนี้ใกล้เคียงกับโครงการ Dremel ใหม่ของ Google มากกว่า MapReduce หรือ Hadoop ซึ่งไม่ได้ปรับแต่งให้เหมาะกับการสืบค้นแบบเรียลไทม์ เริ่มต้นบนแพลตฟอร์ม x86/Linux ในไม่ช้า Hümmepl และ Bienert ก็เชื่อมั่นว่าฐานข้อมูลของพวกเขาสามารถรองรับโดย nVidia Fermi GPU

ข้อมูลขนาดใหญ่และการประมวลผลข้อมูล

หากต้องการทำความเข้าใจสิ่งที่คาดหวังจากสิ่งที่เรียกว่า Big Data คุณควรก้าวข้ามขอบเขตของโลกทัศน์ "ไอที" ที่แคบและทันสมัยและพยายามดูว่าเกิดอะไรขึ้นในการย้อนหลังทางประวัติศาสตร์และเทคโนโลยีที่กว้างขึ้น เช่น พยายามค้นหาความคล้ายคลึงกับเทคโนโลยี ที่มีประวัติยาวนานกว่า ท้ายที่สุดแล้ว เมื่อเรียกหัวข้อของเทคโนโลยีกิจกรรมของเราแล้ว เราต้องถือว่ามันเป็นเทคโนโลยี เทคโนโลยีวัสดุที่รู้จักเกือบทั้งหมดมาจากการประมวลผล แปรรูป หรือประกอบวัตถุดิบเฉพาะหรือส่วนประกอบอื่นๆ เพื่อให้ได้ผลิตภัณฑ์ใหม่ที่มีคุณภาพ - บางอย่างอยู่ที่อินพุตของกระบวนการทางเทคโนโลยีและบางอย่างอยู่ที่ผลลัพธ์

ลักษณะเฉพาะของเทคโนโลยีสารสนเทศที่จับต้องไม่ได้คือห่วงโซ่เทคโนโลยีไม่ชัดเจนนัก ยังไม่ชัดเจนว่าอะไรคือวัตถุดิบ ผลลัพธ์คืออะไร อินพุตคืออะไร และเอาต์พุตคืออะไร วิธีที่ง่ายที่สุดในการบอกว่าอินพุตเป็นข้อมูลดิบ และเอาต์พุตเป็นข้อมูลที่เป็นประโยชน์ โดยทั่วไปเกือบจะจริง แต่ความสัมพันธ์ระหว่างสองเอนทิตีนี้ซับซ้อนมาก หากเรายังคงอยู่ในระดับของลัทธิปฏิบัตินิยมที่ดีต่อสุขภาพ เราก็สามารถจำกัดตัวเองอยู่เพียงการพิจารณาต่อไปนี้ ข้อมูลคือข้อเท็จจริงดิบที่แสดงออกมาในรูปแบบต่างๆ ซึ่งในตัวมันเองไม่มีความหมายที่เป็นประโยชน์จนกว่าจะมีบริบท จัดระเบียบอย่างเหมาะสมและจัดลำดับผ่านการประมวลผล ข้อมูลปรากฏขึ้นจากการวิเคราะห์ข้อมูลที่ประมวลผลโดยมนุษย์ การวิเคราะห์นี้ให้ความหมายกับข้อมูลและมอบคุณภาพของผู้บริโภค ข้อมูลเป็นข้อเท็จจริงที่ไม่มีการรวบรวมกันซึ่งจำเป็นต้องเปลี่ยนเป็นข้อมูล จนกระทั่งเมื่อไม่นานมานี้มีไอเดียเกี่ยวกับ การประมวลผลข้อมูล(การประมวลผลข้อมูล) ลดลงเหลือช่วงออร์แกนิกของการดำเนินการอัลกอริทึม ตรรกะ หรือทางสถิติกับข้อมูลจำนวนค่อนข้างน้อย อย่างไรก็ตาม เมื่อเทคโนโลยีคอมพิวเตอร์เข้าใกล้โลกแห่งความเป็นจริงมากขึ้น ความต้องการในการแปลงข้อมูลจากโลกแห่งความเป็นจริงให้เป็นข้อมูลเกี่ยวกับโลกแห่งความเป็นจริงก็เพิ่มขึ้น ปริมาณข้อมูลที่ประมวลผลก็เพิ่มมากขึ้น และข้อกำหนดสำหรับความเร็วในการประมวลผลก็เพิ่มขึ้น

ตามหลักเหตุผลแล้ว เทคโนโลยีสารสนเทศไม่แตกต่างจากเทคโนโลยีวัสดุมากนัก ข้อมูลเข้าเป็นข้อมูลดิบ ผลลัพธ์มีโครงสร้าง ในรูปแบบที่สะดวกกว่าสำหรับการรับรู้ของมนุษย์ การดึงข้อมูลจากพวกเขา และใช้พลังของสติปัญญาเพื่อเปลี่ยนข้อมูลให้เป็นความรู้ที่เป็นประโยชน์ คอมพิวเตอร์ถูกเรียกว่าคอมพิวเตอร์เนื่องจากความสามารถในการนับ จำแอปพลิเคชันแรกสำหรับ ENIAC - ประมวลผลข้อมูลการยิงปืนและเปลี่ยนเป็นโต๊ะปืนใหญ่ นั่นคือคอมพิวเตอร์ประมวลผลข้อมูลดิบ ดึงข้อมูลที่เป็นประโยชน์และจดบันทึกไว้ในรูปแบบที่ยอมรับได้ สิ่งที่อยู่ตรงหน้าเราไม่มีอะไรมากไปกว่ากระบวนการทางเทคโนโลยีปกติ โดยทั่วไป แทนที่จะใช้คำว่าเทคโนโลยีสารสนเทศที่กำหนดไว้ การประมวลผลข้อมูลที่แม่นยำยิ่งขึ้นควรใช้บ่อยขึ้น

เทคโนโลยีสารสนเทศควรอยู่ภายใต้รูปแบบทั่วไปตามที่เทคโนโลยีอื่น ๆ พัฒนาขึ้นและประการแรกคือการเพิ่มปริมาณวัตถุดิบแปรรูปและคุณภาพของการประมวลผลเพิ่มขึ้น สิ่งนี้เกิดขึ้นได้ทุกที่ โดยไม่คำนึงถึงสิ่งที่ทำหน้าที่เป็นวัตถุดิบและผลลัพธ์ที่ตามมา ไม่ว่าจะเป็นโลหะวิทยา ปิโตรเคมี เทคโนโลยีชีวภาพ เทคโนโลยีเซมิคอนดักเตอร์ ฯลฯ สิ่งที่พบเห็นได้ทั่วไปก็คือไม่มีพื้นที่ทางเทคโนโลยีใดที่พัฒนาอย่างซ้ำซากจำเจ เร็วหรือชั่วขณะของ การพัฒนาที่เร่งรีบและการก้าวกระโดดเกิดขึ้นช้า การเปลี่ยนแปลงอย่างรวดเร็วสามารถเกิดขึ้นได้เมื่อมีความต้องการจากภายนอก และเทคโนโลยีมีความสามารถในการตอบสนองความต้องการภายใน ไม่สามารถสร้างคอมพิวเตอร์บนหลอดสุญญากาศได้ - และมีสารกึ่งตัวนำปรากฏขึ้น รถยนต์จำเป็นต้องใช้น้ำมันเบนซินจำนวนมาก - มีการค้นพบกระบวนการแคร็กและมีตัวอย่างมากมาย ดังนั้นชื่อ Big Data จึงซ่อนการเปลี่ยนแปลงเชิงคุณภาพที่เกิดขึ้นในเทคโนโลยีคอมพิวเตอร์ซึ่งอาจนำไปสู่การเปลี่ยนแปลงร้ายแรงจึงไม่ใช่เรื่องบังเอิญที่ถูกเรียกว่าการปฏิวัติอุตสาหกรรมใหม่ Big Data ถือเป็นการปฏิวัติทางเทคนิคอีกครั้งหนึ่งพร้อมผลที่ตามมาทั้งหมด

ประสบการณ์ครั้งแรกในการประมวลผลข้อมูลย้อนกลับไปในสหัสวรรษที่ 4 ก่อนคริสต์ศักราช เมื่อการเขียนภาพปรากฏขึ้น ตั้งแต่นั้นมา พื้นที่หลักๆ หลายแห่งในการทำงานกับข้อมูลได้ถือกำเนิดขึ้น สิ่งที่ทรงพลังที่สุดคือและยังคงเป็นข้อความ ตั้งแต่แท็บเล็ตดินเหนียวรุ่นแรกไปจนถึง SSD จากห้องสมุดในช่วงกลางสหัสวรรษแรกก่อนคริสตศักราช ไปจนถึงห้องสมุดสมัยใหม่ จากนั้นวิธีการเชิงตัวเลขทางคณิตศาสตร์ประเภทต่างๆ ก็ปรากฏขึ้น จาก papyri พร้อมการพิสูจน์ทฤษฎีบทพีทาโกรัสและเทคนิคแบบตารางเพื่อทำให้การคำนวณง่ายขึ้นสำหรับคอมพิวเตอร์สมัยใหม่ เมื่อสังคมพัฒนาขึ้น ข้อมูลตารางประเภทต่างๆ ก็เริ่มสะสม งานอัตโนมัติที่เริ่มต้นด้วยเครื่องตาราง และในศตวรรษที่ 19 และ 20 มีการเสนอวิธีการใหม่มากมายในการสร้างและสะสมข้อมูล ความต้องการในการทำงานกับข้อมูลจำนวนมากเป็นที่เข้าใจกันมานานแล้ว แต่ไม่มีเงินทุน ดังนั้นโครงการยูโทเปียเช่น "Librarium" ของ Paul Otlet หรือระบบที่ยอดเยี่ยมสำหรับการพยากรณ์อากาศโดยใช้แรงงานของเครื่องคิดเลข 60,000 คน

ทุกวันนี้คอมพิวเตอร์ได้กลายเป็นเครื่องมือสากลสำหรับการทำงานกับข้อมูลแม้ว่าจะมีจุดประสงค์เพื่อทำการคำนวณอัตโนมัติเท่านั้น แนวคิดในการใช้คอมพิวเตอร์สำหรับการประมวลผลข้อมูลมีต้นกำเนิดที่ IBM สิบปีหลังจากการประดิษฐ์คอมพิวเตอร์แบบตั้งโปรแกรมได้แบบดิจิทัล และก่อนหน้านั้นได้นำอุปกรณ์เจาะ เช่น Unit Record ที่คิดค้นโดย Herman Hollerith มาใช้ในการประมวลผลข้อมูล พวกเขาถูกเรียกว่า Unit Record นั่นคือบันทึกเดียว การ์ดแต่ละใบมีบันทึกทั้งหมดที่เกี่ยวข้องกับวัตถุชิ้นเดียว คอมพิวเตอร์เครื่องแรกไม่สามารถทำงานกับ Big Data ได้ - มีเพียงอุปกรณ์จัดเก็บข้อมูลดิสก์และเทปเท่านั้นที่สามารถแข่งขันกับสถานีคำนวณด้วยเครื่องจักรที่มีอยู่จนถึงสิ้นทศวรรษที่ 60 อย่างไรก็ตาม มรดกของ Unit Record นั้นมองเห็นได้ชัดเจนในฐานข้อมูลเชิงสัมพันธ์

ความเรียบง่ายคือกุญแจสู่ความสำเร็จ

การเติบโตของปริมาณข้อมูลดิบ ประกอบกับความจำเป็นในการวิเคราะห์แบบเรียลไทม์ จำเป็นต้องมีการสร้างและใช้งานเครื่องมือที่สามารถแก้ไขปัญหาที่เรียกว่า Big Data Analytics ได้อย่างมีประสิทธิภาพ เทคโนโลยี Information Builders ช่วยให้คุณสามารถทำงานกับข้อมูลที่มาจากทุกแหล่งในแบบเรียลไทม์ ต้องขอบคุณอะแดปเตอร์และสถาปัตยกรรม Enterprise Service Bus มากมาย เครื่องมือ WebFOCUS ช่วยให้คุณสามารถวิเคราะห์ข้อมูลได้ทันทีและช่วยให้คุณเห็นภาพผลลัพธ์ในวิธีที่ดีที่สุดสำหรับผู้ใช้

ด้วยเทคโนโลยี RSTAT นักสร้างข้อมูลได้สร้างผลิตภัณฑ์การวิเคราะห์เชิงคาดการณ์ที่ช่วยให้สามารถคาดการณ์สถานการณ์ได้: "จะเกิดอะไรขึ้นถ้า" และ "สิ่งที่จำเป็นสำหรับ"

เทคโนโลยีการวิเคราะห์ธุรกิจได้เข้ามาในรัสเซียแล้ว อย่างไรก็ตาม มีบริษัทรัสเซียเพียงไม่กี่แห่งเท่านั้นที่ใช้การวิเคราะห์เชิงคาดการณ์ ซึ่งมีสาเหตุมาจากวัฒนธรรมการใช้การวิเคราะห์ธุรกิจในระดับต่ำในองค์กรภายในประเทศ และความยากลำบากในการทำความเข้าใจวิธีการวิเคราะห์ที่มีอยู่โดยผู้ใช้ทางธุรกิจ ด้วยเหตุนี้ Information Builders จึงนำเสนอผลิตภัณฑ์ที่ Gartner ให้คะแนนว่าใช้งานง่ายที่สุด

มิคาอิล สโตรเยฟ([ป้องกันอีเมล]), ผู้อำนวยการฝ่ายพัฒนาธุรกิจในรัสเซียและ CIS ที่ InfoBuild CIS (มอสโก)

ข้อมูลมีอยู่ทั่วไป

ในขณะที่คอมพิวเตอร์ค่อยๆ เปลี่ยนจากอุปกรณ์คำนวณไปเป็นเครื่องประมวลผลข้อมูลสากล หลังจากนั้นประมาณปี 1970 คำศัพท์ใหม่ก็เริ่มปรากฏ: ข้อมูลในฐานะผลิตภัณฑ์; เครื่องมือสำหรับการทำงานกับข้อมูล (เครื่องมือข้อมูล) แอปพลิเคชันที่ดำเนินการผ่านองค์กรที่เกี่ยวข้อง (แอปพลิเคชันข้อมูล) วิทยาศาสตร์ข้อมูล นักวิทยาศาสตร์ที่ทำงานเกี่ยวกับข้อมูล (Data Scientist) และแม้แต่นักข่าวที่ถ่ายทอดข้อมูลที่มีอยู่ในข้อมูลสู่สาธารณชนทั่วไป (นักข่าวข้อมูล)

แอปพลิเคชันของคลาสแอปพลิเคชันข้อมูลซึ่งไม่เพียงดำเนินการกับข้อมูลเท่านั้น แต่ยังดึงค่าเพิ่มเติมจากแอปพลิเคชันเหล่านี้และสร้างผลิตภัณฑ์ในรูปแบบของข้อมูลได้กลายเป็นที่แพร่หลายในปัจจุบัน แอปพลิเคชั่นแรกๆ ประเภทนี้คือฐานข้อมูลแผ่นดิสก์เสียง CDDB ซึ่งแตกต่างจากฐานข้อมูลแบบดั้งเดิมตรงที่ถูกสร้างขึ้นโดยการดึงข้อมูลจากแผ่นดิสก์และรวมเข้ากับข้อมูลเมตา (ชื่อแผ่นดิสก์ ชื่อแทร็ก ฯลฯ) ฐานนี้รองรับบริการ Apple iTunes ปัจจัยหนึ่งที่ทำให้ประสบความสำเร็จในเชิงพาณิชย์ของ Google ก็คือการรับรู้ถึงบทบาทของการใช้ข้อมูล การเป็นเจ้าของข้อมูลทำให้บริษัทนี้สามารถ "รู้" ได้มาก โดยใช้ข้อมูลที่อยู่นอกหน้าเว็บที่กำลังค้นหา (อัลกอริธึม PageRank) Google ได้แก้ไขปัญหาการสะกดคำที่ถูกต้องค่อนข้างง่าย - มีการสร้างฐานข้อมูลข้อผิดพลาดและการแก้ไขสำหรับสิ่งนี้และผู้ใช้จะได้รับการแก้ไขที่เขาสามารถยอมรับหรือปฏิเสธได้ วิธีการที่คล้ายกันนี้ใช้สำหรับการจดจำระหว่างการป้อนข้อมูลด้วยเสียง โดยจะขึ้นอยู่กับข้อมูลเสียงที่สะสมไว้

ในปี 2009 ระหว่างการระบาดของไข้หวัดหมู การวิเคราะห์ข้อความค้นหาไปยังเครื่องมือค้นหาทำให้สามารถติดตามการแพร่กระจายของโรคระบาดได้ บริษัทหลายแห่งเดินตามแนวทางของ Google (Facebook, LinkedIn, Amazon ฯลฯ) ไม่เพียงแต่ให้บริการเท่านั้น แต่ยังใช้ข้อมูลที่สะสมเพื่อวัตถุประสงค์อื่นด้วย ความสามารถในการประมวลผลข้อมูลประเภทนี้ทำให้เกิดแรงผลักดันให้เกิดวิทยาศาสตร์ประชากรประเภทอื่น - วิทยาศาสตร์พลเมือง ผลลัพธ์ที่ได้จากการวิเคราะห์ข้อมูลประชากรอย่างครอบคลุมช่วยให้เราได้รับความรู้เชิงลึกเกี่ยวกับผู้คนมากขึ้น และทำการตัดสินใจด้านการบริหารและธุรกิจโดยมีข้อมูลมากขึ้น ชุดข้อมูลและเครื่องมือสำหรับการทำงานกับข้อมูลเหล่านี้เรียกว่าอินโฟแวร์แล้ว

เครื่องบิ๊กดาต้า

คลังข้อมูล ร้านค้าออนไลน์ ระบบเรียกเก็บเงิน หรือแพลตฟอร์มอื่นๆ ที่สามารถจัดเป็นโครงการ Big Data มักจะมีลักษณะเฉพาะเฉพาะ และเมื่อออกแบบ สิ่งสำคัญคือการบูรณาการเข้ากับข้อมูลอุตสาหกรรม เพื่อให้มั่นใจถึงกระบวนการสะสมข้อมูล การจัดองค์กร และการวิเคราะห์

ออราเคิลจัดเตรียมโซลูชัน Oracle Big Data Appliance แบบบูรณาการเพื่อรองรับห่วงโซ่การประมวลผล Big Data ซึ่งประกอบด้วยฮาร์ดแวร์ที่ได้รับการปรับปรุงพร้อมสแต็กซอฟต์แวร์เต็มรูปแบบและเซิร์ฟเวอร์ Sun X4270 M2 18 เครื่อง การเชื่อมต่อใช้ Infiniband 40 Gbps และ 10-Gigabit Ethernet Oracle Big Data Appliance มีทั้งซอฟต์แวร์โอเพ่นซอร์สและซอฟต์แวร์แบบกำหนดเองจาก Oracle

ร้านค้าคีย์-ค่าหรือ NoSQL DBMS ได้รับการยอมรับในปัจจุบันว่าเป็นพื้นฐานของโลกของ Big Data และได้รับการปรับปรุงเพื่อการสะสมและการเข้าถึงข้อมูลที่รวดเร็ว ด้วยเหตุนี้ DBMS สำหรับ Oracle Big Data Appliance จึงใช้ DBMS ที่ใช้ Oracle Berkley DB ซึ่งจัดเก็บข้อมูลเกี่ยวกับโทโพโลยีของระบบจัดเก็บข้อมูล กระจายข้อมูล และทำความเข้าใจว่าสามารถวางข้อมูลไว้ที่ใดโดยใช้เวลาน้อยที่สุด

โซลูชัน Oracle Loader สำหรับ Hadoop ช่วยให้คุณใช้เทคโนโลยี MapReduce เพื่อสร้างชุดข้อมูลที่ปรับให้เหมาะสมสำหรับการโหลดและการวิเคราะห์ลงใน Oracle 11g DBMS ข้อมูลถูกสร้างขึ้นในรูปแบบ “ดั้งเดิม” ของ Oracle DBMS ซึ่งช่วยลดการใช้ทรัพยากรระบบให้เหลือน้อยที่สุด ข้อมูลที่จัดรูปแบบจะได้รับการประมวลผลบนคลัสเตอร์ จากนั้นจะสามารถเข้าถึงข้อมูลได้จากเดสก์ท็อปผู้ใช้ RDBMS แบบเดิมโดยใช้คำสั่ง SQL มาตรฐานหรือเครื่องมือระบบธุรกิจอัจฉริยะ การบูรณาการข้อมูล Hadoop และ Oracle DBMS ดำเนินการโดยใช้โซลูชัน Oracle Data Integrator

Oracle Big Data Appliance มาพร้อมกับการกระจายแบบเปิดของ Apache Hadoop รวมถึงระบบไฟล์ HDFS และส่วนประกอบอื่นๆ การกระจายแบบเปิดของแพ็คเกจทางสถิติ R สำหรับการวิเคราะห์ข้อมูลดิบ และ Oracle Enterprise Linux 5.6 องค์กรที่ใช้ Hadoop อยู่แล้วสามารถรวมข้อมูลที่โฮสต์บน HDFS เข้ากับ Oracle DBMS โดยใช้ฟังก์ชันการทำงานของตารางภายนอก และไม่จำเป็นต้องโหลดข้อมูลลงใน DBMS ทันที - ข้อมูลภายนอกสามารถใช้ร่วมกับข้อมูลภายในในฐานข้อมูล Oracle ได้โดยใช้ คำสั่ง SQL

การเชื่อมต่อระหว่าง Oracle Big Data Appliance และ Oracle Exadata ผ่าน Infiniband ให้การถ่ายโอนข้อมูลความเร็วสูงสำหรับการประมวลผลแบบแบตช์หรือการสืบค้น SQL Oracle Exadata มอบประสิทธิภาพที่คุณต้องการสำหรับทั้งคลังข้อมูลและแอปพลิเคชันการประมวลผลธุรกรรมออนไลน์

ผลิตภัณฑ์ Oracle Exalytics ใหม่สามารถใช้เพื่อแก้ปัญหาการวิเคราะห์ธุรกิจและได้รับการปรับให้เหมาะสมเพื่อใช้กับ Oracle Business Intelligence Enterprise Edition ที่มีการประมวลผลในหน่วยความจำ

วลาดิมีร์ เดมกิน ([ป้องกันอีเมล]) ที่ปรึกษาชั้นนำในทิศทาง Oracle Exadata ของ Oracle CIS (มอสโก)

วิทยาศาสตร์และผู้เชี่ยวชาญ

ผู้เขียนรายงาน “Data Science คืออะไร” (วิทยาศาสตร์ข้อมูลคืออะไร?) ซึ่งตีพิมพ์ในซีรีส์ O'Reilly Radar Report โดย Mike Loukidis เขียนว่า “อนาคตเป็นของบริษัทและผู้คนที่สามารถเปลี่ยนข้อมูลให้เป็นผลิตภัณฑ์ได้” คำกล่าวนี้ทำให้นึกถึงคำพูดอันโด่งดังของ Rothschild ที่ว่า "ใครเป็นเจ้าของข้อมูล เป็นเจ้าของโลก" โดยไม่ได้ตั้งใจ เมื่อเขาได้เรียนรู้เกี่ยวกับความพ่ายแพ้ของนโปเลียนที่วอเตอร์ลูก่อนใครๆ และดึงกลโกงที่มีหลักทรัพย์ออกมา ปัจจุบันคำพังเพยนี้คุ้มค่าแก่การเรียบเรียงใหม่: “โลกเป็นของผู้ที่เป็นเจ้าของข้อมูลและเทคโนโลยีสำหรับการวิเคราะห์ของพวกเขา” คาร์ล มาร์กซ์ ซึ่งมีชีวิตอยู่ช้ากว่าเล็กน้อย แสดงให้เห็นว่าการปฏิวัติอุตสาหกรรมแบ่งผู้คนออกเป็นสองกลุ่ม - ผู้ที่เป็นเจ้าของปัจจัยการผลิตและผู้ที่ทำงานให้กับพวกเขา โดยทั่วไปแล้ว สิ่งที่คล้ายกันกำลังเกิดขึ้นในขณะนี้ แต่ตอนนี้เรื่องของความเป็นเจ้าของและการแบ่งหน้าที่ไม่ใช่วิธีการผลิตมูลค่าวัสดุ แต่หมายถึงการผลิตข้อมูลและข้อมูล และนี่คือจุดที่เกิดปัญหา - ปรากฎว่าการเป็นเจ้าของข้อมูลนั้นยากกว่าการเป็นเจ้าของสินทรัพย์ที่เป็นวัสดุมาก โดยข้อมูลแรกนั้นถูกจำลองแบบค่อนข้างง่ายและโอกาสที่จะถูกขโมยจะสูงกว่าการขโมยรายการวัสดุมาก นอกจากนี้ยังมีเทคนิคทางกฎหมายอีกด้วย - ด้วยปริมาณที่เพียงพอและวิธีการวิเคราะห์ที่เหมาะสม คุณสามารถ "เข้าใจ" สิ่งที่ซ่อนอยู่ได้ นั่นคือเหตุผลว่าทำไมตอนนี้ความสนใจดังกล่าวจึงถูกส่งไปยัง Big Data Analytics (ดูแถบด้านข้าง) และวิธีการป้องกัน

กิจกรรมประเภทต่าง ๆ พร้อมข้อมูลและเหนือความชำนาญในการดึงข้อมูลทั้งหมดเรียกว่าวิทยาศาสตร์ข้อมูลซึ่งอย่างน้อยเมื่อแปลเป็นภาษารัสเซียก็ค่อนข้างทำให้เข้าใจผิดเนื่องจากไม่ได้หมายถึงวิทยาศาสตร์เชิงวิชาการใหม่ ๆ แต่หมายถึงสหวิทยาการ กำหนดความรู้และทักษะที่จำเป็นในการดึงความรู้ องค์ประกอบของชุดดังกล่าวส่วนใหญ่ขึ้นอยู่กับพื้นที่ แต่เราสามารถระบุข้อกำหนดคุณสมบัติทั่วไปสำหรับผู้เชี่ยวชาญที่เรียกว่านักวิทยาศาสตร์ข้อมูลได้ไม่มากก็น้อย ดรูว์ คอนเวย์ ทำได้ดีที่สุด ซึ่งในอดีตได้วิเคราะห์ข้อมูลเกี่ยวกับภัยคุกคามของผู้ก่อการร้ายในหน่วยข่าวกรองแห่งหนึ่งของสหรัฐฯ วิทยานิพนธ์หลักของวิทยานิพนธ์ของเขาได้รับการตีพิมพ์ในวารสารรายไตรมาส IQT Quarterly ซึ่งจัดพิมพ์โดย In-Q-Tel ซึ่งเป็นตัวกลางระหว่าง CIA ของสหรัฐอเมริกาและองค์กรทางวิทยาศาสตร์

Conway บรรยายถึงแบบจำลองของเขาในรูปแบบของแผนภาพเวนน์ (ดูรูป) ซึ่งแสดงถึงความรู้และทักษะสามด้านที่ต้องฝึกฝนและเชี่ยวชาญเพื่อที่จะเป็นนักวิทยาศาสตร์ด้านข้อมูล ทักษะการแฮ็กไม่ควรถูกเข้าใจว่าเป็นการกระทำที่เป็นอันตราย ในกรณีนี้เป็นการผสมผสานระหว่างความเชี่ยวชาญของเครื่องมือบางอย่างกับจิตใจเชิงวิเคราะห์พิเศษ เช่น Hercule Poirot หรือบางทีความสามารถนี้อาจเรียกได้ว่าเป็นวิธีการนิรนัยของ Sherlock Holmes แตกต่างจากนักสืบที่ยอดเยี่ยม คุณต้องเป็นผู้เชี่ยวชาญในสาขาคณิตศาสตร์หลายด้านและเข้าใจวิชานั้นด้วย การเรียนรู้ของเครื่องเกิดขึ้นที่จุดตัดของสองพื้นที่แรก และที่จุดตัดของวิธีการแบบดั้งเดิมที่สองและสาม สี่แยกโซนที่สามเป็นอันตรายเนื่องจากการเก็งกำไรหากไม่มีวิธีการทางคณิตศาสตร์ก็จะไม่มีการมองเห็นตามวัตถุประสงค์ จุดตัดของทั้งสามโซนคือวิทยาศาสตร์ข้อมูล

แผนภาพคอนเวย์ให้ภาพที่เรียบง่าย ประการแรก ที่จุดตัดของแฮ็กเกอร์และแวดวงคณิตศาสตร์ ไม่เพียงแต่การเรียนรู้ของเครื่องเท่านั้น และประการที่สอง ขนาดของวงกลมหลังนั้นใหญ่กว่ามาก ปัจจุบันมีสาขาวิชาและเทคโนโลยีมากมาย การเรียนรู้ของเครื่องหมายถึงเพียงด้านหนึ่งของปัญญาประดิษฐ์ที่เกี่ยวข้องกับการสร้างอัลกอริธึมที่สามารถเรียนรู้ได้ โดยแบ่งออกเป็นสองส่วนย่อย: แบบอย่างหรือการเรียนรู้แบบอุปนัยซึ่งเผยให้เห็นรูปแบบที่ซ่อนอยู่ในข้อมูล และนิรนัย ซึ่งมุ่งเป้าไปที่การทำให้ความรู้ของผู้เชี่ยวชาญเป็นระเบียบ . แมชชีนเลิร์นนิงยังแบ่งออกเป็นการเรียนรู้แบบมีผู้สอน (Supervised Learning) เมื่อมีการศึกษาวิธีการจำแนกตามชุดข้อมูลการฝึกอบรมที่เตรียมไว้ และการเรียนรู้แบบไม่มีผู้ดูแล (Unsupervised Learning) เมื่อมีการค้นหารูปแบบภายในผ่านการวิเคราะห์คลัสเตอร์

ดังนั้น Big Data จึงไม่ใช่การคิดเชิงคาดเดา แต่เป็นสัญลักษณ์ของการปฏิวัติทางเทคนิคที่กำลังแซงหน้า ความจำเป็นในการทำงานวิเคราะห์ด้วยข้อมูลขนาดใหญ่จะเปลี่ยนโฉมหน้าของอุตสาหกรรมไอทีอย่างมีนัยสำคัญ และกระตุ้นให้เกิดแพลตฟอร์มซอฟต์แวร์และฮาร์ดแวร์ใหม่ ในปัจจุบันมีการใช้วิธีการที่ทันสมัยที่สุดเพื่อวิเคราะห์ข้อมูลจำนวนมาก: โครงข่ายประสาทเทียม - แบบจำลองที่สร้างขึ้นบนหลักการขององค์กรและการทำงานของโครงข่ายประสาทเทียมทางชีวภาพ วิธีการวิเคราะห์เชิงทำนาย สถิติ และการประมวลผลภาษาธรรมชาติ (สาขาหนึ่งของปัญญาประดิษฐ์และภาษาศาสตร์เชิงคณิตศาสตร์ที่ศึกษาปัญหาการวิเคราะห์และการสังเคราะห์ภาษาธรรมชาติด้วยคอมพิวเตอร์) นอกจากนี้ยังใช้วิธีการที่เกี่ยวข้องกับผู้เชี่ยวชาญที่เป็นมนุษย์หรือการระดมทุนจากมวลชน การทดสอบ A/B การวิเคราะห์ความรู้สึก ฯลฯ วิธีการที่รู้จักกันดีใช้ในการแสดงภาพผลลัพธ์ เช่น แท็กคลาวด์และคลัสเตอร์แกรมใหม่ทั้งหมด โฟลว์ประวัติศาสตร์ และโฟลว์ข้อมูลเชิงพื้นที่ .

ในส่วนของเทคโนโลยี Big Data นั้นได้รับการสนับสนุนจากระบบไฟล์แบบกระจาย Google File System, Cassandra, HBase, Luster และ ZFS ซอฟต์แวร์ที่สร้าง MapReduce และ Hadoop และโซลูชันอื่นๆ อีกมากมาย ตามที่ผู้เชี่ยวชาญ เช่น สถาบัน McKinsey กล่าวว่า ภายใต้อิทธิพลของ Big Data ขอบเขตของการผลิต การดูแลสุขภาพ การค้า การจัดการด้านการบริหาร และการติดตามความเคลื่อนไหวของแต่ละบุคคลจะประสบกับการเปลี่ยนแปลงที่ยิ่งใหญ่ที่สุด



การเร่งความเร็วของการเติบโตของข้อมูลอย่างต่อเนื่องเป็นองค์ประกอบสำคัญของความเป็นจริงสมัยใหม่ โซเชียลเน็ตเวิร์ก อุปกรณ์มือถือ ข้อมูลจากอุปกรณ์วัด ข้อมูลทางธุรกิจ เป็นเพียงแหล่งข้อมูลไม่กี่ประเภทที่สามารถสร้างข้อมูลจำนวนมหาศาลได้

ปัจจุบันคำว่า Big Data กลายเป็นเรื่องปกติไปแล้ว ไม่ใช่ทุกคนที่ยังไม่ทราบว่าเทคโนโลยีในการประมวลผลข้อมูลจำนวนมากอย่างรวดเร็วและลึกซึ้งกำลังเปลี่ยนแปลงแง่มุมที่หลากหลายที่สุดของสังคมอย่างไร การเปลี่ยนแปลงกำลังเกิดขึ้นในด้านต่างๆ ทำให้เกิดปัญหาและความท้าทายใหม่ๆ รวมถึงในด้านความปลอดภัยของข้อมูล ซึ่งประเด็นที่สำคัญที่สุด เช่น การรักษาความลับ ความสมบูรณ์ ความพร้อมใช้งาน ฯลฯ ควรอยู่เบื้องหน้า

น่าเสียดายที่บริษัทสมัยใหม่หลายแห่งหันไปใช้เทคโนโลยี Big Data โดยไม่ต้องสร้างโครงสร้างพื้นฐานที่เหมาะสมเพื่อให้แน่ใจว่ามีการจัดเก็บข้อมูลจำนวนมหาศาลที่พวกเขารวบรวมและจัดเก็บอย่างเชื่อถือได้ ในทางกลับกัน เทคโนโลยีบล็อคเชนกำลังพัฒนาอย่างรวดเร็ว ซึ่งออกแบบมาเพื่อแก้ไขปัญหานี้และปัญหาอื่นๆ อีกมากมาย

ข้อมูลขนาดใหญ่คืออะไร?

ในความเป็นจริง คำจำกัดความของคำนี้ตรงไปตรงมา: "ข้อมูลขนาดใหญ่" หมายถึงการจัดการข้อมูลปริมาณมากตลอดจนการวิเคราะห์ หากเรามองให้กว้างขึ้น นี่คือข้อมูลที่ไม่สามารถประมวลผลด้วยวิธีดั้งเดิมได้เนื่องจากมีปริมาณมาก

คำว่า Big Data นั้นปรากฏค่อนข้างเร็ว ๆ นี้ จากข้อมูลของ Google Trends การเติบโตอย่างแข็งขันของความนิยมของคำนี้เกิดขึ้นเมื่อสิ้นปี 2554:

ในปี 2010 ผลิตภัณฑ์และโซลูชันแรกๆ ที่เกี่ยวข้องโดยตรงกับการประมวลผลข้อมูลขนาดใหญ่เริ่มปรากฏให้เห็น ภายในปี 2554 บริษัทไอทีที่ใหญ่ที่สุดส่วนใหญ่ รวมถึง IBM, Oracle, Microsoft และ Hewlett-Packard กำลังใช้คำว่า Big Data ในกลยุทธ์ทางธุรกิจของตน นักวิเคราะห์ตลาดเทคโนโลยีสารสนเทศกำลังเริ่มการวิจัยเชิงรุกเกี่ยวกับแนวคิดนี้ทีละน้อย

ปัจจุบันคำนี้ได้รับความนิยมอย่างมากและมีการใช้งานในหลากหลายสาขา อย่างไรก็ตาม ไม่สามารถพูดได้อย่างแน่นอนว่า Big Data เป็นปรากฏการณ์ใหม่โดยพื้นฐาน ในทางกลับกัน แหล่งข้อมูลขนาดใหญ่มีอยู่มานานหลายปีแล้ว ในด้านการตลาด ได้แก่ ฐานข้อมูลการซื้อของลูกค้า ประวัติเครดิต ไลฟ์สไตล์ และอื่นๆ ในช่วงหลายปีที่ผ่านมา นักวิเคราะห์ได้ใช้ข้อมูลนี้เพื่อช่วยให้บริษัทต่างๆ คาดการณ์ความต้องการของลูกค้าในอนาคต ประเมินความเสี่ยง กำหนดความต้องการของผู้บริโภค และอื่นๆ

ปัจจุบันสถานการณ์มีการเปลี่ยนแปลงในสองด้าน:

- มีเครื่องมือและวิธีการที่ซับซ้อนมากขึ้นสำหรับการวิเคราะห์และเปรียบเทียบชุดข้อมูลที่แตกต่างกัน
— เครื่องมือวิเคราะห์ได้รับการเสริมด้วยแหล่งข้อมูลใหม่จำนวนมาก เนื่องจากการเปลี่ยนไปใช้เทคโนโลยีดิจิทัลอย่างกว้างขวาง รวมถึงวิธีการใหม่ในการรวบรวมและการวัดข้อมูล

นักวิจัยคาดการณ์ว่าเทคโนโลยี Big Data จะถูกนำไปใช้อย่างแข็งขันมากที่สุดในการผลิต การดูแลสุขภาพ การค้า การบริหารงานภาครัฐ และในสาขาและอุตสาหกรรมอื่นๆ ที่หลากหลาย

Big Data ไม่ใช่อาร์เรย์ของข้อมูลที่เฉพาะเจาะจง แต่เป็นชุดของวิธีการประมวลผล คุณลักษณะที่กำหนดของข้อมูลขนาดใหญ่ไม่เพียงแต่ปริมาณเท่านั้น แต่ยังรวมไปถึงหมวดหมู่อื่นๆ ที่กำหนดลักษณะของกระบวนการประมวลผลและวิเคราะห์ข้อมูลที่ใช้แรงงานเข้มข้น

ข้อมูลเริ่มต้นสำหรับการประมวลผลอาจเป็นได้ เช่น:

— บันทึกพฤติกรรมผู้ใช้อินเทอร์เน็ต
— อินเทอร์เน็ตของสรรพสิ่ง
- สื่อสังคม;
— ข้อมูลอุตุนิยมวิทยา
— หนังสือดิจิทัลจากห้องสมุดใหญ่ๆ
— สัญญาณ GPS จากยานพาหนะ
— ข้อมูลเกี่ยวกับธุรกรรมของลูกค้าธนาคาร
— ข้อมูลเกี่ยวกับตำแหน่งของสมาชิกเครือข่ายมือถือ
— ข้อมูลเกี่ยวกับการซื้อในเครือข่ายค้าปลีกขนาดใหญ่ ฯลฯ

เมื่อเวลาผ่านไป ปริมาณข้อมูลและจำนวนแหล่งที่มามีการเติบโตอย่างต่อเนื่อง และด้วยภูมิหลังนี้ วิธีใหม่ในการประมวลผลข้อมูลจึงเกิดขึ้นและวิธีที่มีอยู่กำลังได้รับการปรับปรุง

หลักการพื้นฐานของ Big Data:

— ความสามารถในการปรับขนาดในแนวนอน – อาร์เรย์ข้อมูลอาจมีขนาดใหญ่ และนั่นหมายความว่าระบบประมวลผลข้อมูลขนาดใหญ่จะต้องขยายแบบไดนามิกเมื่อปริมาณเพิ่มขึ้น
— ความทนทานต่อข้อผิดพลาด – แม้ว่าองค์ประกอบอุปกรณ์บางอย่างจะล้มเหลว ระบบทั้งหมดจะต้องยังคงทำงานได้
— ตำแหน่งที่ตั้งของข้อมูล ในระบบแบบกระจายขนาดใหญ่ โดยทั่วไปข้อมูลจะถูกกระจายไปยังเครื่องจำนวนมาก อย่างไรก็ตาม เมื่อใดก็ตามที่เป็นไปได้และเพื่อประหยัดทรัพยากร ข้อมูลมักจะถูกประมวลผลบนเซิร์ฟเวอร์เดียวกับที่เก็บข้อมูลไว้

เพื่อการดำเนินงานที่เสถียรของหลักการทั้งสามข้อ และด้วยเหตุนี้ การจัดเก็บและประมวลผลข้อมูลขนาดใหญ่จึงมีประสิทธิภาพสูง จึงจำเป็นต้องมีเทคโนโลยีที่ก้าวหน้าใหม่ๆ เช่น บล็อกเชน

ทำไมเราถึงต้องการข้อมูลขนาดใหญ่?

ขอบเขตของ Big Data มีการขยายอย่างต่อเนื่อง:

— Big Data สามารถนำไปใช้ในทางการแพทย์ได้ ดังนั้นการวินิจฉัยผู้ป่วยสามารถทำได้ไม่เพียงแต่ขึ้นอยู่กับข้อมูลจากการวิเคราะห์ประวัติทางการแพทย์ของผู้ป่วยเท่านั้น แต่ยังคำนึงถึงประสบการณ์ของแพทย์คนอื่นๆ ข้อมูลเกี่ยวกับสถานการณ์สิ่งแวดล้อมในพื้นที่ที่อยู่อาศัยของผู้ป่วยด้วย และ ปัจจัยอื่น ๆ อีกมากมาย
— เทคโนโลยี Big Data สามารถใช้จัดระเบียบการเคลื่อนที่ของยานพาหนะไร้คนขับได้
— ด้วยการประมวลผลข้อมูลจำนวนมาก คุณสามารถจดจำใบหน้าในภาพถ่ายและวิดีโอได้
— ผู้ค้าปลีกสามารถใช้เทคโนโลยี Big Data ได้ - บริษัทการค้าสามารถใช้ชุดข้อมูลจากเครือข่ายโซเชียลเพื่อปรับแต่งแคมเปญโฆษณาของตนได้อย่างมีประสิทธิภาพ ซึ่งสามารถกำหนดเป้าหมายได้สูงสุดไปยังกลุ่มผู้บริโภคเฉพาะกลุ่ม
— เทคโนโลยีนี้ถูกนำมาใช้อย่างแข็งขันในการจัดการรณรงค์การเลือกตั้ง รวมถึงการวิเคราะห์การตั้งค่าทางการเมืองในสังคม
— การใช้เทคโนโลยี Big Data มีความเกี่ยวข้องกับโซลูชั่นของคลาสการประกันรายได้ (RA) ซึ่งรวมถึงเครื่องมือสำหรับการตรวจจับความไม่สอดคล้องกันและการวิเคราะห์ข้อมูลเชิงลึก ช่วยให้สามารถระบุความสูญเสียหรือการบิดเบือนข้อมูลที่อาจเกิดขึ้นได้ทันเวลาซึ่งอาจนำไปสู่การลดลงของ ผลลัพธ์ทางการเงิน
— ผู้ให้บริการโทรคมนาคมสามารถรวบรวมข้อมูลขนาดใหญ่ รวมถึงตำแหน่งทางภูมิศาสตร์ ในทางกลับกัน ข้อมูลนี้อาจเป็นผลประโยชน์เชิงพาณิชย์สำหรับเอเจนซี่โฆษณา ซึ่งสามารถใช้เพื่อแสดงโฆษณาที่กำหนดเป้าหมายและในท้องถิ่น เช่นเดียวกับผู้ค้าปลีกและธนาคาร
— ข้อมูลขนาดใหญ่สามารถมีบทบาทสำคัญในการตัดสินใจเปิดร้านค้าปลีกในบางพื้นที่โดยอิงจากข้อมูลเกี่ยวกับการมีอยู่ของผู้คนเป้าหมายที่มีประสิทธิภาพ

ดังนั้นการประยุกต์ใช้เทคโนโลยี Big Data ในทางปฏิบัติที่ชัดเจนที่สุดจึงอยู่ที่ด้านการตลาด ด้วยการพัฒนาอินเทอร์เน็ตและการแพร่กระจายของอุปกรณ์สื่อสารทุกประเภท ข้อมูลพฤติกรรม (เช่น จำนวนการโทร พฤติกรรมการซื้อของ และการซื้อ) จึงพร้อมใช้งานแบบเรียลไทม์

เทคโนโลยีบิ๊กดาต้ายังสามารถนำไปใช้อย่างมีประสิทธิภาพในด้านการเงิน สำหรับการวิจัยทางสังคมวิทยา และในด้านอื่นๆ อีกมากมาย ผู้เชี่ยวชาญยืนยันว่าโอกาสในการใช้ข้อมูลขนาดใหญ่เหล่านี้เป็นเพียงส่วนที่มองเห็นได้ของภูเขาน้ำแข็งเท่านั้น เนื่องจากเทคโนโลยีเหล่านี้ถูกนำมาใช้ในปริมาณที่มากขึ้นในด้านข่าวกรองและการต่อต้านข่าวกรอง ในกิจการทหาร เช่นเดียวกับในทุกสิ่งที่มักเรียกว่าสงครามข้อมูล

โดยทั่วไป ลำดับการทำงานกับ Big Data ประกอบด้วยการรวบรวมข้อมูล จัดโครงสร้างข้อมูลที่ได้รับโดยใช้รายงานและแดชบอร์ด จากนั้นจึงกำหนดคำแนะนำในการดำเนินการ

ลองพิจารณาถึงความเป็นไปได้ของการใช้เทคโนโลยี Big Data ในด้านการตลาดโดยสังเขป ดังที่คุณทราบ สำหรับนักการตลาด ข้อมูลเป็นเครื่องมือหลักในการพยากรณ์และการพัฒนากลยุทธ์ การวิเคราะห์ข้อมูลขนาดใหญ่ถูกนำมาใช้อย่างประสบความสำเร็จมาอย่างยาวนานเพื่อกำหนดกลุ่มเป้าหมาย ความสนใจ ความต้องการ และกิจกรรมของผู้บริโภค โดยเฉพาะอย่างยิ่งการวิเคราะห์ข้อมูลขนาดใหญ่ ทำให้สามารถแสดงโฆษณา (ตามรูปแบบการประมูล RTB - การเสนอราคาแบบเรียลไทม์) ให้กับผู้บริโภคที่สนใจผลิตภัณฑ์หรือบริการเท่านั้น

การใช้ Big Data ในด้านการตลาดช่วยให้นักธุรกิจสามารถ:

— ทำความรู้จักผู้บริโภคของคุณให้ดีขึ้น ดึงดูดผู้ชมที่คล้ายกันบนอินเทอร์เน็ต
— ประเมินระดับความพึงพอใจของลูกค้า
— ทำความเข้าใจว่าบริการที่นำเสนอนั้นตรงตามความคาดหวังและความต้องการหรือไม่
— ค้นหาและใช้วิธีใหม่ๆ ในการเพิ่มความไว้วางใจของลูกค้า
— สร้างโครงการที่เป็นที่ต้องการ ฯลฯ

ตัวอย่างเช่น บริการ Google.trends สามารถระบุให้นักการตลาดทราบถึงการคาดการณ์กิจกรรมความต้องการตามฤดูกาลสำหรับผลิตภัณฑ์เฉพาะ ความผันผวน และภูมิศาสตร์ของการคลิก หากคุณเปรียบเทียบข้อมูลนี้กับข้อมูลทางสถิติที่รวบรวมโดยปลั๊กอินที่เกี่ยวข้องบนเว็บไซต์ของคุณเอง คุณสามารถจัดทำแผนสำหรับการกระจายงบประมาณการโฆษณาโดยระบุเดือน ภูมิภาค และพารามิเตอร์อื่น ๆ

ตามที่นักวิจัยหลายคน ความสำเร็จของการรณรงค์หาเสียงของทรัมป์อยู่ที่การแบ่งส่วนและการใช้ Big Data ทีมของประธานาธิบดีสหรัฐฯ ในอนาคตสามารถแบ่งผู้ฟังได้อย่างถูกต้อง เข้าใจความต้องการ และแสดงข้อความที่ผู้มีสิทธิเลือกตั้งต้องการเห็นและได้ยินอย่างชัดเจน ดังนั้น ตามข้อมูลของ Irina Belysheva จาก Data-Centric Alliance ชัยชนะของ Trump จึงเป็นไปได้อย่างมากด้วยแนวทางการตลาดทางอินเทอร์เน็ตที่ไม่ได้มาตรฐาน ซึ่งอิงจาก Big Data การวิเคราะห์ทางจิตวิทยาและพฤติกรรม และการโฆษณาเฉพาะบุคคล

นักยุทธศาสตร์ทางการเมืองและนักการตลาดของทรัมป์ใช้แบบจำลองทางคณิตศาสตร์ที่พัฒนาขึ้นเป็นพิเศษ ซึ่งทำให้สามารถวิเคราะห์ข้อมูลของผู้มีสิทธิเลือกตั้งในสหรัฐฯ ทุกคนได้อย่างลึกซึ้ง และจัดระบบข้อมูลเหล่านั้น ทำให้การกำหนดเป้าหมายที่แม่นยำเป็นพิเศษไม่เพียงแต่ตามลักษณะทางภูมิศาสตร์เท่านั้น แต่ยังรวมถึงความตั้งใจ ผลประโยชน์ของผู้มีสิทธิเลือกตั้งด้วย จิตวิทยา ลักษณะพฤติกรรม ฯลฯ หลังจากนั้น เพื่อให้บรรลุเป้าหมายนี้ นักการตลาดได้จัดการสื่อสารส่วนบุคคลกับประชาชนแต่ละกลุ่มตามความต้องการ อารมณ์ มุมมองทางการเมือง ลักษณะทางจิตวิทยา และแม้กระทั่งสีผิว โดยใช้ข้อความของตนเองกับผู้มีสิทธิเลือกตั้งเกือบทุกคน

สำหรับฮิลลารี คลินตัน ในการรณรงค์ของเธอ เธอใช้วิธีการ "ทดสอบตามเวลา" โดยอิงจากข้อมูลทางสังคมวิทยาและการตลาดมาตรฐาน โดยแบ่งผู้มีสิทธิเลือกตั้งออกเป็นกลุ่มที่เหมือนกันอย่างเป็นทางการเท่านั้น (ผู้ชาย ผู้หญิง แอฟริกันอเมริกัน ละตินอเมริกา คนจน คนรวย ฯลฯ) .

เป็นผลให้ผู้ชนะคือผู้ที่ชื่นชมศักยภาพของเทคโนโลยีใหม่และวิธีการวิเคราะห์ เป็นที่น่าสังเกตว่าค่าใช้จ่ายในการหาเสียงของฮิลลารีคลินตันมากกว่าคู่ต่อสู้ของเธอถึงสองเท่า:

ข้อมูล: วิจัย Pew

ปัญหาหลักของการใช้ Big Data

นอกจากต้นทุนที่สูงแล้ว ปัจจัยหลักประการหนึ่งที่เป็นอุปสรรคต่อการนำ Big Data ไปใช้ในด้านต่างๆ ก็คือ ปัญหาในการเลือกข้อมูลที่จะประมวลผล กล่าวคือ การกำหนดว่าข้อมูลใดจำเป็นต้องดึง จัดเก็บ และวิเคราะห์ และควรใดควร ไม่ต้องนำมาพิจารณา

ปัญหาอีกประการหนึ่งของ Big Data คือเรื่องจริยธรรม กล่าวอีกนัยหนึ่ง มีคำถามเชิงตรรกะเกิดขึ้น: การรวบรวมข้อมูลดังกล่าว (โดยเฉพาะอย่างยิ่งโดยที่ผู้ใช้ไม่ทราบ) ถือเป็นการละเมิดความเป็นส่วนตัวได้หรือไม่

ไม่มีความลับที่ข้อมูลที่จัดเก็บไว้ในเครื่องมือค้นหาของ Google และ Yandex ช่วยให้ยักษ์ใหญ่ด้านไอทีสามารถปรับปรุงบริการของตนได้อย่างต่อเนื่อง ทำให้เป็นมิตรกับผู้ใช้ และสร้างแอปพลิเคชันเชิงโต้ตอบใหม่ ในการดำเนินการนี้ เครื่องมือค้นหาจะรวบรวมข้อมูลผู้ใช้เกี่ยวกับกิจกรรมของผู้ใช้บนอินเทอร์เน็ต ที่อยู่ IP ข้อมูลตำแหน่งทางภูมิศาสตร์ ความสนใจและการซื้อออนไลน์ ข้อมูลส่วนบุคคล ข้อความอีเมล ฯลฯ ทั้งหมดนี้ช่วยให้พวกเขาแสดงโฆษณาตามบริบทตามพฤติกรรมของผู้ใช้บน อินเตอร์เนต. ในกรณีนี้ โดยปกติจะไม่ขอความยินยอมจากผู้ใช้ และไม่ได้ให้โอกาสในการเลือกข้อมูลเกี่ยวกับตนเองที่จะให้ข้อมูล นั่นคือตามค่าเริ่มต้น ทุกอย่างจะถูกรวบรวมไว้ใน Big Data ซึ่งจะถูกจัดเก็บไว้ในเซิร์ฟเวอร์ข้อมูลของไซต์

สิ่งนี้นำไปสู่ปัญหาสำคัญต่อไปเกี่ยวกับความปลอดภัยของการจัดเก็บและการใช้งานข้อมูล ตัวอย่างเช่น แพลตฟอร์มการวิเคราะห์เฉพาะที่ผู้บริโภคถ่ายโอนข้อมูลของตนโดยอัตโนมัติมีความปลอดภัยหรือไม่? นอกจากนี้ ตัวแทนธุรกิจจำนวนมากยังสังเกตเห็นการขาดแคลนนักวิเคราะห์และนักการตลาดที่มีคุณสมบัติสูง ซึ่งสามารถจัดการข้อมูลปริมาณมากได้อย่างมีประสิทธิภาพ และแก้ไขปัญหาทางธุรกิจเฉพาะด้วยความช่วยเหลือของพวกเขา

แม้จะมีความยากลำบากในการใช้งาน Big Data แต่ธุรกิจก็มุ่งมั่นที่จะเพิ่มการลงทุนในด้านนี้ จากการวิจัยของ Gartner ผู้นำในอุตสาหกรรมที่ลงทุนใน Big Data ได้แก่บริษัทสื่อ การค้าปลีก โทรคมนาคม ธนาคาร และบริการ

อนาคตสำหรับการโต้ตอบระหว่างเทคโนโลยี blockchain และเทคโนโลยี Big Data

การบูรณาการกับ Big Data มีผลการทำงานร่วมกันและเปิดโอกาสใหม่ๆ มากมายให้กับธุรกิจ รวมถึงการอนุญาตให้:

— เข้าถึงข้อมูลโดยละเอียดเกี่ยวกับความต้องการของผู้บริโภค โดยคุณสามารถสร้างโปรไฟล์การวิเคราะห์โดยละเอียดสำหรับซัพพลายเออร์ ผลิตภัณฑ์ และส่วนประกอบของผลิตภัณฑ์ที่เฉพาะเจาะจงได้
- บูรณาการข้อมูลโดยละเอียดเกี่ยวกับธุรกรรมและสถิติการบริโภคของสินค้าบางกลุ่มโดยผู้ใช้ประเภทต่างๆ
— รับข้อมูลการวิเคราะห์โดยละเอียดเกี่ยวกับห่วงโซ่อุปทานและการบริโภค ควบคุมการสูญเสียผลิตภัณฑ์ระหว่างการขนส่ง (เช่น การลดน้ำหนักเนื่องจากการทำให้แห้งและการระเหยของสินค้าบางประเภท)
— ต่อต้านการปลอมแปลงผลิตภัณฑ์ เพิ่มประสิทธิภาพในการต่อสู้กับการฟอกเงินและการฉ้อโกง ฯลฯ

การเข้าถึงข้อมูลโดยละเอียดเกี่ยวกับการใช้และการบริโภคสินค้าจะเผยให้เห็นศักยภาพของเทคโนโลยี Big Data อย่างมีนัยสำคัญในการเพิ่มประสิทธิภาพกระบวนการทางธุรกิจที่สำคัญ ลดความเสี่ยงด้านกฎระเบียบ เผยให้เห็นโอกาสใหม่ ๆ สำหรับการสร้างรายได้ และการสร้างผลิตภัณฑ์ที่จะตอบสนองความต้องการของผู้บริโภคในปัจจุบันได้ดีที่สุด

ดังที่ทราบกันดีว่าตัวแทนของสถาบันการเงินที่ใหญ่ที่สุดได้แสดงความสนใจอย่างมากในเทคโนโลยีบล็อคเชนแล้ว ซึ่งรวมถึง ฯลฯ ตามที่ Oliver Bussmann ผู้จัดการฝ่ายไอทีของ UBS ซึ่งเป็นบริษัททางการเงินของสวิสกล่าวว่าเทคโนโลยีบล็อคเชนสามารถ “ลดเวลาการประมวลผลธุรกรรมจากหลายวันเหลือเพียงไม่กี่วันได้ นาที" .

ศักยภาพในการวิเคราะห์จากบล็อกเชนโดยใช้เทคโนโลยี Big Data นั้นมีมหาศาล เทคโนโลยีบัญชีแยกประเภทแบบกระจายช่วยให้มั่นใจในความสมบูรณ์ของข้อมูล ตลอดจนการจัดเก็บประวัติการทำธุรกรรมทั้งหมดที่เชื่อถือได้และโปร่งใส ในทางกลับกัน Big Data มอบเครื่องมือใหม่สำหรับการวิเคราะห์ที่มีประสิทธิภาพ การคาดการณ์ การสร้างแบบจำลองทางเศรษฐกิจ และเปิดโอกาสใหม่สำหรับการตัดสินใจด้านการจัดการที่มีข้อมูลมากขึ้น

การใช้บล็อกเชนและบิ๊กดาต้าควบคู่กันสามารถนำมาใช้ในการดูแลสุขภาพได้สำเร็จ ดังที่ทราบกันดีว่าข้อมูลที่ไม่สมบูรณ์และไม่สมบูรณ์เกี่ยวกับสุขภาพของผู้ป่วยเพิ่มความเสี่ยงอย่างมากต่อการวินิจฉัยที่ไม่ถูกต้องและการรักษาที่จ่ายยาไม่ถูกต้อง ข้อมูลที่สำคัญเกี่ยวกับสุขภาพของลูกค้าของสถาบันการแพทย์ควรได้รับการปกป้องสูงสุด มีคุณสมบัติไม่เปลี่ยนรูป ตรวจสอบได้ และไม่ควรถูกบิดเบือนใดๆ

ข้อมูลในบล็อกเชนตรงตามข้อกำหนดข้างต้นทั้งหมด และสามารถทำหน้าที่เป็นแหล่งข้อมูลคุณภาพสูงและเชื่อถือได้สำหรับการวิเคราะห์เชิงลึกโดยใช้เทคโนโลยี Big Data ใหม่ นอกจากนี้ ด้วยความช่วยเหลือของบล็อกเชน สถาบันทางการแพทย์สามารถแลกเปลี่ยนข้อมูลที่เชื่อถือได้กับบริษัทประกันภัย หน่วยงานยุติธรรม นายจ้าง สถาบันวิทยาศาสตร์ และองค์กรอื่น ๆ ที่ต้องการข้อมูลทางการแพทย์

ข้อมูลขนาดใหญ่และความปลอดภัยของข้อมูล

ในแง่กว้าง การรักษาความปลอดภัยของข้อมูลคือการปกป้องข้อมูลและโครงสร้างพื้นฐานที่สนับสนุนจากผลกระทบด้านลบทั้งโดยไม่ได้ตั้งใจหรือโดยเจตนาจากธรรมชาติหรือเทียม

ในด้านความปลอดภัยของข้อมูล Big Data เผชิญกับความท้าทายดังต่อไปนี้:

— ปัญหาของการปกป้องข้อมูลและการรับรองความสมบูรณ์;
— ความเสี่ยงของการรบกวนจากภายนอกและการรั่วไหลของข้อมูลที่เป็นความลับ
— การจัดเก็บข้อมูลที่เป็นความลับอย่างไม่เหมาะสม;
— ความเสี่ยงของการสูญเสียข้อมูล เช่น เนื่องจากการกระทำที่เป็นอันตรายของใครบางคน
— ความเสี่ยงที่บุคคลที่สามจะนำข้อมูลส่วนบุคคลไปใช้ในทางที่ผิด ฯลฯ

หนึ่งในปัญหาข้อมูลขนาดใหญ่ที่สำคัญที่บล็อคเชนได้รับการออกแบบมาเพื่อแก้ไขอยู่ในขอบเขตความปลอดภัยของข้อมูล ด้วยการรับรองการปฏิบัติตามหลักการพื้นฐานทั้งหมด เทคโนโลยีการลงทะเบียนแบบกระจายสามารถรับประกันความสมบูรณ์และความน่าเชื่อถือของข้อมูล และเนื่องจากไม่มีจุดล้มเหลวเพียงจุดเดียว บล็อกเชนจึงทำให้การทำงานของระบบข้อมูลมีเสถียรภาพ เทคโนโลยีบัญชีแยกประเภทแบบกระจายสามารถช่วยแก้ปัญหาความน่าเชื่อถือในข้อมูล รวมถึงเปิดใช้งานการแบ่งปันข้อมูลแบบสากล

ข้อมูลเป็นทรัพย์สินที่มีค่า ซึ่งหมายความว่าการดูแลด้านความปลอดภัยของข้อมูลขั้นพื้นฐานจะต้องอยู่ในระดับแนวหน้า เพื่อความอยู่รอดของการแข่งขัน บริษัทต่างๆ จะต้องตามทันเวลา ซึ่งหมายความว่าพวกเขาไม่สามารถเพิกเฉยต่อโอกาสและข้อได้เปรียบที่อาจเกิดขึ้นจากเทคโนโลยีบล็อกเชนและเครื่องมือ Big Data ที่มีอยู่