Big Data là gì? Các khái niệm và công nghệ xử lý Big Data

1. Big Data là gì?

Với sự phát triển xã hội hiện nay, đặc biệt là trong xu hướng chuyển đổi số của cuộc cách mạng công nghiệp 4.0, mọi hoạt động dần dần được được internet hóa. Lượng thông tin trao đổi trên Internet ngày càng đa dạng và không ngừng tăng. Điều này đặt ra thách thức cho các nền công nghiệp nghiên cứu các phương pháp khác nhau để xử lý dữ liệu. Khái niệm Big Data bắt nguồn từ nhu cầu này.

Big Data có thể hiểu là dữ liệu lớn với khối lượng dữ liệu vượt xa những khả năng tính toán của các công cụ thông thường, từ đó phát sinh nhu cầu phải sử dụng nền tảng kết hợp với công cụ tính toán chuyên dụng để phân tích.

Data and Software, Driving Digital Transformation | The Software ...

2. Đặc trưng cơ bản của Big Data

Big data thường đặc trưng với năm V trong đó có ba V chính:

  • Volume: Khối lượng dữ liệu
  • Variety: Nhiều loại dữ liệu đa dạng
  • Velocity: Vận tốc mà dữ liệu cần phải được xử lý và phân tích

Dữ liệu của Big Data có thể từ các nguồn bao gồm các trang web, mạng xã hội, ứng dụng dành cho máy tính để bàn và ứng dụng trên thiết bị di động, các thí nghiệm khoa học, và các thiết bị cảm biến ngày càng tăng và các thiết bị khác trong internet (IoT).

Big Data là gì? Những “siêu năng lực” mà nó đem lại với các doanh ...
Năm đặc trưng chính của Big Data

3. Big Data và Analytic

Điều thực sự mang lại giá trị từ các tổ chức dữ liệu lớn là phân tích dữ liệu. Nếu không có phân tích, nó chỉ là một tập dữ liệu với việc sử dụng hạn chế trong kinh doanh.

Bằng cách phân tích dữ liệu lớn, các công ty có thể có những lợi ích như tăng doanh thu, dịch vụ khách hàng được cải thiện, hiệu quả cao hơn và tăng khả năng cạnh tranh.

Big Data: What Is It and How Does It Work? - Business 2 Community
Kết quả phân tích là tài sản lớn đối với các doanh nghiệp

4. Các công nghệ ứng dụng xử lý Big Data

Big Data lớn về số lượng, dữ liệu phức tạp có thể có cấu trúc hoặc không có cấu trúc (noSQL). Những yếu tố này làm cho Big Data khó bắt giữ lại, khai phá và quản lý nếu dùng các phương thức truyền thống.

Các công cụ thông dụng xử lý Big Data

Hệ sinh thái Hadoop

Là công nghệ liên quan chặt chẽ nhất với Big Data. Đây là nền tảng mã nguồn mở Apache dựa trên phương thức xử lý song song và phân tán các dữ liệu lớn.

Dự án bao gồm nhiều phần:

  • Hadoop Common, các tiện ích phổ biến hỗ trợ các phần Hadoop khác
  • Hadoop Distributed File System, cung cấp khả năng truy cập dữ liệu ứng dụng cao
  • Hadoop YARN, một khuôn mẫu cho kế hoạch làm việc và quản lý tài nguyên cụm
  • Hadoop MapReduce, một hệ thống dựa trên YARN để xử lý song song bộ dữ liệu lớn.

Apache Spark

Là một phần trong hệ sinh thái Hadoop, Apache Spark cung cấp giải pháp xử lý tính toán gấp 100 lần Hadoop khi xử lý trên RAM và 10 lần khi xử lý trên ổ đĩa.

Tuy nhiên, khi Spark làm việc cùng các dịch vụ chia sẻ khác chạy trên YARN thì hiệu năng có thể giảm xuống. Điều đó có thể dẫn đến rò rỉ bộ nhớ trên RAM. Hadoop thì khác, nó dễ dàng xử lý vấn đề này. Nếu người dùng có khuynh hướng xử lý hàng loạt (batch process) thì Hadoop lại hiệu quả hơn Spark.

Ngoài ra do Spark xử lý tính toán trên RAM, giá thành cao hơn với ổ đĩa nên thường đắt hơn Hadoop. Do vậy khi nhu cầu của bạn xử lý thời gian thực thì Spark là sự lựa chọn số một, còn nếu chỉ xử lý dạng offline thì Hadoop sẽ được ưu tiên lựa chọn hơn.

Apache Spark™ - What is Spark
Spark lấy dữ liệu từ nhiều nguồn khác nhau (Hadoop, DBm Elastic, Kafka)

Data lakes

Là kho lưu trữ dữ liệu dạng thô với khối lượng dữ liệu lớn. Dữ liệu này sẽ được xử lý chuyển đổi thành các định dạng phù hợp để truy vấn khi có nhu cầu.

Các yếu tố giúp tăng trưởng data lakes là những phong trào kỹ thuật số và sự phát triển của IoT. Các data lakes được thiết kế để giúp người dùng dễ dàng truy cập vào một lượng lớn dữ liệu khi có nhu cầu.

What is a Data Lake? - Databricks
Workflow xử lý Data Lake

NoSQL Databases

Các cơ sở dữ liệu SQL thông thường được thiết kế cho các transaction đáng tin cậy và các truy vấn ngẫu nhiên.

Nhưng chúng có những hạn chế như giản đồ cứng nhắc làm cho chúng không phù hợp với một số loại ứng dụng. Cơ sở dữ liệu NoSQL nêu ra những hạn chế, và lưu trữ và quản lý dữ liệu theo những cách cho phép tốc độ hoạt động cao và sự linh hoạt tuyệt vời.

In-memory databases

Cơ sở dữ liệu trong bộ nhớ (IMDB) là một hệ thống quản lý cơ sở dữ liệu chủ yếu dựa vào bộ nhớ chính (Ram), thay vì HDD, để lưu trữ dữ liệu. Cơ sở dữ liệu trong bộ nhớ nhanh hơn các cơ sở dữ liệu được tối ưu hóa trong đĩa, một điểm quan trọng để sử dụng phân tích big data và tạo ra các kho dữ liệu và các siêu dữ liệu.

Leave a Reply

Your email address will not be published. Required fields are marked *