Bạn đang quan tâm đến Hadoop là gì? Hiểu thêm về kiến trúc của Hadoop | TopDev phải không? Nào hãy cùng Shopdunkvn theo dõi bài viết này ngay sau đây nhé!
dữ li
Bạn đang quan tâm đến Hadoop là gì? Hiểu thêm về kiến trúc của Hadoop | TopDev phải không? Nào hãy cùng Shopdunkvn theo dõi bài viết này ngay sau đây nhé!
dữ liệu lớn đang trở thành một phần sức mạnh và tài sản lớn của mọi doanh nghiệp và hadoop là công nghệ cốt lõi để lưu trữ và truy cập dữ liệu lớn.
hadoop là gì?
hadoop là một khuôn khổ Apache mã nguồn mở cho phép phát triển các ứng dụng phân tán (xử lý phân tán) để lưu trữ và quản lý các tập dữ liệu lớn. hadoop thực hiện mô hình mapreduce, trong đó ứng dụng được chia thành các đoạn khác nhau chạy song song trên nhiều nút khác nhau. hadoop được viết bằng java, nhưng vẫn hỗ trợ c ++, python, perl thông qua cơ chế phát trực tuyến.
Bạn đang xem: Hadoop là gì
hadoop giải quyết vấn đề gì?
kiến trúc hadoop là gì?
một cụm hadoop nhỏ bao gồm 1 nút chính và nhiều nút công nhân / nô lệ. toàn bộ cụm chứa 2 lớp, một là lớp mapreduce và lớp còn lại là lớp hdfs. mỗi lớp có các thành phần liên kết riêng của nó. nút chính bao gồm trình theo dõi công việc, trình theo dõi tác vụ, nút tên và nút dữ liệu. nút nô lệ / công nhân bao gồm một nút dữ liệu và một trình theo dõi tác vụ. cũng có thể nút phụ / công nhân chỉ là dữ liệu hoặc nút tính toán.
khung hadoop bao gồm 4 mô-đun:
Đây là hệ thống tệp phân tán cung cấp quyền truy cập hiệu suất cao cho các ứng dụng khai thác dữ liệu. Hệ thống tệp phân tán hadoop (hdfs) là một hệ thống tệp ảo. khi chúng ta di chuyển 1 tập tin trong hdfs, nó sẽ tự động tách thành nhiều phần nhỏ. các phần nhỏ của tệp sẽ được sao chép và lưu trữ trên nhiều máy chủ khác để tăng khả năng chịu lỗi và tính khả dụng cao.
hdfs sử dụng kiến trúc chủ / tớ, trong đó cái chính bao gồm một nút tên để quản lý hệ thống tệp siêu dữ liệu và một hoặc nhiều nút dữ liệu tớ để lưu trữ dữ liệu thực tế.
Xem thêm: Cartridge là gì? Giải thích thắc mắc Cartridge máy in là gì
một tệp định dạng hdfs được chia thành nhiều khối và các khối này được lưu trữ trong một tập hợp các nút dữ liệu. nút tên xác định ánh xạ của các khối tới các nút dữ liệu. các nút dữ liệu xử lý các tác vụ đọc và ghi dữ liệu vào hệ thống tệp. họ cũng quản lý việc tạo, phá hủy và sao chép khối thông qua chỉ thị nút tên.
đây là một hệ thống dựa trên luồng để xử lý song song các tập dữ liệu lớn. đó là một cách để chia một vấn đề dữ liệu lớn hơn thành các phần nhỏ hơn và phân phối nó trên nhiều máy chủ. mỗi máy chủ có tập hợp tài nguyên riêng và máy chủ xử lý dữ liệu cục bộ. khi máy chủ xử lý xong dữ liệu, dữ liệu sẽ được gửi trở lại máy chủ chính.
mapreduce bao gồm một chủ theo dõi công việc duy nhất (máy chủ) và các nô lệ theo dõi công việc (máy trạm) trên mỗi nút cụm. master chịu trách nhiệm quản lý tài nguyên, giám sát việc tiêu thụ tài nguyên và lập lịch các tác vụ trên các máy trạm, giám sát chúng và thực hiện lại các tác vụ bị lỗi. nô lệ theo dõi tác vụ thực thi các tác vụ do cái chủ chỉ định và cung cấp thông tin trạng thái tác vụ để cái chủ giám sát.
trình theo dõi công việc là một điểm yếu của hadoop mapreduce. nếu trình theo dõi công việc không thành công, tất cả các công việc liên quan sẽ bị chấm dứt.
Đây là các thư viện và tiện ích java bắt buộc để các mô-đun khác sử dụng. các thư viện này cung cấp lớp hệ điều hành và hệ thống tệp trừu tượng, đồng thời chứa mã java để khởi động hadoop.
quản lý tài nguyên của hệ thống lưu trữ dữ liệu và chạy phân tích.
hadoop hoạt động như thế nào?
Một người dùng hoặc một ứng dụng có thể gửi một công việc đến hadoop (ứng dụng công việc của hadoop) với quá trình xử lý yêu cầu và thông tin cơ bản:
công việc trình khách hàng công việc hadoop (tệp jar, tệp thực thi) và cấu hình cho trình theo dõi công việc. Sau đó, máy chủ sẽ gửi các nhiệm vụ cho các máy phụ để theo dõi và quản lý tiến trình của chúng, đồng thời cung cấp thông tin trạng thái và chẩn đoán liên quan đến công việc và máy khách.
Xem thêm: Thị phi là gì? Nên làm gì trước những chuyện thị phi?
trình theo dõi tác vụ trên các nút khác nhau thực thi tác vụ ánh xạ và trả về kết quả được lưu trữ trong hệ thống tệp.
khi “chạy hadoop” có nghĩa là chạy một tập hợp các daemon, daemon thường trú hoặc chương trình, trên các máy chủ khác nhau trên mạng của bạn. daemon có một vai trò cụ thể, một số chỉ tồn tại trên một máy chủ, một số có thể tồn tại trên nhiều máy chủ.
daemon bao gồm:
tại sao lại sử dụng hadoop?
tham khảo:
có thể bạn muốn xem thêm:
26 công cụ và kỹ thuật trong dữ liệu lớn mà bạn có thể chưa biết
dữ liệu lớn là gì? tất cả về dữ liệu lớn
dữ liệu lớn là gì? trò chuyện với cto giải pháp datamart để hiểu thêm về dữ liệu
Tham khảo: “Which one” nghĩa là gì và Cách dùng trong Tiếng Anh
Như vậy trên đây chúng tôi đã giới thiệu đến bạn đọc Hadoop là gì? Hiểu thêm về kiến trúc của Hadoop | TopDev. Hy vọng bài viết này giúp ích cho bạn trong cuộc sống cũng như trong học tập thường ngày. Chúng tôi xin tạm dừng bài viết này tại đây.
Website: https://shopdunk.vn/
Thông báo: Phê Bình Văn Học ngoài phục vụ bạn đọc ở Việt Nam chúng tôi còn có kênh tiếng anh Shop Dunk VN cho bạn đọc trên toàn thế giới, mời thính giả đón xem.
Chúng tôi Xin cám ơn!
Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *
Các bài viết trên Phê bình văn học thể hiện cách đặt vấn đề, quan điểm, nhận định, phương pháp tiếp cận, thị hiếu và văn phong của tác giả. Chúng tôi giới thiệu và tôn trọng sự khác biệt, nhưng không nhất thiết đồng tình với bài viết.
Liên hệ: [email protected]
Phebinhvanhoc rất hoan nghênh độc giả gửi thông tin và góp ý cho chúng tôi!
Bạn đang quan tâm đến Hadoop là gì? Hiểu thêm về kiến trúc của Hadoop | TopDev phải không? Nào hãy cùng Shopdunkvn theo dõi bài viết này ngay sau đây nhé!
dữ liHadoop là gì? Hiểu thêm về kiến trúc của Hadoop | TopDev