Mục lục

Tham gia phát triển dự án MNM OpenStack Sahara: phát triển dịch vụ Mahout-as-a-Service

Tóm tắt ý tưởng

Tham gia phát triển dự án mã nguồn mở OpenStack Sahara - cung cấp một công cụ để đơn giản hóa việc tạo ra các Hadoop Cluster trên nền tảng đám mây IaaS OpenStack. Ý tưởng cho MHST 2014 là tạo ra một dịch vụ đám mây Mahout-as-a-Service dựa vào nền tảng dự án OpenStack Sahara. Mahout là dự án mã nguồn mở tập trung vào việc xử lý các thuật toán khai phá dữ liệu trong môi trường phân tán. Sản phẩm hướng tới là một dịch vụ phân tích dữ liệu hỗ trợ nhiều môi trường và nền tảng khác nhau kể cả di động.

Kỹ năng yêu cầu

Mô tả chi tiết

Mục tiêu

Mục tiêu của ý tưởng được chia thành các bước thực hiện như sau:

  1. Cài đặt hệ thống cloud middleware OpenStack (phiên bản IceHouse) trên máy chủ của Viện nghiên cứu quốc tế về khoa học và kỹ thuật tính toán - ICSE, Trường Đại học Bách Khoa Hà Nội, cấu hình của hệ thống như sau:
    • 1 nút điều khiển (controller node): 24 Cores, 32 GB RAM, 1.5 TB HDD.
    • 5 nút tài nguyên cho ảo hóa (compute node): Mỗi nút 16 Cores, 16 GB RAM, 1.5 TB HDD.
    • Hệ thống lưu trữ: SAS Based Storage 24TB, Dell R720 Storage Server.
    • Backup Server: Dell R720, 2xIntel Xeon E5-2609 Processors, 16GB RAM.
  2. Triển khai mã nguồn dự án OpenStack Sahara:
    • Cài đặt và cấu hình Sahara (cung cấp máy ảo và triển khai Hadoop cluster).
    • Cấu hình MapReduce: chọn job type: pig, hive, jar-file, v.v…, cung cấp job script, chọn I/O data location, thực hiện các jobs, lấy kết quả.
    • Liên kết với dịch vụ lưu trữ OpenStack Swift.
  3. Phát triển công cụ giám sát (monitoring) hệ thống dựa vào OpenStack Ceilometer và nền tảng MNM Nagios.
  4. Triển khai Mahout trên hệ thống OpenStack Sahara, cung cấp API cho người sử dụng .
  5. Xây dựng giao diện web quản lý cho dịch vụ Mahout-as-a-Service.
  6. Xây đựng giao diện quản lý cho dịch vụ Mahout-as-a-Service trên thiết bị di động sử dụng hệ điều hành Android.
  7. Lên kịch bản kiểm thử và kiểm thử với dữ liệu thật.

Chức năng

Chức năng chính của dịch vụ Mahout-as-a-Service (MaaS) cung cấp cho người dùng bao gồm:

Cơ sở nền tảng

- Hệ thống máy chủ tại ICSE

- OpenStack

- Hadoop

- Mahout

Hình 1: Mô hình các lớp dịch vụ của “Mahout-as-a-Service

Sự kết hợp của ba nền tảng trên mang lại nhiều ưu điểm, cụ thể:

  1. Dễ dàng, nhanh chóng triển khai dịch vụ (tính năng của cloud computing)
  2. Dễ dàng thêm, bớt các cụm hadoop cluster (tính năng của OpenStack Sahara)
  3. Lưu trữ phân tán hiệu quả lượng dữ liệu lớn (tính năng của Hadoop)
  4. Khai phá dữ liệu trong môi trường phân tán (tính năng của Mahout)

Đánh giá mức độ khó

Mentors

Thông tin khác

Tham khảo