Công cụ thành viên

Công cụ trang web


mhst:ideas:mhst2014:maas

Khác biệt

Đây là những khác biệt giữa hai phiên bản của trang.

Liên kết đến bản xem so sánh này

mhst:ideas:mhst2014:maas [2014/04/28 15:07] – [Cơ sở nền tảng] dattbbkmhst:ideas:mhst2014:maas [2014/09/05 03:26] (hiện tại) – sửa đổi bên ngoài 127.0.0.1
Dòng 26: Dòng 26:
   - Cài đặt hệ thống cloud middleware OpenStack (phiên bản IceHouse) trên máy chủ của **Viện nghiên cứu quốc tế về khoa học và kỹ thuật tính toán - ICSE**, Trường Đại học Bách Khoa Hà Nội, cấu hình của hệ thống như sau:   - Cài đặt hệ thống cloud middleware OpenStack (phiên bản IceHouse) trên máy chủ của **Viện nghiên cứu quốc tế về khoa học và kỹ thuật tính toán - ICSE**, Trường Đại học Bách Khoa Hà Nội, cấu hình của hệ thống như sau:
       * 1 nút điều khiển (controller node): 24 Cores, 32 GB RAM, 1.5 TB HDD.       * 1 nút điều khiển (controller node): 24 Cores, 32 GB RAM, 1.5 TB HDD.
-      * 5 nút tài nguyên cho ảo hóa (compute node), mỗi nút 16 Cores, 16 GB RAM, 1.5 TB HDD.+      * 5 nút tài nguyên cho ảo hóa (compute node): Mỗi nút 16 Cores, 16 GB RAM, 1.5 TB HDD.
       * Hệ thống lưu trữ: SAS Based Storage 24TB, Dell R720 Storage Server.       * Hệ thống lưu trữ: SAS Based Storage 24TB, Dell R720 Storage Server.
       * Backup Server: Dell R720, 2xIntel Xeon E5-2609 Processors, 16GB RAM.       * Backup Server: Dell R720, 2xIntel Xeon E5-2609 Processors, 16GB RAM.
Dòng 41: Dòng 41:
  
 Chức năng chính của dịch vụ Mahout-as-a-Service (MaaS) cung cấp cho người dùng bao gồm: Chức năng chính của dịch vụ Mahout-as-a-Service (MaaS) cung cấp cho người dùng bao gồm:
- +  
-  - Giao diên web client và mobile client cho Sahara vớcác chức năng quản lý máy ảo, Hadoop Cluster, monitoring (liên kết với OpenStack Dashboard)+  * Thêm API cho sahara cho phép enable/disable Mahout trên Hadoop cluster được khởtạo 
-  API quản lý Sahara cho nhà lập trình thông qua RESTful+  * Thêm API cho phép đưa lên và thựhiệMahout job.  
-  - Mahout API cung cấp các giảthuậkhai phá dữ liệu: classification, clustering, filtering, recommendation.+  * Thêm API cho phép lấy về các thông tin giám sát hệ thống liên quan đến Mahout job
 +  * Giao diện tương tác ngườdùng cho phép thống kê và tính phí dịch vụ theo thời gian và tổng tài nguyên sử dụng(Web portal)  
 ===== Cơ sở nền tảng ===== ===== Cơ sở nền tảng =====
 **- Hệ thống máy chủ tại ICSE** **- Hệ thống máy chủ tại ICSE**
Dòng 53: Dòng 54:
       * Apache Hadoop là một nền tảng MNM hỗ trợ các ứng dụng lưu trữ và xử lý dữ liệu phân tán. Nó cho phép các ứng dụng làm việc với hàng nghìn máy chủ độc lập với lượng dữ liệu rất lớn. Bên cạnh đó, Hadoop cũng mạnh mẽ nhờ cung cấp một công cụ lập trình với dữ liệu - MapReduce.       * Apache Hadoop là một nền tảng MNM hỗ trợ các ứng dụng lưu trữ và xử lý dữ liệu phân tán. Nó cho phép các ứng dụng làm việc với hàng nghìn máy chủ độc lập với lượng dữ liệu rất lớn. Bên cạnh đó, Hadoop cũng mạnh mẽ nhờ cung cấp một công cụ lập trình với dữ liệu - MapReduce.
 **- Mahout** **- Mahout**
-      * Apache Mahout là một dự án MNM với mục tiêu chính là tạo các thuật toán khai phá dữ liệu có tính khả mở cao. Mahout sử dụng thư viện Apache Hadoop sẽ cho phép nâng cao hiệu quả tính toán với lượng dữ liệu lớn. Mặc dù hiện tại Mahout không tiếp tục xây dựng các thuật toán mới trên MapReduce (bắt đầu từ tháng 3 năm 2014) mà chuyển sang viết bằng DSL để chạy trên Apache Spark, tuy nhiên các thuật toán sẵn có trên MapReduce vẫn rất phổ biến và được cộng đồng sử dụng rộng rãi. Bên cạnh đó, Spark cũng hoàn toàn tương thích được dữ liệu lưu trữ trên Hadoop. Do đó, việc sử dụng Mahout dựa vào MapReduce là bước phát triển __nền tảng__ cho bước tiếp theo của dự án - xây dựng dịch vụ dựa vào Apache Spark (future work).+      * Apache Mahout là một dự án MNM với mục tiêu chính là tạo các thuật toán khai phá dữ liệu có tính khả mở cao. Mahout khởi đầu là tập các thư viện giải thuật MapReduce cho nền tảng Apache Hadoop nên thừa kế khả năng làm việc với lượng dữ liệu lớn. Mặc dù hiện tại Mahout không tiếp tục xây dựng các thuật toán mới trên MapReduce (bắt đầu từ tháng 3 năm 2014) mà chuyển sang viết bằng DSL để chạy trên Apache Spark, tuy nhiên các thuật toán sẵn có trên MapReduce vẫn rất phổ biến và được cộng đồng sử dụng rộng rãi. Bên cạnh đó, Spark cũng hoàn toàn tương thích được dữ liệu lưu trữ trên Hadoop. Do đó, việc sử dụng Mahout dựa vào MapReduce là bước phát triển __nền tảng__ cho bước tiếp theo của dự án - xây dựng dịch vụ dựa vào Apache Spark (future work). 
 + 
 +{{:mhst:ideas:mhst2014:3.png?500|}} 
 + 
 +Hình 1: Mô hình các lớp dịch vụ của "**Mahout-as-a-Service**"
  
-Sự kết hợp của ba nền tảng trên mạng lại nhiều lợích, cụ thể:+Sự kết hợp của ba nền tảng trên mang lại nhiều ưu điểm, cụ thể:
   -  Dễ dàng, nhanh chóng triển khai dịch vụ (tính năng của cloud computing)   -  Dễ dàng, nhanh chóng triển khai dịch vụ (tính năng của cloud computing)
-  -  Dễ dàng thêm, bớt các cụm hadoop cluster (tính năng của OpenStack)+  -  Dễ dàng thêm, bớt các cụm hadoop cluster (tính năng của OpenStack Sahara)
   -  Lưu trữ phân tán hiệu quả lượng dữ liệu lớn (tính năng của Hadoop)   -  Lưu trữ phân tán hiệu quả lượng dữ liệu lớn (tính năng của Hadoop)
-  -  Xử lý hiệu quả trên MapReduce (tính năng của MapReduce) +  -  Khai phá dữ liệu trong môi trường phân tán (tính năng của Mahout)
-  -  Sử dụng hiệu quả các thuật toán khai phá dữ liệu trong môi trường phân tán (tính năng của Mahout)+
  
  
Dòng 70: Dòng 74:
  
   * Mentor: **TS. Nguyễn Bình Minh**. Giảng viên [[http://www.soict.hust.edu.vn/|Viện công nghệ thông tin và truyền thông]], [[http://hust.edu.vn/|Trường Đại học Bách Khoa Hà Nội]]. Email: //minhnb[AT]soict.hust.edu.vn//. Homepage: [[http://is.hust.edu.vn/~minhnb]]   * Mentor: **TS. Nguyễn Bình Minh**. Giảng viên [[http://www.soict.hust.edu.vn/|Viện công nghệ thông tin và truyền thông]], [[http://hust.edu.vn/|Trường Đại học Bách Khoa Hà Nội]]. Email: //minhnb[AT]soict.hust.edu.vn//. Homepage: [[http://is.hust.edu.vn/~minhnb]]
-  * Co-Mentor: **TS. Trần Việt Trung**. Giảng viên [[http://www.soict.hust.edu.vn/|Viện công nghệ thông tin và truyền thông]], [[http://hust.edu.vn/|Trường Đại học Bách Khoa Hà Nội]]. Email: //trungtv[AT]soict.hust.edu.vn//. Homepage: [[http://trungtv.com]]+  * Co-Mentor: **TS. Trần Việt Trung**. Giảng viên [[http://www.soict.hust.edu.vn/|Viện công nghệ thông tin và truyền thông]], [[http://hust.edu.vn/|Trường Đại học Bách Khoa Hà Nội]]. Email: //trungtv[AT]soict.hust.edu.vn//. Homepage: [[http://is.hust.edu.vn/~trungtv/]]
   * Co-Mentor: **KS. Lê Quang Hiếu**. [[http://viettelrd.com.vn/|Viện nghiên cứu và phát triển Viettel (Viettel R&D)]]. Email: //hieulq19[AT]gmail.com//.   * Co-Mentor: **KS. Lê Quang Hiếu**. [[http://viettelrd.com.vn/|Viện nghiên cứu và phát triển Viettel (Viettel R&D)]]. Email: //hieulq19[AT]gmail.com//.
 ====== Thông tin khác ====== ====== Thông tin khác ======
Dòng 79: Dòng 83:
   * Mahout-as-a-Service là một hướng phát triển có thể góp phần vào sự hoàn thiện của dự án MNM OpenStack Sahara.   * Mahout-as-a-Service là một hướng phát triển có thể góp phần vào sự hoàn thiện của dự án MNM OpenStack Sahara.
   * Dự án sẽ là cơ sở tiền đề (kinh nghiệm) để phát triển dịch vụ Mahout-as-a-Service trên nền tảng **Apache Spark** (không sử dụng MapReduce). Đây chính là công việc tiếp theo của dự án sau khi thành công giai đoạn 1 (sử dụng MapReduce).   * Dự án sẽ là cơ sở tiền đề (kinh nghiệm) để phát triển dịch vụ Mahout-as-a-Service trên nền tảng **Apache Spark** (không sử dụng MapReduce). Đây chính là công việc tiếp theo của dự án sau khi thành công giai đoạn 1 (sử dụng MapReduce).
-  * Với cộng đồng MNM thế giới nói chung và cộng đông phát triển, sử dụng OpenStack nói riêng, việc phát triển tiếp OpenStack Sahara sẽ là đóng gớp quý báu và được thừa nhận.+  * Với cộng đồng MNM thế giới nói chung và cộng đông phát triển, sử dụng OpenStack nói riêng, việc phát triển tiếp OpenStack Sahara sẽ là đóng góp quý báu và được thừa nhận.
   * Nếu chứng minh được hiệu quả hệ thống, dịch vụ sẽ thu hút được các doanh nghiệp đầu tư phát triển tạo ra sản phẩm thị trường với mục đích **phân tích dữ liệu** trong thập kỉ "**bigdata**" và "**cloud computing**" hiện nay.   * Nếu chứng minh được hiệu quả hệ thống, dịch vụ sẽ thu hút được các doanh nghiệp đầu tư phát triển tạo ra sản phẩm thị trường với mục đích **phân tích dữ liệu** trong thập kỉ "**bigdata**" và "**cloud computing**" hiện nay.
  
mhst/ideas/mhst2014/maas.1398697671.txt.gz · Sửa đổi lần cuối: 2014/09/05 03:26 (sửa đổi bên ngoài)