Luận văn:NGHIÊN CỨU WEB NGỮ NGHĨA ỨNG DỤNG XÂY DỰNG HỆ THỐNG XUẤT BẢN TRỰC TUYẾN CHO NHÀ XUẤT BẢN THÔNG TIN VÀ TRUYỀN THÔNG pot

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.23 MB, 13 trang )

Bạn đang đọc: Luận văn:NGHIÊN CỨU WEB NGỮ NGHĨA ỨNG DỤNG XÂY DỰNG HỆ THỐNG XUẤT BẢN TRỰC TUYẾN – Tài liệu text

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG

NGUYỄN TIẾN SỸ

NGHIÊN CỨU WEB NGỮ NGHĨA ỨNG DỤNG XÂY DỰNG
HỆ THỐNG XUẤT BẢN TRỰC TUYẾN CHO NHÀ XUẤT
BẢN THÔNG TIN VÀ TRUYỀN THÔNG

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01

TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng – Năm 2012
2

Công trình được hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG

Người hướng dẫn khoa học: PGS.TS. LÊ VĂN SƠN

Phản biện 1: TS. Nguyễn Thanh Bình

Phản biện 2: PGS.TS. Lê Mạnh Thạnh

Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt
nghiệp thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 21 tháng 7
năm 2012

Có thể tìm hiểu luận văn tại:
Trung tâm Thông tin – Học liệu, Đại học Đà Nẵng
Trung tâm học liệu, Đại học Đà Nẵng
3

MỞ ĐẦU
1. Lý do chọn đề tài
Trước đây, nói đến xuất bản là người ta chỉ hình dung việc xuất
bản các cuốn sách, các tạp chí, các bài báo… trên giấy. Tiến hơn một
bước, người ta đã xuất bản sách không chỉ ở dạng giấy mà còn ở
dạng sách điện tử, nhưng được in trên các đĩa CD, VCD hoặc DVD.
Nhưng dù ở dạng sách giấy hay dạng sách điện tử trên đĩa, thì nhược
điểm của loại hình xuất bản này là thông tin chậm, khó tìm kiếm khi
cần, chi phí sản xuất tốn kém và rất khó bảo quản. Trong bối cảnh
Internet phổ biến trên toàn thế giới, lĩnh vực xuất bản trực tuyến đang
ngày càng trở nên hấp dẫn. So với xuất bản trên giấy, trên đĩa, xuất
bản trực tuyến có ưu điểm rõ rệt về giảm thiểu chi phí, tốc độ cập
nhật thông tin, dễ dàng tìm kiếm qua các công cụ tìm kiếm. Bên cạnh
đó người sử dụng không phải mất công giữ gìn những thông tin họ
cần mà khi cần họ lập tức có thể tìm đến nhà xuất bản trực tuyến để
lấy thông tin. Vì vậy, việc xây dựng hệ thống xuất bản trực tuyến trên
môi trường Web đang là một yêu cầu cấp thiết.
Với bản chất của công nghệ Web hiện tại việc khai phá nội
dung Web, đã và đang vấp phải nhiều vấn đề khó khăn và do đó
chúng ta cần xây dựng một nền tảng công nghệ Web mới, thích hợp
hơn cho khai thác nguồn thông tin dữ liệu khổng lồ trên World Wide
Web. Đó là một nền tảng để cho các máy tính có thể dễ dàng xử lý
các dữ liệu được cung cấp bởi Web hay nói một cách khác máy có
thể hiểu được tài nguyên Web.
Từ những thực tế đó Semantic Web hay Web ngữ nghĩa được
ra đời. Web ngữ nghĩa thực chất là một sự mở rộng của Web hiện
hành nhằm mục đích khai thác tốt nhất công nghệ Web. Sự mở rộng
của Web ngữ nghĩa chính là việc thêm vào trong Web hiện hành yếu
tố ngữ nghĩa, để cho phép máy tính khai thác và khai thác tốt hơn các

thông tin trên Web và thuận tiện để máy tính và con người có thể làm
việc một cách cộng tác.
4

Vì vậy việc nghiên cứu và triển khai các ứng dụng thực tiễn trên
Web ngữ nghĩa đang là một hướng nghiên cứu mang tính chất thời đại
trong giai đoạn hiện nay. Chính vì vậy tôi đã chọn đề tài “Nghiên cứu
Web ngữ nghĩa ứng dụng xây dựng hệ thống Xuất bản Trực tuyến
cho Nhà xuất bản Thông tin và Truyền thông”. Với mục đích ứng
dụng CNTT mà cụ thể là Web ngữ nghĩa vào lĩnh vực xuất bản nói
chung và Nhà xuất bản Thông tin và Truyền thông nói riêng.
2. Mục tiêu nghiên cứu
Mục tiêu của đề tài là nghiên cứu về trên Semantic Web Nghiên
cứu những kiến thức nền tảng về Semantic Web bao gồm: Kiến trúc,
khái niệm, ứng dụng điển hình, công cụ và ngôn ngữ để xây dựng
ứng dụng Semantic Web.
Nghiên cứu về xuất bản và xuất bản trực tuyến, Xây dựng hệ
thống xuất bản trực tuyến và môđun hỗ trợ tìm kiếm ngữ nghĩa về
sách điện tử cho hệ thống.
3. Đối tượng và phạm vi nghiên cứu
– Nghiên cứu tổng quan về: Semantic Web, XML, Ontology
RDF, Semantic Search Engine, Protégé…
– Tìm hiểu về lĩnh vực xuất bản, xuất bản Trực tuyến. Đề xuất
quy trình xuất bản Trực tuyến với Semantic Web.
4. Phương pháp nghiên cứu
– Thu thập, tìm hiểu, phân tích các tài liệu và thông tin có liên
quan đến luận văn.
– Tìm hiểu về Semantic Web: Khái niệm, kiến trúc, ứng dụng
điển hình, XML, Ontology, RDF… và ngôn ngữ để xây dựng ứng
dụng Semantic Web.

– Tìm hiểu về quy trình để xây dựng một ứng dụng với Web
ngữ nghĩa.
– Tìm hiểu về lĩnh vực xuất bản, quy trình xuất bản, quy trình
xuất bản trực tuyến.
5

– Triển khai xây dựng quy trình xuất bản trực tuyến với Web
ngữ nghĩa.
– Đưa ra nhận xét và đánh giá kết quả.
5. Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học:
– Tìm hiểu và trình bày được các kiến thức về Semantic Web.
– Tìm hiểu và trình bày được các kiến thức về xuất bản trực tuyến.
– Đề xuất được phương pháp, giải pháp để giải quyết bài toán:
xây dựng quy trình xuất bản trực tuyến.
Ý nghĩa thực tiễn:
– Ứng dụng Semantic Web để xây dựng môt quy trình xuất bản
trực tuyến, mà cụ thể là: Ontology sách điện tử và môđun tìm kiếm
thông tin về các loại sách có trong dữ liệu
– Đưa ra một mô hình và công cụ hiệu quả với quy trình xuất
bản trực tuyến.
6. Cấu trúc của luận văn
Luận văn được chia thành 3 chương, cụ thể như sau:
Chương 1: Tổng quan về Web ngữ nghĩa: Giới thiệu những vấn
đề tổng quan tổng quan nhất về Web ngữ nghĩa, kiến trúc của Web
ngữ nghĩa, ontology là phần quan trọng nhất Web ngữ nghĩa và các
ứng dụng của Web ngữ nghĩa.
Chương 2: Kiến trúc hệ thống Xuất bản trực tuyến với Web ngữ
nghĩa: Giới thiệu những vấn đề tổng quan về xuất bản trực tuyến và đề
xuất kiến trúc của hệ thống xuất bản trực tuyến với Web ngữ nghĩa.

Chương 3: Triển khai xây dựng Hệ thống xuất bản trực tuyến
cho Nhà xuất bản Thông tin và Truyền thông: Giới thiệu những vấn
đề cơ bản để xây dựng hệ thống xuất bản trực tuyến với web ngữ
nghĩa như: xây dựng ontology cho tài nguyên sách, CSDL, mô hình
Use-Case, xây dựng môđun tìm kiếm sách điện tử và thiết kế các
màn hình trong hệ thống.
6

Chương 1. TỔNG QUAN VỀ WEB NGỮ NGHĨA
1.1. Giới thiệu về Web ngữ nghĩa
1.1.1. World Wide Web và những hạn chế của nó
Web chứa đựng một lượng dữ liệu khổng lồ đã được số hóa.
Mạng toàn cầu này thực sự là một công cụ có giá trị đối với việc tìm
kiếm và phổ biến ý tưởng cũng như kiến thức. Tháng 8-2005, Google
tuyên bố đã ghi nhận được 8,2 tỷ trang web và 2,1 tỷ hình ảnh. Những
con số đầy ấn tượng. Nhưng đó mới chỉ là phần nổi của tảng băng.
Có một thực tế là thông tin trên mạng này vẫn chưa được sử
dụng một cách trực tiếp và có hiệu quả. Những trang web được thiết
kế dành cho con người chứ không phải cho máy tính, vì vậy, ý nghĩa
của nội dung chứa đựng trong các trang web phải được tiếp nhận bởi
những người xem chúng, đọc các tài liệu HTML và nhìn thấy tên của
các đường dẫn siêu liên kết.
1.1.2. Sự ra đời của Web ngữ nghĩa
1.1.2.1. Khái niệm
Tim Berners-Lee (Người phát minh ra Web): “Bước đầu tiên là
đặt dữ liệu trên Web theo một định dạng mà máy tính có thể hiểu
được, hoặc chuyển thành định dạng mà máy tính có thể hiểu được.
Điều này tạo ra một loại Web gọi là Web ngữ nghĩa – là một Web dữ
liệu mà có thể được xử lý được trực tiếp hoặc gián tiếp bằng máy tính”.
1.1.2.2. Web ngữ nghĩa có thể mang lại những gì?

1.1.3. Hoạt động của W3G về Web ngữ nghĩa
1.2. Giới thiệu sơ lược về Ontology
1.2.1. Định nghĩa Ontology
Ontology cung cấp một bộ từ vựng chung dùng để mô tả một
lĩnh vực nghĩa là một loại đối tượng hay khái niệm hiện hữu, cùng
với các thuộc tính và quan hệ giữa chúng và lời đặc tả cho nghĩa của
những từ trong bộ từ vựng.
7

Các thành phần của Ontology:
 Các cá thể (Individuals): Các cá thể là các thành phần cơ
bản, nền tảng của một Ontology.
 Các lớp (Classes): các lớp là các nhóm, tập hợp các đối
tượng trừu tượng. Chúng có thể chứa các cá thể, các lớp
khác, hay là sự phối hợp của cả hai.
 Các thuộc tính (Properties): Các đối tượng trong Ontology
có thể được mô tả thông qua việc khai báo các thuộc tính
của chúng. Mỗi một thuộc tính đều có tên và giá trị của
thuộc tính đó. Các thuộc tính được sử dụng để lưu trữ các
thông tin mà đối tượng có thể có.
 Các mối quan hệ (Relation): Một mối quan hệ là một thuộc
tính có giá trị là một đối tượng nào đó trong Ontology.
1.2.2. Vai trò của Ontology
Danh sách dưới đây sẽ phân tích vai trò của Ontology trong ngữ
cảnh ứng dụng Web có ngữ nghĩa.
 Chia sẻ sự hiểu biết chung giữa các ứng dụng và con người.
 Cho phép sử dụng lại tri thức.
 Đưa ra các giả thiết rõ ràng về miền.
 Phân tách tri thức lĩnh vực với tri thức thao tác.
 Phân tích tri thức lĩnh vực. Phân tích hình thức của các khái

niệm, cần thiết cho việc tái sử dụng và mở rộng Ontology.
1.2.3. Ontology và Web Ngữ nghĩa
Các Ontology đóng vai trò then chốt trong việc cung cấp ngữ
nghĩa mà máy có thể hiểu được cho các tài nguyên của Web ngữ
nghĩa. Nó cung cấp một bộ từ vựng chung bao gồm các khái niệm, các
thuộc tính quan trọng và các định nghĩa về các khái niệm và các thuộc
tính này. Ngoài bộ từ vựng, Ontology còn cung cấp các ràng buộc, đôi
khi các ràng buộc này được coi như các giả định cơ sở về ý nghĩa
mong muốn của bộ từ vựng, nó được sử dụng trong một miền mà có
thể được giao tiếp giữa người và các hệ thống ứng dụng phân tán khác.
8

Đặc biệt, các Ontology có thể được sử dụng để đặc tả ý nghĩa của
các tài nguyên Web (thông qua các chú thích) bằng cách xác nhận các
tài nguyên như các trường hợp cụ thể của một số khái niệm quan trọng
và hay hoặc khẳng định các tài nguyên có quan hệ với các tài nguyên
khác thông qua một số thuộc tính quan trọng đã định nghĩa trong các
Ontology. Từ vựng trong một Ontology có thể được biểu diễn bằng các
khái niệm và các quan hệ được đặt tên và các định nghĩa khái niệm có
thể được biểu diễn bằng các giới thiệu tương đương.
1.2.4. Các ngôn ngữ và công cụ hỗ trợ xây dựng Ontology
1.2.4.1. RDF (Resource Description Framework)
1.2.4.2. RDFS (RDF-Schema)
1.2.4.3. Ngôn ngữ Web Ontology
1.2.4.4. Protégé
Protégé là bộ phần mềm mã nguồn mở Java nổi tiếng. Protégé
được nghiên cứu và phát triển từ năm 1998 bởi nhóm nghiên cứu của
Mark Musen, ĐH. Stanford nhằm quản lý các thông tin trong lĩnh
vực sinh y học. Đây là dự án được nhận được sự quan tâm và tài
trợ từ rất nhiều tổ chức, trong đó có Bộ Quốc Phòng Mỹ.

Protégé có hai phiên bản OWL và API. Phiên bản Protégé – API
có nền tảng từ OKBC (Open Knowledge Base Connectivity). OKBC
là một ứng dụng lập trình giao tiếp thực hiện truy xuất dữ liệu thông
minh. Phiên bản Protégé-OWL được phát triển dựa trên hai yêu cầu
chính. Đầu tiên là yêu cầu định nghĩa các đối tượng và quan hệ tồn
tại giữa chúng. Sau đó là yêu cầu xây dựng các đặc điểm kỹ thuật
phục vụ ý tưởng chia sẻ thông tin.
Các đối tượng xây dựng chính của Protégé là:
 Classes – Tổ chức các quan hệ tham chiếu và các kiểu thực thi
 Axioms – Mô hình câu lệnh đúng
 Instances – Các thể hiện, các thành phần của đối tượng
 Domain – Giới hạn của ontology
 Vocabulary – Các lớp và khai báo
9

1.3. Kiến trúc của web ngữ nghĩa
1.3.1. Mô hình kiến trúc của Web ngữ nghĩa

Hình 1.4. Kiến trúc Web ngữ nghĩa
1.3.2. Các lớp trong mô hình kiến trúc của Web ngữ nghĩa
1.3.2.1. Lớp Unicode và URI
1.3.2.2. Lớp XML + NS + xmlschema
1.3.2.3. Lớp dữ liệu RDF + RDFSchema
1.3.2.4. Ontology Vocabulary
1.3.2.5. Lớp Logic
1.3.2.6. Lớp Proof và lớp Trust
1.3.2.7. Lớp Digital signatures
1.4. RDF – Nền tảng của Web ngữ nghĩa
1.4.1. Giới thiệu về RDF
RDF là một thành phần quan trọng của Semantic Web, được đặt

trên XML, RDF sử dụng cú pháp của XML để biểu diễn thông tin
(RDF/XML). Thông qua định dạng này, các thông tin trong RDF có
thể được trao đổi dễ dàng giữa các hệ thống máy tính cũng như các hệ
điều hành hay các ngôn ngữ lập trình ứng dụng khác nhau.
1.4.2. Các khái niệm cơ bản của RDF
1.4.2.1. Namespace và cách khai báo
10

1.4.2.2. QName và cách sử dụng
1.4.2.3. Mô hình RDF
Mô hình cơ bản của RDF gồm ba đối tượng sau:
Tài nguyên (Resources): Là tất cả những gì được mô tả bằng biểu
thức RDF.
Thuộc tính (Properties): Thuộc tính, đặc tính, hoặc quan hệ dùng
để mô tả tính chất của tài nguyên.
Phát biểu (Statements): Mỗi phát biểu gồm ba thành phần sau:
 Subject (Tài nguyên): Địa chỉ hay vị trí tài nguyên muốn mô tả
 Predicate (Vị ngữ): Xác định tính chất của tài nguyên.
 Object (Bổ ngữ): Có thể là một giá trị nguyên thủy hoặc cũng
có thể là một tài nguyên
Mỗi một phát biểu (subject, predicate, object) còn gọi là một bộ
ba (triple).
Ví dụ: Xét phát biểu: “Sỹ có anh là Minh”
Phát biểu trên được phân ra thành các phần sau: Subject (Sỹ),
Predicate hasBrother (có anh) và Object (Minh)
Một tập hợp các RDF Triple được gọi là một đồ thị:

Hình 1.5. Mối quan hệ giữa các thành phần trong triple

Phát biểu trên được mô hình hóa bằng đồ thị có hướng sau:

1.4.3. Ngôn ngữ XML
1.4.4. Cấu trúc RDF/XML
Predicate
Subject Object
http://localhost:8080/owls.owl#Sỹ
http://localhost:8080/owls.owl#Minh

http://localhost:8080/owls.owl#hasBrother
11

1.4.4.1. Cú pháp RDF/XML cơ bản
1.4.4.2. RDF Container
1.4.5. RDF Collection
1.4.6. RDF Schema
1.4.6.1. Giới thiệu về RDF Schema
1.4.6.2. Định nghĩa class(lớp)
1.4.6.3. Định nghĩa property(thuộc tính)
1.4.7. Truy vấn dữ liệu trong Semantic Web
1.5. Các ứng dụng của Web ngữ nghĩa
1.5.1. Các lĩnh vực ứng dụng
1.5.1.1. Semantic Search Engines
Vấn đề hiện nay là đa số các Search Engines hiện có đều thuộc
loại Keyword Search Engine. Cơ chế của chúng là định kì duyệt Web
để phát hiện ra những sự thay đổi, rồi lập chỉ mục những thay đổi
này. Người sử dụng có thể tạo các câu truy vấn gồm các từ khóa trên

Xem thêm: TOP 8 phần mềm xem tivi trên máy tính tốt nhất hiện nay

các chỉ mục đó để nhận về kết quả mong muốn. Tuy nhiên, phương
pháp này gặp hai vấn đề chính sau đây:
 Một từ khóa có thể có một hay nhiều ý nghĩa tùy theo từng
ngữ cảnh và Search Engine không thể hiện mối quan hệ giữa
các từ khóa với nhau.
 Các trang Web có cùng ý nghĩa với câu truy vấn của người sử
dụng sẽ không tồn tại trong kết quả trả về.
Nếu Search Engine được tích hợp tri thức để hiểu được ý nghĩa
của các từ, thì rất có thể nó cho ta kết quả chính xác hơn, lúc đó việc
tìm kiếm sẽ dựa trên khái niệm (concept) chứ không phải theo từ
khóa (keyword).
1.5.1.2. Khung làm việc để quản lý tri thức
1.5.2. Semantic Search Engine
1.5.2.1. Giới thiệu về Semantic Search Engine
12

Search Engine luôn là một ứng dụng rất quan trọng. Thực tế
cho thấy có rất nhiều Search Engines đã & đang được xây dựng và
chúng đang đóng những vai trò quan trọng như các Internet Search
Engines Google, AOL, Yahoo, Altavista, MSN,… và vô số các
Intranet Search Engines ở các trường học, công ty, tổ chức,… Ngoài
ra, còn có các Search Engines khác được tích hợp trong các
phần mềm.
Semantic Search Engine là máy tìm kiếm dựa vào ngữ nghĩa
trên quan điểm của Semantic Web, mô tả những ưu điểm của
Semantic Search Engine. Semantic Search Engine đã khắc phục
những khuyết điểm của các Search Engine truyền thống (Keyword
Search Engine).
1.5.2.2. So sánh giữa Search Engine truyền thống và Semantic
Search Engine

Search Engine truyền thống: Không thể tìm ra các tài nguyên
thích hợp một cách hiệu quả vì:
 Những tài liệu người dùng muốn tìm có thể sử dụng những
thuật ngữ khác.
 Những lỗi chính tả và các biến thể của từ ngữ được xem là
những thuật ngữ khác nhau đối với môi trường máy tính.
 Search Engine không thể xử lý các trang HTML một cách
thông minh.
Sematic Search Engine:
 Một viễn cảnh về lĩnh vực tri thức (knowledge domain)
tốt hơn.
 Cho phép tìm kiếm thông tin dựa trên nội dung tài liệu.
 Thông tin tìm kiếm được trả về chính xác và phù hợp (tìm ra
những tài liệu mà ta không thể tìm thấy nếu dùng các Search
Eninge truyền thống).
13

Chương 2. KIẾN TRÚC CỦA HỆ THỐNG
XUẤT BẢN TRỰC TUYẾN VỚI WEB NGỮ NGHĨA
2.1. Giới thiệu về hệ thống xuất bản trực tuyến
2.1.1. Khái niệm, Ưu và Nhược điểm của Hệ thống Xuất bản Trực tuyến
2.1.1.1. Khái niệm
Theo từ điển tiếng Việt Wikipedia định nghĩa: “Xuất bản trực
tuyến là hình thức phân phối các ẩn phẩm kỹ thuật số thông qua
mạng Internet. Xuất bản trực tuyến gắn liền với xuất bản điện tử”.
2.1.1.2. Ưu điểm của Hệ thống Xuất bản Trực tuyến
Những ưu điểm của hệ thống xuất bản trực tuyến:
 Tiết kiệm chi phí
 Phổ biến tác phẩm với phạm vi rộng
 Xuất bản trực tuyến sinh động hơn

Xem thêm [Onmyouji Vn] Lãnh chúa Arakawa Sida Pk. | những tin tức về game mới cập nhật tại Bem2

 Thời gian đáp ứng nhanh hơn
 Marketing thuận tiện
 Thanh toán nhanh hơn
 Không có hàng tồn và truy cập trực tiếp đến doanh số bán hàng
 Chỉnh sửa dễ dàng
2.1.1.3. Nhược điểm của Hệ thống Xuất bản Trực tuyến
Các nhược điểm của hệ thống xuất bản trực tuyến:
 Dễ vi phạm bản quyền
 Chế tài cho xuất bản điện tử chưa rõ ràng
 An toàn dữ liệu và bảo mật thông tin
 Giải quyết tranh chấp
 Thanh toán điện tử gặp nhiều trở ngại
2.1.2. Cơ sở pháp lý đối với Xuất bản Trực tuyến
2.1.3. Các hình thức xuất bản hiện nay
2.1.3.1. Xuất bản dưới dạng in
2.1.3.2. Xuất bản dưới dạng công nghệ số
14

2.1.4. Nhu cầu xây dựng Hệ thống Xuất bản Trực tuyến
2.1.4.1. Thị trường nội dung Internet
2.1.4.2. Thị trường nội dung di động
2.1.4.3. Phát triển nội dung số tại Việt nam
2.1.4.4. Thị trường nội dung số trong tương lai
2.2. Xuất bản trực tuyến với Web ngữ nghĩa
2.2.1. Quy trình tổng quát xây dựng ứng dụng với Web ngữ nghĩa
2.2.1.1. Xây dựng Ontology
Quy trình phát triển Ontology là một quy trình gồm nhiều bước,
tuy nhiên vẫn chưa có một phương pháp chuẩn hóa nào để phát triển
các Ontology. Quy trình phát triển gồm 7 bước do Stanford Center
for Biomedical Informatics Research đưa ra (Đây là nhóm phát triển

phần mềm Protégé để trình diễn và xoạn thảo Ontology):
 Bước 1: Xác định lĩnh vực và phạm vi của Ontology
 Bước 2: Xem xét việc sử dụng lại các Ontology có sẵn
 Bước 3: Liệt kê các thuật ngữ quan trọng
 Bước 4: Xác định các lớp và phân cấp của các lớp
 Bước 5: Xác định các thuộc tính
 Bước 6: Xác định giới hạn của các thuộc tính, kiểu giá trị
 Bước 7: Tạo các thể hiện / thực thể
2.2.1.2. Tạo ngữ nghĩa với RDF
2.2.1.3. Phân loại các Ontology đã có theo lĩnh vực
2.2.1.4. Xây dựng Siêu dữ liệu
2.2.1.5. Truy vấn dữ liệu
2.2.2. Kiến trúc của hệ thống xuất bản trực tuyến với web ngữ nghĩa
2.2.2.1. Giới thiệu
Kiến trúc của hệ thống xuất bản trực tuyến với Web ngữ nghĩa là
sự kết hợp hài hòa thống nhất giữa quy trình xuất bản trực tuyến và quy
trình xây dựng ứng dụng với Web ngữ nghĩa. Từ sự kết hợp đó hình
thành một quy trình rõ ràng và đồng thời xác định yêu cầu như: Các
bước thực hiện, phương tiện, công cụ cho quá trình xây dựng ứng dụng.
15

2.2.2.2. Xây dựng mô hình tổng quát

Hình 2.4. Mô hình tổng quát của hệ thống xuất bản trực tuyến với web
ngữ nghĩa
16

Xây dựng sách điện tử (E-Book): Công đoạn đầu tiên của việc
xây dựng hệ thống xuất bản trực tuyến với Web ngữ nghĩa là xây
dựng CSDL dưới dạng sách điện tử (E-Book). Việc xây dựng kho

sách điện tử cho hệ thống được tiến hành từ ba nguồn dữ liệu chính:
 Kho sách hiện có: Kho sách hiện có của NXB TTTT
 Liên kết với các NXB: Liên kết với các NXB khác
 Xuất bản một cuốn sách mới: Chu trình ra đời của một cuốn
sách điện tử mới cũng giống như chu trình ra đời của một
cuốn sách truyền thống: Đăng ký nội dung bản thảo, biên
tập chế bản, đăng ký mã số xuất bản, ra quyết định xuất bản
và tạo thành một cuốn sách điện tử.
Tạo ứng dụng với Web ngữ nghĩa: Việc xây dựng siêu dữ liệu
là sự kết hợp từ việc xây dựng ontology cho tài nguyên “sách” và các
thông tin về sách điện tử được chứa trong CSDL của hệ thống. Sau
khi tạo dựng Ontology cho tài nguyên sách chúng ta tiến hành tạo
ngữ nghĩa cho tài nguyên này và kết hợp với sách điện tử để tạo
thành file được lưu trữ dưới dạng RDF/XML.
Tạo các ứng dụng: Sau khi có được siêu dữ liệu chúng ta tiến
hành xây dựng các ứng dụng tương ứng với từng chức năng của hệ
thống xuất bản trực tuyến với web ngữ nghĩa.
2.3. Các yêu cầu để xây dựng ứng dụng
2.3.1. Các yêu cầu lưu trữ dữ liệu
2.3.2. Các yêu cầu về công cụ
2.3.3. Các yêu cầu về chức năng
2.3.3.1. Chức năng đăng ký xuất bản trực tuyến
2.3.3.2. Chức năng cập nhật tài nguyên
2.3.3.3. Chức năng tìm kiếm
2.3.3.4. Chức năng xem chi tiết thông tin
2.3.3.6. Chức năng thống kê số liệu
2.3.4. Các yêu cầu về phi chức năng
17

Chương 3. TRIỂN KHAI XÂY DỰNG

HỆ THỐNG XUẤT BẢN TRỰC TUYẾN CHO
NHÀ XUẤT BẢN THÔNG TIN VÀ TRUYỀN THÔNG
3.1. Giới thiệu Nhà xuất bản Thông tin và Truyền thông
Nhà xuất bản Thông tin và Truyền thông (ICPublisher), tiền
thân là Nhà xuất bản Bưu điện, được thành lập ngày 12/8/1997 theo
Quyết định số 463/QĐ-TCCB của Tổng cục trưởng Tổng cục Bưu
điện sau này là Bộ Bưu chính viễn thông
Năm 2008, cùng với sự ra đời của Bộ Thông tin và Truyền
thông, nhằm đáp ứng nhiệm vụ chính trị và khẳng định định hướng
phát triển của đơn vị Nhà xuất bản Bưu điện được đổi tên thành
Nhà xuất bản Thông tin và Truyền thông theo Quyết định số
1882/QĐ-BTTTT ngày 17/12/2008 của Bộ trưởng Bộ Thông tin và
Truyền thông.
Nhà xuất bản Thông tin và Truyền thông là đơn vị sự nghiệp
trực thuộc Bộ Thông tin và Truyền thông. Ngay từ khi được thành
lập NXB đã định hướng phục vụ các đối tượng bạn đọc sử dụng các
tri thức khoa học, công nghệ, kỹ thuật, nghiệp vụ, kinh tế và pháp
luật về các lĩnh vực: Thông tin đối ngoại, Điện tử, Viễn thông, Công
nghệ thông tin, Báo chí, xuất bản, Phát thanh, truyền hình, Bưu
chính, Văn hóa – Xã hội, Văn học nghệ thuật, Kinh tế – Quản trị Kinh
doanh, Ngoại ngữ, Từ điển.
3.2. Xây dựng Ontology cho Tài nguyên Sách điện tử
3.2.1. Quy trình phát triển Ontology cho tài nguyên sách điện tử
Ontology cho tài nguyên sách điện tử là một mô hình dữ liệu
biểu diễn lĩnh vực xuất bản trực tuyến, được sử dụng để suy luận về
các đối tượng trong lĩnh vực xuất bản trực tuyến và mối quan hệ giữa
chúng. Quy trình phát triển Ontology bao gồm 7 bước (Stanford
Center for Biomedical Informatics Research đề xuất).
18

Ontology cho tài nguyên sách điện tử được xây dựng dựa trên hai
thành phần cơ bản:
 Chuẩn Dublin Core: Là chuẩn dùng để mô tả dữ liệu trong
các Metadata nhằm khai thác các tài liệu trong thư viện và
trên các Website thông qua mạng Internet. Chuẩn Dublin
Core bao gồm 15 yếu tố được thiết lập từ các cuộc hội thảo
mang tầm cỡ quốc tế và mang ý nghĩa kết hợp của các ngành
khoa học: Thư viện, tin học, bảo tàng, mã hoá văn bản và các
lĩnh vực khác có liên quan. 15 yếu tố cảu chuẩn Dublin Core
được liệt kê cụ thể như sau: Nhan đề (Title), tác giả
(Creator), đề mục (Subject), mô tả (Description), xuất bản
(Publisher), tác giả phụ (Contributor), ngày tháng (Date),
loại hình (Type), mô tả vật lý (Format), định danh tư liệu
(Identifier), nguồn gốc (Source), ngôn ngữ (Language), liên
kết (Relation), nơi chứa (Coverage), bản quyền (Rights)
 Được dùng trong lĩnh vực xuất bản: Nên các thuật ngữ phải
là các thuật ngữ được dùng trong lĩnh vực xuất bản.
Các thuật ngữ quan trọng trong Ontology được xác định cụ thể
như sau: Sách điện tử, nhan đề, tác giả, đề mục, mô tả, NXB, tác giả
phụ, thời gian, loại hình, mô tả vật lý, định danh tư liệu, nguồn gốc,
ngôn ngữ, liên kết, nơi chứa, bản quyền, bản thảo, thông tin đối ngoại,
Điện tử – Viễn thông, Công nghệ thông tin, Báo chí – Xuất bản, Phát
thanh – Truyền hình, Bưu chính, Văn hóa – Xã hội, Văn học nghệ thuật,
Kinh tế – Quản trị Kinh doanh, Ngoại ngữ, Từ điển, Họ, Tên, Ngày
sinh, Giới tính, Nghề nghiệp, Địa chỉ, Điện thoại, được chứa trong,
được xuất bản bởi, có tác giả là…
Ngôn ngữ ontology chia thuộc tính ra thành hai loại khác nhau
là thuộc tính quan hệ và thuộc tính dữ liệu, được xác định cụ thể
như sau:
19

 Thuộc tính quan hệ: Có thông tin, có tác giả, có nhà xuất
bản, thuộc kho sách, thuộc nhà xuất bản, thuộc danh mục
 Thuộc tính dữ liệu: Có tên sách, có nội dung, thuộc lĩnh vực,
có nội dung trích yếu, có lời giới thiệu, có lời nói đầu, có
mục lục, có khổ sách, có số trang, có giá sách, có mã số
ISBN, có số ĐKQĐXB, có số QĐXB, có mã số đăng ký bản
quyền, có tên nhà xuất bản, có thời gian gửi bản thảo, có
thời gian nộp lưu chiểu, thuộc ngôn ngữ, có nguồn gốc xuất
xứ, có số CMND, có Họ và tên, có ngày sinh, có quê quán,
có giới tính,có nghề nghiệp, có địa chỉ, có điện thoại, có học
hàm, có học vị, có email.
3.2.2. Mô tả Ontology sách điện tử

Hình 3.1. Ontology mô tả các tài nguyên sách điện tử
20

3.2.3. Sử dụng Protégé thiết kế ontology
Ontology cho tài nguyên “Sách điện tử” được thiết kế trên bộ
công cụ Protégé 3.4.8 (Có API hỗ trợ cho việc xây dựng công cụ làm
giàu sau này) được thực hiện qua các bước cụ thể như sau:
 Bước 1: Tạo Ontology “Sách điện tử”
 Bước 2: Tạo các lớp và các ràng buộc
 Bước 3: Tạo các thuộc tính và các quan hệ
 Bước 4: Tạo các cá thể
 Bước 5: Cấu trúc cây phân cấp của Ontology “Sách điện tử”

Hình 3.7. Mô hình phân cấp lớp của Ontology “Sách điện tử”
21

3.3. Mô hình Ca sử dụng (Use – Case)
3.3.1. Danh sách các tác nhân (Actor)
3.3.2. Danh sách các ca sử dụng
3.3.3. Lược đồ chính của mô hình ca sử dụng
3.4. Cơ sở dữ liệu cho hệ thống
3.4.1. Mô hình CSDL trong SQL sever
Hình 3.9. Mô hình CSDL của hệ thống
3.4.2. Danh sách các bảng dữ liệu
3.4.3. Chi tiết thông tin các bảng dữ liệu
22

3.5. Ứng dụng tìm kiếm theo ngữ nghĩa của hệ thống
3.5.1. Mô hình tìm kiếm theo ngữ nghĩa của hệ thống
Mô hình tìm kiếm theo ngữ nghĩa cho tài nguyên sách điện tử
trong môđun tìm kiếm của hệ thống xuất bản trực tuyến (hình 3.10):
Hình 3.10. Mô hình tìm kiếm theo ngữ nghĩa của hệ thống

Web Browser: Đóng vai trò giao tiếp với người dùng.
CSDL cho của hệ thống: CSDL sau khi được tổng hợp từ hệ
thống sẽ được ánh xạ vào Ontology.
Môđun tìm kiếm: Đây là chức năng tìm kiếm của chương trình
của chương trình thực hiện các thao tác sau:
 Tổ chức lưu trữ Ontology, theo các quan hệ, thuộc tính của
Ontology để hiển thị các thông tin theo dạng phân cấp.
 Thực hiện truy vấn yêu cầu của người dùng trên Ontology
và trả về kết quả cho Web Browser địa điểm theo yêu cầu
của người dùng.
3.5.2. Xây dựng ứng dụng tìm kiếm theo ngữ nghĩa cho hệ thống
3.5.2.1. Ánh xạ CSDL của hệ thống vào Ontology cho tài nguyên
“Sách điện tử”
Một tài nguyên Sách điện tử sau khi được hoàn thiện nội dung
hệ thống sẽ tổng hợp và rút trích các thông tin cần thiết trong CSDL
và ánh xạ vào các individual (cá thể) trong Ontology của tài nguyên
23

“Sách điện tử”. Các thông tin cần thiết cần được rút trích là các thuộc
tính dữ liệu: Danh mục, lĩnh vực, nội dung tóm tắt, giá sách, bản
quyền, mã số sách, lời nói đầu, lời giới thiệu, mục lục, số trang, khổ
sách, mã vạch, ISBN, nhà xuất bản, thời gian nhận bản thảo, nộp lưu
chiểu, ngôn ngữ, bản thảo, nguồn gốc, biên soạn, biên dịch, họ và
tên, ngày sinh, CMND, quê quán, giới tính, nghề nghiệp, địa chỉ, điện
thoại, học hàm, học vị, Email, tác giả, tác giả phụ.
Quá trình nhập individual (cá thể) vào Ontology được thực hiện
trên công cụ Protégé.
3.5.2.2. Truy xuất dữ liệu ontology sang giao diện web
Quá trình truy xuất dữ liệu Ontology sang giao diện web là quá
trình điền đầy các quan hệ của ứng dụng và tạo cho ứng dụng có

thông tin hai chiều. Quá trình này được thực hiện theo thuật toán:
Thuật toán:
Bước 1: Mở tệp tin chứa ontology
Bước 2: Đọc tất cả các Properties có khai báo Symmetric
Property hoặc đưa vào danh sách đối chiếu.
Bước 3: Duyệt qua tất cả các đỉnh của Ontology
Nếu một đỉnh có chứa quan hệ cần điền đầy theo
danh sách đối chiếu ở trên (Bước 2)
Điền thông tin quan hệ, ngược lại
Quay lại xét cho đỉnh vừa điền như Bước 2
Ngược lại bỏ qua bước này
Bước 4: Đóng truy cập vào Ontology
3.5.2.3. Tìm kiếm cơ bản
Chức năng của tìm kiếm cơ bản là dựa vào từ khóa chỉ tên sách
điện tử hoặc một thông tin nào đó về sách điện tử. Các bước tìm kiếm
cơ bản được thực hiện theo thuật toán được mô tả cụ thể theo các
bước như sau:
24

Thuật toán:
Bước 1: Duyệt tìm tất cả các tên sách liên quan đến từ khóa tên
sách được yêu cầu truy vấn.
Bước 2: Nếu có ít nhất 1 tên sách thỏa mãn ở Bước 1 thì thực hiện:
Đọc các Object Properties thỏa Bước 1.
Bước 3: Xác định các lớp có Properties nằm trong Bước 2:
Duyệt qua các individual (Cá thể) của lớp vừa xác định.
Kiểm tra các tính quan hệ giữa các các thể để đưa ra
các giá trị liên quan.
Bước 4: Hiển thị kết quả.
3.5.2.4. Tìm kiếm nâng cao

Xem thêm: Top 7 phần mềm thiết kế đồ họa tốt nhất hiện nay

Ngoài chức năng của tìm kiếm cơ bản hệ thống còn hỗ trợ chức
năng tìm kiếm nâng cao. Các bước tìm kiếm nâng cao được thực hiện
theo thuật toán được mô tả cụ thể theo các bước như sau:
Thuật toán:
Bước 1: Đọc tất cả những thông tin có liên quan với tất cả các
yêu cầu của dữ liệu tìm kiếm
Bước 2: Nếu kết quả ở Bước 1 không rỗng, nghĩa là ít nhất tìm
được một thông tin cần tìm.
Đọc tất cả các thông tin có quan hệ với nhau trong
danh sách ở Bước 1 theo những quan hệ ở danh sách
với yêu cầu tìm kiếm quan hệ ràng buộc
Bước 3: Hiển thị kết quả tìm kiếm.
3.6. Thiết kế các màn hình chính
3.6.1. Màn hình chính của hệ thống
3.6.2. Màn hình đăng ký
3.6.3. Màn hình đăng ký nội dung xuất bản
3.6.4. Màn hình cập nhật nội dung xuất bản
3.6.5. Màn hình tìm kiếm một tài nguyên E-Book
3.6.6. Màn hình hiển thị kết quả tìm kiếm
25

KẾT LUẬN
Trong bối cảnh nhu cầu ứng dụng công nghệ thông tin tăng,
Internet phổ biến trên toàn thế giới, việc ứng dựng CNTT vào các
lĩnh vực trong đời sống mà đặc biệt là lĩnh vực xuất bản là một nhu
cầu cấp thiết. Việc xây dựng một hệ thống xuất bản trực tuyến đang
ngày càng trở nên hấp dẫn. So với xuất bản trên giấy, trên đĩa, xuất
bản trực tuyến có ưu điểm rõ rệt về giảm thiểu chi phí, tốc độ cập
nhật thông tin, dễ dàng tìm kiếm qua các công cụ tìm kiếm như
yahoo, google, livesearch Bên cạnh đó người sử dụng không phải

mất công giữ gìn những thông tin họ cần mà khi cần họ lập tức có thể
tìm đến nhà xuất bản trực tuyến để lấy thông tin.
Trong khuôn khổ luận án tốt nghiệp này, người thực hiện đã
tìm hiểu, nghiên cứu trình bày những khái niệm về Web ngữ nghĩa,
sách điện tử, xuất bản trực tuyến và ứng dụng web ngữ nghĩa để xây
dựng hệ thống xuất bản trực tuyến cũng đã xây dựng thử nghiệm
thành công hệ thống xuất bản trực tuyến rất mới này.
Kết quả đạt được:
 Tìm hiểu và trình bày được các kiến thức về Web ngữ nghĩa.
 Tìm hiểu và trình bày được các kiến thức về xuất bản trực tuyến.
 Tìm hiểu và trình bày được các kiến thức về “Sách điện tử”.
 Xây dựng được kiến trúc của hệ thống xuất bản trực tuyến
với Web ngữ nghĩa.
 Xây dựng được Ontology cho lĩnh vực xuất bản mà cụ thể là
cho tài nguyên “Sách điện tử”.
 Ứng dụng web ngữ nghĩa xây dựng hệ thống xuất bản trực
tuyến cho Nhà xuất bản Thông tin và Truyền thông, mà cụ
thể là xây dựng môđun tìm kiếm cho hệ thống.
Hạn chế:
 Mặc dù đã có nhiều cố gắng và nỗ lực nghiên cứu trong thời
gian cho phép, nhưng Web ngữ nghĩa là một công nghệ
26

tương đối mới bên cạnh đó xuất bản trực tuyến cũng là một
lĩnh vực hoàn toàn mới nên cũng không tránh khỏi những
thiếu sót.
 Chưa tìm hiểu sâu và nghiên cứu được về vấn đề bảo mật
trong Web ngữ nghĩa để ứng dụng vào việc bảo mật trong
hệ thống xuất bản trực tuyến.
 Chưa xây dựng được các chính sách quản lý về bản quyền,

và thanh toán điện tử cho hệ thống xuất bản trực tuyến gặp
nhiều trở ngại.
 Chưa xây dựng hoàn thiện và tối ưu hóa chức năng tìm
kiếm, đăng ký xuất bản và quản lý xuất bản trong hệ thống
xuất bản trực tuyến.
Hướng phát triển tiếp theo của đề tài:
 Nghiên cứu sâu về cơ chế bảo mật của công nghệ Web ngữ
nghĩa để ứng dụng vào việc bảo mật trong hệ thống xuất bản
trực tuyến.
 Nghiên cứu sâu về lĩnh vực thương mại điện tử mà đặc biệt
là việc thanh toán điện tử để hoàn thiện chức năng phát hành
sách điện tử cho hệ thống xuất bản trực tuyến.
 Nghiên cứu phương pháp nhằm hoàn thiện các chức năng
tìm kiếm, đăng ký xuất bản và quản lý xuất bản cho hệ
thống xuất bản trực tuyến.
 Nghiên cứu phương pháp để ánh xạ CSDL của hệ thống vào
Ontology cho tài nguyên “Sách điện tử” được thực hiện một
cách tự động.
Việc nghiên cứu đề tài đã giúp tôi nắm được xu thế mới trong
việc nghiên cứu và triển khai các ứng dụng thực tiển trên Web ngữ
nghĩa đang là một hướng nghiên cứu mang tính chất thời đại trong giai
đoạn hiện nay. Và từ đó áp dụng CNTT mà cụ thể là Web ngữ nghĩa
vào lĩnh vực xuất bản để xây dựng một hệ thống xuất bản trực tuyến.
Công trình được hoàn thành xong tạiĐẠI HỌC ĐÀ NẴNGNgười hướng dẫn khoa học : PGS.TS. LÊ VĂN SƠNPhản biện 1 : TS. Nguyễn Thanh BìnhPhản biện 2 : PGS.TS. Lê Mạnh ThạnhLuận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốtnghiệp thạc sĩ kỹ thuật họp tại Đại học Thành Phố Đà Nẵng vào ngày 21 tháng 7 năm 2012C ó thể tìm hiểu và khám phá luận văn tại : Trung tâm tin tức – Học liệu, Đại học Đà NẵngTrung tâm học liệu, Đại học Đà NẵngMỞ ĐẦU1. Lý do chọn đề tàiTrước đây, nói đến xuất bản là người ta chỉ tưởng tượng việc xuấtbản những cuốn sách, những tạp chí, những bài báo … trên giấy. Tiến hơn mộtbước, người ta đã xuất bản sách không chỉ ở dạng giấy mà còn ởdạng sách điện tử, nhưng được in trên những đĩa CD, VCD hoặc DVD.Nhưng dù ở dạng sách giấy hay dạng sách điện tử trên đĩa, thì nhượcđiểm của mô hình xuất bản này là thông tin chậm, khó tìm kiếm khicần, chi phí sản xuất tốn kém và rất khó dữ gìn và bảo vệ. Trong bối cảnhInternet phổ cập trên toàn quốc tế, nghành nghề dịch vụ xuất bản trực tuyến đangngày càng trở nên mê hoặc. So với xuất bản trên giấy, trên đĩa, xuấtbản trực tuyến có ưu điểm rõ ràng về giảm thiểu ngân sách, vận tốc cậpnhật thông tin, thuận tiện tìm kiếm qua những công cụ tìm kiếm. Bên cạnhđó người sử dụng không phải mất công giữ gìn những thông tin họcần mà khi cần họ lập tức hoàn toàn có thể tìm đến nhà xuất bản trực tuyến đểlấy thông tin. Vì vậy, việc kiến thiết xây dựng mạng lưới hệ thống xuất bản trực tuyến trênmôi trường Web đang là một nhu yếu cấp thiết. Với thực chất của công nghệ tiên tiến Web hiện tại việc khám phá nộidung Web, đã và đang vấp phải nhiều yếu tố khó khăn vất vả và do đóchúng ta cần thiết kế xây dựng một nền tảng công nghệ Web mới, thích hợphơn cho khai thác nguồn thông tin dữ liệu khổng lồ trên World WideWeb. Đó là một nền tảng để cho những máy tính hoàn toàn có thể thuận tiện xử lýcác tài liệu được cung ứng bởi Web hay nói một cách khác máy cóthể hiểu được tài nguyên Web. Từ những trong thực tiễn đó Semantic Web hay Web ngữ nghĩa đượcra đời. Web ngữ nghĩa thực ra là một sự lan rộng ra của Web hiệnhành nhằm mục đích mục tiêu khai thác tốt nhất công nghệ tiên tiến Web. Sự mở rộngcủa Web ngữ nghĩa chính là việc thêm vào trong Web hiện hành yếutố ngữ nghĩa, để cho phép máy tính khai thác và khai thác tốt hơn cácthông tin trên Web và thuận tiện để máy tính và con người hoàn toàn có thể làmviệc một cách cộng tác. Vì vậy việc điều tra và nghiên cứu và tiến hành những ứng dụng thực tiễn trênWeb ngữ nghĩa đang là một hướng nghiên cứu và điều tra mang đặc thù thời đạitrong tiến trình lúc bấy giờ. Chính thế cho nên tôi đã chọn đề tài “ Nghiên cứuWeb ngữ nghĩa ứng dụng kiến thiết xây dựng mạng lưới hệ thống Xuất bản Trực tuyếncho Nhà xuất bản tin tức và Truyền thông ”. Với mục tiêu ứngdụng CNTT mà đơn cử là Web ngữ nghĩa vào nghành xuất bản nóichung và Nhà xuất bản tin tức và Truyền thông nói riêng. 2. Mục tiêu nghiên cứuMục tiêu của đề tài là nghiên cứu và điều tra về trên Semantic Web Nghiêncứu những kỹ năng và kiến thức nền tảng về Semantic Web gồm có : Kiến trúc, khái niệm, ứng dụng nổi bật, công cụ và ngôn từ để xây dựngứng dụng Semantic Web. Nghiên cứu về xuất bản và xuất bản trực tuyến, Xây dựng hệthống xuất bản trực tuyến và môđun tương hỗ tìm kiếm ngữ nghĩa vềsách điện tử cho mạng lưới hệ thống. 3. Đối tượng và khoanh vùng phạm vi điều tra và nghiên cứu – Nghiên cứu tổng quan về : Semantic Web, XML, OntologyRDF, Semantic Search Engine, Protégé … – Tìm hiểu về nghành xuất bản, xuất bản Trực tuyến. Đề xuấtquy trình xuất bản Trực tuyến với Semantic Web. 4. Phương pháp nghiên cứu và điều tra – Thu thập, khám phá, nghiên cứu và phân tích những tài liệu và thông tin có liênquan đến luận văn. – Tìm hiểu về Semantic Web : Khái niệm, kiến trúc, ứng dụngđiển hình, XML, Ontology, RDF … và ngôn từ để kiến thiết xây dựng ứngdụng Semantic Web. – Tìm hiểu về tiến trình để thiết kế xây dựng một ứng dụng với Webngữ nghĩa. – Tìm hiểu về nghành nghề dịch vụ xuất bản, tiến trình xuất bản, quy trìnhxuất bản trực tuyến. – Triển khai kiến thiết xây dựng tiến trình xuất bản trực tuyến với Webngữ nghĩa. – Đưa ra nhận xét và nhìn nhận hiệu quả. 5. Ý nghĩa khoa học và thực tiễnÝ nghĩa khoa học : – Tìm hiểu và trình diễn được những kiến thức và kỹ năng về Semantic Web. – Tìm hiểu và trình diễn được những kỹ năng và kiến thức về xuất bản trực tuyến. – Đề xuất được giải pháp, giải pháp để xử lý bài toán : kiến thiết xây dựng quá trình xuất bản trực tuyến. Ý nghĩa thực tiễn : – Ứng dụng Semantic Web để kiến thiết xây dựng môt quá trình xuất bảntrực tuyến, mà đơn cử là : Ontology sách điện tử và môđun tìm kiếmthông tin về những loại sách có trong tài liệu – Đưa ra một quy mô và công cụ hiệu suất cao với quá trình xuấtbản trực tuyến. 6. Cấu trúc của luận vănLuận văn được chia thành 3 chương, đơn cử như sau : Chương 1 : Tổng quan về Web ngữ nghĩa : Giới thiệu những vấnđề tổng quan tổng quan nhất về Web ngữ nghĩa, kiến trúc của Webngữ nghĩa, ontology là phần quan trọng nhất Web ngữ nghĩa và cácứng dụng của Web ngữ nghĩa. Chương 2 : Kiến trúc mạng lưới hệ thống Xuất bản trực tuyến với Web ngữnghĩa : Giới thiệu những yếu tố tổng quan về xuất bản trực tuyến và đềxuất kiến trúc của mạng lưới hệ thống xuất bản trực tuyến với Web ngữ nghĩa. Chương 3 : Triển khai thiết kế xây dựng Hệ thống xuất bản trực tuyếncho Nhà xuất bản tin tức và Truyền thông : Giới thiệu những vấnđề cơ bản để kiến thiết xây dựng mạng lưới hệ thống xuất bản trực tuyến với web ngữnghĩa như : kiến thiết xây dựng ontology cho tài nguyên sách, CSDL, mô hìnhUse-Case, thiết kế xây dựng môđun tìm kiếm sách điện tử và phong cách thiết kế cácmàn hình trong mạng lưới hệ thống. Chương 1. TỔNG QUAN VỀ WEB NGỮ NGHĨA1. 1. Giới thiệu về Web ngữ nghĩa1. 1.1. World Wide Web và những hạn chế của nóWeb tiềm ẩn một lượng tài liệu khổng lồ đã được số hóa. Mạng toàn thế giới này thực sự là một công cụ có giá trị so với việc tìmkiếm và thông dụng sáng tạo độc đáo cũng như kiến thức và kỹ năng. Tháng 8-2005, Googletuyên bố đã ghi nhận được 8,2 tỷ website và 2,1 tỷ hình ảnh. Nhữngcon số đầy ấn tượng. Nhưng đó mới chỉ là phần nổi của tảng băng. Có một thực tiễn là thông tin trên mạng này vẫn chưa được sửdụng một cách trực tiếp và có hiệu suất cao. Những website được thiếtkế dành cho con người chứ không phải cho máy tính, vì thế, ý nghĩacủa nội dung tiềm ẩn trong những website phải được tiếp đón bởinhững người xem chúng, đọc những tài liệu HTML và nhìn thấy tên củacác đường dẫn siêu link. 1.1.2. Sự sinh ra của Web ngữ nghĩa1. 1.2.1. Khái niệmTim Berners-Lee ( Người ý tưởng ra Web ) : “ Bước tiên phong làđặt tài liệu trên Web theo một định dạng mà máy tính hoàn toàn có thể hiểuđược, hoặc chuyển thành định dạng mà máy tính hoàn toàn có thể hiểu được. Điều này tạo ra một loại Web gọi là Web ngữ nghĩa – là một Web dữliệu mà hoàn toàn có thể được giải quyết và xử lý được trực tiếp hoặc gián tiếp bằng máy tính ”. 1.1.2. 2. Web ngữ nghĩa hoàn toàn có thể mang lại những gì ? 1.1.3. Hoạt động của W3G về Web ngữ nghĩa1. 2. Giới thiệu sơ lược về Ontology1. 2.1. Định nghĩa OntologyOntology phân phối một bộ từ vựng chung dùng để diễn đạt mộtlĩnh vực nghĩa là một loại đối tượng người dùng hay khái niệm hiện hữu, cùngvới những thuộc tính và quan hệ giữa chúng và lời đặc tả cho nghĩa củanhững từ trong bộ từ vựng. Các thành phần của Ontology :  Các thành viên ( Individuals ) : Các thành viên là những thành phần cơbản, nền tảng của một Ontology.  Các lớp ( Classes ) : những lớp là những nhóm, tập hợp những đốitượng trừu tượng. Chúng hoàn toàn có thể chứa những thành viên, những lớpkhác, hay là sự phối hợp của cả hai.  Các thuộc tính ( Properties ) : Các đối tượng người dùng trong Ontologycó thể được miêu tả trải qua việc khai báo những thuộc tínhcủa chúng. Mỗi một thuộc tính đều có tên và giá trị củathuộc tính đó. Các thuộc tính được sử dụng để tàng trữ cácthông tin mà đối tượng người dùng hoàn toàn có thể có.  Các mối quan hệ ( Relation ) : Một mối quan hệ là một thuộctính có giá trị là một đối tượng người dùng nào đó trong Ontology. 1.2.2. Vai trò của OntologyDanh sách dưới đây sẽ nghiên cứu và phân tích vai trò của Ontology trong ngữcảnh ứng dụng Web có ngữ nghĩa.  Chia sẻ sự hiểu biết chung giữa những ứng dụng và con người.  Cho phép sử dụng lại tri thức.  Đưa ra những giả thiết rõ ràng về miền.  Phân tách tri thức nghành nghề dịch vụ với tri thức thao tác.  Phân tích tri thức nghành. Phân tích hình thức của những kháiniệm, thiết yếu cho việc tái sử dụng và lan rộng ra Ontology. 1.2.3. Ontology và Web Ngữ nghĩaCác Ontology đóng vai trò then chốt trong việc phân phối ngữnghĩa mà máy hoàn toàn có thể hiểu được cho những tài nguyên của Web ngữnghĩa. Nó phân phối một bộ từ vựng chung gồm có những khái niệm, cácthuộc tính quan trọng và những định nghĩa về những khái niệm và những thuộctính này. Ngoài bộ từ vựng, Ontology còn phân phối những ràng buộc, đôikhi những ràng buộc này được coi như những giả định cơ sở về ý nghĩamong muốn của bộ từ vựng, nó được sử dụng trong một miền mà cóthể được tiếp xúc giữa người và những mạng lưới hệ thống ứng dụng phân tán khác. Đặc biệt, những Ontology hoàn toàn có thể được sử dụng để đặc tả ý nghĩa củacác tài nguyên Web ( trải qua những chú thích ) bằng cách xác nhận cáctài nguyên như những trường hợp đơn cử của một số ít khái niệm quan trọngvà hay hoặc khẳng định chắc chắn những tài nguyên có quan hệ với những tài nguyênkhác trải qua một số ít thuộc tính quan trọng đã định nghĩa trong cácOntology. Từ vựng trong một Ontology hoàn toàn có thể được màn biểu diễn bằng cáckhái niệm và những quan hệ được đặt tên và những định nghĩa khái niệm cóthể được trình diễn bằng những trình làng tương tự. 1.2.4. Các ngôn từ và công cụ tương hỗ kiến thiết xây dựng Ontology1. 2.4.1. RDF ( Resource Description Framework ) 1.2.4. 2. RDFS ( RDF-Schema ) 1.2.4. 3. Ngôn ngữ Web Ontology1. 2.4.4. ProtégéProtégé là bộ ứng dụng mã nguồn mở Java nổi tiếng. Protégéđược nghiên cứu và điều tra và tăng trưởng từ năm 1998 bởi nhóm điều tra và nghiên cứu củaMark Musen, ĐH. Stanford nhằm mục đích quản trị những thông tin trong lĩnhvực sinh y học. Đây là dự án Bất Động Sản được nhận được sự chăm sóc và tàitrợ từ rất nhiều tổ chức triển khai, trong đó có Bộ Quốc Phòng Mỹ. Protégé có hai phiên bản OWL và API. Phiên bản Protégé – APIcó nền tảng từ OKBC ( Open Knowledge Base Connectivity ). OKBClà một ứng dụng lập trình tiếp xúc triển khai truy xuất tài liệu thôngminh. Phiên bản Protégé-OWL được tăng trưởng dựa trên hai yêu cầuchính. Đầu tiên là nhu yếu định nghĩa những đối tượng người tiêu dùng và quan hệ tồntại giữa chúng. Sau đó là nhu yếu kiến thiết xây dựng những đặc thù kỹ thuậtphục vụ ý tưởng sáng tạo san sẻ thông tin. Các đối tượng người tiêu dùng thiết kế xây dựng chính của Protégé là :  Classes – Tổ chức những quan hệ tham chiếu và những kiểu thực thi  Axioms – Mô hình câu lệnh đúng  Instances – Các biểu lộ, những thành phần của đối tượng người dùng  Domain – Giới hạn của ontology  Vocabulary – Các lớp và khai báo1. 3. Kiến trúc của web ngữ nghĩa1. 3.1. Mô hình kiến trúc của Web ngữ nghĩaHình 1.4. Kiến trúc Web ngữ nghĩa1. 3.2. Các lớp trong quy mô kiến trúc của Web ngữ nghĩa1. 3.2.1. Lớp Unicode và URI1. 3.2.2. Lớp XML + NS + xmlschema1. 3.2.3. Lớp dữ liệu RDF + RDFSchema1. 3.2.4. Ontology Vocabulary1. 3.2.5. Lớp Logic1. 3.2.6. Lớp Proof và lớp Trust1. 3.2.7. Lớp Digital signatures1. 4. RDF – Nền tảng của Web ngữ nghĩa1. 4.1. Giới thiệu về RDFRDF là một thành phần quan trọng của Semantic Web, được đặttrên XML, RDF sử dụng cú pháp của XML để màn biểu diễn thông tin ( RDF / XML ). Thông qua định dạng này, những thông tin trong RDF cóthể được trao đổi thuận tiện giữa những mạng lưới hệ thống máy tính cũng như những hệđiều hành hay những ngôn từ lập trình ứng dụng khác nhau. 1.4.2. Các khái niệm cơ bản của RDF1. 4.2.1. Namespace và cách khai báo101. 4.2.2. QName và cách sử dụng1. 4.2.3. Mô hình RDFMô hình cơ bản của RDF gồm ba đối tượng người dùng sau : Tài nguyên ( Resources ) : Là tổng thể những gì được miêu tả bằng biểuthức RDF.Thuộc tính ( Properties ) : Thuộc tính, đặc tính, hoặc quan hệ dùngđể miêu tả đặc thù của tài nguyên. Phát biểu ( Statements ) : Mỗi phát biểu gồm ba thành phần sau :  Subject ( Tài nguyên ) : Địa chỉ hay vị trí tài nguyên muốn miêu tả  Predicate ( Vị ngữ ) : Xác định đặc thù của tài nguyên.  Object ( Bổ ngữ ) : Có thể là một giá trị nguyên thủy hoặc cũngcó thể là một tài nguyênMỗi một phát biểu ( subject, predicate, object ) còn gọi là một bộba ( triple ). Ví dụ : Xét phát biểu : “ Sỹ có anh là Minh ” Phát biểu trên được phân ra thành những phần sau : Subject ( Sỹ ), Predicate hasBrother ( có anh ) và Object ( Minh ) Một tập hợp những RDF Triple được gọi là một đồ thị : Hình 1.5. Mối quan hệ giữa những thành phần trong triplePhát biểu trên được quy mô hóa bằng đồ thị có hướng sau : 1.4.3. Ngôn ngữ XML1. 4.4. Cấu trúc RDF / XMLPredicateSubject Objecthttp : / / localhost : 8080 / owls.owl # Sỹhttp : / / localhost : 8080 / owls.owl # Minhhttp : / / localhost : 8080 / owls.owl # hasBrother111. 4.4.1. Cú pháp RDF / XML cơ bản1. 4.4.2. RDF Container1. 4.5. RDF Collection1. 4.6. RDF Schema1. 4.6.1. Giới thiệu về RDF Schema1. 4.6.2. Định nghĩa class ( lớp ) 1.4.6. 3. Định nghĩa property ( thuộc tính ) 1.4.7. Truy vấn tài liệu trong Semantic Web1. 5. Các ứng dụng của Web ngữ nghĩa1. 5.1. Các nghành ứng dụng1. 5.1.1. Semantic Search EnginesVấn đề lúc bấy giờ là đa phần những Search Engines hiện có đều thuộcloại Keyword Search Engine. Cơ chế của chúng là định kì duyệt Webđể phát hiện ra những sự biến hóa, rồi lập chỉ mục những thay đổinày. Người sử dụng hoàn toàn có thể tạo những câu truy vấn gồm những từ khóa trêncác chỉ mục đó để nhận về tác dụng mong ước. Tuy nhiên, phươngpháp này gặp hai yếu tố chính sau đây :  Một từ khóa hoàn toàn có thể có một hay nhiều ý nghĩa tùy theo từngngữ cảnh và Search Engine không bộc lộ mối quan hệ giữacác từ khóa với nhau.  Các trang Web có cùng ý nghĩa với câu truy vấn của người sửdụng sẽ không sống sót trong tác dụng trả về. Nếu Search Engine được tích hợp tri thức để hiểu được ý nghĩacủa những từ, thì rất hoàn toàn có thể nó cho ta hiệu quả đúng mực hơn, lúc đó việctìm kiếm sẽ dựa trên khái niệm ( concept ) chứ không phải theo từkhóa ( keyword ). 1.5.1. 2. Khung thao tác để quản trị tri thức1. 5.2. Semantic Search Engine1. 5.2.1. Giới thiệu về Semantic Search Engine12Search Engine luôn là một ứng dụng rất quan trọng. Thực tếcho thấy có rất nhiều Search Engines đã và đang được thiết kế xây dựng vàchúng đang đóng những vai trò quan trọng như những Internet SearchEngines Google, AOL, Yahoo, Altavista, MSN, … và vô số cácIntranet Search Engines ở những trường học, công ty, tổ chức triển khai, … Ngoàira, còn có những Search Engines khác được tích hợp trong cácphần mềm. Semantic Search Engine là máy tìm kiếm dựa vào ngữ nghĩatrên quan điểm của Semantic Web, miêu tả những ưu điểm củaSemantic Search Engine. Semantic Search Engine đã khắc phụcnhững khuyết điểm của những Search Engine truyền thống cuội nguồn ( KeywordSearch Engine ). 1.5.2. 2. So sánh giữa Search Engine truyền thống lịch sử và SemanticSearch EngineSearch Engine truyền thống cuội nguồn : Không thể tìm ra những tài nguyênthích hợp một cách hiệu suất cao vì :  Những tài liệu người dùng muốn tìm hoàn toàn có thể sử dụng nhữngthuật ngữ khác.  Những lỗi chính tả và những biến thể của từ ngữ được xem lànhững thuật ngữ khác nhau so với thiên nhiên và môi trường máy tính.  Search Engine không hề giải quyết và xử lý những trang HTML một cáchthông minh. Sematic Search Engine :  Một viễn cảnh về nghành nghề dịch vụ tri thức ( knowledge domain ) tốt hơn.  Cho phép tìm kiếm thông tin dựa trên nội dung tài liệu.  tin tức tìm kiếm được trả về đúng mực và tương thích ( tìm ranhững tài liệu mà ta không hề tìm thấy nếu dùng những SearchEninge truyền thống lịch sử ). 13C hương 2. KIẾN TRÚC CỦA HỆ THỐNGXUẤT BẢN TRỰC TUYẾN VỚI WEB NGỮ NGHĨA2. 1. Giới thiệu về mạng lưới hệ thống xuất bản trực tuyến2. 1.1. Khái niệm, Ưu và Nhược điểm của Hệ thống Xuất bản Trực tuyến2. 1.1.1. Khái niệmTheo từ điển tiếng Việt Wikipedia định nghĩa : “ Xuất bản trựctuyến là hình thức phân phối những ẩn phẩm kỹ thuật số thông quamạng Internet. Xuất bản trực tuyến gắn liền với xuất bản điện tử ”. 2.1.1. 2. Ưu điểm của Hệ thống Xuất bản Trực tuyếnNhững ưu điểm của mạng lưới hệ thống xuất bản trực tuyến :  Tiết kiệm ngân sách  Phổ biến tác phẩm với khoanh vùng phạm vi rộng  Xuất bản trực tuyến sinh động hơn  Thời gian cung ứng nhanh hơn  Marketing thuận tiện  Thanh toán nhanh hơn  Không có hàng tồn và truy vấn trực tiếp đến doanh thu bán hàng  Chỉnh sửa dễ dàng2. 1.1.3. Nhược điểm của Hệ thống Xuất bản Trực tuyếnCác điểm yếu kém của mạng lưới hệ thống xuất bản trực tuyến :  Dễ vi phạm bản quyền  Chế tài cho xuất bản điện tử chưa rõ ràng  An toàn tài liệu và bảo mật thông tin thông tin  Giải quyết tranh chấp  Thanh toán điện tử gặp nhiều trở ngại2. 1.2. Cơ sở pháp lý so với Xuất bản Trực tuyến2. 1.3. Các hình thức xuất bản hiện nay2. 1.3.1. Xuất bản dưới dạng in2. 1.3.2. Xuất bản dưới dạng công nghệ tiên tiến số142. 1.4. Nhu cầu thiết kế xây dựng Hệ thống Xuất bản Trực tuyến2. 1.4.1. Thị trường nội dung Internet2. 1.4.2. Thị trường nội dung di động2. 1.4.3. Phát triển nội dung số tại Việt nam2. 1.4.4. Thị trường nội dung số trong tương lai2. 2. Xuất bản trực tuyến với Web ngữ nghĩa2. 2.1. Quy trình tổng quát thiết kế xây dựng ứng dụng với Web ngữ nghĩa2. 2.1.1. Xây dựng OntologyQuy trình tăng trưởng Ontology là một tiến trình gồm nhiều bước, tuy nhiên vẫn chưa có một chiêu thức chuẩn hóa nào để phát triểncác Ontology. Quy trình tăng trưởng gồm 7 bước do Stanford Centerfor Biomedical Informatics Research đưa ra ( Đây là nhóm phát triểnphần mềm Protégé để trình diễn và xoạn thảo Ontology ) :  Bước 1 : Xác định nghành và khoanh vùng phạm vi của Ontology  Bước 2 : Xem xét việc sử dụng lại những Ontology có sẵn  Bước 3 : Liệt kê những thuật ngữ quan trọng  Bước 4 : Xác định những lớp và phân cấp của những lớp  Bước 5 : Xác định những thuộc tính  Bước 6 : Xác định số lượng giới hạn của những thuộc tính, kiểu giá trị  Bước 7 : Tạo những biểu lộ / thực thể2. 2.1.2. Tạo ngữ nghĩa với RDF2. 2.1.3. Phân loại những Ontology đã có theo lĩnh vực2. 2.1.4. Xây dựng Siêu dữ liệu2. 2.1.5. Truy vấn dữ liệu2. 2.2. Kiến trúc của mạng lưới hệ thống xuất bản trực tuyến với web ngữ nghĩa2. 2.2.1. Giới thiệuKiến trúc của mạng lưới hệ thống xuất bản trực tuyến với Web ngữ nghĩa làsự tích hợp hài hòa thống nhất giữa quá trình xuất bản trực tuyến và quytrình thiết kế xây dựng ứng dụng với Web ngữ nghĩa. Từ sự tích hợp đó hìnhthành một tiến trình rõ ràng và đồng thời xác lập nhu yếu như : Cácbước triển khai, phương tiện đi lại, công cụ cho quy trình kiến thiết xây dựng ứng dụng. 152.2.2.2. Xây dựng quy mô tổng quátHình 2.4. Mô hình tổng quát của mạng lưới hệ thống xuất bản trực tuyến với webngữ nghĩa16Xây dựng sách điện tử ( E-Book ) : Công đoạn tiên phong của việcxây dựng mạng lưới hệ thống xuất bản trực tuyến với Web ngữ nghĩa là xâydựng CSDL dưới dạng sách điện tử ( E-Book ). Việc thiết kế xây dựng khosách điện tử cho mạng lưới hệ thống được triển khai từ ba nguồn tài liệu chính :  Kho sách hiện có : Kho sách hiện có của NXB TTTT  Liên kết với những NXB : Liên kết với những NXB khác  Xuất bản một cuốn sách mới : Chu trình sinh ra của một cuốnsách điện tử mới cũng giống như quy trình sinh ra của mộtcuốn sách truyền thống lịch sử : Đăng ký nội dung bản thảo, biêntập chế bản, ĐK mã số xuất bản, ra quyết định xuất bảnvà tạo thành một cuốn sách điện tử. Tạo ứng dụng với Web ngữ nghĩa : Việc thiết kế xây dựng siêu dữ liệulà sự tích hợp từ việc thiết kế xây dựng ontology cho tài nguyên “ sách ” và cácthông tin về sách điện tử được chứa trong CSDL của mạng lưới hệ thống. Saukhi tạo dựng Ontology cho tài nguyên sách tất cả chúng ta thực thi tạongữ nghĩa cho tài nguyên này và tích hợp với sách điện tử để tạothành file được tàng trữ dưới dạng RDF / XML.Tạo những ứng dụng : Sau khi có được siêu dữ liệu tất cả chúng ta tiếnhành kiến thiết xây dựng những ứng dụng tương ứng với từng tính năng của hệthống xuất bản trực tuyến với web ngữ nghĩa. 2.3. Các nhu yếu để thiết kế xây dựng ứng dụng2. 3.1. Các nhu yếu tàng trữ dữ liệu2. 3.2. Các nhu yếu về công cụ2. 3.3. Các nhu yếu về chức năng2. 3.3.1. Chức năng ĐK xuất bản trực tuyến2. 3.3.2. Chức năng update tài nguyên2. 3.3.3. Chức năng tìm kiếm2. 3.3.4. Chức năng xem cụ thể thông tin2. 3.3.6. Chức năng thống kê số liệu2. 3.4. Các nhu yếu về phi chức năng17Chương 3. TRIỂN KHAI XÂY DỰNGHỆ THỐNG XUẤT BẢN TRỰC TUYẾN CHONHÀ XUẤT BẢN THÔNG TIN VÀ TRUYỀN THÔNG3. 1. Giới thiệu Nhà xuất bản tin tức và Truyền thôngNhà xuất bản tin tức và Truyền thông ( ICPublisher ), tiềnthân là Nhà xuất bản Bưu điện, được xây dựng ngày 12/8/1997 theoQuyết định số 463 / QĐ-TCCB của Tổng cục trưởng Tổng cục Bưuđiện sau này là Bộ Bưu chính viễn thôngNăm 2008, cùng với sự sinh ra của Bộ tin tức và Truyềnthông, nhằm mục đích cung ứng trách nhiệm chính trị và chứng minh và khẳng định định hướngphát triển của đơn vị chức năng Nhà xuất bản Bưu điện được đổi tên thànhNhà xuất bản tin tức và Truyền thông theo Quyết định số1882 / QĐ-BTTTT ngày 17/12/2008 của Bộ trưởng Bộ tin tức vàTruyền thông. Nhà xuất bản tin tức và Truyền thông là đơn vị chức năng sự nghiệptrực thuộc Bộ tin tức và Truyền thông. Ngay từ khi được thànhlập NXB đã khuynh hướng Giao hàng những đối tượng người tiêu dùng bạn đọc sử dụng cáctri thức khoa học, công nghệ tiên tiến, kỹ thuật, nhiệm vụ, kinh tế tài chính và phápluật về những nghành nghề dịch vụ : tin tức đối ngoại, Điện tử, Viễn thông, Côngnghệ thông tin, Báo chí, xuất bản, Phát thanh, truyền hình, Bưuchính, Văn hóa – Xã hội, Văn học nghệ thuật và thẩm mỹ, Kinh tế – Quản trị Kinhdoanh, Ngoại ngữ, Từ điển. 3.2. Xây dựng Ontology cho Tài nguyên Sách điện tử3. 2.1. Quy trình tăng trưởng Ontology cho tài nguyên sách điện tửOntology cho tài nguyên sách điện tử là một quy mô dữ liệubiểu diễn nghành xuất bản trực tuyến, được sử dụng để suy luận vềcác đối tượng người tiêu dùng trong nghành nghề dịch vụ xuất bản trực tuyến và mối quan hệ giữachúng. Quy trình tăng trưởng Ontology gồm có 7 bước ( StanfordCenter for Biomedical Informatics Research yêu cầu ). 18O ntology cho tài nguyên sách điện tử được kiến thiết xây dựng dựa trên haithành phần cơ bản :  Chuẩn Dublin Core : Là chuẩn dùng để diễn đạt tài liệu trongcác Metadata nhằm mục đích khai thác những tài liệu trong thư viện vàtrên những Website trải qua mạng Internet. Chuẩn DublinCore gồm có 15 yếu tố được thiết lập từ những cuộc hội thảomang tầm cỡ quốc tế và mang ý nghĩa tích hợp của những ngànhkhoa học : Thư viện, tin học, kho lưu trữ bảo tàng, mã hoá văn bản và cáclĩnh vực khác có tương quan. 15 yếu tố cảu chuẩn Dublin Coređược liệt kê đơn cử như sau : Nhan đề ( Title ), tác giả ( Creator ), đề mục ( Subject ), diễn đạt ( Description ), xuất bản ( Publisher ), tác giả phụ ( Contributor ), ngày tháng ( Date ), mô hình ( Type ), miêu tả vật lý ( Format ), định danh tư liệu ( Identifier ), nguồn gốc ( Source ), ngôn từ ( Language ), liênkết ( Relation ), nơi chứa ( Coverage ), bản quyền ( Rights )  Được dùng trong nghành nghề dịch vụ xuất bản : Nên những thuật ngữ phảilà những thuật ngữ được dùng trong nghành nghề dịch vụ xuất bản. Các thuật ngữ quan trọng trong Ontology được xác lập cụ thểnhư sau : Sách điện tử, nhan đề, tác giả, đề mục, miêu tả, NXB, tác giảphụ, thời hạn, mô hình, diễn đạt vật lý, định danh tư liệu, nguồn gốc, ngôn từ, link, nơi chứa, bản quyền, bản thảo, thông tin đối ngoại, Điện tử – Viễn thông, Công nghệ thông tin, Báo chí – Xuất bản, Phátthanh – Truyền hình, Bưu chính, Văn hóa – Xã hội, Văn học nghệ thuật và thẩm mỹ, Kinh tế – Quản trị Kinh doanh, Ngoại ngữ, Từ điển, Họ, Tên, Ngàysinh, Giới tính, Nghề nghiệp, Địa chỉ, Điện thoại, được chứa trong, được xuất bản bởi, có tác giả là … Ngôn ngữ ontology chia thuộc tính ra thành hai loại khác nhaulà thuộc tính quan hệ và thuộc tính tài liệu, được xác lập cụ thểnhư sau : 19  Thuộc tính quan hệ : Có thông tin, có tác giả, có nhà xuấtbản, thuộc kho sách, thuộc nhà xuất bản, thuộc hạng mục  Thuộc tính tài liệu : Có tên sách, có nội dung, thuộc nghành, có nội dung trích yếu, có lời trình làng, có lời nói đầu, cómục lục, có khổ sách, có số trang, có giá sách, có mã sốISBN, có số ĐKQĐXB, có số QĐXB, có mã số ĐK bảnquyền, có tên nhà xuất bản, có thời hạn gửi bản thảo, cóthời gian nộp lưu chiểu, thuộc ngôn từ, có nguồn gốc xuấtxứ, có số CMND, có Họ và tên, có ngày sinh, có quê quán, có giới tính, có nghề nghiệp, có địa chỉ, có điện thoại cảm ứng, có họchàm, có học vị, có email. 3.2.2. Mô tả Ontology sách điện tửHình 3.1. Ontology diễn đạt những tài nguyên sách điện tử203. 2.3. Sử dụng Protégé phong cách thiết kế ontologyOntology cho tài nguyên “ Sách điện tử ” được phong cách thiết kế trên bộcông cụ Protégé 3.4.8 ( Có API tương hỗ cho việc thiết kế xây dựng công cụ làmgiàu sau này ) được triển khai qua những bước đơn cử như sau :  Bước 1 : Tạo Ontology “ Sách điện tử ”  Bước 2 : Tạo những lớp và những ràng buộc  Bước 3 : Tạo những thuộc tính và những quan hệ  Bước 4 : Tạo những thành viên  Bước 5 : Cấu trúc cây phân cấp của Ontology “ Sách điện tử ” Hình 3.7. Mô hình phân cấp lớp của Ontology “ Sách điện tử ” 213.3. Mô hình Ca sử dụng ( Use – Case ) 3.3.1. Danh sách những tác nhân ( Actor ) 3.3.2. Danh sách những ca sử dụng3. 3.3. Lược đồ chính của quy mô ca sử dụng3. 4. Cơ sở tài liệu cho hệ thống3. 4.1. Mô hình CSDL trong SQL severHình 3.9. Mô hình CSDL của hệ thống3. 4.2. Danh sách những bảng dữ liệu3. 4.3. Chi tiết thông tin những bảng dữ liệu223. 5. Ứng dụng tìm kiếm theo ngữ nghĩa của hệ thống3. 5.1. Mô hình tìm kiếm theo ngữ nghĩa của hệ thốngMô hình tìm kiếm theo ngữ nghĩa cho tài nguyên sách điện tửtrong môđun tìm kiếm của mạng lưới hệ thống xuất bản trực tuyến ( hình 3.10 ) : Hình 3.10. Mô hình tìm kiếm theo ngữ nghĩa của hệ thốngWeb Browser : Đóng vai trò tiếp xúc với người dùng. CSDL cho của mạng lưới hệ thống : CSDL sau khi được tổng hợp từ hệthống sẽ được ánh xạ vào Ontology. Môđun tìm kiếm : Đây là tính năng tìm kiếm của chương trìnhcủa chương trình thực thi những thao tác sau :  Tổ chức tàng trữ Ontology, theo những quan hệ, thuộc tính củaOntology để hiển thị những thông tin theo dạng phân cấp.  Thực hiện truy vấn nhu yếu của người dùng trên Ontologyvà trả về tác dụng cho Web Browser khu vực theo yêu cầucủa người dùng. 3.5.2. Xây dựng ứng dụng tìm kiếm theo ngữ nghĩa cho hệ thống3. 5.2.1. Ánh xạ CSDL của mạng lưới hệ thống vào Ontology cho tài nguyên “ Sách điện tử ” Một tài nguyên Sách điện tử sau khi được hoàn thành xong nội dunghệ thống sẽ tổng hợp và rút trích những thông tin thiết yếu trong CSDLvà ánh xạ vào những individual ( thành viên ) trong Ontology của tài nguyên23 “ Sách điện tử ”. Các thông tin thiết yếu cần được rút trích là những thuộctính tài liệu : Danh mục, nghành, nội dung tóm tắt, giá sách, bảnquyền, mã số sách, lời nói đầu, lời trình làng, mục lục, số trang, khổsách, mã vạch, ISBN, nhà xuất bản, thời hạn nhận bản thảo, nộp lưuchiểu, ngôn từ, bản thảo, nguồn gốc, biên soạn, biên dịch, họ vàtên, ngày sinh, CMND, quê quán, giới tính, nghề nghiệp, địa chỉ, điệnthoại, học hàm, học vị, E-Mail, tác giả, tác giả phụ. Quá trình nhập individual ( thành viên ) vào Ontology được thực hiệntrên công cụ Protégé. 3.5.2. 2. Truy xuất tài liệu ontology sang giao diện webQuá trình truy xuất tài liệu Ontology sang giao diện web là quátrình điền đầy những quan hệ của ứng dụng và tạo cho ứng dụng cóthông tin hai chiều. Quá trình này được triển khai theo thuật toán : Thuật toán : Bước 1 : Mở tệp tin chứa ontologyBước 2 : Đọc tổng thể những Properties có khai báo SymmetricProperty hoặc đưa vào list so sánh. Bước 3 : Duyệt qua toàn bộ những đỉnh của OntologyNếu một đỉnh có chứa quan hệ cần điền đầy theodanh sách so sánh ở trên ( Bước 2 ) Điền thông tin quan hệ, ngược lạiQuay lại xét cho đỉnh vừa điền như Bước 2N gược lại bỏ lỡ bước nàyBước 4 : Đóng truy vấn vào Ontology3. 5.2.3. Tìm kiếm cơ bảnChức năng của tìm kiếm cơ bản là dựa vào từ khóa chỉ tên sáchđiện tử hoặc một thông tin nào đó về sách điện tử. Các bước tìm kiếmcơ bản được thực thi theo thuật toán được diễn đạt đơn cử theo cácbước như sau : 24T huật toán : Bước 1 : Duyệt tìm tổng thể những tên sách tương quan đến từ khóa tênsách được nhu yếu truy vấn. Bước 2 : Nếu có tối thiểu 1 tên sách thỏa mãn nhu cầu ở Bước 1 thì thực thi : Đọc những Object Properties thỏa Bước 1. Bước 3 : Xác định những lớp có Properties nằm trong Bước 2 : Duyệt qua những individual ( Cá thể ) của lớp vừa xác lập. Kiểm tra những tính quan hệ giữa những những thể để đưa racác giá trị tương quan. Bước 4 : Hiển thị tác dụng. 3.5.2. 4. Tìm kiếm nâng caoNgoài tính năng của tìm kiếm cơ bản mạng lưới hệ thống còn tương hỗ chứcnăng tìm kiếm nâng cao. Các bước tìm kiếm nâng cao được thực hiệntheo thuật toán được miêu tả đơn cử theo những bước như sau : Thuật toán : Bước 1 : Đọc tổng thể những thông tin có tương quan với toàn bộ cácyêu cầu của tài liệu tìm kiếmBước 2 : Nếu tác dụng ở Bước 1 không rỗng, nghĩa là tối thiểu tìmđược một thông tin cần tìm. Đọc toàn bộ những thông tin có quan hệ với nhau trongdanh sách ở Bước 1 theo những quan hệ ở danh sáchvới nhu yếu tìm kiếm quan hệ ràng buộcBước 3 : Hiển thị hiệu quả tìm kiếm. 3.6. Thiết kế những màn hình hiển thị chính3. 6.1. Màn hình chính của hệ thống3. 6.2. Màn hình đăng ký3. 6.3. Màn hình ĐK nội dung xuất bản3. 6.4. Màn hình update nội dung xuất bản3. 6.5. Màn hình tìm kiếm một tài nguyên E-Book3. 6.6. Màn hình hiển thị hiệu quả tìm kiếm25KẾT LUẬNTrong toàn cảnh nhu yếu ứng dụng công nghệ thông tin tăng, Internet phổ cập trên toàn quốc tế, việc ứng dựng CNTT vào cáclĩnh vực trong đời sống mà đặc biệt quan trọng là nghành xuất bản là một nhucầu cấp thiết. Việc thiết kế xây dựng một mạng lưới hệ thống xuất bản trực tuyến đangngày càng trở nên mê hoặc. So với xuất bản trên giấy, trên đĩa, xuấtbản trực tuyến có ưu điểm rõ ràng về giảm thiểu ngân sách, vận tốc cậpnhật thông tin, thuận tiện tìm kiếm qua những công cụ tìm kiếm nhưyahoo, google, livesearch Bên cạnh đó người sử dụng không phảimất công giữ gìn những thông tin họ cần mà khi cần họ lập tức có thểtìm đến nhà xuất bản trực tuyến để lấy thông tin. Trong khuôn khổ luận án tốt nghiệp này, người triển khai đãtìm hiểu, điều tra và nghiên cứu trình diễn những khái niệm về Web ngữ nghĩa, sách điện tử, xuất bản trực tuyến và ứng dụng web ngữ nghĩa để xâydựng mạng lưới hệ thống xuất bản trực tuyến cũng đã thiết kế xây dựng thử nghiệmthành công mạng lưới hệ thống xuất bản trực tuyến rất mới này. Kết quả đạt được :  Tìm hiểu và trình diễn được những kiến thức và kỹ năng về Web ngữ nghĩa.  Tìm hiểu và trình diễn được những kỹ năng và kiến thức về xuất bản trực tuyến.  Tìm hiểu và trình diễn được những kiến thức và kỹ năng về “ Sách điện tử ”.  Xây dựng được kiến trúc của mạng lưới hệ thống xuất bản trực tuyếnvới Web ngữ nghĩa.  Xây dựng được Ontology cho nghành nghề dịch vụ xuất bản mà đơn cử làcho tài nguyên “ Sách điện tử ”.  Ứng dụng web ngữ nghĩa thiết kế xây dựng mạng lưới hệ thống xuất bản trựctuyến cho Nhà xuất bản tin tức và Truyền thông, mà cụthể là kiến thiết xây dựng môđun tìm kiếm cho mạng lưới hệ thống. Hạn chế :  Mặc dù đã có nhiều nỗ lực và nỗ lực điều tra và nghiên cứu trong thờigian được cho phép, nhưng Web ngữ nghĩa là một công nghệ26tương đối mới cạnh bên đó xuất bản trực tuyến cũng là mộtlĩnh vực trọn vẹn mới nên cũng không tránh khỏi nhữngthiếu sót.  Chưa tìm hiểu và khám phá sâu và điều tra và nghiên cứu được về yếu tố bảo mậttrong Web ngữ nghĩa để ứng dụng vào việc bảo mật thông tin tronghệ thống xuất bản trực tuyến.  Chưa kiến thiết xây dựng được những chủ trương quản trị về bản quyền, và thanh toán giao dịch điện tử cho mạng lưới hệ thống xuất bản trực tuyến gặpnhiều trở ngại.  Chưa thiết kế xây dựng triển khai xong và tối ưu hóa công dụng tìmkiếm, ĐK xuất bản và quản trị xuất bản trong hệ thốngxuất bản trực tuyến. Hướng tăng trưởng tiếp theo của đề tài :  Nghiên cứu sâu về chính sách bảo mật thông tin của công nghệ Web ngữnghĩa để ứng dụng vào việc bảo mật thông tin trong mạng lưới hệ thống xuất bảntrực tuyến.  Nghiên cứu sâu về nghành thương mại điện tử mà đặc biệtlà việc thanh toán giao dịch điện tử để triển khai xong tính năng phát hànhsách điện tử cho mạng lưới hệ thống xuất bản trực tuyến.  Nghiên cứu chiêu thức nhằm mục đích hoàn thành xong những chức năngtìm kiếm, ĐK xuất bản và quản trị xuất bản cho hệthống xuất bản trực tuyến.  Nghiên cứu chiêu thức để ánh xạ CSDL của mạng lưới hệ thống vàoOntology cho tài nguyên “ Sách điện tử ” được triển khai mộtcách tự động hóa. Việc điều tra và nghiên cứu đề tài đã giúp tôi nắm được xu thế mới trongviệc điều tra và nghiên cứu và tiến hành những ứng dụng thực tiển trên Web ngữnghĩa đang là một hướng điều tra và nghiên cứu mang đặc thù thời đại trong giaiđoạn lúc bấy giờ. Và từ đó vận dụng CNTT mà đơn cử là Web ngữ nghĩavào nghành xuất bản để kiến thiết xây dựng một mạng lưới hệ thống xuất bản trực tuyến .