Hữu ích

Các giai đoạn của cuộc đời
Chi tiêu có kế hoạch
Lạm phát lối sống
Tích luỹ tài sản
Làm giàu không khó
Để tiền vào đâu
Những cách đầu tư
Đừng sợ chữ đầu tư
So sánh công cụ tích luỹ dài hạn
Chuẩn bị vào đại học
Tiền thưởng cuối năm
Vài số liệu về quỹ hưu trí tự nguyện ở Mỹ

Câu chuyện

Bài học phổ thông
Những hòn đá
Sứ giả của Đấng Thiêng Liêng
Bắt đầu đầu tư
Ước mơ thành tỉ phú
Những quyết định tốt cho tuổi già
Nghỉ hưu trước 40 tuổi
Tránh mang nợ
Dùng thẻ tín dụng một cách khôn ngoan
Để tiền mua nhà hay đầu tư
6 điều giúp tôi bớt lo lắng về tiền bạc
Sinh Lão Bệnh Tử

Lập kế hoạch tài chính

Giới thiệu
Thu chi
Hưu trí
Kế hoạch
Bảo vệ nguồn thu nhập
Tăng thu nhập
Tính thời gian trả nợ
Tính số tiền trả góp
Tính thời gian tích luỹ
Tính số tiền góp dần

Đầu tư cổ phiếu

Đầu tư cổ phiếu
Quỹ đầu tư
Maxx - Phúc Lộc Thịnh Vượng
Sổ tiết kiệm hay Quỹ đầu tư?

Các loại bảo hiểm

Các loại bảo hiểm
Phí bảo hiểm nhân thọ
Bảo hiểm nhân thọ liên kết chung

Kinh nghiệm

Máy tính

GnuCash
Bắt đầu dùng GnuCash
Dùng GnuCash ghi chép các khoản tích luỹ lâu năm
Các phép tính tài chính cần biết
Tiện ích di động
Gói cước di động nội mạng
RaspberryPi
Trò chơi học làm giàu Cashflow
Tạo tài khoản Google
Phần mềm mã nguồn mở
Phần mềm tự do
Máy in phun
In sách nhỏ
Pin Lithium Ion
Fax từ Linux
Linux
Spam
Chặn những cuộc gọi tiếp thị
Nhiệt độ CPU
Home server cũ

Chữ Việt

Vị trí dấu thanh
Unicode
UTF-8
Web Việt

Linh tinh

Bếp
Tiêu thụ điện
Điện standby
Máy lạnh
Máy lạnh inverter
Nóng
Nhiệt độ một ngày
Tần số của TV
Ảnh
Hồng ngoại

Ý kiến

Bắt cá hai tay
Nguồn gốc sự giàu có
Đo độ giàu có
Xã hội thông tin
Dùng hàng Việt
Gần mực thì đen, gần đèn thì sáng
Thành ngữ về tiền
Tiền và Máu
Giả trá
Những cái nêm
Khác người
Đã lên báo

Giới thiệu

Trang bìa
Thông tin chung
Thành tích
Lịch hẹn

Danh mục

Download
Mục lục

Unicode
Subject: Vietnamese character in Unicode
From: Le Hong Boi
Date: Fri, 10 Dec 1999 14:34:12 +0700

Unicode

Unicode hay ISO 10646 là bộ chữ nhiều byte. Mỗi character chiếm 2 hoặc 4 byte. Hiện nay chỉ mới dùng bộ chữ 2 byte.
Bộ chữ 2 byte có thể chứa được 65536 ký tự. Unicode hiện chứa ký tự của hầu hết các ngôn ngữ trên thế giới (Anh, Pháp, Hoa, Nhật, Hàn, Thái, Lào, Hebrew, Arab, Hy lạp…) và các ký hiệu tiền, toán học, ký tự vẽ khung… Chữ Nôm trước kia của Việt nam cũng được đăng ký trong Unicode.
Trong bảng Unicode, mỗi vị trí mang một hình chữ (glyph) khác nhau. Mỗi hình chữ có thể dùng trong nhiều ngôn ngữ khác nhau, nhưng dù cho dùng trong một hay nhiều ngôn ngữ nó cũng chỉ được chiếm 1 vị trí trong bảng Unicode.

Chữ Việt

Chữ Việt hiện nay đã được đăng ký trong Unicode từ năm 1993. Chữ Việt trong Unicode không mang những vị trí liên tục nhau mà nằm rải ra 4 đoạn vì một số chữ cái Việt nam giống chữ các nước khác dùng và họ đã đăng ký chỗ trong Unicode trước.
Chữ Việt đăng ký trong Unicode theo 2 cách:

Chữ rời

Mỗi dấu thanh là một ký tự riêng. Nguyên âm mang dấu thanh được thể hiện bằng 1 ký tự nguyên âm và 1 ký tự dấu thanh. (Nên nhớ là trong Unicode mỗi ký tự gồm 2 byte).
Các nguyên âm gồm a, ă, â, e, ê, i, o, ô, ơ, u, ư, y.
Các dấu thanh gồm huyền, hỏi, ngã, sắc, nặng (theo thứ tự từ điển).
Khi sửa dòng chữ rời kiểu này, chúng ta có thể sửa/xoá riêng nguyên âm và dấu thanh.

Chữ dựng sẵn

Những nguyên âm mang dấu thanh sẽ chiếm 1 vị trí riêng trong bảng Unicode.
Khi sửa dòng chữ dựng sẵn kiểu này, chúng ta sửa/xoá nguyên âm và dấu thanh cùng lúc.
Font chữ ABC theo TCVN kiểu dựng sẵn.

Font

Trong một thời gian dài kể từ khi Việt nam đăng ký ISO 10646, không có font soạn cho chữ Việt Nam theo mã Unicode. Gần đây, hãng Monotype có soạn font true type theo Unicode và Microsoft mua font đó về đưa vào sản phẩm của họ và để trên Web site cho mọi người download.
Các font có thể download là các font thông dụng như Arial, Times New Roman, Courier New. Font Arial là font san serif, dùng cho các văn bản ngắn. Font Times New Roman là font serif, dùng cho các văn bản dài. Font Courier New là font fixed width.
Không phải file font nào theo Unicode cũng chứa hết tất cả ký tự đã đăng ký trên thế giới. Vì như vậy sẽ làm cho file font rất lớn. Các file font nói trên chỉ chứa các ký tự có gốc Latin, trong đó có Việt nam, một vài chữ Cyrillic, Hy lạp, Hebrew, Arab, ký hiệu tiền.

Ưu điểm của Unicode

File font không theo Unicode thì chỉ chứa hình chữ cho một ngôn ngữ (script) nào đó. Ví dụ: có file font Arial chứa glyph cho chữ Latin ở Tây Âu, lại có file font Arial nhưng chứa glyph cho các chữ Hy lạp, có file font Arial chứa chữ Cyrillic cho các nước Đông Âu, có file font Arial cho chữ Nhật. Ở cùng một vị trí trong các file font Arial đó, glyph lại khác nhau.
Nếu soạn một tài liệu mà không dùng Unicode, thì ta phải cho biết tài liệu đó dùng bộ chữ nào. Nếu dùng không đúng bộ chữ sẽ thấy những hình kỳ lạ. Ví dụ chép một file Word soạn bằng font Arial Tây Âu vào máy tính cài font Arial Đông Âu, mở file lên xem thì không ai đọc nổi mặc dù mọi chữ đều hiện ra.
Từ đó dẫn đến vấn đề đặt tên font riêng cho từng bộ chữ. Ví dụ .vnarial, .vntime, VNI-Times… Và một tài liệu có nhiều thứ chữ phải dùng nhiều font.
Nếu soạn file bằng Unicode thì sao?
Mỗi hình chữ trong Unicode có một vị trí riêng nên không có tình trạng cùng một ký tự có thể hiện ra theo những hình khác nhau. Dùng Unicode ta có thể soạn 1 văn bản chứa chữ thuộc nhiều ngôn ngữ khác nhau mà chỉ dùng 1 font (miễn là trong file font có hình chữ của ngôn ngữ đó). Nếu đem tài liệu Unicode đó sang máy khác mở lên xem thì sao? Điều kiện là máy khác cũng phải có font Unicode, nếu font Unicode không có đủ tất cả những chữ dùng trong tài liệu thì những chữ không có đó sẽ hiện thành hình chữ nhật rỗng, không thể lộn sang hình khác được.
Bây giờ chúng ta download các file font mới về và có thể soạn ra các tài liệu song ngữ Việt-Anh mà không cần phải đổi font giữa các dòng chữ nữa.