Tổng quan sản phẩm
"Kính Hỗ Trợ Người Khiếm Thị" là một giải pháp phần cứng-phần mềm nhằm hỗ trợ người khiếm thị trong di chuyển và tiếp cận thông tin. Sản phẩm tích hợp camera nhỏ, cảm biến khoảng cách, bộ xử lý biên (edge) nhỏ gọn, và một mô-đun TTS (Text-To-Speech) để cung cấp phản hồi bằng giọng nói theo thời gian thực.
Các tính năng chính gồm: phát hiện vật cản phía trước, nhận diện và trích xuất văn bản từ ảnh (OCR), đọc văn bản bằng giọng nói; đồng thời cung cấp giao diện đơn giản một nút cho thao tác tức thì.
- Độ phản hồi thấp: pipeline tối ưu cho xử lý tại thiết bị hoặc trên edge để giảm độ trễ.
- Khả năng mở rộng: cấu trúc cho phép đưa các mô hình ML tối ưu (TFLite/ONNX) hoặc tận dụng cloud fallback khi cần.
- Thiết kế tiếp cận: giao diện đơn giản, giọng nói rõ ràng, dễ tùy chỉnh âm lượng và ngôn ngữ.
Hình ảnh minh họa
Chức năng chi tiết
Phát hiện vật cản & Cảnh báo
Sử dụng cảm biến chiều sâu / siêu âm hoặc mô hình phát hiện vật thể tối giản trên camera để ước lượng khoảng cách và hướng. Hệ thống sẽ thông báo bằng rung hoặc âm thanh (TTS) với thông tin khoảng cách và hướng (ví dụ: "Chướng ngại vật 1.5 mét trước mặt").
Tùy chọn: cấu hình mức nhạy, tắt chế độ rung, chọn loại âm báo.
OCR + TTS (Đọc văn bản)
Quy trình: chụp ảnh → xử lý tiền xử lý (làm sạch, phóng to vùng chữ) → OCR (EasyOCR hoặc cloud) → xử lý ngôn ngữ (lọc, phân đoạn) → TTS phát âm. Hỗ trợ tiếng Việt và tiếng Anh, có thể mở rộng ngôn ngữ bằng mô hình TTS khác.
Có thể bổ sung tính năng: nhận diện biển báo, văn bản trên màn hình, QR code và mã vạch.
Phần cứng tham khảo
- Camera module nhỏ gọn: camera MIPI/USB có độ phân giải vừa phải để đảm bảo OCR và detection.
- Module xử lý edge: Raspberry Pi 4 / Compute Module, NVIDIA Jetson Nano / Xavier hoặc các MCU có khả năng chạy TFLite.
- Cảm biến khoảng cách: siêu âm, ToF hoặc lidar mini để đo khoảng cách theo thời gian thực.
- Giao tiếp & Pin: pin lithium nhỏ gọn, Bluetooth/Wi-Fi cho cập nhật và cấu hình; cổng sạc USB-C.
Phần mềm & Kiến trúc
Kiến trúc đề xuất chia thành hai lớp chính: edge (xử lý tại thiết bị) và backend (nếu cần). Mục tiêu là ưu tiên xử lý tại edge để giảm độ trễ và đảm bảo quyền riêng tư. Backend có thể dùng để huấn luyện mô hình, lưu nhật ký, hoặc cung cấp fallback OCR/ML nếu thiết bị không đủ tài nguyên.
Stack phía server / web
- ASP.NET MVC (hiện tại dự án sử dụng .NET Framework MVC)
- Entity Framework 6 hoặc Dapper cho truy cập DB
- SQL Server (hoặc SQLite cho bản nhúng)
- SignalR / WebSocket cho real-time control & status (tùy chọn)
Stack phía edge / thiết bị
- Python hoặc C++ cho pipeline xử lý ảnh (OpenCV)
- EasyOCR (Python) hoặc cloud OCR (Google/ Azure) khi cần độ chính xác cao
- TensorFlow Lite / ONNX Runtime cho mô hình phát hiện vật thể nhẹ (MobileNet/YOLO-tiny)
- TTS: eSpeak / PicoTTS / TTS cloud cho giọng tự nhiên
Lưu ý: lựa chọn cụ thể phụ thuộc yêu cầu về công suất, dung lượng pin, và chi phí. Ví dụ Jetson Nano phù hợp cho mô hình nặng hơn; Raspberry Pi phù hợp với mô hình nhẹ và TFLite.
Thư viện & Công cụ đã/đề xuất sử dụng
- OpenCV: xử lý ảnh, tiền xử lý cho OCR và detection.
- EasyOCR: engine OCR Python hiện được sử dụng trong dự án (chạy trên thiết bị/edge hoặc service Python), hỗ trợ nhiều ngôn ngữ, dễ cài đặt qua pip.
- TensorFlow Lite / ONNX Runtime: chạy mô hình ML nhẹ trên edge.
- Flask / FastAPI / gRPC: dịch vụ nhẹ cho phần mềm chạy trên thiết bị nếu dùng microservice.
- ASP.NET MVC + jQuery + Bootstrap: giao diện quản trị và cấu hình người dùng (dự án hiện tại).
- FFmpeg / ImageMagick: xử lý ảnh/khung hình khi cần.
Tiếp cận & Trải nghiệm người dùng
Trọng tâm của sản phẩm là làm sao người dùng khiếm thị có thể sử dụng dễ dàng, an toàn và rõ ràng. Thiết kế trải nghiệm cần chú ý:
- Giao diện đơn giản, hạn chế thao tác; ưu tiên phím cứng hoặc cử chỉ.
- Âm thanh phản hồi rõ ràng, có thể tùy chỉnh cường độ và tần suất.
- Chú trọng vào tính năng an toàn: cảnh báo va chạm rõ ràng và có độ chính xác chấp nhận được trước khi thông báo người dùng.
- Đảm bảo thao tác rảnh tay, hoạt động ổn định ở nhiều điều kiện ánh sáng.
Quyền riêng tư & Bảo mật
Vì thiết bị xử lý hình ảnh nhạy cảm (camera), cần thiết lập chính sách quyền riêng tư rõ ràng: dữ liệu hình ảnh nên được xử lý tại edge nếu có thể và chỉ gửi lên server khi cần (ví dụ để nâng cao dịch vụ hoặc huấn luyện). Mã hóa kênh truyền (HTTPS/TLS), xác thực thiết bị và người dùng, cùng với lưu trữ tối thiểu là những yêu cầu cơ bản.
Kiểm thử & Dữ liệu
Để đảm bảo độ tin cậy, cần có bộ kiểm thử thực nghiệm với người dùng thật và tập dữ liệu ảnh riêng cho nhiều điều kiện: ánh sáng yếu, góc chụp khác nhau, ký tự tiếng Việt/khác nhau, vật cản phổ biến. Thu thập dữ liệu thực tế (với sự đồng ý) và sử dụng augmentation giúp cải thiện hiệu năng mô hình.
- Dữ liệu thử nghiệm: ảnh đường phố, ảnh trong nhà, hình sách/tài liệu có nhiều font chữ.
- Các chỉ số đánh giá: recall/precision cho detection, WER (word error rate) cho OCR+TTS pipeline, thời gian phản hồi trung bình.
Lộ trình phát triển
- Prototype: phần cứng cơ bản + pipeline OCR & TTS đơn giản.
- Beta test với người dùng thực tế; thu thập phản hồi để tinh chỉnh UX và thuật toán.
- Tối ưu mô hình edge, giảm phát thải pin và cải thiện thời gian phản hồi.
- Hỗ trợ nâng cao: nhiều ngôn ngữ, phát hiện biển báo và định vị theo hướng.
- Sản phẩm thương mại: thiết kế vỏ, sản xuất, chứng nhận an toàn, hợp tác kênh phân phối.
Liên hệ & Hợp tác
Nếu bạn quan tâm hợp tác nghiên cứu, thử nghiệm thực địa, hoặc góp ý về UX/thuật toán, vui lòng liên hệ với nhóm phát triển qua trang quản trị hoặc email (placeholder). Chúng tôi hoan nghênh mọi đóng góp từ cộng đồng để hoàn thiện sản phẩm cho người khiếm thị.