TIN TỨC & SỰ KIỆN
Tin tức   Tin tức chung 11:34:46 Ngày 05/02/2021 GMT+7
Trích xuất thông tin từ dữ liệu y văn
Mặc dù là sinh viên năm ba luôn bận rộn với kế hoạch thực tập, học tập nhưng với niềm đam mê nghiên cứu khoa học, sinh viên Nguyễn Đức Thắng (Khoa Công nghệ Thông tin, Trường ĐH Công Nghệ) vẫn miệt mài triển khai đề tài “Nâng cao chất lượng liên kết thực thể sinh học bằng cách xếp hạng lại dựa trên mạng nơ-ron tích chập” do TS. Đặng Thanh Hải hướng dẫn, đạt giải Ba sinh viên nghiên cứu khoa học cấp ĐHQGHN.

Đam mê thuật toán ứng dụng thực tiễn trong lĩnh vực Y sinh học

Khi còn là một cậu học sinh cấp ba, Nguyễn Đức Thắng đã đạt giải Nhất môn Tin học cấp quốc gia, từ đó Đức Thắng đã có niềm đam mê tìm hiểu, khám phá và nghiên cứu các thuật toán. “Cho đến khi vào học tại Trường ĐH Công nghệ (ĐHQGHN), thuật toán không chỉ là niềm đam mê của bản thân mà em còn khát vọng lớn hơn muốn áp dụng những thuật toán đó vào cuộc sống hằng ngày. Ngay từ lúc đó, em đã quyết định tham gia vào Phòng thí nghiệm mục tiêu Tin sinh y học do TS. Đặng Thanh Hải làm Trưởng phòng. Bởi vì, em nhận thấy việc kết hợp Tin học vào lĩnh vực Y Sinh học vừa mới lạ, lại thú vị nên em đã muốn tìm hiểu thêm về lĩnh vực này” - sinh viên Nguyễn Đức Thắng chia sẻ. Và Nguyễn Đức Thắng dưới sự hướng dẫn của TS. Đặng Thanh Hải đã triển khai nghiên cứu đề tài “Enhancing biomedical entity linking with re-ranking based on convolution neural networks” (dịch “Nâng cao chất lượng liên kết thực thể sinh học bằng cách xếp hạng lại dựa trên mạng nơ-ron tích chập”).

Với đề tài này, Nguyễn Đức Thắng đã giải quyết được một trong những bài toán thực tế quan trọng trong việc trích xuất thông tin từ dữ liệu y văn. Đức Thắng cho biết, hiện nay trong lĩnh vực khai phá dữ liệu y văn, có nhiều nhóm nghiên cứu trên thế giới quan tâm đến bài toán liên kết tên thực thể trong dữ liệu y văn, ví dụ như mô hình DNORM vào năm 2013; TaggerOne vào năm 2016 của Leaman và các cộng sự từ Trung Tâm Công nghệ Tin Sinh học Hoa Kỳ; mô hình NormCo của Wright và các cộng sự vào năm 2019 từ Trung tâm Nghiên cứu trí tuệ nhân tạo của IBM và Đại Học California San Diego... Dựa trên việc nghiên cứu những mô hình này, đề tài khoa học của em đã đề xuất phương pháp truy xuất nhanh nhất thông tin liên quan đến bệnh và thuốc từ nguồn dữ liệu y văn khổng lồ (PubMed là một ví dụ, hiện có gần 28 triệu bài báo khoa học, cứ 1 phút có 2 bài báo mới được thêm vào). Từ đó sẽ góp phần giảm thiểu chi phí và thời gian cho các nhà nghiên cứu liên quan.

Sau một năm tìm hiểu và nghiên cứu về đề tài, TS. Đặng Thanh Hải nhận thấy những nghiên cứu của sinh viên Nguyễn Đức Thắng đã cho kết quả khả quan, nên đã quyết định để Thắng tham gia sinh viên nghiên cứu khoa học cấp Trường. TS. Đặng Thanh Hải chia sẻ, đề tài có khả năng ứng dụng ngay trong hệ thống trích xuất thông tin từ dữ liệu y văn bằng tiếng Anh và đối với hệ thống tiếng Việt trong tương lai. Dựa trên những ý nghĩa khoa học và tính thực tiễn của đề tài, Đức Thắng đã hoàn thiện bản thảo bài báo để gửi đăng tạp chí quốc tế uy tín.

Tính chính xác cao hơn so với một số mô hình trên thế giới

Đề tài tập trung vào pha “liên kết thực thể sinh học” trong bài toán trích xuất thông tin từ dữ liệu y văn. “Liên kết thực thể sinh học” là việc chuẩn hóa thực thể y sinh trong văn bản tới bộ định danh chuẩn của chúng được định sẵn trong cơ sở tri thức. Theo đó, đề tài Đức Thắng nghiên cứu sẽ góp phần nâng cao độ chính xác của kết quả trong pha này. Hiện nay, trên thế giới cũng có nhiều nhóm đang nghiên cứu cùng với chủ đề của em. Tuy nhiên đề tài của Đức Thắng đang có độ chính xác cao hơn so với một số mô hình sử dụng trên thế giới trong cùng một điều kiện so sánh.

Nhớ đến những kinh nghiệm nghiên cứu khoa học ban đầu, Đức Thắng cảm thấy may mắn khi có sự đồng hành của TS. Đặng Thanh Hải cùng các thầy/cô và anh/chị tại phòng thí nghiệm. Đức Thắng cho biết, khi bắt đầu nghiên cứu đề tài, em chưa có nhiều kinh nghiệm trong việc nghiên cứu khoa học. Với sự giúp đỡ tận tình từ TS. Đặng Thanh Hải, em dần hình thành được tư duy nghiên cứu cũng như biết nhiều hơn về các phương pháp luận nghiên cứu khoa học. Thầy cũng định hướng cho em các mô hình, phương pháp cùng chủ đề có độ chính xác cao trên thế giới, dựa trên những nền tảng đó em đã tích lũy kiến thức và phát triển thành thành các mô hình, phương pháp của đề tài.

Trong thời gian tới, Đức Thắng sẽ tiếp tục nghiên cứu để có thể cho ra một kết quả về độ chính xác tốt hơn nữa. “Và trong tương lai em sẽ tiếp tục nghiên cứu về pha khác như pha Nhận diện tên thực thể (Name-entity regconition), Trích xuất quan hệ (Relationship extraction) trong bài toán trích xuất thông tin y sinh từ các văn bản sinh học, để nâng cao hiệu quả trong lĩnh vực này” - Đức Thắng chia sẻ.

 Tuyết Nga - Bản tin ĐHQGHN số 357
   In bài viết     Gửi cho bạn bè
  Từ khóa :
   Xem tin bài theo thời gian :
TRÊN WEBSITE KHÁC
THĂM DÒ DƯ LUẬN
Bạn sẽ thi vào trường đại học nào?
  • Khoa Quản trị Kinh doanh
  • Trường Đại học Khoa học Tự nhiên
  • Trường Đại học Khoa học Xã hội và Nhân văn
  • Trường Đại học Ngoại ngữ
  • Trường Đại học Công nghệ
  • Trường Đại học Kinh tế
  • Trường Đại học Giáo dục
  • Khoa Luật
  • Khoa Quốc tế
  • Khoa Y Dược