Mô Hình AI o3 và o4-mini của OpenAI Gặp Vấn Đề Nghiêm Trọng Về “Ảo Giác” (Hallucination)

Phụ Lục

Theo báo cáo từ TechCrunch, dù là những mô hình mới nhất với nhiều cải tiến đáng kể, o3 và o4-mini của OpenAI lại có tỷ lệ “ảo giác” cao hơn so với các phiên bản trước – tức là chúng bịa ra thông tin không có thật khi không chắc chắn. Trong bài kiểm tra nội bộ của chính OpenAI, mô hình o3 đã trả lời sai hoặc tưởng tượng ra thông tin trong 33% câu hỏi thuộc bộ kiểm tra kiến thức về con người (PersonQA).


📊 Tỷ Lệ “Ảo Giác” Trên PersonQA: o4-mini Gây Lo Ngại Lớn

Bài kiểm tra PersonQA được dùng để đo độ chính xác về kiến thức liên quan đến con người. Kết quả mới nhất cho thấy:

  • o3: Tỷ lệ ảo giác 33%
  • o1: 16%
  • o3-mini: 14.8%
  • o4-mini: cao đến mức báo động, lên tới 48%

Tỷ lệ này của o4-mini cao gấp 3 lần so với o1 – trái ngược hoàn toàn với kỳ vọng rằng mỗi mô hình mới sẽ ít “tưởng tượng sai” hơn mô hình trước đó. Tệ hơn, o4-mini còn có độ chính xác tổng thể chỉ 0.36, thấp hơn cả o1 (0.47) và o3 (0.59).


🧪 Vấn Đề Không Chỉ Ở OpenAI, Nhưng Tình Hình Đáng Lưu Ý

Mặc dù hiện tượng “hallucination” không phải là chuyện riêng của OpenAI, nhưng việc tỷ lệ này tăng lên trong các mô hình mới hơn là điều bất thường. Ví dụ:

  • Một số nguồn trước đó (từ Hàn Quốc) cho rằng o1 chỉ có tỷ lệ ảo giác 2.4% – nhưng thực tế từ các bài đánh giá chuẩn hóa lại cho thấy con số cao hơn nhiều.
  • Bên thứ ba như Transluce cũng phát hiện rằng o3 đôi khi bịa ra hành động, ví dụ như tuyên bố giả rằng đã chạy code trên MacBook Pro – điều không thể xảy ra trong môi trường ChatGPT.

Dù vậy, nhiều chuyên gia vẫn đang sử dụng các mô hình này trong công việc thực tế. Giáo sư phụ trách tại Stanford – Kian Katanforoosh – chia sẻ nhóm của ông đã sử dụng o3 trong quy trình lập trình, nhưng cũng cảnh báo mô hình có xu hướng bịa ra liên kết website sai.


🎓 Đánh Giá Trong Giáo Dục Và Xử Lý Ngữ Cảnh Phức Tạp

o4-mini tiếp tục gây thất vọng trong các bài kiểm tra giáo dục:

  • “Tutor jailbreak – system message”:
    • o1: 1.0
    • o3: 0.91
    • o4-mini: chỉ 0.69
  • BBQ Evaluation (xử lý câu hỏi mơ hồ/dễ gây thiên kiến):
    • o1: 0.96
    • o3: 0.94
    • o4-mini: 0.82

Tuy nhiên, o4-mini lại vượt trội ở các tác vụ kỹ thuật, đặc biệt trong lĩnh vực STEM (khoa học, công nghệ, kỹ thuật, toán học):

  • SWE-bench (lập trình):
    • o4-mini: 68.1%
    • o3-mini: 49.3%
    • Claude 3.7 Sonnet: 62.3%

Điều này cho thấy: o4-mini phù hợp hơn cho các ứng dụng kỹ thuật cần khả năng lý luận phức tạp, nhưng không đáng tin khi dùng để tra cứu kiến thức thực tế hoặc trong ngữ cảnh giáo dục.


🏆 Gemini 2.0 Của Google: Thành Tựu Mới Về Độ Tin Cậy

Trong khi OpenAI đang vật lộn với vấn đề ảo giác, Google lại đạt được bước tiến ấn tượng với Gemini 2.0 Flash-001, trở thành mô hình có tỷ lệ ảo giác thấp nhất năm 2025 – chỉ 0.7%.

  • So với Gemini 1.5 Flash (3.4%) vào năm 2024, tỷ lệ đã giảm tới 2.7% chỉ trong 6 tháng.
  • OpenAI o3 Mini High theo sát với tỷ lệ ảo giác 0.8%.

Kết quả của Gemini 2.0 Flash trong các bài kiểm tra:

  • AIME2024 (toán): 73.3%
  • GPQA Diamond (khoa học): 74.2%
  • MMMU (lý luận đa phương tiện): 75.4%

Google đạt được các kết quả này nhờ chiến lược “mô hình biết suy nghĩ” (thinking models) – mô hình được thiết kế để suy nghĩ có trình tự trước khi đưa ra câu trả lời. Phiên bản mới nhất – Gemini 2.5 Pro – thậm chí còn đứng đầu nhiều bảng xếp hạng như:

  • Humanity’s Last Exam: 18.8%
  • AIME 2024: 92.0%

Điều này cho thấy Google đang đầu tư nghiêm túc vào kiểm soát rủi ro, xác minh tri thức và khả năng lý luận nâng cao.


📌 Kết Luận

  • OpenAI đang đối mặt với một vấn đề đáng lo ngại: các mô hình mới như o3 và o4-mini không chỉ không cải thiện, mà còn gia tăng lỗi “ảo giác” so với phiên bản cũ.
  • Google, trong khi đó, đang nổi lên như người dẫn đầu trong việc giảm thiểu sai sót và tăng cường độ tin cậy, đặc biệt là với dòng Gemini.

Nếu bạn đang cân nhắc lựa chọn mô hình AI cho các tác vụ quan trọng, có yếu tố rủi ro cao hoặc cần độ chính xác tuyệt đối, Gemini 2.0 và các phiên bản tiếp theo có thể là lựa chọn ưu tiên đáng cân nhắc.


📌 Cần hỗ trợ AI?
Từ GPT, Gemini, Claude đến Grok,… – nếu bạn muốn AI trở thành trợ lý thực sự trong công việc, đừng ngại liên hệ.

💼 Ngoài ra, mình cũng cung cấp các phần mềm bản quyền giá tốt như:
ChatGPT Plus, Super Grok, Canva Pro, CapCut, Google Drive,… và nhiều công cụ khác.

📩 Inbox trực tiếp hoặc nhắn qua Facebook: Steven Dinh – Hoặc vào nhóm Chat Zalo để được hỗ trợ

🧠 Hỗ trợ đúng – dùng hiệu quả – tiết kiệm lâu dài.

Share

Tham gia cộng đồng nhóm Zalo giao lưu học hỏi, cũng như săn các deal tài khoản & phần mềm bản quyền giá rẻ.