xAI, công ty trí tuệ nhân tạo do Elon Musk sáng lập, vừa nâng cấp chatbot Grok với khả năng phân tích hình ảnh thực tế trong thời gian thực thông qua camera điện thoại – tính năng mới mang tên Grok Vision. Sự bổ sung này đưa Grok vào cuộc đua trực tiếp với ChatGPT (OpenAI) và Gemini (Google) trong lĩnh vực AI đa phương thức (multimodal AI) – nơi AI không chỉ hiểu văn bản, mà còn “nhìn thấy” thế giới thực.
🧠 Grok-1.5V – Bộ Não Đa Nhiệm Đằng Sau Grok Vision
Phiên bản Grok-1.5V là bước tiến đầu tiên của xAI vào AI đa phương thức, cho phép mô hình xử lý nhiều loại hình ảnh như:
- Tài liệu, biểu đồ, bảng số
- Ảnh chụp đời thực, ảnh thực đơn, biển hiệu
- Meme, ảnh vẽ tay, màn hình máy tính
Benchmark | Grok-1.5V | GPT-4V | Claude 3 Sonnet | Claude 3 Opus | Gemini Pro 1.5 |
---|---|---|---|---|---|
MMMU Multi-discipline | 53.6% | 56.8% | 53.1% | 59.4% | 58.5% |
Mathvista Math | 52.8% | 49.9% | 47.9% | 50.5% | 52.1% |
AI2DDiagrams | 88.3% | 78.2% | 88.7% | 88.1% | 80.3% |
TextVQA Text reading | 78.1% | 78.0% | – | – | 73.5% |
ChartQA Charts | 76.1% | 78.5% | 81.1% | 80.8% | 81.3% |
DocVQA Documents | 85.6% | 88.4% | 89.5% | 89.3% | 86.5% |
RealWorldQA Real-world understanding | 68.7% | 61.4% | 51.9% | 49.8% | 67.5% |
Vượt qua cả GPT-4V, Claude 3 và Gemini Pro 1.5, Grok-1.5V đứng đầu bài kiểm tra RealWorldQA với điểm số 68.7%, chứng minh khả năng hiểu không gian vật lý và mối quan hệ giữa các vật thể tốt nhất trong nhóm.
📸 Phân Tích Trực Tiếp Qua Camera – “Tôi Đang Nhìn Gì Thế Này?”
Với Grok Vision, người dùng chỉ cần mở chế độ thoại trên iOS, hướng camera về một vật thể hoặc khung cảnh và hỏi:
“Tôi đang nhìn gì đây?”
“Sản phẩm này dùng làm gì?”
“Cái này có bị hỏng không?”
Grok có thể:
- Nhận diện đối tượng
- Giải thích ý nghĩa biển báo
- Phân tích bảng biểu
- Ước tính lượng calo từ hình ảnh đồ ăn
- Chuyển bảng ảnh sang CSV
- Chẩn đoán vật liệu hỏng như gỗ mục
- Giải bài tập hoặc lỗi mã nguồn từ ảnh chụp màn hình

Tính năng này hiện đang khả dụng trên iOS, và sẽ sớm ra mắt cho Android – tuy nhiên, người dùng Android hiện chỉ có thể truy cập qua gói SuperGrok giá 30 USD/tháng, đi kèm các tính năng như tìm kiếm giọng nói theo thời gian thực và hỗ trợ đa ngôn ngữ.
🧪 RealWorldQA – Bài Test “Đời Thật” Đánh Giá AI Nhìn Thế Giới
RealWorldQA là bộ benchmark được xAI phát triển để đo lường khả năng hiểu không gian thực tế của AI. Gồm hơn 700 ảnh chụp thực tế kèm câu hỏi và đáp án xác thực, bài kiểm tra này không dễ với AI dù câu hỏi tưởng chừng đơn giản với con người.
📊 Kết quả các mô hình:
- Grok-1.5V: 68.7%
- Gemini Pro 1.5: 67.5%
- GPT-4V: 61.4%
- Claude 3: Dưới 52%
Khác với các bài test logic hình học tĩnh, RealWorldQA đánh giá khả năng “hiểu thế giới” thực sự của AI – như cách AI trợ lý cá nhân cần hoạt động trong môi trường vật lý.
📱 Mang Trí Tuệ Không Gian Vào Đời Sống Hằng Ngày
Với việc tích hợp Grok Vision vào camera, xAI đang biến AI từ công cụ đọc-và-trả lời thành trợ lý có khả năng cảm nhận và quan sát thế giới giống con người hơn. Tính năng này mang lại trải nghiệm AI gần gũi hơn, đặc biệt với:
- Người dùng tìm kiếm theo hình ảnh
- Nhà phát triển muốn xử lý đầu vào không chỉ từ văn bản
- Những ứng dụng yêu cầu phản hồi ngữ cảnh thực tế (ví dụ: hướng dẫn sửa chữa, hướng dẫn sử dụng sản phẩm, kiểm tra thực phẩm…)
📌 Kết Luận
Với Grok Vision, xAI đang đưa chatbot Grok tiến xa hơn trong hành trình trở thành trợ lý AI toàn diện – không chỉ trả lời câu hỏi, mà còn nhìn, phân tích và phản hồi với bối cảnh thực tế. Trong khi GPT-4V và Gemini vẫn đang cạnh tranh về khả năng lý luận hình ảnh, Grok-1.5V hiện đang dẫn đầu về khả năng hiểu không gian thực, mở ra tiềm năng ứng dụng mạnh mẽ trong các lĩnh vực như giáo dục, hậu cần, sản xuất và hỗ trợ kỹ thuật.
Trí tuệ nhân tạo giờ đây không chỉ “biết nói”, mà còn biết nhìn, hiểu và phản ứng như một con người thực thụ.
📌 Cần hỗ trợ AI?
Từ GPT, Gemini, Claude đến Grok,… – nếu bạn muốn AI trở thành trợ lý thực sự trong công việc, đừng ngại liên hệ.
💼 Ngoài ra, mình cũng cung cấp các phần mềm bản quyền giá tốt như:
ChatGPT Plus, Super Grok, Canva Pro, CapCut, Google Drive,… và nhiều công cụ khác.
📩 Inbox trực tiếp hoặc nhắn qua Facebook: Steven Dinh – Hoặc vào nhóm Chat Zalo để được hỗ trợ
🧠 Hỗ trợ đúng – dùng hiệu quả – tiết kiệm lâu dài.