Có gì mới với GPT-4 — từ xử lý ảnh đến kiểm tra tốc độ


Vào thứ ba, OpenAI đã công bố GPT-4, mô hình ngôn ngữ AI thế hệ tiếp theo của nó. Mặc dù công ty đã cảnh báo rằng sự khác biệt giữa GPT-4 và những người tiền nhiệm của nó là “tinh tế” trong cuộc trò chuyện thông thường, nhưng hệ thống này vẫn có nhiều khả năng mới. Nó có thể xử lý hình ảnh cho một người và OpenAI cho biết nó thường tốt hơn trong các nhiệm vụ sáng tạo và giải quyết vấn đề.

Đánh giá những tuyên bố này là khó khăn. Nhìn chung, các mô hình AI cực kỳ phức tạp và các hệ thống như GPT-4 rất phong phú và đa chức năng, với các khả năng ẩn và chưa được biết đến. Kiểm tra thực tế cũng là một thách thức. Ví dụ: khi GPT-4 tự tin nói với bạn rằng nó đã tạo ra một hợp chất hóa học mới, bạn sẽ không biết điều đó có đúng hay không cho đến khi bạn hỏi một vài nhà hóa học thực tế. (Mặc dù điều này không bao giờ ngăn được một số tuyên bố khoa trương đang lan truyền trên Twitter.) Như OpenAI đã nêu rõ trong tường trình kỹ thuậthạn chế lớn nhất của GPT-4 là nó “ảo giác” thông tin (bịa đặt) và thường “sai một cách chắc chắn trong các dự đoán của nó”.

Bỏ qua những lưu ý này, GPT-4 chắc chắn rất thú vị về mặt kỹ thuật và đã được tích hợp vào các sản phẩm lớn, phổ thông. Vì vậy, để có cảm nhận về tính năng mới, chúng tôi đã thu thập một số ví dụ về những kỳ tích và khả năng của nó từ các hãng tin, Twitter và chính OpenAI, cũng như chạy thử nghiệm của riêng chúng tôi. Đây là những gì chúng ta biết:

Nó có thể xử lý hình ảnh cùng với văn bản

Như đã đề cập ở trên, đây là điểm khác biệt thực tế lớn nhất giữa GPT-4 và những người tiền nhiệm của nó. Hệ thống này đa phương thức, nghĩa là nó có thể phân tích cú pháp cả hình ảnh và văn bản, trong khi GPT-3.5 chỉ có thể xử lý văn bản. Điều này có nghĩa là GPT-4 có thể phân tích nội dung của hình ảnh và kết nối thông tin đó với một câu hỏi bằng văn bản. (Mặc dù nó không thể tạo ra hình ảnh như DALL-E, Midjourney hoặc Stable Diffusion có thể.)

Điều này có ý nghĩa gì trong thực tế? Thời báo New York làm nổi bật một bản demo trong đó GPT-4 được hiển thị bên trong tủ lạnh và được hỏi bạn có thể chế biến những món ăn nào với những nguyên liệu này. Chắc chắn, dựa trên hình ảnh, GPT-4 đưa ra một vài ví dụ, cả mặn và ngọt. Tuy nhiên, điều đáng chú ý là một trong những gợi ý này – một lớp bọc – yêu cầu một thành phần dường như không có ở đó: bánh ngô.

Lưu ý rằng hình ảnh thiếu mật ong, các loại hạt hoặc bánh ngô.
Hình ảnh: Thời báo New York

Có rất nhiều ứng dụng khác cho chức năng này. Trong một bản trình diễn được phát trực tuyến bởi OpenAI sau thông báo, công ty đã chỉ ra cách GPT-4 có thể tạo mã cho một trang web dựa trên bản phác thảo vẽ tay chẳng hạn (video được nhúng bên dưới). Và OpenAI cũng đang hợp tác với công ty khởi nghiệp Be My Eyes, sử dụng tính năng nhận dạng đối tượng hoặc tình nguyện viên của con người để giúp đỡ những người có vấn đề về thị lực, để cải thiện ứng dụng của công ty với GPT-4.

Loại chức năng này không hoàn toàn độc đáo (rất nhiều ứng dụng cung cấp tính năng nhận dạng đối tượng cơ bản, như Ứng dụng Magnifier của Apple), nhưng OpenAI tuyên bố GPT-4 có thể “tạo ra cùng một mức độ hiểu biết và bối cảnh như một người tình nguyện” — giải thích thế giới xung quanh người dùng, tóm tắt các trang web lộn xộn hoặc trả lời các câu hỏi về những gì nó “thấy”. Công ty cho biết chức năng này chưa hoạt động nhưng “sẽ đến tay người dùng sau vài tuần nữa”.

Các công ty khác dường như cũng đang thử nghiệm khả năng nhận dạng hình ảnh của GPT-4. Jordan Singer, nhà sáng lập của Diagram, đã tweet rằng công ty đang làm việc để bổ sung công nghệ này vào các công cụ hỗ trợ thiết kế AI của mình để thêm những thứ như chatbot có thể nhận xét về thiết kế và một công cụ có thể giúp tạo ra các thiết kế.

Và như thể hiện qua các hình ảnh bên dưới, GPT-4 cũng có thể giải thích các hình ảnh vui nhộn:

Tốt hơn là chơi với ngôn ngữ

OpenAI nói rằng GPT-4 tốt hơn trong các nhiệm vụ đòi hỏi sự sáng tạo hoặc suy luận nâng cao. Đó là một tuyên bố khó đánh giá, nhưng có vẻ đúng dựa trên một số thử nghiệm mà chúng tôi đã thấy và tiến hành (mặc dù cho đến nay sự khác biệt với những người tiền nhiệm của nó không đáng ngạc nhiên).

Trong một bản giới thiệu công ty của GPT-4, người đồng sáng lập OpenAI, Greg Brockman, đã yêu cầu nó tóm tắt một phần của bài đăng trên blog chỉ bằng các từ bắt đầu bằng “g”. (Sau đó, anh ấy cũng yêu cầu nó làm điều tương tự nhưng với “a” và “q.”) “Chúng tôi đã thành công với 4, nhưng chưa bao giờ thực sự đạt được điều đó với 3,5,” Brockman nói trước khi bắt đầu bản demo. Trong video của OpenAI, GPT-4 trả lời bằng một câu khá dễ hiểu chỉ có một từ không bắt đầu bằng chữ cái “g” — và hiểu hoàn toàn ngay sau khi Brockman yêu cầu nó tự sửa. Trong khi đó, GPT-3 dường như thậm chí còn không cố gắng làm theo lời nhắc.

Chúng tôi đã tự giải quyết vấn đề này bằng cách cung cấp cho ChatGPT một số văn bản để tóm tắt chỉ sử dụng các từ bắt đầu bằng “n”, so sánh các kiểu máy GPT-3.5 và 4. (Trong trường hợp này, cung cấp cho nó các đoạn trích của một bờ vực Người giải thích NFT.) Trong lần thử đầu tiên, GPT-4 đã thực hiện công việc tóm tắt văn bản tốt hơn nhưng lại kém hơn trong việc bám sát lời nhắc.

1/2

GPT-4 cố gắng tóm tắt một vài đoạn bằng các từ chỉ bắt đầu bằng chữ cái “n”.
Ảnh chụp màn hình: Mitchell Clark / The Verge

Tuy nhiên, khi chúng tôi yêu cầu hai mô hình sửa lỗi của chúng, GPT-3.5 về cơ bản đã bỏ cuộc, trong khi GPT-4 tạo ra một kết quả gần như hoàn hảo. Nó vẫn bao gồm “bật”, nhưng công bằng mà nói, chúng tôi đã bỏ sót nó khi yêu cầu chỉnh sửa.

Chúng tôi cũng yêu cầu cả hai người mẫu biến bài báo của chúng tôi thành một bài thơ có vần điệu. Và mặc dù thật khó để đọc thơ về NFT, GPT-4 chắc chắn đã làm tốt hơn ở đây; bài thơ của nó có cảm giác phức tạp hơn đáng kể, trong khi của GPT-3.5 giống như ai đó đang thực hiện một số động tác tự do tồi tệ.

1/2

Bài thơ của GPT-3.5 về NFT — tại sao tôi lại làm điều này với chính mình?
Ảnh chụp màn hình: Mitchell Clark / The Verge

Nó có thể xử lý nhiều văn bản hơn

Các mô hình ngôn ngữ AI luôn bị giới hạn bởi lượng văn bản mà chúng có thể lưu giữ trong bộ nhớ ngắn hạn (nghĩa là: văn bản có trong cả câu hỏi của người dùng và câu trả lời của hệ thống). Nhưng OpenAI đã mở rộng đáng kể các khả năng này cho GPT-4. Giờ đây, hệ thống có thể xử lý toàn bộ bài báo khoa học và tiểu thuyết trong một lần, cho phép hệ thống trả lời các câu hỏi phức tạp hơn và kết nối nhiều chi tiết hơn trong bất kỳ truy vấn cụ thể nào.

Điều đáng chú ý là GPT-4 không có ký tự hoặc số từ mỗi gia nhập, nhưng đo lường đầu vào và đầu ra của nó trong một đơn vị được gọi là “mã thông báo”. Quá trình token hóa này khá phức tạp, nhưng điều bạn cần biết là một token tương đương với khoảng bốn ký tự và 75 từ đó thường chiếm khoảng 100 mã thông báo.

Số lượng mã thông báo GPT-3.5-turbo tối đa có thể sử dụng trong bất kỳ truy vấn cụ thể nào là khoảng 4.000, tương đương với hơn 3.000 từ một chút. Để so sánh, GPT-4 có thể xử lý khoảng 32.000 mã thông báo, theo OpenAI, có khoảng 25.000 từ. Công ty cho biết họ “vẫn đang tối ưu hóa” cho các bối cảnh dài hơn, nhưng giới hạn cao hơn có nghĩa là mô hình sẽ mở khóa các trường hợp sử dụng không dễ thực hiện trước đây.

Nó có thể kiểm tra ace

Một trong những chỉ số nổi bật từ báo cáo kỹ thuật của OpenAI về GPT-4 là hiệu suất của nó trên một loạt các bài kiểm tra được tiêu chuẩn hóa, bao gồm BAR, LSAT, GRE, một số mô-đun AP và — vì một số lý do không rõ nhưng rất buồn cười — Phần giới thiệu , Các khóa học Sommelier được chứng nhận và nâng cao được cung cấp bởi Court of Master Sommeliers (lý thuyết chỉ một).

Bạn có thể xem so sánh kết quả của GPT-4 và GPT-3 trong một số thử nghiệm dưới đây. Lưu ý rằng GPT-4 hiện khá ổn định với các mô-đun AP khác nhau, nhưng vẫn gặp khó khăn với những mô-đun đòi hỏi sự sáng tạo nhiều hơn (ví dụ: các bài kiểm tra Ngôn ngữ Anh và Văn học Anh).

So sánh hiệu suất của GPT-4 trong các bài kiểm tra tiêu chuẩn hóa khác nhau với GPT-3.5.
Hình ảnh: OpenAI

Đó là một màn trình diễn ấn tượng, đặc biệt là so với những gì mà các hệ thống AI trước đây đã đạt được, nhưng để hiểu được thành tích này cũng cần một chút bối cảnh. Tôi nghĩ kỹ sư và nhà văn Joshua Levy đặt nó tốt nhất trên Twittermô tả sai lầm logic mà nhiều người mắc phải khi nhìn vào những kết quả này: “Việc phần mềm đó có thể vượt qua bài kiểm tra được thiết kế cho con người không có nghĩa là nó có khả năng giống như những người vượt qua bài kiểm tra tương tự.”

Nhà khoa học máy tính Melanie Mitchell đã giải quyết vấn đề này dài hơn trong một bài đăng trên blog thảo luận về hiệu suất của ChatGPT trong các bài kiểm tra khác nhau. Như Mitchell đã chỉ ra, khả năng vượt qua các bài kiểm tra này của các hệ thống AI phụ thuộc vào khả năng lưu giữ và tái tạo các loại kiến ​​thức có cấu trúc cụ thể. Điều đó không nhất thiết có nghĩa là các hệ thống này sau đó có thể khái quát hóa từ đường cơ sở này. Nói cách khác: AI có thể là ví dụ cuối cùng của việc giảng dạy để kiểm tra.

Nó đã được sử dụng trong các sản phẩm chủ đạo

Là một phần của thông báo GPT-4, OpenAI đã chia sẻ một số câu chuyện về các tổ chức sử dụng mô hình này. Chúng bao gồm tính năng gia sư AI do Học viện Kahn phát triển nhằm giúp học sinh làm bài tập và cung cấp cho giáo viên ý tưởng về bài học, đồng thời tích hợp với Duolingo hứa hẹn mang lại trải nghiệm học tập tương tác tương tự.

Ưu đãi của Duolingo được gọi là Duolingo Max và thêm hai tính năng mới. Một người sẽ đưa ra “lời giải thích đơn giản” về lý do tại sao câu trả lời của bạn cho một bài tập là đúng hay sai và để bạn yêu cầu các ví dụ khác hoặc giải thích rõ hơn. Cái còn lại là chế độ “nhập vai” cho phép bạn thực hành sử dụng một ngôn ngữ trong các tình huống khác nhau, chẳng hạn như gọi cà phê bằng tiếng Pháp hoặc lên kế hoạch đi bộ đường dài bằng tiếng Tây Ban Nha. (Hiện tại, đó là hai ngôn ngữ duy nhất có sẵn cho tính năng này.) Công ty nói rằng GPT-4 tạo ra nó để “không có hai cuộc hội thoại nào giống hệt nhau”.

Các công ty khác đang sử dụng GPT-4 trong các miền liên quan. Intercom đã công bố hôm nay nó đang nâng cấp bot hỗ trợ khách hàng sử dụng mô hìnhhứa hẹn hệ thống sẽ kết nối với tài liệu hỗ trợ của doanh nghiệp để trả lời các câu hỏi, trong khi bộ xử lý thanh toán Stripe là sử dụng hệ thống nội bộ để trả lời các câu hỏi của nhân viên dựa trên tài liệu kỹ thuật của nó.

Nó luôn cung cấp năng lượng cho Bing mới

Sau thông báo của OpenAI, Microsoft đã xác nhận rằng mô hình hỗ trợ trải nghiệm trò chuyện của Bing trên thực tế là GPT-4.

Nó không phải là một tiết lộ rung chuyển trái đất. Microsoft đã cho biết họ đang sử dụng “mô hình ngôn ngữ lớn OpenAI thế hệ tiếp theo” nhưng đã tránh đặt tên cho nó là GPT-4, nhưng thật tốt khi biết tất cả đều giống nhau và có nghĩa là chúng tôi có thể sử dụng một số điều chúng tôi đã học được từ các tương tác với Bing cũng nghĩ về GPT-4.

Nó vẫn phạm sai lầm

Rõ ràng, trải nghiệm trò chuyện Bing không hoàn hảo. Con bot đã cố gắng chọc tức mọi người, mắc những lỗi ngớ ngẩn và hỏi đồng nghiệp Sean Hollister của chúng tôi xem anh ấy có muốn xem phim khiêu dâm lông thú không. Một phần trong số này là do cách Microsoft triển khai GPT-4, nhưng những trải nghiệm này cung cấp một số ý tưởng về cách các chatbot được xây dựng trên các mô hình ngôn ngữ này có thể mắc lỗi.

Trên thực tế, chúng tôi đã thấy GPT-4 thực hiện một số lỗi trong các thử nghiệm đầu tiên. TRONG Thời báo New York‘ bài viết, chẳng hạn, hệ thống được yêu cầu giải thích cách phát âm các từ tiếng Tây Ban Nha phổ biến… và hầu hết các từ đó đều sai. (Tuy nhiên, tôi đã hỏi nó cách phát âm từ “gringo” và lời giải thích của nó dường như đã được thông qua.)

Đây không phải là một vấn đề lớn, mà là một lời nhắc nhở về điều mà mọi người tham gia tạo và triển khai GPT-4 cũng như các mô hình ngôn ngữ khác đều đã biết: chúng gây rối. Nhiều. Và bất kỳ hoạt động triển khai nào, dù với tư cách là gia sư, nhân viên bán hàng hay lập trình viên, đều cần đi kèm với một cảnh báo nổi bật.

Giám đốc điều hành OpenAI Sam Altman đã thảo luận về vấn đề này vào tháng 1 khi được hỏi về khả năng của GPT-4 khi đó chưa được công bố: “Mọi người đang cầu xin được thất vọng và họ sẽ thất vọng. Sự cường điệu giống như… Chúng tôi không có AGI thực sự và đó là những gì được mong đợi ở chúng tôi.”

Chà, vẫn chưa có AGI, mà là một hệ thống có khả năng mở rộng hơn những gì chúng ta đã có trước đây. Bây giờ chúng ta đợi phần quan trọng nhất: xem chính xác nó sẽ được sử dụng ở đâu và như thế nào.





Nguồn: www.theverge.com

Bài đăng có liên quan

Twitter sẽ cho phép những người đăng ký trả phí của Blue chỉnh sửa tweet trong tối đa một giờ

Tôi đã đeo Apple Vision Pro. Đó là bản demo tai nghe tốt nhất bao giờ hết.

Blaseball đã kết thúc, The Game Band cho biết