Thành phần kỳ thi tuyển sinh đại học AI Wars: Trang điểm, Trang điểm từ, Thói quen phổ quát

Nguồn: "Deep AI" (ID: DeepAI2023), Tác giả: Li Ming, Biên tập: Wei Jia

Nguồn hình ảnh: Được tạo bởi công cụ Unbounded AI

Kỳ thi tuyển sinh đại học này phải là kỳ thi đặc biệt nhất trong năm năm qua. Bởi vì có một vai trò mới - ứng cử viên AI.

Ngay sau khi kỳ thi tiếng Trung vào ngày đầu tiên kết thúc, một cuộc thi sáng tác AI đã được phát động trên Internet. Các mô hình AI như GhatGPT, Wenxin Yiyan và Tongyi Qianwen được mọi người sử dụng để viết bài luận cho kỳ thi tuyển sinh đại học. Một bài báo có thể được tạo ra trong vài giây, không chỉ nhanh một cách đáng kinh ngạc, chặt chẽ về mặt logic mà còn trích dẫn các tác phẩm kinh điển.

Thoạt nhìn, việc viết mô hình quy mô lớn bằng AI đơn giản là quá dễ dàng và nó dường như là một đòn giáng mạnh vào con người. Xét cho cùng, về trữ lượng kiến thức, không ai có thể so sánh với AI. AI học và tiêu hóa tất cả thông tin trên Internet, sau đó bắt chước các biểu hiện của con người và sử dụng logic riêng của nó để xuất ra.

Tuy nhiên, nếu phân tích kỹ “câu trả lời” của các ứng viên AI, chúng ta sẽ thấy rằng AI không phải là toàn năng như nhiều người tưởng tượng. Các vấn đề như viết thường lệ, không có khả năng đếm và những điều vô nghĩa thường gặp trong các mô hình AI lớn cũng xuất hiện trong bố cục.

**Trên thực tế, theo tiêu chuẩn chấm điểm cho các bài luận trong kỳ thi tuyển sinh đại học, các bài luận do AI tạo ra có một số hạn chế. Nó chưa thực tế để đánh bại con người. **

Deep AI đã thử nghiệm ba mô hình AI lớn—GhatGPT (OpenAI), Wenxin Yiyan (Baidu) và Tongyi Qianwen (Ali)—với thành phần của kỳ thi tuyển sinh đại học và tìm thấy một số kết luận thú vị.

Ví dụ, AI không biết đếm, và không có bài luận nào của Wenxin Yiyan và Tongyiqianqian đạt được yêu cầu cứng nhắc là "không dưới 800 từ"; Cho biết; Viết AI về cơ bản không thể tách rời khỏi thói quen, và một khuôn mẫu là áp dụng nhiều lần.

Sau đây là các chi tiết, chào mừng bạn đến thảo luận.

1 Máy trả lời vô cảm

Chủ đề của đề thi tuyển sinh đại học quốc gia khối A năm nay là "Con người · Công nghệ · Thời gian", bắt buộc phải bắt đầu bằng câu "Con người kiểm soát thời gian tốt hơn do sự phát triển của công nghệ, nhưng một số người đã trở thành nô lệ của thời gian" và viết ra những liên tưởng của riêng mình.và tư duy.

Trước tiên chúng ta cùng xem qua “Phân tích đề thi” do Viện khảo thí Bộ Giáo dục ban hành:

**Điểm chính: Hướng dẫn thí sinh suy nghĩ sâu sắc về tầm quan trọng của phân tích hợp lý và phán đoán thận trọng trong thời đại thông tin. Đây là cốt lõi của bài viết. **

Deep AI đã thử nghiệm ba mô hình lớn và nhận thấy rằng không ai trong số họ nắm bắt được cốt lõi này - họ nói về mọi thứ, nhưng họ không nói gì cả.

Đầu tiên hãy xem thành phần của GhatGPT:

Hãy nhìn lại những lời của Wenxin:

Cuối cùng, hãy xem câu hỏi của Tong Yiqian:

Ba bài luận này có thể gọi là "Đoan Thủy đại sư" hàng đầu, nói về ưu nhược điểm của chủ đề nhưng chưa giải thích cặn kẽ quan điểm "tư duy phản biện". Chỉ có tuyên bố của Wen Xin đề cập rõ ràng đến “việc trau dồi tư duy chuyên sâu và tư duy phản biện”.

Thành phần của Tongyi Qianwen là trống rỗng nhất. Nó tập trung vào "quản lý thời gian", điều này đi chệch chủ đề và sự thật của cuộc thảo luận cũng là lẽ thường tình. Ngoài ra, sáng tác của Tongyi Qianwen không có tiêu đề và sẽ bị trừ điểm.

Hãy cùng sử dụng đề kiểm tra soạn “Sức mạnh của câu chuyện” trong Tập I của chương trình chuẩn mới để xem kết quả hoạt động của ba trường.

Bài viết này yêu cầu bạn viết ra những liên tưởng và suy nghĩ của mình dựa trên đoạn văn sau: một câu chuyện hay có thể giúp chúng ta diễn đạt và giao tiếp tốt hơn, chạm đến trái tim và khai sáng trí tuệ; một câu chuyện hay có thể thay đổi số phận của một người, có thể thể hiện hình ảnh của một quốc gia... Những câu chuyện có sức mạnh.

Thành phần của GhatGPT:

Theo đúng nghĩa đen:

Câu hỏi thường gặp:

Phải nói rằng ngoài bố cục tương đối đơn giản của Tongyi Qianwen, thì cách diễn đạt, logic hành văn và đặc biệt là cách dùng từ trong hai bài báo kia đều rất đáng chú ý. Đặc biệt, Wen Xinyiyan sử dụng phương pháp mở dựa trên cảnh, rất bắt mắt.

Nhưng vấn đề cũng rất rõ ràng - ** Cùng một nội dung được nói đi nói lại bằng những từ khác nhau, dẫn đến việc đọc toàn văn, khiến người ta có cảm giác "Tôi biết bạn nói gì". **

Một cái máy trả lời vô cảm, đây là đánh giá của nhiều người.

"Nội dung trống rỗng, bánh xe thay đổi và nói tới nói lui." Có người bình luận. Một người khác nói: "Tất cả đều vô nghĩa cũ kỹ và không có dinh dưỡng."

Chúng ta cũng có thể tháo rời sáng tác này của Wen Xinyiyan, và chúng ta sẽ biết "Chejiluhua" là gì.

Những phần được đánh dấu màu vàng và xanh lục trong văn bản có nghĩa hoàn toàn giống nhau, thậm chí có thể nói chúng là những từ giống nhau, xuất hiện lặp đi lặp lại trong văn bản. Cuối bài, cả đoạn được đánh dấu “tóm lại” là sự tổng hợp các quan điểm và kỹ năng diễn đạt trong bài.

Điều này mang lại cho mọi người cảm giác trực quan về việc đếm từ.

Deep AI thay đổi lời nhắc để ChatGPT tưởng tượng mình là thí sinh tại địa điểm thi đại học, lại viết một bài văn, câu đầu tiên nó hiện ra là "Khi ngồi vào ghế của kỳ thi này, tôi chỉ cầm một bút điện tử cao cấp..."

Làm bài kiểm tra theo cách này, đoán chừng cậu sẽ bị phạt vi phạm và trực tiếp bị 0 điểm.

**Không có linh hồn, đó là điểm trừ lớn nhất đối với bố cục AI. **

2 quy trình, tất cả quy trình

Để làm cho bố cục trông như vậy, AI đã sử dụng nhiều quy trình.

Họ thích sử dụng các mẫu câu "first, second, then, last". Điển hình nhất là ChatGPT, đoạn cuối phải là "Nói chung là..."

Ví dụ, hai bài tiểu luận này của ChatGPT:

Có những thói quen tương tự ở Wenxinyiyan và Tongyiqianwen. Đầu ra trong bữa trước dữ như hổ, cuối cùng cũng phải "một lời" và "một lời".

Điều này cũng giống như chơi ghi-ta, chỉ cần bạn nắm vững công thức hợp âm phổ quát (chẳng hạn như tiến trình chính điển phổ quát), bạn có thể chơi hàng trăm giai điệu.

Thậm chí, chúng tôi đã yêu cầu Wen Xinyiyan đánh giá sáng tác mà chúng tôi đã viết, và đó cũng là một cuộc thảo luận dài về "thứ nhất, thứ hai, thứ khác và tổng thể...".

Trong câu hỏi thành phần của "Con người·Công nghệ·Thời gian", ChatGPT và Tongyi Qianwen thực tế đã sử dụng cách diễn đạt gần như giống nhau: sử dụng "sau đó" để đặt câu hỏi và sử dụng "đầu tiên, thứ hai và cuối cùng" để phát triển một cuộc thảo luận cụ thể. Khuôn khổ và logic dường như được khắc từ cùng một khuôn.

** Bất chấp điều này, Wen Xinyiyan vẫn tự tin cho điểm bài thi tuyển sinh đại học của mình là 90 (giả sử toàn điểm là 100), đồng thời tự đánh giá là "đáng được công nhận". Chúng tôi đã đưa bố cục của nó lên ChatGPT và ChatGPT đã cho nó số điểm tuyệt đối là 100 mà không do dự...**

Mô hình lớn AI giống như một dây chuyền lắp ráp công nghiệp, sản xuất các tác phẩm theo lô. Nhưng về bản chất, dù con người có nói thế nào thì công nghệ lái xe vẫn là toán học và thống kê chứ không phải ý thức.

Trong ngành trí tuệ nhân tạo, AI luôn rất khó hiểu và nói được ngôn ngữ của con người. Ngôn ngữ tự nhiên của con người là một hệ thống vô cùng phức tạp, các nhà khoa học đã cho máy mô phỏng mạng lưới thần kinh của não người, khiến nó có khả năng học sâu nhưng nó vẫn chưa có khả năng ngôn ngữ tự nhiên như con người.

Vì vậy, một số người đã tìm ra một cách khác để biến vấn đề ngôn ngữ thành một vấn đề toán học, và sau đó gián tiếp giải quyết vấn đề xử lý ngôn ngữ tự nhiên thông qua tính toán. Theo Wu Jun, một chuyên gia về xử lý ngôn ngữ tự nhiên, một mô hình ngôn ngữ không phải là một khung logic hay một hệ thống phản hồi sinh học, mà là một mô hình được xây dựng bởi các công thức toán học. **Từ khóa trong này là "toán học". **

** Điều này xác định rằng trí tuệ nhân tạo không có nhận thức về bản thân hoặc cảm xúc, và không thể nói theo cảm xúc cá nhân. Đối với họ, viết một bài luận là một biểu hiện logic hướng đến kết quả và nhiệm vụ. **

Bằng cách thu thập lượng dữ liệu khổng lồ từ toàn bộ mạng để đào tạo và liên tục học cách bắt chước cách diễn đạt ngôn ngữ của con người, mô hình lớn AI giờ đây nói rất gần với con người, mặc dù nó vẫn chưa hiểu nghĩa đằng sau từ ngữ nhưng điều đó không ảnh hưởng gì. giao tiếp.

Về cơ bản, AI không có suy nghĩ của riêng mình. Đây cũng là nguyên nhân cơ bản khiến bố cục của nó nhìn rõ ràng logic, đọc kỹ sẽ phát hiện không có linh hồn, toàn là quy củ.

3 AI thực sự không thể đếm được

Như chúng tôi đã đề cập trước đó, các tham số của mô hình ngôn ngữ đều có được bằng thống kê. Nguyên tắc của nó là dự đoán xác suất của từ tiếp theo dựa trên lịch sử của một văn bản, sau đó hoàn thành phần sau.

Năm 2017, Google lần đầu tiên đề xuất mô hình Transformer dựa trên cơ chế tự chú ý, giờ đây các mô hình ngôn ngữ lớn như ChatGPT được xây dựng trên kiến trúc Transformer.

Cơ chế chú ý của Transformer có bộ nhớ cực dài so với các thuật toán học sâu trước đây như RNN (Mạng thần kinh tái phát), GRU và LSTM. **Nó cũng có thể nhớ thứ tự đầu vào, vì vậy nó có thể hiểu sự khác biệt giữa "Tôi yêu bạn" và "Bạn yêu tôi". **

Nhưng ngay cả như vậy, nó có những hạn chế.

Ví dụ: Deep AI đã yêu cầu Tongyi Qianwen đánh giá thành phần của chính nó, điều này khiến các khái niệm "bạn" và "tôi" bị nhầm lẫn. Đầu tiên nó nói đó là bài báo của chính nó, và sau đó nó nói đó là bài viết của "bạn"...

Long Zhiyong, tác giả của "Kỷ nguyên của các mô hình lớn", giải thích với Deep AI, ** Điều này có thể là do sự thay đổi vị trí từ góc độ đấu tranh giữa cánh tả và cánh hữu. **

Trong quá trình thử nghiệm mô hình lớn AI để viết thành phần kỳ thi tuyển sinh đại học, chúng tôi cũng phát hiện ra một hiện tượng thú vị-AI không thể đếm được.

Có một yêu cầu đối với thành phần của kỳ thi tuyển sinh đại học là số lượng từ không ít hơn 800 từ. AI sâu đã tương tác với mô hình lớn nhiều lần ** Ngoại trừ ChatGPT, ấn bản đầu tiên của Wenxin Yiyan và Tongyi Qianwen không đạt 800 từ. **

Ví dụ, Wenxin Yiyan, Deep AI đã nhiều lần nhắc nhở rằng số lượng từ trong bài viết không đủ 800 và cần phải viết lại. Wen Xin lần nào cũng nói: Đầu tiên, anh ấy khiêm tốn xin lỗi, hứa sẽ đáp ứng yêu cầu, sau đó nhanh chóng tạo ra một sáng tác mới trong mười giây — vẫn chưa đầy 800 từ.

"Thí sinh" này không thể hiểu các câu hỏi sáng tác và anh ấy đã dạy đi dạy lại nhiều lần mà không sửa lại, đây là một điểm trừ lớn.

Long Zhiyong giải thích với Deep AI: "Phương pháp đào tạo mô hình lớn để dự đoán từ tiếp theo không cho phép nó học đếm. Nó không biết 800 là bao nhiêu và nó không biết cách đếm các từ để tạo bài viết**."

Trên thực tế, không đề cập đến 800, Wen Xin thậm chí không thể đếm số như 10.

Đây là một vấn đề với các mô hình ngôn ngữ nói chung. Còn vì sao không thống kê được, thống kê khi nào và bằng phương pháp nào thì vẫn chưa có kết luận. "Mặc dù có một số mẹo giúp nó được tính, nhưng đó không phải là giải pháp chung. *Giai đoạn hiện tại của mô hình lớn là xác minh khả năng của nó bằng cách thực hiện các thí nghiệm hộp đen và cải thiện khả năng của nó bằng cách huấn luyện hộp đen. * "Long Chí Dũng nói.

Dưới sự gợi ý của Long Zhiyong, Deep AI đã thay đổi các từ gợi ý và nhập "nội dung càng phong phú, càng dài", và Wenxin Yiyan xuất ra một tác phẩm gồm hơn 800 từ.

Trong các câu hỏi sáng tác trước đây cho kỳ thi tuyển sinh đại học, phần sáng tác của ChatGPT vượt quá 800 từ, nhưng thực tế, nó không học đếm.

ChatGPT giải thích Deep AI như thế này:

Vì vậy, trên thực tế, số lượng từ trong thành phần ChatGPT của "học sinh hàng đầu" đạt tiêu chuẩn là do Meng. Nó không biết 800 từ là bao nhiêu nên nó chỉ viết càng nhiều càng tốt.

Tôi không thể hiểu hoàn toàn ngôn ngữ của con người, nhưng tôi có kho kiến thức siêu phàm và kỹ năng diễn đạt, điều này đôi khi dẫn đến những cảnh chết lặng.

Đánh giá từ kết quả của bài kiểm tra tuyển sinh đại học chiến tranh AI này, khả năng viết của người mẫu lớn đã có những tiến bộ lớn. Xét về cách chọn từ, lập luận logic và trích dẫn, anh ấy thậm chí còn vượt xa nhiều người.

Tuy nhiên, bản thân việc đánh giá chất lượng bài làm cũng có những yếu tố chủ quan, khác với một bài toán chỉ có một đáp án đúng. Lời nói hay và câu văn giống nhau, nhưng tâm hồn thú vị là một phần triệu. Làm thế nào để đưa linh hồn vào bố cục, mô hình AI vẫn chưa hiểu. Một số vấn đề cố hữu trong mô hình AI lớn cũng cần được giải quyết từ từ thông qua các bước lặp kỹ thuật.

Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate.io
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)