來源:“深AI”(ID:DeepAI2023),作者:黎明,編輯:魏佳 *圖片來源:由無界AI工俱生成*這屆高考,應該是過去五年來,最特殊的一次。因為多了一個新角色——AI考生。第一天的語文考試剛結束,全網就掀起AI作文大賽。 GhatGPT、文心一言、通義千問等AI大模型,被人們拿來寫高考作文。幾秒鐘就能生成一篇,不僅速度驚人、邏輯嚴密,還能引經據典。乍一看,AI大模型寫作文,簡直太輕鬆,似乎對人類構成降維打擊。畢竟,論知識儲備量,沒有人可以跟AI比。 AI把整個互聯網上的資料都學習消化了,然後模仿人類的表達方式,用自己的邏輯輸出。但是,如果我們仔細分析AI考生的“答卷”,會發現AI並沒有很多人想像的那樣無所不能。 AI大模型普遍存在的套路化寫作、不會數數、胡說八道等問題,也在作文中出現。**事實上,按照高考作文的評分標準,AI生成的作文都存在某些方面的局限。戰勝人類,目前還不現實。 **深AI用高考作文測試了三款AI大模型——GhatGPT(OpenAI)、文心一言(百度)、通義千問(阿里),發現了一些有趣的結論。比如,AI不會數數,文心一言、通義千問的作文都沒有達到“不少於800字”的硬性要求;一本正經胡說八道的毛病還沒改,為了湊字數可以車軲轆話來回說;AI寫作文基本離不開套路,一個模板反复套用。以下是詳細內容,歡迎討論。## **1 一個沒有感情的答題機器**今年高考全國甲卷的作文主題是“人·技術·時間”,要求以“人們因技術發展得以更好地掌控時間,但也有人因此成了時間的僕人”這句話展開,寫自己的聯想與思考。我們先看一下教育部教育考試院發布的《試題解析》: **劃重點:引導考生深入思考信息時代理性分析和審慎判斷的重要性。這是文章的內核。 **深AI測試了三個大模型發現,它們都沒有抓住這個內核——東拉西扯說一通,啥都說了但其實啥也沒說。先看GhatGPT的作文: 再看文心一言的: 最後看通義千問的: **這三篇作文,堪稱頂級“端水大師”,圍繞主題正反來回說,就是沒有把“批判性思維”這個點說透**。只有文心一言明確提到了“深入思考和批判性思維的培養”。通義千問的作文是最空洞的。它把重點放在了“時間管理”上,偏離了主題,而且論述的道理也是人人皆知的常識。另外,通義千問的作文沒有標題,扣分。我們再用新課標I卷的作文試題“故事的力量”,看看三家的表現。這篇作文要求根據以下這段話,寫自己的聯想和思考:好的故事,可以幫我們更好地表達和溝通,可以觸動心靈、啟迪智慧;好的故事,可以改變一個人的命運,可以展現一個民族的形象……故事是有力量的。GhatGPT的作文: 文心一言的: 通義千問的: 不得不說,除了通義千問的作文相對平淡,其他兩篇的表述方式、行文邏輯,尤其是用詞還是可圈可點的。尤其是文心一言用場景化的開場方式,讓人眼前一亮。不過問題也是顯而易見的——**同一個事情用不同的話術翻來覆去說,導致全文讀下來,給人一種“你說的我都知道”的感覺。 **一個沒有感情的答題機器,這是很多人的評價。“內容空洞,車軲轆變著來回說。”有人評價。還有人說:“全是沒營養沒內涵的大白話。”我們不妨拆解一下文心一言的這篇作文,就會知道什麼是“車軲轆話”。 文中標黃、標綠的部分,都是完全相同的意思,甚至可以說是相同的話術,在文中反復出現。在文末“總結來說”標藍的一整段,則是把文中的觀點和話術,搞了個大雜燴。這給人一種湊字數的即視感。深AI更改提示詞,讓ChatGPT想像自己是一個在高考現場的考生,並再次寫一篇作文,它上來第一句話就是“當我坐在這個考試的座位上時,我的手中拿著一隻先進的電子筆......” 這樣參加考試,估計會被判違規,直接零分。**沒有靈魂,是AI作文最大的減分項。 **## **2 套路,全是套路**為了讓作文看起來像那麼回事,AI用了很多套路。它們很喜歡用“首先、其次、然後、最後”的句式。最典型的是ChatGPT,最後一段一定會是“總的來說……”比如ChatGPT的這兩篇作文: 文心一言、通義千問也有相似的套路。前面一頓輸出猛如虎,最後一定用“總而言之”“總的來說”結尾。這就跟彈吉他一樣,只要掌握了萬能和弦公式(比如萬能的卡農進行),就能彈出上百首曲子。甚至於,我們讓文心一言給自己寫的作文打分,它也是“首先、其次、此外、綜上……”一頓長篇大論。 而在“人·技術·時間”的作文題中,ChatGPT和通義千問居然用了幾乎完全相同的表述:用“那麼”提出一個問題,用“首先、其次、最後”展開具體論述。框架和邏輯像是一個模子裡刻出來的。  **儘管如此,文心一言非常自信地給自己的高考作文打出了90分的高分(假設滿分100分),還自我評價“值得肯定”。我們把它的作文丟給ChatGPT,ChatGPT竟然毫不吝嗇地給出了100分的滿分……**AI大模型就像工業流水線,批量生產作文。但本質上,無論它說出來的話多麼像人話,驅動的技術都是數學和統計,而非意識。在人工智能行業,讓AI聽懂人話、會說人話,一直以來都是一件很困難的事情。人類的自然語言是一個極其複雜的系統,科學家讓機器模擬了人類大腦的神經網絡,使其具備深度學習能力,但始終不具備跟人一樣的自然語言能力。於是有人另闢蹊徑,把語言問題轉化成數學問題,然後通過計算,間接解決自然語言處理的問題。按照自然語言處理專家吳軍的說法:語言模型不是邏輯框架,不是生物學的反饋系統,而是由數學公式構建的模型。 **這其中的關鍵詞是“數學”。 ****這決定了人工智能沒有自我意識或情緒,無法根據個人感覺來說話。寫作文對它們來說,是以結果和任務為導向的一種邏輯表達。 **而通過抓取全網海量數據進行訓練,不斷學習模仿人類的語言表達方式,AI大模型現在說話已經非常接近人類,雖然它還不懂文字背後的意思,但不影響交流。在根本上,AI沒有自己的思想。這也是為什麼它的作文看起來頭頭是道,仔細一品,你會發現沒有靈魂,全是套路的根本原因。## **3 AI真的不會數數**前面我們提到,語言模型的參數都是靠統計得出的。它的原理是給定一個文本的歷史,預測下一個詞的概率,然後補全下文。2017年谷歌首次提出基於自我注意力機制(self-attention)的變換器(Transformer)模型,現在類似ChatGPT之類的語言大模型,都是建立在Transformer架構上。Transformer的注意力機制比之前的RNN(循環神經網絡)、GRU和LSTM等深度學習算法具有極長的記憶力。 **它還可以記住輸入的順序,所以能讀懂“我愛你”和“你愛我”是不一樣的意思。 **但即便如此,它依然有局限。比如,深AI讓通義千問給它自己的作文打個分,它混淆了“你”和“我”的概念。開頭說是它自己的文章,然後又說是“你”的文章…… 《大模型時代》作者龍志勇對深AI解釋,**這可能是因為站在左右互搏的角度,換位了。 **在測試AI大模型寫高考作文的過程中,我們還發現一個有意思的現象——AI不會數數。高考作文有一個要求是字數不少於800字。深AI跟大模型進行了多次互動,**除了ChatGPT,文心一言和通義千問第一版交上來的作文都沒有達到800字。 **比如文心一言,深AI多次提醒,文章字數不夠800,需要重寫。文心一言每次都是:首先態度非常謙卑地道歉,保證一定符合要求,然後快速用十幾秒鐘的時間生成一篇新的作文——還是不到800字。這個“考生”讀不懂作文題,且屢教不改,是個大大的減分項。龍志勇對深AI解釋:“**大模型預測下一個詞的訓練方式,沒有讓它學會數數,它並不知道800是多少,更不懂得數著字數來生成文章**。”事實上,別說800,連10這樣的數字,文心一言也數不清。 這是語言模型普遍存在的問題。至於為什麼數不清,什麼時候、通過什麼辦法就能數清,目前還沒有結論。 “雖然有一些提示工程的技巧可以幫助它數數,但並不是通用的解法。**大模型現階段就是靠做黑箱實驗來驗證它的能力,靠做黑箱訓練來提升它的能力。**”龍志勇說。在龍志勇的建議下,深AI更改提示詞,輸入“內容再豐富,再長一些”,文心一言輸出的作文超過了800字。在前面的高考作文題中,ChatGPT的作文超過了800字,但其實,它也沒學會數數。ChatGPT這樣對深AI解釋: 所以,其實**“優等生”ChatGPT的作文字數達標,是靠蒙的**。它也不知道800字是多少,就盡可能多寫點。還不能完全聽懂人話,但又具備超強的知識儲備和表達能力,就導致有時候會出現讓人哭笑不得的場面。從這次AI大戰高考作文的結果來看,大模型的寫作能力已經有很大進步。在選詞用詞、邏輯論述、引經據典方面,甚至超過很多人。不過,對作文質量的評價,本身帶有主觀因素,不像數學題一樣只有唯一正確答案。好看的詞句千篇一律,有趣的靈魂萬里挑一。如何給作文注入靈魂,AI大模型還沒玩明白。 AI大模型固有的一些問題,也還需要通過技術迭代慢慢解決。
AI大戰高考作文:瞎編、湊字數、萬能套路
來源:“深AI”(ID:DeepAI2023),作者:黎明,編輯:魏佳
這屆高考,應該是過去五年來,最特殊的一次。因為多了一個新角色——AI考生。
第一天的語文考試剛結束,全網就掀起AI作文大賽。 GhatGPT、文心一言、通義千問等AI大模型,被人們拿來寫高考作文。幾秒鐘就能生成一篇,不僅速度驚人、邏輯嚴密,還能引經據典。
乍一看,AI大模型寫作文,簡直太輕鬆,似乎對人類構成降維打擊。畢竟,論知識儲備量,沒有人可以跟AI比。 AI把整個互聯網上的資料都學習消化了,然後模仿人類的表達方式,用自己的邏輯輸出。
但是,如果我們仔細分析AI考生的“答卷”,會發現AI並沒有很多人想像的那樣無所不能。 AI大模型普遍存在的套路化寫作、不會數數、胡說八道等問題,也在作文中出現。
**事實上,按照高考作文的評分標準,AI生成的作文都存在某些方面的局限。戰勝人類,目前還不現實。 **
深AI用高考作文測試了三款AI大模型——GhatGPT(OpenAI)、文心一言(百度)、通義千問(阿里),發現了一些有趣的結論。
比如,AI不會數數,文心一言、通義千問的作文都沒有達到“不少於800字”的硬性要求;一本正經胡說八道的毛病還沒改,為了湊字數可以車軲轆話來回說;AI寫作文基本離不開套路,一個模板反复套用。
以下是詳細內容,歡迎討論。
1 一個沒有感情的答題機器
今年高考全國甲卷的作文主題是“人·技術·時間”,要求以“人們因技術發展得以更好地掌控時間,但也有人因此成了時間的僕人”這句話展開,寫自己的聯想與思考。
我們先看一下教育部教育考試院發布的《試題解析》:
深AI測試了三個大模型發現,它們都沒有抓住這個內核——東拉西扯說一通,啥都說了但其實啥也沒說。
先看GhatGPT的作文:
通義千問的作文是最空洞的。它把重點放在了“時間管理”上,偏離了主題,而且論述的道理也是人人皆知的常識。另外,通義千問的作文沒有標題,扣分。
我們再用新課標I卷的作文試題“故事的力量”,看看三家的表現。
這篇作文要求根據以下這段話,寫自己的聯想和思考:好的故事,可以幫我們更好地表達和溝通,可以觸動心靈、啟迪智慧;好的故事,可以改變一個人的命運,可以展現一個民族的形象……故事是有力量的。
GhatGPT的作文:
不過問題也是顯而易見的——**同一個事情用不同的話術翻來覆去說,導致全文讀下來,給人一種“你說的我都知道”的感覺。 **
一個沒有感情的答題機器,這是很多人的評價。
“內容空洞,車軲轆變著來回說。”有人評價。還有人說:“全是沒營養沒內涵的大白話。”
我們不妨拆解一下文心一言的這篇作文,就會知道什麼是“車軲轆話”。
這給人一種湊字數的即視感。
深AI更改提示詞,讓ChatGPT想像自己是一個在高考現場的考生,並再次寫一篇作文,它上來第一句話就是“當我坐在這個考試的座位上時,我的手中拿著一隻先進的電子筆......”
**沒有靈魂,是AI作文最大的減分項。 **
2 套路,全是套路
為了讓作文看起來像那麼回事,AI用了很多套路。
它們很喜歡用“首先、其次、然後、最後”的句式。最典型的是ChatGPT,最後一段一定會是“總的來說……”
比如ChatGPT的這兩篇作文:
這就跟彈吉他一樣,只要掌握了萬能和弦公式(比如萬能的卡農進行),就能彈出上百首曲子。
甚至於,我們讓文心一言給自己寫的作文打分,它也是“首先、其次、此外、綜上……”一頓長篇大論。
AI大模型就像工業流水線,批量生產作文。但本質上,無論它說出來的話多麼像人話,驅動的技術都是數學和統計,而非意識。
在人工智能行業,讓AI聽懂人話、會說人話,一直以來都是一件很困難的事情。人類的自然語言是一個極其複雜的系統,科學家讓機器模擬了人類大腦的神經網絡,使其具備深度學習能力,但始終不具備跟人一樣的自然語言能力。
於是有人另闢蹊徑,把語言問題轉化成數學問題,然後通過計算,間接解決自然語言處理的問題。按照自然語言處理專家吳軍的說法:語言模型不是邏輯框架,不是生物學的反饋系統,而是由數學公式構建的模型。 **這其中的關鍵詞是“數學”。 **
**這決定了人工智能沒有自我意識或情緒,無法根據個人感覺來說話。寫作文對它們來說,是以結果和任務為導向的一種邏輯表達。 **
而通過抓取全網海量數據進行訓練,不斷學習模仿人類的語言表達方式,AI大模型現在說話已經非常接近人類,雖然它還不懂文字背後的意思,但不影響交流。
在根本上,AI沒有自己的思想。這也是為什麼它的作文看起來頭頭是道,仔細一品,你會發現沒有靈魂,全是套路的根本原因。
3 AI真的不會數數
前面我們提到,語言模型的參數都是靠統計得出的。它的原理是給定一個文本的歷史,預測下一個詞的概率,然後補全下文。
2017年谷歌首次提出基於自我注意力機制(self-attention)的變換器(Transformer)模型,現在類似ChatGPT之類的語言大模型,都是建立在Transformer架構上。
Transformer的注意力機制比之前的RNN(循環神經網絡)、GRU和LSTM等深度學習算法具有極長的記憶力。 **它還可以記住輸入的順序,所以能讀懂“我愛你”和“你愛我”是不一樣的意思。 **
但即便如此,它依然有局限。
比如,深AI讓通義千問給它自己的作文打個分,它混淆了“你”和“我”的概念。開頭說是它自己的文章,然後又說是“你”的文章……
在測試AI大模型寫高考作文的過程中,我們還發現一個有意思的現象——AI不會數數。
高考作文有一個要求是字數不少於800字。深AI跟大模型進行了多次互動,**除了ChatGPT,文心一言和通義千問第一版交上來的作文都沒有達到800字。 **
比如文心一言,深AI多次提醒,文章字數不夠800,需要重寫。文心一言每次都是:首先態度非常謙卑地道歉,保證一定符合要求,然後快速用十幾秒鐘的時間生成一篇新的作文——還是不到800字。
這個“考生”讀不懂作文題,且屢教不改,是個大大的減分項。
龍志勇對深AI解釋:“大模型預測下一個詞的訓練方式,沒有讓它學會數數,它並不知道800是多少,更不懂得數著字數來生成文章。”
事實上,別說800,連10這樣的數字,文心一言也數不清。
在龍志勇的建議下,深AI更改提示詞,輸入“內容再豐富,再長一些”,文心一言輸出的作文超過了800字。
在前面的高考作文題中,ChatGPT的作文超過了800字,但其實,它也沒學會數數。
ChatGPT這樣對深AI解釋:
還不能完全聽懂人話,但又具備超強的知識儲備和表達能力,就導致有時候會出現讓人哭笑不得的場面。
從這次AI大戰高考作文的結果來看,大模型的寫作能力已經有很大進步。在選詞用詞、邏輯論述、引經據典方面,甚至超過很多人。
不過,對作文質量的評價,本身帶有主觀因素,不像數學題一樣只有唯一正確答案。好看的詞句千篇一律,有趣的靈魂萬里挑一。如何給作文注入靈魂,AI大模型還沒玩明白。 AI大模型固有的一些問題,也還需要通過技術迭代慢慢解決。