📢 Gate廣場獨家活動: #PUBLIC创作大赛# 正式開啓!
參與 Gate Launchpool 第 297 期 — PublicAI (PUBLIC),並在 Gate廣場發布你的原創內容,即有機會瓜分 4,000 枚 $PUBLIC 獎勵池!
🎨 活動時間
2025年8月18日 10:00 – 2025年8月22日 16:00 (UTC)
📌 參與方式
在 Gate廣場發布與 PublicAI (PUBLIC) 或當前 Launchpool 活動相關的原創內容
內容需不少於 100 字(可爲分析、教程、創意圖文、測評等)
添加話題: #PUBLIC创作大赛#
帖子需附帶 Launchpool 參與截圖(如質押記錄、領取頁面等)
🏆 獎勵設置(總計 4,000 枚 $PUBLIC)
🥇 一等獎(1名):1,500 $PUBLIC
🥈 二等獎(3名):每人 500 $PUBLIC
🥉 三等獎(5名):每人 200 $PUBLIC
📋 評選標準
內容質量(相關性、清晰度、創意性)
互動熱度(點讚、評論)
含有 Launchpool 參與截圖的帖子將優先考慮
📄 注意事項
所有內容須爲原創,嚴禁抄襲或虛假互動
獲獎用戶需完成 Gate廣場實名認證
Gate 保留本次活動的最終解釋權
大模型掀40萬token長文本競賽 推動專業領域落地應用
大模型公司掀起長文本技術競賽,40萬token只是開始
4000到40萬token,大模型正在以驚人的速度不斷提升長文本處理能力。
長文本能力似乎已成爲大模型廠商的新"標配"。國外方面,OpenAI通過多次升級將GPT-3.5和GPT-4的上下文輸入長度分別提升至1.6萬和3.2萬token。Anthropic更是一舉將上下文長度提升到10萬token。LongLLaMA則將上下文長度擴展到25.6萬token甚至更多。
國內方面,大模型初創公司月之暗面推出的智能助手Kimi Chat支持輸入20萬漢字,約合40萬token。港中文賈佳亞團隊聯合MIT發布的LongLoRA技術可將7B模型的文本長度拓展到10萬token,70B模型拓展到3.2萬token。
目前,國內外已有一大批頂級大模型技術公司和研究機構將上下文長度拓展作爲升級重點。這些公司大多獲得了資本市場的青睞,如OpenAI斬獲近120億美元投資,Anthropic估值有望達到300億美元,月之暗面成立半年就完成兩輪近20億元融資。
大模型公司如此重視長文本技術,上下文長度擴大100倍意味着什麼?表面上看是輸入文本長度和閱讀能力的提升。更深層次來看,長文本技術正在推動大模型在金融、司法、科研等專業領域的應用落地。
然而,大模型可處理的上下文長度並不是關鍵,更重要的是模型對上下文內容的利用。目前國內外對文本長度的探索還遠未達到"臨界點",40萬token可能只是開始。
月之暗面創始人楊植麟表示,正是由於大模型輸入長度受限,才造成了許多應用落地的困境。長文本技術可以解決大模型初期被詬病的一些問題,增強某些功能,同時也是進一步推進產業和應用落地的關鍵技術。這標志着大模型發展進入了從LLM到Long LLM的新階段。
長文本技術爲大模型帶來了一系列新的功能升級,如超長文本信息提取與分析、復雜代碼生成、長對話場景下的角色扮演等。這些功能顯示出大模型正朝着專業化、個性化、深度化的方向發展,有望成爲撬動產業落地的新抓手。
然而,長文本技術也面臨着"不可能三角"困境:文本越長,越難聚集充分注意力;注意力限制下,短文本難以完整解讀復雜信息;處理長文本需要大量算力,提高成本。這主要源於大多數模型基於的Transformer結構中的自注意力機制,其計算量會隨上下文長度呈平方級增長。
目前主要有三種解決方案:借助外部工具輔助處理、優化自注意力機制計算、利用模型優化方法。未來大模型廠商需要在文本長短、注意力和算力三者之間尋求最佳平衡點,以處理足夠信息的同時兼顧注意力計算和算力成本限制。