AI世界的新難題：互聯網的信息不夠用了！-小程序制作開發-網站建設公司-分銷商城小程序-網站制作公司-名聯網絡科技

AI世界的新難題：互聯網的信息不夠用了！

2024-04-02 閱讀：207

來源：硬AI

高質量數據的緊缺正成為AI發展的重要障礙。

4月1日，據媒體報道，隨著OpenAI、Google等企業不斷深入發展AI技術，科技巨頭們遇到了一個新問題：現有的互聯網信息量可能不足以支撐他們訓練更先進的AI系統。

科技巨頭的AI系統，比如能與人類聊天的ChatGPT，是通過學習網上的信息變得越來越聰明的。但現在，高質量、有用的信息日益緊缺，同時，一些網站開始限制AI公司訪問他們的數據。據業界一些高管和研究人員表示，AI行業對高質量文本數據的需求可能在兩年內超過供應，這將可能減緩AI技術的發展速度。

面對信息不足的問題，AI公司正在嘗試各種方法來尋找新的信息源。比如OpenAI正在考慮用YouTube視頻里的對話來訓練它們的下一代智能模型GPT-5。有的公司甚至創造合成數據來學習，盡管這種方法被許多研究人員認為可能會導致系統發生嚴重故障，但不失為克服數據短缺的一種潛在途徑。

據悉，這些努力大多保密進行，因為找到有效的解決方案可能成為企業在激烈競爭中的關鍵優勢。隨著數據需求不斷增長，找到新的學習材料、與數據所有者的合作，讓AI系統變得更加聰明，就成了這個行業的重要備戰區。

OpenAI的GPT-5面臨10萬億到20萬億tokens的數據短缺

AI語言模型的構建依賴于從互聯網上收集的大量文本數據，這些數據包括科學研究、新聞文章、維基百科條目等。這些材料被分解成“tokens”，tokens可以是完整的單詞或單詞的一部分。AI模型通過分析和理解這些tokens之間的關系和模式，學會了如何生成流暢、自然的語言，從而能夠回答問題、撰寫文章甚至創作詩歌。

模型的能力在很大程度上取決于它訓練的數據量。通常情況下，數據越多，模型的性能就越好，因為它有更多的例子來學習不同的語言用法和復雜性。

OpenAI通過為其GPT系列模型提供海量訓練數據，不斷提升性能，借此成為世界頂尖AI公司。這展示了大數據訓練對于AI發展的重要性。

但是，隨著GPT-4模型的不斷擴大，OpenAI對數據的需求也在急劇增長。Epoch研究所的AI研究員Pablo Villalobos估計，GPT-4訓練涉及的數據量高達12萬億tokens，而未來模型，如GPT-5，可能需要60萬億到100萬億tokens。因此，即便是利用所有可用的高質量語言和圖像數據，研發GPT-5仍可能面臨10萬億到20萬億tokens的數據短缺。至于如何彌補這一巨大的數據缺口，目前尚無明確方案。

據媒體報道，為應對數據短缺挑戰，AI公司正在嘗試各種方法來尋找新的信息源。Meta創始人扎克伯格近期強調，公司通過Facebook和Instagram等平臺擁有的大量數據，為其AI研發提供了重要優勢。扎克伯格表示，Meta能夠利用網絡上數以百億計的公開共享圖片和視頻，這些數據的規模超過了大多數常用數據集，盡管其中高質量數據的比例尚不明確。

而OpenAI則考慮使用其自動語音識別工具Whisper轉錄的高質量視頻和音頻示例。此外，OpenAI還在考慮建立一個數據市場，以評估每個數據點對模型訓練的貢獻并據此向內容提供者支付費用，這一創新想法也引起了Google的關注。

Epoch研究所預測AI數據短缺危機將推遲至2028年

兩年前，Villalobos和他的同事寫道，到2024年年中，對高質量數據的需求超過供給的可能性為50%，到2026年發生這種情況的可能性為90%。自那以后，他們變得更加樂觀，在AI研究員Pablo Villalobos及其團隊的審慎評估下，新的預期顯示，這種短缺風險將延遲至2028年。

這項樂觀的更新基于對當前數據質量和可用性的深刻洞察。Villalobos指出，互聯網上的絕大多數數據并不適合作為AI訓練材料。在無盡的信息流中，只有一小部分數據（遠低于先前預計）能對AI模型的增長和發展做出實質性貢獻。

同時，各大社交媒體平臺和新聞出版商已開始限制其數據被用于AI訓練。他們擔心如果數據被自由用于AI訓練，可能導致內容創造者和平臺本身失去應得的經濟回報。

此外，普羅大眾對于個人隱私的保護意識顯著提升，許多人對于將私人對話如iMessage中的聊天記錄提供給AI訓練的意愿較低，人們可能擔心他們的隱私可能會受到侵犯。

最近，一位女記者就OpenAI最新模型Sora的訓練數據向CTO Murati提問時，Murati未能明確回答，這引發了業界對OpenAI管理層對于訓練數據來源的關注度的質疑。這一事件觸發了更廣泛的討論，關于公共領域數據的所有權問題——我們在網絡上發布的內容，究竟是屬于個人私密還是公共共享的資產？

因此，這些因素共同導致了數據獲取的困境。隨著用戶和監管機構對數據使用的監控趨嚴，研究者們必須在保護隱私與數據采集之間找到新的均衡。

上一篇：科技出海記｜“我在菲律賓做數字信貸，結果收購了一家銀行”

下一篇：AI程序員Devin獨角獸，半年估值20億美元？業內曝AI泡沫：買卡500億

91久久精品日日躁夜夜躁欧美_亚洲视频91_未满十八18禁止免费无码网站_亚洲一区二区三区AV在线观看