每日經(jīng)濟新聞 2023-04-03 08:45:15
每經(jīng)AI快訊,有投資者在投資者互動平臺提問:請問中文語料和貴公司的AI訓練數(shù)據(jù)集是一種東西嗎? 如果不是的話,可以給我們科普下中文語料和訓練數(shù)據(jù)分別是什么?分別用在訓練大模型的那個階段?
海天瑞聲(688787.SH)4月3日在投資者互動平臺表示,按照我們理解,您提到的“中文語料”可能指的是大模型預訓練階段使用的未經(jīng)標注的原始中文文本數(shù)據(jù),大模型通過對大量的原始文本數(shù)據(jù)的學習來完成預訓練階段的基礎能力訓練,該類數(shù)據(jù)服務本就是公司業(yè)務類型范疇內的一種;此外,公司現(xiàn)階段更主要的業(yè)務內容是進行更高質量、更具規(guī)?;挠柧殧?shù)據(jù)生產(chǎn),即在前述原始數(shù)據(jù)基礎上進行一系列的工程化、結構化人類加工反饋(包括但不限于清洗、標注等),使其成為更高濃度、更容易被算法理解的結構化訓練數(shù)據(jù),廣義上的訓練數(shù)據(jù)可應用于大模型訓練的各類環(huán)節(jié),尤其是在對于大模型更為重要的強化學習以及垂向拓展等環(huán)節(jié)。 未來,公司也將緊密跟隨大模型等新技術的發(fā)展,及時更新公司數(shù)據(jù)服務能力、及相關業(yè)務形態(tài),更好助力相關領域客戶的發(fā)展。
(記者 張喜威)
免責聲明:本文內容與數(shù)據(jù)僅供參考,不構成投資建議,使用前核實。據(jù)此操作,風險自擔。
如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP