在過去六個月中,生成式人工智能呈爆炸式增長趨勢,人工智能技術在商業和科技領域的重要性不斷上升,國內外企業都在爭相發布自研大模型。
上周,Llama 2 發布的消息更是在AI圈引起了巨大轟動。在 Llama 2 官網公布的50余家合作伙伴中,海天瑞聲作為唯一中國公司*榜上有名,成為 Llama 2 全球合作伙伴,以高質量數據為大模型賦能。
*來源: https://ai. .com/llama/#partnerships
同時,海天瑞聲COO李科及CTO黃宇凱作為 Supporter,支持 AI 的這種開源行為,可以讓每個人都能從這個技術中受益良多,并為技術帶來足夠的透明度、審慎性和可信性。
來源: https://about.fb.com/news/2023/07/llama-2-statement-of-support/
據公開資料顯示,Llama 2在數據層面,相比上一代不僅使用了更多的訓練數據,而且context length翻倍,達到4096。
值得一提的是,Llama 2在公開測試基準上的結果顯示,其在代碼、常識推理、世界知識、閱讀理解、數學等評測維度的能力均獲得大幅提升。7B版本在很多測試集上接近甚至有超越30B的MPT模型的表現。
當前在中文對話領域,公開的數據集往往量少、分布有偏、價格昂貴甚至不能商用。導致一些大模型在中文對話方面的能力,相比英文對話略遜一籌。尤其是在一些需要比較深的中文語言理解能力的對話場景,無論開源的還是閉源的大模型,都往往表現不佳。
針對以上痛點,海天瑞聲正式推出「中文千萬輪對話語料庫 DOTS-NLP-216」。
真實場景采集,符合中文表達習慣的自然對話數據,將為中文大語言模型(LLM)帶來新動能。我們致力于在安全合規的基礎上,為大模型提供更好的性能和魯棒性,幫助企業更輕松的構建高質量生成式AI應用。
「中文千萬輪對話語料庫 DOTS-NLP-216」
詳情請點擊以下鏈接查看:http://www.cqjyou.com/dataset/c60-9291.htm