Home
Softono
SkyText-Chinese-GPT3

SkyText-Chinese-GPT3

Open source MIT
395
Stars
21
Forks
6
Issues
3
Watchers
3 years
Last Commit

About SkyText-Chinese-GPT3

SkyText is a Chinese GPT-3 pre-trained large language model released by Singularity-AI. Designed specifically for Chinese language processing, it utilizes a unique Chinese encoding method and undergoes a rigorous 30-step data cleaning process to ensure high performance. The model supports a wide variety of natural language tasks, including conversational chat, question answering, Chinese-English translation, text continuation, style generation, logical reasoning, poetry composition, and couplet creation. It also handles specialized applications like generating recipes, converting text to the third person, and creating interview questions. The project offers two model sizes: a 13-billion parameter version and a lightweight 3-billion parameter variant called SkyTextTiny. Built on transformers, it is compatible with standard Hugging Face libraries and integrates easily into Python workflows for content generation and analysis. The software is released under the MIT license and serves developers and researchers l

Platforms

Web Self-hosted

SkyText

SkyText是由奇点智源发布的中文GPT3预训练大模型,可以进行聊天、问答、中英互译等不同的任务。 应用这个模型,除了可以实现基本的聊天、对话、你问我答外,还能支持中英文互译、内容续写、对对联、写古诗、生成菜谱、第三人称转述、创建采访问题等多种功能。

image

huggingface模型主页

一百四十亿参数模型【暂时闭源,即将发布新的百亿参数模型,敬请期待!】 https://huggingface.co/SkyWork/SkyText

三十亿参数模型 https://huggingface.co/SkyWork/SkyTextTiny

下面是一些示例:

效果示例

体验和试用,请访问奇点智源API试用

聊天

image

问答

image

生成菜谱

输入: image

输出: image

对对联

image

项目亮点

  1. 技术优势一 :30多道流程的数据清洗

    随着NLP技术的发展,预训练大模型逐渐成为了人工智能的核心技术之一。预训练大模型通常需要海量的文本来进行训练,网络文本自然成为了最重要的语料来源。而训练语料的质量无疑直接影响着模型的效果。为了训练出能力出众的模型,奇点智源在数据清洗时使用了30多道的清洗流程。精益求精的细节处理,铸造了卓越的模型效果。

  2. 技术优势二:针对中文优化创新的中文编码方式

    曾经在预训练大模型领域,一直是被英文社区主导着,而中文预训练大模型的重要性不言而喻。不同于英文的拼音文字,中文预训练大模型的中文输入方式显然应该有所不同。奇点智源针对中文的特点,优化创新使用了独特的中文编码方式,更加符合中文的语言习惯,重新构建出更利于模型理解的中文字典。

奇点新闻

——————————————————————————————————

依赖

推荐
transformers>=4.18.0

模型使用

# -*- coding: utf-8 -*-
from transformers import GPT2LMHeadModel
from transformers import AutoTokenizer
from transformers import TextGenerationPipeline

# 以 SkyWork/SkyText(13billions) 为例,还有 SkyWork/SkyTextTiny(2.6billions) 可用, 期待使用

model = GPT2LMHeadModel.from_pretrained("SkyWork/SkyText")
tokenizer = AutoTokenizer.from_pretrained("SkyWork/SkyText", trust_remote_code=True)
text_generator = TextGenerationPipeline(model, tokenizer, device=0)
input_str = "今天是个好天气"
max_new_tokens = 20
print(text_generator(input_str, max_new_tokens=max_new_tokens, do_sample=True)) 

版权许可

MIT License

加入开发者群

微信扫码加入开发者群

text

感兴趣别忘了star一下~

image