- link: https://github.com/heartexlabs/awesome-data-labeling
- author: Heartex
- note: a curated list of awesome data labeling tools.
- nlp_chinese_corpus by brightmart.
- Chinese-Word-Vectors by Embedding.
- ChineseNlpCorpus by SophonPlus.
- Chinese-NLP-Corpus by En Ouyang.
- Listed-company-news-crawl-and-text-analysis by Damon Li.
- Word2Vec-科学空间 by bojone.
- text2vec(pypi):文本向量表征工具,把文本转化为向量矩阵,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT等文本表征、文本相似度计算模型,开箱即用。
- 10年前,word2vec经典论文就预定了今天的NeurIPS时间检验奖 | 机器之心 2023-12-12
- Pre-trained word vectors of 30+ languages by Kyubyong Park.
- OSCAR: Open Super-large Crawled Aggregated coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture.
- dict_complete 各类生活字典 by He Chen.
- chinese-xinhua 中华新华字典数据库 by Xiance Wu.
- FinancialDatasets by SmoothNLP.
- DomainWords by SmoothNLP.
- THU Open Chinese Lexicon (THUOCL) by THUNLP.
- 《现代汉语词典》(第7版) by CNMan.
- the-most-complete-dictionary-ever by i3ef0xh4ck.
- 《成语大全》 by 国学网.
- DomainWordsDict by liuhuanyong: 涵盖68个领域、共计916万词的专业词典知识库.
- 万词王(WantWords) by [THUNLP] with website.
- 据意查句(WantQuotes): 根据输入的描述,找到相应的名言名句。
- 深言达意: 可以用自然语言来搜索词汇和句子,可以实现高效准确找到与输入意思相关的好词好句;支持筛选词语、成语、惯用语和古汉语等多类别;覆盖名言、古诗文、小说散文等多场景;支持中英文输入和双语搜索结果。
- 回声(echo): 只会用绝绝子?“回声”AI期待为你发声, by FudanNLP.
- AutoDict by BLCU-ICALL in paper: Chinese Definition Modeling.
- Linggle 英文单词用例查询
- PhraseBank 英文学术用语检索
- WeNet 2.0: WeNet 热词增强 2.0 强势来袭.
- 术语在线: 各行各业术语搜索引擎。
- 一键换词,智能改写.
- 《威威的GPT单词本 (8000词)》: 一本 GPT4 生成的单词书📚,超过 8000 个单词分析,涵盖了词义、例句、词根词缀、变形、文化背景、记忆技巧和小故事.
- funNLP 敏感词词库 by Yang fighting41love.
- profanity-check by Victor Zhou.
- Google-profanity-words by Robert James Gabriel.
- bannedwords by spetacular.
- mgck by chason777777.
- textfilter by Jingchao Hu.
- sensitive-stop-words by Weiwei Fan.
- sensitivewd-filter by Andy.
- stopwords by goto456.
- Chinese-StopWords by baipengyan.
- NouBan-js by Daniel V.: 收集豆瓣敏感词的项目.
- Synonyms by Chatopera.
- Final_word_Similarity by Yalei Meng.
- ChineseSemanticKB by liuhuanyong.
- funNLP 同/反义词词库 by Yang fighting41love.
- WikiDiff 近义词辨析
- SimilarCharacter by XiaoFang.
- CharMap by guo-yong-zhi.
- CJKV (Chinese Japanese Korean Vietnamese) Ideograph Database by CJKVI.
- 文书DB by LemonHX.eth.
- cantonese-list by hardmaru.
- Hanzi-to-Pinyin
- pinyin-data by Huang Huang.
- phrase-pinyin-data by Huang Huang.
- 语言文字规范标准 from 国家语言文字信息管理司.
- pypinyin by Huang Huang.
- Pinyin-to-Hanzi
- Pinyin2Hanzi by 乐天.
- pinyin2hanzi by ranchlai.
- SimpleChinese2 by chenmingxiang110.
- pinyin2hanzi_python by Capino512.
- pinyin2hanzi by lishouguang.
- Pinyin2ChineseChars by iseesaw.
- Hanzi-to-AncientPinyin
- Ancient-Chinese-Pinyin-transform-Tool by yaojialyu.
- chinese_province_city_area_(cpca) mapper by DQYuan: 用于提取简体中文字符串中省、市、区并能进行映射、检验和简单绘图的python库.
- zh-address-parse by ldwonday.
- address_cut by LiuNingGit: 基于HMM方法的中文地址切分.
- chinese-address-generator by moonrailgun: 中国地址生成器,生成三级地址、四级地址、随机生成完整地址.
- The-Location-Data-of-Schools-in-China by pg7go: 中国所有学校地理位置Json数据库.
- Administrative-divisions-of-China by modood: 中华人民共和国行政区划(五级):省级、地级、县级、乡级和村级.
- province-city-china by uiw: 中华人民共和国行政区划(五级):省级、地级、县级、乡级和村级。来自中华人民共和国民政部,用于查询中国省,市和区数据的网站。
- data_location by mumuy: 中国行政区划信息.
- china-divisions by wi1dcard: 中国行政区划地址库 SDK + 爬虫 + 数据.
- zh-address-parse by ldwonday: 中国快递地址解析.
- district by redraiment: 面向中国大陆地区的 手机号码、电话号码、IP地址 归属地查询库.
- 中国·国家地名信息库.
- baidu_poi_search by soaringsoul: 百度地图数据采集GUI工具.
- Python-POI-Spider by JasonXuDeveloper.
- Geocoding by casuallyName.
- chinese-address-segment by yihenglu: 中文地址分词(地址元素识别与抽取),通过序列标注进行NER.
- python地理编码服务Geocoder | 我不爱机器学习 2023-05-15
- Nominatim: Open-source geocoding with OpenStreetMap data.
- 行政区划数据(1993年-2022年).
- 天地图: 官方出品的地理信息平台,功能丰富,可以看到高清卫星影像,支持自定义制图。
- 标准地图服务系统: 目前发布的标准地图包括中国地图249幅、世界地图79幅、专题地图10幅,提供JPG、EPS两种数据格式,可以免费浏览和下载。
- Datav: 地图生成器,支持下载各省、市、县的svg格式的地图素材。
- 国家地球系统科学数据中心: 提供丰富的气温、地形、降水、地质等图库资源。
- Earth: 实时模拟全球风向、洋流、天气效果,这个网站的可视化效果、配色都非常绝。
- 全球光污染地图: 从高空角度观看全球的灯光分布情况。
- NB Maps: 快速生成三维地图的免费工具,可以调整颜色、修改地图的厚度和角度、更换字体的样式,可下载。
- 诗人地理分布信息: 历代诗人地域分布,可查看诗人一生的轨迹。
- 中国历史地图集: 一个历史地图网站,可按年份、年号查询。
- name-dataset by Philippe Rémy.
- Chinese-Names-Corpus by wainshine.
- mirana-datas by 大头蚁: 中文姓名大全+中国主要省市经纬度信息.
- Chinese-Celebrities-Names by NLPBLCU: 中国名人人名数据库.
- FinanceDatabase by Jeroen Bouma with pypi: a database of 300.000+ symbols containing Equities, ETFs, Funds, Indices, Currencies, Cryptocurrencies and Money Markets.
- CNEconDict by Jichun Si: 适用于中文分词的经济金融词典.
- accounting_financial_sentiment_dict_exp by Xinyu Lu: 简体中文会计和金融情感词典扩充.
- chinese-poetry by chinese-poetry: 最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。
- poetry by ZHY: 汉语现代诗歌语料库整理,3470诗人,81.2K诗歌,15.33M字。
- chinese-gushiwen by caoxingyu: 中华古诗文数据库和API。包含10000首古文(诗、词、歌、赋以及其它形式的文言文),近4000名作者,10000名句.
- 文言文(古文)-现代文平行语料: 小牛翻译开源数据。
- CROSSTALK-GENERATION: 目前为止最大的中文开源相声数据集。Code and data for crosstalk text generation tasks, exploring whether large models and pre-trained language models can understand humor.
- Ancient-Chinese-WSD: 基于《左传》的词义消歧数据集。
- 4675-scifi: 中文科幻小说自然语言处理语料库,目前含4675本科幻小说。
- CBook-150K: NLP大模型必备-FudanNLP开源中文图书集合CBook-150K,试用DocAI。
- Cars_Data: 车系、品牌数据.
- car_knowledge_graph: 基于Neo4j的汽车知识图谱,使用Flask构建系统,Echarts可视化.
- unicode-scarfboy by unknown.
- Chinese-Multi-Target-Sentiment-Classification-Dataset by NLPBLCU: 中文多目标情感分类数据集.
- Adjectives-list-with-Gendered-Skewness-and-Sentiment by NLPBLCU: 形容词性别偏度及情感信息数据集.
- CNSD by pluto-junzeng: 中文自然语言推理数据集.
- TaiSu: 太素, 亿级大规模中文视觉语言预训练数据集.
- homepage: https://www.luge.ai/
- link: https://github.com/luge-ai/luge-ai / https://gitee.com/luge-ai/luge-ai
- author: luge-ai ([email protected])
- note: 百度联合中国计算机学会自然语言处理专委会、中国中文信息学会评测工作委员会共同发起的,由来自国内多家高校和企业的数据资源研发者共同建设的中文开源数据集及评测项目。