官方的pinyin4j虽然强大,能够支持音标转换,但硬伤在于不支持词组。就此特地将pinyin4j的词库提取出来,研究了下,发现多音字有2000多,去掉音标就1000多,常用字也就500左右。然后估摸着一周左右的时间应该能够把常用多音字词库给整出来,于是就开干。从
在线新华字典、
汉典和
百度词典等网站提取各种多音字词组,苦逼一周后终于算是完成了,虽然词库不够完美,但也能够解决97%以上多音节词组了。接下来是编码实现的事情,为了方便就把2个字以上的词组截掉(极少词组会受影响),具体实现自己看源码吧!
本作用于学习交流,有什么疑问或BUG请及时提出,以便于修正。
附上个使用案例
测试代码:
String text = "Lucky仗着高深的道行,提着螃蟹飞行在各大行会之间";
//直接输出转换后的拼音
String dest = HanziDecoder.getHypy(text);
System.out.println(dest);
//使用空格隔开拼音,拼音首字母大写
String dest1 = HanziDecoder.getHypy(text,' ');
System.out.println(dest1);
//使用空格隔开拼音,拼音首字母大写
String dest2 = HanziDecoder.getHypy(text, 1, ' ');
System.out.println(dest2);
控制台输出:
Luckyzhangzhegaoshendedaoheng,tizhepangxiefeixingzaigedahanghuizhijian
Lucky zhang zhe gao shen de dao heng,ti zhe pang xie fei xing zai ge da hang hui zhi jian
Lucky Zhang Zhe Gao Shen De Dao Heng,Ti Zhe Pang Xie Fei Xing Zai Ge Da Hang Hui Zhi Jian
测试和维护词库过程太过繁琐,文本量大的时候不容易定位判断,就特地开发一个swing界面用来测试和维护词库,直接上图
拼音转换界面
词库编辑界面
- 大小: 142.7 KB
- 大小: 75.8 KB
分享到:
相关推荐
④支持常见多音字的识别,其中包括词组、成语、地名等 ⑤简繁体中文转换 ⑥支持添加用户自定义字典 Pub dependencies: lpinyin: ^2.0.0 #latest version Example // Import package import 'package:lpinyin/...
VS2008 C#源代码(文章在软件报上发表的) 1、以牺牲空间为代价,方便快速地实现汉字的助记码获取。 2、针对拼音特性,实现多音字并提供显式地姓氏调用方法。 ...多音字词组匹配;2.姓氏专用方法。
JPinyin支持常见多音字的识别,其中包括词组、成语、地名等; 5、简繁体中文转换; 6、支持添加用户自定义字典; Maven <groupId>com.github.stuxuhai</groupId> <artifactId>jpinyin <version>1.1.8 ...
可将汉字、词组转为全拼、拼音首写或前部分首写加最后一个字全拼确认,支持多音字,字库中有2万多个汉字,对大部分生僻字有很好的支持
JPinyin是一个汉字转拼音的Java开源类库,在PinYin4j的功能基础上做了一些改进。主要特性: 1、准确、完善的字库; Unicode编码从4E00-9FA5范围及3007(〇)的20903个汉字中,JPinyin能转换除46个异体字(异体字不...
JPinyin是一个汉字转拼音的Java开源类库,在PinYin4j的功能基础上做了一些改进。 【JPinyin主要特性】 1、准确、完善的字库; Unicode编码从4E00-9FA5范围及3007(〇)的20903个汉字中,JPinyin能转换除46个异体字...
组的词库(CK.CK)后,支持词组输入,不比WINDOWS下的 输入法逊色。 DOS系统下占用资源最少兼容西文软件最好的直接写屏 的软件。本压缩文件包含用KEY挂接的四种输入法码表 文件:拼音PY.MB 五笔WB.MB 电报码TELE.MB ...
很简单的一个MFC做的输入法程序 不过不能嵌入到windows
读取汉字词语拼音,支持多音字。 叶朝阳 XCY|XZY|YCY|YZY
在此软件的练习过程中,都有汉字对照的拼音提示,键位提示,你不用担心不熟悉某些汉字的拼音,就算是多音字都会有相应的拼音提示。 软件里集成了大量拼音打字练习文章,其中还包含了小学一到六年级的课文,可以很好...
按拼音和笔顺精确、快速排序大量简体中文词组(支持百万数量级,简体中文与非中文混用的词组也可),有效解决多音字混排的问题。 依赖 运行python版本: 3.6+ 本项目涉及以下依赖: jieba pypinyin 安装 pip安装命令...
JPinyin是一个汉字转拼音的Java开源类库,本jar资源是根据其官网2017年2月版本代码编译而成。 JPinyin支持多种拼音输出格式:带音标、不带音标、数字表示音标以及拼音首字母输出格式; 4、常见多音字识别; ...
易语言ePY.fne支持库中文名为易语言取汉字带音调拼音支持库,本易语言支持库实现取汉字拼音和全文翻译成拼音,支持词组拼音。 易语言ePY.fne支持库为一般支持库,需要易语言系统3.0版本的支持,需要易语言系统核心...
英语音标词组拼读规则大全.doc
识字卡片带拼音词组.doc
常见英文,免得天天得查字典,直接记住更专业哦!~挺有用的!