1
binux 2014 年 1 月 5 日 1、字数
2、姓 出现概率 3、名 出现概率 4、从日本人名如何翻译的入手 |
2
sinxccc 2014 年 1 月 5 日
先弄个常见中国姓氏表和常见日本姓氏(苗字)表吧,应该足够应付大多数情况了。
|
3
FrankFang128 2014 年 1 月 5 日 via Android
百家姓加字数,就够了吧
|
4
efi 2014 年 1 月 5 日
是不是可以不经过样本训练,直接从统计数据构造一个bayes分类器
|
5
lsj5031 2014 年 1 月 5 日
也很难的吧……
比如 林 秀贞, 宗 义智之类的…… 精确度要求不算太高的话楼上的办法挺好 |
6
Semidio 2014 年 1 月 5 日
说实话这个只能手动区分,事实上即使手动很多不查具体资料也区分不出来。
比如: 林未纪,江守彻这些名字即使在中文中也没有任何维和。 |
7
msg7086 2014 年 1 月 5 日
其实还有很多是韩文汉字……
|
8
frittle 2014 年 1 月 5 日
如果日本姓名是用日文输入法输入的,而中国姓名是用简体字输入的话,很多姓名可以用汉字区分。含有有繁体字或日本汉字(异体字)的姓名、或含有名字重字时使用的「々」字,就肯定是日本名字了。
中国现在已经出现越来越多奇葩的自创复姓(例如爹的单姓+娘的单姓,这种我还可以理解,还有一些乱七八糟的),会增加机器区分的难度。 |
9
ling0322 2014 年 1 月 5 日
使用一个最大熵模型就可以了哦,特征选取
B 名字的第一个字 B1 名字的第二个字 E1 名字的倒数第二个字 E 名字的倒数第一个字 M 名字的其他的字 L 名字的长度 |