如何区分中国人名和日本人名？

This topic created in 4550 days ago, the information mentioned may be changed or developed.

日本人名已经翻译为中文，如:筱原尚人,木村哲郎.试了下结巴分词，不是太好，有遇到类似需求的没，有什么好的思路可以尝试

木村

筱原

尚人

9 replies • 1970-01-01 08:00:00 +08:00

binux

Jan 5, 2014

1、字数
2、姓出现概率
3、名出现概率
4、从日本人名如何翻译的入手

sinxccc

Jan 5, 2014

先弄个常见中国姓氏表和常见日本姓氏（苗字）表吧，应该足够应付大多数情况了。

FrankFang128

Jan 5, 2014 via Android

百家姓加字数，就够了吧

efi

Jan 5, 2014

是不是可以不经过样本训练，直接从统计数据构造一个bayes分类器

lsj5031

Jan 5, 2014

也很难的吧……

比如林秀贞，宗义智之类的……

精确度要求不算太高的话楼上的办法挺好

Semidio

Jan 5, 2014

说实话这个只能手动区分，事实上即使手动很多不查具体资料也区分不出来。
比如：林未纪，江守彻这些名字即使在中文中也没有任何维和。

msg7086

Jan 5, 2014

其实还有很多是韩文汉字……

frittle

Jan 5, 2014

如果日本姓名是用日文输入法输入的，而中国姓名是用简体字输入的话，很多姓名可以用汉字区分。含有有繁体字或日本汉字（异体字）的姓名、或含有名字重字时使用的「々」字，就肯定是日本名字了。

中国现在已经出现越来越多奇葩的自创复姓（例如爹的单姓+娘的单姓，这种我还可以理解，还有一些乱七八糟的），会增加机器区分的难度。

ling0322

Jan 5, 2014

使用一个最大熵模型就可以了哦，特征选取
B 名字的第一个字
B1 名字的第二个字
E1 名字的倒数第二个字
E 名字的倒数第一个字
M 名字的其他的字
L 名字的长度