字根的内在属性
上面我们提到了宇浩拆分规则的优先级。其实,在「字根最少」之上,还有一个隐藏的原则,也就是:字根的内在属性。
何为字根的内在属性?其实就是指某一个字根区别于另一个字根的内在特点。
例
「吉」拆成「士口」而不是「土口」,「周」拆成「⺆土口」而不是「⺆士口」,这是因为「土」的下面一笔更长,而「士」的下面一笔更短。这是区别两个字根的本质原因和内在属性。
「内在属性」可以解释为什么有些字这样拆而不是那样拆,有些字为什么看上去违反了「字根最少」的原则。
例
「敝」拆为「丷巾八攵」而非「氺巾攵」,这看似违反了「字根最少」原则,但其实没有。注意到,「敝」字左下的笔画是撇不是提;在「氺」中,左下角的笔画是提不是撇。故而,「敝」字里并不存在「氺」字根。正因为如此,我们取四根「丷巾八攵」而非三根「氺巾攵」。
在这个章节,我们就详细讨论字根的内在属性,讨论某些字根在宇浩拆分中被分离或者被合并的原因,从而让某些字的拆分原因更加明确。
日曰之辨
不少输入法对与「日」「曰」两字的区分,比较复杂。大概有两种情况:
- 有些是基于形状的,凡是长大于高的都为「曰」,凡是长短于高的都为「日」。但这个方法会跟随着字体的不同而不同,有时候不合字源,也不统一。例如:「書」字源于「聿者」,「曹」古字为「東東口」。
- 另外一种区分方法是基于字源。也就是说:凡是在古文中作「口」形,之后隶变为「曰」形或「甘」形的字,都作「曰」。但这个方法对方一般的使用者难度太大,且分析字源会有疏漏之处,不应用于输入法。
我们必须注意到,在汉字中,存在「日曰」对立的字形,只有三组,分别为:「日曰」、「汨汩」、「曶㫚」。在其他的情况下,不存在对立,也就不存在混淆问题。
因此,我基于实用主义原则,对这两个字根不多加以区分,而采取更简单的方法。即:除了上述三组对立情况外,全部取「日」根。换句话说,「曰」根只需要在对立情况下才会使用,即:「曰」「汩」「㫚」三个字。
这样一来,可以显著降低使用者的记忆和学习负担。
勹之辨
「旬」的外框「勹」,同「敖」左下的「」都是撇加横折钩。宇浩输入法不做区分。
点之辨
这里对含点字根的识别和归并作出解释。
含点字根
- 单点「丶」和捺「乀」视为同一个字根。
- 相重叠的两点,即「头」「冬」中的部分,和「二」同码位。
- 左对点「冫」和右对点「飞右」,和「二」同码位。
- 下对点「八」为一个字根。
- 上对点「丷」「䒑」「リ」同大码。
- 左「⺦」为一个字根。
- 左三点「氵」都在一个大码。
- 上三点「」都在一个大码。
- 所有四点「灬」都在一个大码。
「为」「卵」等字的两点和「冬」下的两点不同,非连续笔画,且被半包围或全包围分割,故而不认定为「两点」。详「散件不分隔」禁手。
人八入之辨
「人」「八」「入」三字易混,这里做出区分。
左撇右捺
凡左撇不低于右捺,视作「人」根。
凡左撇低于右捺,视作「入」根。
凡左撇右捺分离,视作「八」根。
凡左撇右捺的中间被其他笔画隔开,视作「」根,和「八」归并。
口囗之辨
「口」和「囗」。这两个根如何区分?
答案是,如果方框里有完整的笔画,用「囗」。否则一律用「口」。
例
「国」字的方框中,有完整的笔画,故而必须用「囗」。
「中」字的方框中,虽然「⼁」穿方框而过,但并未被完全包含在方框中。由于方框中没有完整的笔画,故而用「口」。
为防止拆分不直观,此规定也适用于另外几个包含「口」或者封闭空间的字根:「口古合户戶戸目皿罒自見早」等等。
例字
「古」下的「口」中如果包含完整的笔画,应该拆如「十囗」。例如:「鄙」左下方的「口」中有「口」,故而应该拆成「口十囗口阝」。
「合」下的「口」中如果包含完整的笔画,应该拆如「人一囗」。例如:「會」中间的「口」中有「小」,故而应该拆成「人一日」。
一体写就字根
部分字根,不能分成两次书写,必须一体写就,称为一体写就字根。这些字根的特点是存在离散的部件。如果被其他字根穿插,会导致极难辩认。
这部分字根比较少,主要是一些出现散件的字根。这同「散件不分割」禁手类似。包括「貝頁見贝页见」等。
例
「夔」字中的「一自八」不作「頁」字根拆,因为它被「止㔾」穿插。
对称不挤压
对称形态的字根,不允许其中分散的一部分被挤压到一边。
这个规定在常用字中比较少见。
例
「命」不拆「合卩」,而拆「人口一卩」。
