TAMAGARO.NET

学名の自動イタリック化は可能なのか?(その1)

はじめに

プレーンテキストで与えられている学名中の 属名、種小名などをイタリック化することは 自動的にできるか?

例えば、

Langia zenzeroides nawai Rothschild & Jordan, 1903

Langia zenzeroides nawai Rothschild & Jordan, 1903

という変換を単純なスクリプトで実装できるか?

問題点の一つは小文字で始まる人名があることで、 例えば以下の学名の3番目の語“le”は著者名の一部なのでイタリックにはしないが、

Gordonia lacunae le Roes et al., 2009

次の学名の3番目の同じ語“le”は亜種名なのでイタリックにする必要がある。

Stichophthalma neumogeni le Joicey & Talbot, 1921

この“le”は、貴族を表す接頭辞らしく、あるサイト(後述)で貴族称号と 呼ばれていたのでここでもそう呼ぶことにする。

経験的には問題は少なそうと思えるが実際どうなのか?

本レポートでは公開されている学名のデーターベースを使用し、 貴族称号の種類とそれが亜種名や種小名に使われていないかどうかを調べたことを まとめた。

手法

Catalog of Lifeから学名がいっぱい収録されたデーターベース(2018-08-30)を使用。 このデーターベースには、動物界、植物界などの学名が多数収録されている。 そのうち有効な名前(200万件ほど)について調べた。

展開すると中に'taxa.txt'という1.5GBほどのTVFファイルがある。 このTVFファイルを元に簡単なPerlスクリプトを作って調べた。

結論

貴族称号の種類はそれほど多くはなかった(15種類ほど)。

da de del delle den di dos du la le ten ter van von zur

貴族称号が亜種名に使われているのは1種類、 種小名に使われているのは10種ほど。 したがって、亜種名の位置に貴族称号が表れたら それは著者名と判断してもほとんどの場合は問題なさそうである。

貴族称号について

'de'とか'von'とか。 貴族であることを示すための接頭辞らしい。 英語では“Nobiliary particle”という。

例えば、フランスのド・ゴール元大統領 (Charles André Joseph Pierre-Marie de Gaulle)の“de ”。

日本語で何というのか?

以下のサイトでは『貴族称号』とされているので、これに従ったが、 あまり一般的でないかもしれない。

学名に許される文字種

動物の場合はラテン文字26文字(a-z)(ICZN:Art.11.2)と、 ハイフン(-)(ICZN:Art.27)が使える。

植物の場合(ICBN)は ラテン文字26文字(a-z)とハイフン(-)とトレマ付き文字(äöü等)が使えるようだ。

貴族称号の種類

データーベースのscientifiNameAuthorshipフィールドの先頭から 以下のパターンを持つ文字列を取り出した。 ただしシノニムを含む有効な名前以外は無視した。

 /^([a-z\-äëïöüÿ]+)\s/

結果は以下の通り。

NP Count Example
*1 bethune- 2 Miresa melanosticta bethune- Baker, 1909
da 152 Xenylla californica da Gama, 1976
de 2795 Scutigera nossibei de Saussure et Zehntner 1902
del 14 Chubutisaurus insignis del Corro, 1975
delle 2 Balanoglossus clavigerus delle Chiaje, 1829
den 5 Tipula (Tipula) lourensi den Hollander, 1975
di 2 Odontophrynus achalensis di Tada, Barla, Martori and Cei, 1984
dos 10 Oeneis mckinleyensis dos Passos, 1949
du 22 Ammophila vulcania du Buysson, 1897
*1 gentili 2 Austrocossus minutus gentili
la 18 Aerangis maireae la Croix & J.Stewart
le 7 Actinomadura rudentiformis le Roes and Meyers, 2007
*1 majus 1 Diplodinium rangiferi majus
*2 se 1 Parasemia plantaginis hesselbarthi se Freina, 1981
*3 sensu 70 Bursaria patula sensu Dujardin
ten 9 Aspidosiphon (Paraspidosiphon) fischeri ten Broeke, 1925
ter 17 Haplochromis katunzii ter Huurne & Witte, 2010
van 2818 Otitesella nefdti van Noort, 1997
*2 vom 1 Ochrostigma velitaris vom Rottemburg?, 1775?
von 378 Schizotaenia aequalis von Porat (1894)
zur 102 Antarcturus oryx zur Strassen, 1902

この中で、*1と*2は間違いっぽい。 *3のsensuについては以下のWikipediaを参照。

残りの無印のもの15個が貴族称号として使わていた。

亜種名に貴族称号

データーベース中のinfraspecificEpithetに 貴族称号が含まれているか調べた。

とりあえず以下の一つだけ。

le Lepidoptera Stichophthalma neumogeni le Joicey & Talbot, 1921

種小名に貴族称号

とりあえず問題ないと思うが 亜種区分されると原亜種として亜種名には種小名が使われるので 念のため調べてみたところ 以下の15種が見つかった。

NP Order Scientific Name
da Lepidoptera Semiothisa da Dyar, 1916
den Amphipoda Gnathopleustes den (J. L. Barnard, 1969)
den Plecoptera Agnetina den Cao, T.K.T. & Bae, 2006
dos Hymenoptera Meteorus dos Zitani, 1998
dos Lepidoptera Stenoecia dos Freyer, 1838
du Diptera Chrysosoma du Curran, 1929
du Diptera Sympycnus du Curran, 1929
la Araneae Leptonetela la Wang & Li, 2017
van Araneae Zodarion van Bosmans, 2009
van Orthoptera Nocaracris van Ünal, 2016

おわりに

本件についてはほとんど問題なさそうということが明らかになったが、 範囲を広げると(例えば雑種とか)まだまだわからないことだらけである。

戦いはまだ終わらない…