プレーンテキストで与えられている学名中の 属名、種小名などをイタリック化することは 自動的にできるか?
例えば、
Langia zenzeroides nawai Rothschild & Jordan, 1903
→
Langia zenzeroides nawai Rothschild & Jordan, 1903
という変換を単純なスクリプトで実装できるか?
問題点の一つは小文字で始まる人名があることで、 例えば以下の学名の3番目の語“le”は著者名の一部なのでイタリックにはしないが、
Gordonia lacunae le Roes et al., 2009
次の学名の3番目の同じ語“le”は亜種名なのでイタリックにする必要がある。
Stichophthalma neumogeni le Joicey & Talbot, 1921
この“le”は、貴族を表す接頭辞らしく、あるサイト(後述)で貴族称号と 呼ばれていたのでここでもそう呼ぶことにする。
経験的には問題は少なそうと思えるが実際どうなのか?
本レポートでは公開されている学名のデーターベースを使用し、 貴族称号の種類とそれが亜種名や種小名に使われていないかどうかを調べたことを まとめた。
Catalog of Lifeから学名がいっぱい収録されたデーターベース(2018-08-30)を使用。 このデーターベースには、動物界、植物界などの学名が多数収録されている。 そのうち有効な名前(200万件ほど)について調べた。
展開すると中に'taxa.txt'という1.5GBほどのTVFファイルがある。 このTVFファイルを元に簡単なPerlスクリプトを作って調べた。
貴族称号の種類はそれほど多くはなかった(15種類ほど)。
da de del delle den di dos du la le ten ter van von zur
貴族称号が亜種名に使われているのは1種類、 種小名に使われているのは10種ほど。 したがって、亜種名の位置に貴族称号が表れたら それは著者名と判断してもほとんどの場合は問題なさそうである。
'de'とか'von'とか。 貴族であることを示すための接頭辞らしい。 英語では“Nobiliary particle”という。
例えば、フランスのド・ゴール元大統領 (Charles André Joseph Pierre-Marie de Gaulle)の“de ”。
日本語で何というのか?
以下のサイトでは『貴族称号』とされているので、これに従ったが、 あまり一般的でないかもしれない。
動物の場合はラテン文字26文字(a-z)(ICZN:Art.11.2)と、 ハイフン(-)(ICZN:Art.27)が使える。
植物の場合(ICBN)は ラテン文字26文字(a-z)とハイフン(-)とトレマ付き文字(äöü等)が使えるようだ。
データーベースのscientifiNameAuthorshipフィールドの先頭から 以下のパターンを持つ文字列を取り出した。 ただしシノニムを含む有効な名前以外は無視した。
/^([a-z\-äëïöüÿ]+)\s/
結果は以下の通り。
NP | Count | Example | |
---|---|---|---|
*1 | bethune- | 2 | Miresa melanosticta bethune- Baker, 1909 |
da | 152 | Xenylla californica da Gama, 1976 | |
de | 2795 | Scutigera nossibei de Saussure et Zehntner 1902 | |
del | 14 | Chubutisaurus insignis del Corro, 1975 | |
delle | 2 | Balanoglossus clavigerus delle Chiaje, 1829 | |
den | 5 | Tipula (Tipula) lourensi den Hollander, 1975 | |
di | 2 | Odontophrynus achalensis di Tada, Barla, Martori and Cei, 1984 | |
dos | 10 | Oeneis mckinleyensis dos Passos, 1949 | |
du | 22 | Ammophila vulcania du Buysson, 1897 | |
*1 | gentili | 2 | Austrocossus minutus gentili |
la | 18 | Aerangis maireae la Croix & J.Stewart | |
le | 7 | Actinomadura rudentiformis le Roes and Meyers, 2007 | |
*1 | majus | 1 | Diplodinium rangiferi majus |
*2 | se | 1 | Parasemia plantaginis hesselbarthi se Freina, 1981 |
*3 | sensu | 70 | Bursaria patula sensu Dujardin |
ten | 9 | Aspidosiphon (Paraspidosiphon) fischeri ten Broeke, 1925 | |
ter | 17 | Haplochromis katunzii ter Huurne & Witte, 2010 | |
van | 2818 | Otitesella nefdti van Noort, 1997 | |
*2 | vom | 1 | Ochrostigma velitaris vom Rottemburg?, 1775? |
von | 378 | Schizotaenia aequalis von Porat (1894) | |
zur | 102 | Antarcturus oryx zur Strassen, 1902 |
この中で、*1と*2は間違いっぽい。 *3のsensuについては以下のWikipediaを参照。
残りの無印のもの15個が貴族称号として使わていた。
データーベース中のinfraspecificEpithetに 貴族称号が含まれているか調べた。
とりあえず以下の一つだけ。
le | Lepidoptera | Stichophthalma neumogeni le Joicey & Talbot, 1921 |
とりあえず問題ないと思うが 亜種区分されると原亜種として亜種名には種小名が使われるので 念のため調べてみたところ 以下の15種が見つかった。
NP | Order | Scientific Name |
---|---|---|
da | Lepidoptera | Semiothisa da Dyar, 1916 |
den | Amphipoda | Gnathopleustes den (J. L. Barnard, 1969) |
den | Plecoptera | Agnetina den Cao, T.K.T. & Bae, 2006 |
dos | Hymenoptera | Meteorus dos Zitani, 1998 |
dos | Lepidoptera | Stenoecia dos Freyer, 1838 |
du | Diptera | Chrysosoma du Curran, 1929 |
du | Diptera | Sympycnus du Curran, 1929 |
la | Araneae | Leptonetela la Wang & Li, 2017 |
van | Araneae | Zodarion van Bosmans, 2009 |
van | Orthoptera | Nocaracris van Ünal, 2016 |
本件についてはほとんど問題なさそうということが明らかになったが、 範囲を広げると(例えば雑種とか)まだまだわからないことだらけである。
戦いはまだ終わらない…