論文の著作権や再利用について

fuku株式会社の鈴木貴之です。ライフサイエンス分野のデータ利活用促進を目指して研究を行っています。最近は特に論文内で表現される情報の再利用促進に興味を持っています。

論文の発行数は年々増えており、一部の研究者からは人間の手に負える出版量を超えているという意見も出てきています(例: https://arxiv.org/pdf/2309.15884)。膨大となりつつある論文情報ですが、その中から適切な論文に網羅的かつ効率的にアクセスし利活用できるかどうかが、研究促進や発展に欠かせないと考えています。

先行研究の調査や引用のために論文が用いられることはもちろんですが、近年では、先行知見の統合解析、自然言語処理や大規模言語モデルによる知識抽出、さらには機械学習のための学習データ等としても再利用される機会が増えているように思います。こうした変化も踏まえ、改めて科学論文の著作権的な取り扱いや、再利用の実態について調査してみました。

本記事では、2025年5月時点の現在における下記3点について調査した結果を共有します。

  1. 科学論文のライセンスについて
  2. 利活用可能な論文数の増加について
  3. 大規模な論文再活用の事例

1 科学論文のライセンスについて

科学論文は、文章や図を用いて研究成果を発表した表現物であり著作物として認識されます。よって論文の創作と同時に作者に著作権が発生します。その著作権の取り扱いは、主に従来型(購買型・クローズド)、オープンアクセス誌(OA)、ハイブリッドオープンアクセス誌(ハイブリッドOA)の3つの形態に現状では区分されています。

従来型(購読型・クローズド)

従来の形式では、科学誌に論文を投稿する際に出版社との間で著作権譲渡契約が結ばれ、著作権の一部または全部が出版社に移転することが一般的です。出版社がその論文の発行・配信および商業的利用の管理権を保持する形になります。

例えば、AAASが発行する Science は主に購読型の論文誌として知られています。多くの場合、著者は論文の著作権をAAASに譲渡する契約を結び、論文は購読者のみがアクセスできる形式で公開されます。基本的には、出版社の許可がなければ、こうした論文をテキストマイニング等の機械的な論文再利用の対象として利用することはできません。

オープンアクセス誌(OA)

近年では、更なる研究成果の共有と再利用を促進するためのオープンサイエンスの潮流を受け、誰でもアクセス可能なオープンアクセス論文を出版する論文誌(オープンアクセス誌)が増えています。オープンアクセス誌では、著者がAPC(Article Processing Charge)を支払うことで読者からの購読料は不要となっています。また、出版社への著作権譲渡ではなく、著者が一定の権利を保持する契約形態となっています。著者は論文データの再利用条件を指定できるようになっており、その際に Creative Commons(CC)ライセンスが多く採用されています。

CCライセンスには「表示(BY)」「非営利(NC)」「改変禁止(ND)」「継承(SA)」の4つの基本要素があり、それらを組み合わせた6種類の主要なライセンス形態が提供されています。詳細は Creative Commons に記載されています。

例えば、Springer Natureが発行する Nature Communications および Scientific Data は、すべての論文がオープンアクセスとして公開される完全OA誌(Gold Open Access Journal)です。例えばNature Communicationsでは、CC BYライセンス化での出版を標準とし、必要に応じてCC BY-NC-NDやCC BY-NC-SA等の別ライセンスを選択することも可能という規約になっています。

ハイブリッドオープンアクセス誌(ハイブリッドOA)

オープンアクセス誌は全ての論文において著者のAPC支払いが必須である一方で、ハイブリッドオープンアクセス誌(ハイブリッドOA)は、希望する場合のみ比較的高額なAPCを支払うことで、その論文のみをオープンアクセス化できる仕組みです。この場合も著作権の扱いはオープンアクセス誌と同じで、著作権は著者に残り非独占的ライセンスを出版社に許諾するという形になります。

例えば、Springer Natureが発行する Nature Biotechnology は基本的に購読型のジャーナルですが、著者がAPCを支払えばOA論文として出版することが可能です。

論文のライセンスに関する補足情報

  • 近年は Rights Retention Strategy(RRS)も注目されています。これは、著者が特定のライセンスによる公開権を投稿前に明示し、たとえ購読型雑誌であっても、自らのリポジトリ等でOAとして公開することを可能にする手法です。ただし、一部の出版社ではこの方針を認めておらず、論文の受理自体が拒否される場合もあるようです。

  • 論文誌からオープンアクセスとして公開される論文はGold Open Access、論文誌ページ以外の場所で自ら公開したOA論文のことをGreen Open Accessと呼びます。Green Open Accessについては、出版社から定められているGreen OAによる猶予期間(エンバーゴ期間)を超えてから公開することが可能です。

  • アメリカのライフサイエンス研究最大の資金提供機関であるNIH(National Institutes of Health)は、2025年7月1日からオープンアクセスに関するルールを改定します。NIHの資金を受けた研究成果は出版と同時にOAで公開することが義務化(これまでは最大12ヶ月間のエンバーゴ期間が許容されていた)されます。今後も更なる論文のOA化が進むことが予想されます。 NIH Public Access Policy Overview | Data Sharing https://osp.od.nih.gov/policies/public-access/

テキストデータマイニング(TDM)の可否

テキストデータマイニング(TDM)の可否については、国ごとの法制度により微妙に異なるようで、統一見解はないようです。よって、TDMにおいては出版社のポリシーや個別のライセンス条件に留意する必要があります。例えば、商用利用目的でのTDMにおいては、ライセンスの確認が必要です(例:CCライセンスのNCが付与されている論文の場合は、商用利用目的でのTDMは不可)。また、TDM後の資料は、場合によりAdapted Materials(著作物の改変物)に該当するため、それを共有・公開する際には、TDM前の著作物に付与されているライセンスの確認が重要となります(例:CCライセンスのNDが付与されている場合は、改変物の共有は不可)。

※ Adapted Materialsは、「原著作物を改変・翻案して新たに作成された著作物」を指します。例えば、原著論文からTDMを通じて新たな知識表現(例:ナレッジグラフや関係抽出表など)を生成した場合、それが元の構造や表現を保持している場合に、Adapted Materialとみなされる可能性が高いと考えられます。一方で、TDMによって得られたデータから解釈した結果、例えば、統計的な傾向、単語の頻度情報など、原文の構造や著作性を含まないものはAdapted Materialsとはみなされません。 Content mining - Creative Commons

小括(1 科学論文のライセンスについて)

小括すると、論文誌には購買型、完全OA型、ハイブリッドOA型の3種類が存在します。論文の機械学習やTDMへの利用可否は、主に論文に付与されたライセンスと著者・出版社のポリシーに依存します。例えば、本記事の中盤で紹介させていただくPubMed Central OAサブセットやEurope PMC OAサブセットのようにTDMが許可された論文群もありますが、NC(非営利)やND(改変禁止)付きの場合は慎重な取り扱いが必要です。

2 利活用可能な論文数の増加について

PubMedはライフサイエンス分野において頻繁に使用される文献データベースかと思います。U.S. National Institutes OF Health’s National Library OF Medicine (NIH/NLM) により管理されています。2025年5月12日時点における論文収載数は、3800万を超える数、38,794,907件です。2000-2024年のPubMed論文数の推移はFig1となっており、2000年の頃の約3倍の論文が毎年PubMedに登録されています。2024年のPubMedへ登録された論文数を1,700,000件とすると、1分に約3件の論文がPubMedに登録されている計算となり、近年の論文数の増加は著しいことがわかります。

Fig1: 2000-2024年のPubMed論文数の推移

PubMed Central (PMC) は、ライフサイエンス論文の全文を無料で公開しているサービスです。これら論文は全て無料で読むことは可能ですが、機械学習テキストマイニング等のために再利用ができる論文はその中の一部であり、PMC Open Access Subsetと呼ばれています。PMCで”open access[filter] “と検索するとそのSubsetにアクセスすることができ、2025年5月22日時点で、約690万の文献がSubsetに含まれています。PMC Open Access論文数の2000-2024年の推移を可視化すると、Fig2のようになっています。PubMedにも増して顕著な増加傾向が確認されます。最も登録が多い2022年の論文数834,545件は、2000年の5,618件の約148倍です。PubMedと同様に2023年以降の論文数の増加率は鈍化しつつあることがわかりますが、依然として多くの論文が毎年PMCに登録されており、このペースでいくと、大規模に利活用できる論文数は今後も日々増大していくことが予想されます。

Fig2: The PMC Open Access論文数の2000-2024年の推移

PMC Open Access Subsetは、主にEntrez Programming Utilities (E-utilities)と呼ばれるインタフェースを使ってアクセスすることが一般的です。E-utilitiesを使うことでOA論文を機械的に処理することが可能となっています。また、私個人としてはあまり使った経験がないのですが、FTP Service, BioC API Serviceなども機械的なアクセス手段として用意されているようです。

Europe PMCは、ヨーロッパのEuropean Bioinformatics Institute (EBI) で管理される文献データベースです。2025年5月23日時点で、PubMedを超える4600万件以上の文献が登録されています。OAのフルテキスト論文は約107万件です(https://europepmc.org/search?query=HAS_FT:Y)。Fig3のような論文数の推移がグラフとして下記URLに載っています(https://europepmc.org/downloads/openaccess)。Europe PMCにおいても、専用のAPIFTPサイトを通じて、OA論文を機械的に再活用することが可能です。

Fig3: Europe PMCにおける論文数の推移

3 大規模な論文再活用の事例

今回は、大規模に論文情報を活用した研究をいくつか調査してみました。調査結果を簡単に共有します。

Data-driven historical characterization of epilepsy-associated genes (https://doi.org/10.1016/j.ejpn.2022.12.005)

こちらの論文では8,032件のPubMed論文要旨を対象として、解析を行い、脳の疾患であるてんかんに関連する遺伝子を網羅的に探索しています。探索条件を少し緩めと厳しめの2パターン用意し、2種類の関連遺伝子群を抽出しました。厳しめの探索パターンでは、8,032件の論文解析結果に加え、手動での品質管理も実施することにより、信頼性が高い遺伝子が抽出されており、その中には既知の遺伝子に加えて、臨床パネルには含まれていない遺伝子も見つかったようです。大規模な文献情報の解析が、機能性遺伝子の抽出に活用されています。

Systematic illumination of druggable genes in cancer genomes (https://doi.org/10.1016/j.celrep.2022.110400)

この研究は新規のPotential Druggable Genes(PDGs: 薬剤で標的にできる遺伝子の候補)を探索した結果を報告しています。16のがん関連特徴を使うことで、6083個のPDGsのそれぞれを評価して、スコア付けしています。つまりPDGsスコアの高い遺伝子は、がん治療における有望な遺伝子である可能性が高いことになります。文献情報が有効活用されたのはこの後になっています。有望な遺伝子について、どれだけの文献で何回出現したかを調査しています。つまり文献データベースでの出現率が低い遺伝子は、これまであまり着目されていなかった遺伝子といえるため、未開拓だが治療標的としては有望な遺伝子といえます。こちらの研究においても、大規模な文献情報の解析により見過ごされている遺伝子の発見に貢献をしています。

A study on large-scale disease causality discovery from biomedical literature (https://doi.org/10.1186/s12911-025-02893-0)

SemRepと呼ばれる、医学論文からルールベースで疾患の関係性を抽出するツールにより、新たな疾患の関係性を発見する土台を作ったという報告論文になります。専門家の詳細な語彙ルール評価により因果関係抽出ルールを進化させ、SemRepの精度が最大96.97%まで向上されました。精度の上がったSemRepを使うことで、実際にこれまで未着目である因果関係の発見が見込めるようです。例として、肥満と閉塞性睡眠時無呼吸症候群についてなどの「高頻度差の双方向性疾患因果関係性」というものが挙げられています。一方の方向への因果は強いが、逆方向への因果は弱い関係性を示します。また、歯周病が稀に敗血症性肺塞栓症(SPE)の原因となるといったような「稀な因果関係」についてもこれまでより抽出が可能になるようです。OA論文サブセットを知識発見の基盤として活用し、さらに論文情報の構造化により有用知見の発見に繋げた例といえるかと思います。

まとめ

今回は、論文のライセンス、利活用可能な論文数の増加、大規模な論文活用事例、の3点について共有させていただきました。まだまだクローズドな論文が多い現状もありますが、比較的オープンアクセス論文の増加量の方が多く、大規模に解析できる論文が増えてきているかと思います。論文で表現されている情報を統合的に再解析し新たな視点で知識抽出を行うことで、これまでに気づけなかった仮説や知見が生まれる可能性があると考えています。