Nature誌の論文はbioRxivにPreprint版があるか?

背景

基盤モデルの発達により論文を扱ってさまざまなことができるようになりました。 しかし、ライフサイエンス領域において未だオープンアクセスが世の主流とは言えません。

そのため論文テキストの解析を行う場合、以下のいずれかの選択をする必要があります。

  1. オープンアクセス論文に限って全文を解析
  2. 有料ジャーナルも含めてTitle, Abstractのみを解析

そして、どちらのアプローチを取っても片手落ち感が出てしまいます。 論文を対象とした解析の話題になると、結局いつも「有料ジャーナルの全文読めないとね...」となるのが定番でした。

きっかけ

先日、文献をLLMで解析されている方とディスカッションをしました。 いつもの如く話題はpaywallに行き着きましたが、有望な情報をいただきました。

「NatureのウェブサイトでOpen Accessと表記がないものでも、bioRxivでタイトルを検索するとPreprintがヒットすることがある」と耳寄り情報。

実際にZoomで画面共有しながらいくつか論文を検索してみたところ、以下の論文はnature.com上ではOpen Accessの表記がありませんが、

https://www.nature.com/articles/s41586-024-07772-8

bioRxivに似たようなタイトルのPreprintがありました。

https://www.biorxiv.org/content/10.1101/2024.01.02.573835v1.full

タイトルと著者、投稿時期からbioRxivにPreprintを投稿したのちに、Natureに投稿したと思われます。

Abstractを比較すると若干の違いがありますが、

左:Nature、右:bioRxiv

Figureはぱっと見、大きな変更はないようです。

NatureのFigure
bioRxivのFigure

これにより、有料ジャーナルの論文はbioRxivにてほぼ同じ内容のPreprintを取得することで代替することができるのではないか、という仮説が立ちました。 あとは、具体的にどれくらいの比率でPreprintが手に入るかが気になります。

方針

  • Step1. 2023年に発行されたNature誌(Volume 613-624)のタイトル、著者を取得
  • Step2. タイトル、著者を元にbioRxivにて検索し、同一の論文を探す

Step1. 2023年に発行されたNature誌(Volume 613-624)のタイトル、著者を取得

nature.com上で検索し、取得しました。合わせてOpen Accessの表記があるかもチェックします。

1159件中、47%の550件がOpen Accessでした。 これは予想よりも多かったです。すでにNature誌に投稿された論文のうち約半数はOpen Accessになっているようです。

分類 件数 割合
Open Access 550 47.5%
not Open Access 609 52.5%
合計 1,159 100%

ちなみに過去20年分も同様に調べたところ、2020年ごろから急に増えていることがわかりました。 転換契約が進んでいるのでしょうか。

Step2. タイトル、著者を元にbioRxivにて検索し、同一の論文を探す

ともあれ、2023年の1,159件についてbioRxivに該当する論文があるかチェックします。

単にタイトルだけで検索すると数百件ヒットすることもあるので、advanced searchでファーストオーサーも検索条件に加えます。 取りこぼしもありそうですが、ノイズを減らすことを優先しました。

検索結果に表示されるタイトル、著者名とnature.comの表記を比較し、一致していると判断すればbioRxivの個別ページのURLを取得します。

ただし、微妙な表記揺れをどこまで許容し、どの程度タイトルおよび著者が一致していれば論文とPreprintが関連性があると判断するか、自前で実装するのはなかなか面倒です。

ここの判断はLLMに任せることとしました。プロンプトはこんな感じです。 ちなみにこのプロンプト自体はClaudeに粗方書いてもらい、多少アウトプットを整形するなどしただけです。

system_prompt = """
You will be given an HTML search result from bioRxiv. This HTML may contain zero or more paper entries. 
Your task is to determine if a specific target paper is included in these search results and, if found, extract its title, authors, and url.

You will be provided with the following information about the target paper:
1. Title
2. Authors (limited to the first, second, and last author)

Follow these guidelines carefully:

1. Title Matching:
   - The title of the target paper may not exactly match the title in the HTML results.
   - Allow for minor variations in formatting or wording.
   - Use your judgment to determine if the titles are sufficiently similar.

2. Author Matching:
   - The provided author list for the target paper is incomplete, containing only the first, second, and last authors.
   - The HTML results will contain the full list of authors for each paper.
   - Check if the provided authors (first, second, and last) are present in the HTML author list, in that order.
   - Do not require an exact match of all authors, as the HTML will contain additional names.

3. URL Extraction:
   - If you find a match based on the title and authors, extract the URL for that paper from the HTML.

4. Output:
   - If a match is found, return the title, authors and url of the matching paper (you have to extract these values from html).
   - If no match is found, indicate that the target paper was not found in the search results.

Analyze the HTML carefully, considering potential variations in formatting and presentation. 
Be thorough in your search to ensure you don't miss a potential match.

You should return the results of the search in the following json format if a match is found:
e.g.
{
    "title": "Pre-T cell receptor self-MHC sampling restricts thymocyte dedifferentiation",
    "authors": "Jonathan S. Duke-Cohan, Aoi Akitsu, Robert J. Mallis, Cameron M. Messier, Patrick H. Lizotte, Wonmuk Hwang, Matthew J. Lang, Ellis L. Reinherz",
    "url": "https://www.biorxiv.org/content/10.1101/2020.07.27.222166v1"
}

If math is not found, return the following json:
{
    "title": "",
    "authors": "",
    "url": ""
}
"""

そしてnot Open Accessの609件を処理した結果、5.9%の36件はbioRxivにてPreprintを確認できました。

分類 件数 割合
Preprint 36 5.9%
no Preprint 573 94.1%
合計 609 100%

モデルはgpt-4o-miniを使い、費用はトータルで$2程度でした。

感想

  • 有料ジャーナルに掲載された論文のPreprint版をbioRxivで探すというアイディアはワクワクしたが、まだまだ頼りにするほど多くはなかった
  • NatureのOpen Accessの割合がほぼ半分まで増えていて驚いた
  • もう数年待てばNature誌で、10年くらい待てばライフサイエンス全体で、論文はOpen Accessが主流になるかもしれない。長い目で期待しましょう
  • 微妙な表記揺れをどこまで許容するかなどはかなり設定が面倒なタスク。荒く解析したい時にはLLMに丸投げすることで圧倒的に工数を削減しつつ、ある程度のクオリティの結果を得られる