Nature誌の論文はbioRxivにPreprint版があるか?

背景

基盤モデルの発達により論文を扱ってさまざまなことができるようになりました。 しかし、ライフサイエンス領域において未だオープンアクセスが世の主流とは言えません。

そのため論文テキストの解析を行う場合、以下のいずれかの選択をする必要があります。

  1. オープンアクセス論文に限って全文を解析
  2. 有料ジャーナルも含めてTitle, Abstractのみを解析

そして、どちらのアプローチを取っても片手落ち感が出てしまいます。 論文を対象とした解析の話題になると、結局いつも「有料ジャーナルの全文読めないとね...」となるのが定番でした。

きっかけ

先日、文献をLLMで解析されている方とディスカッションをしました。 いつもの如く話題はpaywallに行き着きましたが、有望な情報をいただきました。

「NatureのウェブサイトでOpen Accessと表記がないものでも、bioRxivでタイトルを検索するとPreprintがヒットすることがある」と耳寄り情報。

実際にZoomで画面共有しながらいくつか論文を検索してみたところ、以下の論文はnature.com上ではOpen Accessの表記がありませんが、

https://www.nature.com/articles/s41586-024-07772-8

bioRxivに似たようなタイトルのPreprintがありました。

https://www.biorxiv.org/content/10.1101/2024.01.02.573835v1.full

タイトルと著者、投稿時期からbioRxivにPreprintを投稿したのちに、Natureに投稿したと思われます。

Abstractを比較すると若干の違いがありますが、

左:Nature、右:bioRxiv

Figureはぱっと見、大きな変更はないようです。

NatureのFigure
bioRxivのFigure

これにより、有料ジャーナルの論文はbioRxivにてほぼ同じ内容のPreprintを取得することで代替することができるのではないか、という仮説が立ちました。 あとは、具体的にどれくらいの比率でPreprintが手に入るかが気になります。

方針

  • Step1. 2023年に発行されたNature誌(Volume 613-624)のタイトル、著者を取得
  • Step2. タイトル、著者を元にbioRxivにて検索し、同一の論文を探す

Step1. 2023年に発行されたNature誌(Volume 613-624)のタイトル、著者を取得

nature.com上で検索し、取得しました。合わせてOpen Accessの表記があるかもチェックします。

1159件中、47%の550件がOpen Accessでした。 これは予想よりも多かったです。すでにNature誌に投稿された論文のうち約半数はOpen Accessになっているようです。

分類 件数 割合
Open Access 550 47.5%
not Open Access 609 52.5%
合計 1,159 100%

ちなみに過去20年分も同様に調べたところ、2020年ごろから急に増えていることがわかりました。 転換契約が進んでいるのでしょうか。

Step2. タイトル、著者を元にbioRxivにて検索し、同一の論文を探す

ともあれ、2023年の1,159件についてbioRxivに該当する論文があるかチェックします。

単にタイトルだけで検索すると数百件ヒットすることもあるので、advanced searchでファーストオーサーも検索条件に加えます。 取りこぼしもありそうですが、ノイズを減らすことを優先しました。

検索結果に表示されるタイトル、著者名とnature.comの表記を比較し、一致していると判断すればbioRxivの個別ページのURLを取得します。

ただし、微妙な表記揺れをどこまで許容し、どの程度タイトルおよび著者が一致していれば論文とPreprintが関連性があると判断するか、自前で実装するのはなかなか面倒です。

ここの判断はLLMに任せることとしました。プロンプトはこんな感じです。 ちなみにこのプロンプト自体はClaudeに粗方書いてもらい、多少アウトプットを整形するなどしただけです。

system_prompt = """
You will be given an HTML search result from bioRxiv. This HTML may contain zero or more paper entries. 
Your task is to determine if a specific target paper is included in these search results and, if found, extract its title, authors, and url.

You will be provided with the following information about the target paper:
1. Title
2. Authors (limited to the first, second, and last author)

Follow these guidelines carefully:

1. Title Matching:
   - The title of the target paper may not exactly match the title in the HTML results.
   - Allow for minor variations in formatting or wording.
   - Use your judgment to determine if the titles are sufficiently similar.

2. Author Matching:
   - The provided author list for the target paper is incomplete, containing only the first, second, and last authors.
   - The HTML results will contain the full list of authors for each paper.
   - Check if the provided authors (first, second, and last) are present in the HTML author list, in that order.
   - Do not require an exact match of all authors, as the HTML will contain additional names.

3. URL Extraction:
   - If you find a match based on the title and authors, extract the URL for that paper from the HTML.

4. Output:
   - If a match is found, return the title, authors and url of the matching paper (you have to extract these values from html).
   - If no match is found, indicate that the target paper was not found in the search results.

Analyze the HTML carefully, considering potential variations in formatting and presentation. 
Be thorough in your search to ensure you don't miss a potential match.

You should return the results of the search in the following json format if a match is found:
e.g.
{
    "title": "Pre-T cell receptor self-MHC sampling restricts thymocyte dedifferentiation",
    "authors": "Jonathan S. Duke-Cohan, Aoi Akitsu, Robert J. Mallis, Cameron M. Messier, Patrick H. Lizotte, Wonmuk Hwang, Matthew J. Lang, Ellis L. Reinherz",
    "url": "https://www.biorxiv.org/content/10.1101/2020.07.27.222166v1"
}

If math is not found, return the following json:
{
    "title": "",
    "authors": "",
    "url": ""
}
"""

そしてnot Open Accessの609件を処理した結果、5.9%の36件はbioRxivにてPreprintを確認できました。

分類 件数 割合
Preprint 36 5.9%
no Preprint 573 94.1%
合計 609 100%

モデルはgpt-4o-miniを使い、費用はトータルで$2程度でした。

感想

  • 有料ジャーナルに掲載された論文のPreprint版をbioRxivで探すというアイディアはワクワクしたが、まだまだ頼りにするほど多くはなかった
  • NatureのOpen Accessの割合がほぼ半分まで増えていて驚いた
  • もう数年待てばNature誌で、10年くらい待てばライフサイエンス全体で、論文はOpen Accessが主流になるかもしれない。長い目で期待しましょう
  • 微妙な表記揺れをどこまで許容するかなどはかなり設定が面倒なタスク。荒く解析したい時にはLLMに丸投げすることで圧倒的に工数を削減しつつ、ある程度のクオリティの結果を得られる

LangChainを使ったSPARQLクエリ生成

はじめに

fuku株式会社にてインターンをしています、鈴木です。本業は広島大学のゲノム情報科学研究室にて大学院生をしております。研究を進める中で「文献からの情報抽出」や「LLMの活用」に興味を持ち、関連の深いfuku株式会社で働かせていただいています。

本記事では、LLMを活用することで、自然言語を入力とし、適切なSPARQL(グラフデータベースへのクエリ文)を出力できるかどうかを試した過程を公開します。

背景・課題

グラフデータベース(RDF)にデータを問い合わせる際には、SPARQLと呼ばれるRDF専用の問い合わせ言語を使い、クエリを作る必要があります。

例えば、日本版DBpedia(wikipediaの一部)に対して、ラグビー日本代表選手一覧を取得するためのSPARQLクエリは下記のようになります。

PREFIX category: <http://ja.dbpedia.org/resource/Category:>
PREFIX dcterms: <http://purl.org/dc/terms/>

SELECT  ?rugger_man
WHERE
{
  ?rugger_man  dcterms:subject  category:ラグビー日本代表選手 .  
}
続きを読む

【学会データベース構築 第1回】LangChainとPydanticによる構造化

はじめに

初めまして、fuku株式会社 代表取締役の山田です。本連載は学会の講演情報を自動で収集し、データベース化する過程の試行錯誤を公開するものです。

身近なニーズがある、個人的に関心があるなどの理由で学会の講演情報を対象としていますが、本企画の真の目的は多様かつ非構造的なテキスト情報を統一的なフォーマットに整形することができるか可能性を探ることにあります。本記事に辿り着いた方の中には論文、実験ノート、社内文書などの多様なテキストを取り扱いたいと考えている方がいらっしゃるかと思います。本企画の内容が、皆様の参考になれば幸いです。

背景・課題

発端は製薬企業の方とお話をしていた時に「学会の講演情報を調べるのが大変」と伺ったことになります。事情を深堀りしてみると以下のことが判明しました。

  • 担当する疾患領域において誰が発信力を持っているか、先生同士のパワーバランス・勢力図を知りたい
  • どの先生が該当疾患領域のどのような点に強みを持っているのか知りたい(e.g. 消化器症状に詳しい、患者さんとのつながりが強い、海外への発信力がある)
  • これらの情報を得るために学会、論文、科研費ガイドライン、研究班を調査する必要がある
    • 論文、科研費PubMed、KAKENで網羅的に検索可能
    • ガイドライン、研究班は調べればすぐに情報を取得可能
    • 学会は網羅的な調査が困難
      • 多くの疾患は複数の領域・学会にまたがる
      • 領域・学会を横断的に検索できる手段がない(一部サービスはあるがカバー範囲や更新頻度が不十分)
      • 以上の理由により、個別の学会ページでキーワード検索をする必要があり調査に時間がかかる

そこで2022年5月に何件かの学会の講演情報を試しにスクレイピングしてみましたが、以下の理由で頓挫しました。

続きを読む