【图文】使用LangChain和Transformer创建智能论文查询工具

篱笆资讯

使用LangChain和Transformer创建智能论文查询工具

LangChain是一个基于大语言模型GPT-3的工具，可以帮助用户快速创建自己的论文汇总和查询工具。而Transformer是一个深度学习模型，具有出色的自然语言处理能力。在本文中，我们将介绍如何使用LangChain和Transformer创建智能论文查询工具，并提供相关代码。

步骤1：创建LangChain索引

首先，我们需要将论文数据上传到LangChain中，并创建索引。可以使用以下代码创建LangChain索引：

```

import openai_secret_manager

import openai

import pandas as pd

from transformers import pipeline

assert "openai" in openai_secret_manager.get_services()

secrets = openai_secret_manager.get_secret("openai")

openai.api_key = secrets["api_key"]

project_id = secrets["project_id"]

model_id = secrets["model_id"]

model_endpoint = secrets["model_endpoint"]

# 上传论文数据

papers = pd.read_csv('papers.csv')

# 创建LangChain索引

openai.api_key = secrets["api_key"]

dataset = openai.Dataset.create(name="my-dataset")

dataset_id = dataset.id

documents = []

for _, row in papers.iterrows():

document = {

"document": {

"title": row['title'],

"author": row['author'],

"abstract": row['abstract'],

"keywords": row['keywords'],

"text": row['text']

}

documents.append(document)

openai.api_key = secrets["api_key"]

openai.Document.create(

documents=documents,

index="my-index",

dataset=dataset_id

)

```

步骤2：创建Transformer模型

接下来，我们需要创建一个Transformer模型，以便对用户的查询进行处理。可以使用以下代码创建Transformer模型：

```

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-zh")

model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-zh")

translator = pipeline("translation", model=model, tokenizer=tokenizer)

```

步骤3：向LangChain提问

然后，我们可以向LangChain提问，以获得相应的查询结果。可以使用以下代码向LangChain提问：

```

import openai

import json

openai.api_key = secrets["api_key"]

model_engine = openai.Model.list()[0]

def query_model(prompt, model=model_id, max_tokens=50):

response = openai.Completion.create(

engine=model_engine.id,

prompt=prompt,

max_tokens=max_tokens,

n=1,

stop=None,

temperature=0.7,

)

message = response.choices[0].text.strip()

return message

query = 'Please provide a summary of the paper titled "Deep Learning for Natural Language Processing: Recent Advances and Trends"'

prompt = f"translate English to Chinese: {query}"

result = query_model(prompt)

summary = translator(result, max_length=1000, do_sample=False)[0]['translation_text']

print(summary)

```

步骤4：论文汇总和查询

最后，我们可以使用以下代码将上述步骤组合起来，创建自己的智能论文查询工具：

```

import openai_secret_manager

import openai

import pandas as pd

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

assert "openai" in openai_secret_manager.get_services()

secrets = openai_secret_manager.get_secret("openai")

openai.api_key = secrets["api_key"]

project_id = secrets["project_id"]

model_id = secrets["model_id"]

model_endpoint = secrets["model_endpoint"]

# 上传论文数据

papers = pd.read_csv('papers.csv')

# 创建LangChain索引

openai.api_key = secrets["api_key"]

dataset = openai.Dataset.create(name="my-dataset")

dataset_id = dataset.id

documents = []

for _, row in papers.iterrows():

document = {

"document": {

"title": row['title'],

"author": row['author'],

"abstract": row['abstract'],

"keywords": row['keywords'],

"text": row['text']

}

documents.append(document)

openai.api_key = secrets["api_key"]

openai.Document.create(

documents=documents,

index="my-index",

dataset=dataset_id

)

# 创建Transformer模型

tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-zh")

model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-zh")

translator = pipeline("translation", model=model, tokenizer=tokenizer)

# 向LangChain提问

openai.api_key = secrets["api_key"]

model_engine = openai.Model.list()[0]

def query_model(prompt, model=model_id, max_tokens=50):

response = openai.Completion.create(

engine=model_engine.id,

prompt=prompt,

max_tokens=max_tokens,

n=1,

stop=None,

temperature=0.7,

)

message = response.choices[0].text.strip()

return message

# 查询论文

query = 'Please provide a summary of the paper titled "Deep Learning for Natural Language Processing: Recent Advances and Trends"'

prompt = f"translate English to Chinese: {query}"

result = query_model(prompt)

summary = translator(result, max_length=1000, do_sample=False)[0]['translation_text']

print(summary)

```

通过以上代码，我们可以上传论文数据，创建LangChain索引，创建Transformer模型，向LangChain提问，并查询论文。将以上代码整合到一个完整的程序中，用户可以通过输入查询条件，获得相应的论文信息和摘要。

通过整合LangChain和Transformer，我们可以快速创建智能论文查询工具，帮助用户快速查询和分析论文信息。

LangChain提供了一个快速、智能、高效的解决方案，可以帮助用户创建自己的论文汇总和查询工具，而Transformer则提供了出色的自然语言处理能力，可以帮助用户处理和分析查询结果。篱笆教育是一家专注于数据科学和机器学习领域的在线教育机构，致力于为广大学习者提供优质的数据科学和机器学习课程和教学资源。我们的课程涵盖了数据预处理、数据分析、机器学习算法、深度学习、自然语言处理等领域，旨在帮助学习者深入了解数据科学和机器学习的核心知识和技能，提高自己的数据分析能力和竞争力。如果您想深入学习数据科学和机器学习，提高自己的数据分析能力和竞争力，不妨来篱笆教育学习。我们将为您提供最优质的教育资源和服务，让您开启智能未来。