Refactor integration test (#1922)

- Make the test support other languages - Fetch tetst asset on-the-fly

Refactor integration test (#1922)
- Make the test support other languages - Fetch tetst asset on-the-fly
19d8f1c2 · moto · GitHub · 716aa416 · 19d8f1c2 · 19d8f1c2
Unverified Commit 19d8f1c2 authored Oct 22, 2021 by moto Committed by GitHub Oct 22, 2021
3 changed files
--- a/test/integration_tests/conftest.py
+++ b/test/integration_tests/conftest.py
 import torch
-from torchaudio_unittest.common_utils import get_asset_path
+import requests
 import pytest
@@ -32,6 +32,22 @@ def ctc_decoder():
    return GreedyCTCDecoder
+_FILES = {
+    'en': 'Lab41-SRI-VOiCES-src-sp0307-ch127535-sg0042.flac',
+}
 @pytest.fixture
-def sample_speech_16000_en():
+def sample_speech(tmp_path, lang):
-    return get_asset_path('Lab41-SRI-VOiCES-src-sp0307-ch127535-sg0042.flac')
+    if lang not in _FILES:
+        raise NotImplementedError(f'Unexpected lang: {lang}')
+    filename = _FILES[lang]
+    path = tmp_path.parent / filename
+    if not path.exists():
+        url = f'https://download.pytorch.org/torchaudio/test-assets/{filename}'
+        print(f'downloading from {url}')
+        with open(path, 'wb') as file:
+            with requests.get(url) as resp:
+                resp.raise_for_status()
+                file.write(resp.content)
+    return path
--- a/test/integration_tests/wav2vec2_pipeline_test.py
+++ b/test/integration_tests/wav2vec2_pipeline_test.py
@@ -40,30 +40,31 @@ def test_pretraining_models(bundle):
 @pytest.mark.parametrize(
-    "bundle,expected",
+    "bundle,lang,expected",
    [
-        (WAV2VEC2_ASR_BASE_10M, 'I|HAD|THAT|CURIYOSSITY|BESID|ME|AT|THIS|MOMENT|'),
+        (WAV2VEC2_ASR_BASE_10M, 'en', 'I|HAD|THAT|CURIYOSSITY|BESID|ME|AT|THIS|MOMENT|'),
-        (WAV2VEC2_ASR_BASE_100H, 'I|HAD|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
+        (WAV2VEC2_ASR_BASE_100H, 'en', 'I|HAD|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
-        (WAV2VEC2_ASR_BASE_960H, 'I|HAD|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
+        (WAV2VEC2_ASR_BASE_960H, 'en', 'I|HAD|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
-        (WAV2VEC2_ASR_LARGE_10M, 'I|HAD|THAT|CURIOUSITY|BESIDE|ME|AT|THIS|MOMENT|'),
+        (WAV2VEC2_ASR_LARGE_10M, 'en', 'I|HAD|THAT|CURIOUSITY|BESIDE|ME|AT|THIS|MOMENT|'),
-        (WAV2VEC2_ASR_LARGE_100H, 'I|HAD|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
+        (WAV2VEC2_ASR_LARGE_100H, 'en', 'I|HAD|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
-        (WAV2VEC2_ASR_LARGE_960H, 'I|HAD|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
+        (WAV2VEC2_ASR_LARGE_960H, 'en', 'I|HAD|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
-        (WAV2VEC2_ASR_LARGE_LV60K_10M, 'I|HAD|THAT|CURIOUSSITY|BESID|ME|AT|THISS|MOMENT|'),
+        (WAV2VEC2_ASR_LARGE_LV60K_10M, 'en', 'I|HAD|THAT|CURIOUSSITY|BESID|ME|AT|THISS|MOMENT|'),
-        (WAV2VEC2_ASR_LARGE_LV60K_100H, 'I|HAVE|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
+        (WAV2VEC2_ASR_LARGE_LV60K_100H, 'en', 'I|HAVE|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
-        (WAV2VEC2_ASR_LARGE_LV60K_960H, 'I|HAVE|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
+        (WAV2VEC2_ASR_LARGE_LV60K_960H, 'en', 'I|HAVE|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
-        (HUBERT_ASR_LARGE, 'I|HAVE|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
+        (HUBERT_ASR_LARGE, 'en', 'I|HAVE|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
-        (HUBERT_ASR_XLARGE, 'I|HAVE|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|')
+        (HUBERT_ASR_XLARGE, 'en', 'I|HAVE|THAT|CURIOSITY|BESIDE|ME|AT|THIS|MOMENT|'),
    ]
 )
 def test_finetune_asr_model(
        bundle,
+        lang,
        expected,
-        sample_speech_16000_en,
+        sample_speech,
        ctc_decoder,
 ):
    """Smoke test of downloading weights for fine-tuning models and simple transcription"""
    model = bundle.get_model().eval()
-    waveform, sample_rate = torchaudio.load(sample_speech_16000_en)
+    waveform, sample_rate = torchaudio.load(sample_speech)
    emission, _ = model(waveform)
    decoder = ctc_decoder(bundle.get_labels())
    result = decoder(emission[0])

--- a/test/torchaudio_unittest/assets/Lab41-SRI-VOiCES-src-sp0307-ch127535-sg0042.flac
+++ b/test/torchaudio_unittest/assets/Lab41-SRI-VOiCES-src-sp0307-ch127535-sg0042.flac